
除了华为、阿里千问、Rokid、雷鸟、小米这些老玩家,连老板电器都推出 AI 烹饪眼镜,京东方也做了骑行眼镜……百镜齐放,但大体上在围着三件事卷:谁能做得更轻、谁的摄像头更清晰、谁的镜片上能塞进更大更好的显示屏。
热闹之下,有一个数据通常会被忽略。
目前主流电商平台上,AI 眼镜的退货率高得惊人,普遍在 30% 左右,在冲动消费占大头的直播渠道,退货率甚至能飙到 40% 到 50%。
用户因为新鲜感下单,戴了几天,默默点了退货。销量高开低走、退货率居高不下,就是众多 AI 眼镜的「生命周期」。
说白了,尝鲜期过去后,消费者就会开始产生这样的疑惑:戴上之后它到底能帮我干什么。
就在今天,科大讯飞在澳门发布了旗下首款 AI 眼镜。这副 40 克的眼镜没有卷像素、卷全彩大屏、卷时尚联名,把核心能力押注在一个看起来十分常见的能力上——翻译。

发布会前夕,APPSO 和科大讯飞副总裁王玮、穿戴设备业务部总经理林会杰聊了聊。聊到后半段,话题从具体的产品技术转移到了一个更大的命题上:AI 眼镜下半场的关键,到底在硬件层面还是在 AI 工作流?
AI 眼镜的「奇点」,是让人愿意一直戴
百镜大战之后,在现有供应链里攒出一款智能眼镜真不难,华强北两周就能给你出一个样机。但难的是,你怎么给用户一个「一直佩戴」的理由。
对于第一次做 AI 眼镜的讯飞来说,这也是个绕不开的坎。
王玮跟 APPSO 聊起讯飞做 AI 眼镜的起点,其实源于一个非常具体的画面:你想啊,翻译机在展会、小型商务洽谈这些场景里是很好用的,甚至公司共用一台就够。但总有一些时刻,当你在国外旅游或者某些场合,你不方便掏出设备和低头看屏幕,不想等翻译结果打断说话的自然节奏。
你希望交流是「沉浸式」的,眼神始终对着彼此,对话顺畅流动,翻译像空气一样感受不到存在。这副眼镜的起点,就是用户对那种「无感」体验的期待。
这种「物理中断」,是讯飞看了无数个翻译机用户的真实反馈后,攒下来的痛点。做 AI 眼镜的公司可以一夜之间冒出来,但做翻译的底子,真的没法速成。
讯飞翻译机卖了 100 万台、翻译了 10 亿次。讯飞同传跑了 42 万场国际会议,覆盖 50 多个国家,触达 4 亿观众,连续 8 年服务全国两会。

去年 10 月讯飞已经推出了一款翻译耳机。耳机验证了两件事:用户确实需要释放双手的穿戴式翻译;端到端的同传在穿戴设备上是跑得通的,反应速度能掐在 2 秒以内。
但耳机只管耳朵,在林会杰看来,耳机的局限在于它是一个「听觉」设备(现在也开始加摄像头了),眼镜则可以增加视觉的模态,多种模态叠加在一起,跨语言沟通的信息输入就丰富多了。
说白了,眼镜上有摄像头可以拍照翻译,有显示可以投射字幕让你不用低头看手机,还能放更多的麦克风做定向降噪。
用王玮的话说就是,「眼镜离人的眼睛、耳朵、嘴巴最近,它是物理世界与数字世界天然的桥梁,让翻译像呼吸一样自然发生。」
而到了 2026 年,供应链成本开始被拉下来了,国补也首次把智能眼镜纳了进来,再加上星火 X2 大模型云端翻译能力的提升,天时地利凑齐了。

40 克,一道系统工程题
讯飞这款 AI 眼镜,我戴上之后第一反应是比想象中轻。它集成了微型显示屏、摄像头、5+1 麦克风矩阵、喇叭,但整机重量被死死卡在了 40 克。

Meta Ray-Ban 是 49 克,但它没有显示屏;
Rokid Glasses 也是 49 克,带显示,但比讯飞重了将近 25%;
华为 AI 眼镜确实轻,35.5 克,但它没有显示屏。
在「带显示屏」的智能眼镜阵营里,讯飞目前几乎做到了行业最轻。
为什么非得是 40 克?林会杰说,这个数字是他们用模拟仿真和海量调研死磕出来的。欧美人的头型和体型对重量的钝感力比较强,Meta 做到 50 多克他们依然觉得能接受。但亚洲人的颅骨结构和鼻梁高度不同,对重量极度敏感。
对于中国用户来说,45 克是一道分水岭,超过这个分量,戴久了就会有明显的压迫感。40 克,是长时间佩戴的「舒适阈值」。
为了抠掉这几克,团队在工程上跟供应链磨了很久。最关键的一招,是用树脂镜片替代了传统的玻璃镜片。

林会杰透露,讯飞应该是行业里第一个在带显示的智能眼镜上把全贴合树脂工艺跑通的。研发过程中经历了非常多尝试和失败,才最终把树脂材料用在了显示镜片上,但回报是巨大的,单靠镜片这一项,就比玻璃方案轻了 30% 到 40%。
再加上定制的 0.15CC 微型光机、微型摄像头模组,镜框镜腿一体成型。芯片选型和算法做了深度耦合:同样的功能别家可能要 100mAh 电池,讯飞可能 50mAh 就够了。

这是一道系统工程题,没有捷径,每一环都要跟供应链反复磨合良品率。树脂镜片、微型光机、低功耗芯片、算法 - 硬件耦合,哪一环掉链子,重量都得回到 50 克以上。
唇动识别降噪,用眼睛帮耳朵听
翻译固然是讯飞的舒适区,但这副眼镜上,讯飞还首发了一个有点科幻的技术——唇动识别降噪,这是多模态降噪系统的核心部分。

系统实时通过「看到谁的嘴在动」,来辅助判断「该听谁的声音」, 从而在嘈杂的多人混声中,精准地把目标人物的语音「抠」出来。
这就实现了「看谁翻谁」的效果,你的眼镜盯着谁,耳边响起的、镜片上跳出来的,就是谁的翻译字幕。
这个技术直接决定很多场景的翻译质量,因为翻译准不准,有一个重要的前提听得清不清。
安静的会议室里,其实目前的翻译软硬件都可以较好处理交流问题。但讯飞 AI 眼镜重要的一个用户群是商务人士,他们真正需要用到的翻译场景是什么?是展会、商务酒会、机场,环境噪音随便都能 80 到 90 分贝。传统翻译工具在这种环境下,准确率直接掉进马里亚纳海沟。
高噪场景下,唇动识别降噪让识别准确率提升了 50% 以上。林会杰解释说,这并不是单纯看口型,它融合了声源位置增强、目标人锁定等一整套多模态降噪系统,各路信号在实际使用中自动协同。
这个能力也不是拍脑袋想出来的。讯飞在大型会议系统和汽车智能座舱里,搞这种多通道语音分离和多模态降噪已经很多年了,在 CHiME 国际语音分离大赛上拿过 6 连冠。
王玮还给我们分享了一个几年前的内部 Demo:几个研究员同时讲话,人耳完全分不清,系统把每个人的声音干净利落分离出来,谁说了什么都清清楚楚。
这事儿有趣的地方在于,以前开大会,你有足够的物理空间塞麦克风,有服务器的算力,有插座供电。现在,你要把这套复杂的视觉 - 音频融合算法,塞进一副 40 克、算力和功耗被极度压榨的眼镜里。

讯飞做硬件的路径是「大设备验证、小设备迁移」。在会议系统和汽车上跑通的算法压缩到眼镜端侧。唇动识别降噪需要视觉 - 音频配对数据、端侧实时处理能力、多麦克风硬件的联合调优,单靠现成算法集成难以实现。
降噪的准确性直接决定翻译的准确性,这也是整条工作流的第一道关卡。
「全能翻译」背后的基础设施
听得清之后,才是译得准的问题。
讯飞 AI 眼镜支持 122 种语言的实时互译,划分了同声传译(听演讲)、面对面翻译(商务洽谈)、通话翻译(跨国电话)和线上同传(接腾讯会议或 Zoom)等四种模式,摄像头还能直接拍 PPT, 做外文资料翻译。

这大概是目前市面上唯一一款能在你打电话时,同时帮你做跨国翻译和记录的眼镜。它的路径是这样的:眼镜通过蓝牙挂载在手机上,捕捉到电话那头的英语,端到端同传模型全自动翻译,再把你的中文回答翻译成英文顶回去,延迟在秒级。
也就是说,你在电话这头说中文,老外在那头听到的是你的音色克隆出来的英文。电话一挂,眼镜甚至能帮你把一份结构化的会议纪要发你。
过去,传统的翻译系统是「老三样」:语音识别(ASR)→文本翻译(MT)→语音合成(TTS)。这套方案最大的毛病就是延迟大,而且每过一个环节,信息的「语义损失」就多一层。
讯飞这次在眼镜上搭载端到端的语音同传大模型,跳过了中间的文本转译步骤,直接实现「语音进、语音出」,把首字响应时间压进了 2 秒。云端撑腰的是星火 X2 模型(293B 参数的 MoE 架构,基于华为昇腾训练)。

讯飞这款眼镜在翻译功能上花的功夫,这有点像手机行业卷影像,拍照功能谁都有,但我有 2 亿像素,有 10 倍长焦,有 4K live 图,甚至能覆盖专业摄影场景。
翻译之后,AI 工作流才开始
到了这一步,你会发现,讯飞想做的已经不只是「翻译工具」了。这大概也是为什么它不叫「翻译眼镜」,而被视「眼前的超级 AI 助理」。
林会杰认为,「眼镜更像是一个戴在眼前的超级计算机,带有显示、摄像头、语音能力,它的配置跟手机、PC 基本一样。」
承载这层能力的是讯飞的 GlassClaw,这个 Agent 能调用大模型能力、接入生态服务、做多模态理解,把从听懂到干活的整个过程打通,同时也支持 OpenClaw 等第三方 Agent 接入。

林会杰分享了他自己使用 GlassClaw 的日常工作流:他出门不用频繁掏手机。在路上走着,可以直接用语音唤醒 GlassClaw,让它调取手机通讯录、找客户拨号,电话接通自动开翻译。
跟客户面对面聊天时,突然需要查阅之前的某份合同纪要,直接盲操吩咐眼镜,眼镜会去检索他的电脑资料,提取出要点并同步到镜片上。
甚至开完会后,眼镜自动做完多模态的角色区分(谁说了什么),输出结构化纪要,他直接语音:「把纪要以邮件形式发给项目组,并把下周三的复盘会同步到日历上。」

当初让 AI 眼镜出圈的提词器功能,在这款眼镜里也迎来升级。
讯飞 AI 眼镜的智能提词器功能做到了语义跟随,说到哪跟到哪,不再是机械按速度滚动,可以做自然的智能语义理解和跟随。配套的充电胶囊可以当遥控器,按键切换和暂停文稿。

王玮的判断是,未来的眼镜不再只是很简单的一副眼镜,而是你穿戴最方便的一个随身助理。
市场上单做翻译或单做 AI 助手的产品不少,但把「翻译 + 记录 + 纪要 + 跨端执行」串成顺滑的工作流,需要语音、翻译、大模型、智能体(Agent)四种底层能力同时在线,且环环相扣。
讯飞这种全栈的技术能力,恰好在眼镜这个载体上找到了合适的闭环。
AI 眼镜的下半场,拼的是什么
过去两年,AI 浪潮裹挟着整个硬件行业寻找那个所谓的「Next Gen」入口。
AI Pin 翻车了,各种智能吊坠无疾而终,虽然 AI 硬件的产品形态和技术路线各异,但行业也逐渐形成一些共识: AI 需要眼睛,它必须能实时感知人类所处的三维物理世界。
AI 眼镜未必不是最终形态,但它是目前唯一能够全天候、第一视角承载视觉与听觉输入的形态。
王玮在采访里提到一个挺有意思的预判:「未来的数字生活三件套,大概率是电脑、手机和眼镜。眼镜不是手机的配件,它自己就是一台架在鼻梁上的独立主机。」
眼镜天然适合做连接物理世界和数字世界的设备。而且硬件本身还有很长的迭代空间:显示会从单色走向全彩、从 2K 走向 4K;摄像头和麦克风还会向 AI 原生的 token 编码方式升级。王玮说这些技术路径已经开始有比较明晰的发展方向了。

过去一年 APPSO 测过、写过不少 AI 眼镜。回头看百镜大战,行业其实已经分化出了两条不同的路:
一条是「做最好的眼镜,让 AI 成为加分项」。 Meta Ray-Ban 是这个逻辑:用时尚设计和品牌文化来对冲用户对 AI 能力的低频刚需。
另一条是「做更深的 AI 工作流,让眼镜成为新的电脑」。 讯飞选择的就是这条路。两条路指向不同的竞争维度,但后一条更难走,因为它要求你同时具备硬件工程能力和 AI 全栈能力,缺一不可。
AI 眼镜的下半场,真正的分水岭在于,谁能把 AI 揉进高度细分的真实场景里,替用户把一件件琐碎任务给办了。
让眼镜回归眼镜, AI 老老实实当「牛马」。
最后能留下来的设备,我想大概是这样的:当你摘下它的时候,会突然觉得眼前的世界变得沉重而低效。