关于ZAKER 开放平台 合作
钛媒体 44分钟前

入口在手,Token 我有,千问豆包卡位 Agent “开机键”

文 | 新立场 Pro

" 工具在使用者手中时才成为工具。" 海德格尔的这段话,今天用来理解 AI 硬件同样贴切。

问题在于,大模型这只 " 手 " 伸出来的时候,用户究竟愿意把它握在掌心里(手机),还是架在鼻梁上(眼镜),亦或是让它一直贴耳倾听(耳机)?

据《Z Finance》独家报道,字节跳动内部决定暂停豆包 AI 眼镜项目。想要理解这场选择,需要先回答一个更基础的问题:大模型公司为什么要做硬件?

据《晚点 LatePost》的报道,火山引擎豆包大模型日均调用量已超过 120 万亿 Token,半年增长 4 倍。国家数据局的数据显示,中国日均 Token 消耗量在一年半内增长约 300 倍。黄仁勋在 GTC 2026 的舞台上说,Token 将是未来数字世界最核心的大宗商品。

但 Token 消耗的暴涨,反而掩盖了一个更根本的问题,即这些 Token 从哪里被触发,通过什么界面进入用户的生活?

过去两年,这个问题的答案是手机屏幕和对话框。OpenClaw 的爆火将 Agent 从开发者工具推向大众用户,直接推高了对 " 随时随地触发 AI 执行 " 这一能力的需求密度。当大模型的竞争从生成式问答转向执行任务,执行链路就需要一个更靠近用户身体的物理锚点。

豆包选择的落点是操作系统,以 " 操作系统级合作 " 模式切入 AI 手机赛道,通过与手机厂商在系统层面合作,获得识别屏幕 UI 元素、模拟人工操作的核心权限;千问选择的是眼镜,千问 AI 眼镜上线首批 "AI 办事 " 能力后,支持话费充值、扫码骑车、停车缴费、语音点外卖。这些功能的共同特征是,AI 开始在真实世界里把事情做完。

两条路径的本质,是两家公司对同一个问题给出的不同工程答案:究竟改由谁来做 Agent 执行链路的物理接口。

两种优势的两种延伸

大模型公司做硬件,实际上是在回答一个从 Token 经济学中衍生出来的问题。

过去两年的 AI 竞争,核心战场在模型能力和价格。价格战把 Token 单价从三年前的高点压低了约 300 倍。但单价的崩塌没有让 AI 支出变得可预测,原因很简单:Agent 类应用让单次任务的 Token 消耗从普通对话的几十倍起跳。据腾讯科技报道,亚太区电商技术公司 Branch8 的 6 人团队,启用 Claude Code 第一个月花了 2400 美元,经过八周密集优化才勉强降到 680 美元。Token 支出管理本身已经变成了一项需要专门技能的工作。

这个成本结构,在源头上改写了很多 AI 产品的竞争逻辑。谁掌握了 Agent 的触发入口,谁就掌握了 Token 消耗的源头。而触发入口的密度,取决于设备离用户有多近、启动摩擦力有多低。这是豆包和千问同时转向硬件的真实驱动力:在 Token 消耗链路的最前端建立一个物理节点。

千问 AI 眼镜的团队跟踪了一个指标——用户交互轮次,即 AI 帮助用户完成事项的频率。夸克眼镜 S1 上线后,用户交互数对比第三方手机 AI 助手应用提升了约 6 倍。戴在脸上的 AI 之所以被调用得更频繁,原因在于感知始终在线、启动摩擦力趋近于零。

对于 Agent 而言,这种持续在场的交互密度,意味着更丰富的上下文积累,也意味着更多执行任务的触发机会。

2026 年 4 月,千问 AI 眼镜首次 OTA 升级后上线了 "AI 办事 " 能力,通过接入淘宝闪购、支付宝,支持话费充值、扫码骑车、停车缴费、语音点外卖。产品定义由此发生转移:AI 从回答问题,变成了把事情办完。

豆包确定的路径同样深入,只是方向不同。去年 12 月,豆包 AI 手机助手以 " 操作系统级合作 " 模式进入 AI 手机赛道,通过与手机厂商在系统层面合作,获得识别屏幕 UI 元素、模拟人工操作的核心权限。

实测显示," 比价肯德基套餐并下单发送截图 " 这一涉及三个应用、十二步手动操作的任务,豆包可在后台自动完成,仅支付环节需人工介入,全程耗时较人工操作缩短 72%。

目前,Agent 在大众用户中真正形成使用习惯还需要一段时间。豆包和千问现在的硬件投入,是在为一个尚未到来的需求峰值提前卡位。这是典型的平台逻辑:先占住感知节点,等 Agent 成熟之后,数据流和调用量自然会从这个节点涌入。

但平台逻辑有一个前提,设备必须在需求到来之前就已经在用户身上。这也解释了为什么千问要在眼镜之外再布局指环和耳机,毕竟单一形态覆盖不了全天候的感知需求,矩阵才能。

豆包与千问的硬件路径,都是从自身核心优势出发延伸的结果,只是各自优势所对应的最优形态不同。

豆包 AI 眼镜的项目暂停,内部给出的核心判断也很合理,大框、拍摄、语音、翻译,主流范式已被 Ray-Ban Meta 统一。2025 年,Meta 智能眼镜全年销量超过 700 万副,全球市场份额达 85.2%。在这个格局下," 能不能做 " 早已不是问题。

千问的选择,出发点同样清晰。阿里的应用生态中,话费充值、外卖点单、停车缴费,这些淘宝、支付宝的既有能力可以直接接入 Agent 执行链路,通过眼镜重新封装成 AI 原生交互形态。对于没有这套生态底座的公司,眼镜只是一个戴在脸上的语音助手;对阿里来说,眼镜是打通已有应用、建立新型触点的现实节点。

豆包深入手机操作系统,是在自己的流量分发能力地带建立 Agent 入口。千问押注可穿戴设备矩阵,是在把阿里的应用生态重新封装成 AI 原生交互形态。

把时间线拉长来看,今天产品发得多惊艳、销量跑得多猛,其实都决定不了终局。两年后,当 Agent 像网络一样融进工作流,唯一的护城河只有一条:用户习惯了从哪个入口触发它。

端侧推理如何改变成本结构

硬件入口的竞争,最终会回到一个更基础的问题上:Token 从哪里来,到哪里去,谁来付账。

Token 的价格是透明的,但 Token 里装了多少 " 智力 ",用户无从得知。4 月,AMD AI 战略总监 Stella Laurenzo 基于 6852 个 Claude Code 会话的分析显示,从今年 2 月下旬开始,Claude Opus 4.6 的推理深度大幅下降,腾讯科技也报道," 每次代码编辑前的文件阅读次数 " 从 6.6 骤降至 2.0,降幅约 70%。

这些改变没有在任何显著位置通知用户,大量开发者是在代码质量明显下降之后才开始怀疑 " 模型是不是变笨了 "。

更隐蔽的是缓存命中率对实际成本的影响。一位开发者对 Claude Code 一周数据的追踪显示,正常情况下 91% 的 Token 来自缓存命中,缓存命中价格只有标准输入价格的十分之一。如果缓存全部失效,Input 成本会暴涨到原来的 5.7 倍。

这个成本结构,是端侧模型价值主张的核心依据之一。端侧推理一次性部署后,边际成本趋近于零,没有缓存命中率的不确定性,也没有云端峰值定价的波动。对于频繁触发 Agent 任务的硬件设备,这个优势会随使用密度的增加而持续放大。

谷歌 DeepMind 4 月发布的 Gemma 4,重新划定了端侧模型的能力边界。其 E2B 和 E4B 模型推理时激活的有效参数量分别仅为 20 亿和 40 亿,在 LiteRT-LM 框架下,可在 3 秒内处理跨越两个独立技能的 4000 个输入 Token;E2B 与 E4B 原生支持函数调用,覆盖 Agent 工作流所需的核心推理路径。上下文窗口达 128K Token,在不足 1.5GB 的内存占用下可以完成运行。

这意味着一个可以调用外部工具、执行多步骤规划的端侧 Agent,其硬件门槛已降至现代中端手机的内存余量之内。

千问目前采用的云端大模型加本地轻量智能体的混合架构,是在当前端侧算力约束下的一个不错的解。据 36 氪报道,千问在 2026 年规划的硬件形态除 AI 眼镜还包括 AI 指环、AI 耳机,三种形态覆盖视觉交互、无感佩戴和音频交互三个不同维度,形成全天候的感知矩阵。

这个矩阵的核心价值在于眼镜捕获第一视角的行为数据流,这些数据反哺千问大模型迭代,模型能力提升后又优化硬件体验,形成闭环。

但 Gemma 4 这类模型的出现,正在缩短这个 " 当前 " 的有效期。当端侧模型可以在本地独立完成越来越多的 Agent 任务,云端兜底的必要性在高频轻量场景中会持续下降,Token 的消耗路径也会随之改变。

这会对当前 AI 硬件的主流云端模式,其一,端侧能力的提升会降低硬件设备对云端的依赖,让设备端 AI 从成本结构上更具竞争力;其二,当用户的 Agent 任务越来越多地在本地完成,依赖数据回流云端来驱动模型迭代的商业闭环,也需要重新设计数据获取路径。

有多少增量留在云端、有多少转移至本地,将成为整个 MaaS 商业模式需要提前应对的结构性问题。

写在最后

当 Token 消耗从对话层迁移到执行层,Agent 开始代替人操作应用,这些任务是在云端计费还是在端侧本地完成?这个问题的答案,会决定 Token 的消耗结构,进而影响 MaaS 业务的收入模型。

火山引擎超百亿元的 MaaS 业务收入目标已随着 Seed 2.0、Seedance 2.0 等模型发布、OpenClaw 爆火上调被提高。阿里成立了 ATH 事业群,两家公司在云端的 Token 战争和在硬件端的入口争夺,是同一场竞争的两个战场。谁能在硬件侧建立足够高频的 Agent 使用习惯,谁就在云端 MaaS 的下一轮增长中占据了需求端的主动权。

2026 年的 AI 硬件竞争,表面上看是眼镜和手机的形态之争,实质上是对 Agent 时代 Token 消耗入口的提前卡位。这场竞争没有快速的结论,因为 Agent 在大众用户中的真实使用习惯还在形成,端侧模型的能力边界还在被 Gemma 4 这类模型持续推进,云端 Token 的成本结构还在被缓存命中率、推理深度和定价策略悄悄改变。

《新立场》认为,决定胜负的是谁拥有足够密度和足够高频的应用场景,能让 Agent 在真实使用中持续积累上下文、优化执行能力,形成对用户的理解深度。

这个变量,更多由生态底座决定。千问和豆包的硬件分歧,是两个不同生态底座在同一个技术拐点上做出的不同押注,各自都在最擅长的地方寻找答案。

相关标签

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容