文 | 世界模型工厂
OpenAI 终于开始碰手机了。
据天风国际证券分析师郭明錤爆料,OpenAI 正在与联发科和高通合作开发智能手机处理器,立讯将作为独家系统协同设计与制造商,预计 2028 年实现量产。
这很容易被理解成一个熟悉的故事:
OpenAI 要挑战苹果,AI 手机要来了,下一个 iPhone 时刻即将发生。
但事实真的如此吗?
郭明錤同步放出了一张自己制作的 OpenAI 手机概念设计图:
没有密集的 App 矩阵,没有熟悉的输入法区域,甚至那块屏幕本身都在极力收缩存在感。
它长着手机的样子,却在每一个设计细节上否定手机。
所以,这究竟是一款创新的 AI 手机,还是对后手机时代的宣战?

把 OpenAI 这款设备称作 AI 手机,其实是一个自相矛盾的命名。
手机的本质是应用分发终端。
它的核心交互模型二十年来没有变过:解锁屏幕,找到目标应用点击,然后在应用内部完成操作。
这套体系的基石,是应用的隔离。
每一个 App 都是一座护城河完备的孤岛,数据不通,逻辑独立,需要用户亲自担任搬运工和调度员。
而大模型驱动的 AI,追求的是截然相反的东西:意图直达结果。
你说 " 帮我订一张明天去上海的机票,靠窗,下午到 ",系统直接完成。
不需要你打开携程、输入日期、滑动比价、勾选保险。
AI 的有效交互,天然需要打破应用边界,直接触达底层数据和功能。
冲突就此出现了。
手机的操作系统,无论是 iOS 还是 Android,都是为了把应用关在笼子里而设计的。
而 AI 要做的第一件事,就是打开笼子。
这不是一个用 AI 增强版手机就能解决的矛盾。
就在这两天,OpenAI CEO Sam Altman 在 X 上发布了一条帖子:
" 现在似乎是时候认真重新思考操作系统和用户界面的设计方式了(互联网也是如此;应该有一个对人和 agent 都同样适用的协议)"。
这至少说明,OpenAI 内部也在思考 AI 时代的入口和形态问题。
那么,OpenAI 这次要做的到底是什么?

要回答这个问题,就要先看看 AI 时代的硬件形态会是怎样的。
电子设备的进化,从来不只是性能的进化,它还有一条更隐蔽的线:
一直在向人的身体靠近。
1940 年代,人与计算机的交互界面,是一个需要专门房间、专门团队、专门冷却系统的大型机柜。
你需要穿戴整齐走到它面前,它离你几十米。
1980 年代,个人电脑把算力塞进桌面机箱。
屏幕离你半米,键盘需要双手操作,但至少它进了你的书房。
1990 到 2000 年代,笔记本将这套设备,折叠进一个可以放在膝盖上的薄壳,距离缩短到一把椅子的范围。
2007 年 iPhone 之后,屏幕第一次被塞进口袋,掏出来就能交互。
这个掏出来的动作,意味着从产生念头到开始操作,物理延迟被压缩到了两秒以内。
手机能成为人类历史上最普及的计算终端,不是因为它的屏幕够好,而是因为它比任何前任都更贴身。
但两秒仍然是延迟。
两秒意味着你需要中断正在做的事,腾出一只手,把设备从口袋拿到视线前方。
对于意图直达结果这个目标来说,两秒太慢了。
理想的交互,是意图产生的同时,执行就已经启动,反馈就已经送达。
这要求设备不能再停留在口袋里,它需要进入视野的边缘,进入耳道的常驻区,甚至最终进入身体本身。
所以,手机不会是这个演化序列的终点。
OpenAI 这次的硬件,从概念图来看,显然意识到了这个问题。
整张设计图没有一个地方,在鼓励用户长时间盯着屏幕。
没有应用图标,没有输入法常驻区,只有一个任务清单和四个模块(Home、Actions、Memory、Inbox)。
它的意图很明确,不要让用户的手和眼一直黏在设备上。
这和一个手机厂商优化屏占比的逻辑是相反的。
手机追求的是让你看更多,OpenAI 追求的是让你少看、甚至不看。
与其说 OpenAI 在做新手机,不如说它在用手机的外壳,做一件杀死手机的事。
从商业叙事上看,这更像是一次上市前的概念路演,抢占定义权,先立起一面 "AI 原生设备 " 的旗帜。
至于最终是不是真的要卖、能卖多少台,反而没那么重要了。
下一代 AI 硬件形态
如果手机不是 AI 时代的终极硬件,那什么才是?
这个问题现在还没有标准答案。
它可能是眼镜,可能是耳机,可能是戒指,可能是手表,甚至可能是身体植入设备。
但有一点已经很清楚:下一代 AI 硬件,不应该再以屏幕为中心。
屏幕是智能手机时代最伟大的发明之一。
它把应用、内容、社交、游戏、购物、支付全部压缩进一块屏幕,但它也把我们的想象力锁在这块屏幕里。
AI 最重要的能力,不是把更多内容塞进屏幕,而是理解人的意图,完成一个任务。
当机器开始理解目标了,屏幕的重要性就会下降。它更像确认层、反馈层、展示层,而不是任务入口本身。
所以,真正适合 AI 的硬件,首先应该是一个感知入口。
它要能听见你说什么,能看见你看见什么,理解你此刻的场景,判断你接下来想做什么,在必要时才把结果推回给你。
从这个标准看,眼镜、耳机、手表,甚至车和家庭设备,都比传统手机更接近 AI 硬件的方向。
比如,耳机适合语音,眼镜适合视觉和空间,手表适合身体状态和快速确认,车适合移动场景,家庭设备适合环境感知。
从硬件尽可能接近人体的发展路径看,眼镜、耳机、甚至未来的植入,也比手机更接近未来的 AI 设备形态。
这也是为什么,Meta 在推 AI 眼镜,亚马逊继续升级 Alexa 和 Echo,Google 重启眼镜和 XR 叙事,苹果则围绕 Vision Pro、AirPods、Watch 和 Apple Intelligence 寻找新的入口组合。
连 OpenAI 自己也不只在做手机。OpenAI 硬件团队曾被报道,在探索智能音箱、耳机、眼镜、智能灯、AI 笔(口袋设备)等方向。
换句话说,大厂们都在探索手机之外的 AI 硬件形态。
App 帝国的消融
一旦手机屏幕退场,会直接引发一个更深层的变化:
建立在图标之上的 App 体系,也随之崩塌。
APP 分发从用户选择变成了 AI 调度,变成了谁能在用户表达意图的那一秒被 Agent 选中。
一旦逻辑变了,应用商店的分发逻辑、通知系统的优先级、支付和授权的入口、数据权限的边界、平台和服务商之间的关系都会变。
这也是为什么 OpenAI 做手机,不能只看成硬件故事。
如果它只是造一台手机,那它面对的是苹果、三星、华为、小米。
但如果它想让 Agent 成为用户和 App 之间的新入口,那它真正挑战的,是整个移动互联网的前台秩序。
过去十几年,所有互联网公司都想成为超级 App,让用户不离开它,商业闭环就成立。
但 AI 时代,谁被 Agent 调用,谁就有生意;谁不被 Agent 调用,就可能被用户遗忘。
所以,OpenAI 做手机,表面是硬件,底层是入口。
AI 手机可以失败,第一代硬件可以不好用,OpenAI 甚至未必能做出一台真正流行的设备。
但只要 Agent 入口这个方向成立,移动互联网的权力结构就会被重新分配。
苹果靠 App Store 分成的帝国,谷歌靠应用生态绑定的广告体系,都会在这个趋势下面临重新定义。
AI 硬件交互新范式
不管未来 AI 设备长什么样,真正自然的交互都不会再围绕屏幕展开,那么下一个问题自然浮现:
人用什么方式来发出指令、接收结果?
答案正在收敛到一个双向结构上:语音 / 手势 + Agent。
语音负责表达意图,手势负责快速确认,Agent 负责拆解和执行任务。
简单来说,前端挣脱屏幕,后端 Agent 干活。
一旦这个结构成立,AI 硬件的交互方式就会被重新定义。
AI 时代的设备,可能不再是一个中心化终端,而是一组围绕人的感知节点。
耳机听,眼镜看,手表感知身体,手机负责身份、算力、支付和确认,Agent 在它们背后贯穿任务流。
这不是科幻式的想象,而是交互逻辑的自然演进。
键盘适合输入精确信息,屏幕适合展示复杂结果,语音适合表达意图,手势适合快速确认,Agent 适合处理过程。
这或许才是 AI 硬件真正的新范式。