
但有问题,就会有解决问题的人。最近我们围观了一场名为 " 投海 Tech Show" 的活动现场。其中就有几位创业者,试图把 AI 变成每个人更触手可及的基础设施。
这里面包括身在校园的年轻博士,也有再次出发的产业老兵。有人致力于当下的 " 节流 ",让现有模型跑得更便宜;有人则着眼未来的 " 开源 ",去太空为 AI 寻找近乎无限的能源。
有意思的是,他们本身都与海淀这个科技创新高地联系紧密。本场活动的 Tech Show 项目均源自海淀区 " 五方六力 " 科技成果转化机制挖掘推荐,技术成果来源于清华、北大、北航、北邮等高校。
而借用海淀 " 投资于人、投资于未来 " 的理念,从这场活动看,一个不必焦虑于 AI 账单的未来,有点眉目了。
一、硬核的 00 后,要打破算力定价权
王冠博是这天最年轻的创始人之一,清华计算机博士在读,00 后。他走上台的第一件事不是介绍公司,而是讲了一个让他想清楚方向的时刻。
那是 2025 年 2 月,DeepSeek 刚刚爆火。彼时市面上还没有 Manus,也没有 Claude Code。他看着 DeepSeek 的测试数据,注意到一个细节:仅仅加入深度思考功能,Token 消耗量就跳涨了数倍。
" 那时候我就在想,未来一定不是单纯的 Chatbot 的形式," 他在台上说," 未来一定是 multi pipeline 复杂的任务流程。你只加一个深度思考,Token 就有 4 倍,甚至多出 10 倍的提升,multi pipeline 可能是千倍、甚至万倍的 Token 爆炸。"

王冠博想解决这个问题。他们把问题的解法锁定在 " 端侧 "。
在他们看来,用户并不在意模型跑在云端还是本地,他们只想要 " 又便宜又好用 "。正是基于这一理念,他们要做的不是端侧小模型,而是把云端大模型真正部署到端侧。
但这里有个非常现实的障碍,那就是内存。市面上一万元左右的消费级设备最多 24G 内存,刨去系统和应用占用,留给模型推理的不过 8G,只能跑 2B 参数的小模型,而 2B 模型根本解决不了像龙虾这类复杂任务的需求。
" 很多品牌厂商面临一个困境," 王冠博说," 能不能既将模型本地化,也把‘龙虾’本地化,而且模型本地化是能解决‘龙虾’需求的模型,它就需要是一个大十几 B 甚至百 B 的模型。"
万格智元的方案,是从算法、系统、芯片三个层次同时入手。他报出了几个数字:以 35B 的模型为例,他们的系统只需要 4.7GB 内存,内存开销大幅下降,而推理速度则在极低内存消耗下提升了约 30 倍。
台下一位投资人追问:" 怎么解决带宽限制的问题?" 王冠博的回答展示了他研究的深度:不是硬堆内存,而是改变数据加载方式," 以位宽的方式按比特去 load,之后边 load 边算,是一个极致的流水线式的调度,以一个极低的激活参数量配合 IO 带宽,让算和取、存和算来实现高效并行。"
突破是具体的:纯 CPU 就能运行 35B、80B、120B 参数大模型;把本地部署成本从万元级降到千元级。
此前万格智元完成千万级融资时,有投资方评价,这支清华博士团队用普通 CPU 实现了主流模型在本地生成 Token," 摆脱了行业对昂贵 GPU 资源的依赖 "。
概括起来,这个 00 后要做的,是 AI 时代的 " 自来水 "。不是把算力锁在云端机房里出售,而是把它带回每一台普通电脑。他这样形容自己的 00 后团队:" 能干、能熬、能做 "。
二、把 AI 装进口袋,还不用多花钱
同样在台上讲端侧的,还有另一位清华计算机系在读博士——万象智维 CEO 王拓为。
王拓为本科、博士都在清华就读,研究方向聚焦于移动端设备上的大模型系统优化。用他自己的话说,这是一件 " 比云端难得多 " 的事情。
云端有充沛的计算资源,但在端侧,算力、内存、功耗、散热,都是约束。而在给定的硬件条件下,把一个程序的性能跑到极致,是王拓为兴趣所在。

而从实际需求出发,人们不是任何时候都需要基于云侧的超强智能,很多时候,反倒希望有一种够用,但是 " 更快、更安全、更节省的本地化的算力。" 再加上,随着端侧模型结构创新和端侧推理技术演进,王拓为判断,端侧智能的窗口期已经到来。
不过这种机会未必属于已有的硬件。在王拓为看来,当前几类 AI 方案都有短板。
云侧方案看起来能力最强,但上下文并非天然存在于云上,每次调用都需要把数据重新上传组织,引入巨大的传输开销和隐私风险。而 " 无论是手机还是电脑,本质上都是以用户的通用需求为导向所设计 ",真正能稳定分配给智能体的算力资源非常有限,并且数据封闭在各自的生态里,无法形成统一的个人上下文系统。
至于 Agent 主机,虽然能在本地持续运行模型," 但依然不够便捷,依赖网络,使用链路也更长 "。
万象智维给出的解法,是一块卡片大小的端侧硬件——它以第三方的姿态,贴在手机背面或揣进口袋,连接手机、电脑、耳机等所有可穿戴设备," 在不同的设备和不同的生态之间建立起上下游汇总的渠道 "。
简单来说,他们要在这块硬件上部署本地大模型,实现敏感上下文在本地处理,让云端与本地模型高效协同。而这一切都是免费的。" 因为端侧的算力天然就被我们所拥有,用户并不需要为每一次额外调用付出成本。"
支撑这套方案的,是两套自研技术。
一个是端侧模型推理引擎 OmniInfer,集成了团队近五年的推理优化能力。王拓为及其团队曾花两个月时间反汇编底层硬件指令代码,重新编写高性能算子,最终实现了相比 CPU 方案接近 20 倍的性能提升,可部署模型参数量达到原来的 2 倍,甚至能在手机上支撑 100K 长度的超长上下文。
另外是 OmniClaw,一个端侧任务执行系统。它通过云端和本地模型协同," 在任务效果不降级的情况下实现成本的大幅下降 "。
台下投资人提问,用户从哪里切入。王拓为的答复是三步走:第一步面向海外极客用户开启众筹,让他们在本地卡片式算力平台上发挥全部构想;第二步靠口碑走向重度使用者,针对其办公和使用场景做深度优化;最终走向普通用户。
" 当我们每个人把日常全部上下文都提供给模型的时候,每个人的 Token 都不会够用。" 显然,万象智维不想让大家有这种遗憾。
三、老兵再出发,让 AI 少消耗多出活
讲完年轻人,再来看看产业老兵。
明日新程创始人李笛,是这次活动最资深的创业者。他之前最被人熟悉的身份,是 " 微软小冰之父 ",但他想做的从来不止于打造一个 " 小冰 ",而是坚信,智能体才是未来人机共生网络中属于 AI 的节点。
2025 年底,也是在中关村国际创新中心的路演日活动上,明日新程首次公开亮相。之后依托海淀区的人才与科研资源,形成专业化的 AI 技术布局。成立一个季度,已连续完成两轮融资。

第一是协同失控。他举了一个例子:晚上睡前给 AI Agent 安排了一个任务,第二天早上起来," 你会发现它们几个讨论的结果是,决定把你的邮箱全部清空,决定把一些代码写得非常乱 "。他们还做过实验发现,当多个智能体没有良好协同机制时," 往往是那个比较笨的会去说服那几个比较好的 " ——越好的模型越善于合理化对方的观点,最终拉低整体结果。
第二是成本爆炸。如果协同机制做得粗糙,没有很好的基于控制的方法去处理真正的上下文,一句 " 你好 " 就可能消耗非常非常多的 Token。
明日新程从人类智慧中破解这些难题。李笛认为,研究群体智能的运作规律,唯一蓝本就是人类。因为人类是大家所能接触到的唯一的高级认知智能体,并且,在人类社会漫长的历史周期里," 绝大部分的时候都是良币驱逐劣币。"
为此,明日新程专门梳理过 1800 年到 2020 年人类文献,拆解 " 群体智慧 " 的演进脉络,探索智能体之间的动态协同,选出 leader、通过辩论和反思形成决策的方法体系。最终,他们带来了一套名为 " 团子 " 的多智能体协同框架。
成效是显著的。李笛介绍,团子的智能深度稳定超越任何单一大模型所产生的结果,可追溯决策形成的全部过程,并且推理成本还比 Google Deep Research 低 50% 以上。
还有投资人追问:这是不是另一种 OpenClaw?而李笛表示,他们和 OpenClaw 有 30% 的相似、70% 的不同——相似在都是 reactive+proactive 的场景,不同在于,OpenClaw 完全没有多智能体协同,也没有多智能体进化,而团子有着使用强化学习的进化机制。
这带来充满想象力的前景。" 群体智能是一个全新的框架层,下面是大模型,上面是各种各样的 ToC、ToB 应用,无论你的应用是基于难题还是基于 24 小时以上的长程任务,都能通过群体智能的方式规范和约束它。"
总的来看,明日新程既要让 AI 更聪明能干,也要让 AI 更便宜可用。
四、打造极致太空 AI Token Machine,把 Token 变便宜
以上种种是为 AI" 节流 ",有人则想为 AI" 开源 "。
一苇宇航同样是扎根于海淀的一家公司。公司创始人邢若粼是北邮博士。在他眼中," 智能的上界,其实就是能源的边界。"
要用好 AI,必须掌握充分的能源。邢若粼判断,地面能源和场地终将触及天花板,有近乎无限场地和太阳能资源的太空,才是未来 AI 的最佳容器。
这绝不是异想天开。其实在 2025 年底,马斯克便公开表示:"4 到 5 年内,太阳能 AI 卫星或将成为成本最低的 AI 计算方式。" 随后,SpaceX 被曝出基于 Starlink V3 卫星改造太空算力的计划,谷歌公布了 " 太阳捕手 " 计划,一场围绕太空算力的全球竞赛,已经鸣枪。

想法很酷,当然挑战更不简单。宇宙射线会击穿芯片、造成数据翻转。传统解法是花大价钱采购抗辐射的航天级器件,但这意味着成本极高、商业化艰难。
一苇宇航走了另一条路——用软件的冗余对抗硬件的脆弱性。在老股东麟阁创投的一篇文章中可以看到,一苇宇航自研了一套基于 Rust 的双内核操作系统 RROS,而思路和 SpaceX 的 Starlink 一脉相承:接受单点失效的可能性,但通过架构冗余确保系统整体可用。根据在轨实测,RROS 可在 200 毫秒内完成故障切换,平均无故障时间超过 1 万小时。
这带来了一种诱人的商业图景:把芯片发射到太空,组成星座,用太阳能驱动算力,把能源转化成 Token,再用 Token 的收入继续加强整个制造环节。" 这是一场工业体系对地面传统的基建 IDC 模式彻底的颠覆,它是一个闭环的飞轮,这个效应会不断自我加强。"
长远看,这甚至可以形成 AI FOR AI 的循环,让 AI 自己来迭代这套太空算力系统——以后不仅地球需要 Token,太空上也需要 Token 了。
有意思的是,这个看似最为硬核的创业故事,有个颇为诗意的名字。" 一苇宇航 " 取自达摩 " 一苇渡江 " 的典故。达摩一苇渡江传播自己的理念,邢若粼和他的团队想在茫茫宇宙中 " 扩展人类意识的边界 ",并且要在五年内,追赶乃至超越 SpaceX 的 10 万瓦级卫星算力。
概括而言,一苇宇航最终优化的是端到端产生 Token 的成本。当大量算力可以在太空轨道上运转,地球上的我们,大概不必再为 AI 账单焦虑了。
写在最后
有必要再提一句这些项目的地理坐标:海淀。
一个好项目可以在一个季度内完成两轮融资,有野心改变未来的在校生不必犹豫就能大胆创业。这些事以前都是小概率,现在正变得越来越普遍。很难说这跟海淀的土壤没有关系。
跟这里的创业者聊天,很容易得到类似的反馈:在这儿做 AI 和硬科技,不用跨区就能对接研发、测试和场景。从种子期到成长期,有人帮你把投融资、政策申报、孵化服务全链条跑通。这意味着你可以把绝大部分精力,留给技术攻坚本身。
这其实是一种很稀缺的托底。在介绍中关村科学城创投生态时,中关村科学城公司副总经理聂丽霞说,海淀正在持续构建 " 投资本 + 投资源 + 强服务 " 的创投生态体系。
从这个角度看,AI 的账单大概真的会变便宜。但这不只因为创业者们在发挥才智、技术在演化进步,也因为有人愿意,先把创新本身的代价压下来一截。比起解决某一个技术命题,这也许是更重要的事。