关于ZAKER Skills 合作
极客公园 1小时前

Genesis AI 发布新模型:机器人开始挑战西红柿炒鸡蛋

Genesis AI 发布 GENE-26.5,学会用刀背运菜了。

作者|Li Yuan

编辑|靖宇

机器人终于开始学做西红柿炒鸡蛋了。

过去几年,人形机器人行业最擅长的事情,是跳舞、翻跟头、搬箱子,以及在视频里越走越像人。但普通人对机器人的期待,往往还是会回到一个很朴素的问题:它到底什么时候能帮我做家务?

这件事一直很难。

家务不是一套标准动作。鸡蛋会碎,番茄会滑,蛋液会流,刀会改变食材形状。但对机器人来说,它们是最难的一类物理世界问题。

5 月,机器人创业公司 Genesis AI 发布了自己的第一个机器人基础模型系统 GENE-26.5。视频里,机器人完成了一组很密集的灵巧操作 demo:单手打鸡蛋、双手切番茄、做奶昔、实验室移液、解魔方、整理线束、单手同时抓多个物体。

相比于过去很多让人短暂激动、随后又归于平静的机器人演示,放出的 demo 虽然不完全连贯,但是全自主操作,并且以 1 倍速展示,没有通过加速制造效果。

更重要的是,demo 里一些动作已经开始显得很像人,也碰到了一些机器人灵巧操作里的标志性难题。

比如魔方。过去机器人解魔方,通常依赖为魔方任务专门训练的系统。OpenAI 2019 年的 Shadow Hand 解魔方,就是单手灵巧操作的里程碑,但它更像一个围绕魔方打造的专门系统。Genesis AI 这次的意义不在于公布了更高成功率,而在于它声称把魔方放进了一个通用双手机器人系统里:外部求解器生成步骤,再转成语言指令,由机器人通过手眼协调和双手操作执行出来。

当然,它还远没有真的达到人类水平。

Genesis AI 方面表示,做饭 demo 中多数步骤成功率约 90% 到 95%,但最难的两个子任务——单手打蛋和用刀转移切好的番茄——拍摄时成功率只有 50% 到 60%。机器人整体速度大约达到人类的 60% 到 70%。但这个效果已经让人感到十分惊艳。

Genesis AI 本身也很年轻。公司成立于 2025 年初,已经完成 1.05 亿美元初始融资,是法国规模最大的种子轮之一,投资方包括前 Google CEO Eric Schmidt、Xavier Niel、Bpifrance 等。它正在与法国、德国、意大利的潜在客户深入谈判,目标行业包括汽车、电子、制药、物流等。

但这家公司并不是从 GENE-26.5 才开始冒出来的。

Genesis AI 背后有一条更早的技术线索:Genesis 仿真平台。这个开源项目被定义为面向 Robotics、Embodied AI 和 Physical AI 的通用物理仿真平台,核心是一套从头重建的 universal physics engine,用来模拟刚体、液体、气体、可变形物体、薄壳、颗粒材料等多种物理现象。

Genesis AI 的 CEO 周衔是 CMU Robotics Institute 机器人博士,也是生成式仿真这条研究路线的重要发起者之一。联合创始人 Th é ophile Gervet 则是前 Mistral AI 研究员。

某种意义上,这次 demo 选择做一道西红柿炒鸡蛋,也带着一点 CEO 作为华人科学家的生活经验和幽默感——它没有选择更标准化的西餐摆盘,而是选择了一道中国人再熟悉不过、但对机器人非常麻烦的家常菜。

这次发布真正重要的,不是机器人已经会做家务,而是它让我们看到:机器人开始认真挑战那些人类最习以为常、机器却最难学会的动作。通用机器人最难解决的,可能不是走路,而是手。

Genesis AI 在技术博客里写道:Human-level dexterity and capability is closer than it appears。人类级灵巧操作,可能比看起来更近了。

01

采用人类操作数据训练模型

按照 Genesis AI 的说法,这个模型面向的是机器人操作任务,输入包括语言、视觉、本体感知、触觉等多模态信息,输出的是机器人动作轨迹。它使用 flow matching 来建模轨迹的联合分布,目标不是简单识别物体,而是让机器人在真实世界里完成连续操作。

这次公开的任务,除钢琴外,大多由一个共享权重模型完成,并以 1 倍速自主执行。钢琴是例外,它是单独通过仿真强化学习训练的 policy,主要用于测试控制栈的高速 tracking 能力。

数据是这套系统的核心。

Genesis AI 官方称,GENE-26.5 背后的数据引擎主要由三类来源组成:手套数据、第一视角视频、第三人称视频

手套数据负责捕捉高保真手部动作和触觉信号;第一视角视频捕捉人在真实任务中的自然操作;第三人称视频则提供更大规模的物理互动覆盖。Genesis AI 还称,已经与合作伙伴收集了超过 20 万小时 跨模态数据。

虽然 Genesis AI 的团队在仿真领域有很强的能力,但在 GENE-26.5 的公开数据配方里,核心仍然是真实人类操作数据。仿真更多承担的是 closed-loop evaluation,也就是闭环评估和迭代加速的角色。

换句话说,真实数据负责让模型学习物理世界,仿真负责让模型更快被测量和迭代。

这套路线最后落到了几组 demo 上。

做饭 demo 是一个 4 分钟长时序任务,官方称其中包含 20 多个子任务。机器人要单手打蛋,双手配合切番茄,还要使用毛巾、盐磨、打蛋器、刀、铲子、平底锅等工具。

其中一个细节很能说明问题:在转移切好的番茄时,机器人不是简单把刀当成铲子,而是用刀背和砧板形成支撑,再通过双手协同把番茄转移出去。这个动作已经非常像人。它不是简单的 pick-and-place,而是涉及长时序、工具使用、易碎物体、软硬混合物体,以及接触状态不断变化的真实厨房环境。

实验室移液 demo 则更像工业和科研场景。机器人要抓住移液器,插入枪头,把液体转移到试管里,弹出枪头,拧上约 1 厘米的小管盖,打开离心机按钮,并把试管放进转子里。

线束整理则更接近制造业。Genesis AI 把线束缠绕认为是圣杯级的任务。线缆柔软、会变形、路径约束强,还需要胶带缠绕和双手协同,对传统工业机器人来说一直很难标准化。

不过,GENE-26.5 还不是 zero-shot。

周衔在 Business Insider 采访中说,做饭 demo 里的打蛋、切番茄等技能需要几百条相关任务轨迹。一个 30 秒复杂技能,需要几小时人类数据,再加上不到半小时机器人执行数据。

它也会失败。Zhou 说,做饭 demo 中多数步骤成功率约 90% 到 95%,但单手打蛋和用刀转移切好的番茄,拍摄时成功率只有 50% 到 60%。机器人速度大约达到人类的 60% 到 70%。

GENE-26.5 不能被写成「机器人已经会做家务了」。它更像是在证明一条技术路线:大规模人类操作数据预训练 + 少量机器人数据适配 + 仿真闭环评估,正在让机器人操作能力进入类似基础模型的训练范式。

这也反映了今年具身智能行业的一个明显变化。

过去,很多公司更强调模型架构、机器人本体,或者单个 demo 的任务效果。现在越来越多公司意识到,真正的瓶颈是高质量、可规模化、可迁移的操作数据。仅靠遥操作机器人采数据太贵、太慢,也覆盖不了人类真实劳动里的细节。于是,第一视角视频、训练手套、互联网视频、人类自然工作流数据,开始变成新的竞争中心。

02

手不是模型的外设,

Genesis AI 要做一个系统

这次 Genesis AI 最引人注意的,不只是模型,还有手部的灵巧操作。

视频里那只手看起来非常像人,有接近人手的比例、手指形态和多接触能力。

最能反应手部的灵巧操作的 demo 之一,是单手同时抓多个物体。

机器人用一只手同时抓起四个不同尺寸的物体,直接夹在指缝中搬运。这个动作之所以让人印象深刻,不只是因为它一次抓了很多东西,而是因为它展示了人手最常见、也最难被机器人复刻的一种能力:同一只手里的手指可以分工。

人类平时拿钥匙、手机、杯子、纸巾,常常就是这么做的。它不是一次标准抓取,而是一组临时组合出来的多接触姿态。

这种动作会让人觉得机器人突然「像人」了。就像 Figure 的机器人学会用屁股推洗碗机一样,真正打动人的不是动作本身有多复杂,而是它突然出现了一种人类在日常生活里自然形成的身体策略:手不够用时,就用指缝;正面推不方便时,就用身体别的部位顶一下。

这当然需要灵巧手本身有足够强的能力。但至少在 Genesis AI 这里,一个判断已经很清楚:如果最终目标是人类级操作,系统的每一层都要支持它。模型、手、手套、控制栈和仿真,不能再被拆成彼此独立的模块。

周衔在 Business Insider 采访中,把 Genesis AI 和 Physical Intelligence 这类更偏模型路线的公司区分开来。他说,Genesis AI 要做的是整套系统,包括模型、机器人手、训练手套、仿真器,最终还包括机器人本体。全栈公司的好处在于,当你设计硬件时,你知道自己到底需要什么。

这句话几乎可以解释 Genesis AI 为什么这么重视手。

在目前的 demo 中,GENE-26.5 使用的是舞肌科技的灵巧手,已经很让人印象深刻。

Genesis AI 展示了一个 1 倍速弹 Rush E 的视频。它能看出这只手本身的速度、落点精度和多指协调能力已经很强。只是从技术归因上看,它不是 GENE-26.5 通用模型能力的直接证明,而是一个单独通过仿真强化学习训练、并由人类示范引导的策略,主要用来验证控制栈的高速准确跟踪能力。

而 Genesis AI 与舞肌共同设计了下一代手。简单说,下一代手要更像人。

公开材料里,Genesis AI 将这只下一代手称为 Genesis Hand 1.0。它会更接近人手,目标是 1:1 匹配人手尺寸,拥有 20 个主动、可反驱自由度,手掌和手指覆盖软材料,用来模拟人类皮肤的软接触物理。在 Business Insider 采访里,Zhou 也提到,未来手部的电机将直接放在手内。

这条路线本身也很值得看。

绳驱手更接近人类「前臂肌肉 + 手部肌腱」的结构,优点是手指可以更轻、更细,手型更自然。但它也会带来摩擦、松弛、回差、张力维护和长期磨损等工程问题。Figure、Tesla、1X 都在不同阶段探索过类似方向。

Figure 最近展示的新一代手型也引发了不少讨论。相比 Genesis AI 这只看起来非常像人手的方案,Figure 的手仍然更工程化、更笨重。公开讨论中,Figure CEO Brett Adcock 曾表示,Figure 第一代手采用过类似 Tesla 和 1X 的绳驱方案,但后来认为这是错误工程选择,很早就转向了掌心集成电机、再通过机械结构传动到手指的方案。

这说明,灵巧手的路线之争,并不只是「像不像人」。

Figure 要解决的是:这只手能不能装进一台要量产、要进家庭或工厂、要长期干活的人形机器人里。它要考虑可靠性、维护、整机集成、成本、重量、供电和耐久性。

Genesis AI 关注的的是:人类手部能力能不能尽量低损失地进入模型。

人类手部数据非常丰富,但人手和机器人手形态不同。传统方法往往要做复杂的动作重映射,把人类动作重新映射到机器人关节空间里。这个过程会带来信息损失,也会让模型学习到很多不属于人类动作本身、而是机器人硬件限制带来的东西。

这也是为什么「严肃的具身智能公司,最后都会重新遇到硬件」这个判断开始变得越来越有解释力。

03

一家从物理引擎长出来的机器人公司

Genesis AI 不是一家已经反复出现在聚光灯下的机器人公司。

它成立时间很短,但这次 GENE-26.5 一发布,就迅速进入了具身智能圈的讨论中心。

要理解这家公司为什么能在第一次模型发布里做出这样的展示,不能只看这次 demo,也要看另一个 Genesis AI:Genesis 仿真平台。

这个开源项目更早被外界关注。它被定义为面向 Robotics、Embodied AI 和 Physical AI 的通用物理仿真平台,核心是一套从头重建的物理引擎,可以模拟刚体、液体、气体、可变形物体、薄壳、颗粒材料等多种物理现象。

这也是 Genesis AI 和很多机器人公司的不同之处:它不是只从机器人本体开始,也不是只从大模型开始,而是从「物理世界如何被模拟、生成和评估」这个问题长出来的。

早在 2023 年,周衔、Th é ophile Gervet、Zhenjia Xu、Yi-Ling Qiao、Tsun-Hsuan Wang 等人就在一篇 position paper 中提出过一个方向:用生成式仿真自动生成任务、场景和训练监督,规模化训练机器人技能,最终走向通用机器人。

这个思路后来变成了 Genesis AI 很重要的竞争力。

极客公园了解到,Genesis AI 的能力之一,是自动化、规模化地生成多样任务和数据。传统仿真往往服务于一个明确任务,比如火星车着陆、某个机械臂流程、某类工业装配;但通用机器人要面对的是开放世界,任务、物体、材质、工具和动作组合几乎无限扩展。

在 GENE-26.5 这次发布里,Genesis AI 公开呈现出来的路线,是用真实人类操作数据训练模型,再用仿真做闭环评估和迭代加速。也就是说,真实数据负责学习物理世界,仿真负责测量模型、筛选模型、加快模型迭代。

极客公园还了解到,围绕「自动化、规模化生成任务」这件事,Genesis AI 已经有了更进一步的思考,后续可能会公布。

这会是一个很关键的变量。

如果说近期的技术路线切换中,大家已经比较明确:真实、但不完全依赖真机遥操作的数据,是下一步的关键;那么仿真在机器人基础模型中的位置,仍然没有被完全确认。它到底会主要用来评估,还是能进一步承担任务生成、数据生成和训练环境扩展,仍然是行业正在回答的问题。

但可以确定的是,它一定仍然在未来的具身智能中十分重要。

这也是 Genesis AI 的底牌:它不只是有一个机器人模型,也不只是有一只灵巧手。它背后还有一套试图生成物理世界、生成任务、评估模型的 Genesis AI 平台。

除此之外,虽然此次发布了家庭场景的 demo,Genesis AI CEO 周衔对具身智能未来节奏的判断,并不完全是「机器人马上进入家庭」。

极客公园了解到,周衔认为,具身智能在实验室环境中,有望在一到两年内进入类似 GPT-3.0 的阶段。也就是说,专业研究者会看到明显的能力跃迁,并对技术路线形成相对基本的共识。

但这距离公众能安全、可靠地使用机器人,还有很长一段路。

语言模型进入 GPT-3.5 或 GPT-4 阶段后,普通人才真正感受到它能稳定完成日常任务;机器人要达到类似阶段,门槛会更高。因为机器人不是在屏幕上输出文字,而是直接和物理世界交互。语言模型说错一句话可以撤回,机器人打翻水杯、撞坏设备、划破食材,都是现实损失。

也因此,周衔判断,具身智能真正走向大规模商业部署,可能需要达到类似 GPT-4.0 甚至 GPT-4.5 的成熟度。参考自动驾驶十多年仍在持续迭代的经验,机器人商业化不会是一两年内完成的事情,5 年甚至更久,都是更合理的预期。

* 头图来源:Genesis AI

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

你如何看待 Genesis AI ?

相关标签

相关阅读

最新评论

没有更多评论了
极客公园

极客公园

这里汇聚着优秀的产品观察报道、高质量的线下活动

订阅

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容