关于ZAKER 合作
钛媒体 4小时前

万亿具身智能赛道,被数据卡住了

当前,通用人工智能的讨论逐渐从文本与图像转向物理世界,具身智能——赋予 AI 以物理身体,使其能感知、理解和交互真实环境,而这些正成为全球科技竞赛的下一个关键战场。

然而,与语言模型时代 " 数据天然存在 " 的繁荣景象不同,具身智能的 " 大脑 " 模型正陷入一场前所未有的 " 数据饥渴 "。训练一个能在复杂、长时序任务中泛化的具身智能大脑,需要的不再是万亿级的文本 Token,而是高质量、多模态、时空对齐的 " 人类行为数据 "。这背后,是一场从硬件架构、数据采集到处理范式的系统性革命。

资本热追,但仍不 " 完美 "

据国务院发展研究中心预测,中国具身智能 2030 年达 4000 亿元人民币,2035 年突破万亿元。与此同时,中国信通院《具身智能发展报告(2025 年)》中,首次将具身智能纳入国家未来产业重点,2025 年全球市场规模 195.25 亿元人民币。

2026 年开年仅前三个月,国内具身智能赛道融资规模已近 300 亿元,融资事件同比增长 63%。光轮智能斩获超 5 亿美元融资,创下国内该领域融资纪录;逐际动力完成 2 亿美元 B 轮融资,估值超过 10 亿美元;星海图再获 20 亿元 B+ 轮融资——资本正以加速度涌入这条赛道。

与赛道火热相对的,具身智能在真正走进生活,走进产业的过程中,却并不是一帆风顺。英特尔研究院副总裁、英特尔中国研究院院长宋继强曾明确指出:" 当前具身智能的发展,正处于‘提升能力上限’与‘保障能力下限’的双重攻坚期。大家都在展示机器人的智能能力,但很少有人关注它表现不佳时该怎么办——这正是产业化必须跨越的鸿沟 "。

虽然我们已经有了诸如宇树科技、银河通用这些具身智能 " 本体 " 的制造商,他们造的机器人已经具备了充分的灵活度,能完成翻跟斗、跳舞等 " 表演 ",但这些技术的背后更多的是通过提前预编辑好的程序执行的。换句话说,虽然当前的具身智能 " 小脑 " 已经足够发达,但在 " 大脑 " 层面,如何能让机器人更具有 " 活人感 ",更像人一样,通过自主思维去执行指令,是接下来产业关注的焦点。

对此,简智新创联合创始人朱雁鸣告诉笔者:" 今天大家看到的所有具身智能公司,其实它们真正模型化的能力,仍然停留在一些非常短时序的简单任务上,比如叠衣服、倒水、拿杯子。" 这揭示了当前产业的普遍现状:演示惊艳,但实用尚远。这些精心设计的演示任务,往往在受控环境下完成,距离能够应对家庭、工厂、物流等真实场景中复杂、多变、长链条的任务要求,还有巨大差距。

朱雁鸣认为,当前具身模型在学术上仍需突破,而在产业化和商业化上的差距更大。这种差距的核心在于,现有模型缺乏对物理世界的深刻理解和鲁棒交互能力。去年行业普遍推崇的 VLP(视觉 - 语言 - 规划)路径,其底层是语言模型,擅长基于文本指令进行规划,但其生成的行动 " 本质上只是基于语言规划出的轨迹和行为 ",与真实物理世界中 " 认知 - 行动 - 获得物理反馈 - 产生新认知 " 的持续闭环相去甚远。

因此,产业共识正在转向构建 " 世界模型 "。世界模型的核心是让 AI 理解底层的物理规律,如摩擦力、刚体动力学、空间关系等,而不仅仅是进行语言描述下的轨迹规划。这标志着具身智能的发展从 " 模仿语言逻辑 " 进入 " 学习物理法则 " 的深水区。

这个过程中,一个有趣的趋势是:大量智能驾驶(智驾)领域的人才涌入具身智能赛道,简智机器人核心成员便多来自智驾背景。朱雁鸣指出,这种迁移并非偶然,而是因为两者在技术栈(如视觉 - 语言 - 动作模型 VLA、环境模拟)和产品方法论上存在深刻共鸣。更重要的是,智驾领域所锤炼出的 " 数据驱动闭环 " 的产品迭代架构,即 " 通过真实数据持续训练、测试和优化模型 ",正是当前具身智能从演示走向实用所亟需的工程化能力。智驾从业者对物理环境交互反馈、系统测试与迭代的实践经验,能够加速具身智能产品的开发进程。

然而,无论是追求世界模型的理论突破,还是借鉴智驾的工程经验,都指向同一个核心瓶颈:高质量训练数据的极端匮乏。

具身智能的 " 数据困境 "

如果说算力是引擎,算法是蓝图,那么数据就是燃料。没有合适的燃料,再强大的引擎和精妙的蓝图也无法驱动具身智能驶向现实的彼岸。这促使一批像简智机器人这样的创业公司,没有选择去 " 卷 " 模型本身,而是转向了为行业提供 " 数据基座 " 这一更具差异化价值的基础设施赛道。

拓斯达具身智能业务线 - 矩阵智拓 CMO 王琪也曾表示,数据痛点主要体现在三个方面:一是数据标准不统一,不同企业的机器人本体构型不同,产生的数据难以互通,形成数据壁垒," 比如当前构型产生的数据能用,但是对另外的构型来说是有门槛和壁垒的 ";二是数据采集难、成本高,工业场景的复杂性导致数据采集难度大,且采集设备与人力成本高昂,尤其是对于中小企业而言,难以承担大规模数据采集的成本;三是数据隐私与安全问题,企业担心开放产线数据会泄露核心工艺,导致其不愿配合数据采集," 部分头部企业,其核心产线里面一些东西,他们自己人都进不去,我们只能暂时先等待行业规范进一步成熟,先把眼前开放的场景做完 ",王琪直言。

训练一个强大的具身智能大脑,尤其是世界模型,对数据提出了近乎苛刻的要求。单从数据采集这一点来看,其需求可以概括为三个关键维度:多模态、高精度、强因果。而当前主流的数据采集方案,在这三个维度上均面临显著痛点。

多模态层面,人类通过与世界的交互来学习,这个过程融合了视觉、听觉、触觉、力觉乃至本体感觉(知道四肢位置)。同样,具身智能模型需要重建这套多感官输入。朱雁鸣强调,触觉等非视觉模态的价值 " 更多是作为监督,或者作为结果的校验与反馈 "。例如,区分两毫米和一毫米的螺丝,视觉可能难以分辨,但触觉反馈的差异是明显的。然而,当前许多采集方案严重依赖单一视觉,导致触觉、力觉等关键模态数据缺失或质量低下。

高精度层面,模型训练需要数据在时间和空间上高度对齐。时间上,不同传感器的采集频率不同,如何确保 " 手触摸到杯子 " 的触觉信号与视频画面中的接触帧严格对应?空间上,需要将手部动作精确还原到以头部或环境为基准的绝对坐标系中。传统方案存在固有缺陷:柔性手套因佩戴差异和自身形变,导致每次测量的绝对精度不稳定;纯视觉方案在手被物体遮挡(如伸入抽屉取物)时立刻 " 失明 ",数据中断。朱雁鸣指出,这些精度漂移和遮挡问题,在家庭或工业场景中是导致方案 " 不可用 " 的重要原因,采集到的低质量数据甚至会向模型注入 " 物理幻觉 "。

强因果层面,最终用于训练的数据,必须是一条条完整的、可解释的 " 行为链 "。它不仅仅包含 " 做了什么 "(动作序列),还要包含 " 为什么这么做 "(认知与决策),以及 " 结果如何 "(物理反馈)。例如,数据需要记录 " 看到水杯(视觉)- 决定去拿(认知)- 移动手臂并调整手指姿态(动作)- 感受到杯子的重量和滑移趋势(触觉 / 力觉反馈)- 微调握力(调整)- 成功拿起(结果)" 这一完整闭环。传统采集方式只能记录动作和部分视觉,因果链是断裂的。后期若依靠大量人工进行标注和串联,成本极高且难以规模化。简智机器人方面透露,以他们每周处理超 2 万小时数据的需求估算,若全靠人工,需要近 5000 人的标注团队,这完全不现实。

显然,现有的采集技术却无法高效、高保真地生产这种数据。相对于具身智能硬件 " 本体 " 的发展迅速而言,数据瓶颈,已成为锁住具身智能大脑进化速度的那把最沉重的锁。

传统方案满足不了 " 新需求 "

面对模型训练的严苛需求,数据采集技术本身必须进行一场深刻的范式转移。传统的数据采集方案已经难以适应当下的需求。比如柔性穿戴设备精度不足、视觉采集易受遮挡、多模态数据难以对齐、采集效率低下等问题,严重影响了数据的质量与规模。要解决这些问题,必须通过技术创新,重构数据采集的硬件架构与软件流程,构建一套高精度、多模态、高效率、低成本的数据采集体系。

在硬件层面,针对手部姿态捕捉的精度与稳定性问题,主流方案是柔性手套 +IMU,其本质是通过算法估算关节角度,存在物理形变带来的固有误差。而将传统柔性采集设备迭代成与人类骨骼更相似的刚性采集设备。这种仿生学设计,通过刚性连接直接测量关节的相对位移,从物理上消除了柔性变形误差。

朱雁鸣表示,通过外骨骼式刚性结构 + 磁编码器的方式,从根本上解决了柔性结构带来的精度问题。" 人的手是由骨骼构成的,我们就用骨骼的方式去捕捉人的数据," 朱雁鸣解释道,简智机器人采用外骨骼结合磁编码器的刚性连接结构,测量所有关节的相对位移,这种方式能够实现高稳定性和高精度的姿态捕捉,避免了柔性变形带来的误差。

这正是简智机器人 Gen DAS Dex 的核心硬件设计逻辑,据朱雁鸣介绍,其外骨骼结构不仅能实现全自由度覆盖,还能依托自研磁编码器实现超高精度检测,同时兼顾轻量化设计,将自研磁编码器尺寸压缩至仅 3mm,整体体积与常见滑雪手套相当,实现穿戴无感,不影响用户正常操作;采用合金与弹性聚合复合物材质,结合重心与结构的轻量化设计,设备整体重量仅 210g,即便面对复杂操作、精准抓取等场景,也能完美记录手部动作,无负重感干扰。

同时,为了进一步提升精度与稳定性,团队还引入了实时校准与补偿机制。在每个编码器和刚性角度检测环节,实现端侧实时校准;同时,通过编码器内置的绝对温度检测,对温度变化产生的漂移进行补偿。此外,通过振动反馈、触觉反馈和视觉反馈的多特征融合,将整体漂移量降至接近于零的水平,确保在不同手型、不同场景、不同环境下,数据的精度稳定性都能得到保障。

在触觉层面,他们摒弃了低分辨率的方案,自研了高分辨率磁触觉传感器。其目标不仅是感知 " 有无接触 ",更要实现面阵式的三维力感知(法向力与切向力),以捕捉滑动、纹理、硬度等丰富信息。朱雁鸣解释,这能让模型学习到 " 微应变 " 等临界状态信息,对于理解摩擦力等物理规律至关重要。

与此同时,为解决视觉遮挡这一致命问题,简智机器人设计了 " 端侧定位 + 头手协同 " 的解决方案。在手背位置集成 IMU,并在手部下方配备独立的摄像头,通过单手 SLAM(同步定位与地图构建)技术,结合头与手的相对位置信息,进行时空坐标的还原。这种方式能够在短时遮挡或部分遮挡(如手伸入抽屉取物、手攥成团等场景)下,维持良好的持续定位能力,定位漂移量达到毫米级,确保数据采集不中断。

在更底层的系统同步上,他们通过自研 SoC 和通讯协议,实现了硬件的严格时钟同步,并将多设备间通讯延迟控制在 1 毫秒以内。在软件层面,利用 " 触觉接触 " 等高置信度事件作为 " 真值 ",对多模态数据进行动态校准与因果对齐,形成了 " 端侧双循环动态校准 " 机制,确保长时间采集的精度不漂移。

采集只是第一步,将原始数据加工成模型可用的 " 人类数据 " 是更大的挑战。朱雁鸣分享了简智机器人的解决办法:他们开发了一个端到端的处理模型,输入是原始多模态数据流,输出即是时空对齐、因果闭环、带有语义解释(COT)的标准化数据包。

这套系统带来了效率的指数级提升:首先,在采集端通过算法进行实时质检,过滤无效动作;其次,自研压缩算法将多路视频流数据压缩至原始大小的 2%,且不损失关键信息;最后,通过流式传输和云端的数据基础模型自动化处理,将原本需要数千人年的标注工作,压缩到一个小型团队即可管理。这使得大规模、多样化的数据采集成为可能。

当行业集体意识到 " 世界模型 " 需要数据来喂养时,一场围绕数据基座的深度创新已然展开。从刚性仿生硬件到端侧智能融合,再到数据基础模型驱动的自动化处理,这些系统性突破正在试图回答一个根本问题:如何高保真地记录人类在物理世界中的经验,用于训练机器人。这场 " 数据基座 " 的革命正悄然奠定着具身智能融入物理世界的基石。谁掌握了高效生产 " 人类数据 " 的能力,谁就可能掌握了打开通用具身智能时代的钥匙。

(文|Leo 张 ToB 杂谈,作者|张申宇,编辑丨杨林)

相关标签

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容