万亿具身智能赛道，被数据卡住了

当前，通用人工智能的讨论逐渐从文本与图像转向物理世界，具身智能——赋予 AI 以物理身体，使其能感知、理解和交互真实环境，而这些正成为全球科技竞赛的下一个关键战场。

然而，与语言模型时代 " 数据天然存在 " 的繁荣景象不同，具身智能的 " 大脑 " 模型正陷入一场前所未有的 " 数据饥渴 "。训练一个能在复杂、长时序任务中泛化的具身智能大脑，需要的不再是万亿级的文本 Token，而是高质量、多模态、时空对齐的 " 人类行为数据 "。这背后，是一场从硬件架构、数据采集到处理范式的系统性革命。

资本热追，但仍不 " 完美 "

据国务院发展研究中心预测，中国具身智能 2030 年达 4000 亿元人民币，2035 年突破万亿元。与此同时，中国信通院《具身智能发展报告（2025 年）》中，首次将具身智能纳入国家未来产业重点，2025 年全球市场规模 195.25 亿元人民币。

2026 年开年仅前三个月，国内具身智能赛道融资规模已近 300 亿元，融资事件同比增长 63%。光轮智能斩获超 5 亿美元融资，创下国内该领域融资纪录；逐际动力完成 2 亿美元 B 轮融资，估值超过 10 亿美元；星海图再获 20 亿元 B+ 轮融资——资本正以加速度涌入这条赛道。

与赛道火热相对的，具身智能在真正走进生活，走进产业的过程中，却并不是一帆风顺。英特尔研究院副总裁、英特尔中国研究院院长宋继强曾明确指出：" 当前具身智能的发展，正处于‘提升能力上限’与‘保障能力下限’的双重攻坚期。大家都在展示机器人的智能能力，但很少有人关注它表现不佳时该怎么办——这正是产业化必须跨越的鸿沟 "。

虽然我们已经有了诸如宇树科技、银河通用这些具身智能 " 本体 " 的制造商，他们造的机器人已经具备了充分的灵活度，能完成翻跟斗、跳舞等 " 表演 "，但这些技术的背后更多的是通过提前预编辑好的程序执行的。换句话说，虽然当前的具身智能 " 小脑 " 已经足够发达，但在 " 大脑 " 层面，如何能让机器人更具有 " 活人感 "，更像人一样，通过自主思维去执行指令，是接下来产业关注的焦点。

对此，简智新创联合创始人朱雁鸣告诉笔者：" 今天大家看到的所有具身智能公司，其实它们真正模型化的能力，仍然停留在一些非常短时序的简单任务上，比如叠衣服、倒水、拿杯子。" 这揭示了当前产业的普遍现状：演示惊艳，但实用尚远。这些精心设计的演示任务，往往在受控环境下完成，距离能够应对家庭、工厂、物流等真实场景中复杂、多变、长链条的任务要求，还有巨大差距。

朱雁鸣认为，当前具身模型在学术上仍需突破，而在产业化和商业化上的差距更大。这种差距的核心在于，现有模型缺乏对物理世界的深刻理解和鲁棒交互能力。去年行业普遍推崇的 VLP（视觉 - 语言 - 规划）路径，其底层是语言模型，擅长基于文本指令进行规划，但其生成的行动 " 本质上只是基于语言规划出的轨迹和行为 "，与真实物理世界中 " 认知 - 行动 - 获得物理反馈 - 产生新认知 " 的持续闭环相去甚远。

因此，产业共识正在转向构建 " 世界模型 "。世界模型的核心是让 AI 理解底层的物理规律，如摩擦力、刚体动力学、空间关系等，而不仅仅是进行语言描述下的轨迹规划。这标志着具身智能的发展从 " 模仿语言逻辑 " 进入 " 学习物理法则 " 的深水区。

这个过程中，一个有趣的趋势是：大量智能驾驶（智驾）领域的人才涌入具身智能赛道，简智机器人核心成员便多来自智驾背景。朱雁鸣指出，这种迁移并非偶然，而是因为两者在技术栈（如视觉 - 语言 - 动作模型 VLA、环境模拟）和产品方法论上存在深刻共鸣。更重要的是，智驾领域所锤炼出的 " 数据驱动闭环 " 的产品迭代架构，即 " 通过真实数据持续训练、测试和优化模型 "，正是当前具身智能从演示走向实用所亟需的工程化能力。智驾从业者对物理环境交互反馈、系统测试与迭代的实践经验，能够加速具身智能产品的开发进程。

然而，无论是追求世界模型的理论突破，还是借鉴智驾的工程经验，都指向同一个核心瓶颈：高质量训练数据的极端匮乏。

具身智能的 " 数据困境 "

如果说算力是引擎，算法是蓝图，那么数据就是燃料。没有合适的燃料，再强大的引擎和精妙的蓝图也无法驱动具身智能驶向现实的彼岸。这促使一批像简智机器人这样的创业公司，没有选择去 " 卷 " 模型本身，而是转向了为行业提供 " 数据基座 " 这一更具差异化价值的基础设施赛道。

拓斯达具身智能业务线 - 矩阵智拓 CMO 王琪也曾表示，数据痛点主要体现在三个方面：一是数据标准不统一，不同企业的机器人本体构型不同，产生的数据难以互通，形成数据壁垒，" 比如当前构型产生的数据能用，但是对另外的构型来说是有门槛和壁垒的 "；二是数据采集难、成本高，工业场景的复杂性导致数据采集难度大，且采集设备与人力成本高昂，尤其是对于中小企业而言，难以承担大规模数据采集的成本；三是数据隐私与安全问题，企业担心开放产线数据会泄露核心工艺，导致其不愿配合数据采集，" 部分头部企业，其核心产线里面一些东西，他们自己人都进不去，我们只能暂时先等待行业规范进一步成熟，先把眼前开放的场景做完 "，王琪直言。

训练一个强大的具身智能大脑，尤其是世界模型，对数据提出了近乎苛刻的要求。单从数据采集这一点来看，其需求可以概括为三个关键维度：多模态、高精度、强因果。而当前主流的数据采集方案，在这三个维度上均面临显著痛点。

多模态层面，人类通过与世界的交互来学习，这个过程融合了视觉、听觉、触觉、力觉乃至本体感觉（知道四肢位置）。同样，具身智能模型需要重建这套多感官输入。朱雁鸣强调，触觉等非视觉模态的价值 " 更多是作为监督，或者作为结果的校验与反馈 "。例如，区分两毫米和一毫米的螺丝，视觉可能难以分辨，但触觉反馈的差异是明显的。然而，当前许多采集方案严重依赖单一视觉，导致触觉、力觉等关键模态数据缺失或质量低下。

高精度层面，模型训练需要数据在时间和空间上高度对齐。时间上，不同传感器的采集频率不同，如何确保 " 手触摸到杯子 " 的触觉信号与视频画面中的接触帧严格对应？空间上，需要将手部动作精确还原到以头部或环境为基准的绝对坐标系中。传统方案存在固有缺陷：柔性手套因佩戴差异和自身形变，导致每次测量的绝对精度不稳定；纯视觉方案在手被物体遮挡（如伸入抽屉取物）时立刻 " 失明 "，数据中断。朱雁鸣指出，这些精度漂移和遮挡问题，在家庭或工业场景中是导致方案 " 不可用 " 的重要原因，采集到的低质量数据甚至会向模型注入 " 物理幻觉 "。

强因果层面，最终用于训练的数据，必须是一条条完整的、可解释的 " 行为链 "。它不仅仅包含 " 做了什么 "（动作序列），还要包含 " 为什么这么做 "（认知与决策），以及 " 结果如何 "（物理反馈）。例如，数据需要记录 " 看到水杯（视觉）- 决定去拿（认知）- 移动手臂并调整手指姿态（动作）- 感受到杯子的重量和滑移趋势（触觉 / 力觉反馈）- 微调握力（调整）- 成功拿起（结果）" 这一完整闭环。传统采集方式只能记录动作和部分视觉，因果链是断裂的。后期若依靠大量人工进行标注和串联，成本极高且难以规模化。简智机器人方面透露，以他们每周处理超 2 万小时数据的需求估算，若全靠人工，需要近 5000 人的标注团队，这完全不现实。

显然，现有的采集技术却无法高效、高保真地生产这种数据。相对于具身智能硬件 " 本体 " 的发展迅速而言，数据瓶颈，已成为锁住具身智能大脑进化速度的那把最沉重的锁。

传统方案满足不了 " 新需求 "

面对模型训练的严苛需求，数据采集技术本身必须进行一场深刻的范式转移。传统的数据采集方案已经难以适应当下的需求。比如柔性穿戴设备精度不足、视觉采集易受遮挡、多模态数据难以对齐、采集效率低下等问题，严重影响了数据的质量与规模。要解决这些问题，必须通过技术创新，重构数据采集的硬件架构与软件流程，构建一套高精度、多模态、高效率、低成本的数据采集体系。

在硬件层面，针对手部姿态捕捉的精度与稳定性问题，主流方案是柔性手套 +IMU，其本质是通过算法估算关节角度，存在物理形变带来的固有误差。而将传统柔性采集设备迭代成与人类骨骼更相似的刚性采集设备。这种仿生学设计，通过刚性连接直接测量关节的相对位移，从物理上消除了柔性变形误差。

朱雁鸣表示，通过外骨骼式刚性结构 + 磁编码器的方式，从根本上解决了柔性结构带来的精度问题。" 人的手是由骨骼构成的，我们就用骨骼的方式去捕捉人的数据，" 朱雁鸣解释道，简智机器人采用外骨骼结合磁编码器的刚性连接结构，测量所有关节的相对位移，这种方式能够实现高稳定性和高精度的姿态捕捉，避免了柔性变形带来的误差。

这正是简智机器人 Gen DAS Dex 的核心硬件设计逻辑，据朱雁鸣介绍，其外骨骼结构不仅能实现全自由度覆盖，还能依托自研磁编码器实现超高精度检测，同时兼顾轻量化设计，将自研磁编码器尺寸压缩至仅 3mm，整体体积与常见滑雪手套相当，实现穿戴无感，不影响用户正常操作；采用合金与弹性聚合复合物材质，结合重心与结构的轻量化设计，设备整体重量仅 210g，即便面对复杂操作、精准抓取等场景，也能完美记录手部动作，无负重感干扰。

同时，为了进一步提升精度与稳定性，团队还引入了实时校准与补偿机制。在每个编码器和刚性角度检测环节，实现端侧实时校准；同时，通过编码器内置的绝对温度检测，对温度变化产生的漂移进行补偿。此外，通过振动反馈、触觉反馈和视觉反馈的多特征融合，将整体漂移量降至接近于零的水平，确保在不同手型、不同场景、不同环境下，数据的精度稳定性都能得到保障。

在触觉层面，他们摒弃了低分辨率的方案，自研了高分辨率磁触觉传感器。其目标不仅是感知 " 有无接触 "，更要实现面阵式的三维力感知（法向力与切向力），以捕捉滑动、纹理、硬度等丰富信息。朱雁鸣解释，这能让模型学习到 " 微应变 " 等临界状态信息，对于理解摩擦力等物理规律至关重要。

与此同时，为解决视觉遮挡这一致命问题，简智机器人设计了 " 端侧定位 + 头手协同 " 的解决方案。在手背位置集成 IMU，并在手部下方配备独立的摄像头，通过单手 SLAM（同步定位与地图构建）技术，结合头与手的相对位置信息，进行时空坐标的还原。这种方式能够在短时遮挡或部分遮挡（如手伸入抽屉取物、手攥成团等场景）下，维持良好的持续定位能力，定位漂移量达到毫米级，确保数据采集不中断。

在更底层的系统同步上，他们通过自研 SoC 和通讯协议，实现了硬件的严格时钟同步，并将多设备间通讯延迟控制在 1 毫秒以内。在软件层面，利用 " 触觉接触 " 等高置信度事件作为 " 真值 "，对多模态数据进行动态校准与因果对齐，形成了 " 端侧双循环动态校准 " 机制，确保长时间采集的精度不漂移。

采集只是第一步，将原始数据加工成模型可用的 " 人类数据 " 是更大的挑战。朱雁鸣分享了简智机器人的解决办法：他们开发了一个端到端的处理模型，输入是原始多模态数据流，输出即是时空对齐、因果闭环、带有语义解释（COT）的标准化数据包。

这套系统带来了效率的指数级提升：首先，在采集端通过算法进行实时质检，过滤无效动作；其次，自研压缩算法将多路视频流数据压缩至原始大小的 2%，且不损失关键信息；最后，通过流式传输和云端的数据基础模型自动化处理，将原本需要数千人年的标注工作，压缩到一个小型团队即可管理。这使得大规模、多样化的数据采集成为可能。

当行业集体意识到 " 世界模型 " 需要数据来喂养时，一场围绕数据基座的深度创新已然展开。从刚性仿生硬件到端侧智能融合，再到数据基础模型驱动的自动化处理，这些系统性突破正在试图回答一个根本问题：如何高保真地记录人类在物理世界中的经验，用于训练机器人。这场 " 数据基座 " 的革命正悄然奠定着具身智能融入物理世界的基石。谁掌握了高效生产 " 人类数据 " 的能力，谁就可能掌握了打开通用具身智能时代的钥匙。

（文｜Leo 张 ToB 杂谈，作者｜张申宇，编辑丨杨林）

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

万亿具身智能赛道，被数据卡住了

宙世代

一起剪

相关阅读

存储巨头321层cSSD开始出货！本月交付戴尔：QLC份额明年冲至61%

罗福莉再发声，Agent时代模型订阅制凉了？

阿里组织架构调整！升级通义大模型事业部 CTO集结成团

戴尔CEO预警：2028年AI内存需求将激增625倍 供应短缺难解

B站要上广告了：手动暂停视频时 屏幕会弹出广告 但可随时关闭

国家邮政局公布2025年用户最满意快递：顺丰、京东稳居前2

2025年笔记本显示屏出货量增长7%！OLED向上Mini LED向下！高端屏市场风向已变

国家邮政局：2025年快递服务全程平均时限为51.22小时，同比缩短2.66小时

万亿具身智能赛道，被数据卡住了

不止颜值 更是态度！这些机型颜值与质感双双在线

苦等半年 高通骁龙X2 Elite笔记本终于开卖！1.4万元要不

中国人不爱吃披萨了吗？

超越台积电！Intel重磅官宣：加入马斯克全球最大2nm晶圆工厂 颠覆芯片制造

MacBook Neo卖爆！A18 Pro芯片库存耗尽：苹果左右为难

电信阿里联手！打造10万卡智算集群：性能提升9.3倍！

最新评论

钛媒体

热门推荐

企业资讯

热门订阅 换一批

局市

中保新知

GMIF创新观察

银莕财经

医线Insight

挖贝网

戴尔CEO预警：2028年AI内存需求将激增625倍供应短缺难解

B站要上广告了：手动暂停视频时屏幕会弹出广告但可随时关闭

不止颜值更是态度！这些机型颜值与质感双双在线

苦等半年高通骁龙X2 Elite笔记本终于开卖！1.4万元要不

超越台积电！Intel重磅官宣：加入马斯克全球最大2nm晶圆工厂颠覆芯片制造

热门订阅换一批