
他的核心论断直指当前自主系统研发中的结构性缺陷:今天绝大多数 " 成功 " 的自主系统,本质上是因为我们把世界变简单了,而不是机器人真正理解了世界。 工厂里的机械臂被围栏隔离、仓库中的 AGV 依赖地面标记、自动驾驶依赖高精地图——这些人为铺设的外部条件,本质上都是帮助系统起步的脚手架。而真正的自主性,恰恰要求最终拆掉它们。
对此,他提出了贯穿其实验室研究的核心框架—— " 学习负责提议,结构负责决策 "(Learning proposes, Structure decides)。
在这一范式下,任何学习型模块——无论是视觉感知还是大语言模型——都不应该直接输出最终控制指令,而是必须先通过一道 " 可检查接口 "(Checkable Interface):这是一种可被形式化方法验证、由约束求解器审查的结构化输出。这条原则贯穿了 IDEAS 实验室的四大支柱研究:

以下是 Aniket Bera 在 ICRA 2026 大会发表的演讲精编稿,雷峰网 · AI 科技评论基于原英文演讲内容进行了不改原意的翻译编辑:
《Toivard Behaviorally-Intelligent RobotsSafe Navigation in Unstructured &Human-Centered Enironments》
主讲人:Aniket Bera,普渡大学(Purdue University)计算机科学系,IDEAS 实验室
一、成功的假象:我们不是在 " 造聪明机器人 ",而是在 " 造温室 "
我是 Aniket Bera,普渡大学计算机科学系的教授,领导 IDEAS 实验室。我们实验室横跨机器人学、计算机视觉、机器学习和以人为中心的自主系统,共同的主线是:我们喜欢造智能的机器人。具身系统如何感知这个混乱的世界?如何推理人类和其他智能体的行为,同时在真实世界中实时执行安全的动作?
我先从一个 " 成功自主系统 " 的失效模式讲起。我们把世界变简单了,以为这样机器人就好办了——给机械臂围上围栏,在仓库地板上贴标记,给车辆装高精地图,在工厂里写死固定脚本。这些系统能工作,不是因为机器人真正理解环境,而是因为我们把环境精心设计成了机器人能应付的样子。
而我和我实验室关心的场景,恰恰是要拆掉这些脚手架。机器人可能没有 GPS,没有先验地图,没有稳定的工作流程——而一个错误动作的代价可能是实实在在的物理损失。几周前我实验室就发生过一次,代价昂贵。
二、核心框架:学习负责提案,结构负责决策
正因如此,我把自主系统的问题框架化表述为:在语义约束、社交约束和安全约束下的闭环决策。

感知模块不应该只输出特征向量,它应该输出物体、位姿、尺寸和不确定性。同样,大语言模型不应该直接输出机器人的控制指令——它应该输出某种可以被监控、可以被约束求解器检查的东西。这就是我所说的 " 可检查接口 "(Checkable Interfaces)。
学习负责提出更丰富的表征、更丰富的候选方案;而结构负责决策哪些可以被信任、哪些需要被执行。这就是我们实验室工作的底层逻辑。
三、感知:从 " 好看的地图 " 到 " 可用的状态 "
在机器人能够推理或行动之前,它需要一个状态估计——这个状态必须是几何的、语义的、可定位的,并且对下游任务有用。机器人需要持久化的物体表征、语义含义、不确定性——即一种可以被底层规划器查询的表示。而最难的部分是:所有这些必须实时完成。
核心问题是:你的感知栈输出的是什么? 如果它输出的是原始像素或某种黑箱嵌入向量,整个系统栈的其余部分就无法做出安全论证。反之,如果它输出的是一个类型化的状态(Typed State),那么规划和验证层就能真正使用它。我们需要知道机器人在哪里、场景中有哪些物体、这些物体之间的关系是什么,以及所有这些估计有多不确定。

我们的 FastSLAM 项目正是针对这个延迟问题。我们把位姿估计问题从 " 渲染 - 优化 " 转变为 " 匹配 - 刚体注册 ":将当前帧与活跃关键帧进行匹配,反投影得到两个 3D 点集,然后求解 SE ( 3 ) 上的最小二乘对齐—— SVD 解法直接从互协方差矩阵给出旋转量。位姿变成一个快速的几何计算,而重建质量可以异步提升。我们已经在搭载 NVIDIA Jetson 的无人机上部署了这个系统,在茂密森林中实现实时定位与建图。
沿着同样的思路,GoSLAM 解决的是 " 如何让重建的物体具有可指称性和开放词汇语义 " ——让规划器可以通过物体名称查询地图,而不是只能通过像素坐标。TransLocNet 则解决 " 无 GPS 环境下如何将局部地图全局锚定 " ——通过将地面观测与航拍影像进行跨视角、跨季节的配准。想象一下,森林里大雪纷飞,树叶落尽,而你的卫星图是夏天拍的。这需要超越像素和坐标层面的表征理解。
所有这些不同的技术问题,被同一条主线缝合在一起:感知必须产出一个可查询、可定位、可被关注的类型化状态。
四、可信自主:大模型不是决策者,而是被审查的提案者
接下来进入第二大支柱:可信自主(Dependability)。在这里,科学论证变得更加明确。一个学习型模块可以非常有用,但同时仍然危险——它会在分布偏移下失效,它的置信度可能被错误校准;在语言模型的场景中,它可能生成一个听上去完美、实则违反任务级约束的计划。
所以问题是:什么是一个 " 可检查的对象 "?对感知来说,答案是类型化状态;对规划来说,答案必须是一个可容许的计划或动作。
我们的项目 SELP(ICRA 2025 最佳论文入围)正是为此而生。它的核心思想是:将大语言模型的角色从 " 无约束的规划器 " 转变为 " 受约束的提案机制 "。

如果不可行,这个 token 在采样前就被屏蔽。大语言模型仍然是有用的先验知识来源(帮助生成高效的计划),但它不再是安全问题的最终权威。
这意味着什么?它意味着约束不是 " 事后补救 " ——不是在模型输出之后再贴一层安全检查;约束被嵌入到生成过程本身。 形式化规范不是护栏,而是搜索空间的边界。
沿着同样的哲学,我们还开发了 CAsForD(Context-Aware Safety For Decision-making,上下文感知决策安全)——当用户指令不安全时,系统不只说 " 不 ",而是识别不安全成分并选择安全修复方案。
还有我们实验室的其他工作,通过让模型产生数学优化程序来表达运动规划的时间约束。一以贯之的原则是:学习型模块永远不获得未经审查的权威,它产生的计划、修复和控制必须可验证、可约束、可认证。
五、人不是移动障碍物:行为感知导航与多机器人协作
在第三和第四支柱中,我们的工作延伸到更复杂的社交和协作场景。
在人类行为建模方面,我们研究的问题包括:在密集社交场景中预测人类运动、建模群体层面的动力学、人 - 物交互,以及当场景中的物体需要被移动或重新布置时的规划。核心主题是:人不仅仅是移动的障碍物——他们互相交互,他们与物体交互,他们与环境交互,围绕机器人形成了一个耦合的、不确定的动力学系统。 机器人必须预测人类行为,推理以物体为中心的上下文,并在几何约束不足以保障安全时采取行动。
在多机器人协作方面,我们研究了协作主动重建、多智能体信息路径规划、可扩展的多智能体 SLAM 等问题。核心主题是去中心化的团队自主性:每个机器人必须基于局部观测和有限通信采取行动。我们的策略是,在训练阶段使用集中式学习来获取优势,但在部署阶段以去中心化方式运行——在部分可观测、通信受限、多智能体动态交互的条件下。
六、结语:让机器人走出 " 温室 "
回到最初的四大支柱,我想留给大家一个核心理念:安全的自主系统不是一个单独的模块,它是整个系统栈编织在一起的结果。 学习赋予机器人灵活性,但结构赋予它们可靠性。真正的目标是——当世界变得混乱:没有 GPS、地图不完整、物体在移动、处处都是不确定性——机器人仍然能够以安全的方式行动。
Q&A 问答环节
听众 A: 感谢精彩的演讲。我觉得工业界存在一个很大的脱节——我们在追逐 KPI 数字,和真正部署可验证、安全的系统之间。我想问,您如何看待基于物理的方法与神经渲染(如高斯溅射)在验证与安全方面的关系?
Aniket Bera: 这个问题切中要害。所有的神经模型都需要——人们常说的—— " 护栏 "(guardrails)。但护栏的问题在于,它是一种事后补救:你把机器学习模型建好了,然后贴上一层基于物理的约束或真实世界约束来限制输出,让它在做出危险行为之前被拦住。我认为这是极其错误的做法。
这些约束——无论是物理先验还是来自其他领域的先验知识——应该被 " 嵌入 " 到学习空间本身中去。这就是为什么我们要把问题转化为形式化方法规范:让我们能够独立地约束空间中的每一个输出,从一开始就保证生成结果的可靠性和可信性。目标不是 " 全押 " 在学习方法上,而是找到一种智能的组合——在何处植入形式化方法规范、在何处植入物理约束、在何处植入特定应用所需的其他约束。
听众 A(追问): 您说的是应该 " 内置 "(in)而不是 " 后置 "(post)。我的问题是:作为一个社区,我们有时候在追逐 KPI 数字,但真正部署物理系统需要考虑的远不止一个数字。我们如何才能让这两者更接近?
Aniket Bera: 我要说一些可能不太受欢迎的话。在与工业界合作、尤其是与制造业和国防领域的工程合作伙伴打交道的过程中,我理解为什么很多工程方案倾向于更传统的控制方法——因为学术界常常把 " 学习 " 包装成一种万能神谕,仿佛它能解决下游的一切。
我认为弥合这两个世界的方法,也是让工程界对基于学习的方法建立信心的方式,就是从一开始就给学习型问题赋予约束、赋予意义。我们不应该只看 " 教科书数字 ",而应该关注系统在哪里失败、下游的可靠性指标是什么。这正是这两个领域需要更频繁对话的地方。
听众 B: 您谈到了让机器人行为更具社交性。我的问题是如何将这些行为信号传导到操作层面(manipulation level)?比如在布置餐桌的任务中,用户可能期望先放杯子再放盘子,这种对齐如何传导到运动规划层面?
Aniket Bera: 这是一个很有意思的问题。我认为,如果你能够在任务层面用更好的物理约束来约束生成过程——确保步骤序列物理上可行,不会导向灾难状态或伦理失效——那么,形式化方法的技巧就能帮上忙。你可以将基于学习的方法剖分成子模块,判断每一步是否仍在规划边界之内,还是已经进入了安全关键区域。
不过,安全约束和文化 / 行为约束的性质不同。如果你能把每一种约束都建模出来,嵌入到像 SELP 这样的形式化方法规范中,我认为只要在安全范围内,没有理由不能处理文化线索和行为线索。这个问题我们可以在会后继续聊。
为了让国内的研发者、创业者与投资人能够毫无时差地掌握本届 ICRA 2026 的完整干货,雷峰网已全面上线【ICRA 2026 深度专区】。
专区不仅全面收录了重磅论文的工程化解读、专家前沿演讲,更将持续更新前方记者的第一手会议动态。
扫描下方二维码,或点击 " 阅读原文 " 关注专区。
与全球 8000 名顶尖大脑同步呼吸,抢先透视具身智能的下一个五年!