
商汤正式开源多模态自主推理模型 SenseNova-MARS(8B/32B 双版本)。这是商汤首个支持动态视觉推理和图文搜索深度融合的 Agentic VLM 模型,能自己规划步骤、调用工具,搞定复杂任务,让 AI 具备 " 执行能力 "。
在 MMSearch、HR-MMSearch、FVQA、InfoSeek、SimpleVQA、LiveVQA 等基准测试中,SenseNova-MARS 取得开源模型中的 SOTA 成绩,超越了 Gemini-3.0-Pro、GPT-5.2 等顶级闭源模型,在搜索推理和视觉理解两大领域领跑。

简单理解,该模型解决的问题有二:" 查遍全网 " 的知识密集型任务," 火眼金睛 " 的细粒度视觉分析。
SenseNova-MARS 能实实在在落地到我们生活和工作的场景,解决需要 " 多步骤推理 + 多工具协作 " 的问题。
市面上一些 AI 的工具调用,遇到需要 " 先放大细节、再识别物体、最后查背景 " 的复杂任务会束手无策。
而 SenseNova-MARS 能从产品和行业峰会的照片中,识别企业的标志,快速搜集产品、企业的信息,以及时间、数量、参数等细节要素,辅助分析行业情况和格局。

同时,SenseNova-MARS 能从赛事照片中识别画面中的 Logo、人物等信息,追溯比赛或人员背景信息,帮助补充重要细节。

拥有这种 " 自主思考 + 多工具协作 " 的能力,SenseNova-MARS 能够自动解决 " 细节识别 + 信息检索 + 逻辑推理 " 复杂任务,实现工作效率提升。
图像裁剪:聚焦图片上的微小细节,包括占比不到 5% 的细节——比如赛车手衣服上的微小 Logo、赛事照片里观众席的标语,可通过裁剪放大清晰分析。
图像搜索:能在看到物体、人物或场景,的瞬间自动匹配相关信息——比如识别出赛车手的身份,或是某款冷门设备的型号。
文本搜索:抓取精准信息——无论是公司成立年份、人物出生年月,还是最新的行业数据。
之所以能够实现上述能力,SenseNova-MARS 采用了 " 因材施教 " 的训练方法。
第一阶段:打基础。针对跨模态多跳搜索推理训练数据稀缺的痛点,提出了基于多模智能体的自动化数据合成引擎,采用细粒度视觉锚点 + 多跳深度关联检索的机制,动态挖掘并关联跨网页实体的逻辑,自动化构建高复杂度的多跳推理链路,同时引入闭环自洽性校验来去除幻觉数据,构造出具备严密逻辑链条与高知识密度的多跳搜索问答数据。
用筛选的 " 高难度案例 " 做教材,每个案例都标注了 " 该用什么工具、步骤是什么 ",让 AI 先学会基本的 " 破案逻辑 "。这些案例都是从海量数据中挑出的 " 硬骨头 ",确保 AI 一开始就接触真实复杂场景。
第二阶段:练实战。采用 " 强化学习 " ——就像侦探在一次次破案中积累经验,AI 每做对一次决策(比如选对工具、步骤合理)就会获得奖励,做错了就调整策略。为了避免 AI" 学偏 ",研究团队还加了个 " 稳定器 " —— BN-GSPO 算法,让它在处理简单题和复杂题时都能保持稳定进步,不会出现 " 偏科 "。
这种基于双阶段归一化的优雅机制,有效平滑了动态工具调用返回分布多样性带来的优化波动并确保了学习信号分布的一致性,从而解决了跨模态多步多工具智能体训练过程中的收敛性难题。
经过这样的训练,AI 不仅学会了用工具,更培养 " 工具使用直觉 " ——知道在什么情况下应该使用哪些工具,以及如何将不同工具的结果有机结合起来。
商汤日日新 SenseNova-MARS 模型、代码、数据集全开源,支持 Hugging Face 直接下载。(作者|李程程,编辑|李玉鹏)