5 月 8 日消息,钛媒体 AGI 获悉,阶跃星辰今天下午在北京举行一场媒体沟通会。
阶跃星辰创始人、CEO 姜大昕向钛媒体 AGI 等透露,预计未来两、三个月(7-8 月),阶跃星辰会发布满血版推理模型 Step R1。同时,未来几个月,阶跃星辰还将发布更先进的 Step 图片编辑模型。
姜大昕强调,模型的突破是早于商业化的。" 多模理解生成一体化 " 是当前阶跃星辰建立世界模型的最佳路径之一,从而往智能涌现、AI Agent 和通用人工智能(AGI)方向发展。
谈及 C 端投流话题,姜大昕对钛媒体 AGI 表示,DeepSeek 出来之后已经证明,投流逻辑是不成立的,大家还是需要重新思考这个问题。
"DeepSeek 给我们的经验或是学到的东西,投流的逻辑实际上是不成立的,因为 ChatGPT 没有去说过,但是他如果放开流量的话,他破亿是没有问题的。其实就是大家要重新思考一下,AI 时代的产品,它的流量增长是不是真的是像传统互联网状态,还是靠投入上去的,大家需要重新看待这个问题。不只是 DeepSeek,像哪吒、黑悟空神话等都有一些共性,不是靠传统的铺天盖地的去投入、去积累。" 姜大昕称。
姜大昕表示,AI Agent 智能体爆发的前提需要多模态和慢思考能力,恰好 2024 年这两个能力获得了突破性进展。" 多模态对于 Agent 的输出是一个必备功能。"
姜大昕表示,模型的 " 理解生成一体化 " 非常重要,它是整个计算机视觉需要突破的一个堡垒。所谓 GPT-4 时刻,就是指模态层面 AI 模型真正能够达到人的智能水平。因此,在阶跃星辰看来,最终的目标是做 " 世界模型 "。
" 为什么大家觉得 AGI 路线越来越清晰,我确实有同样的感觉,文本这条路已经看到了这里(当前)。虽然视觉最根本的问题当下没有解决,但一旦突破以后,今后的道路会更加顺畅。" 姜大昕称。
阶跃星辰以 " 智能阶跃,十倍每一个人的可能 " 为使命,坚定自研超级模型,积极布局算力、数据等关键资源,发挥算法和人才优势,微软前全球副总裁姜大昕担任公司创始人、CEO,ResNet 作者之一的 AI 科学家张祥雨、拥有丰富大规模集群与系统建设经验的 AI 系统专家朱亦博等都先后加入阶跃星辰。
融资方面,2024 年 12 月,阶跃星辰宣布完成 B 轮融资,总融资金额达数亿美元,核心投资方包括上海国有资本投资有限公司及其旗下基金,战略和财务投资人包括腾讯投资、五源资本、启明创投等。
产品层面,成立两年,阶跃星辰已经累计发布了 22 款自研基座模型,覆盖文字、语音、图像、视频、音乐、推理等全系列。
其中,16 款是多模态模型,占比超过 7 成,在行业内被称为 " 多模态卷王 "。多模态模型矩阵覆盖图像理解、视频理解、图像生成、视频生成、图像编辑、音乐生成等,全部处于行业领先水平。
今年 1 月,阶跃星辰发布了 Step R-mini,成为 Step 系列的首款推理模型,进一步拓展了大模型的能力边界;2 月,阶跃星辰宣布开源新的文生视频 / 图生视频模型 Step-Video-T2V/TI2V,并与吉利汽车集团、千里科技、OPPO、智元机器人、TCL 等企业展开合作,以及发布全新升级的 " 繁星计划 "2.0 等。
进入 5 月,阶跃星辰宣布与 ACE Studio 联合开源 3.5B 版本的音乐大模型 ACE-Step,并且与灿星文化战略合作,开展 AI+ 娱乐的深度融合。
姜大昕表示,多模态是实现 AGI 的必经之路。
他进一步表示,因为首先 AGI 对标的是人类的智能,人的智能是多元化的,每个人除了有来自语言的符号智能,还包括视觉智能、空间智能、运动智能等,这些智能需要通过视觉和其他模态来学习。所以,在多模态领域任何一个方向出现短板,都会延续这个实现 AGI 进程。
1、预训练基础模型 + 强化学习,可以激发模型推理的时候产生长思维链,极大提高模型的推理能力,从而把长思维链能力加入到语言模型,以及多模态模型里面。
2、视觉领域理解生成一体化。理解和生成是用一个模型来完成,从而保证生成内容有意义和价值,需要对上下文做更好的理解。
3、有了 ChatBot App 应用产品以后,我们就可以用它解数学题、写代码,然后下一步进化现在就是非常火热的 Agent,就是智能体。" 我相信智能体终将从这个数字世界走向物理世界,逐渐引申到像智能驾驶、人形机器人等领域。"
姜大昕认为,目前汽车辅助驾驶 VLA 是简单预测模型,并没有推理的 VLA。对应来说,人是脑海里有一个 action 的分布,通过对未来的预判来决定,才能呈现出真正的 VLA。
智能终端 Agent 是阶跃星辰的发力领域。姜大昕称,Agent 首先要能够更好去帮助人类去完成任务,需要理解用户所处的环境和任务情况,其实很多终端是用户感知、用户体验的延伸,比如说手机、AI 眼镜或是 AI 耳机,被认为是人体器官延伸,它可以去收集我们所处的环境,从而能帮助模型更好地理解用户的上下文。
姜大昕称,他非常看好 AI 眼镜的发展,人形机器人的泛化能力还有很长的路要走。
谈及阶跃星辰依然坚持基础大模型,姜大昕认为有两层:一、现在 AI 技术的行业趋势和需求还是非常强烈的,整个行业技术发展很快,所以,公司需要这样一个前进趋势,从而坚持做基础模型研发;二、从应用角度看,我们一直觉得应用和模型是相辅相成的,模型可以决定应用的上限,然后应用给模型提供具体的应用场景,它的数据,这是非常重要的。
谈到 C 端盈利空间,姜大昕称,阶跃星辰是通过端侧 AI Agent 服务提供,最终这些企业和终端还是服务于消费者。
谈及阶跃多模态在行业里定位时,姜大昕表示,海外层面,OpenAI 和 Google 是第一梯队 xAI 的隐藏实力是很强的,需要时间爆发;国内的 AI 产品更强调理解领先性,或者专注在 AI 视频生成单一领域,而阶跃星辰不太一样的点在于,不仅做基础模型,还在代际层面做很多应用。
" 最后总结一下,第一个,我们目前状态是坚持基础大模型研发,所以追求 AGI 是我们的初心,我们也不会改变;第二是在当前竞争格局当中,阶跃差异化的特点其实是多模态能力,在业界内性能是领先的,而且我们也在积极探索前沿方向,我们也认为还存在非常巨大的机会;最后在应用层面,我们也走了一条差异化路线,携手合作伙伴在智能终端 AI Agent 方向上发力,最终形成一个从模型到 Agent,从云上到端侧的这样的生态体系。" 姜大昕表示。
(本文首发钛媒体 App,作者|林志佳)