文 | 游戏茶馆
当生成式AI已经能画出以假乱真的图像、写出流畅的剧本、甚至生成连贯的视频片段,下一个问题浮出水面:为什么我们还没有看到一款真正属于AI时代的互动娱乐产品?
技术要素似乎都已就位,但它们更像是散落一地的零件,尚未被组装成一台能跑起来的机器。整个行业更像是处在"盲人摸象"的阶段,每个人都摸到了大象的一部分,但完整的图景还没有人真正看清。
最近405 游局请到的两位嘉宾,恰好站在这头大象的两侧。
戴勃,Feeling AI(云梧智能)创始人,香港大学助理教授。他从2014年读博起就扎在生成式AI领域,博士就读于香港中文大学MMLab,师从林达华教授,谷歌学术引用超过一万次,近三年连续入选全球前2%顶尖科学家。他最广为人知的工作是AnimateDiff——这个开源视频生成模型一度席卷整个Stable Diffusion社区。2024年,他拒绝了多家大厂的邀约,选择创办Feeling AI,目标是构建世界模型的基础设施,让虚拟世界拥有:"活人感"。成立半年内,公司完成两轮超亿元融资。
胡修涵,捏Ta(看见概念)创始人。北大智能科学与经济学双学位,哥伦比亚大学硕士,先后在Meta担任短视频技术架构负责人、在阿里巴巴成为数据技术事业部最年轻的P8专家、在特赞从零搭建收入过亿的产品线。2022年底,Stable Diffusion发布仅四个月,他就判断"内容的乐高变了",随即离职创业。捏Ta如今注册用户超1200万,日均互动时长超110分钟。2026年3月刚完成超千万美元的Pre-A+轮融资。
两人的渊源比商业叙事更早。他们是计算机竞赛时期的老友,而将他们再次连接起来的,是AnimateDiff——戴勃做出这个模型后第一时间发给修涵看,修涵的反应是"我一直想要这个东西"。此后一个扎进世界模型的底层架构,一个在应用层构建AI原生的创作社区,路线不同,但指向同一个终局。
这场对话围绕几个核心问题展开:当内容的基本单元从像素演进到概念,创作和消费的边界会如何重新划定?AI原生的应用为什么必须是"主动的"和"实时的",而不能是预生成再分发?世界模型到底该怎么理解——戴勃将其拆解为想法层、动态层和静态层的三层架构,而修涵更关注它能否成为一个有内生动力的持续系统。他们还深入讨论了一个容易被忽视的区分:creation(专业创造)与recreation(大众再创造/消遣式创作)。真正大众化的UGC行为,本质上更接近后者——对过程质量要求高,对结果质量要求不高,享受的是搭建本身的心流。
两位创始人有一个共同的信念:最大的机会不是有人造出一个"绿洲",而是有人提供造绿洲的积木。当用户能用概念而非代码去搭建世界、定义规则、创造角色,互动娱乐的形态将不再受限于今天的想象力,而只受限于技术力何时跟上。
以下为 405 游局与戴勃和胡修涵的对话,游戏茶馆经授权整理文字版本,内容有所编辑。
内容的积木正在被重新定义
"以前内容的积木是像素,未来的积木是概念。当概念和提示词直接绑定的时候,就是积木层面上最核心的变化。"
筱宁:你们俩都偏技术背景,为什么这次创业都选了偏娱乐、偏内容的方向?
修涵:我和戴勃一起搞过计算机竞赛,毕业后一直做产品项目,在Facebook这样产品文化优先的公司里,做过很多设计AB testing、增长实验的事情,逐渐习惯从工程化和产品化的角度去思考技术创新带来的影响。每一代AI技术变化,我的第一反应都是怎么解决更确定的现实场景中的问题。
戴勃:我比较简单。小时候我妈给我买了一台小霸王学习机,从此对互动内容非常感兴趣。读博选方向时就想:能用自己做的技术去构建互动内容,会是让我自己很满意的状态。眼看着技术逐渐成熟,就觉得不妨自己亲手去做,因为只有做了才能找到答案。
筱宁:你们当时决定创业是看到了什么样的信号?
修涵:我一直关注的是内容的原子性,怎么解构和重构,也在思考模型如何影响创作者的协作方式。当然,不是从底层原理的技术角度,而是从它怎么影响人的协作,怎么影响创作者去做内容的工程角度。
2022年7月看到Stable Diffusion的时候,甚至不需要等到大语言模型出现,我就清晰地认识到内容的乐高已经变了过去可能是一帧图、一个图层,甚至精确到像素;而未来的"积木"很可能是概念——某种视觉层面的概念。这是积木层面的核心变迁。我们在这个过程中做了大量探索,也经历了 LoRA 等各种 building blocks 不断演变的阶段。
我觉得最近像 Nano Banana 和 Seedance 2.0 这类突破,已经在逐步逼近"用概念就能构建一个世界"的状态。这是一个循序渐进的理解过程。
筱宁:我们上次聊过,有些东西从头到尾没变,比如你最初对这件事的定义就是"GitHub + IP"。
修涵:我们思考内容原子的变化,历史上大概有三到四代:第一代以纯像素为核心;第二代出现了模板、图层、3D模型;第三代是Figma那一代的组件化;第四代就是现在以概念为核心的原子结构。每一代都诞生了伟大的产品:第一、二代Photoshop,第三代Figma,第四代可能就在当下。
越往深处看,这些积木越来越像代码。而代码的天然属性决定了它可以实现GitHub式的协作。以前共创型的行为只有Wikipedia这种文字层面的协作,当它跨越到视觉层面,就出现了核心模式变化的机会。其中被最多复用的积木就是IP的要素。
戴勃:我2014年读博开始关注生成式AI,一路看着它走过来。2022年看到Stable Diffusion的成熟度之后,觉得技术到了一个临界点。
2023年我们做了一个视频生成的工作叫AnimateDiff,做出来后我第一时间发给修涵看,他直接跟我说"一直想要这个东西"。我们开源出去后,大概两三个月整个Stable Diffusion社区都被吸引了。Reddit上至今还有专门的分区,甚至现在有了Seedance,还是有人在用AnimateDiff做各种内容。
这给我的启发是:我好像也能掌握这种成熟的技术了。一开始我们倾向于通过合作的方式推进——我做技术,开源或合作。但23年下半年尝试之后,整体感觉不够快。AnimateDiff五月做完,七月发给修涵看,但真正产生热度是在十月份,已经过了三个月。你不亲自做的话,进展会很慢。
站在那个节点你会开始反问自己:这是运气,是偶然还是必然?最好的方式就是直接去面对需求,这样才知道技术该往哪里加速迭代。所以我们决定自己下场,把AI的基建做好。我们相信从这种基建能诞生更原生的应用,而这需要用户在过程中一起进化想法。
AI原生应用的特点:主动、实时、在生成中消费
"如果完全是预生成之后再分发的模式,我对它打败抖音都没什么信心。所以我非常支持‘在生成中消费’。"
筱宁:你们都说在做一种"新的东西",具象一点说,从体验层面你们期待的远方是什么样的?
戴勃:我说不出具体形态,但可以说出它应该具备的特点。生成式AI最大的特点是它的不确定性——在可控范围内的不确定性。"AI"这个词1956年诞生时就定义了它应该具备creativity:能不能进行educated guess?你有control,你是educated,但又有不确定性。
这种不确定性意味着AI原生的应用一定要在推理时发生。不应该是离线产生内容然后你去消费,而是在实时交互的过程中,模型配合人进行推理、产生内容。
第二个特点是从被动式变成主动式。不是等你来操作,而是它会主动给你反馈和刺激。所以新应用最大的两个特点就是:主动和无限实时。
修涵:从商业和需求的角度也推导到了类似方向。用户在社区里看到别人的内容更像是一个广告片,他真正消费的过程是他自己在生成的那一刻。
往远期推:长期的终极形态,某种意义上就是人类的共同幻想——虚拟空间,或者西部世界式的体验。但它会有一些传统内容难以覆盖的角度,因此IP的作用会更强,因为每一次内容都不固定,你需要一些不变的东西来帮助认知,一个系统如果全都在变,等于没法用。覆盖的长尾属性会更强、个人属性会更强,因为通用的高质量已经被解决得很好了,接下来的问题是"不通用的高质量"如何产出。供需关系会导致经济利益分配也往这个方向移动,通用的高质量会贬值。
现在已经能看到这种趋势——很多平台上AI生成的漂亮小姐姐跳舞视频,虽然还有流量价值,但要带货已经非常困难。这就是升值和贬值正在发生的过程。
筱宁:你们反复提到IP这个词。在AI时代,IP应该怎么理解?
修涵:AI时代的IP可能不是我们现在理解的商业意义上的IP。知识产权这个概念本身是随着印刷业诞生的,本质上是印刷业技术推演出来的制度。AI在一定程度上完全打破了"单件内容生产需要付出人类劳动"这个基础假设。
我比较相信的本质是:IP就是对某类内容的共识。不管它是一个形象的共识,还是某个故事环境的共识,大家对这个东西有一个共同的认知。有时候表现为MEME,有时候表现为某种梗。这些本质上就是大家反复使用的"复读机",长期来看都是某种意义上的IP。
Creation与Recreation,UGC的真实逻辑与应用层的机会
"要拆分清楚creation和recreation的区别。Recreation——消遣——是非常广泛的UGC行为,对过程质量要求很高,对结果质量要求不高。"
筱宁:我们这一代人被PGC内容服务得非常好。那我们真的有那么多UGC需求吗?如果消费本质依赖用户自己参与生成过程,是不是拔高了对人的要求?
戴勃:回到修涵说的,真正的消费过程发生在创作过程中,产出的内容更像一个trailer。这个空间仍然存在,因为每个人都有表达的欲望。抖音通过相机记录生活瞬间,就提供了UGC的途径。
第二个问题,creativity有两方面:有没有动机,有没有能力。生成式AI提供了能力。而为什么我强调应用应该是主动式的?就是为了解决动机问题。你会有灵感,但创作的过程不易,比如很多作家会说创作其实很痛苦。互动式的创作模式让你从小的灵感开始,慢慢保持热度。生成式AI恰恰能回答这个悖论。
修涵:从另一个角度补充。这个播客的听众可能更多从游戏视角看问题,我们不否认游戏行业整体主导的是PGC。但如果从广义的娱乐型游玩体验来看,UGC无处不在。
服务型体验的特点是创作者要非常尽心尽力地为受众做设计,要求很高,所以必然收束在一小群人中。但很多UGC本质上是悦己的,带有社交性,本质是表达自我。从抖音的滤镜玩法,到线下织毛衣、做拼豆、搭乐高,都是先享受那个心流过程,然后幻想自己能做出很好的东西去展示。炫耀是派生的,但有这个幻想空间很重要。
没听说过谁去搞摄影是不希望自己拍出来的东西好的。但买了设备自娱自乐的人里,全部分享出来的可能也很少,但它依然构成了一种很强的娱乐行为。
Recreation——初期不以纯粹表达目的为核心的行为——对过程质量要求很高,对结果质量要求不高。有一个小圈子持续捧你,就很开心了。这符合长尾效应的内容价值。而且内容不存在绝对的UGC和绝对的PGC。你用一个抖音模板做完一个东西,模板很可能是PGC的,但最后的内容是你的表达和模板共同构成的——谁的贡献更大,有时候拆不清楚。AI其实提供了一个通用的高质量基线保证。
在此基础上,任何娱乐方式长期都会有四个关键要件:第一,角色——你自己的代表、你的POV;第二,环境和世界;第三,规则——对应衍生的玩法规则;第四,交互方式。
大家现在总想找到一种不变的交互方式来做稳定的平台推演,但这个点被Vibe Coding很大地挑战了。不太容易变的是世界和规则。角色最先容易成立,但用完丢的可能性也大;环境和规则比较容易持续存在,可以打造一系列的动力系统。
这些东西可以做"Creative Harness"——怎么让AI变成一匹可以被驯服的烈马?它不被关在笼子里,仍然有惊喜,但又被你拴着往一个方向奔驰,给大家带来乐趣。
筱宁:如果视觉一致性攻克了,什么会被改写?
戴勃:关键是实时推理能力。在长时间推理稳定性的基础上,把单次推理的延时降到实时,你就不再是在用一个工具,而是在一个完整的世界模型里和agent一起交互。某种意义上就像是《头号玩家》里的绿洲。
筱宁:应用层的最大机会在哪?头号玩家里的绿洲也是有人造了一个绿洲嘛。
戴勃:最大的不是有个人造了绿洲,而是有人提供了造绿洲的积木。最终的绿洲是由一个个星球组成的,而每个星球是用户自己创造的。因为有了积木的能力,他可以构建不同的世界观和规则。像修涵说的,乐趣来自于构建的过程。构建完成之后——甚至不用完成——就可以有无数人过来接着参与、共同构建。出发点是有个人提供了空间和积木,让你去搭。
修涵:我补充一点,为什么长期来看这个需求存在?人对环境的感受和体验,本质上也是在给自己的脑子建设对世界的理解。你无法真实理解从未亲身经历过的东西。所以本质上是提供多重的人生。
人的需求无非就是延长寿命、增加体验时间、在单位时间内增加更多体验——通过提供更多人生体验的基建方式,本身就是最大的机会。这些体验没办法完全通过别人来给你构建好再提供给你——那在一定程度上是伪命题。
戴勃:很多时候人在现实世界里被束缚的就是"我要做选择,只能选其中一条路"。世界模型就应该能创造这种可能性。它本质上和游戏是同一件事——"游"就是到处走走,"戏"就是这里碰一下那里碰一下去做交互。之前的游戏有一些部分是因为技术力的限制变成了当下的形态,但这不是人的想象力的限制,而是技术力的限制。这一步应该被解放。
修涵:我稍微反向debate一下。"游戏是一个有约束的艺术"——从传统有限游戏的角度,这非常成立,也是我特别尊重游戏行业的核心原因。我们很少说"用户能直接做出游戏来",因为我对狭义游戏的定义是非常尊重的。它是一种体验策划——就像人一辈子可能只经历一次的婚礼,它能形成现在的规范和要求是很精妙的,不是随手拍个脑袋给你一个体验就行了。
但体验单元是可以被拆解和工程化的。比如现在很多开放世界游戏,大家会说像个"缝合怪",里面有很多玩法,甚至巴不得把看电影的体验也缝进去。这就是一种以环境和世界为驱动、在里面缝很多种玩法的趋势。
但从把AI发挥好的角度来说,应该从小往上长,而不是从专业体验往下拆小。因为从专业体验往下拆会限制AI的发挥。我时常说"从游戏的视角来看,资产不重总让人觉得没法尊重"。这个视角会导致从游戏往UGC拆的时候总有一种说不清的味道。
所以我们在想的是:从AI原生视角出发,它最好被构造的小模块是什么?不好被构造的部分先让人来做。UGC的真实解法,很多还是从更原生的、从小往上长的逻辑中长出来的。
世界模型,从盲人摸象到三层架构
"世界模型应该有一种活人感。活人感就是它会动。"
筱宁:如果我们想要实时性、推理能力、可控的创造性,今天距离实现差距在哪里?
修涵:要素的实现已经有了,只是没有被很好地整体解压缩出来,给大家带来很好的体验。并不是说你现在不能开始建角色、建面向AI的世界、建将来可以玩的规则——比如酒馆类产品,就是在一定程度上建玩法规则为主;我们可能更多从角色到世界的角度去关注环境和视觉共识要素。只是如果模型的实时性、持续能力这些问题都很卡、成本很高,那建好的规则最终能覆盖的体验变革还是有限的。
戴勃:现在的状态给我的感觉是既很近又很远。要素都具备了,但是一种大水漫灌式的具备——每个方向都有涉及,意味着你可以开始进行要素的组合。修涵说的沉淀世界观和规则,这些沉淀不会因为技术的进化而从头再来。
但技术在深度、广度和维度三个方面都有所欠缺。深度——比如酒馆场景,剧情复杂度或演绎长度拉长后就开始出问题。广度——各种类型中始终有擅长和不擅长的区分。维度——文字式的、语言为主的,要素更齐全;但更视觉化、更立体的世界模型方向还很缺乏。
总体来说,大家可以拿这种"不是零"的状态去组合,但真的要往终局走,起码从技术上还是要静下心来思考技术审美,然后以比较快的速度持续推进。
筱宁:你们是怎么理解"世界模型"这个概念的?
戴勃:现在讲世界模型的人很多,用一个成语来形容最合适:盲人摸象。不同的人因为不同的应用场景和背景,摸到了大象的不同部分。
我自己的理解很简单:它就是一个类似于元宇宙的游戏,现实世界有的元素它都应该具备,我们把它拆成三层。
第一层:逻辑/想法层——每个动态实体的想法:我为什么要进行这些活动?
第二层:动态层——我有了想法之后,怎么把想法执行出来。
第三层:静态/表现层——把动态的行动装载到一个环境里呈现出来。不管这个环境是传统游戏引擎构建的3D环境,还是AI构建的3D环境——比如李飞飞老师的World Lab,还是以谷歌Genie 3为代表的视频类环境。
不同的人根据场景,可能不需要把三层都做好。但一个真正的世界模型,就是你能不能把现实一一对应,它是活着的,动态实体都有自己的想法和规划。
修涵:我希望它至少是一个持续的、有自己内生动力的系统。现在的问题是,你一个角色去到多个场景,中间是断层的;或者它不主动,你不推就不动。而人的现实世界和线下体验,很多都是靠世界环境本身帮你实现目的。只要能解决持续性和主动性的问题,我们之前对优质内容的很多假设其实都可以改。
筱宁:视觉模型训练上,是不是面临和语言模型很不一样的挑战?
戴勃:语言模型的范式是next token prediction,世界模型强调的是next state prediction。其实语言模型也可以在语言domain里实现世界模型——你用文字维护世界的state。这也是为什么代码能力很重要:它提供了一种恒定、稳定、一致的方式来检查模型的思考过程和逻辑准确性。如果是纯自然语言描述,你会陷入"它到底是真不懂,还是没说清楚"的困境。
视觉内容还需要一致性——但不是逻辑的一致性,而是符合物理直觉的一致性。我想强调:从应用角度,我们要的不是"物理一致性",而是"物理直觉一致性"。人不会去计算视觉内容背后的物理规律是否一致,只要不违和,我们就觉得它符合物理直觉。
筱宁:对做互动娱乐来说,视觉这块需要攻克的难点在哪?
戴勃:传统的方式是用游戏引擎构建世界内容。游戏引擎嵌入物理规律的方式比较"硬核"——传统仿真学,把公式真的写在里面进行计算。而神经网络只告诉它输入和输出,中间怎么从输入到输出完全是自己学的,没有任何规律或公式的guidance,非常"软"。但这样带来的问题是它会走捷径,你无法判断它总结的规律跟你想要的规律是否一致。
所以现在需要攻克的问题就是:如何把两者的优势融合?既有"软"的灵活性,又有"硬"的保证。只有这样才能实现长时间视觉内容上的一致性。
从视觉内容的结构上来说,模型应该知道自己在表达什么。不是"这个像素现在是什么颜色、下一刻应该连续变化",而是知道"这个像素属于一个人的手,下一刻是整个手在变化,然后投影到像素上应该怎么变化"。有了这种更符合现实结构的认知,就能从根本上解决幻觉问题,幻觉本质上来自于模型不知道自己生成的像素是什么意思。
筱宁:你们最近开源的模型着重解决记忆和规划,为什么?
戴勃:我们是三层同步演进的——想法层、动态层和静态层。甚至中间的动态层,我们在构建动力学世界模型,刚好完成了模型架构的创新。打个比方——就好像Transformer架构已经确定了,剩下的就是从GPT-1到GPT-2到GPT-3的过程。
三层同步演进,每层有自己的技术成熟度和节奏。想法层因为智能体相关技术发展快、成熟好,节奏就快一些。动态层我们觉得非常重要,又是大家目前忽略的部分,它掩盖在具身智能的浪潮里,但对互动娱乐同样关键。
筱宁:"动力学世界模型"怎么理解?
戴勃:动态作为世界状态的一部分需要遵循物理规律。人在现实中总结出来的动态物理规律统称为动力学:人的运动学、衣服的动力学、流体动力学、空气动力学等等。我们做的就是把动力学的物理先验嵌入到Transformer架构上,使得next state prediction能非常稳定。
筱宁:为什么动态层在交互娱乐场景里特别重要?
戴勃:一个静态的环境谈不上交互。没有动态的空间、动态的载体,就谈不上主动和交互。静态的东西你只能单方面参与,它没有反馈。只有动态才会给你反馈,你才会在反馈中产生新的可能性,不断生长出更庞大的体验和内容。
白话来讲:世界模型应该有一种活人感。活人感就是它会动,一动不动还挺吓人的。
筱宁:视频天然就是动的。你特别把动态拿出来强调,想说的是什么?
戴勃:视频确实是动的,但像素上的连续不代表背后的规律是一致的——所以才会出现错误累积和幻觉。要么用更多数据逼模型自己学会一套统一的物理规律,要么把人在现实中积累的物理规律当先验嵌到模型里。两种都可以。
另外,视频生成是把静态环境的表现和动态用一个模型放在一起建模了。我认为应该分开。一个直观的例子:我们坐在房间里,我挥了一下手,从合理的角度,只有人相关的状态进行了更新,环境不应该跟着我一起刷新。就像游戏里角色往前走一步,整个环境重新生成一遍,这不合理。
高估与低估,创业者如何穿越技术周期
"慢的时候公司其实挺难死的,快的时候公司很容易死。很多人有错觉,觉得快的时候机会来了。"
筱宁:你们怎么区分一件事到底只是技术看起来很强,还是真的能长出新东西?
戴勃:我们会从客观的定性原理上去分析一个技术——抛开名词,看它突破的那个点到底是什么。
什么容易被高估?一是迭代速度,二是人的适应能力。人很难想象自己没经历过的事情。即使是做这些技术的人也有局限——AnimateDiff做出来后,最后能用它做出很好内容的人不一定是我们自己。所以我一直比较克制,不太想去定义世界模型原生的应用到底是什么。
修涵:从技术视角容易高估应用落地的速度,低估用户心智的变化成本。过去几年最容易犯的错误是过于追求终局。底层成立条件如果不存在,就是过去"纯产品经理视角做AI产品"比较困难的核心原因——结果要么体验不可持续,新鲜劲一过就完了;要么单点的东西不够惊喜。这两层一直在对抗。
筱宁:AI底层技术的发展速率一直在变——23年上半年很快,24年相对静态,最近半年又特别快。你更喜欢哪种时候?
修涵:都各有挑战。核心问题是:慢的时候思考公司在积累什么,快的时候知道那些积累怎么立刻和快速变化发生关系,这样快的时候才不会慌乱。
另一个悖论是:慢的时候公司其实挺难死的,快的时候公司很容易死。很多人有错觉,觉得快的时候机会来了。
筱宁:如果面对一个爆炸性的新技术,你们的第一反应是什么?
戴勃:第一时间溯源:它从哪演化来的,有什么不同,为什么引起轰动。在我的视野范围内,不太会有从天而降的新技术的感觉。重要的是两层:第一,抛开噪声,了解变化的实质;第二,反省:为什么不是我做出这个变化的?长此以往才能变成引领者。
修涵:我们的第一反应是赶紧实验,看到底是什么水平,现在论文的cherry pick太多了。越过判断之后,关注的是它是否改变用户主链路的体验。很多技术是锦上添花,主链路上能影响的事情不会那么多。一个核心标准:用户愿不愿意回来再多消耗token。如果对用户核心loop有更大的提升和变化,那它就是一个非常需要把握住的变化。
筱宁:你们最近聊得挺多的,聊最多的话题是什么?
戴勃:一个是技术进展还是太慢了。
尤其是视觉内容这一块。虽然视频生成模型进展得很好,但在关键维度上还是太慢了——它并不是完全为互动娱乐方向在推进,有其他牵引力量。第二个就是探讨:哪些技术是热闹,哪些是真东西。我们更多是希望,既然技术正在盲人摸象的阶段,而我们在应用场景上有一些共同的vision。
筱宁:在这种环境里做应用方向的创业,对创始人最重要的能力是什么?
修涵:从自身角度出发,我觉得我们靠韧性做事。我总觉得不同的方式都能做出阶段性成果,有些人冲浪,有些人爬山。更关键的是对自己的认知要清楚,了解自己、了解团队,不要强迫干自己不适合干的事。如果提出过高的预期,团队就很难发挥出最强长项,做出超出其他人水平的成果。
戴勃:抛开EGO,客观看待技术演进,从第一性原理出发推演终局的架构和元素,然后结合团队的擅长,选一条梯度下降最快的方向往前走。尤其要避免做技术带来的EGO。
筱宁:未来两到三年,你们最想达成什么?
修涵:我们在逐渐构造"共同搭世界"的工作体系,人和agent协作参与。接下来两三年最核心的问题是:能否出现质量上真正足够高的体验——在消费属性上能和其他消费类型公平竞争的体验?只要出现头几个这样的模式,它的系统性效率就能做到更好,之后就很难刹住车了。
所以我们本质上在解决冷启动的机制——定义的问题,或者说协议的问题。接下来可能围绕海外做更多实验,最终的爆发力会体现在这些组合之后带来的涌现结果上。
筱宁:最近一年,商业化会是压力和挑战吗?
修涵:既有好消息也有坏消息。好消息是:互动型玩法的付费意愿和付费率在全球范围内都比预估的更好。坏消息是:token的成本和新模型的价格并没有变便宜,成本压力会持续存在。所以我现在倾向于尽可能用最好的能力上限,但不要把自己玩死。收入会随过程自然增长,可能比大家想的更自然。
戴勃:两三年内我们会持续按照三层结构构建世界模型基模,在此基础上探讨原生应用——整个技术版图想得挺清楚的。我们也会很关注agentic AI的发展——它一方面是世界模型想法层的组成部分,同时也是一种生产力。如果它真的能提升效率,很多事情的时间会来得更早。可能两年之后会有点久,AI领域的两年非常非常久。
筱宁:你们是要自己做应用的,不会满足于只做模型?
戴勃:一定要把自己的认知在应用层打磨。远离应用场景会让技术迭代偏离;而且我们讲的是像语言模型承载ChatGPT那样、世界模型承载的原生应用——从模型到应用之间距离不会那么大。
筱宁:这个应用形态会是工具还是内容?
戴勃:肯定不是工具,是一种互动娱乐的应用,也不是传统意义的内容——用户一进来就同时在做内容消费和内容创作。
筱宁:可以理解为是一个平台吗?
戴勃:我觉得是平台,但现在会比较谨慎地去描述它。就像ChatGPT——当模型成熟之后,它很快变成一种共识。所以我现在不太想用现有的词汇去定义它。