对话两位 AI 创业者：在技术的快速变迁中，抓住那些“不变”的东西

文 | 游戏茶馆

当生成式AI已经能画出以假乱真的图像、写出流畅的剧本、甚至生成连贯的视频片段，下一个问题浮出水面：为什么我们还没有看到一款真正属于AI时代的互动娱乐产品？

技术要素似乎都已就位，但它们更像是散落一地的零件，尚未被组装成一台能跑起来的机器。整个行业更像是处在"盲人摸象"的阶段，每个人都摸到了大象的一部分，但完整的图景还没有人真正看清。

最近405 游局请到的两位嘉宾，恰好站在这头大象的两侧。

戴勃，Feeling AI（云梧智能）创始人，香港大学助理教授。他从2014年读博起就扎在生成式AI领域，博士就读于香港中文大学MMLab，师从林达华教授，谷歌学术引用超过一万次，近三年连续入选全球前2%顶尖科学家。他最广为人知的工作是AnimateDiff——这个开源视频生成模型一度席卷整个Stable Diffusion社区。2024年，他拒绝了多家大厂的邀约，选择创办Feeling AI，目标是构建世界模型的基础设施，让虚拟世界拥有："活人感"。成立半年内，公司完成两轮超亿元融资。

胡修涵，捏Ta（看见概念）创始人。北大智能科学与经济学双学位，哥伦比亚大学硕士，先后在Meta担任短视频技术架构负责人、在阿里巴巴成为数据技术事业部最年轻的P8专家、在特赞从零搭建收入过亿的产品线。2022年底，Stable Diffusion发布仅四个月，他就判断"内容的乐高变了"，随即离职创业。捏Ta如今注册用户超1200万，日均互动时长超110分钟。2026年3月刚完成超千万美元的Pre-A+轮融资。

两人的渊源比商业叙事更早。他们是计算机竞赛时期的老友，而将他们再次连接起来的，是AnimateDiff——戴勃做出这个模型后第一时间发给修涵看，修涵的反应是"我一直想要这个东西"。此后一个扎进世界模型的底层架构，一个在应用层构建AI原生的创作社区，路线不同，但指向同一个终局。

这场对话围绕几个核心问题展开：当内容的基本单元从像素演进到概念，创作和消费的边界会如何重新划定？AI原生的应用为什么必须是"主动的"和"实时的"，而不能是预生成再分发？世界模型到底该怎么理解——戴勃将其拆解为想法层、动态层和静态层的三层架构，而修涵更关注它能否成为一个有内生动力的持续系统。他们还深入讨论了一个容易被忽视的区分：creation（专业创造）与recreation（大众再创造/消遣式创作）。真正大众化的UGC行为，本质上更接近后者——对过程质量要求高，对结果质量要求不高，享受的是搭建本身的心流。

两位创始人有一个共同的信念：最大的机会不是有人造出一个"绿洲"，而是有人提供造绿洲的积木。当用户能用概念而非代码去搭建世界、定义规则、创造角色，互动娱乐的形态将不再受限于今天的想象力，而只受限于技术力何时跟上。

以下为 405 游局与戴勃和胡修涵的对话，游戏茶馆经授权整理文字版本，内容有所编辑。

内容的积木正在被重新定义

"以前内容的积木是像素，未来的积木是概念。当概念和提示词直接绑定的时候，就是积木层面上最核心的变化。"

筱宁：你们俩都偏技术背景，为什么这次创业都选了偏娱乐、偏内容的方向？

修涵：我和戴勃一起搞过计算机竞赛，毕业后一直做产品项目，在Facebook这样产品文化优先的公司里，做过很多设计AB testing、增长实验的事情，逐渐习惯从工程化和产品化的角度去思考技术创新带来的影响。每一代AI技术变化，我的第一反应都是怎么解决更确定的现实场景中的问题。

戴勃：我比较简单。小时候我妈给我买了一台小霸王学习机，从此对互动内容非常感兴趣。读博选方向时就想：能用自己做的技术去构建互动内容，会是让我自己很满意的状态。眼看着技术逐渐成熟，就觉得不妨自己亲手去做，因为只有做了才能找到答案。

筱宁：你们当时决定创业是看到了什么样的信号？

修涵：我一直关注的是内容的原子性，怎么解构和重构，也在思考模型如何影响创作者的协作方式。当然，不是从底层原理的技术角度，而是从它怎么影响人的协作，怎么影响创作者去做内容的工程角度。

2022年7月看到Stable Diffusion的时候，甚至不需要等到大语言模型出现，我就清晰地认识到内容的乐高已经变了过去可能是一帧图、一个图层，甚至精确到像素；而未来的"积木"很可能是概念——某种视觉层面的概念。这是积木层面的核心变迁。我们在这个过程中做了大量探索，也经历了 LoRA 等各种 building blocks 不断演变的阶段。

我觉得最近像 Nano Banana 和 Seedance 2.0 这类突破，已经在逐步逼近"用概念就能构建一个世界"的状态。这是一个循序渐进的理解过程。

筱宁：我们上次聊过，有些东西从头到尾没变，比如你最初对这件事的定义就是"GitHub + IP"。

修涵：我们思考内容原子的变化，历史上大概有三到四代：第一代以纯像素为核心；第二代出现了模板、图层、3D模型；第三代是Figma那一代的组件化；第四代就是现在以概念为核心的原子结构。每一代都诞生了伟大的产品：第一、二代Photoshop，第三代Figma，第四代可能就在当下。

越往深处看，这些积木越来越像代码。而代码的天然属性决定了它可以实现GitHub式的协作。以前共创型的行为只有Wikipedia这种文字层面的协作，当它跨越到视觉层面，就出现了核心模式变化的机会。其中被最多复用的积木就是IP的要素。

戴勃：我2014年读博开始关注生成式AI，一路看着它走过来。2022年看到Stable Diffusion的成熟度之后，觉得技术到了一个临界点。

2023年我们做了一个视频生成的工作叫AnimateDiff，做出来后我第一时间发给修涵看，他直接跟我说"一直想要这个东西"。我们开源出去后，大概两三个月整个Stable Diffusion社区都被吸引了。Reddit上至今还有专门的分区，甚至现在有了Seedance，还是有人在用AnimateDiff做各种内容。

这给我的启发是：我好像也能掌握这种成熟的技术了。一开始我们倾向于通过合作的方式推进——我做技术，开源或合作。但23年下半年尝试之后，整体感觉不够快。AnimateDiff五月做完，七月发给修涵看，但真正产生热度是在十月份，已经过了三个月。你不亲自做的话，进展会很慢。

站在那个节点你会开始反问自己：这是运气，是偶然还是必然？最好的方式就是直接去面对需求，这样才知道技术该往哪里加速迭代。所以我们决定自己下场，把AI的基建做好。我们相信从这种基建能诞生更原生的应用，而这需要用户在过程中一起进化想法。

AI原生应用的特点：主动、实时、在生成中消费

"如果完全是预生成之后再分发的模式，我对它打败抖音都没什么信心。所以我非常支持‘在生成中消费’。"

筱宁：你们都说在做一种"新的东西"，具象一点说，从体验层面你们期待的远方是什么样的？

戴勃：我说不出具体形态，但可以说出它应该具备的特点。生成式AI最大的特点是它的不确定性——在可控范围内的不确定性。"AI"这个词1956年诞生时就定义了它应该具备creativity：能不能进行educated guess？你有control，你是educated，但又有不确定性。

这种不确定性意味着AI原生的应用一定要在推理时发生。不应该是离线产生内容然后你去消费，而是在实时交互的过程中，模型配合人进行推理、产生内容。

第二个特点是从被动式变成主动式。不是等你来操作，而是它会主动给你反馈和刺激。所以新应用最大的两个特点就是：主动和无限实时。

修涵：从商业和需求的角度也推导到了类似方向。用户在社区里看到别人的内容更像是一个广告片，他真正消费的过程是他自己在生成的那一刻。

往远期推：长期的终极形态，某种意义上就是人类的共同幻想——虚拟空间，或者西部世界式的体验。但它会有一些传统内容难以覆盖的角度，因此IP的作用会更强，因为每一次内容都不固定，你需要一些不变的东西来帮助认知，一个系统如果全都在变，等于没法用。覆盖的长尾属性会更强、个人属性会更强，因为通用的高质量已经被解决得很好了，接下来的问题是"不通用的高质量"如何产出。供需关系会导致经济利益分配也往这个方向移动，通用的高质量会贬值。

现在已经能看到这种趋势——很多平台上AI生成的漂亮小姐姐跳舞视频，虽然还有流量价值，但要带货已经非常困难。这就是升值和贬值正在发生的过程。

筱宁：你们反复提到IP这个词。在AI时代，IP应该怎么理解？

修涵：AI时代的IP可能不是我们现在理解的商业意义上的IP。知识产权这个概念本身是随着印刷业诞生的，本质上是印刷业技术推演出来的制度。AI在一定程度上完全打破了"单件内容生产需要付出人类劳动"这个基础假设。

我比较相信的本质是：IP就是对某类内容的共识。不管它是一个形象的共识，还是某个故事环境的共识，大家对这个东西有一个共同的认知。有时候表现为MEME，有时候表现为某种梗。这些本质上就是大家反复使用的"复读机"，长期来看都是某种意义上的IP。

Creation与Recreation，UGC的真实逻辑与应用层的机会

"要拆分清楚creation和recreation的区别。Recreation——消遣——是非常广泛的UGC行为，对过程质量要求很高，对结果质量要求不高。"

筱宁：我们这一代人被PGC内容服务得非常好。那我们真的有那么多UGC需求吗？如果消费本质依赖用户自己参与生成过程，是不是拔高了对人的要求？

戴勃：回到修涵说的，真正的消费过程发生在创作过程中，产出的内容更像一个trailer。这个空间仍然存在，因为每个人都有表达的欲望。抖音通过相机记录生活瞬间，就提供了UGC的途径。

第二个问题，creativity有两方面：有没有动机，有没有能力。生成式AI提供了能力。而为什么我强调应用应该是主动式的？就是为了解决动机问题。你会有灵感，但创作的过程不易，比如很多作家会说创作其实很痛苦。互动式的创作模式让你从小的灵感开始，慢慢保持热度。生成式AI恰恰能回答这个悖论。

修涵：从另一个角度补充。这个播客的听众可能更多从游戏视角看问题，我们不否认游戏行业整体主导的是PGC。但如果从广义的娱乐型游玩体验来看，UGC无处不在。

服务型体验的特点是创作者要非常尽心尽力地为受众做设计，要求很高，所以必然收束在一小群人中。但很多UGC本质上是悦己的，带有社交性，本质是表达自我。从抖音的滤镜玩法，到线下织毛衣、做拼豆、搭乐高，都是先享受那个心流过程，然后幻想自己能做出很好的东西去展示。炫耀是派生的，但有这个幻想空间很重要。

没听说过谁去搞摄影是不希望自己拍出来的东西好的。但买了设备自娱自乐的人里，全部分享出来的可能也很少，但它依然构成了一种很强的娱乐行为。

Recreation——初期不以纯粹表达目的为核心的行为——对过程质量要求很高，对结果质量要求不高。有一个小圈子持续捧你，就很开心了。这符合长尾效应的内容价值。而且内容不存在绝对的UGC和绝对的PGC。你用一个抖音模板做完一个东西，模板很可能是PGC的，但最后的内容是你的表达和模板共同构成的——谁的贡献更大，有时候拆不清楚。AI其实提供了一个通用的高质量基线保证。

在此基础上，任何娱乐方式长期都会有四个关键要件：第一，角色——你自己的代表、你的POV；第二，环境和世界；第三，规则——对应衍生的玩法规则；第四，交互方式。

大家现在总想找到一种不变的交互方式来做稳定的平台推演，但这个点被Vibe Coding很大地挑战了。不太容易变的是世界和规则。角色最先容易成立，但用完丢的可能性也大；环境和规则比较容易持续存在，可以打造一系列的动力系统。

这些东西可以做"Creative Harness"——怎么让AI变成一匹可以被驯服的烈马？它不被关在笼子里，仍然有惊喜，但又被你拴着往一个方向奔驰，给大家带来乐趣。

筱宁：如果视觉一致性攻克了，什么会被改写？

戴勃：关键是实时推理能力。在长时间推理稳定性的基础上，把单次推理的延时降到实时，你就不再是在用一个工具，而是在一个完整的世界模型里和agent一起交互。某种意义上就像是《头号玩家》里的绿洲。

筱宁：应用层的最大机会在哪？头号玩家里的绿洲也是有人造了一个绿洲嘛。

戴勃：最大的不是有个人造了绿洲，而是有人提供了造绿洲的积木。最终的绿洲是由一个个星球组成的，而每个星球是用户自己创造的。因为有了积木的能力，他可以构建不同的世界观和规则。像修涵说的，乐趣来自于构建的过程。构建完成之后——甚至不用完成——就可以有无数人过来接着参与、共同构建。出发点是有个人提供了空间和积木，让你去搭。

修涵：我补充一点，为什么长期来看这个需求存在？人对环境的感受和体验，本质上也是在给自己的脑子建设对世界的理解。你无法真实理解从未亲身经历过的东西。所以本质上是提供多重的人生。

人的需求无非就是延长寿命、增加体验时间、在单位时间内增加更多体验——通过提供更多人生体验的基建方式，本身就是最大的机会。这些体验没办法完全通过别人来给你构建好再提供给你——那在一定程度上是伪命题。

戴勃：很多时候人在现实世界里被束缚的就是"我要做选择，只能选其中一条路"。世界模型就应该能创造这种可能性。它本质上和游戏是同一件事——"游"就是到处走走，"戏"就是这里碰一下那里碰一下去做交互。之前的游戏有一些部分是因为技术力的限制变成了当下的形态，但这不是人的想象力的限制，而是技术力的限制。这一步应该被解放。

修涵：我稍微反向debate一下。"游戏是一个有约束的艺术"——从传统有限游戏的角度，这非常成立，也是我特别尊重游戏行业的核心原因。我们很少说"用户能直接做出游戏来"，因为我对狭义游戏的定义是非常尊重的。它是一种体验策划——就像人一辈子可能只经历一次的婚礼，它能形成现在的规范和要求是很精妙的，不是随手拍个脑袋给你一个体验就行了。

但体验单元是可以被拆解和工程化的。比如现在很多开放世界游戏，大家会说像个"缝合怪"，里面有很多玩法，甚至巴不得把看电影的体验也缝进去。这就是一种以环境和世界为驱动、在里面缝很多种玩法的趋势。

但从把AI发挥好的角度来说，应该从小往上长，而不是从专业体验往下拆小。因为从专业体验往下拆会限制AI的发挥。我时常说"从游戏的视角来看，资产不重总让人觉得没法尊重"。这个视角会导致从游戏往UGC拆的时候总有一种说不清的味道。

所以我们在想的是：从AI原生视角出发，它最好被构造的小模块是什么？不好被构造的部分先让人来做。UGC的真实解法，很多还是从更原生的、从小往上长的逻辑中长出来的。

世界模型，从盲人摸象到三层架构

"世界模型应该有一种活人感。活人感就是它会动。"

筱宁：如果我们想要实时性、推理能力、可控的创造性，今天距离实现差距在哪里？

修涵：要素的实现已经有了，只是没有被很好地整体解压缩出来，给大家带来很好的体验。并不是说你现在不能开始建角色、建面向AI的世界、建将来可以玩的规则——比如酒馆类产品，就是在一定程度上建玩法规则为主；我们可能更多从角色到世界的角度去关注环境和视觉共识要素。只是如果模型的实时性、持续能力这些问题都很卡、成本很高，那建好的规则最终能覆盖的体验变革还是有限的。

戴勃：现在的状态给我的感觉是既很近又很远。要素都具备了，但是一种大水漫灌式的具备——每个方向都有涉及，意味着你可以开始进行要素的组合。修涵说的沉淀世界观和规则，这些沉淀不会因为技术的进化而从头再来。

但技术在深度、广度和维度三个方面都有所欠缺。深度——比如酒馆场景，剧情复杂度或演绎长度拉长后就开始出问题。广度——各种类型中始终有擅长和不擅长的区分。维度——文字式的、语言为主的，要素更齐全；但更视觉化、更立体的世界模型方向还很缺乏。

总体来说，大家可以拿这种"不是零"的状态去组合，但真的要往终局走，起码从技术上还是要静下心来思考技术审美，然后以比较快的速度持续推进。

筱宁：你们是怎么理解"世界模型"这个概念的？

戴勃：现在讲世界模型的人很多，用一个成语来形容最合适：盲人摸象。不同的人因为不同的应用场景和背景，摸到了大象的不同部分。

我自己的理解很简单：它就是一个类似于元宇宙的游戏，现实世界有的元素它都应该具备，我们把它拆成三层。

第一层：逻辑/想法层——每个动态实体的想法：我为什么要进行这些活动？

第二层：动态层——我有了想法之后，怎么把想法执行出来。

第三层：静态/表现层——把动态的行动装载到一个环境里呈现出来。不管这个环境是传统游戏引擎构建的3D环境，还是AI构建的3D环境——比如李飞飞老师的World Lab，还是以谷歌Genie 3为代表的视频类环境。

不同的人根据场景，可能不需要把三层都做好。但一个真正的世界模型，就是你能不能把现实一一对应，它是活着的，动态实体都有自己的想法和规划。

修涵：我希望它至少是一个持续的、有自己内生动力的系统。现在的问题是，你一个角色去到多个场景，中间是断层的；或者它不主动，你不推就不动。而人的现实世界和线下体验，很多都是靠世界环境本身帮你实现目的。只要能解决持续性和主动性的问题，我们之前对优质内容的很多假设其实都可以改。

筱宁：视觉模型训练上，是不是面临和语言模型很不一样的挑战？

戴勃：语言模型的范式是next token prediction，世界模型强调的是next state prediction。其实语言模型也可以在语言domain里实现世界模型——你用文字维护世界的state。这也是为什么代码能力很重要：它提供了一种恒定、稳定、一致的方式来检查模型的思考过程和逻辑准确性。如果是纯自然语言描述，你会陷入"它到底是真不懂，还是没说清楚"的困境。

视觉内容还需要一致性——但不是逻辑的一致性，而是符合物理直觉的一致性。我想强调：从应用角度，我们要的不是"物理一致性"，而是"物理直觉一致性"。人不会去计算视觉内容背后的物理规律是否一致，只要不违和，我们就觉得它符合物理直觉。

筱宁：对做互动娱乐来说，视觉这块需要攻克的难点在哪？

戴勃：传统的方式是用游戏引擎构建世界内容。游戏引擎嵌入物理规律的方式比较"硬核"——传统仿真学，把公式真的写在里面进行计算。而神经网络只告诉它输入和输出，中间怎么从输入到输出完全是自己学的，没有任何规律或公式的guidance，非常"软"。但这样带来的问题是它会走捷径，你无法判断它总结的规律跟你想要的规律是否一致。

所以现在需要攻克的问题就是：如何把两者的优势融合？既有"软"的灵活性，又有"硬"的保证。只有这样才能实现长时间视觉内容上的一致性。

从视觉内容的结构上来说，模型应该知道自己在表达什么。不是"这个像素现在是什么颜色、下一刻应该连续变化"，而是知道"这个像素属于一个人的手，下一刻是整个手在变化，然后投影到像素上应该怎么变化"。有了这种更符合现实结构的认知，就能从根本上解决幻觉问题，幻觉本质上来自于模型不知道自己生成的像素是什么意思。

筱宁：你们最近开源的模型着重解决记忆和规划，为什么？

戴勃：我们是三层同步演进的——想法层、动态层和静态层。甚至中间的动态层，我们在构建动力学世界模型，刚好完成了模型架构的创新。打个比方——就好像Transformer架构已经确定了，剩下的就是从GPT-1到GPT-2到GPT-3的过程。

三层同步演进，每层有自己的技术成熟度和节奏。想法层因为智能体相关技术发展快、成熟好，节奏就快一些。动态层我们觉得非常重要，又是大家目前忽略的部分，它掩盖在具身智能的浪潮里，但对互动娱乐同样关键。

筱宁："动力学世界模型"怎么理解？

戴勃：动态作为世界状态的一部分需要遵循物理规律。人在现实中总结出来的动态物理规律统称为动力学：人的运动学、衣服的动力学、流体动力学、空气动力学等等。我们做的就是把动力学的物理先验嵌入到Transformer架构上，使得next state prediction能非常稳定。

筱宁：为什么动态层在交互娱乐场景里特别重要？

戴勃：一个静态的环境谈不上交互。没有动态的空间、动态的载体，就谈不上主动和交互。静态的东西你只能单方面参与，它没有反馈。只有动态才会给你反馈，你才会在反馈中产生新的可能性，不断生长出更庞大的体验和内容。

白话来讲：世界模型应该有一种活人感。活人感就是它会动，一动不动还挺吓人的。

筱宁：视频天然就是动的。你特别把动态拿出来强调，想说的是什么？

戴勃：视频确实是动的，但像素上的连续不代表背后的规律是一致的——所以才会出现错误累积和幻觉。要么用更多数据逼模型自己学会一套统一的物理规律，要么把人在现实中积累的物理规律当先验嵌到模型里。两种都可以。

另外，视频生成是把静态环境的表现和动态用一个模型放在一起建模了。我认为应该分开。一个直观的例子：我们坐在房间里，我挥了一下手，从合理的角度，只有人相关的状态进行了更新，环境不应该跟着我一起刷新。就像游戏里角色往前走一步，整个环境重新生成一遍，这不合理。

高估与低估，创业者如何穿越技术周期

"慢的时候公司其实挺难死的，快的时候公司很容易死。很多人有错觉，觉得快的时候机会来了。"

筱宁：你们怎么区分一件事到底只是技术看起来很强，还是真的能长出新东西？

戴勃：我们会从客观的定性原理上去分析一个技术——抛开名词，看它突破的那个点到底是什么。

什么容易被高估？一是迭代速度，二是人的适应能力。人很难想象自己没经历过的事情。即使是做这些技术的人也有局限——AnimateDiff做出来后，最后能用它做出很好内容的人不一定是我们自己。所以我一直比较克制，不太想去定义世界模型原生的应用到底是什么。

修涵：从技术视角容易高估应用落地的速度，低估用户心智的变化成本。过去几年最容易犯的错误是过于追求终局。底层成立条件如果不存在，就是过去"纯产品经理视角做AI产品"比较困难的核心原因——结果要么体验不可持续，新鲜劲一过就完了；要么单点的东西不够惊喜。这两层一直在对抗。

筱宁：AI底层技术的发展速率一直在变——23年上半年很快，24年相对静态，最近半年又特别快。你更喜欢哪种时候？

修涵：都各有挑战。核心问题是：慢的时候思考公司在积累什么，快的时候知道那些积累怎么立刻和快速变化发生关系，这样快的时候才不会慌乱。

另一个悖论是：慢的时候公司其实挺难死的，快的时候公司很容易死。很多人有错觉，觉得快的时候机会来了。

筱宁：如果面对一个爆炸性的新技术，你们的第一反应是什么？

戴勃：第一时间溯源：它从哪演化来的，有什么不同，为什么引起轰动。在我的视野范围内，不太会有从天而降的新技术的感觉。重要的是两层：第一，抛开噪声，了解变化的实质；第二，反省：为什么不是我做出这个变化的？长此以往才能变成引领者。

修涵：我们的第一反应是赶紧实验，看到底是什么水平，现在论文的cherry pick太多了。越过判断之后，关注的是它是否改变用户主链路的体验。很多技术是锦上添花，主链路上能影响的事情不会那么多。一个核心标准：用户愿不愿意回来再多消耗token。如果对用户核心loop有更大的提升和变化，那它就是一个非常需要把握住的变化。

筱宁：你们最近聊得挺多的，聊最多的话题是什么？

戴勃：一个是技术进展还是太慢了。

尤其是视觉内容这一块。虽然视频生成模型进展得很好，但在关键维度上还是太慢了——它并不是完全为互动娱乐方向在推进，有其他牵引力量。第二个就是探讨：哪些技术是热闹，哪些是真东西。我们更多是希望，既然技术正在盲人摸象的阶段，而我们在应用场景上有一些共同的vision。

筱宁：在这种环境里做应用方向的创业，对创始人最重要的能力是什么？

修涵：从自身角度出发，我觉得我们靠韧性做事。我总觉得不同的方式都能做出阶段性成果，有些人冲浪，有些人爬山。更关键的是对自己的认知要清楚，了解自己、了解团队，不要强迫干自己不适合干的事。如果提出过高的预期，团队就很难发挥出最强长项，做出超出其他人水平的成果。

戴勃：抛开EGO，客观看待技术演进，从第一性原理出发推演终局的架构和元素，然后结合团队的擅长，选一条梯度下降最快的方向往前走。尤其要避免做技术带来的EGO。

筱宁：未来两到三年，你们最想达成什么？

修涵：我们在逐渐构造"共同搭世界"的工作体系，人和agent协作参与。接下来两三年最核心的问题是：能否出现质量上真正足够高的体验——在消费属性上能和其他消费类型公平竞争的体验？只要出现头几个这样的模式，它的系统性效率就能做到更好，之后就很难刹住车了。

所以我们本质上在解决冷启动的机制——定义的问题，或者说协议的问题。接下来可能围绕海外做更多实验，最终的爆发力会体现在这些组合之后带来的涌现结果上。

筱宁：最近一年，商业化会是压力和挑战吗？

修涵：既有好消息也有坏消息。好消息是：互动型玩法的付费意愿和付费率在全球范围内都比预估的更好。坏消息是：token的成本和新模型的价格并没有变便宜，成本压力会持续存在。所以我现在倾向于尽可能用最好的能力上限，但不要把自己玩死。收入会随过程自然增长，可能比大家想的更自然。

戴勃：两三年内我们会持续按照三层结构构建世界模型基模，在此基础上探讨原生应用——整个技术版图想得挺清楚的。我们也会很关注agentic AI的发展——它一方面是世界模型想法层的组成部分，同时也是一种生产力。如果它真的能提升效率，很多事情的时间会来得更早。可能两年之后会有点久，AI领域的两年非常非常久。

筱宁：你们是要自己做应用的，不会满足于只做模型？

戴勃：一定要把自己的认知在应用层打磨。远离应用场景会让技术迭代偏离；而且我们讲的是像语言模型承载ChatGPT那样、世界模型承载的原生应用——从模型到应用之间距离不会那么大。

筱宁：这个应用形态会是工具还是内容？

戴勃：肯定不是工具，是一种互动娱乐的应用，也不是传统意义的内容——用户一进来就同时在做内容消费和内容创作。

筱宁：可以理解为是一个平台吗？

戴勃：我觉得是平台，但现在会比较谨慎地去描述它。就像ChatGPT——当模型成熟之后，它很快变成一种共识。所以我现在不太想用现有的词汇去定义它。

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

对话两位 AI 创业者：在技术的快速变迁中，抓住那些“不变”的东西

宙世代

一起剪

相关阅读

多模态大模型HappyHorse或由阿里团队研发

Edge AI Daily 早报（ 4月10日）

张雪峰.skill复活张雪峰生前著作、语录等引争议 律师：或侵犯著作权

苹果瞒着你给 iPhone 打了个补丁，为什么？

马斯克一句话 让Intel市值创25年来最高：突破3000亿美元大关！

雷军把情绪价值拉满！车主炫耀小米汽车能发微博了：满满的炫耀感

AI视频“百铲大战”，腾讯终于下场了

OpenAI女神官宣离职了！曾被誉为GPT-4o之母

借着林俊旸离职的余震，吴泳铭拆了阿里AI的旧承重墙

华为“智能绿水鬼”！华为WATCH Ultimate 2非凡探索旷野绿开售：7999元

赶超OpenAI 全球收入最高大模型企业 如何炼成？

全民养虾时代到来：联想天禧AI大版本更新内容首次流出！还有神秘新硬件曝光

鸿蒙微信大更新 龙虾插件上线 聊天就能指挥AI

谱瑞科技发布PS8651V DP 2.1a/HBR3车载多串流传输集线器控制器

GPT-6如果只是吊胃口，那OpenAI就真会掉下悬崖了

最新评论

钛媒体

热门推荐

企业资讯

热门订阅 换一批

银莕财经

中保新知

医线Insight

GMIF创新观察

挖贝网

局市

张雪峰.skill复活张雪峰生前著作、语录等引争议律师：或侵犯著作权

马斯克一句话让Intel市值创25年来最高：突破3000亿美元大关！

赶超OpenAI 全球收入最高大模型企业如何炼成？

鸿蒙微信大更新龙虾插件上线聊天就能指挥AI

热门订阅换一批