在模型厂碾压之前，AI 视频 Agent 产品是否只能挣波快钱？

文｜王毓婵周鑫雨

编辑｜杨轩

" 看流水（即营收），AI 视频类这些项目的表现确实很不错，可以说是 AI 最赚钱的细分赛道之一。" 投资行业人士对 36 氪说。

中国 AI 视频生成赛道，正在经历大厂模型能力疯狂增长的巨大红利。来自字节跳动的 Seedance 和来自快手的可灵这两款 " 超级底座 " 正在进行一周一小版、两月一大版的高频迭代。阿里巴巴也在 4 月底，对视频生成模型 HappyHorse 1.0 开启灰测，720P 视频生成刊例价为 0.9 元 / 秒。

愿意为此花钱的内容创作者太多了，太急迫了。众多短剧、内容公司排队等待使用 Seedance2.0 已经成为 2026 年 AI 世界的一个奇观。由此，在 AI 视频模型外 " 套一层壳 "，使其更简单易上手的 AI 视频 Agent 产品，也迎来了增长奇迹。

一位业内人士对智能涌现透露，头部公司一个月的算力消耗成本应该在百万元以上。 " 一部短剧的算力消耗成本约为 3 万元，工具平台如果一个月能接 100 部这样的工程，那么消耗量就能达到 300 万。这没什么难度，只是时间问题。"

在必应上搜索 "AI 视频生成工具 " 这样的关键词，能看到不少此类产品的广告。" 据我了解，某头部工具平台一天在这个广告上的消耗就有两三万元，那么一年光这一个渠道的广告投放就至少需要七八百万元。由此可以反推它的收入水平是多么高。" 业内人士称。

AI 视频创作平台 Creati 对智能涌现透露，上线一年，该平台的全球用户量就突破了千万级别。产品 ARR（年度经常性收入），一度达到了 2000 万美金。

但令这些 AI 视频 Agent 产品担忧的是，如果大厂也从模型层走到产品层，跟自己抢饭碗呢？今年 1 月，抖音还推出了 AI 视频应用 " 随变 "，将工具 + 社区两块业务一并做了起来。以及，产品公司设计的应用层功能又可能随着大模型的一次升级被覆盖。

" 短期来说，这类工具型公司与大模型厂商之间还是合作关系。创业公司的利润很大程度上由它们能接入哪些模型、能拿到多大 API 价格折扣来决定。" 蔚来资本投资经理冯绘霓表示，" 但同时，据我所知，大厂对这些‘合作伙伴’也看得很紧。在这些比较重要的赛道方向上面，大厂内可能有不止一个团队在做。"

这是一个 " 等待被大厂吞没 " 的行业，还是真的有可能长出像 Adobe 那样的工具型公司？

产品公司在生态位上的弱势，体现在利润里。" 如果看利润，其实大家的毛利率都挺低。" 某投资人表示，很多项目在牺牲 UE（单位经济效益）换规模，因为 " 目前这个行业没什么壁垒，所以都在烧钱补贴获客，还做不到盈亏平衡。"

但依然有不少投资人愿意对其下注。这个赛道最明星的中国公司—— LibTV 的母公司 LiblibAI，在去年 10 月完成了由红杉中国、CMC 资本等机构投资的 1.3 亿美元 B 轮融资。更早之前，它还曾创下 " 一年内连续四轮融资 " 的行业纪录。

工具类公司融资规模排名

"今年 AI 视频工具是为数不多可以投的赛道，因为视频的迭代速度比语言、coding 慢很多，所以在语言工具、coding 应用大批被基模颠覆的情况下，视频生成项目反而相对更‘可看’。" 一位投资人对智能涌现表示。

这些 AI 视频 Agent 产品依然有时间做出自己的护城河。在这场 " 不对等的竞争 " 中，谁能活下来？

大厂之剑，与商业化护城河

目前来看，主流的工具类产品有三种形态：

要么做好 "idea"，通过 AI Agent 将创作流程极度简化为 " 自然语言指令 "，比如 ZeroCut、Ribbi；要么做好 "editing"，把无限画布、细节调整做到非常精细，比如 LibTV、Buzzy；要么 " 离钱更近 "，直接把视频生成与电商交易 / 社媒运营挂钩，比如 TapNow。

本文包括创业者和投资人在内的所有受访人都认同，等大模型厂商卷完了基建层面的事，势必就要做应用层面的事，这只是一个时间早晚的问题。关键是，这个时间窗口有多久，以及窗口关闭了之后，自己还能否存活。

曾在大厂工作，并经历了古典互联网时代竞争的张云剑，打造了 AI 视频创作平台 ZeroCut。他认为，"至少在五年内，大厂很难一口气完美覆盖掉整个 AI 视频制作的全流程。"

他的判断主要基于以下两个认知：

第一，视频制作是一条极长的创意服务链条。外界或投资人往往只关注 " 工程工具 " 和 " 生成 " 这一层面，但视频生成实际上只占整个制作环节的一小部分。在真正生成视频之前和之后，有着非常复杂的创意和链条过程，因此，AI 对流程的替代将是一个逐步的过程，五年内很难达到直接面向消费者，且完全不需要人工干预的终极形态。

第二，基于市场竞争与细分逻辑，单一厂商很难在所有环节都做到极致。一个完整的 AI 视频工作流需要调用语言模型、图片模型和视频模型。大厂虽然有能力做全流程覆盖，但这并不意味着它能在每一个细分领域都保持最强，例如有的模型在图片生成上做到了极致，但视频能力未必最强。这种能力的差异化最终会促成市场细分，而非一家独大。

同样离开大厂、投身 AI 创作工具创业的 Ribbi 创始人兼 CEO Robin，在这一点上与张云剑观点接近。"大厂中，业务、模型和顶层之间的对齐是最困难的事，除非已经有业内共识。"Robin 说，" 在看到 Taste 的确切价值之前，为审美、品味构建模型，是大厂不愿意做的。只有当视觉创意生成从非共识，变成共识，才能激发更多大厂和顶尖人才参与进来。"

然而，投资经理冯绘霓觉得这个为期五年的这个预估有点 " 过于乐观 "。

" 大厂在接触这类工具型的初创公司时，其实最想挖的不是产品或算法人才，而是运营。" 冯绘霓说，" 这揭示了一件事情——在技术层面，大厂自认为完全有这个能力把产品做出来，而目前的短板在于用户渗透。"

冯绘霓的判断是，Seedance、可灵等大模型的野心非常大，" 它们不会只想做一个基建或者工具，他们更想做的是‘定义下一个内容平台、社交平台’，而工具只是‘顺带被做了’的部分。"

一句话来说，大厂会做，但不会明天就做。在这个窗口期，创业公司能做什么呢？

从腾讯、字节跳动等大厂离职创业的 Anijam CEO 方晨认为，创业公司与大厂竞争的关键，是 "要更早跑起来，形成用户留存与数据沉淀。"

换句话来说，时间就是资源，跑起来的速度决定了达摩克利斯之剑落下之后的生死。" 要尽快进入市场、获取用户，并在真实使用中积累数据与认知。" 方晨说。

张云剑对 ZeroCut 的规划是，公司的护城河在于 "AI 落地服务 " 与 " 社会分工 "。

" 即使底层模型变得非常强大，市场上依然会有大量不会使用工具的用户，或者出于‘性价比’和‘比较优势’考虑而不愿亲自下场制作的企业客户。" 张云剑说。因此，ZeroCut 将避开工具层面的硬碰硬，直接帮客户解决最终的 " 交付和落地 " 问题。

这就涉及到了商业化路线的问题——是在大模型的算力成本与自己的用户定价之间赚差价，还是找一条新的商业化道路？前者虽然简单，但大模型厂商一旦降价，就会吸走用户，大模型厂商一旦涨价，自己的利润就会变薄。说白了终究是把命脉交在他人手中。因此，创业公司大多选择了后一条路。

ZeroCut 的思路，就是 " 技术 + 服务 " 模式——如果客户有能力，可以直接使用工具；如果客户需要代工，平台会将订单对接给熟练掌握该工具的创作者，提供稳定的视频定制交付服务。至于计费标准，则从传统内容承制公司的 " 人力计费 " 转为 AI 时代的 "Token 计费 "。客户不需要关心固定的人力报价，而是以视频生成过程中消耗的算力为基准来计价。

只是让用户 " 花钱买积分 " 根本不够。许多 AI 视频生成工具，都在将手越来越深地伸向客户的业务深处，变得越来越像一个能包揽一切的乙方。

主打 " 电商 +AI 自动生成 " 商业模式的 TapNow，就被外界评价为 " 离钱最近的项目 "。传统 4A 公司高管在《BusinessFocus》的匿名访谈中提到："TapNow 这种‘预测 + 自动生成’的逻辑，抢走了原本属于中小代理商的短视频代运营订单。"

Ribbi 不仅能用来创作音视图，还能帮用户监测内容发布到社交媒体之后的数据。感知阶跃也一样，致力于覆盖内容生成、发布、投放、A/B Test、效果分析、二创等的全流程。

"人一定是懒的动物。没有用户希望做一个产品、完成一个环节，就换一个模型、换一套工具。"Robin 说。

社交媒体，是 Agent 在线进化落地的核心训练场，将作品发布到社交媒体，是 Agent 与真实世界的交互。监测数据表现后，Ribbi 能够自主迭代和优化创作路径，交付更好的结果。最终，平台就能够形成一个自主进化的创作闭环。

Ribbi 目前的模式还没完全确定，但 Robin 确定未来一定不会是积分制，因为它 " 不够诚实清晰 "。

但积分制仍然是目前行业的主流商业化模式，毕竟它足够简单，并且已经完成了用户教育。但随着工具能提供的服务越来越深化，以及 "Token 未来会越来越廉价 " 的美好愿景，也许未来的服务也会有未来的新商业模式。

" 感知阶跃 " 创始人兼 CEO 张诗莹与方晨有一个共识，他们认为，未来时代的商业模式应该是" 为效果付费，而不应该为成本付费。"

方晨认为理想的情况是，当 AI 生成的准确率足够高，而 Token 成本足够低时，那么用户就可以仅在愿意下载内容时，才为最终产出买单，而非为生成过程中的 Token 消耗付费。

张诗莹则认为，Agent 的商业模式，应该与人类 Agency 越来越相似，" 收费模式不会是订阅，而更多会采用分佣的形式。"

工具型公司的时间窗口，是新时代诞生一个新的 Adobe 那么大的机会，还是在大厂包揽一切之前的昙花一现？对于已经入局的人来说，他们相信底层大模型归属大厂，但应用层也有创业公司能做的事。

" 我立志成为硅基生命的垫脚石。"Robin 说。" 假设某一天，某家模型厂商实现了 AI 的自主进化，即便功不在我，我也愿意贡献我们对 Context Layer 自主进化的 Know-How、开源我们的技术架构，帮助模型厂商训练更好的自主进化模型。"

技术路线之争：提供 idea，还是提供 editing？

创业公司之间，目前也有显著的思路分歧。

同样是 AI 视频生成工具，产品的形态却千差万别——有的一打开首页就像进了抖音（会自动播放 AI 视频）或得物（满屏 AI 广告片示范），有的却只有简简单单一个对话框，像进了任意一个 chatbot。这背后是行业的技术路线之争。

到底要画布，还是要一个包揽一切的 Agent，是目前最大的技术分歧之一。

" 无限画布 " 的 UI 交互方式改变了传统的线性时间轴，允许创作者像在 Figma 或 Miro 中一样，通过节点连接素材和工作流。坚持这一路线的明星产品有 LibTV、SkyReels、TapNow 等。

在这些产品上，用户有了一个可以无限缩放、拖拽的画布空间。你可以将一个 " 图片节点 " 连向 " 视频节点 "，再连向 " 音频节点 "，形成一个自动化的 Pipeline。

LibTV 画布界面

画布的好处，在于人的意志的 " 强控制 "——用户可以在任意环节手动介入调整，确保 AI 生成内容的画风、角色、镜头细节等等都在自己的规划之内。

有创作者将 LibTV 的无限画布比喻为 " 乐高积木"，因为它能自由搭建分镜，彻底改变了线性剪辑逻辑。

但也有旗帜鲜明地反对画布形态的产品，比如 ZeroCut 和一周收到了全球 4 万多用户使用申请的 Ribbi。

这两款产品的特征，是没有醒目的画布，所有的创作、编辑交互，都集中在一个小小的对话框中。用户用自然语言与 Agent 对话，然后由 agent 去指导模型生成内容。

张云剑致力于推动从 " 人为主导 " 向 "Agent 为主导 " 的范式转移。他对智能涌现表示，ZeroCut 认为传统的画布或工作流模式只是过渡形态，这些模式本质上是 " 重人工 " 的，是将 AI 能力作为节点，让用户去手动串联，属于自动化工业方案。

ZeroCut 网页端产品界面

"当你在创作时，大部分的活是人在干，还是 AI 在干？" 张云剑说，" 这个是我们判断的一个标准 "。ZeroCut 致力于让人退居幕后，进行决策和提供灵感，而让 AI 去承担长流程的视频制作。

Ribbi 在这一点上也有这样的共识——不做 " 画布类 " 的产品，而是用 Chat 作为 UI，给 Agent 更多的自由度。

Ribbi 界面

" 画布类的产品，把模型的可能性锁死了。"Robin 说，" 我们没有把 Ribbi 做成画布类的产品。画布类的 AI 产品看起来交互很酷炫，能让投资人眼前一亮，专业用户使用起来也很顺手。但它们有一个致命伤：把模型的可能性提前锁死了。因为画布的本质，是将工作流拆成一个个节点，模型只能沿着这条路径走。"

Robin 认为，AI 时代的 UI 应该是容器化的，而不是功能化的。产品应该给 AI 创造一个容器，让它可以自由决定调用什么样的工具、怎么组合工具，甚至按照什么样的顺序执行任务。

在这种初衷之下，这类产品的界面就浓缩为了一个 Chatbot。Robin 表示，他认为Chat 是一个 " 足够简单，并且灵活兼容一切的容器。"

他举了豆包作为例子——豆包的移动端 App 设计得很轻量，用户不需要打开新的对话框，只要在一个 session 中 Chat，就能生图、生视频。它将用户的交互和 AI 的行为，统一在一个非常简单的框架中。

两类技术路线之争其实归根结底是在争一个问题——工具到底应该提供 idea（为没那么专业的用户提供思路），还是提供 editing（为相对专业一些的用户提供编辑工具）？

在路线之争尚未定胜负之时，也出现了 " 融合态 " 的产品。

由腾讯杰出科学家创业打造的 AI 视频工具产品 Anija，融合了画布和 Agent 两种形态——用户既可以用自然语言在 Chat 中指导 Agent 干活，也可以在画布上自己上手调整。

既有 Agent 又有画布的 Anijam 界面

Anijam CEO 方晨向智能涌现展示，在创作过程中，系统会自动识别故事中的关键元素，包括角色、场景、道具及风格，并基于此生成完整的分镜镜头。每一个镜头都会包含场景描述、角色状态、镜头语言等信息。

对于画面中的问题，创作者可以通过自然语言指导 Agent 进行修改，也可以亲自使用工具，在画布上 " 局部编辑 "，例如只修改角色表情，而不影响动作或背景。这也是 Anijam 的关键能力之一，即从抽卡式生成视频走向 " 可控编辑 "。

在大模型厂商做出真正好用的应用层产品之前，两类产品都已经积累了可观的用户基础。现在的问题是，大厂给大家留了多少时间窗口？窗口关闭之后呢？

" 应用层不应该去做模型层的事，因为模型一定会变得足够好。" 张诗莹说。她是 " 感知阶跃 " 创始人兼 CEO，该公司的产品之一，是 AI 视频创作平台 Creati。

" 当下有很多‘套壳’视频模型能力的产品，无论是画布，还是工作流，解决的都是模型能力不够强的问题，比如抽卡、视频生成长度有限。但未来，模型层一定会解决生成质量和长度的问题。应用层的机会，就在于解决生成环节之外的问题。" 张诗莹说。

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

在模型厂碾压之前，AI 视频 Agent 产品是否只能挣波快钱？

宙世代

一起剪

相关阅读

对话雅诗兰黛集团总裁兼CEO司泰峰：让一家“慢”公司变快，这是他的第一年

最新评论

36氪

热门推荐

企业资讯