关于ZAKER Skills 合作
36氪 13小时前

在模型厂碾压之前,AI 视频 Agent 产品是否只能挣波快钱?

文|王毓婵 周鑫雨

编辑|杨轩

" 看流水(即营收),AI 视频类这些项目的表现确实很不错,可以说是 AI 最赚钱的细分赛道之一。" 投资行业人士对 36 氪说。

中国 AI 视频生成赛道,正在经历大厂模型能力疯狂增长的巨大红利。来自字节跳动的 Seedance 和来自快手的可灵这两款 " 超级底座 " 正在进行一周一小版、两月一大版的高频迭代。阿里巴巴也在 4 月底,对视频生成模型 HappyHorse 1.0 开启灰测,720P 视频生成刊例价为 0.9 元 / 秒。

愿意为此花钱的内容创作者太多了,太急迫了。众多短剧、内容公司排队等待使用 Seedance2.0 已经成为 2026 年 AI 世界的一个奇观。由此,在 AI 视频模型外 " 套一层壳 ",使其更简单易上手的 AI 视频 Agent 产品,也迎来了增长奇迹。

一位业内人士对智能涌现透露,头部公司一个月的算力消耗成本应该在百万元以上。 " 一部短剧的算力消耗成本约为 3 万元,工具平台如果一个月能接 100 部这样的工程,那么消耗量就能达到 300 万。这没什么难度,只是时间问题。"

在必应上搜索 "AI 视频生成工具 " 这样的关键词,能看到不少此类产品的广告。" 据我了解,某头部工具平台一天在这个广告上的消耗就有两三万元,那么一年光这一个渠道的广告投放就至少需要七八百万元。由此可以反推它的收入水平是多么高。" 业内人士称。

AI 视频创作平台 Creati 对智能涌现透露,上线一年,该平台的全球用户量就突破了千万级别。产品 ARR(年度经常性收入),一度达到了 2000 万美金。

但令这些 AI 视频 Agent 产品担忧的是,如果大厂也从模型层走到产品层,跟自己抢饭碗呢?今年 1 月,抖音还推出了 AI 视频应用 " 随变 ",将工具 + 社区两块业务一并做了起来。以及,产品公司设计的应用层功能又可能随着大模型的一次升级被覆盖。

" 短期来说,这类工具型公司与大模型厂商之间还是合作关系。创业公司的利润很大程度上由它们能接入哪些模型、能拿到多大 API 价格折扣来决定。" 蔚来资本投资经理冯绘霓表示," 但同时,据我所知,大厂对这些‘合作伙伴’也看得很紧。在这些比较重要的赛道方向上面,大厂内可能有不止一个团队在做。"

这是一个 " 等待被大厂吞没 " 的行业,还是真的有可能长出像 Adobe 那样的工具型公司?

产品公司在生态位上的弱势,体现在利润里。" 如果看利润,其实大家的毛利率都挺低。" 某投资人表示,很多项目在牺牲 UE(单位经济效益)换规模,因为 " 目前这个行业没什么壁垒,所以都在烧钱补贴获客,还做不到盈亏平衡。"

但依然有不少投资人愿意对其下注。这个赛道最明星的中国公司—— LibTV 的母公司 LiblibAI,在去年 10 月完成了由红杉中国、CMC 资本等机构投资的 1.3 亿美元 B 轮融资。更早之前,它还曾创下 " 一年内连续四轮融资 " 的行业纪录。

工具类公司融资规模排名

"今年 AI 视频工具是为数不多可以投的赛道,因为视频的迭代速度比语言、coding 慢很多,所以在语言工具、coding 应用大批被基模颠覆的情况下,视频生成项目反而相对更‘可看’。" 一位投资人对智能涌现表示。

这些 AI 视频 Agent 产品依然有时间做出自己的护城河。 在这场 " 不对等的竞争 " 中,谁能活下来?

大厂之剑,与商业化护城河

目前来看,主流的工具类产品有三种形态:

要么做好 "idea",通过 AI Agent 将创作流程极度简化为 " 自然语言指令 ",比如 ZeroCut、Ribbi;要么做好 "editing",把无限画布、细节调整做到非常精细,比如 LibTV、Buzzy;要么 " 离钱更近 ",直接把视频生成与电商交易 / 社媒运营挂钩,比如 TapNow。

本文包括创业者和投资人在内的所有受访人都认同,等大模型厂商卷完了基建层面的事,势必就要做应用层面的事,这只是一个时间早晚的问题。关键是,这个时间窗口有多久,以及窗口关闭了之后,自己还能否存活。

曾在大厂工作,并经历了古典互联网时代竞争的张云剑,打造了 AI 视频创作平台 ZeroCut。他认为,"至少在五年内,大厂很难一口气完美覆盖掉整个 AI 视频制作的全流程。"

他的判断主要基于以下两个认知:

第一,视频制作是一条极长的创意服务链条。外界或投资人往往只关注 " 工程工具 " 和 " 生成 " 这一层面,但视频生成实际上只占整个制作环节的一小部分。在真正生成视频之前和之后,有着非常复杂的创意和链条过程,因此,AI 对流程的替代将是一个逐步的过程,五年内很难达到直接面向消费者,且完全不需要人工干预的终极形态。

第二,基于市场竞争与细分逻辑,单一厂商很难在所有环节都做到极致。一个完整的 AI 视频工作流需要调用语言模型、图片模型和视频模型。大厂虽然有能力做全流程覆盖,但这并不意味着它能在每一个细分领域都保持最强,例如有的模型在图片生成上做到了极致,但视频能力未必最强。这种能力的差异化最终会促成市场细分,而非一家独大。

同样离开大厂、投身 AI 创作工具创业的 Ribbi 创始人兼 CEO Robin,在这一点上与张云剑观点接近。"大厂中,业务、模型和顶层之间的对齐是最困难的事,除非已经有业内共识。"Robin 说," 在看到 Taste 的确切价值之前,为审美、品味构建模型,是大厂不愿意做的。只有当视觉创意生成从非共识,变成共识,才能激发更多大厂和顶尖人才参与进来。"

然而,投资经理冯绘霓觉得这个为期五年的这个预估有点 " 过于乐观 "。

" 大厂在接触这类工具型的初创公司时,其实最想挖的不是产品或算法人才,而是运营。" 冯绘霓说," 这揭示了一件事情——在技术层面,大厂自认为完全有这个能力把产品做出来,而目前的短板在于用户渗透。"

冯绘霓的判断是,Seedance、可灵等大模型的野心非常大," 它们不会只想做一个基建或者工具,他们更想做的是‘定义下一个内容平台、社交平台’,而工具只是‘顺带被做了’的部分。"

一句话来说,大厂会做,但不会明天就做。在这个窗口期,创业公司能做什么呢?

从腾讯、字节跳动等大厂离职创业的 Anijam CEO 方晨认为,创业公司与大厂竞争的关键,是 "要更早跑起来,形成用户留存与数据沉淀。"

换句话来说,时间就是资源,跑起来的速度决定了达摩克利斯之剑落下之后的生死。" 要尽快进入市场、获取用户,并在真实使用中积累数据与认知。" 方晨说。

张云剑对 ZeroCut 的规划是,公司的护城河在于 "AI 落地服务 " 与 " 社会分工 "

" 即使底层模型变得非常强大,市场上依然会有大量不会使用工具的用户,或者出于‘性价比’和‘比较优势’考虑而不愿亲自下场制作的企业客户。" 张云剑说。因此,ZeroCut 将避开工具层面的硬碰硬,直接帮客户解决最终的 " 交付和落地 " 问题

这就涉及到了商业化路线的问题——是在大模型的算力成本与自己的用户定价之间赚差价,还是找一条新的商业化道路?前者虽然简单,但大模型厂商一旦降价,就会吸走用户,大模型厂商一旦涨价,自己的利润就会变薄。说白了终究是把命脉交在他人手中。因此,创业公司大多选择了后一条路。

ZeroCut 的思路,就是 " 技术 + 服务 " 模式——如果客户有能力,可以直接使用工具;如果客户需要代工,平台会将订单对接给熟练掌握该工具的创作者,提供稳定的视频定制交付服务。至于计费标准,则从传统内容承制公司的 " 人力计费 " 转为 AI 时代的 "Token 计费 "。客户不需要关心固定的人力报价,而是以视频生成过程中消耗的算力为基准来计价。

只是让用户 " 花钱买积分 " 根本不够。许多 AI 视频生成工具,都在将手越来越深地伸向客户的业务深处,变得越来越像一个能包揽一切的乙方。

主打 " 电商 +AI 自动生成 " 商业模式的 TapNow,就被外界评价为 " 离钱最近的项目 "传统 4A 公司高管在《BusinessFocus》的匿名访谈中提到:"TapNow 这种‘预测 + 自动生成’的逻辑,抢走了原本属于中小代理商的短视频代运营订单。"

Ribbi 不仅能用来创作音视图,还能帮用户监测内容发布到社交媒体之后的数据。感知阶跃也一样,致力于覆盖内容生成、发布、投放、A/B Test、效果分析、二创等的全流程。

"人一定是懒的动物。没有用户希望做一个产品、完成一个环节,就换一个模型、换一套工具。"Robin 说。

社交媒体,是 Agent 在线进化落地的核心训练场,将作品发布到社交媒体,是 Agent 与真实世界的交互。监测数据表现后,Ribbi 能够自主迭代和优化创作路径,交付更好的结果。最终,平台就能够形成一个自主进化的创作闭环。

Ribbi 目前的模式还没完全确定,但 Robin 确定未来一定不会是积分制,因为它 " 不够诚实清晰 "。

但积分制仍然是目前行业的主流商业化模式,毕竟它足够简单,并且已经完成了用户教育。但随着工具能提供的服务越来越深化,以及 "Token 未来会越来越廉价 " 的美好愿景,也许未来的服务也会有未来的新商业模式。

" 感知阶跃 " 创始人兼 CEO 张诗莹与方晨有一个共识,他们认为,未来时代的商业模式应该是" 为效果付费,而不应该为成本付费。"

方晨认为理想的情况是,当 AI 生成的准确率足够高,而 Token 成本足够低时,那么用户就可以仅在愿意下载内容时,才为最终产出买单,而非为生成过程中的 Token 消耗付费。

张诗莹则认为,Agent 的商业模式,应该与人类 Agency 越来越相似," 收费模式不会是订阅,而更多会采用分佣的形式。"

工具型公司的时间窗口,是新时代诞生一个新的 Adobe 那么大的机会,还是在大厂包揽一切之前的昙花一现?对于已经入局的人来说,他们相信底层大模型归属大厂,但应用层也有创业公司能做的事。

" 我立志成为硅基生命的垫脚石。"Robin 说。" 假设某一天,某家模型厂商实现了 AI 的自主进化,即便功不在我,我也愿意贡献我们对 Context Layer 自主进化的 Know-How、开源我们的技术架构,帮助模型厂商训练更好的自主进化模型。"

技术路线之争:提供 idea,还是提供 editing?

创业公司之间,目前也有显著的思路分歧。

同样是 AI 视频生成工具,产品的形态却千差万别——有的一打开首页就像进了抖音(会自动播放 AI 视频)或得物(满屏 AI 广告片示范),有的却只有简简单单一个对话框,像进了任意一个 chatbot。这背后是行业的技术路线之争。

到底要画布,还是要一个包揽一切的 Agent,是目前最大的技术分歧之一。

" 无限画布 " 的 UI 交互方式改变了传统的线性时间轴,允许创作者像在 Figma 或 Miro 中一样,通过节点连接素材和工作流。坚持这一路线的明星产品有 LibTV、SkyReels、TapNow 等。

在这些产品上,用户有了一个可以无限缩放、拖拽的画布空间。你可以将一个 " 图片节点 " 连向 " 视频节点 ",再连向 " 音频节点 ",形成一个自动化的 Pipeline。

LibTV 画布界面

画布的好处,在于人的意志的 " 强控制 "——用户可以在任意环节手动介入调整,确保 AI 生成内容的画风、角色、镜头细节等等都在自己的规划之内。

有创作者将 LibTV 的无限画布比喻为 " 乐高积木",因为它能自由搭建分镜,彻底改变了线性剪辑逻辑。

但也有旗帜鲜明地反对画布形态的产品,比如 ZeroCut 和一周收到了全球 4 万多用户使用申请的 Ribbi。

这两款产品的特征,是没有醒目的画布,所有的创作、编辑交互,都集中在一个小小的对话框中。用户用自然语言与 Agent 对话,然后由 agent 去指导模型生成内容。

张云剑致力于推动从 " 人为主导 " 向 "Agent 为主导 " 的范式转移。他对智能涌现表示,ZeroCut 认为传统的画布或工作流模式只是过渡形态,这些模式本质上是 " 重人工 " 的,是将 AI 能力作为节点,让用户去手动串联,属于自动化工业方案。

ZeroCut 网页端产品界面

"当你在创作时,大部分的活是人在干,还是 AI 在干?" 张云剑说," 这个是我们判断的一个标准 "。ZeroCut 致力于让人退居幕后,进行决策和提供灵感,而让 AI 去承担长流程的视频制作。

Ribbi 在这一点上也有这样的共识——不做 " 画布类 " 的产品,而是用 Chat 作为 UI,给 Agent 更多的自由度。

Ribbi 界面

" 画布类的产品,把模型的可能性锁死了。"Robin 说," 我们没有把 Ribbi 做成画布类的产品。画布类的 AI 产品看起来交互很酷炫,能让投资人眼前一亮,专业用户使用起来也很顺手。但它们有一个致命伤:把模型的可能性提前锁死了。因为画布的本质,是将工作流拆成一个个节点,模型只能沿着这条路径走。"

Robin 认为,AI 时代的 UI 应该是容器化的,而不是功能化的。产品应该给 AI 创造一个容器,让它可以自由决定调用什么样的工具、怎么组合工具,甚至按照什么样的顺序执行任务。

在这种初衷之下,这类产品的界面就浓缩为了一个 Chatbot。Robin 表示,他认为Chat 是一个 " 足够简单,并且灵活兼容一切的容器。"

他举了豆包作为例子——豆包的移动端 App 设计得很轻量,用户不需要打开新的对话框,只要在一个 session 中 Chat,就能生图、生视频。它将用户的交互和 AI 的行为,统一在一个非常简单的框架中。

两类技术路线之争其实归根结底是在争一个问题——工具到底应该提供 idea(为没那么专业的用户提供思路),还是提供 editing(为相对专业一些的用户提供编辑工具)?

在路线之争尚未定胜负之时,也出现了 " 融合态 " 的产品。

由腾讯杰出科学家创业打造的 AI 视频工具产品 Anija,融合了画布和 Agent 两种形态——用户既可以用自然语言在 Chat 中指导 Agent 干活,也可以在画布上自己上手调整。

既有 Agent 又有画布的 Anijam 界面

Anijam CEO 方晨向智能涌现展示,在创作过程中,系统会自动识别故事中的关键元素,包括角色、场景、道具及风格,并基于此生成完整的分镜镜头。每一个镜头都会包含场景描述、角色状态、镜头语言等信息。

对于画面中的问题,创作者可以通过自然语言指导 Agent 进行修改,也可以亲自使用工具,在画布上 " 局部编辑 ",例如只修改角色表情,而不影响动作或背景。这也是 Anijam 的关键能力之一,即从抽卡式生成视频走向 " 可控编辑 "。

在大模型厂商做出真正好用的应用层产品之前,两类产品都已经积累了可观的用户基础。现在的问题是,大厂给大家留了多少时间窗口?窗口关闭之后呢?

" 应用层不应该去做模型层的事,因为模型一定会变得足够好。" 张诗莹说。她是 " 感知阶跃 " 创始人兼 CEO,该公司的产品之一,是 AI 视频创作平台 Creati。

" 当下有很多‘套壳’视频模型能力的产品,无论是画布,还是工作流,解决的都是模型能力不够强的问题,比如抽卡、视频生成长度有限。但未来,模型层一定会解决生成质量和长度的问题。应用层的机会,就在于解决生成环节之外的问题。" 张诗莹说。

相关标签
36氪

36氪

让创业更简单

订阅

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容