关于ZAKER Skills 合作
钛媒体 1小时前

视频界的 Photoshop 来了:视频不用重拍,说话就能改

像 P 图一样 "P 视频 ",这是 Creati 团队推出的新项目 Buzzy。

目前的 AI 视频生成还是抽卡模式,所以 80%~90% 的用户对第一次生成的视频不满意。

把光线调亮一点,让主播的眼睛看着镜头,把广告中的口红换成薯片。5 分钟后,视频改好了,其他一切不变。事实上,Buzzy 的定位是 " 视频界的 Photoshop"。

张诗莹曾是 AirPods 创始团队核心成员、前 Google Glass 系统架构师。2021 年她创立 " 感知阶跃 "(Buzzy 母公司),第一款产品 ZMO.AI 用 GAN 技术给国内电商做 AI 模特图,服务过 CIDR、Shein 等大型客户,MAU 一度达到了 700 万。她发现 "to B 需要大服务团队,不适合 startup 基因 ",2023 年底叫停了 ZMO.AI。

2024 年 AI 视频生成爆发,她转向 C 端,视频生成工具 Creati,上线一年,Creati 的全球用户量就突破了千万级别。产品 ARR(年度经常性收入),一度达到了 2000 万美金。

做 Creati 时,她又发现海外大量 SMB 商家的 "Mobile 习惯 "。比如,一位南美的小店主在运货,途中他就直接用手机拍摄了产品素材、短视频素材,快速在手机上编辑,然后发布到社交平台。他们不习惯打开 PC 端的 AE、PR,一是麻烦,二是门槛太高。

" 随时随地改视频 " 的移动场景,加上 " 改局部而非重做 " 的迭代逻辑,催生了 Buzzy。

最近,Buzzy 完成了由红点创投领投、创世伙伴创投等共同投资的 2000 万美元融资,这款 " 视频 P 图神器 " 究竟如何使用?它解决了哪些真实痛点?又将如何改变内容创作的方式?

以下为与张诗莹的对话全文,略有删减:

智客 ZhiKer:请用一句话介绍 Buzzy。

张诗莹:Buzzy 是一款面向海外 SMB(小商家)和内容创作者的 AI 视频修改工具,用户通过自然语言对话就能对已有视频进行局部精修,比如换商品、替换商品材质、去掉路人、修改光影、修正眼神等。

用户不需要重拍或学习复杂剪辑软件,会说话就能用,我们的定位是 " 视频界的 Photoshop"。

智客 ZhiKer:Buzzy 和其他视频剪辑、修改软件最大的区别是什么?

张诗莹:从功能逻辑来看,我们做的是视频修改,而非视频剪辑,对标的是 AE、PR 这类视频修改工具。

从使用层面而言,它又比 AE、PR 更简单、易上手,只需一部手机就能完成视频修改操作。

Buzzy 采用对话框交互模式,用户通过自然语言向下达指令,比如 " 把光线调亮 "" 把这个人换成我 "" 把商品口红换成薯片 ",Buzzy 仅针对局部进行修改,其他部分保持不变。

目前不少 AI 编辑器存在这样的问题,你让它换个人,它会把整个画面都改变;你让它调个光,可能连背景都换掉了。我们的核心优势在于只修改用户指定的部分,其他区域尽可能保持原貌。

智客 ZhiKer:你们已经做一款视频生成产品 Creati,又做了视频修改产品 Buzzy,为什么要新做一个产品?

张诗莹:两个原因。

第一个是,我们在进行创意内容创作时发现,很多用户对 AI 生成的视频不满意,总觉得视频中某些部分不够理想,但又不愿重新生成,因为目前的视频生成还是抽卡,下一次结果也未必能完全满足需求。

第二,很多中小商家、非专业内容创作者,习惯用手机拍摄获取商品图、短视频等素材。但矛盾的是,创作工具往往集中在 PC 端。这就会导致内容创作链路的断裂。因此,无论 Creati,还是 Buzzy,我们都向用户提供了 MobileApp 产品,让素材的获取、内容创作和编辑、发布,都可以在手机上完成。

简单说一个场景,很多小商家常常在运货途中、或是在店里和顾客沟通时,突然想要修改视频,做发布广告,这种情况下他们不可能专门打开电脑使用。Buzzy 就是很好的使用场景,它支持用户在手机上通过 WhatsApp、Telegram 等消息应用直接对话进行修改。

Buzzy 是为了弥补中小商家、非专业内容创作者的痛点,用户对于不满意的视频不用一次又一次地重新生成,只需要针对不满意的位置进行局部修改。

智客 ZhiKer:可以讲 1-2 个用户使用 Buzzy 的修改案例吗?

张诗莹:先看分享几个 C 端用户的案例。

左边这个视频是 TikTok 上的热门视频,有位用户看到后非常喜欢,想要模仿拍摄一段。于是他将两人的合影上传到 Buzzy,几分钟后便生成了右边这个跳舞视频,在背景保持不变的情况下,画面中的人物被替换成了他们。

这是典型的旅游场景人物替换需求。左侧是原视频画面,用户观看后希望把自己的宠物融入到这个场景,就上传了两张狗狗的照片,然后向 Buzzy 提出具体要求,让两只狗站在红毯上,一边望着观众露出可爱表情,一边欢快地跑来跑去;随后镜头逐渐拉近,分别给两只狗一个可爱的特写;最后镜头抬起,拍摄后方的佩特拉古城,全程一镜到底。

我们还开发了光线调整功能。不少用户在旅游恰巧遇到阴天,但是他们又希望呈现出晴天的效果,就可以用 Buzzy 的光线调整功能,将视频处理成晴天的效果,用户就不需要晴天的时候重新拍摄一遍了。

还有一类比较典型的是访谈播客多机位需求,访谈类视频都比较长,如果观众长期看一个机位会产生视觉疲劳,但如果多机位的话,既能给观众增加一些新鲜度,又能给 KOL 增加留存率。

智客 ZhiKer:局部修改的视频有时间限制吗?

张诗莹:1.0 版本限制为 15 秒且需全段重新生成,因此处理速度较慢,未来版本将支持 " 仅修改其中几秒 "。

智客 ZhiKer:局部修改后,再次生成视频需要多长时间?

张诗莹:一般情况下,视频修改的生成时间在 5- 10 分钟,但如果遇到涉及名人、IP 等需要审核的情况,所需时间会更长。

智客 ZhiKer:B 端用户用的最多的是什么功能?

张诗莹:第一类是使用 Buzzy 上的模板。用户在手机拍摄产品图后,在 Buzzy 上找到一个现成的广告模板,直接替换成自己的商品,生成一个新的卖货广告。这样一来,商家既不需要重新拍摄广告,又可以快速打造产品爆款。

第二类是针对没有视频素材、缺乏创作思路的用户,Buzzy 可以进行竞品 product URL 分析,分析内容涵盖商品名称、产品图、描述等信息。分析之后,用户可将广告中的商品通过 Video Photoshop 替换为自家的商品或是把自己爆款的广告素材来去做裂变二创,同时修改卖点,重新生成一条新的广告素材。

Buzzy 会基于竞品广告持续推送新的广告创意,帮助用户更快产出广告内容。如果用户在手机端使用 Buzzy,就随时监控竞品广告及新广告的效果,

除 Video Photoshop 功能外,我们还打造了一个类似 Pinterest 的灵感面板,当用户将自己喜欢的视频分享给灵感 Agent 后,AI 会解析视频的核心创意与思路,然后开始 7 × 24 小时不间断在不同社媒平台寻找相关素材(TikTok、Instagram 等),为用户搜索灵感。

智客 ZhiKer:用了爆款的模板,一定能生产爆款吗?

张诗莹:无论是创作者还是商家,往往难以预判一条视频能否成为爆款。

所以,未来我们会借用数据驱动的方法,帮助用户对修改后的视频进行 AB 测试,最终打造出更优质的视频内容。

智客 ZhiKer:你们用的哪一款视频基模,如何能做到保持一致性?

张诗莹:我们目前没有绑定任何一家基模,其实是 " 水涨船高 " 的逻辑,基模是水,我们是船,水涨了船自然跟着高。

现在用得比较多的是 Seedance2.0,因为它的确定性很高,大概有 95% 的成功率。我说的确定性就是 " 抽卡 " 的意思,之前我们也用过 Sora、Veo3,即使加了小模型仍然需要大量抽卡。

保持一致性,光靠基模是不够的,我们也做了很多积累。

一方面,我们专门做了一个商品一致性的小模型,喂了很多商品数据进去,让商品的光影、形状、一致性效果更好。商家对一致性要求极高,广告里卖的是 A,用户收到的是 B,就是 " 货不对板 ",会产生退货和投诉。

另一方面,这源于我们团队的技术积累。我的联合创始人 Charlie Ma,有 10 年 Gen AI 研发经验,是最早一批做生成式算法的科学家之一,发表了世界上第一篇人体生成的论文,之前大家还在做猫狗物品的生成,他是第一个做人像姿态可控性生成的。他从 2021 年团队成立就加入了,创业五年一直在做这一块。

外加上,我们第一款产品 ZMO.ai 是面向国内 B 端电商客户的 AI 模特图生成平台,后来也扩展到商品图设计、编辑等场景。所以在人像、商品的一致性上,我们算是投入了比较多的研发。

智客 ZhiKer:接下来产品会有哪些更新?

张诗莹:接下来有几个比较重要的更新方向。

第一个是时间轴编辑功能。现在用户需要先自己截取 15 秒,下一个版本可以直接上传长视频,在时间轴上选取要修改的片段。修改时长越短,生成越快,从现在的 5-10 分钟缩短到 3-4 分钟。

第二个是审核机制优化。涉及 IP 版权的视频,审核时间通常需要 5-6 分钟,并且模型会对视频进行大量修改,改动太多又不符合用户预期,所以本周会上一版,快速告诉用户视频可能有 IP 问题,让用户自己决策是否接受大量修改。

第三个是基础编辑功能完善,比如加字幕、改字幕、加动态图形。我们会以更简单的方式做,比如直接语音说 " 把价格从 99 改成 79",AI 精准修改,其他保持不变。

第四个是手机端体验优化。后面会加入语音输入,用户对着手机说话就能改,Agent 理解意图。电脑端会有更精细的圈选和时间轴功能。

智客 ZhiKer:目前融资情况如何?

张诗莹:最近完成了新一轮 2000 万美元融资,红点创投领投、创世伙伴创投等共同投资,融资主要用于 Buzzy 产品的发布和视频编辑方向的研发。(作者|郭虹妘,编辑|杨林)

相关标签

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容