关于ZAKER Skills 合作
36氪 36分钟前

一个对话框、一只青蛙、一周 4 万用户,Ribbi 做对了什么?

访谈|邓咏仪 周鑫雨

文|周鑫雨

编辑|杨轩

乍一使用,你很难给 Ribbi 一个准确的定义。

若说这是一个多模态内容创作工具,Ribbi 能做得不止于此。比起一个 " 死 " 的工具,Ribbi 更像一个可以自动管理创作全链路的 " 人 "。

它能将用户的创作流程,自动沉淀为 Skill;也能监测社交媒体的数据表现,总结复盘,并自动对后续的创作进行优化。

Ribbi 官网首页。

对绝大多数创作者而言,这又是一个使用体验极度 " 陌生 " 的产品。区别于 Figma、Lovart 等设计产品,Ribbi 没有醒目的画布,所有的创作、编辑交互,都集中在一个小小的对话框中。

而与你对话的 Ribbi,被设定为一只个性十足的 " 青蛙 ":爱吐槽,偶尔还能爆点粗口。

与 Ribbi 的对话。

这款有些 " 怪 " 的产品,却在上线封测一周内,收到了全球 4 万多用户的使用申请。用户群从上线第一天的 20 人,快速扩张成了 20 个几乎满员的大群。闲鱼上,Ribbi 的内测码,一度被炒到了 200 元。

" 我们上线 Ribbi,本来是为了找 100 多个种子用户做封闭测试,验证 PMF(产品 - 市场适配率),都没正式开始做营销和投放。"Ribbi 创始人兼 CEO Robin 告诉我们,用户通过口碑传播的裂变速度,远超他的预期。

在 4 月初和《智能涌现》的交流中,Robin 的嗓子已经哑了。半个月内,他见了多家投资机构,官方 Linkedin 的私信箱,也堆满了合作邀约。

毕业于工业设计专业,Robin 做过 4A 和品牌企划,后续还在几家头部大厂,主导多款明星 AI 产品的创作功能设计、创意 Agent 落地等工作。

创业前,Robin 就一直在探索:如何让创意实现的过程更简单。他发现,市面上的创作工具,都彼此独立,用户创作的上下文互不相通。这就导致,当用户要创作内容,每涉及一个环节,就要切换一款工具,还需要重新和工具对齐创作的需求。

" 市面上不少 AI 设计工具,仍然把内容创作视作单点环节的拼接。但事实上,创作应该是涵盖创意生成、内容生成、发布、数据监测、复盘、优化的完整链路。"Robin 告诉《智能涌现》。

基于这一认知,2025 年末决定创业时,Robin 做了不少 " 非共识 " 的决定:

不做 Multi-Agent(多 Agent 架构)的产品,因为不同专家 Agent 在传递过程中,会造成 Context 的损耗;

不做单点的内容生成,而是用一个 Agent,打通创作、发布、效果监测、复盘优化等创作中所有的链路;

不做 " 画布类 " 的产品,而是用 Chat 作为 UI,给 Agent 更多的自由度;

自训 VLM(视觉 - 语言模型)、自研名为 Contxt Layer 的 Agent 架构,沉淀创作经验和反馈,让 AI 自主进化。

这一切设计的最终目标,Robin 告诉我们,是让 Ribbi 不仅仅局限于一个 " 工具 ",而是成为理解完整创作闭环的 " 人 "。

以下,是 Ribbi 创始人兼 CEO Robin 关于 Agent 创业的 20 条 " 暴论 ":

大厂中,业务、模型和顶层之间的对齐是最困难的事,除非已经有业内共识。

比如,当 Coding 成为业内共识,不管是大厂,还是 "AI 六小虎 ",都不约而同朝这个方向冲。

但在看到 Taste 的确切价值之前,为审美、品味构建模型,是大厂不愿意做的。只有当视觉创意生成从非共识,变成共识,才能激发更多大厂和顶尖人才参与进来。

一旦团队变大,对 Context 的折损就会增加。

大厂的基模能力很强,但模型团队对业务的认知有偏差。一旦团队变大,每个团队之间信息传递的过程,会折损大量的 Context。

这也是 Ribbi 团队只有 6 个人的原因。我们只有 3 个程序员,他们现在是全栈设计师、全栈工程师,什么都能开发,并且可以做得很好。

这就是 Claude Code 带来的代码生产力的进化。我相信,Ribbi 会带来内容生产力的进化。

很多 AI 产品都在虚假宣传。

我们在宣发的过程中搞了很多 " 抽象 ",比如 "72 小时 ARR 破亿 "" 一夜百万用户 ",本质上是为了讽刺很多 AI 产品的虚假宣传。

只是我们讽刺做得不够好,很多用户信以为真了(无奈笑)。

我们在 X 上的 CEO 账号也是虚假的,根本没有 "Robin Bisset" 这个人。账号上的很多内容,包括 Robin 的外国人形象,都是 Ribbi 生成的。

△ Ribbi 的虚拟老外 CEO。图源:X

AI 行业正在逐渐 " 币圈化 "。

我花了很长时间才研究明白 Harness。圈内很喜欢造概念,又是 " 马鞍 ",又是 " 驾驭 ",搞得很玄乎。

其实 Harness 很简单,就是一个脚本,或者一个 workflow,让模型不偏离目标,更好地发挥价值。

在 Harness 这个概念出现之前,依靠框架或者 Agent 去优化 AI 执行任务的上下文,本身就是一个共识。如今行业只是把这件事抽象了出来,给了一个核心定义。

画布类的产品,把模型的可能性 " 锁死 " 了。

我们没有把 Ribbi 做成画布类的产品。画布类的 AI 产品看起来交互很酷炫,能让投资人眼前一亮,专业用户使用起来也很顺手。

但它们有一个 " 致命伤 ":把模型的可能性提前 " 锁死 " 了。因为画布的本质,是将工作流拆成一个个节点,模型只能沿着这条路径走。

我们一直以来的判断是,AI 时代的 UI 应该是容器化的,而不是功能化的。产品应该给 AI 创造一个容器,让它可以自由决定调用什么样的工具、怎么组合工具,甚至按照什么样的顺序执行任务。

具身智能成熟之前,Chat 是 AI 最好的 UI。

在互联网时代,我们就习惯通过 Chat 完成信息的传递,比如微信上可以拍图片、拍视频,也可以发链接、小程序。

在我看来,Chat 是一个足够简单,并且灵活兼容一切的容器。

比如豆包 DAU 跑得很快,其中一个原因在于,它的移动端 App 设计得很轻量。用户不需要打开新的对话框,只要在一个 session 中疯狂 Chat 就能生图、生视频。它将用户的交互和 AI 的行为,统一在一个非常简单的框架中。

用户认为 Ribbi 好用的点,就在于他们可以随时把 X、Instagram、Pinterest 等平台上的素材,采集、保存在 Ribbi 中,底层的 AI 再自主学习其中的审美。这其实就是人与 AI Chat 的过程。

作为 AI 产品经理,我非常讨厌用复杂的交互去操作 AI。AI 应该很聪明,不用我时时刻刻盯着,就把活干了。当你产品的交互门槛、使用门槛足够低的时候,自然而然就能吸引更多人。

真实的创作需求从来不是单一维度的。

很多人会疑惑:为什么要往 Ribbi 里塞这么多功能(图片 / 视频 / 音乐创作、社交媒体监测、编辑器)?这样会不会导致定位模糊,或者每个功能都做不深?

我们一直认为,真正的创作需求从来不只有单一维度。比如一条抖音视频的制作,就涵盖了想选题、写文案、写脚本、生成分镜、配音、剪辑、编辑封面、发布、数据监测、复盘等流程。

这是一个完整的链路。没有 All in one 的工具意味着,用户需要切换不同的工具,重新对齐创作的上下文。

人一定是懒的动物。没有用户希望做一个产品、完成一个环节,就换一个模型、换一套工具。比如做一个视频,要先用 ChatGPT 生成文案,再用 Gemini 生成分镜,最后还要用剪映拼接视频,是很麻烦的。

我们设计 Ribbi 功能的出发点,不是为了把功能做全面,而是为了让创作链路的 Context 完整连通。

Ribbi 构建 Agent 的核心在于自主进化。

互联网平台的核心是 UGC,Ribbi 的核心是 AGC,Agent Generated Content。创业前,我就在寻找可以让 "Agent 自主进化 " 落地的场景,创作就是一个很好的答案。

首先,Taste 会自主进化,这就是我们设计 Pond 和训练 VLM 的原因。

其次,Skills 也会随着用户的使用自主进化。用户在使用 Skill 地过程中,会产生新的场景、需求和 Context,这些 Context 就会凝练成专属用户个人的 Skill。

这些个人 Skill,都会经过 Context Layer 中的 Skill Agent 的评估、去重、去隐私化,再贡献给平台全端。因此,平台的 Skill 也会循环进化,用户使用越多,Skill 就越多,能力也越强。

最后,用户的创作也会自主进化。我们建立完整创作工具的原因,就在于用户的创作是连续的过程,涵盖搜索、发现素材、生成内容、编辑优化、发布到社媒、数据监测等流程。

社交媒体,是 Agent 在线进化落地的核心训练场,将作品发布到社交媒体,是 Agent 与真实世界的一种交互。监测数据表现后,Ribbi 能够自主迭代和优化创作路径,交付更好的结果。最终,平台就能够形成一个自主进化的创作闭环。

Multi-Agent 本质上是对模型能力的低估,产品要让 Agent 更自由。

Multi-Agent 架构中,大部分专家 Agent 的底层能力,都来源于 Claude。既然底层模型一样,为什么还要通过提示词工程,把模型拆分成不同的 Agent?

提示词工程,本质上是对模型能力的约束。与此同时,任务在多层 Agent 架构中的传递,都会造成 Context 的损耗。

我们做 Ribbi 的时候,核心观点是:让 Agent 足够自由。

Agent 要在一个非常丰满、质量足够高的 Context 中,发挥自己的能力。因此,我们的核心架构其实是一条 Single-Agent 链路。

除此之外,我们构建了一个中间层,Context Layer。它由 Memory、Taste 、Skills 等不同层级构成,每一层都有对应的 Agent。它们的作用不是执行任务,而是辅助 Single-Agent 收集 Context。

这样做的好处是Single-Agent 对上下文的感知不会折损,Token 的损耗也会降低,这是我们的核心优势。与此同时,其他 Agent 又能补足一些上下文信息。

Ribbi 不是 OpenClaw 的 " 套壳 ",大家只是对 Agent 有相同的想象。

2025 年 11 月,那时还没有 OpenClaw,我就在公众号上写了一篇文章,构想了 Agent 发展的路径:第一,Agent 会从被动,发展为更主动;第二,Agent 的 Context 会不断自我进化。

这两点在 OpenClaw 上得到了具体的体现。但我们的产品定义和 OpenClaw 非常不一样:

首先我们提出了 Context Layer,为 Agent 提供了很干净的 Context;其次我们不希望为用户提供一个部署门槛很高的产品;最后我们整体的功能链路都是为内容创作服务,所以 Ribbi 提供了 100 多个可以自由组合、循环进化的 Skills。

我相信世界上很多人对 Agent 的想象是一致的。OpenClaw 很多的底层思考来源于 Claude Code,我们的核心想象也出自 Claude Code。

Claude Code 为 Agent 创造了一个非常简洁的系统:Coding 是 Agent 的环境,Function Call 是 Agent 的手。Claude Code 的出现让任何人可以成为全栈工程师,Ribbi 的出现是让任何人能成为全栈的创作者。

我们不把 Ribbi 定义为 " 工具 ",而是理解完整创作闭环的 " 人 "。

首先,Ribbi 是一个可以自我进化的内容引擎。其中,"Pond" 是它的审美输入端,Skills 是流程的沉淀,主动发布和数据监控是内容创作的最后一公里。

其次,我们希望 Ribbi 有活人感。如果你和 Ribbi 对话,就会发现 ta 是一只嘴上嘟囔、但会认真干活的青蛙。

Taste is all you need。

创作过程中最难用语言表达的,就是审美和品味。

为了解决审美建立的问题,我们为 Ribbi 设计了一个叫做 "Pond" 的板块。

用户在浏览 Behance、Pinterest 等设计平台时,可以通过 Ribbi 插件,将喜欢的设计采集并保存到 Pond 中。通过对 Pond 中资产的学习,Ribbi 可以建立对用户审美的认知,未来创作的设计也会更符合用户的偏好。

除了学习用户个体的审美,Ribbi 也会凝练平台所有用户的审美,成为平台共识。这么做的意义在于,让用户在不输入 Prompt 的情况下,也能获得高质量的设计。

支撑 Ribbi 学习、积累、迭代用户审美的核心,是我们基于开源的千问 8B 小模型训练的 VLM(视觉 - 语言模型)模型。

它可以将图片、视频转化为文本 Context,并将 Context 压缩进用于构建审美的 Taste 层,再基于 Taste 层生成新的设计。

对审美的不断沉淀,也是 Ribbi 产生用户粘性的核心。平台上,用户不断贡献新的审美 Context,这些 Context 都会沉淀为 Ribbi 对你审美的认知。

在 Pond 中可以上传个人资产。

不能让模型,不知道你的操作。

目前,我对 Ribbi 主要有两个不满意的地方,一方面,稳定性还不够,包括性能和服务器、API 负载;

另一方面,创作流程还不够灵活。因为没有编辑器,所以诸如 " 把字幕往上挪一点点 " 等简单调整,都需要用户去 Chat。因此我们需要上线一些后编辑的功能。

但迭代的卡点在于,我们必须让底层模型知道用户的所有操作,对齐用户所有的上下文。只有这样,在后续创作过程中,Agent 才能记住用户的偏好。

让模型感知到用户的后编辑,目前来看还有很高的开发门槛。

Ribbi 的壁垒在于对技术的想象。

我们自主训练的 VLM 模型,目前多多少少算壁垒。当然,技术壁垒很容易被超越,Claude 发布一个新模型可能就可以做到。

Ribbi 的核心价值在于,我们不仅希望只做一家应用层的公司,而是在未做模型层的探索。训练 VLM 是现阶段探索的开始,包括中间层 Context Layer 的设计,都是基于我们对行业的 Know-How 和共识去完成的,

这些事说出来其实不难,难的是把它想象出来。所有的事最重要的就是想象,而我们是第一个把技术领域的 AI 自主进化想象、并且落地的团队。而且我们对 Agent 的认知一直在往前走,这是我们的想象保持领先性、建立壁垒的前提。

把 Token 消耗转化为扣积分的商业模式,不够诚实清晰。

我们的商业化会做得比较诚实。虽然模式还没完全确定,但一定不会是积分制。

△ Ribbi 会显示每个环节消耗的 Token 量。图源:作者试用

不少 AI 产品会采用积分发放的方式。个人觉得挺绕,用户还得把积分转化为 Token 消耗量,不够清晰。

也有平台会告诉你," 充值一次,无限 Token",但实际上用户天天在排队。这样的商业模式不诚实,而且平台还会亏本。

好的内容平台应该有广告。

我最近也在研究一些好的内容平台的商业模式。YouTube 几乎是免费的,因为有足够多的广告商在视频中分发贴片广告。

广告的好处在于,让平台把用户的成本转嫁给广告商,同时也让创作者通过广告,有直接的收入,从而激励他们在平台上的创作。

Ribbi 的北极星指标,是 Skill 的增长。

目前,网站上有 20 多个 Skill,其实我们内部已经有 100 多个 Skill,比如一键消除、做 PPT 等技能。没有放出来的核心原因在于,我们的设计师对审美的要求很高。

所以我们的北极星指标是不断裂变出更多高质量、高审美的 Skill。

并且我们不希望 Ribbi 成为一个工具集。工具聚合网站,更像是一个个的小程序,它们之间是相互独立、互不连通的状态。

但我们的 Skill 会在同一个 Single-Agent 中连通。这样的好处是 Agent 可以在接管创作全流程中,灵活串联不同的 Skill。

另一点,我也希望 Ribbi 上的工具数量能不断增长。目前我们的 100 多个 Skill,靠的是 100 多个工具的不同组合。一旦我们的工具数量扩大到 1000 多个,Skill 会进化产生我们想象不到的价值。

△ Ribbi 上沉淀的 Skills。图源:Ribbi 官网

应用公司探索模型层是有必要的。

只有自己亲身训练和使用,才能知道当下模型的限制,以及实现 AI 自主进化的逻辑路径。我们现在实现 AI 自主进化的路径,是基于 Context 实现的。

但未来,自主进化一定会在模型层上实现,并且会有非常多的人探索。自己训练模型,是为了提前积累经验。

我们不把自己定义为创业团队,而是独立开发者的组织。

我们不会像某些友商那样,不断花钱买量、烧各种补贴。我们不想做一家为估值而奋不顾身的公司。

融资当然也很重要。你要确保账上有足够的资金,去支撑研发 - 获得用户反馈 - 迭代的循环。

我们现在正在推进下一轮融资,并非是有意的,而是如今 Ribbi 获得的用户声量,远超我们的预期。现在的状态,有点像时代推着你往前走。

我们收到了很多投资意向书,但我希望愿意投资我们的机构,是真正对 AI 有价值判断的、长期看好 AI 的自主进化,而不是出于 FOMO(错失恐慌)。

我立志成为硅基生命的垫脚石。

我们一直在找一个符号表达 " 自主进化 " 的理念。Ribbi LOGO 是一只青蛙的原因,是因为蝌蚪进化为青蛙是一种非线性的变态发育,"Ribbi" 就是呱呱叫(ribbit)的拟声词。

我相信 AGI 一定会到来。无论是训练模型,还是做 Context Layer,这些看起来 " 很重 " 的事,目的都是为了加快 AGI 到来的进程,哪怕只留下一点点痕迹。

假设某一天,某家模型厂商实现了 AI 的自主进化,即便功不在我,我愿意贡献我们对 Context Layer 自主进化的 Know-How、开源我们的技术架构,帮助模型厂商训练更好的自主进化模型。

欢迎交流!

相关标签
36氪

36氪

让创业更简单

订阅

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容