+242。
这是 4 月 21 日 GPT-Image-2 在 Image Arena Text-to-Image 排行榜上领先第二名的 Elo 分差。Arena 官方用了一个词:clean sweep ——全榜第一,没有例外。

模型分两种模式。Instant 是快出图,所有人可用;Thinking 模式集成推理和网页搜索,单次最多生成 8 张风格一致的图片——但锁在 Plus 及以上付费层级。
只看参数,这像一次常规迭代。但 Arena 创始人 @ml_angelopoulos 看完 Arena 榜单后说了一句话:"literally broke the chart ——有史以来最大的差距。"

DALL-E 3 拼不对复杂单词,Midjourney 把招牌写成乱码,Stable Diffusion 在海报上输出鬼画符。文字渲染是生图模型的 " 手指问题 " ——不是不重要,而是一做就露馅。99% 的准确率如果成立,AI 生成的海报、菜单、UI 截图、品牌物料第一次可以跳过人工修正,直接交付。
生图模型的能力边界,正在从 " 视觉 " 扩展到 " 信息 "。
1. 案例:它到底能做什么
发布当天,社区反应几乎是即时的。
文字渲染是发布当天被验证最多的能力。VentureBeat 的 Carl Franzen 让模型生成阿兹特克、玛雅和印加三大帝国版图的历史地图,附完整图例。地图准确、图例完全可读,他用的词是 "seemingly flawlessly"。




2. 技术拆解:为什么这次不一样
架构重写。 GPT-Image-2 不再基于 GPT-4o 的图像 pipeline。研究负责人 Boyuan Chen 将其定义为 "GPT for images" ——一个从头设计的独立系统。社区测试者在 4 月初 Arena 泄露阶段(模型以 maskingtape-alpha、gaffertape-alpha、packingtape-alpha 三个代号出现)就注意到变化:从两阶段生成转向单次推理。
用一个类比:过去的模型是 " 先听懂你说什么,再动手画 ",中间有一次信息压缩;GPT-Image-2 是 " 边理解边画 ",语言理解和图像生成在同一过程中完成。所以文字渲染终于准了——生成每个像素时,模型仍然 " 知道 " 自己在写什么字。
Thinking 模式。 开启后,模型在落笔前先规划构图,生成后检查输出,发现错误还会迭代修正。anti gamble 创始人 @damianplayer 的拆解:"reasoning mid-generation —— plans the composition, checks its own output。" 推理集成还让模型可以在生成过程中调用网页搜索、将文档转化为视觉图表、在 8 张图片间维持角色一致性。


3. 人类必须严肃对待这样的以假乱真能力
StartupFortune 在发布日给了一个定位:从 "creative novelty" 到 "production infrastructure"。品牌 mockup、广告设计、信息图表,过去因为文字不可靠而必须人工介入的场景,开始变成一条 prompt 可以交付的工作流。
不过 StartupFortune 自己也加了一句谨慎的提醒:"benchmark performance and production performance often diverge。"99% 是实验室数字,真实世界的多语言、多字体、多排版场景能不能 hold 住,5 月 API 开放后才会有答案。
我们更关心的是另一个问题。

假 UI 截图、假 Bloomberg 终端、假法庭文件、假 Slack 对话,"every one of those is dense text laid over a known visual vocabulary, which is the exact workload OpenAI optimized for。"(" 这些中的每一个都是在已知视觉词汇之上叠加的密集文本,而这正是 OpenAI 所优化的工作负载。)
这个观察之所以刺眼,是因为它不是在说模型有什么 " 副作用 ",它在说模型最被赞美的那个能力——把文字精确地嵌入可信的视觉场景——本身就是双刃的。
过去的生图模型因为文字太烂,反而天然带有一层 " 防伪标记 ":一眼就能看出是 AI 做的。GPT-Image-2 把这层天然屏障拆掉了。
OpenAI 的应对是 C2PA 元数据水印和溯源分类器。image-2 lauch 的直播中,产品负责人 Adele Li 在发布会上自己承认,元数据 "is not a silver bullet" ——截图、裁剪、平台压缩,任何一步都让水印失效。

AI 图像生成确实进入了 " 文字时代 "。但文字可信这件事,在人类的媒介史上,从来就不只是一个技术问题。
这也许才是那个 " 强到不应该公开发布 " 的模型,今天之后,每个人都有了随意生成曾经都会被认作事实证据的图片,信息的判断变得前所未有的难,这个强到离谱的模型会在未来很长一段时间给人们带来恐慌,我们会看到因此而产生的各种冲突和讨论,人类必须一起严肃应对这种以假乱真的能力了。