APP下载

关于ZAKER

Skills 合作

硅星人 4小时前

GPT-Image-2 ：随意做出可作为“证据”的图片，强到让人恐慌

+242。

这是 4 月 21 日 GPT-Image-2 在 Image Arena Text-to-Image 排行榜上领先第二名的 Elo 分差。Arena 官方用了一个词：clean sweep ——全榜第一，没有例外。

OpenAI 在这天正式发布了 GPT-Image-2。面向所有 ChatGPT 用户，API 预计 5 月初跟进。核心参数：最高 4096 × 4096 分辨率，生成速度比前代快一倍，文字渲染准确率从前代的 90-95% 跳到约 99%。定价每百万 token $8-$30，折合单张图片 $0.006-$0.211。

模型分两种模式。Instant 是快出图，所有人可用；Thinking 模式集成推理和网页搜索，单次最多生成 8 张风格一致的图片——但锁在 Plus 及以上付费层级。

只看参数，这像一次常规迭代。但 Arena 创始人 @ml_angelopoulos 看完 Arena 榜单后说了一句话："literally broke the chart ——有史以来最大的差距。"

差距背后是一个积攒了三年的问题终于被正面回应了。AI 图像生成最大的笑话，一直是文字。

DALL-E 3 拼不对复杂单词，Midjourney 把招牌写成乱码，Stable Diffusion 在海报上输出鬼画符。文字渲染是生图模型的 " 手指问题 " ——不是不重要，而是一做就露馅。99% 的准确率如果成立，AI 生成的海报、菜单、UI 截图、品牌物料第一次可以跳过人工修正，直接交付。

生图模型的能力边界，正在从 " 视觉 " 扩展到 " 信息 "。

1. 案例：它到底能做什么

发布当天，社区反应几乎是即时的。

文字渲染是发布当天被验证最多的能力。VentureBeat 的 Carl Franzen 让模型生成阿兹特克、玛雅和印加三大帝国版图的历史地图，附完整图例。地图准确、图例完全可读，他用的词是 "seemingly flawlessly"。

TechCrunch 的 Amanda Silberling 让模型生成一份墨西哥餐厅菜单——两年前 DALL-E 3 拼不对 "enchilada"，这次的输出 " 可以直接放进餐厅使用，客人不会察觉任何异样 "。

Thumio 创始人 @corbin_braun 连发几串 thread，做了更直觉的对比：把 Google Pro 3 和 GPT Image 2 的缩略图生成结果并排放出来。他的结论一个词："insane。" 同一天他还连发数条帖，称这是 "YouTube thumbnail endgame"。

文字之外，角色一致性是另一个被反复提到的点。OpenAI 演示了从一张自拍生成三页漫画的工作流，角色在多页间保持一致。美妆博主 @jameygannon 把这个能力拉进了商业场景：一条 prompt 生成一整套品牌 kit —— logo、配色、排版、多页应用。

值得注意的是，这些测试全部发生在发布后几小时内，来自不同人、不同场景、不同诉求。没有人在精心挑选最佳输出。

2. 技术拆解：为什么这次不一样

架构重写。 GPT-Image-2 不再基于 GPT-4o 的图像 pipeline。研究负责人 Boyuan Chen 将其定义为 "GPT for images" ——一个从头设计的独立系统。社区测试者在 4 月初 Arena 泄露阶段（模型以 maskingtape-alpha、gaffertape-alpha、packingtape-alpha 三个代号出现）就注意到变化：从两阶段生成转向单次推理。

用一个类比：过去的模型是 " 先听懂你说什么，再动手画 "，中间有一次信息压缩；GPT-Image-2 是 " 边理解边画 "，语言理解和图像生成在同一过程中完成。所以文字渲染终于准了——生成每个像素时，模型仍然 " 知道 " 自己在写什么字。

Thinking 模式。 开启后，模型在落笔前先规划构图，生成后检查输出，发现错误还会迭代修正。anti gamble 创始人 @damianplayer 的拆解："reasoning mid-generation —— plans the composition, checks its own output。" 推理集成还让模型可以在生成过程中调用网页搜索、将文档转化为视觉图表、在 8 张图片间维持角色一致性。

世界知识的飞跃。 训练数据明显偏向真实世界的视觉素材：UI 截图、店面招牌、界面布局。当你要求生成 " 普通工程师的屏幕 "，它输出的是可信的显示器画面，不是关键词拼贴。@Yuchenj_UW 试用后的判断很直接："It is really good. OpenAI is finally leading the image gen again。"

架构决定了它能 " 读懂 " 文字，Thinking 让它能 " 检查 " 文字，世界知识让它知道文字应该 " 长什么样 "。三层能力叠在一起，文字渲染从短板变成了长板。

3. 人类必须严肃对待这样的以假乱真能力

StartupFortune 在发布日给了一个定位：从 "creative novelty" 到 "production infrastructure"。品牌 mockup、广告设计、信息图表，过去因为文字不可靠而必须人工介入的场景，开始变成一条 prompt 可以交付的工作流。

不过 StartupFortune 自己也加了一句谨慎的提醒："benchmark performance and production performance often diverge。"99% 是实验室数字，真实世界的多语言、多字体、多排版场景能不能 hold 住，5 月 API 开放后才会有答案。

我们更关心的是另一个问题。

Jake Handy 在发布日的 Substack 技术拆解中写了当天最尖锐的一段：让 GPT-Image-2 成为最好生产力工具的那组能力——精确的文字渲染、可信的 UI 布局、真实世界的视觉词汇——恰好也是制造虚假信息的完美工具集。

假 UI 截图、假 Bloomberg 终端、假法庭文件、假 Slack 对话，"every one of those is dense text laid over a known visual vocabulary, which is the exact workload OpenAI optimized for。"（" 这些中的每一个都是在已知视觉词汇之上叠加的密集文本，而这正是 OpenAI 所优化的工作负载。）

这个观察之所以刺眼，是因为它不是在说模型有什么 " 副作用 "，它在说模型最被赞美的那个能力——把文字精确地嵌入可信的视觉场景——本身就是双刃的。

过去的生图模型因为文字太烂，反而天然带有一层 " 防伪标记 "：一眼就能看出是 AI 做的。GPT-Image-2 把这层天然屏障拆掉了。

OpenAI 的应对是 C2PA 元数据水印和溯源分类器。image-2 lauch 的直播中，产品负责人 Adele Li 在发布会上自己承认，元数据 "is not a silver bullet" ——截图、裁剪、平台压缩，任何一步都让水印失效。

Jake Handy 给出的定性我们认为是准确的："The model is an excellent problem。"

AI 图像生成确实进入了 " 文字时代 "。但文字可信这件事，在人类的媒介史上，从来就不只是一个技术问题。

这也许才是那个 " 强到不应该公开发布 " 的模型，今天之后，每个人都有了随意生成曾经都会被认作事实证据的图片，信息的判断变得前所未有的难，这个强到离谱的模型会在未来很长一段时间给人们带来恐慌，我们会看到因此而产生的各种冲突和讨论，人类必须一起严肃应对这种以假乱真的能力了。

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

企业资讯

查看更多内容

Blockchain News

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

GPT-Image-2 ：随意做出可作为“证据”的图片，强到让人恐慌

宙世代

一起剪

相关阅读

扫货AI圈，游戏大厂的估值逻辑变了

等等党这次真输了 CPU全面涨价！Intel要再涨10%：缺货直到2027年

RTX 3060显卡复活在即 黄仁勋表态：回归7nm等旧工艺不太可能

4万亿的困境：苹果需要混乱，但库克留下了秩序

培训岗的遮羞布，被AI掀了

抖音：未经授权不得使用他人肖像、声音、作品进行AIGC创作

Meta拟追踪美员工点击及击键数据训练AI，官方称数据不用于绩效评估

仅需1/10 Token消耗！百灵Ling-2.6-flash正式发布：104B参数实现SOTA级Agent

你的脸已被AI明码标价：普通人肖像权买断一年仅100元

苹果改命：财务管家库克体面交棒，产品经理特努斯烫手接棒

英伟达放出帧率外挂！DLSS 4.5 SDK发布：开发者一键接入6倍多帧生成

微软发布紧急更新！修复9.1分高危漏洞

实测Images 2.0 : 10招玩转生图新王

一个时代的落幕！苹果macOS 27将彻底放弃Intel Mac

入口在手，Token我有，千问豆包卡位Agent“开机键”

最新评论

硅星人

热门推荐

企业资讯

RTX 3060显卡复活在即黄仁勋表态：回归7nm等旧工艺不太可能