关于ZAKER 合作
手机中国 2小时前

Claude Opus 4.7 正式发布 编程、金融、多模态全面升级

【CNMO 科技消息】近日,Anthropic 正式发布 Claude Opus 4.7,距上一次 Opus 4.6 发布仅间隔两个月,延续了每两个月一次的稳定迭代节奏。

Clude

在软件工程领域,Opus 4.7 取得了最突出的进步。在业界公认最硬核的 SWE-bench Pro 基准测试上,Opus 4.7 从前代的 53.4% 跃升至 64.3%,单代升级提升近 11 个百分点,大幅领先 GPT-5.4(57.7%)和 Gemini 3.1 Pro(54.2%)。在 SWE-bench Verified 上更是达到 87.6%,CursorBench 也从 58% 升至 70%。

Anthropic 称,这是首个能自主通过 " 隐含需求测试 " 的 Claude 模型——模型需自行推断所需工具或行动,而非被明确告知。早期测试中,它甚至能反驳用户,拒绝盲从错误指令,早期用户评价其 " 感觉像一个更好的同事 "。

在多项基准测试中,Opus 4.7 超越了 GPT-5.4 和 Gemini 3.1 Pro:金融分析代理测试取得全球最高分;工具调用规模化评测 MCP-Atlas 达 77.3%,超 GPT-5.4 的 68.1% 和 Gemini 的 73.9%;法律 AI 平台 Harvey 的 BigLaw 基准上拿下 90.9%;多步智能体推理提升 14%,工具错误减少三分之一。

但也并非全面领先—— Agentic search 评测 BrowseComp 从前代的 83.7% 降至 79.3%,被 GPT-5.4(89.3%)和 Gemini(85.9%)反超。整体而言,在直接可比基准上 Opus 4.7 仅以 7 比 4 的优势领先 GPT-5.4,各实验室差距正在迅速缩小。值得注意的是,Opus 4.7 并非 Anthropic 最强模型—— Claude Mythos Preview 仍因安全顾虑被限制使用,Opus 4.7 与其存在全方位能力差距。

在实际应用层面,Opus 4.7 可放心交付最复杂编码任务,能自行设计验证机制检查输出结果。Claude Code 新增自动化 Routines 功能,支持定时 /API/GitHub 触发,合上电脑也能 7 × 24 小时运行,其年化营收已达 25 亿美元。

金融分析方面,它能生成严谨分析与建模、专业报告展示,任务间整合更紧密。视觉多模态支持边长最大 2576 像素的图像(约 3.75 百万像素,是前代三倍多),可解读密集截图、复杂图表和界面布局,官方称其更有 " 品味 " 且更具创造力。此外,模型能跨会话记住关键信息并复用于新任务,减少前置上下文,并引入新护栏,自动检测并拦截高风险网络安全请求。

相关标签

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容