Anthropic 于 2026 年 4 月 16 日正式发布 Claude Opus 4.7,这是其旗舰级大语言模型的最新版本。 作为 Opus 4.6 的升级版,4.7 在复杂编程任务上实现了肉眼可见的进步,代码质量与解题能力均有实质性提升。但与此同时,HN 社区的真实反馈也给这股乐观情绪泼了点冷水——推理过程不再透明,用户对模型的掌控感明显减弱。

编程能力:13% 的真实提升

根据 Anthropic 公布的测试数据,Claude Opus 4.7 在 93 个编码任务上的表现比 4.6 提升了 13%。更值得关注的是,其中 4 个任务是 Opus 4.6 和 Sonnet 4.6 都无法解决的——4.7 解开了。

这意味着什么?对于需要长时间运行、跨文件修改、多步骤调试的复杂工程任务,Opus 4.7 已经能够承担更多的"hand off"工作。Anthropic 原文的说法是:用户现在可以把"以前需要密切监督的最难编码工作"交给它。

效率层面也有改善:低难度的 Opus 4.7 ≈ 中难度的 Opus 4.6。换句话说,同等质量下,4.7 消耗的 token 更少,响应更快。

Agent 场景:表现最稳定的版本

在研究型 Agent 基准测试中,Claude Opus 4.7 在六个模块的综合性评估中获得 0.715 分,与最高分持平。长上下文表现尤为突出——它能连贯地处理数小时的长程推理任务,中途不会"失忆"或放弃。

金融科技公司 Hex 的 CTO Caitlin Colgrove 评价道:Opus 4.7 是他们评估过的最强模型。尤其值得注意的一点是——它会在数据缺失时主动报告,而不是提供一个"看似合理但实际错误"的替代答案。这种对不确定性的诚实,在实际生产环境中极为重要。

多模态:看得更清楚

视觉能力的提升也是本次更新的重点。Opus 4.7 支持更高分辨率的图像理解,可以读取化学结构、解析复杂技术图表。这对于生命科学、法律专利等需要处理大量文档的专业领域来说,是一个实质性的能力扩展。

安全护栏:首个内置网络攻击拦截的模型

这是本次发布中容易被忽略但意义重大的一点。Opus 4.7 是 Anthropic 首个内置网络安全拦截机制的模型——它会自动检测并阻断涉及漏洞利用、渗透测试等高风险网络攻击的请求。

Anthropic 表示,这是为后续开放 Mythos 级模型所做的"练手"实验。安全研究人员可以通过申请加入 Cyber Verification Program 来获得授权使用。

HN 社区真实反馈:不是所有评价都是正的

光环之下,也有阴影。

负面集中爆发在编程场景:有用户反映,在默认的"extra high thinking"模式下,Opus 4.7 的表现令人失望——它建议的参数会搞反需求,主动性下降,更倾向于让用户来检查文件内容而非自己动手。有用户直接称之为"从 Sonnet 4.5 的倒退"。

更核心的问题是推理透明度的丧失。Opus 4.6 的思考过程基本忠实于实际思维路径,而 4.7 的推理痕迹变成了摘要——模型自己决定要思考多久,用户失去了对推理过程的控制。这对于需要完整审计链的开发者来说,是一个不小的顾虑。

Anthropic 承认确实降低了默认的 effort 级别,导致部分用户体验下降。但他们认为这是合理的取舍,因为大多数用户并不需要极限推理能力。

非编程场景的评价则明显更积极。有用户表示,在纯文字对话和深度写作方面,4.7 比 4.6 更有洞察力、思考更深刻。

定价:加量不加价

好消息是,Opus 4.7 的价格与 4.6 完全持平:$5/M 输入 / $25/M 输出。Plus 和 Max 用户可以直接使用,无需额外付费。

适合谁,不适合谁

强推荐:

  • 需要 hand off 复杂长程编码任务的团队
  • 运行 autonomous coding agent 的开发者
  • 对长上下文处理有需求的生产力用户

需要谨慎:

  • 对推理透明度有硬性要求的审计/合规场景
  • 依赖模型主动检查和自我纠错的自动化流程
  • 简单高频短任务(成本效益不如 Sonnet)

Claude Opus 4.7 是一个"偏科"的天才——在复杂编程和 Agent 工作流上,它是目前最强的选择;但在推理可解释性上,它确实开了倒车。选择它,取决于你更看重什么。