卷王没有瓶颈期,性能霸榜全面进化
就在今天,Anthropic 甩出了号称“目前最强”的 Claude Opus 4.7。定价还是那熟悉的味道(每百万 Token 输入 5 美元、输出 25 美元),但在 Vals Index 综合评测中,Opus 4.7 以 71.4% 的高分轻松登顶第一。
相比上一个版本,最大的蜕变是:它学会对结果负责了。接了单不再像以前那样闷头干完就交差,而是在提交结果前认真进行自我验证。对于常跑复杂工作流的打工人来说,这意味着你终于可以撒手,不用再像保姆一样时刻盯着它。
编程能力逆天,6美金手捏沙盒大作
对游戏圈玩家和极客们来说,本次最炸裂的重头戏,绝壁是它“开挂”般的代码实战能力。
在测试真实 GitHub 项目 Bug 修复的 SWE-bench Pro 中,它的排雷胜率直接从 53.4% 跃升至 64.3%。这 11 个百分点的暴涨,说明它处理极其复杂的“屎山代码”、理顺深层依赖的表现有了质的飞跃。
更恐怖的是它在游戏创作上的实测威力:
- 仅用 6 美元打造《我的世界》:开发者 Angaisb 凭借自然语言描述,就让 AI 从零构建出了一个完整的极简版《我的世界》风格沙盒游戏!方块挖掘、地形破坏、资源采集应有尽有。跑完这整个开发流程,他花的 API 接口费仅为 6 美元。
- 单身开发赛博FPS? 开发者 Bridgemind 在实况直播中,用“Vibe Coding(随性编码)”的方式,仅靠写一段段 Prompt 进行描述,硬是在一个 HTML 文件里搞出了一款带敌人波次和多武器切换把玩的 3D 第一人称射击游戏(FPS)。他扬言下一步要挑战写 GTA 6!
“脑补怪”终结,看图能力狂飙
受够了 AI 经常自我感动、胡乱发挥?4.7 终于把这毛病给治好了。 它现在的行事风格极度服从,逐字执行,绝不擅自给自己加戏。不过老用户得注意,如果你在 4.6 搞的一些全凭“AI 脑补”的模糊提示词,这次再跑可能会直接报错罢工,统统得推倒重写。
此外,它的看图能力也是直接起飞:视觉推理得分暴涨 13 个百分点,且支持长边最大 2576 像素(约 3.75MP)的图像解析。现在你随便砸给它一张满是字据的高级报表或 UI 系统图,它都不用放大镜了。
随着 4.7 的登场,专业工具 Claude Code 也迎来了功能大升级,例如加入了专门死磕代码设计缺陷的 /ultrareview(深度审查)模式。
逆天神操作:文言文压缩 Token
模型太强,直接催生了群众们的逆天玩法。X 平台上有人在给 4.7 下指令时,开发出了硬核的 “文言文模式”(wenyan mode)。
众所周知,“有朋自远方来”这几个字,如果用白话文要写上一大段。现代老外们通过利用这种两千年前的高密度信息载体去跟高维 AI 沟通,反而将长串的提示词体积硬生生压缩了高达 60%!不得不说这波用古语给现代人省Token钱的操作,真的非常赛博朋克。
实力太猛惹人慌?官方被迫“降智”测试
一切指标都在往天上飙,但如果扒细节,你会发现两项指标反而变弱了:
- 网页搜索能力下降了 4 个百分点(如果你需要全天候在线大批量爬文献做分析,4.6 可能反而更稳)。
- 网络安全漏洞复现能力倒退!
这不是什么技术翻车,而是 Anthropic 在临门 AGI 之前,主动给它带上了“嘴套”。
官方表示,为了防止全能的怪物失控,他们正在 4.7 这个版本上测试“差异化降低网络安全能力”以及内置自动拦截机制。甚至,他们还在用户端开始力推最严格的“护照+自拍”实名身份验证。
【编辑观察】 打工人们不仅不轻松,可能真的要慌了。近期 Anthropic 高速狂飙,全公司年化营收跨过超 300 亿美元的门槛,在企业渗透率上直接超车了 OpenAI。而 Claude Opus 4.7 在某种程度上还只是为了测试“防御机制”、替即将到来的“神级大模” Mythos 探路的实验性版本。如果以后单靠打字微操就能搞定一个工作室该干的活,我们将迎来怎样的一个游戏盛世呢?


评论
暂无评论