AI 周报 Vol.7 | Claude Opus 4.7 发布,编码反超 GPT;斯坦福报告:中美差距只剩 2.7%
上周四我在这里写 Vol.6 的时候说,等 GPT-6 API 稳定了试几天再来聊感受。没想到这周最大的新闻不是 GPT-6,而是 Anthropic 半夜偷偷推了 Claude Opus 4.7,直接在编码基准上把 GPT-5.4 踩在脚下。
再加上斯坦福那份说”中美AI差距只剩2.7%”的年度报告,这周的信息量算是没让人失望。
Claude Opus 4.7:Anthropic 这次认真了
4 月 16 日深夜,Claude Opus 4.7 正式上线。发布时间选在周四晚上,没有大会、没有直播,只有一篇博客。但数字挺能说明问题:
SWE-bench Pro 得分 64.3%,超过 GPT-5.4 和 Gemini 3.1 Pro,成为目前公开评测里编码能力最强的模型。视觉理解能力也翻了三倍左右,这个提升在实际用 Claude Code 处理带截图的 Bug 报告时能明显感受到。
我这周用 Opus 4.7 跑了几个真实项目的代码 Review,有几个观察:
一是它对”模糊需求”的处理变聪明了。以前跟它说”把这段逻辑优化一下”,它容易给一个看起来不错但改了太多地方的方案。4.7 之后,它会先问清楚你的约束条件,比如是否要保持接口兼容、是否有性能预算。变得更像一个有自我主张的同事,而不是乖乖执行命令的工具。
二是长上下文的代码理解稳定性提升了。之前在 150K Token 左右,它会开始”忘记”文件开头定义的变量或函数签名。4.7 版本这个问题明显改善,跑完整个模块的重构时安心多了。
还有个新功能叫 xhigh 模式,是加强版的扩展思考,适合特别复杂的架构设计任务。我试了一次,给它一个涉及微服务拆分的设计题,输出的方案详细程度超出预期——但也慢了不少,所以日常写代码不用开,留给真正需要深度推理的场合。
不过有一个地方让我挠头:同期网上有传言说 Claude Opus 4.6 有”降智”迹象,思考 Token 被压缩,输出质量下滑。官方没有正面回应这件事,但 4.7 的及时发布感觉像是一个软性回答。以后版本质量要盯着点,不能因为信任品牌就懒得测。
斯坦福 AI Index 2026:中美差距只剩 2.7%
4 月 13 日,斯坦福 HAI 发布了 432 页的《2026 年 AI 指数报告》。关键结论已经被各家媒体拆解了无数遍,但我觉得有几个数字值得程序员视角单独看一眼:
中美 AI 能力差距从 2023 年的约 15% 收窄到了 2.7%。这不是泛泛的说法,是在标准化 AI 基准测试体系下的量化结论。DeepSeek 系列贡献了相当大的功劳——报告特别点名了它作为”追赶速度”的代表案例。
另一个数字:全球顶尖 AI 年产 95 个,且绝大多数集中在中美两国。欧洲在这场竞赛里已经基本出局了,大量欧洲 AI 公司在技术上依赖美国或中国的底座模型,只做应用层。
对开发者来说,这份报告里有一条不太起眼但我觉得很重要的观察:AI 辅助编程工具的渗透率在 2025 年全球开发者中达到了 62%,比上一年翻了将近一倍。这意味着什么?意味着”会用 AI 写代码”正在从加分项变成及格线,分化正在发生。
报告全文可以在斯坦福 HAI 官网下载,432 页读不完没关系,摘要部分有 12 页,值得花半小时看一遍。
Google Gemma 4:Apache 2.0 开源,单卡能跑
这件事在 Vol.6 里提过一次(当时 Gemma 4 刚宣布),这周正式以 Apache 2.0 协议开源落地了。
Apache 2.0 是什么意思?比 Meta 的 Llama 协议更宽松,允许商用、允许修改、允许闭源,相当于 Google 直接放开了让你拿去用。
我比较感兴趣的是 Gemma 4 27B 的版本,号称在消费级显卡(RTX 4090 量化版)上能跑完整推理。实际上还没测,但如果属实,这对想本地跑高质量模型的开发者来说是好消息。之前本地跑大模型基本要么凑合用 7B/8B,要么花大钱攒工作站,27B 进消费级是一个节点。
国内用 Ollama 或 LM Studio 的同学应该很快就能看到对应的量化版本,有人测过的可以在评论区聊一下。
DeepSeek V4:华为芯片跑起来了
这条新闻的技术价值远大于它现在被讨论的热度。DeepSeek V4 被报道成功在华为昇腾芯片上完成推理,这是一个信号而不只是一个产品更新。
从开发者角度看,现在 AI 模型的底层芯片基本是 NVIDIA 一家独大。昇腾能不能跑通主流开源大模型,决定了国内云厂商能不能提供真正可用的 AI 算力替代方案——无论是出于成本还是合规考量。DeepSeek V4 在昇腾上跑通,说明这条路至少技术上走得通。
具体的推理速度、延迟数据目前还没有权威的公开测试,我保留判断。但这个方向值得盯着看。
这周我在想的一件事
上期周报结尾说”下周打算测 GPT-6 API”,这周确实测了一段时间,几个感受已经写在了 4 月 17 日的那篇实测文章 里。
简短版结论:速度和上下文都有明显进步,但在日常编程辅助任务上,Claude Opus 4.7 这周发布之后重新拿回了我的使用频率。多模型混用已经是常态,没必要押注单一工具。
下周 AI 圈可能会继续有新发布——Meta 的 Llama 4 传言很久了,Gemini 那边也一直在动。如果有大事,Vol.8 里见。
博客 AI 周报每周一期,记录值得程序员关注的 AI 进展。