AI 周报 Vol.3(2026.03.22-03.28)| 一周之内,编程范式被重写了
「土豆的AI周报」第3期。每周六早上,我会把这一周里真正值得关注的AI动态整理出来,加上我作为一个AI工具重度用户的主观判断。信息量不大,但每条我都认真选过。
🔥 本周最大的事:编程AI集体进化
如果用一句话概括这周,我会说——「AI能写代码」这件事,在2026年3月的最后一周,彻底从「噱头」变成了「基础设施」。
三件事叠在一起,时间窗口不超过7天:
- Google Gemini 2.5 Pro 发布,在多个代码基准上直接登顶
- Claude Sonnet 3.7(带扩展思维模式)在 SWE-bench 上创下新纪录
- WorkBuddy / Cursor 的智能体模式越来越稳,真正开始能「接手」一整个功能模块
单看任何一件事都还好,三件事同时发生,感觉这周的空气都变了。
📌 值得详细说的几件事
1. Gemini 2.5 Pro:真的很强,但有细节要注意
Google 这次不含糊。Gemini 2.5 Pro 在 GPQA(研究生级别推理)、HumanEval(代码生成)上的成绩,直接把之前的榜一打下去了。
让我印象深的不是跑分,而是长上下文的实际表现。在处理包含几十个文件的大型代码仓库时,它的「记忆」比之前稳定很多——不会在 50k tokens 之后开始「健忘」。
不过有一点要说清楚:跑分高 ≠ 日常用着爽。Gemini 的 API 在国内访问还是得靠代理,响应速度在高峰期也时好时坏。如果你是 API 重度用户,建议先小规模测试,别一上来就迁移工作流。
我的判断:适合做代码分析类的批处理任务,不太适合作为「随手对话」的主力模型(起码目前)。
2. Claude 3.7 Sonnet:扩展思维模式的实际体感
这周我在几个项目里认真用了 Claude 3.7 Sonnet 的「扩展思维」(Extended Thinking)模式。
说实话,第一次看到它输出一大堆 <thinking> 标签的时候,我觉得有点啰嗦。但用了几天之后改变看法了——它不是在表演思考,它真的在用不同角度检查自己的答案。
有一次我让它帮我 debug 一个 Python 异步并发的 bug,普通模式给了我一个「看起来合理」但其实错的方案,扩展思维模式绕了一大圈,最后找到了一个我自己没想到的根因。
硬要说缺点:速度慢,token 消耗大。一次复杂推理轻松用掉几千 token,如果你是 API 按量付费,要算好成本账。
我的判断:用来处理「卡壳的难题」非常值,日常问答就杀鸡用牛刀了。
3. AI 智能体编程:从「辅助」到「接手」的临界点
这周我最有感触的,其实不是某个模型,而是用 WorkBuddy 跑了一个完整的「无人值守」任务。
我给了一个需求描述,去喝了杯咖啡,回来发现:文件已经创建好了、逻辑跑通了、边界情况也处理了。
以前 AI 是「你说一步,它做一步」;现在开始出现「你说目标,它想步骤」的感觉。
这不是说 AI 编程已经完美——还差得远,出错率还是很高,需要 Review。但临界点感很明显:这周是我第一次觉得「也许未来大部分的 CRUD 代码,真的可以让 AI 全程处理」。
📊 一周快讯(速览)
| 事件 | 一句话总结 |
|---|---|
| Gemini 2.5 Pro 发布 | 多项基准登顶,长上下文更稳 |
| Claude 3.7 扩展思维 | 慢但准,处理复杂推理场景 |
| OpenAI 发布 o3-mini 更新 | 小模型,推理能力继续增强 |
| Meta 开源 Llama 3.2 多模态 | 图文理解能力开放,开发者狂喜 |
| 国内:字节 Seed-X 发布 | 代码+数学双强,支持本地部署 |
| Midjourney V7 公测 | 图像质量大幅提升,真实感更强 |
💡 这周的一个小观察
我注意到一个有意思的现象:
越来越多的「AI工具评测」文章,开始从「功能介绍」转向「工作流适配」。
以前大家问的是「这个模型能不能做 XXX」,现在问的是「这个模型在什么场景下比另一个更合适」。
这说明用户在成熟。大家不再被「最新模型」牵着鼻子走,开始关心实际落地了。
对我来说,这正是我写这个博客的意义所在——不是追新,而是帮你找到适合自己场景的用法。
🗓️ 下周预告
- 周三:《Prompt 工程:代码生成的5个层次》(AI + 编程系列第4篇)
- 周六:AI 周报 Vol.4,继续跟进这波编程 AI 的进展
如果你对某个话题特别感兴趣,欢迎在评论里告诉我,我会优先安排。
土豆每周都在跟 AI 打交道,这个博客是真实使用体验的沉淀,不是 PR 稿。有共鸣的话,收藏 / 分享给同样关注 AI 的朋友 🥔