AI 周报 Vol.3（2026.03.22-03.28）| 一周之内，编程范式被重写了

「土豆的AI周报」第3期。每周六早上，我会把这一周里真正值得关注的AI动态整理出来，加上我作为一个AI工具重度用户的主观判断。信息量不大，但每条我都认真选过。

🔥 本周最大的事：编程AI集体进化

如果用一句话概括这周，我会说——「AI能写代码」这件事，在2026年3月的最后一周，彻底从「噱头」变成了「基础设施」。

三件事叠在一起，时间窗口不超过7天：

单看任何一件事都还好，三件事同时发生，感觉这周的空气都变了。

Google 这次不含糊。Gemini 2.5 Pro 在 GPQA（研究生级别推理）、HumanEval（代码生成）上的成绩，直接把之前的榜一打下去了。

让我印象深的不是跑分，而是长上下文的实际表现。在处理包含几十个文件的大型代码仓库时，它的「记忆」比之前稳定很多——不会在 50k tokens 之后开始「健忘」。

不过有一点要说清楚：跑分高 ≠ 日常用着爽。Gemini 的 API 在国内访问还是得靠代理，响应速度在高峰期也时好时坏。如果你是 API 重度用户，建议先小规模测试，别一上来就迁移工作流。

我的判断：适合做代码分析类的批处理任务，不太适合作为「随手对话」的主力模型（起码目前）。

这周我在几个项目里认真用了 Claude 3.7 Sonnet 的「扩展思维」（Extended Thinking）模式。

说实话，第一次看到它输出一大堆 <thinking> 标签的时候，我觉得有点啰嗦。但用了几天之后改变看法了——它不是在表演思考，它真的在用不同角度检查自己的答案。

有一次我让它帮我 debug 一个 Python 异步并发的 bug，普通模式给了我一个「看起来合理」但其实错的方案，扩展思维模式绕了一大圈，最后找到了一个我自己没想到的根因。

硬要说缺点：速度慢，token 消耗大。一次复杂推理轻松用掉几千 token，如果你是 API 按量付费，要算好成本账。

我的判断：用来处理「卡壳的难题」非常值，日常问答就杀鸡用牛刀了。

这周我最有感触的，其实不是某个模型，而是用 WorkBuddy 跑了一个完整的「无人值守」任务。

我给了一个需求描述，去喝了杯咖啡，回来发现：文件已经创建好了、逻辑跑通了、边界情况也处理了。

以前 AI 是「你说一步，它做一步」；现在开始出现「你说目标，它想步骤」的感觉。

这不是说 AI 编程已经完美——还差得远，出错率还是很高，需要 Review。但临界点感很明显：这周是我第一次觉得「也许未来大部分的 CRUD 代码，真的可以让 AI 全程处理」。

我注意到一个有意思的现象：

越来越多的「AI工具评测」文章，开始从「功能介绍」转向「工作流适配」。

以前大家问的是「这个模型能不能做 XXX」，现在问的是「这个模型在什么场景下比另一个更合适」。

这说明用户在成熟。大家不再被「最新模型」牵着鼻子走，开始关心实际落地了。

对我来说，这正是我写这个博客的意义所在——不是追新，而是帮你找到适合自己场景的用法。

如果你对某个话题特别感兴趣，欢迎在评论里告诉我，我会优先安排。

土豆每周都在跟 AI 打交道，这个博客是真实使用体验的沉淀，不是 PR 稿。有共鸣的话，收藏 / 分享给同样关注 AI 的朋友 🥔

AI周报

#AI周报 #行业动态 #智能体 #编程AI #Claude #Gemini

AI 周报 Vol.3（2026.03.22-03.28）| 一周之内，编程范式被重写了

https://www.ohtudou.top/2026/03/28/2026-03-28-ai-weekly-vol3/

作者

Tudo

发布于

2026年3月28日

许可协议