AI 周报 Vol.6 | GPT-6 落地，代号"土豆"，这次 OpenAI 赢回来了吗？

本周 AI 圈的剧情有点离谱。

一个大模型的内部代号叫”土豆”，然后它在 4 月 14 日炸场了。

GPT-6 正式上线。OpenAI 把这个憋了 18 个月的东西终于拿了出来。

GPT-6 发布：200 万 Token，全模态，代号”Spud”

先说参数：5-6 万亿 MoE 架构（实际激活参数远没这么多）、200 万 Token 上下文窗口、全模态 Symphony 架构（文字/图像/音频/视频统一处理），性能号称比 GPT-5.4 提升约 40%。

这几个数字单独看都挺常见了，毕竟前两个月 Gemma 4 和 Qwen3.6-Plus 都已经卷过一遍长上下文。

但 GPT-6 的不同在于：它把 Agent 能力做成了基础设施，而不是插件。

之前 GPT-4/5 时代，Agent 能力是靠外部工具调用”装”上去的，用起来割裂感很强。GPT-6 的 Symphony 架构据说从训练阶段就把多步推理和任务规划整进去了，不再是”用语言模型模拟 Agent”，而是”模型本身就是 Agent”。

从开发者角度看，这一点如果真的落地，工作流会有实质性变化。

200 万 Token 的上下文更值得关注。现在一个中等规模项目的代码库全扔进去处理，理论上是可行的了。当然，能不能真的有效利用这 200 万 Token，取决于模型的注意力机制——这里目前还需要观望。

同期发布的 Gemma 4 几乎被 GPT-6 的声浪盖住了，但对开发者来说这可能是更实用的消息。

Gemma 4 是谷歌旗下 Gemini 系列的开源版本，本次发布的亮点是：单卡（A100）可运行的量化版本，以及大幅改进的代码理解能力。

端侧部署场景，Gemma 4 是目前开源阵营里最能打的选手之一。如果你的项目对数据隐私要求高、不想把代码传到云端，Gemma 4 值得认真测试一下。

之前谷歌的开源模型存在感一直比较弱，相比 Meta 的 Llama 系列，Gemma 的社区活跃度不高。这次 Gemma 4 的代码性能评测在几个 benchmark 上超过了同级闭源模型，能不能把开发者社区重新拉起来，接下来几周会见分晓。

4 月 8 日，DeepSeek 悄悄上线了”专家模式”。

这是自 DeepSeek 走红以来，第一次在产品层面做比较大的功能分层。专家模式打开之后，模型会给出更详细的推理链路和假设说明，而不是直接吐结论。

理解这个功能，需要对比 GPT-4o 的”深度研究”模式——都是在默认对话之外提供一个”慢思考”选项。区别在于 DeepSeek 的专家模式目前还在测试阶段，开放范围有限。

对于工程师用户来说，DeepSeek R2 如果能把专家模式稳定铺开，在技术文档分析、架构决策辅助这类场景下会有不小的提升空间。目前 R2 的时间线还没确认，但专家模式的上线通常意味着下一代模型的准备工作已经开始。

GPT-6、Gemma 4、DeepSeek 专家模式——这三件事集中在同一周内发生，不太像巧合。

OpenAI 把发布时间钉死在 4 月 14 日，谷歌赶在前一周甩出 Gemma 4，DeepSeek 在这个节点更新产品，显然是在卡位置。

背后的逻辑是：GPT-6 上线之后，Claude、Gemini Ultra、Qwen 都面临重新定标的压力。每个厂商都想在”GPT-6 参考系”形成之前，先刷一波存在感。

对程序员来说，这一轮军备竞赛的实际意义是：工具选择窗口又重新开了。

如果你上个月刚确定了用 Claude Sonnet 做主力，现在可能需要重新测一遍。GPT-6 在代码生成和 Agent 编排上的实际表现，还需要更多真实场景的反馈才能判断。