AI 周报 Vol.6 | GPT-6 落地,代号"土豆",这次 OpenAI 赢回来了吗?
本周 AI 圈的剧情有点离谱。
一个大模型的内部代号叫”土豆”,然后它在 4 月 14 日炸场了。
GPT-6 正式上线。OpenAI 把这个憋了 18 个月的东西终于拿了出来。
GPT-6 发布:200 万 Token,全模态,代号”Spud”
先说参数:5-6 万亿 MoE 架构(实际激活参数远没这么多)、200 万 Token 上下文窗口、全模态 Symphony 架构(文字/图像/音频/视频统一处理),性能号称比 GPT-5.4 提升约 40%。
这几个数字单独看都挺常见了,毕竟前两个月 Gemma 4 和 Qwen3.6-Plus 都已经卷过一遍长上下文。
但 GPT-6 的不同在于:它把 Agent 能力做成了基础设施,而不是插件。
之前 GPT-4/5 时代,Agent 能力是靠外部工具调用”装”上去的,用起来割裂感很强。GPT-6 的 Symphony 架构据说从训练阶段就把多步推理和任务规划整进去了,不再是”用语言模型模拟 Agent”,而是”模型本身就是 Agent”。
从开发者角度看,这一点如果真的落地,工作流会有实质性变化。
200 万 Token 的上下文更值得关注。现在一个中等规模项目的代码库全扔进去处理,理论上是可行的了。当然,能不能真的有效利用这 200 万 Token,取决于模型的注意力机制——这里目前还需要观望。
Gemma 4 开源:谷歌这次认真了
同期发布的 Gemma 4 几乎被 GPT-6 的声浪盖住了,但对开发者来说这可能是更实用的消息。
Gemma 4 是谷歌旗下 Gemini 系列的开源版本,本次发布的亮点是:单卡(A100)可运行的量化版本,以及大幅改进的代码理解能力。
端侧部署场景,Gemma 4 是目前开源阵营里最能打的选手之一。如果你的项目对数据隐私要求高、不想把代码传到云端,Gemma 4 值得认真测试一下。
之前谷歌的开源模型存在感一直比较弱,相比 Meta 的 Llama 系列,Gemma 的社区活跃度不高。这次 Gemma 4 的代码性能评测在几个 benchmark 上超过了同级闭源模型,能不能把开发者社区重新拉起来,接下来几周会见分晓。
DeepSeek 专家模式上线:迟来的「思考开关」
4 月 8 日,DeepSeek 悄悄上线了”专家模式”。
这是自 DeepSeek 走红以来,第一次在产品层面做比较大的功能分层。专家模式打开之后,模型会给出更详细的推理链路和假设说明,而不是直接吐结论。
理解这个功能,需要对比 GPT-4o 的”深度研究”模式——都是在默认对话之外提供一个”慢思考”选项。区别在于 DeepSeek 的专家模式目前还在测试阶段,开放范围有限。
对于工程师用户来说,DeepSeek R2 如果能把专家模式稳定铺开,在技术文档分析、架构决策辅助这类场景下会有不小的提升空间。目前 R2 的时间线还没确认,但专家模式的上线通常意味着下一代模型的准备工作已经开始。
一点感受:这周是 AI 军备竞赛最密集的一周
GPT-6、Gemma 4、DeepSeek 专家模式——这三件事集中在同一周内发生,不太像巧合。
OpenAI 把发布时间钉死在 4 月 14 日,谷歌赶在前一周甩出 Gemma 4,DeepSeek 在这个节点更新产品,显然是在卡位置。
背后的逻辑是:GPT-6 上线之后,Claude、Gemini Ultra、Qwen 都面临重新定标的压力。每个厂商都想在”GPT-6 参考系”形成之前,先刷一波存在感。
对程序员来说,这一轮军备竞赛的实际意义是:工具选择窗口又重新开了。
如果你上个月刚确定了用 Claude Sonnet 做主力,现在可能需要重新测一遍。GPT-6 在代码生成和 Agent 编排上的实际表现,还需要更多真实场景的反馈才能判断。
我打算这周把 GPT-6 的 API 接入进来,用博客自动化工作流跑一遍对比测试,结果放在下周的 AI 实验室里。
本周数字
- GPT-6 发布参数:5-6T MoE,200 万 Token,号称性能 +40%
- Gemma 4 开源版:单 A100 可跑,代码 benchmark 超越同级闭源
- DeepSeek 专家模式:4 月 8 日上线,开放范围有限
- 本周 GitHub 上 GPT-6 相关 repo:24 小时内新增 200+(恐怕大多数是”占坑”)
上期周报:AI 周报 Vol.5 | Anthropic 逆天一击:年化 300 亿、Claude Mythos 代码能力碾压所有人