AI 周报 Vol.5 | Anthropic 逆天一击:年化 300 亿、Claude Mythos 代码能力碾压所有人
每周四更新,记录那些真正值得关注的 AI 进展——不追热闹,只说重点。
本周的 AI 圈有点「群雄并起」的意思:OpenAI 被传 GPT-6 下周发布,但最大的新闻反而来自 Anthropic。阿里 72 小时发了三款模型,大家都在问”这卷得完吗”。顺便,行业自律标准终于有了一点实际意义。
🔥 本周头条:Claude Mythos 来了,Anthropic 悄悄登顶
4 月 8 日,Anthropic 发布了 Claude Mythos Preview,但没有大张旗鼓搞发布会。
数据说话:
- USAMO 数学奥赛 2026 题:正确率从 42.3% → 97.6%(没看错,翻了一倍多)
- SWE-bench 代码修复:成功率 80.8% → 93.9%
- 长上下文理解(GraphWalks BFS):38.7% → 80%
对标的竞争对手是 GPT-5.4 和 Gemini 3.1 Pro,全线碾压。
更惊人的是商业数据:Anthropic 年化收入 300 亿美元,单月新增 110 亿,已超过 OpenAI(约 240 亿)。财富 10 强企业里有 8 家是其客户,大企业客户数量两个月内翻倍。
不过有一点值得关注:Mythos 目前没有公开发布,而是通过「Project Glasswing」优先给了苹果、微软、亚马逊等 12 家合作伙伴,专门用于安全漏洞探测和修复。官方描述是「在发现软件漏洞方面已超过除最顶尖安全研究员以外的所有人类」。
我的看法:Anthropic 这一步走得很稳——先给大客户,沉淀 case,等稳了再开放。跟 OpenAI 的「发布会先行」策略完全不同。Claude Code 在编程市场占有率已经 54%,企业市场这盘棋下得越来越稳。
📡 本周重要动态
1. GPT-6 传闻:代号「土豆」,预计 4 月 14 日
科技博主 @iruletheworldmo 在 X 平台爆料:OpenAI 内部代号「Spud(土豆)」的下一代模型 GPT-6 已完成预训练,预计 4 月 14 日发布。
关键参数(泄露信息,未官方确认):
- 参数规模:5-6 万亿(混合专家架构,激活约 10%)
- 上下文窗口:200 万 Token
- 较 GPT-5.4 性能提升约 40%
- 架构名「Symphony」,原生多模态统一架构
- 训练成本超 20 亿美元,动用约 10 万张 H100
如果属实,ChatGPT + Codex + Atlas 将整合为统一「超级智能体」。代价是 Sora 的资源被砍——为了 GPT-6,视频生成先缓缓。
我的看法:参数规模 5-6 万亿、200 万上下文,这个配置如果落地,加上 Anthropic 的压力,今年 Q2 的模型战争会相当精彩。但 OpenAI 现在烧钱速度 570 亿/年,盈利问题不解决,再强的模型也是悬在半空的。
2. 阿里 72 小时发了三款模型(是的,三款)
4 月 4 日前后,阿里在 72 小时内发布了:
| 模型 | 亮点 |
|---|---|
| Qwen3.5-Omni | 音视频理解等 215 项任务领先,超越 Gemini 3.1 Pro |
| Wan2.7-Image | 解决文生图「标准脸」痛点,支持五官定制 |
| Qwen3.6-Plus | Code Arena 编程盲测全球第二,支持视觉智能体编程 |
Wan2.7-Image 的「五官定制」听起来是在卷商业落地场景(电商、虚拟主播),Qwen3.6-Plus 的视觉智能体编程(截图 → 生成代码)如果体验好,是个很有用的功能。
同期,小米 MiMo 大模型调用量突破 1 万亿 Token,手机端 AI 能调用 50+ 底层能力,连联动智能家居都做进去了。
我的看法:阿里这个节奏有点像「刷存在感」。发布数量多不代表每款都能打,但至少说明阿里在消费侧和企业侧都没打算放弃。Qwen 系列一直是开源社区里比较活跃的选手,持续关注吧。
3. Claude 4.5 发布(4 月 4-5 日期间)
就在 Mythos 发布前,Anthropic 其实已经发布了 Claude 4.5:
- 复杂任务准确率提升 35%
- 支持 200 万 Token 长上下文
- 新增 Chain-of-Thought 功能(展示推理路径)
- 增强多模态理解(文档 + 表格 + 图像混合)
有点意思——Claude 4.5 发布还没多久,Mythos 就来了。Anthropic 的发布节奏明显在加速。
4. 18 家大模型厂商联合发布行业自律标准
4 月 4 日,18 家大模型厂商 + 233 家上下游企业联合发布《新一代人工智能产业功能规范管理倡议与实施要求》。
主要针对的问题:
- AI 功能捆绑(你又不是搞捆绑销售的)
- 收费不透明(定价标准混乱)
- 数据安全(用户数据怎么用要说清楚)
- 用户自主选择权(杜绝后台私自运行)
我的看法:自律标准的问题在于「自律」二字。但 251 家企业联合签署,至少代表行业内部开始意识到「再这么卷下去要出事」。如果后续有监管层面的跟进,这件事才真正有意义。
5. OpenAI 发布 DALL-E 4
4 月 4-5 日,OpenAI 推出 DALL-E 4:
- 图像分辨率 4096×4096
- 精细化风格控制(数百种艺术风格)
- 新增视频生成能力
- 支持精确图像编辑
嗯……这事被 GPT-6 传闻和 Anthropic 的新闻淹没了,但 DALL-E 4 支持视频生成还是值得一提。和 Sora 资源被砍对比,有点微妙。
💡 本周思考:「快」是护城河还是诅咒?
这周看下来,有个感受越来越强烈:AI 行业的发布节奏正在让评估变得不可能。
Claude 4.5 发了没几天,Mythos 就来了。阿里 72 小时发三款。GPT-6 的传闻还没确认,下一代评测已经在准备了。
作为一个每天用 AI 工具工作的人,我现在的感受是:「追最新版本」这件事越来越不值得做了。每次切换都有迁移成本(prompt 调整、工作流适配),但新版本带来的提升有时候不明显。
相反,搞清楚当前工具的边界在哪里,反而更有用。
这可能是一个反直觉的建议:面对 AI 的「军备竞赛」,最好的策略不是追版本,而是深挖当前工具能做到什么、做不到什么。
📌 下周值得关注
- GPT-6 是否如期发布(预计 4 月 14 日)
- Anthropic 是否扩大 Mythos 访问范围
- Claude Mythos 能否向普通用户开放(预测 Q2-Q3)
- 阿里新模型的实测体验(纸面数据和实际使用还是有差距的)
本期内容整理自:爱窝啦 AI 日报、腾讯新闻、博客园 AI 资讯速递、搜狐科技等公开资讯,数据截止 2026 年 4 月 9 日。
往期周报: