怎么跟非技术人解释大模型为什么贵——一张电费账单的故事
怎么跟非技术人解释大模型为什么贵——一张电费账单的故事
上周末回家,饭桌上亲戚问我:你整天搞的那个AI,到底在干嘛?
我说训练大模型。很贵。
对方更迷惑了:贵?一台电脑能贵到哪去?
我沉默了三秒,想起上次跟朋友解释”为什么AI公司估值那么高”时,对方回我一句”那不就是个聊天软件吗”。
这种跨行交流的无力感,每个技术人应该都体验过。
所以我想写一篇能直接转给非技术朋友看的解释——用一张电费账单,把大模型的算力成本讲清楚。如果你是程序员,也可以把这篇当作跟家人/投资人/老板解释你为什么在一家”烧钱”公司的入门手册。
一个城市的用电量 vs 一个AI集群
先说数字,可能会有点冲击。
2026年,全球最大的几个AI数据中心,每个的耗电量大约在100-500兆瓦之间。1兆瓦是什么概念?够一个小型工厂用一年。
而一个普通三口之家,每月用电大约300-500度,折合功率约0.5千瓦(持续运行)。
简单换算:一个AI集群的峰值用电,够20万到100万户家庭同时开空调。
这是电费账单的起点。
GPT-6的一次”训练”,要交多少电费?
大模型的训练,是最贵的部分。
以业界估算为例,训练一个GPT-4量级的模型,需要约10^25次浮点运算(FLOPS)。假设用NVIDIA H100 GPU(当前主流训练芯片),单卡算力约3.95 PFLOPS(每秒3900万亿次浮点运算)。
数学很简单:10^25 / 3.95×10^15 ≈ 253万卡时。
H100的功耗是700瓦。一张卡跑一小时,就是0.7度电。
253万卡时 × 0.7度 ≈ 177万度电。
按美国工业电价约0.1美元/度,这是17.7万美元。
这只是”纯电费”。实际训练一个大模型,还需要:
- 数千张GPU卡本身的采购成本(H100单价约3-4万美元)
- 散热系统的能耗(额外增加30-50%)
- 研发人员工资、数据标注费用
- 多次失败的试错成本
综合下来,训练一个顶级大模型的总成本,业界估计在数千万到上亿美元之间。
一张电费账单只是冰山一角。
推理成本:每次对话都在烧钱
训练是一次性的大额支出,但推理(就是你跟ChatGPT对话时)才是持续的现金流消耗。
用户问一个问题,模型需要”跑”一遍。参数量越大,每次推理消耗的算力越多。
以Claude 3.5 Sonnet为例,有机构估算每次中长对话的推理成本约0.01-0.05美元。
听起来不多。但全球每天有几亿次对话请求。
数学题来了:假设每天1亿次对话,平均每次0.02美元:
1亿 × 0.02 = 每天200万美元。
一年就是7.3亿美元。
这还只是一家公司的成本。
所以AI公司为什么拼命优化推理效率?因为每省0.001美元/次,乘以几十亿次请求,就是几百万美元的利润空间。
怎么跟家人解释这件事
回到开头那个饭桌场景。
亲戚问你:AI不就是个聊天软件吗?凭什么这么贵?
我的经验是,不讲芯片、不讲FLOPS。直接用类比。
“你知道比特币挖矿吧?”
对方:知道,很费电。
“对。大模型的耗电量跟比特币矿场一个量级,而且不是算一个数学题,是同时在算几十亿道数学题,每秒算几十亿次。”
这基本上能让人大概理解”贵”在哪里了。
如果对方还在追问,可以再加一句:
“你知道训练一次,等于让全城的空调同时开一个月吗?”
数据不精确,但足够建立直觉。
为什么”贵”反而是好事
说了这么多成本,你可能会问:烧这么多钱,值吗?
这里有个反直觉的结论:AI模型的算力成本,正在以超出大多数人预期的速度下降。
2023年,GPT-3.5每次对话的推理成本约0.02美元。到2026年,同等能力的模型推理成本已经降到原来的1/20甚至1/50。
技术进步在压缩成本。摩尔定律在AI领域以更激进的方式发生——不仅芯片在变快,算法在优化,模型架构也在不断演进。
贵,是现在贵。
两年前的”天价”,今年可能就是”普通电价”。
这也是为什么即便训练成本高企不下,AI公司依然在疯狂砸钱:他们在买未来。
写给程序员:你要懂商业视角
回到程序员视角。
我一直觉得,纯写代码的程序员,会慢慢遇到天花板。不是技术天花板,而是商业理解的天花板。
你知道一个模型的训练成本,才能理解为什么公司要在推理效率上死磕。
你知道推理成本的结构,才能理解为什么会有”模型蒸馏””量化压缩”这些技术。
你知道成本下降的速度,才能理解为什么AI应用的窗口期不是”等模型更好了再说”,而是”现在就要开始”。
技术是手段,商业模式是目的。
搞清楚AI为什么贵,是在搞清楚一件事:这东西能商业化吗?
如果能,它的成本结构是什么?利润空间在哪?竞争对手是谁?
这些问题的答案,有时候比写代码更重要。
这篇文章写给所有被亲戚朋友问过”你那个AI到底在干嘛”的程序员。如果你的家人看完还是一脸问号,推荐直接转发本文——大概率比你自己讲更清楚。