我是怎么把本地 AI 模型跑起来的——以及为什么最终还是关掉了
去年年底,身边一堆程序员朋友开始晒”本地跑大模型”的截图。
什么 Ollama 跑 LLaMA 3、Mistral 跑到本地、用 llama.cpp 把模型压缩到能在 MacBook 上推理……各种帖子满天飞,我看着看着,手痒了。
于是我也入坑了。
折腾了大约两周,跑通了,用了一段时间,然后……关掉了。
这篇文章就是把这个过程老老实实地记录下来,不只说结果,把中间那些弯路和心理活动也一起写出来。
为什么想折腾本地模型?
动机其实很朴素,就两个:
1. 隐私。
我平时用 Claude 和 GPT 处理很多工作内容,偶尔会涉及一些不便外传的代码片段或者设计思路。虽然 OpenAI 和 Anthropic 都声称不拿用户数据训练,但……你懂的,总归有点隐隐不安。
2. 钱。
API 调用费用不便宜。如果本地能跑起来,写脚本批量处理文档、自动生成代码注释这种任务,就完全不用掏钱了。
带着这两个动机,我开始了折腾之旅。
硬件配置
先交代一下我的硬件,因为后面很多坑跟配置有直接关系。
- 笔记本:MacBook Pro M3 Max,48GB 统一内存
- 台式机:Windows 11,i9-13900K,RTX 3090(24GB 显存),64GB 内存
两台机器都能跑,但体验差距很大——后面细说。
第一步:用 Ollama 跑起来
Ollama 是目前最顺滑的本地模型方案之一,安装简单,模型库也够丰富。在 Mac 上:
1 | |
三步,就能在终端里跟模型对话了。
速度嘛……M3 Max 跑 8B 模型,大概每秒 35-40 个 token,流畅对话没问题。
我当时有点小激动:这就本地跑起来了?!
接着我又拉了 llama3.1:70b 试试。
这次等了将近 20 分钟下载,然后满怀期待地运行……
每秒大概 5-6 个 token。
说句实在话:跟它聊天就像和一个打字很慢的朋友发消息,看着光标一个字一个字蹦出来,我的耐心迅速消耗。
第二步:转战 Windows 台式机
Mac 没 GPU,推理靠 CPU 和统一内存,速度有上限。台式机有 RTX 3090,理论上快很多。
于是我把 Ollama 装到了 Windows 上。
这里踩了第一个坑:CUDA 版本冲突。
我机器上有好几个版本的 CUDA 共存(分别是之前装各种深度学习框架留下来的),Ollama 运行时没有自动识别 GPU,一直走 CPU 推理。
排查了很久,最后发现是 PATH 里的 CUDA 路径混乱,把旧版本排在了前面。手动调整顺序,重启服务,才跑起来。
跑通之后,70B 模型的速度大约是每秒 15-20 个 token,比 Mac 快不少,但也远没有云端 API 那种秒回的流畅感。
第三步:接入工作流
光在终端里聊天意义不大。我想把本地模型接入实际工作流:
- 用 Open WebUI 做一个本地的”ChatGPT 界面”
- 用 Continue(VS Code 插件)做本地代码补全
Open WebUI 部分:Docker 一键跑起来,界面很漂亮,功能完整,甚至还能上传文档做 RAG。对话体验比终端好太多。
1 | |
Continue 代码补全部分:这里踩了第二个坑。
Continue 做代码补全时,每次触发都是一次完整推理请求。70B 模型每次补全要等 2-3 秒,比我自己手打还慢。
换成 8B 模型,速度是快了,但代码质量……说实话,差 Copilot 一截。
真实使用了两周之后
两周下来,我的感受:
好的地方:
- 隐私确实保住了,再也不用纠结”这段代码能不能发给 API”
- 一旦跑通,完全免费,批量任务成本为零
- Ollama + Open WebUI 这套组合真的不难,体验超出预期
让我头疼的地方:
- 速度差距是真实的。云端 API 的响应速度和生成质量,暂时还不是本地模型能平替的
- 电费和噪音。台式机跑大模型,风扇声音不小,夏天房间温度也会上去
- 维护成本。Ollama 需要定期更新,模型文件要手动管理,偶尔遇到问题要自己 debug
- 质量落差。我在实际工作中对比过:同样的任务,Claude Sonnet 的回答明显比 LLaMA 3.1 70B 更准确、更有用
为什么最终还是关掉了
到了第三周,我做了一个很坦诚的账:
我为什么想要本地模型?
→ 隐私 + 省钱
实际情况是:
→ 涉密内容其实很少,大部分工作内容可以正常发给 API
→ Claude API 的月账单大概 200-300 元,并不是不可接受的数字
代价是什么?
→ 每次开机要记得启动 Ollama
→ 台式机风扇噪音影响专注
→ 代码补全反而更慢了
→ 我花了两周折腾这件事,时间成本远超 200 元
把账算完,我把台式机上的 Ollama 关掉了。
Mac 上的还留着,偶尔体验新模型用。
折腾之后我学到的东西
这次折腾没有白费,有几点真实的收获:
一、本地模型不是银弹,是工具
它适合特定场景:
- 高隐私要求(法律、医疗等行业)
- 批量处理任务(一次调用成千上万次)
- 离线环境(网络限制的场合)
但对于我这种日常工作场景,云端 API 的性价比更高。
二、折腾本身有价值
我现在大概知道 LLM 推理是怎么回事:量化(Q4、Q8 是什么意思)、显存限制、上下文长度和速度的权衡……这些东西不折腾一遍,很难有直觉。
这种直觉在以后评估 AI 工具时会用到。
三、”免费”从来不是真的免费
本地跑模型省了 API 费用,但花了时间、电费、和一点点专注力。
时间是有成本的。
给想折腾的人几个建议
如果你也想试试,几个务实的建议:
- 先从 8B 模型开始,别上来就拉 70B。8B 模型速度可以接受,质量对于日常 QA 够用
- Mac M 系列跑起来最省事,没有 CUDA 的烦恼,统一内存跑中等模型挺顺畅
- Open WebUI 值得装,比终端聊天体验好太多
- 别把本地模型当 Copilot 替代品,代码补全这个场景本地模型暂时干不过专门优化的云端方案
- 先想清楚你的场景,再决定值不值得折腾
最后
我不是说本地模型没用,而是说:工具应该服务于需求,不是为了折腾而折腾。
两周折腾下来,我对 LLM 推理的理解加深了,这本身是有价值的。但如果让我重来一次,我可能会先把账算清楚再动手。
现在的状态:台式机的 Ollama 已经卸载了,MacBook 上留着 Ollama 跑几个小模型体验新东西,日常工作还是 Claude API 打主力。
这个组合对我来说是最顺手的。
你有没有折腾过本地大模型?踩了什么坑?欢迎在评论区聊聊。