我是怎么把本地 AI 模型跑起来的——以及为什么最终还是关掉了

去年年底,身边一堆程序员朋友开始晒”本地跑大模型”的截图。

什么 Ollama 跑 LLaMA 3、Mistral 跑到本地、用 llama.cpp 把模型压缩到能在 MacBook 上推理……各种帖子满天飞,我看着看着,手痒了。

于是我也入坑了。

折腾了大约两周,跑通了,用了一段时间,然后……关掉了。

这篇文章就是把这个过程老老实实地记录下来,不只说结果,把中间那些弯路和心理活动也一起写出来。


为什么想折腾本地模型?

动机其实很朴素,就两个:

1. 隐私。

我平时用 Claude 和 GPT 处理很多工作内容,偶尔会涉及一些不便外传的代码片段或者设计思路。虽然 OpenAI 和 Anthropic 都声称不拿用户数据训练,但……你懂的,总归有点隐隐不安。

2. 钱。

API 调用费用不便宜。如果本地能跑起来,写脚本批量处理文档、自动生成代码注释这种任务,就完全不用掏钱了。

带着这两个动机,我开始了折腾之旅。


硬件配置

先交代一下我的硬件,因为后面很多坑跟配置有直接关系。

  • 笔记本:MacBook Pro M3 Max,48GB 统一内存
  • 台式机:Windows 11,i9-13900K,RTX 3090(24GB 显存),64GB 内存

两台机器都能跑,但体验差距很大——后面细说。


第一步:用 Ollama 跑起来

Ollama 是目前最顺滑的本地模型方案之一,安装简单,模型库也够丰富。在 Mac 上:

1
2
3
4
5
6
7
8
# 安装 Ollama
brew install ollama

# 拉取模型(以 llama3.1:8b 为例)
ollama pull llama3.1:8b

# 运行
ollama run llama3.1:8b

三步,就能在终端里跟模型对话了。

速度嘛……M3 Max 跑 8B 模型,大概每秒 35-40 个 token,流畅对话没问题。

我当时有点小激动:这就本地跑起来了?!

接着我又拉了 llama3.1:70b 试试。

这次等了将近 20 分钟下载,然后满怀期待地运行……

每秒大概 5-6 个 token。

说句实在话:跟它聊天就像和一个打字很慢的朋友发消息,看着光标一个字一个字蹦出来,我的耐心迅速消耗。


第二步:转战 Windows 台式机

Mac 没 GPU,推理靠 CPU 和统一内存,速度有上限。台式机有 RTX 3090,理论上快很多。

于是我把 Ollama 装到了 Windows 上。

这里踩了第一个坑:CUDA 版本冲突

我机器上有好几个版本的 CUDA 共存(分别是之前装各种深度学习框架留下来的),Ollama 运行时没有自动识别 GPU,一直走 CPU 推理。

排查了很久,最后发现是 PATH 里的 CUDA 路径混乱,把旧版本排在了前面。手动调整顺序,重启服务,才跑起来。

跑通之后,70B 模型的速度大约是每秒 15-20 个 token,比 Mac 快不少,但也远没有云端 API 那种秒回的流畅感。


第三步:接入工作流

光在终端里聊天意义不大。我想把本地模型接入实际工作流:

  1. 用 Open WebUI 做一个本地的”ChatGPT 界面”
  2. 用 Continue(VS Code 插件)做本地代码补全

Open WebUI 部分:Docker 一键跑起来,界面很漂亮,功能完整,甚至还能上传文档做 RAG。对话体验比终端好太多。

1
2
3
4
docker run -d -p 3000:8080 \
-v open-webui:/app/backend/data \
--name open-webui \
ghcr.io/open-webui/open-webui:main

Continue 代码补全部分:这里踩了第二个坑。

Continue 做代码补全时,每次触发都是一次完整推理请求。70B 模型每次补全要等 2-3 秒,比我自己手打还慢。

换成 8B 模型,速度是快了,但代码质量……说实话,差 Copilot 一截。


真实使用了两周之后

两周下来,我的感受:

好的地方:

  • 隐私确实保住了,再也不用纠结”这段代码能不能发给 API”
  • 一旦跑通,完全免费,批量任务成本为零
  • Ollama + Open WebUI 这套组合真的不难,体验超出预期

让我头疼的地方:

  • 速度差距是真实的。云端 API 的响应速度和生成质量,暂时还不是本地模型能平替的
  • 电费和噪音。台式机跑大模型,风扇声音不小,夏天房间温度也会上去
  • 维护成本。Ollama 需要定期更新,模型文件要手动管理,偶尔遇到问题要自己 debug
  • 质量落差。我在实际工作中对比过:同样的任务,Claude Sonnet 的回答明显比 LLaMA 3.1 70B 更准确、更有用

为什么最终还是关掉了

到了第三周,我做了一个很坦诚的账:

我为什么想要本地模型?
→ 隐私 + 省钱

实际情况是:
→ 涉密内容其实很少,大部分工作内容可以正常发给 API
→ Claude API 的月账单大概 200-300 元,并不是不可接受的数字

代价是什么?
→ 每次开机要记得启动 Ollama
→ 台式机风扇噪音影响专注
→ 代码补全反而更慢了
→ 我花了两周折腾这件事,时间成本远超 200 元

把账算完,我把台式机上的 Ollama 关掉了。

Mac 上的还留着,偶尔体验新模型用。


折腾之后我学到的东西

这次折腾没有白费,有几点真实的收获:

一、本地模型不是银弹,是工具

它适合特定场景:

  • 高隐私要求(法律、医疗等行业)
  • 批量处理任务(一次调用成千上万次)
  • 离线环境(网络限制的场合)

但对于我这种日常工作场景,云端 API 的性价比更高。

二、折腾本身有价值

我现在大概知道 LLM 推理是怎么回事:量化(Q4、Q8 是什么意思)、显存限制、上下文长度和速度的权衡……这些东西不折腾一遍,很难有直觉。

这种直觉在以后评估 AI 工具时会用到。

三、”免费”从来不是真的免费

本地跑模型省了 API 费用,但花了时间、电费、和一点点专注力。

时间是有成本的。


给想折腾的人几个建议

如果你也想试试,几个务实的建议:

  1. 先从 8B 模型开始,别上来就拉 70B。8B 模型速度可以接受,质量对于日常 QA 够用
  2. Mac M 系列跑起来最省事,没有 CUDA 的烦恼,统一内存跑中等模型挺顺畅
  3. Open WebUI 值得装,比终端聊天体验好太多
  4. 别把本地模型当 Copilot 替代品,代码补全这个场景本地模型暂时干不过专门优化的云端方案
  5. 先想清楚你的场景,再决定值不值得折腾

最后

我不是说本地模型没用,而是说:工具应该服务于需求,不是为了折腾而折腾。

两周折腾下来,我对 LLM 推理的理解加深了,这本身是有价值的。但如果让我重来一次,我可能会先把账算清楚再动手。

现在的状态:台式机的 Ollama 已经卸载了,MacBook 上留着 Ollama 跑几个小模型体验新东西,日常工作还是 Claude API 打主力。

这个组合对我来说是最顺手的。


你有没有折腾过本地大模型?踩了什么坑?欢迎在评论区聊聊。


我是怎么把本地 AI 模型跑起来的——以及为什么最终还是关掉了
https://www.ohtudou.top/2026/04/06/2026-04-06-local-llm-experiment/
作者
Tudo
发布于
2026年4月6日
许可协议