我是怎么把本地 AI 模型跑起来的——以及为什么最终还是关掉了

去年年底，身边一堆程序员朋友开始晒”本地跑大模型”的截图。

什么 Ollama 跑 LLaMA 3、Mistral 跑到本地、用 llama.cpp 把模型压缩到能在 MacBook 上推理……各种帖子满天飞，我看着看着，手痒了。

于是我也入坑了。

折腾了大约两周，跑通了，用了一段时间，然后……关掉了。

这篇文章就是把这个过程老老实实地记录下来，不只说结果，把中间那些弯路和心理活动也一起写出来。

为什么想折腾本地模型？

动机其实很朴素，就两个：

1. 隐私。

我平时用 Claude 和 GPT 处理很多工作内容，偶尔会涉及一些不便外传的代码片段或者设计思路。虽然 OpenAI 和 Anthropic 都声称不拿用户数据训练，但……你懂的，总归有点隐隐不安。

2. 钱。

API 调用费用不便宜。如果本地能跑起来，写脚本批量处理文档、自动生成代码注释这种任务，就完全不用掏钱了。

带着这两个动机，我开始了折腾之旅。

硬件配置

先交代一下我的硬件，因为后面很多坑跟配置有直接关系。

笔记本：MacBook Pro M3 Max，48GB 统一内存
台式机：Windows 11，i9-13900K，RTX 3090（24GB 显存），64GB 内存

两台机器都能跑，但体验差距很大——后面细说。

第一步：用 Ollama 跑起来

Ollama 是目前最顺滑的本地模型方案之一，安装简单，模型库也够丰富。在 Mac 上：

# 安装 Ollama
brew install ollama

# 拉取模型（以 llama3.1:8b 为例）
ollama pull llama3.1:8b

# 运行
ollama run llama3.1:8b

三步，就能在终端里跟模型对话了。

速度嘛……M3 Max 跑 8B 模型，大概每秒 35-40 个 token，流畅对话没问题。

我当时有点小激动：这就本地跑起来了？！

接着我又拉了 llama3.1:70b 试试。

这次等了将近 20 分钟下载，然后满怀期待地运行……

每秒大概 5-6 个 token。

说句实在话：跟它聊天就像和一个打字很慢的朋友发消息，看着光标一个字一个字蹦出来，我的耐心迅速消耗。

第二步：转战 Windows 台式机

Mac 没 GPU，推理靠 CPU 和统一内存，速度有上限。台式机有 RTX 3090，理论上快很多。

于是我把 Ollama 装到了 Windows 上。

这里踩了第一个坑：CUDA 版本冲突。

我机器上有好几个版本的 CUDA 共存（分别是之前装各种深度学习框架留下来的），Ollama 运行时没有自动识别 GPU，一直走 CPU 推理。

排查了很久，最后发现是 PATH 里的 CUDA 路径混乱，把旧版本排在了前面。手动调整顺序，重启服务，才跑起来。

跑通之后，70B 模型的速度大约是每秒 15-20 个 token，比 Mac 快不少，但也远没有云端 API 那种秒回的流畅感。

第三步：接入工作流

光在终端里聊天意义不大。我想把本地模型接入实际工作流：

用 Open WebUI 做一个本地的”ChatGPT 界面”
用 Continue（VS Code 插件）做本地代码补全

Open WebUI 部分：Docker 一键跑起来，界面很漂亮，功能完整，甚至还能上传文档做 RAG。对话体验比终端好太多。

docker run -d -p 3000:8080 \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

Continue 代码补全部分：这里踩了第二个坑。

Continue 做代码补全时，每次触发都是一次完整推理请求。70B 模型每次补全要等 2-3 秒，比我自己手打还慢。

换成 8B 模型，速度是快了，但代码质量……说实话，差 Copilot 一截。

真实使用了两周之后

两周下来，我的感受：

好的地方：

隐私确实保住了，再也不用纠结”这段代码能不能发给 API”
一旦跑通，完全免费，批量任务成本为零
Ollama + Open WebUI 这套组合真的不难，体验超出预期

让我头疼的地方：

速度差距是真实的。云端 API 的响应速度和生成质量，暂时还不是本地模型能平替的
电费和噪音。台式机跑大模型，风扇声音不小，夏天房间温度也会上去
维护成本。Ollama 需要定期更新，模型文件要手动管理，偶尔遇到问题要自己 debug
质量落差。我在实际工作中对比过：同样的任务，Claude Sonnet 的回答明显比 LLaMA 3.1 70B 更准确、更有用

为什么最终还是关掉了

到了第三周，我做了一个很坦诚的账：

我为什么想要本地模型？
→ 隐私 + 省钱

实际情况是：
→ 涉密内容其实很少，大部分工作内容可以正常发给 API
→ Claude API 的月账单大概 200-300 元，并不是不可接受的数字

代价是什么？
→ 每次开机要记得启动 Ollama
→ 台式机风扇噪音影响专注
→ 代码补全反而更慢了
→ 我花了两周折腾这件事，时间成本远超 200 元

把账算完，我把台式机上的 Ollama 关掉了。

Mac 上的还留着，偶尔体验新模型用。

折腾之后我学到的东西

这次折腾没有白费，有几点真实的收获：

一、本地模型不是银弹，是工具

它适合特定场景：

高隐私要求（法律、医疗等行业）
批量处理任务（一次调用成千上万次）
离线环境（网络限制的场合）

但对于我这种日常工作场景，云端 API 的性价比更高。

二、折腾本身有价值

我现在大概知道 LLM 推理是怎么回事：量化（Q4、Q8 是什么意思）、显存限制、上下文长度和速度的权衡……这些东西不折腾一遍，很难有直觉。

这种直觉在以后评估 AI 工具时会用到。

三、”免费”从来不是真的免费

本地跑模型省了 API 费用，但花了时间、电费、和一点点专注力。

时间是有成本的。

给想折腾的人几个建议

如果你也想试试，几个务实的建议：

先从 8B 模型开始，别上来就拉 70B。8B 模型速度可以接受，质量对于日常 QA 够用
Mac M 系列跑起来最省事，没有 CUDA 的烦恼，统一内存跑中等模型挺顺畅
Open WebUI 值得装，比终端聊天体验好太多
别把本地模型当 Copilot 替代品，代码补全这个场景本地模型暂时干不过专门优化的云端方案
先想清楚你的场景，再决定值不值得折腾

最后

我不是说本地模型没用，而是说：工具应该服务于需求，不是为了折腾而折腾。

两周折腾下来，我对 LLM 推理的理解加深了，这本身是有价值的。但如果让我重来一次，我可能会先把账算清楚再动手。

现在的状态：台式机的 Ollama 已经卸载了，MacBook 上留着 Ollama 跑几个小模型体验新东西，日常工作还是 Claude API 打主力。

这个组合对我来说是最顺手的。

你有没有折腾过本地大模型？踩了什么坑？欢迎在评论区聊聊。

程序员生活

#AI工具 #Ollama #本地大模型 #LLM #程序员随笔

我是怎么把本地 AI 模型跑起来的——以及为什么最终还是关掉了

https://www.ohtudou.top/2026/04/06/2026-04-06-local-llm-experiment/

作者

Tudo

发布于

2026年4月6日

许可协议

张雪机车刷屏，我想聊的不是热爱，是专注下一篇