本地运行开源大语言模型的最简方案 — 一行命令跑起来,支持 Mac/Windows/Linux 全平台
Ollama 把"在本地跑大模型"这件事的门槛降到了极致——一条命令装好,第二条命令直接开聊。它本质上是一个本地的 LLM 运行容器,把模型权重、推理引擎、API 服务全部打包,让开发者能专注于应用层,而不是折腾环境。
2026 年 Ollama 的更新节奏明显加快。从 v0.20 到 v0.22,每个版本都有实质内容:MLX 后端让 Mac 用户获得接近翻倍的速度提升;Nemotron 3 Omni 的加入补上了多模态短板;Agent 方向的布局(Hermes、OpenClaw)让 Ollama 不再只是一个"模型运行器",而逐渐成为一个本地 AI 基础设施平台。
顺带一提,Ollama 的 GitHub 仓库曾经因为名字过于通用(ollama/ollama)被吐槽,但现在这个名字的认知度已经高到没人会混淆了。
Ollama 的安装不需要 Conda、不需要 pip、不需要手动下载权重文件。macOS 和 Linux 一条 curl 命令搞定,Windows 用 PowerShell 一行同样搞定。装完后 ollama run llama3 就能直接开聊,模型会自动下载到本地缓存目录。
curl -fsSL https://ollama.com/install.sh | sh
irm https://ollama.com/install.ps1 | iex
ollama run llama3 # Meta Llama 3
ollama run qwen2.5:7b # 通义千问 2.5
ollama run deepseek-r1 # DeepSeek R1
ollama run gemma3 # Google Gemma 3
Ollama 启动后会自动在 localhost:11434 暴露一套与 OpenAI API 兼容的接口。这意味着你之前写的调用 GPT-4 的代码,只需要改一下 base URL 和模型名,就能无缝切换到本地模型,不需要改业务逻辑。
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama" # 任意值均可
)
response = client.chat.completions.create(
model="llama3",
messages=[{"role": "user", "content": "解释一下量子纠缠"}]
)
print(response.choices[0].message.content)
import OpenAI from "openai";
const client = new OpenAI({
baseURL: "http://localhost:11434/v1",
apiKey: "ollama",
});
const res = await client.chat.completions.create({
model: "qwen2.5:7b",
messages: [{ role: "user", content: "用一句话介绍厦门" }],
});
console.log(res.choices[0].message.content);
Ollama 维护了一个官方模型库(ollama.com/library),涵盖对话、代码生成、嵌入、多模态等各方向。以下列出 2026 年最值得关注的一批模型:
| 模型 | 类型 | 大小 | 显存需求 | 亮点 |
|---|---|---|---|---|
| Llama 3.3 / 4 | 对话 | 8B~405B | 6GB~ | Meta 旗舰,综合能力强 |
| Qwen 3.6 / 3.5 | 对话/代码 | 0.6B~235B | 4GB~ | 中文天花板,指令遵循好 |
| DeepSeek R1 / V3 | 推理/对话 | 7B~671B | 8GB~ | 推理能力突出,性价比极高 |
| Gemma 4 | 对话/工具调用 | 27B | 16GB | 工具调用稳定,支持结构化输出 |
| Kimi K2.6 | 对话/长上下文 | 9B~ | 8GB~ | 月之暗面,长文档处理强 |
| GLM 5.1 | 对话/代码 | 4B~ | 6GB~ | 智谱 AI,代码和推理并重 |
| Nemotron 3 Omni | 多模态 | ~10GB+ | 8GB+ | NVIDIA 出品,支持图文理解 |
| Poolside Laguna XS.2 | 代码补全 | ~3-4GB | 4GB | 轻量,专注代码生成 |
| MiniMax M2.7 | 对话 | 7B~ | 8GB~ | 出海表现好,多语言支持 |
Ollama 引入了 Modelfile 的概念,让你可以在不重训模型的前提下定制系统提示词、温度参数、上下文长度等。它和 Dockerfile 的思路如出一辙:写一个配置文件,然后 build 出一个"定制版模型"。
FROM qwen2.5:7b
# 设置系统角色
SYSTEM "你是一个专注于 Python 代码审查的助手,请严格检查代码质量。"
# 参数调整
PARAMETER temperature 0.2
PARAMETER num_ctx 4096
# 注入知识库(可选)
# ADAPTER ./lora_adapter.bin
ollama create my-code-reviewer -f Modelfile
ollama run my-code-reviewer "帮我审查这段 Python 代码..."
从时间线可以看出,Ollama 2026 年春季的更新主要围绕三条主线:Apple Silicon 性能优化(MLX 后端)、Agent 生态布局(Hermes、OpenClaw)、新模型快速集成(几乎每个主流新模型发布后一周内就能在 Ollama 上拉到)。
Ollama 本身是用 Go 写的,负责模型管理、API 服务、命令行交互这些"上层"事情。实际的模型推理走的是底层 C/C++ 引擎,目前主要用 llama.cpp,在 Apple Silicon 上还可以切到 MLX 后端。
MLX 是 Apple 自己出的机器学习框架,专门针对 Apple Silicon(M1/M2/M3/M4/M5)芯片优化。Ollama 从 v0.21.0 开始原生支持 MLX 后端,在 Mac 上的推理性能提升非常明显。
| 指标 | llama.cpp(旧) | MLX 后端(新) | 提升幅度 |
|---|---|---|---|
| 提示词处理速度 | 基准 | ↑ 1.6x | +60% |
| 响应生成速度 | 基准 | ↑ ~2x | +100% |
| 采样速度(v0.21.1+) | 基准 | ↑ 17%+ | +17% |
| 显存占用 | 基准 | 优化 | 更低 |
| M5 神经网络加速器 | 不支持 | 支持 | 新芯片适配 |
如果你在用 Mac 做本地 AI 开发,升级到 Ollama v0.21.1+ 是绝对值得的,不需要改任何代码,性能提升是"白给"的。
curl -fsSL https://ollama.com/install.sh | shbrew install ollamairm https://ollama.com/install.ps1 | iexcurl -fsSL https://ollama.com/install.sh | shdocker run -p 11434:11434 ollama/ollama
| 命令 | 说明 |
|---|---|
ollama serve | 启动 Ollama 服务(API 模式) |
ollama run <model> | 运行指定模型(无则自动拉取) |
ollama pull <model> | 仅拉取模型,不运行 |
ollama list | 列出本地已拉取的模型 |
ollama rm <model> | 删除本地模型 |
ollama show <model> | 查看模型详细信息 |
ollama create <name> -f Modelfile | 从 Modelfile 构建定制模型 |
ollama launch <tool> | 启动集成工具(如 openclaw、copilot-cli) |
ollama ps | 查看当前运行的模型进程 |
| 硬件配置 | 运行模型 | Token/s(生成) | 体验评价 |
|---|---|---|---|
| MacBook M4 Pro 48GB | Qwen2.5:32b | ~45-60 | 流畅,日常可用 |
| MacBook M3 Air 16GB | Qwen2.5:7b | ~60-80 | 非常流畅 |
| MacBook M1 8GB | Llama3.2:3b | ~30-40 | 可用,略慢 |
| RTX 4090 (24GB) | Llama3.3:70b (Q4) | ~35-50 | 非常流畅 |
| RTX 3060 (12GB) | Qwen2.5:14b | ~25-35 | 可用 |
| 无 GPU (CPU only) | Llama3.2:3b | ~10-15 | 较慢,仅适合测试 |
以上数据来自社区测试汇总。实际速度受 num_ctx(上下文长度)、temperature、批处理大小等参数影响。想要更准确的数字,建议用 ollama run <model> --verbose 在实际硬件上跑一下。
根据社区测试(2026 年 4 月数据),在 M3 MacBook Air 上运行 Gemma 4 27B 模型:
生成速度直接翻倍。更关键的是,MLX 后端的显存管理更高效,同样的内存可以跑更大的模型,或者同样的模型可以有更长的上下文窗口。
Ollama 的核心优势之一是其庞大的集成生态,以下是社区中最主流的集成方向。
ollama launch openclaw 一键配置,内置 Web Search 能力。ollama launch hermes 快速接入。ollama launch copilot-cli 配置。Ollama 最直接的竞争对手是 LM Studio、GPT4All 和 llama.cpp。以下从多个维度横向对比。
| 对比维度 | Ollama | LM Studio | GPT4All | llama.cpp |
|---|---|---|---|---|
| 界面形式 | 命令行 + API | 图形界面 | 图形界面 | 命令行 |
| 开源协议 | MIT 开源 | 闭源 | 开源 | MIT 开源 |
| 支持平台 | 全平台 | macOS / Windows | 全平台 | 全平台 |
| OpenAI 兼容 API | ✅ 内置 | ✅ 可开启 | ❌ 不支持 | 需自行搭建 |
| Apple Silicon 优化 | MLX 后端(v0.21+) | Metal 加速 | 基础支持 | Metal 支持 |
| 多模态支持 | ✅(Nemotron 3 Omni 等) | ✅ | ❌ | 需 LLaVA 等 |
| Agent 生态 | Hermes / OpenClaw | 较弱 | 无 | 需自行集成 |
| 易用性 | 命令行,稍有门槛 | 非常友好 | 非常友好 | 需要编译 |
| 低配电脑友好 | 推荐有 GPU | 推荐有 GPU | CPU 优化 | 看配置 |
| 模型库丰富度 | 170+ 官方库 | HuggingFace 集成 | 有限 | 手动下载 |
如果你想要最简单的方式快速把本地模型跑起来,Ollama 是目前最好的选择。它的命令行界面对非技术用户可能有点门槛,但一旦跑通,后续的 API 集成、Agent 对接都异常顺畅。
如果你完全不想碰命令行,LM Studio 的图形界面更友好,模型搜索和下载体验也更直观。但它是闭源的,而且没有 Linux 版本。
如果你电脑没有独立显卡,GPT4All 的 CPU 优化做得最好,3-4GB 的小模型在普通笔记本上也能跑得动。
如果你需要极致性能或嵌入式部署,llama.cpp 是推理引擎的"底层基石",Ollama 本身也是基于它的,但直接用 llama.cpp 可以做更底层的优化。