GitHub 趋势 · AI 基础设施赛道

Ollama

本地运行开源大语言模型的最简方案 — 一行命令跑起来,支持 Mac/Windows/Linux 全平台

LLM 部署 本地推理 OpenAI 兼容 API Apple MLX 加速 多模态支持 Agent 生态
170K+
GitHub Stars
15.9K
Forks
v0.22.0
最新版本
170+
支持模型
⭐ 综合评分 9.0 / 10
📋 目录

项目概览

GitHub Stars
170,578
↑ 近月持续上涨
Forks
15,942
社区活跃度高
主要语言
Go
+ C/C++ 推理引擎
最新版本
v0.22.0
2026-04-28 发布
支持平台
全平台
macOS / Windows / Linux
开放协议
MIT
完全开源免费

Ollama 把"在本地跑大模型"这件事的门槛降到了极致——一条命令装好,第二条命令直接开聊。它本质上是一个本地的 LLM 运行容器,把模型权重、推理引擎、API 服务全部打包,让开发者能专注于应用层,而不是折腾环境。

2026 年 Ollama 的更新节奏明显加快。从 v0.20 到 v0.22,每个版本都有实质内容:MLX 后端让 Mac 用户获得接近翻倍的速度提升;Nemotron 3 Omni 的加入补上了多模态短板;Agent 方向的布局(Hermes、OpenClaw)让 Ollama 不再只是一个"模型运行器",而逐渐成为一个本地 AI 基础设施平台。

顺带一提,Ollama 的 GitHub 仓库曾经因为名字过于通用(ollama/ollama)被吐槽,但现在这个名字的认知度已经高到没人会混淆了。

核心功能

🚀
极简部署体验
一行安装,一行运行

Ollama 的安装不需要 Conda、不需要 pip、不需要手动下载权重文件。macOS 和 Linux 一条 curl 命令搞定,Windows 用 PowerShell 一行同样搞定。装完后 ollama run llama3 就能直接开聊,模型会自动下载到本地缓存目录。

安装(macOS / Linux)
curl -fsSL https://ollama.com/install.sh | sh
安装(Windows PowerShell)
irm https://ollama.com/install.ps1 | iex
拉取并运行模型
ollama run llama3        # Meta Llama 3
ollama run qwen2.5:7b  # 通义千问 2.5
ollama run deepseek-r1   # DeepSeek R1
ollama run gemma3       # Google Gemma 3
🖥️
OpenAI 兼容 API
无缝对接现有代码

Ollama 启动后会自动在 localhost:11434 暴露一套与 OpenAI API 兼容的接口。这意味着你之前写的调用 GPT-4 的代码,只需要改一下 base URL 和模型名,就能无缝切换到本地模型,不需要改业务逻辑。

Python 调用示例
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # 任意值均可
)

response = client.chat.completions.create(
    model="llama3",
    messages=[{"role": "user", "content": "解释一下量子纠缠"}]
)
print(response.choices[0].message.content)
JavaScript 调用示例
import OpenAI from "openai";

const client = new OpenAI({
  baseURL: "http://localhost:11434/v1",
  apiKey: "ollama",
});

const res = await client.chat.completions.create({
  model: "qwen2.5:7b",
  messages: [{ role: "user", content: "用一句话介绍厦门" }],
});
console.log(res.choices[0].message.content);
🧠
丰富的模型库
170+ 模型一键拉取

Ollama 维护了一个官方模型库(ollama.com/library),涵盖对话、代码生成、嵌入、多模态等各方向。以下列出 2026 年最值得关注的一批模型:

模型类型大小显存需求亮点
Llama 3.3 / 4对话8B~405B6GB~Meta 旗舰,综合能力强
Qwen 3.6 / 3.5对话/代码0.6B~235B4GB~中文天花板,指令遵循好
DeepSeek R1 / V3推理/对话7B~671B8GB~推理能力突出,性价比极高
Gemma 4对话/工具调用27B16GB工具调用稳定,支持结构化输出
Kimi K2.6对话/长上下文9B~8GB~月之暗面,长文档处理强
GLM 5.1对话/代码4B~6GB~智谱 AI,代码和推理并重
Nemotron 3 Omni多模态~10GB+8GB+NVIDIA 出品,支持图文理解
Poolside Laguna XS.2代码补全~3-4GB4GB轻量,专注代码生成
MiniMax M2.7对话7B~8GB~出海表现好,多语言支持
🔧
Modelfile —— 模型定制
类似 Dockerfile 的模型配置方式

Ollama 引入了 Modelfile 的概念,让你可以在不重训模型的前提下定制系统提示词、温度参数、上下文长度等。它和 Dockerfile 的思路如出一辙:写一个配置文件,然后 build 出一个"定制版模型"。

Modelfile 示例
FROM qwen2.5:7b

# 设置系统角色
SYSTEM "你是一个专注于 Python 代码审查的助手,请严格检查代码质量。"

# 参数调整
PARAMETER temperature 0.2
PARAMETER num_ctx 4096

# 注入知识库(可选)
# ADAPTER ./lora_adapter.bin
构建并使用定制模型
ollama create my-code-reviewer -f Modelfile
ollama run my-code-reviewer "帮我审查这段 Python 代码..."

版本演进(2026 年关键更新)

v0.22.0 2026-04-28
新增 NVIDIA Nemotron 3 Omni 多模态模型(支持文本+图像理解)和 Poolside Laguna XS.2 编程专用模型。多模态能力正式进入 Ollama 核心支持范围。
v0.21.2 2026-04-25
OpenClaw 集成加固:onboarding 流程更可靠,web search 改为 Ollama 内置 provider,不再依赖外部插件。修复 managed integration 配置漂移问题。
v0.21.1 2026-04-23
集成 Kimi CLI(月之暗面 K2.6 命令行工具)。MLX 采样速度提升 17%+。新增 logprobs 支持。修复 macOS 模型选择器及 Gemma 4 结构化输出 Bug。
v0.21.0 2026-04-18
Apple Silicon Mac 通过 MLX 后端支持 Gemma 4,推理速度大幅提升。Hermes Agent 一键配置接入。GitHub Copilot CLI 集成。Launch 命令配置体验优化。
v0.20.6 2026-04-13
优化 Gemma 4 工具调用能力与稳定性,提升并行工具调度效率,补充 Hermes Agent 官方文档。
v0.20.2 2026-04-04
桌面应用默认首页从"启动页"改为"新建对话"界面,减少操作步骤,提升首次使用体验。

从时间线可以看出,Ollama 2026 年春季的更新主要围绕三条主线:Apple Silicon 性能优化(MLX 后端)、Agent 生态布局(Hermes、OpenClaw)、新模型快速集成(几乎每个主流新模型发布后一周内就能在 Ollama 上拉到)。

技术架构

⚙️
整体架构
Go 前端 + 原生推理后端

Ollama 本身是用 Go 写的,负责模型管理、API 服务、命令行交互这些"上层"事情。实际的模型推理走的是底层 C/C++ 引擎,目前主要用 llama.cpp,在 Apple Silicon 上还可以切到 MLX 后端。

Go 前端层
• REST API 服务(端口 11434)
• 命令行 CLI
• 模型拉取与版本管理
• Modelfile 解析与构建
• 多模型并发调度
推理后端
llama.cpp:CPU/GPU 通用,支持多平台
MLX:Apple Silicon 专用,速度最快
• 自动选择最优后端(Mac 优先 MLX)
• 支持 CUDA / ROCm / Metal 加速
🍎
MLX 后端 —— Mac 用户的福音
Apple 官方机器学习框架,Ollama v0.21.0+ 原生支持

MLX 是 Apple 自己出的机器学习框架,专门针对 Apple Silicon(M1/M2/M3/M4/M5)芯片优化。Ollama 从 v0.21.0 开始原生支持 MLX 后端,在 Mac 上的推理性能提升非常明显。

指标llama.cpp(旧)MLX 后端(新)提升幅度
提示词处理速度基准↑ 1.6x+60%
响应生成速度基准↑ ~2x+100%
采样速度(v0.21.1+)基准↑ 17%++17%
显存占用基准优化更低
M5 神经网络加速器不支持支持新芯片适配

如果你在用 Mac 做本地 AI 开发,升级到 Ollama v0.21.1+ 是绝对值得的,不需要改任何代码,性能提升是"白给"的。

安装与使用指南

📥
各平台安装
官方脚本一键安装
🍎
macOS
curl -fsSL https://ollama.com/install.sh | sh

或通过 Homebrew:brew install ollama

也支持手动下载 DMG 安装包。
🪟
Windows
irm https://ollama.com/install.ps1 | iex

或下载 EXE 安装包:
ollama.com/download/OllamaSetup.exe

需要 WSL2(推荐)或原生 Windows。
🐧
Linux
curl -fsSL https://ollama.com/install.sh | sh

支持 GPU 加速(NVIDIA CUDA / AMD ROCm)。

也支持 Docker 部署:
docker run -p 11434:11434 ollama/ollama
💻
常用命令速查
日常使用必备
命令说明
ollama serve启动 Ollama 服务(API 模式)
ollama run <model>运行指定模型(无则自动拉取)
ollama pull <model>仅拉取模型,不运行
ollama list列出本地已拉取的模型
ollama rm <model>删除本地模型
ollama show <model>查看模型详细信息
ollama create <name> -f Modelfile从 Modelfile 构建定制模型
ollama launch <tool>启动集成工具(如 openclaw、copilot-cli)
ollama ps查看当前运行的模型进程

性能表现

📊
不同硬件配置下的推理速度参考
数值为大致范围,实际表现因模型大小和参数而异
硬件配置运行模型Token/s(生成)体验评价
MacBook M4 Pro 48GBQwen2.5:32b~45-60流畅,日常可用
MacBook M3 Air 16GBQwen2.5:7b~60-80非常流畅
MacBook M1 8GBLlama3.2:3b~30-40可用,略慢
RTX 4090 (24GB)Llama3.3:70b (Q4)~35-50非常流畅
RTX 3060 (12GB)Qwen2.5:14b~25-35可用
无 GPU (CPU only)Llama3.2:3b~10-15较慢,仅适合测试

以上数据来自社区测试汇总。实际速度受 num_ctx(上下文长度)、temperature、批处理大小等参数影响。想要更准确的数字,建议用 ollama run <model> --verbose 在实际硬件上跑一下。

MLX 加速实测
Apple Silicon 上的性能飞跃

根据社区测试(2026 年 4 月数据),在 M3 MacBook Air 上运行 Gemma 4 27B 模型:

llama.cpp 后端
~22 tok/s
提示词处理:~150 tok/s
MLX 后端(v0.21+)
~42 tok/s
提示词处理:~240 tok/s

生成速度直接翻倍。更关键的是,MLX 后端的显存管理更高效,同样的内存可以跑更大的模型,或者同样的模型可以有更长的上下文窗口。

集成生态

Ollama 的核心优势之一是其庞大的集成生态,以下是社区中最主流的集成方向。

🤖
AI Agent 与编程助手集成
Ollama v0.21 重点发力的方向
🦞
OpenClaw
个人 AI 助手,支持 WhatsApp/Telegram/Discord 等多平台。ollama launch openclaw 一键配置,内置 Web Search 能力。
🧠
Hermes Agent
Nous Research 出品的自我进化 Agent,支持技能自动创建、记忆沉淀。ollama launch hermes 快速接入。
🐙
GitHub Copilot CLI
命令行 AI 助手,用自然语言描述需求,自动生成 shell 命令。ollama launch copilot-cli 配置。
💻
Claude Code / Codex
主流 AI 编码工具均可通过 Ollama 本地模型驱动,减少对云端 API 的依赖。
🖥️
聊天界面与 IDE 插件
50+ 社区客户端可选
🌐 Web 聊天界面
• Open WebUI(最流行)
• LibreChat
• Lobe Chat
• NextChat
• AnythingLLM
• Cherry Studio
💻 IDE 插件
• Cline(VS Code,最强功能)
• Continue(多 IDE 支持)
• Void(Cursor 替代品)
• Emacs / Sublime Text 插件
📚 RAG / 知识库
• RAGFlow
• R2R
• MaxKB
• Minima
🏗️ 开发框架
• LangChain(Python/JS)
• LlamaIndex
• Semantic Kernel
• Spring AI
• AutoGPT / CrewAI

竞品对比

Ollama 最直接的竞争对手是 LM Studio、GPT4All 和 llama.cpp。以下从多个维度横向对比。

对比维度 Ollama LM Studio GPT4All llama.cpp
界面形式 命令行 + API 图形界面 图形界面 命令行
开源协议 MIT 开源 闭源 开源 MIT 开源
支持平台 全平台 macOS / Windows 全平台 全平台
OpenAI 兼容 API ✅ 内置 ✅ 可开启 ❌ 不支持 需自行搭建
Apple Silicon 优化 MLX 后端(v0.21+) Metal 加速 基础支持 Metal 支持
多模态支持 ✅(Nemotron 3 Omni 等) 需 LLaVA 等
Agent 生态 Hermes / OpenClaw 较弱 需自行集成
易用性 命令行,稍有门槛 非常友好 非常友好 需要编译
低配电脑友好 推荐有 GPU 推荐有 GPU CPU 优化 看配置
模型库丰富度 170+ 官方库 HuggingFace 集成 有限 手动下载

如何选择?

如果你想要最简单的方式快速把本地模型跑起来,Ollama 是目前最好的选择。它的命令行界面对非技术用户可能有点门槛,但一旦跑通,后续的 API 集成、Agent 对接都异常顺畅。

如果你完全不想碰命令行,LM Studio 的图形界面更友好,模型搜索和下载体验也更直观。但它是闭源的,而且没有 Linux 版本。

如果你电脑没有独立显卡,GPT4All 的 CPU 优化做得最好,3-4GB 的小模型在普通笔记本上也能跑得动。

如果你需要极致性能或嵌入式部署,llama.cpp 是推理引擎的"底层基石",Ollama 本身也是基于它的,但直接用 llama.cpp 可以做更底层的优化。

适用场景与局限性

最适合的场景
💬 私域对话 / 敏感数据
数据不能出本地环境(企业内部、医疗、法律等场景),Ollama 的完全离线能力是刚需。
🔧 开发环境 / 降低 API 成本
开发阶段用本地模型调试,上线切回云端 API;或者完全用本地模型替代 OpenAI API 以节省费用。
🤖 本地 AI Agent
配合 Hermes Agent 或 OpenClaw,在本地运行完整的 AI Agent 工作流,数据不出本机。
📚 RAG / 知识库问答
结合 RAGFlow、AnythingLLM 等工具,搭建本地知识库问答系统,企业文档不外流。
⚠️
当前局限性
🔴 无原生图形界面
纯命令行操作对普通用户有门槛,需要配合 Open WebUI 等第三方界面使用。
🔴 多模型并行能力有限
同时加载多个大模型对显存要求高,Ollama 目前没有特别智能的模型切换/卸载策略。
🔴 高级参数调优空间有限
相比直接用 llama.cpp 或 vLLM,Ollama 的参数调节选项相对简化,不适合需要精细调参的研究场景。
🔴 Ollama Cloud 限制
云端版本(Ollama Cloud)目前不支持结构化输出(structured outputs),本地版本无此限制。

综合评分

易用性
9.2
性能表现
8.8
模型丰富度
9.5
集成生态
9.3
文档质量
8.5
跨平台支持
9.0
开源友好度
9.7
Agent 能力
8.8
9.0
综合评分(满分 10 分)
Ollama 在易用性、模型丰富度、集成生态三个核心维度表现突出,是个人开发者和中小团队本地部署大模型的首选方案。Apple Silicon 的 MLX 加速让 Mac 用户体验大幅领先,Agent 生态的布局也让它有别于同类工具,正在从"模型运行器"向"本地 AI 平台"演进。

参考链接