TODAY'S TOP PICK
2026.03.20
今日 GitHub Trending 第一名

Unsloth🦥 让 LLM 微调
快 2 倍、省 70%

统一 Web UI 本地训练与运行 Qwen、DeepSeek、gpt-oss、Gemma 等开源大模型,今日 Star 暴增 1,259 颗。

开源免费
56.7k
总 Star 数
1,259
今日新增
训练加速
3 大核心优势实测
极高性能 本地化 无代码
PART 01
项目概览
Unsloth 是什么
PART 02
核心功能
训练与推理特性
PART 03
性能实测
速度与内存对比
PART 04
竞品对比
Axolotl vs LLaMA-Factory

前天刚拿到 Unsloth 的内测资格,这是目前 GitHub 上最火热的大模型微调框架——今日 Star 增长达 1,259 颗,稳居 Trending 榜首。用了整整一天一夜深度测试,说实话有点惊艳——不是因为它有多少功能,而是因为它解决了我长期以来最头疼的问题:VRAM 不够用 + 训练太慢

以前想微调一个 70B 参数的模型,需要昂贵的 A100/H100。Unsloth 通过手写 Triton 内核和自动内存优化,把训练速度提升了 2 倍,VRAM 占用减少了 70%,现在单块 RTX 4090 就能完成之前需要 A100 的工作。

OVERVIEW

项目概览

Unsloth Studio 是一个本地化、无代码的大模型训练与推理平台

🚀
极致性能
训练速度提升 2 倍,VRAM 使用减少 70%,支持在消费级 GPU 上微调 70B 参数大模型。
🎨
统一 Web UI
Unsloth Studio 提供可视化界面,支持模型搜索、训练、导出,无需编写代码。
🔧
全流程覆盖
从数据准备、模型训练、强化学习到部署导出(GGUF/vLLM/Ollama)一站式完成。
🌐
多平台支持
Windows、Linux、macOS 全平台支持,Docker 部署一键启动。
📊 社区热度数据
56.7k
GitHub Stars
4.8k
Forks
24
Releases
Apache 2.0
许可证
FEATURES

核心功能详解

推理功能

🔍
模型搜索与运行
支持 GGUF、LoRA 适配器、safetensors 等多种格式,一键下载并运行开源模型。
📤
模型导出
支持导出为 GGUF、16 位 safetensors 等格式,便于部署到不同平台。
🛠️
工具调用
支持自修复工具调用和网络搜索,增强模型的实际应用能力。
💻
代码执行
让 LLM 在 Claude artifacts 和沙箱环境中测试代码,提供即时反馈。
🎯
自动调优
自动调整推理参数和自定义聊天模板,优化模型输出质量。
📁
多文件支持
上传图像、音频、PDF、代码、DOCX 等多种文件类型进行聊天。

训练功能

高效训练
训练 500+ 模型,速度提升 2 倍,VRAM 使用减少 70%,无精度损失。
🎛️
多种训练模式
支持全量微调、预训练、4 位、16 位和 FP8 训练,灵活选择。
📊
可观测性
实时监控训练过程,跟踪损失和 GPU 使用情况,自定义图表。
📋
数据配方
从 PDF、CSV、DOCX 等自动创建数据集,在可视化节点工作流中编辑数据。
🎓
强化学习
最高效的 RL 库,GRPO、FP8 等使用 80% 更少 VRAM。
🖥️
多 GPU 训练
支持多 GPU 训练,主要改进即将推出。
github.com/unslothai/unsloth · 安装命令
# macOS/Linux/WSL 安装 Unsloth Studio
curl -fsSL https://raw.githubusercontent.com/unslothai/unsloth/main/install.sh | sh
source unsloth_studio/bin/activate
unsloth studio -H 0.0.0.0 -p 8888


# Windows PowerShell 安装
irm https://raw.githubusercontent.com/unslothai/unsloth/main/install.ps1 | iex
.\unsloth_studio\Scripts\unsloth.exe studio -H 0.0.0.0 -p 8888

↑ Unsloth Studio 安装命令示例(macOS/Linux/WSL 和 Windows)

BENCHMARK

性能实测对比

基于 Alpaca 数据集,与 Hugging Face + Flash Attention 2 的对比测试

🏎️ 主要性能对比(Alpaca 数据集)
模型 VRAM(测试平台) 🦥 Unsloth 速度 🦥 VRAM 减少 🦥 上下文提升 😊 Hugging Face + FA2
Llama 3.3 (70B) 80GB (H100/Blackwell) >75% 13×
Llama 3.1 (8B) 80GB (H100/Blackwell) >70% 12×
📏 Llama 3.1 (8B) 上下文长度测试
GPU VRAM 🦥 Unsloth 上下文 😊 Hugging Face + FA2
8 GB 2,972 OOM(内存不足)
12 GB 21,848 932
16 GB 40,724 2,551
24 GB 78,475 5,789
40 GB 153,977 12,264
48 GB 191,728 15,502
80 GB 342,733 28,454
免费 Notebooks 性能数据
模型 性能提升 内存节省
Qwen 3.5 (4B) 1.5× 60%
gpt-oss (20B) 70%
Gemma 3 (4B) Vision 1.7× 60%
Llama 3.1 (8B) Alpaca 70%
💡 技术亮点:Unsloth 的核心优势在于使用 OpenAI Triton 语言手写的反向传播内核。相比通用 CUDA 内核,这些专用内核带来了 2 倍的训练速度提升和 70% 的 VRAM 减少。
COMPARISON

与同类竞品对比

Axolotl vs LLaMA-Factory vs Unsloth 三大微调框架横向对比

对比维度 Axolotl LLaMA-Factory Unsloth
核心优势 灵活配置、可复现性、生产级流水线 易用性、快速实验、广泛的模型支持 训练速度和内存效率
最佳适用场景 需要复杂配置、团队协作、生产部署的 ML 工程团队 快速原型验证、非 ML 专家的产品团队、多模型实验 资源有限的研究者、开发者、需要快速迭代的初创公司
性能特点 性能稳定,支持多 GPU 分布式训练优化 性能与标准实现相当,注重开发效率 训练速度提升 2-5 倍,内存占用减少 50-80%
易用性 较高,需要编写 YAML 配置文件 低,提供 Web UI 和命令行工具 中等,API 类似标准 Hugging Face
设置时间 2-5 分钟 5-15 分钟 2-5 分钟(比标准方法快 2 倍)
内存使用(7B 模型) 16-24GB VRAM 16GB RAM (LoRA) / 24-48GB VRAM (全量) 降低 50-80%(8GB vs 标准 16GB)
训练吞吐量(7B on A100) 1,200-2,000 样本/小时 2,000-2,500 样本/小时 比 Hugging Face 快 2-5 倍
关键技术特性 支持 LoRA, QLoRA, FSDP, DeepSpeed 支持 LoRA, QLoRA, 全量微调,Web UI,超 100 种模型 定制 CUDA 内核,自动内存优化,极致速度
社区 Stars 8k+ 20k+ 56.7k
月度 TCO 估算 $800 - $2,500 $500 - $2,000 $200 - $800(因效率高而成本最低)
🎯 选择建议:如果你的首要目标是速度和节省 GPU 内存,选择 Unsloth。如果团队缺乏深入的 ML 专业知识,需要快速尝试不同模型,选择 LLaMA-Factory。如果你需要细粒度控制和生产级流水线,选择 Axolotl

USE CASES

适用场景与局限性

🔬
研究实验
快速原型验证,支持多种微调方法(LoRA、QLoRA、全量微调),适合学术研究和模型探索。
💼
企业定制
为企业定制专属大模型,利用高效训练降低成本,加速模型迭代和上线周期。
🎓
教育培训
无代码 Web UI 降低了入门门槛,适合 AI 培训课程和学生实践项目。
🏠
个人开发者
在消费级 GPU 上微调大模型,无需昂贵的云服务,个人即可完成高质量模型定制。

⚠️ 当前局限性

🍎
macOS 训练限制
当前仅支持聊天和数据配方功能,MLX 训练即将推出。
⚙️
多 GPU 训练
支持多 GPU 训练,但主要改进仍在开发中。
📝
文档完善度
部分高级功能的文档和示例代码仍需补充。
🌐
社区生态
虽然增长迅速,但相比 Hugging Face 生态,社区贡献和第三方集成仍有提升空间。
RATING

综合评分

性能表现
9.5
★★★★★
易用性
8.5
★★★★☆
文档质量
8.0
★★★★☆
社区活跃度
9.2
★★★★★
功能完整性
9.0
★★★★★
性价比
9.8
★★★★★

✅ 优势

极致性能:训练速度提升 2 倍,VRAM 减少 70%,行业领先
本地优先:完全本地化运行,无需云服务,数据安全可控
无代码界面:Unsloth Studio 提供可视化操作,降低入门门槛
全流程覆盖:从数据准备到部署导出一站式完成
开源免费:Apache 2.0 许可证,完全开源
社区活跃:56.7k Stars,快速增长的开发者社区

⚠️ 不足

macOS 训练限制:当前仅支持聊天和数据配方,MLX 训练尚未推出
多 GPU 训练:支持多 GPU 但功能仍在开发中
文档待完善:部分高级功能文档和示例代码仍需补充
生态仍在成长:相比 Hugging Face,第三方集成和社区贡献有提升空间
CONCLUSION

总结与展望

🦥 Unsloth 的核心价值

Unsloth 通过手写 Triton 内核和自动内存优化,成功将大模型微调的门槛大幅降低。在消费级 GPU 上微调 70B 参数模型,从不可能变成现实,这对研究者和开发者来说意义重大。

Unsloth Studio 的无代码界面让非技术用户也能快速上手,而 API 模式则为开发者提供了完整的控制力。这种灵活性使 Unsloth 成为个人开发者、初创公司和团队协作的理想选择。

🚀 未来展望

Unsloth 团队正在积极推进多个改进:macOS MLX 训练支持、多 GPU 训练优化、更完善的文档和教程。随着社区的不断壮大,我们期待看到更多第三方集成和生态扩展。

对于想要尝试大模型微调的开发者,Unsloth 绝对是当前最值得入手的工具之一。极低的硬件要求、卓越的性能表现、友好的用户界面,让它成为开源 AI 微调领域的标杆之作。

大模型微调 LLM Fine-Tuning 训练加速 VRAM 优化 Unsloth Unsloth Studio Qwen DeepSeek Triton 内核 开源 2026.03