统一 Web UI 本地训练与运行 Qwen、DeepSeek、gpt-oss、Gemma 等开源大模型,今日 Star 暴增 1,259 颗。
前天刚拿到 Unsloth 的内测资格,这是目前 GitHub 上最火热的大模型微调框架——今日 Star 增长达 1,259 颗,稳居 Trending 榜首。用了整整一天一夜深度测试,说实话有点惊艳——不是因为它有多少功能,而是因为它解决了我长期以来最头疼的问题:VRAM 不够用 + 训练太慢。
以前想微调一个 70B 参数的模型,需要昂贵的 A100/H100。Unsloth 通过手写 Triton 内核和自动内存优化,把训练速度提升了 2 倍,VRAM 占用减少了 70%,现在单块 RTX 4090 就能完成之前需要 A100 的工作。
Unsloth Studio 是一个本地化、无代码的大模型训练与推理平台
↑ Unsloth Studio 安装命令示例(macOS/Linux/WSL 和 Windows)
基于 Alpaca 数据集,与 Hugging Face + Flash Attention 2 的对比测试
| 模型 | VRAM(测试平台) | 🦥 Unsloth 速度 | 🦥 VRAM 减少 | 🦥 上下文提升 | 😊 Hugging Face + FA2 |
|---|---|---|---|---|---|
| Llama 3.3 (70B) | 80GB (H100/Blackwell) | 2× | >75% | 13× | 1× |
| Llama 3.1 (8B) | 80GB (H100/Blackwell) | 2× | >70% | 12× | 1× |
| GPU VRAM | 🦥 Unsloth 上下文 | 😊 Hugging Face + FA2 |
|---|---|---|
| 8 GB | 2,972 | OOM(内存不足) |
| 12 GB | 21,848 | 932 |
| 16 GB | 40,724 | 2,551 |
| 24 GB | 78,475 | 5,789 |
| 40 GB | 153,977 | 12,264 |
| 48 GB | 191,728 | 15,502 |
| 80 GB | 342,733 | 28,454 |
| 模型 | 性能提升 | 内存节省 |
|---|---|---|
| Qwen 3.5 (4B) | 1.5× | 60% |
| gpt-oss (20B) | 2× | 70% |
| Gemma 3 (4B) Vision | 1.7× | 60% |
| Llama 3.1 (8B) Alpaca | 2× | 70% |
Axolotl vs LLaMA-Factory vs Unsloth 三大微调框架横向对比
| 对比维度 | Axolotl | LLaMA-Factory | Unsloth |
|---|---|---|---|
| 核心优势 | 灵活配置、可复现性、生产级流水线 | 易用性、快速实验、广泛的模型支持 | 训练速度和内存效率 |
| 最佳适用场景 | 需要复杂配置、团队协作、生产部署的 ML 工程团队 | 快速原型验证、非 ML 专家的产品团队、多模型实验 | 资源有限的研究者、开发者、需要快速迭代的初创公司 |
| 性能特点 | 性能稳定,支持多 GPU 分布式训练优化 | 性能与标准实现相当,注重开发效率 | 训练速度提升 2-5 倍,内存占用减少 50-80% |
| 易用性 | 较高,需要编写 YAML 配置文件 | 低,提供 Web UI 和命令行工具 | 中等,API 类似标准 Hugging Face |
| 设置时间 | 2-5 分钟 | 5-15 分钟 | 2-5 分钟(比标准方法快 2 倍) |
| 内存使用(7B 模型) | 16-24GB VRAM | 16GB RAM (LoRA) / 24-48GB VRAM (全量) | 降低 50-80%(8GB vs 标准 16GB) |
| 训练吞吐量(7B on A100) | 1,200-2,000 样本/小时 | 2,000-2,500 样本/小时 | 比 Hugging Face 快 2-5 倍 |
| 关键技术特性 | 支持 LoRA, QLoRA, FSDP, DeepSpeed | 支持 LoRA, QLoRA, 全量微调,Web UI,超 100 种模型 | 定制 CUDA 内核,自动内存优化,极致速度 |
| 社区 Stars | 8k+ | 20k+ | 56.7k |
| 月度 TCO 估算 | $800 - $2,500 | $500 - $2,000 | $200 - $800(因效率高而成本最低) |
Unsloth 通过手写 Triton 内核和自动内存优化,成功将大模型微调的门槛大幅降低。在消费级 GPU 上微调 70B 参数模型,从不可能变成现实,这对研究者和开发者来说意义重大。
Unsloth Studio 的无代码界面让非技术用户也能快速上手,而 API 模式则为开发者提供了完整的控制力。这种灵活性使 Unsloth 成为个人开发者、初创公司和团队协作的理想选择。
Unsloth 团队正在积极推进多个改进:macOS MLX 训练支持、多 GPU 训练优化、更完善的文档和教程。随着社区的不断壮大,我们期待看到更多第三方集成和生态扩展。
对于想要尝试大模型微调的开发者,Unsloth 绝对是当前最值得入手的工具之一。极低的硬件要求、卓越的性能表现、友好的用户界面,让它成为开源 AI 微调领域的标杆之作。