~/reviews · Voicebox · 2026.06.24

cat README.md

Voicebox

开源 AI 语音工作室。7 个 TTS 引擎、23 种语言、128 万次下载。免费、本地、无调用限制。一个把 ElevenLabs 和 WisprFlow 合二为一的开源替代品——所有模型和语音数据都留在你自己的机器上。

MIT TypeScript Tauri+Rust Python Agent MCP v0.5.0

// 目录

概览真实痛点核心判断上手体验功能演示架构竞品性能评分

// 概览

GitHub Stars

33,154

今日 +1,045 Star，总排名日榜 #5

Forks

3,999

Fork/Star = 0.121，极强传播信号

下载量

1,286,066

128 万次下载，桌面应用罕见量级

Open Issues

476

积压较多，但 MIT 开源社区活跃

Contributors

jamiepine 贡献 91.8%，Bus Factor ≈ 1

Latest Release

v0.5.0

2026-04-25 · “The Capture Release”

我试了一圈 AI 语音工具，最累的不是模型效果不行

上个月我在给 AI 短剧工具 MangaVideo 加配音模块。一开始想法特别简单：跑个 TTS 模型，把台词转成音频，完事。

然后现实开始打脸。

我先是用了某个云服务的 API，第一个月就跑了 60 多块钱——听起来不多，但这是测试阶段，一天也就生成几十条。等真正批量上，按我做的短剧一集 50 句台词的量级，一个月轻松破千。更烦的是调用限制：每分钟 10 次请求，批量生成的时候像在高速上开拖拉机。

接着试了另一个开源方案。装上之后才发现不支持中文的情感控制——"高兴地说"和"悲伤地说"听不出差别。换第三个，声音克隆效果不错，但每次都要联网，不能离线用。

折腾了三周，我把问题列出来：

第一，我不想把用户的声音样本上传到任何人的服务器。第二，我需要多个角色能同时用不同的声音，不是一个人配所有角色。第三，这条流水线不能每次等 API 响应——那会把渲染时间拉长一截。第四，我得能控制语气和情绪，不是只是"读出文字"。

这四个需求列出来，我才发现：AI 语音真正难的不是"更像真人"，而是谁说了算。模型是你的还是别人的？数据是你的还是云端公司的？调用节奏是你控制还是 API 限速控制？

Voicebox 给出了一个不同的答案

Voicebox 是 Jamie Pine 做的一个开源 AI 语音工作室——对，就是那个做了 Spacedrive（那个超好看的开源文件管理器）的 Jamie Pine。他在 2026 年 1 月启动了这个项目，到现在 5 个月，33K Star，128 万次下载。

看到这个数据的时候，我其实不太意外。因为 Voicebox 解决的恰恰是我上面说的那四个问题——而且是用一种近乎偏执的本地优先方式。

它本质上是一个桌面应用（Tauri+Rust 写的，不是 Electron），内置了 7 个 TTS 引擎、Whisper 转写、全局听写快捷键、MCP Agent 语音输出，还有多轨时间轴编辑器。所有模型都在本地跑，语音样本不会离开你的硬盘。

我用一句话概括我的判断：Voicebox 不是在跟 ElevenLabs 比音质，它是在重新定义谁是语音数据的主人。

我把它塞进 MangaVideo 流水线试了一遍

Voicebox 的安装比我想象的简单。去 voicebox.sh 下载 macOS 安装包（Windows 也有 MSI），拖进应用程序文件夹，打开。第一次启动会自动下载 Whisper 模型和默认的 TTS 引擎。

我做的第一件事是创建声音档案。在 Profiles 页面点 New Profile，上传了一段 10 秒的录音。等了几秒——声音克隆就完成了。试了一下，音色还原度相当可以，不是那种"听得出是 AI"的机器人腔，而是有语调变化的。

真正让我决定把它放进流水线的是两个功能。

第一个是 API 集成。Voicebox 自带 REST API，服务跑在 localhost:17493。我把 TTS 生成这一步从"调用外部 API"改成了"curl localhost"。延迟从几百毫秒（网络+处理）降到了纯粹推理时间。而且没有调用次数限制，没有按字符计费。

第二个是 Stories 多轨编辑器。这个功能在 v0.5.0 才加进来——一个像 DAW 一样的时间轴，可以给不同角色分配不同声音，调整每句台词的起止时间，单独控制每个片段的音量。对于做短剧配音来说，这比在命令行里一个一个生成再手动拼接要直观太多了。

有一件事我必须提：Voicebox 的 全局听写功能。按住快捷键说话，松手，转写好的文字直接粘贴到当前焦点文本框。它在做的是语音→文字→语音的完整闭环——这让我开始重新想 MangaVideo 的用户工作流。不只是一个 TTS 工具挂进流水线，而是用户用语音指挥 AI 生成视频。这个方向我之后会单独写。

// 功能演示

▲ Voicebox 主界面：声音档案管理 + TTS 生成面板 + 音频效果链，七引擎可切换

▲ Stories 多轨时间轴编辑器：多角色配音混音，支持拖拽排列、片段修剪、实时音量调节

▲ 全局听写 + Agent 语音输出：按住快捷键说话转文字，MCP 智能体用克隆声音回复

它的架构比看起来要硬核

Voicebox 的技术栈选型让我觉得 Jamie Pine 是一个非常清楚自己在做什么的工程师。

前端用 Tauri（Rust）而不是 Electron——这意味着内存占用低很多，原生性能好。后端是一个 Python FastAPI 服务器，既可以内嵌在桌面应用里运行，也可以单独部署到一台带 GPU 的机器上远程调用。模型引擎层覆盖了 7 个 TTS 引擎，每个都有自己明确的定位。

最有意思的是 MCP 协议集成。Voicebox 内置了一个 MCP 服务器，提供 4 个工具：speak（用克隆的声音说话）、transcribe（转写音频）、list_captures（列出录音）、list_profiles（列出声音档案）。Claude Code 一行命令就能接入，Cursor、Windsurf、VS Code 都支持。

这意味着：你的 AI 编程助手在跑完测试后，可以直接用你克隆的声音说"构建通过，准备合并"。而且有声画同步的气泡提示——你能看到 Agent 正在说什么，而不是黑暗里听到一个声音。

// 架构流程

🎙️

Audio InputUpload · Record · System Capture

→

🧠

Voice Cloning7 TTS Engines · 23 Languages

→

🎛️

Audio Pipeline8 Effects · Presets · Crossfade

→

📤

OutputFile · API · MCP Agent · Dictation

四步流水线：任何音频输入 → 任一 TTS 引擎克隆 → 8 种效果处理 → 4 路输出（文件/API/Agent 语音/全局听写）

// 竞品对比

方案	本地运行	声音克隆	API 限制	价格	最佳场景
Voicebox	✅ 完全本地	✅ 7 引擎	无限制	免费	隐私敏感 / 批量生成 / Agent 集成
ElevenLabs	❌ 云端	✅ 业界最佳	分级限制	$22+/月	专业级音质 / 商业项目
Fish Audio	部分本地	✅ 多语言	API 计费	免费+付费	多语言覆盖 / 快速原型
OpenAI TTS	❌ API only	❌ 预设声音	速率限制	$15/1M 字符	ChatGPT 生态 / 英文场景
Azure TTS	❌ 云端	✅ Custom Voice	按字符	$15/1M 字符	企业合规 / 微软生态
Coqui TTS	✅ 本地	✅ XTTS	无	免费	研究 / 微调 / 定制模型

// TTS 引擎对比

Kokoro 82M

CPU 实时 · 50 预设音色

LuxTTS ~1GB

150x 实时 · 48kHz

Chatterbox Turbo 350M

情绪标签 · 超快

Qwen3-TTS 0.6B

10 语言 · 表达指令

Chatterbox Multilingual

23 语言 · 最广覆盖

TADA 3B

700s+ 长音频 · 10 语言

Qwen3-TTS 1.7B

最高质量 · 10 语言

▲ 七个 TTS 引擎性能参考（百分比为综合能力加权评分，非精确 benchmark。完整数据见各引擎官方文档）

// 视频评测

▲ Kevin Stratvert 详细演示：从零安装 Voicebox 到克隆声音、全局听写、Agent 语音输出

▲ Tech指南中文评测：Voicebox 完整测评——从下载到 API 调用，附速度对比

跟我在做的事有什么关系

我每天跑 GitHub AI 日报、做 MangaVideo 短剧工具，Voicebox 对我的启发不止于"又多了一个可用的 TTS 方案"。

第一个启发：AI 工具的"本地优先"不是情怀，是工程约束下的最优解。 我做 MangaVideo 的时候，最早是把所有视频生成都交给 Seedance API。后来发现延迟不可控、成本不可控、用户网络环境影响很大。Voicebox 128 万次下载证明了一件事：用户愿意为了数据主权和零延迟付出下载几个 G 模型的代价。这个信号比我之前想的要强得多。

第二个启发：语音→文字→语音的闭环，可能是 AI 工具交互的下一个范式。 Voicebox 的全局听写 + Agent 语音输出做了一个完整闭环——你说话让 AI 做事，AI 用你克隆的声音回复你。这不是"TTS 功能"，这是一个新的交互层。MangaVideo 目前在做的还只是"用户点按钮生成视频"。如果把语音指令加进去——"把这句台词的语气改成愤怒"——这条流水线会从根本上变短。

第三个启发：Jamie Pine 做了两个"看起来不像一个赛道"的项目——Spacedrive（文件管理器）和 Voicebox（语音工作室）——但底层哲学完全一致：用户应该拥有自己的数据，工具应该跑在用户自己的机器上。他在用 Tauri+Rust 这条技术线持续验证"本地桌面应用 + AI 推理"这个范式的可行性。这跟我用 Electron/Tauri 做 MangaVideo 桌面版的思路完全一致。

我现在把 Voicebox 列入了 MangaVideo 的配音层候选引擎。Qwen3-TTS 的中文效果在 7 个引擎里最好，Kokoro 的 82M 极小模型适合客户端轻量运行，Chatterbox Turbo 的情绪标签功能可以用来生成更有表现力的配音。而全局听写 + Agent 语音这个方向，我已经开始在 MangaVideo 2.0 的架构设计里预留接口。

但它不是完美的

说几个我不满意的地方。

Bus Factor ≈ 1。 Jamie Pine 一个人贡献了 91.8% 的代码。他的上一款作品 Spacedrive 有一整个团队在维护，但 Voicebox 目前基本是单人在抗。476 个 open issues 积压严重，最后提交已经是两个月前。这个项目的长期可持续性是个问号。

音质天花板不够高。 7 个引擎各有优劣，但整体音质跟 ElevenLabs 还是有差距。特别是中文场景，Qwen3-TTS 是最好的，但一些多音字和轻声处理还是不够自然。如果你做的是高端商业配音，Voicebox 目前还替代不了。

Windows 体验不如 macOS。 全局听写功能在 macOS 上体验很好（用了无障碍 API 做自动粘贴），但 Windows 上的自动粘贴还在开发中。Linux 甚至没有预构建二进制包。

模型管理的门槛。 7 个 TTS 引擎 + 5 个 Whisper 模型 + 3 个 Qwen3 LLM。全部下载下来大概 15-20GB。虽然可以按需下载，但一个对 AI 不太熟的用户看到这个数字还是会犹豫。

什么人该用它

适合：

独立开发者、小团队、播客创作者、AI 工具开发者——任何需要"有语音能力但不想被 API 限速和按字符计费绑住"的人。特别适合做 AI Agent 语音交互、内容批量自动化、需要多角色配音的场景。

不太适合：

需要顶级音质的商业配音项目（目前 ElevenLabs 仍然领先）、Windows 上需要完整全局听写体验的用户、对模型下载和管理没耐心的用户、希望有商业支持的企业客户。

我接下来怎么用

Voicebox 已经被我放进长期跟踪清单。短期：把 MangaVideo 的配音模块从纯 API 调用改成支持 Voicebox 本地引擎作为可选项。中期：探索全局听写→语音指令→自动生成短剧的工作流。长期：Voicebox 的 MCP Agent 语音输出架构值得拆解学习——如果未来每个 AI Agent 都有"说话能力"，底层的音频引擎不该是每个工具自己写一遍。

我会持续记录一个不会编程的产品经理如何用 AI 写代码、做开源工具、搭 AI 视频流水线。MangaVideo 的下一版、Voicebox 的集成进展、以及 AI Agent 语音交互这个方向的新探索，都会在后续文章里更新。

// VERDICT

TOTAL SCORE

8.4

/ 10 · 本地 AI 语音工作室标杆

✅ 本地优先 — 所有模型和数据不离开硬盘，隐私零妥协
✅ 7 引擎覆盖 — 从 82M Kokoro 到 3B TADA，每种场景都有对应引擎
✅ MCP Agent 集成 — 让 AI Agent 拥有声音，开创性设计
✅ Stories 编辑器 — 多轨时间轴，播客/短剧配音一站完成
✅ 128 万下载量 — 桌面 AI 应用级别的传播力，MIT 开源可商用

⚠ Bus Factor ≈ 1 — 单人维护，476 Issues 积压，最后提交两月前
⚠ 音质天花板 — 中文场景不如 ElevenLabs，多音字/轻声不够自然
⚠ Windows 短板 — 全局听写自动粘贴 Mac 独占，Linux 无预构建包
⚠ 模型体积 — 全量下载 15-20GB，对普通用户不友好

创新方向

9.0

本地优先 + MCP Agent 语音开创范式级设计

工程成熟度

7.5

v0.5.0 功能完整但仍有大量 Issues 积压

实用性

9.0

128 万下载证明刚需，REST API+MCP 开箱即用

治理 / 可持续性

7.0

单人维护是最大风险，社区贡献率仅 8.2%

// links

GitHub: jamiepine/voicebox
官网: voicebox.sh
文档: docs.voicebox.sh
Releases: v0.5.0 (2026-04-25)
YouTube: Kevin Stratvert 详细演示
 YouTube: Tech指南中文评测