cat README.md
VoxCPM2
OpenBMB 出品的无 Tokenizer TTS 大模型 —— 不走离散分词,直接在连续潜空间里扩散生成语音。30 种语言、声音设计、声音克隆、48kHz 录音棚音质,Apache-2.0 可商用。论文被 ICLR 2026 接收。
// 目录
// 概览
// 为什么关注
我自己在做 AI 短剧生成工具,五个阶段全走了一遍——脚本、分镜、图片、视频、合成。其中配音这一步,踩过的坑能写一本书。
最初用的 ElevenLabs,声音质量确实好,但 API 按字符计费,一段 3 分钟的短剧台词算下来要好几块。后来换成 Edge TTS,免费是免费了,但那个机械感一听就是 AI 在念稿,观众秒出戏。再后来试了一圈开源方案——Bark 太慢、VITS 声音塑料感重、ChatTTS 中文还行但英文崩了、CosyVoice 效果不错但不开源权重。
所以今天看到 VoxCPM2 登上 Trending,我第一反应是:又一个 TTS?点进去一看参数——2B 模型、48kHz 输出、30 种语言、声音设计+克隆+续写三种模式、Apache-2.0 可商用、RTX 4090 上 RTF 0.3……这配置有点东西。
更让我感兴趣的是它的技术路线:Tokenizer-Free。传统 TTS 做法是先把文本转成离散 token(类似 text-to-code),再用声学模型解码成语音。VoxCPM 直接跳过这一步,在连续潜空间里做扩散生成。论文被 ICLR 2026 接收不是白给的。
// 核心能力
VoxCPM2 的功能列表可以分成四个大块:
1. 多语言 TTS —— 30 种语言直接合成
输入文本直接出语音,不需要指定语言标签,模型自己识别。覆盖英语、中文、日语、韩语、法语、德语、西班牙语、阿拉伯语等 30 种语言,还支持四川话、粤语、吴语、东北话等 9 种中国方言。内部 30 语言 ASR 基准平均 CER/WER 只有 1.68%。
低资源语言表现尤其亮眼——高棉语 CER 2.05%(Fish S2-Pro 直接崩到 75%)、缅甸语 1.42%(Fish 85%)、老挝语 1.90%(Fish 87%)。这些小语种 Fish Audio 基本上是直接放弃的。
2. Voice Design —— 文字描述创造声音
这个功能有点像 Midjourney 的文字生图,只不过生成的是声音。你只需要用自然语言描述你想要的声音特征——性别、年龄、语调、情绪、语速——模型就凭空捏出一个新声音,不需要任何参考音频。
比如你写 (A young woman, gentle and sweet voice)Hello,出来的就是一个年轻女性温柔甜美的声音。在 InstructTTSEval 英文评测中拿到了 APS 84.2 的最高分。
3. 声音克隆 —— 三种模式递进
- Controllable Cloning:给一段参考音频,克隆音色,同时可以用文字调整情绪和语速。比如你有个男声参考,但想让他听起来"稍微快一点,愉快的语气"。
- Ultimate Cloning:给参考音频 + 文字转录,模型从参考处无缝续接。这个模式下的音色、节奏、情绪保真度最高,基本上等于让原说话人继续说新内容。
- LoRA 微调:只需要 5-10 分钟目标说话人的音频就能微调出专用模型。
4. 48kHz 高质量输出
输入 16kHz 参考音频,AudioVAE V2 的非对称编解码直接输出 48kHz 录音棚级音频,内置超分辨率。不需要额外接 upsample 模型。对比 VoxCPM1.5 的 44.1kHz 和更早的 16kHz,音质提升是能听出来的。
// 快速上手
安装
环境要求:Python 3.10+(<3.13)、PyTorch 2.5+、CUDA 12.0+。一行安装:
Python API —— 基础合成
Voice Design —— 文字造声
声音克隆
CLI 命令
Web Demo
// 架构设计
VoxCPM2 走的是 Tokenizer-Free + Diffusion Autoregressive 路线,完全在 AudioVAE V2 的连续潜空间中操作,不经过任何离散分词。四阶段流水线:
// 四阶段流水线
文本+音素特征提取
语义-韵律规划生成
恢复细粒度声学细节
Flow Matching 解码 48kHz
几个关键设计决策值得拆开说:
- 为什么不用 Tokenizer?传统 TTS 先把语音转成离散 token(类似 BPE 编码),这会导致语义和声学信息的割裂。VoxCPM 直接在连续潜空间做扩散,保留了更丰富的声学细节,尤其是韵律、情绪这些"软"特征。
- TSLM vs RALM 分工:TSLM 负责"说什么怎么说"(语义+韵律规划),RALM 负责"具体怎么发声"(细粒度声学恢复)。这个分层设计让模型既能理解上下文语义,又能产出高保真的声音细节。
- AudioVAE V2 非对称编解码:编码器用低分辨率(16kHz),解码器直接输出 48kHz,中间靠超分辨率桥接。这样既节省了计算量,又不牺牲输出音质。
- MiniCPM-4 骨干:2B 参数的 LLM backbone,自带强大的文本理解能力。这也是为什么 VoxCPM 能做到"上下文感知"——它真的在理解你写了什么,然后据此调整语气。
部署方面有三条路:
- 直接推理:
pip install voxcpm一行搞定,RTX 4090 上 RTF ~0.3,8GB 显存。 - Nano-vLLM:社区开发的高吞吐推理引擎,RTF 压到 ~0.13,支持 FastAPI HTTP 服务。
- vLLM-Omni:官方 vLLM 全模态服务,PagedAttention KV 缓存 + 连续批处理 + OpenAI 兼容 API,适合多租户生产部署。
// 竞品对比
开源 TTS 赛道现在很卷,我把主要玩家拉到一起比一下:
| 模型 | 参数 | 开源 | 语言 | 声音设计 | 克隆 | 输出 | RTF |
|---|---|---|---|---|---|---|---|
| VoxCPM2 | 2B | Apache-2.0 | 30 语言 + 9 方言 | ✅ 自然语言描述 | ✅ 可控 + 终极 + LoRA | 48kHz | ~0.3 |
| Qwen3-TTS | 1.7B | 开源 | 中/英为主 | ✅ | ✅ | - | - |
| FishAudio S2 | 4B | 开源 | 多语言 | - | ✅ | - | - |
| LongCat-Audio-DiT | 3.5B | 开源 | 中/英 | - | ✅ | - | - |
| CosyVoice3 | 1.5B | 不开源 | 中/英 + 多语言 | - | ✅ | - | - |
| Seed-TTS | - | 闭源 | 中/英 | - | ✅ | - | - |
简单说:VoxCPM2 在 开源 + 可商用 + 多语言 + 声音设计 + 克隆 这个组合上,目前没有对手。CosyVoice3 WER 更低但不开源,FishAudio S2 覆盖广但 4B 参数更重且不支持声音设计,Qwen3-TTS 参数小但语言覆盖窄。
// 性能数据
说话人相似度 (SIM) —— VoxCPM2 的杀手级指标
在 MiniMax 多语言评测中,VoxCPM2 的说话人相似度(SIM)在 24 种语言的 20 种中排名第一。这是声音克隆最核心的指标——克隆得像不像。
Seed-TTS-eval 综合基准
坦白说,VoxCPM2 在 WER(词错率)上不是最优的——FishAudio S2 英文 WER 0.99%、中文 CER 0.54% 都比它低。但在 SIM(说话人相似度)上它是碾压级的。对于声音克隆场景,SIM 比 WER 重要得多——听众不在乎某个字轻微读错了,但一耳朵听出来"这不是原来那个人的声音"就是灾难。
声音设计方面,VoxCPM2 英文 APS 84.2 也是最高,说明它"听指令造声"的能力确实强。
✓ 30 语言 + 9 方言,低资源语言碾压竞品(高棉/缅甸/老挝 Fish 直接崩)
✓ Voice Design 能力独特——纯文字描述凭空创造声音,APS 英文第一
✓ SIM 说话人相似度碾压级领先,20/24 语言排名第一
✓ 三种克隆模式递进(可控→终极→LoRA),灵活度拉满
✓ Apache-2.0 完全可商用,ICLR 2026 论文背书
✓ 生态丰富:vLLM-Omni / Nano-vLLM / GGUF / ComfyUI / Apple NE 全有
✓ 48kHz 原生输出,AudioVAE V2 非对称编解码内建超分辨率
✓ pip install 一行安装,CLI + Python API + Web Demo + 批量处理
✗ WER 词错率不是最优,Fish S2 在中英上更准(0.54% vs 0.97%)
✗ 法语/阿拉伯语/捷克语等语言 WER 偏高(9.85%/13%/24%)
✗ Voice Design 和可控克隆结果有随机性,需生成 1-3 次取最佳
✗ 2B 参数 + 8GB 显存门槛,无 GPU 设备无法使用
✗ 104 Open Issues、最新提交 2026-05-11,维护节奏待观察
✗ 技术报告尚未发布(VoxCPM2 论文标注"即将发布")
✗ 声音克隆的伦理风险需自行把控
// links
- GitHub 仓库 — 源码、Issue、Releases
- HuggingFace 权重 — 模型下载
- ModelScope 权重 — 国内镜像加速
- 在线 Demo — HuggingFace Spaces 试用
- 音频样本 — 官方 Demo Page
- 论文 (arXiv) — ICLR 2026
- 文档 — ReadTheDocs
- Discord 社区
- 官网 — voxcpm.com