~/reviews · VoxCPM · 2026-06-02

cat README.md

VoxCPM2

OpenBMB 出品的无 Tokenizer TTS 大模型 —— 不走离散分词，直接在连续潜空间里扩散生成语音。30 种语言、声音设计、声音克隆、48kHz 录音棚音质，Apache-2.0 可商用。论文被 ICLR 2026 接收。

openbmb tts apache-2.0 tokenizer-free voice-cloning diffusion 30-lang 48khz iclr-2026

// 目录

概览为什么关注核心能力快速上手架构设计竞品对比性能数据博主观点参考链接

// 概览

Stars

24,200

今日 +888 · GitHub Trending AI #6

Forks

2,800

104 Open Issues · 9 PRs

Language

Python

100% · v2.0.3 (2026-05-11)

Params

基于 MiniCPM-4 骨干 · ~8GB VRAM

License

Apache-2.0

完全开源 · 可商用

Creator

OpenBMB

清华 ModelBest + THUHCSI

// 为什么关注

我自己在做 AI 短剧生成工具，五个阶段全走了一遍——脚本、分镜、图片、视频、合成。其中配音这一步，踩过的坑能写一本书。

最初用的 ElevenLabs，声音质量确实好，但 API 按字符计费，一段 3 分钟的短剧台词算下来要好几块。后来换成 Edge TTS，免费是免费了，但那个机械感一听就是 AI 在念稿，观众秒出戏。再后来试了一圈开源方案——Bark 太慢、VITS 声音塑料感重、ChatTTS 中文还行但英文崩了、CosyVoice 效果不错但不开源权重。

所以今天看到 VoxCPM2 登上 Trending，我第一反应是：又一个 TTS？点进去一看参数——2B 模型、48kHz 输出、30 种语言、声音设计+克隆+续写三种模式、Apache-2.0 可商用、RTX 4090 上 RTF 0.3……这配置有点东西。

更让我感兴趣的是它的技术路线：Tokenizer-Free。传统 TTS 做法是先把文本转成离散 token（类似 text-to-code），再用声学模型解码成语音。VoxCPM 直接跳过这一步，在连续潜空间里做扩散生成。论文被 ICLR 2026 接收不是白给的。

// 核心能力

VoxCPM2 的功能列表可以分成四个大块：

1. 多语言 TTS —— 30 种语言直接合成

输入文本直接出语音，不需要指定语言标签，模型自己识别。覆盖英语、中文、日语、韩语、法语、德语、西班牙语、阿拉伯语等 30 种语言，还支持四川话、粤语、吴语、东北话等 9 种中国方言。内部 30 语言 ASR 基准平均 CER/WER 只有 1.68%。

低资源语言表现尤其亮眼——高棉语 CER 2.05%（Fish S2-Pro 直接崩到 75%）、缅甸语 1.42%（Fish 85%）、老挝语 1.90%（Fish 87%）。这些小语种 Fish Audio 基本上是直接放弃的。

2. Voice Design —— 文字描述创造声音

这个功能有点像 Midjourney 的文字生图，只不过生成的是声音。你只需要用自然语言描述你想要的声音特征——性别、年龄、语调、情绪、语速——模型就凭空捏出一个新声音，不需要任何参考音频。

比如你写 (A young woman, gentle and sweet voice)Hello，出来的就是一个年轻女性温柔甜美的声音。在 InstructTTSEval 英文评测中拿到了 APS 84.2 的最高分。

3. 声音克隆 —— 三种模式递进

Controllable Cloning：给一段参考音频，克隆音色，同时可以用文字调整情绪和语速。比如你有个男声参考，但想让他听起来"稍微快一点，愉快的语气"。
Ultimate Cloning：给参考音频 + 文字转录，模型从参考处无缝续接。这个模式下的音色、节奏、情绪保真度最高，基本上等于让原说话人继续说新内容。
LoRA 微调：只需要 5-10 分钟目标说话人的音频就能微调出专用模型。

4. 48kHz 高质量输出

输入 16kHz 参考音频，AudioVAE V2 的非对称编解码直接输出 48kHz 录音棚级音频，内置超分辨率。不需要额外接 upsample 模型。对比 VoxCPM1.5 的 44.1kHz 和更早的 16kHz，音质提升是能听出来的。

// 快速上手

安装

环境要求：Python 3.10+（<3.13）、PyTorch 2.5+、CUDA 12.0+。一行安装：

# 安装 pip install voxcpm # 国内可以用 ModelScope 加速下载 from modelscope import snapshot_download snapshot_download("OpenBMB/VoxCPM2", local_dir='./VoxCPM2')

Python API —— 基础合成

from voxcpm import VoxCPM import soundfile as sf model = VoxCPM.from_pretrained( "openbmb/VoxCPM2", load_denoiser=False, ) wav = model.generate( text="VoxCPM2 is the current recommended release.", cfg_value=2.0, inference_timesteps=10, ) sf.write("demo.wav", wav, model.tts_model.sample_rate)

Voice Design —— 文字造声

wav = model.generate( text="(A young woman, gentle and sweet voice)Hello!", cfg_value=2.0, inference_timesteps=10, ) sf.write("voice_design.wav", wav, model.tts_model.sample_rate)

声音克隆

# 基础克隆 wav = model.generate( text="This is a cloned voice.", reference_wav_path="path/to/voice.wav", ) # 终极克隆（带转录续接） wav = model.generate( text="Continuing in the original voice style.", prompt_wav_path="path/to/voice.wav", prompt_text="Transcript of the reference audio.", reference_wav_path="path/to/voice.wav", )

CLI 命令

# 声音设计 voxcpm design --text "Hello world" --output out.wav # 带风格控制的声音设计 voxcpm design --text "Hello" \ --control "Young female, warm and gentle" --output out.wav # 声音克隆 voxcpm clone --text "Hello" \ --reference-audio ref.wav --output out.wav # 批量处理 voxcpm batch --input input.txt --output-dir outs/

Web Demo

python app.py --port 8808 # 浏览器打开 http://localhost:8808

// 架构设计

VoxCPM2 走的是 Tokenizer-Free + Diffusion Autoregressive 路线，完全在 AudioVAE V2 的连续潜空间中操作，不经过任何离散分词。四阶段流水线：

// 四阶段流水线

📝

LocEnc局部编码器
文本+音素特征提取

→

🧠

TSLM文本-语音语言模型
语义-韵律规划生成

→

🎧

RALM残差自适应语言模型
恢复细粒度声学细节

→

🎵

LocDiT局部扩散变换器
Flow Matching 解码 48kHz

LocEnc → TSLM → RALM → LocDiT | 骨干网络：MiniCPM-4 | 潜空间：AudioVAE V2（非对称编解码 + 超分辨率）

几个关键设计决策值得拆开说：

为什么不用 Tokenizer？传统 TTS 先把语音转成离散 token（类似 BPE 编码），这会导致语义和声学信息的割裂。VoxCPM 直接在连续潜空间做扩散，保留了更丰富的声学细节，尤其是韵律、情绪这些"软"特征。
TSLM vs RALM 分工：TSLM 负责"说什么怎么说"（语义+韵律规划），RALM 负责"具体怎么发声"（细粒度声学恢复）。这个分层设计让模型既能理解上下文语义，又能产出高保真的声音细节。
AudioVAE V2 非对称编解码：编码器用低分辨率（16kHz），解码器直接输出 48kHz，中间靠超分辨率桥接。这样既节省了计算量，又不牺牲输出音质。
MiniCPM-4 骨干：2B 参数的 LLM backbone，自带强大的文本理解能力。这也是为什么 VoxCPM 能做到"上下文感知"——它真的在理解你写了什么，然后据此调整语气。

部署方面有三条路：

直接推理：pip install voxcpm 一行搞定，RTX 4090 上 RTF ~0.3，8GB 显存。
Nano-vLLM：社区开发的高吞吐推理引擎，RTF 压到 ~0.13，支持 FastAPI HTTP 服务。
vLLM-Omni：官方 vLLM 全模态服务，PagedAttention KV 缓存 + 连续批处理 + OpenAI 兼容 API，适合多租户生产部署。

// 竞品对比

开源 TTS 赛道现在很卷，我把主要玩家拉到一起比一下：

模型	参数	开源	语言	声音设计	克隆	输出	RTF
VoxCPM2	2B	Apache-2.0	30 语言 + 9 方言	✅ 自然语言描述	✅ 可控 + 终极 + LoRA	48kHz	~0.3
Qwen3-TTS	1.7B	开源	中/英为主	✅	✅	-	-
FishAudio S2	4B	开源	多语言	-	✅	-	-
LongCat-Audio-DiT	3.5B	开源	中/英	-	✅	-	-
CosyVoice3	1.5B	不开源	中/英 + 多语言	-	✅	-	-
Seed-TTS	-	闭源	中/英	-	✅	-	-

简单说：VoxCPM2 在 开源 + 可商用 + 多语言 + 声音设计 + 克隆 这个组合上，目前没有对手。CosyVoice3 WER 更低但不开源，FishAudio S2 覆盖广但 4B 参数更重且不支持声音设计，Qwen3-TTS 参数小但语言覆盖窄。

// 性能数据

说话人相似度 (SIM) —— VoxCPM2 的杀手级指标

在 MiniMax 多语言评测中，VoxCPM2 的说话人相似度（SIM）在 24 种语言的 20 种中排名第一。这是声音克隆最核心的指标——克隆得像不像。

🇺🇸 英语 SIM

VoxCPM2 — 85.4

🇺🇸 英语 SIM

Fish S2 — 79.7

🇺🇸 英语 SIM

MiniMax — 75.6

🇺🇸 英语 SIM

ElevenLabs — 61.3

Seed-TTS-eval 综合基准

中文 CER

VoxCPM2 — 0.97%

中文 SIM

VoxCPM2 — 79.5

英文 WER

VoxCPM2 — 1.84%

英文 SIM

VoxCPM2 — 75.3

坦白说，VoxCPM2 在 WER（词错率）上不是最优的——FishAudio S2 英文 WER 0.99%、中文 CER 0.54% 都比它低。但在 SIM（说话人相似度）上它是碾压级的。对于声音克隆场景，SIM 比 WER 重要得多——听众不在乎某个字轻微读错了，但一耳朵听出来"这不是原来那个人的声音"就是灾难。

声音设计方面，VoxCPM2 英文 APS 84.2 也是最高，说明它"听指令造声"的能力确实强。

// blogger verdict

8.6 / 10

开源 TTS 赛道的全能选手

PROS
✓ 30 语言 + 9 方言，低资源语言碾压竞品（高棉/缅甸/老挝 Fish 直接崩）
✓ Voice Design 能力独特——纯文字描述凭空创造声音，APS 英文第一
✓ SIM 说话人相似度碾压级领先，20/24 语言排名第一
✓ 三种克隆模式递进（可控→终极→LoRA），灵活度拉满
✓ Apache-2.0 完全可商用，ICLR 2026 论文背书
✓ 生态丰富：vLLM-Omni / Nano-vLLM / GGUF / ComfyUI / Apple NE 全有
✓ 48kHz 原生输出，AudioVAE V2 非对称编解码内建超分辨率
✓ pip install 一行安装，CLI + Python API + Web Demo + 批量处理

CONS
✗ WER 词错率不是最优，Fish S2 在中英上更准（0.54% vs 0.97%）
✗ 法语/阿拉伯语/捷克语等语言 WER 偏高（9.85%/13%/24%）
✗ Voice Design 和可控克隆结果有随机性，需生成 1-3 次取最佳
✗ 2B 参数 + 8GB 显存门槛，无 GPU 设备无法使用
✗ 104 Open Issues、最新提交 2026-05-11，维护节奏待观察
✗ 技术报告尚未发布（VoxCPM2 论文标注"即将发布"）
✗ 声音克隆的伦理风险需自行把控

VoxCPM2

// 目录

// 概览

// 为什么关注

// 核心能力

1. 多语言 TTS —— 30 种语言直接合成

2. Voice Design —— 文字描述创造声音

3. 声音克隆 —— 三种模式递进

4. 48kHz 高质量输出

// 快速上手

安装

Python API —— 基础合成

Voice Design —— 文字造声

声音克隆

CLI 命令

Web Demo

// 架构设计

// 四阶段流水线

// 竞品对比

// 性能数据

说话人相似度 (SIM) —— VoxCPM2 的杀手级指标

Seed-TTS-eval 综合基准

// links