~/reviews · VoxCPM · 2026-06-02

cat README.md

VoxCPM2

OpenBMB 出品的无 Tokenizer TTS 大模型 —— 不走离散分词,直接在连续潜空间里扩散生成语音。30 种语言、声音设计、声音克隆、48kHz 录音棚音质,Apache-2.0 可商用。论文被 ICLR 2026 接收。

openbmb tts apache-2.0 tokenizer-free voice-cloning diffusion 30-lang 48khz iclr-2026

// 目录

概览 为什么关注 核心能力 快速上手 架构设计 竞品对比 性能数据 博主观点 参考链接

// 概览

Stars
24,200
今日 +888 · GitHub Trending AI #6
Forks
2,800
104 Open Issues · 9 PRs
Language
Python
100% · v2.0.3 (2026-05-11)
Params
2B
基于 MiniCPM-4 骨干 · ~8GB VRAM
License
Apache-2.0
完全开源 · 可商用
Creator
OpenBMB
清华 ModelBest + THUHCSI

// 为什么关注

我自己在做 AI 短剧生成工具,五个阶段全走了一遍——脚本、分镜、图片、视频、合成。其中配音这一步,踩过的坑能写一本书。

最初用的 ElevenLabs,声音质量确实好,但 API 按字符计费,一段 3 分钟的短剧台词算下来要好几块。后来换成 Edge TTS,免费是免费了,但那个机械感一听就是 AI 在念稿,观众秒出戏。再后来试了一圈开源方案——Bark 太慢、VITS 声音塑料感重、ChatTTS 中文还行但英文崩了、CosyVoice 效果不错但不开源权重。

所以今天看到 VoxCPM2 登上 Trending,我第一反应是:又一个 TTS?点进去一看参数——2B 模型、48kHz 输出、30 种语言、声音设计+克隆+续写三种模式、Apache-2.0 可商用、RTX 4090 上 RTF 0.3……这配置有点东西。

更让我感兴趣的是它的技术路线:Tokenizer-Free。传统 TTS 做法是先把文本转成离散 token(类似 text-to-code),再用声学模型解码成语音。VoxCPM 直接跳过这一步,在连续潜空间里做扩散生成。论文被 ICLR 2026 接收不是白给的。


// 核心能力

VoxCPM2 的功能列表可以分成四个大块:

1. 多语言 TTS —— 30 种语言直接合成

输入文本直接出语音,不需要指定语言标签,模型自己识别。覆盖英语、中文、日语、韩语、法语、德语、西班牙语、阿拉伯语等 30 种语言,还支持四川话、粤语、吴语、东北话等 9 种中国方言。内部 30 语言 ASR 基准平均 CER/WER 只有 1.68%。

低资源语言表现尤其亮眼——高棉语 CER 2.05%(Fish S2-Pro 直接崩到 75%)、缅甸语 1.42%(Fish 85%)、老挝语 1.90%(Fish 87%)。这些小语种 Fish Audio 基本上是直接放弃的。

2. Voice Design —— 文字描述创造声音

这个功能有点像 Midjourney 的文字生图,只不过生成的是声音。你只需要用自然语言描述你想要的声音特征——性别、年龄、语调、情绪、语速——模型就凭空捏出一个新声音,不需要任何参考音频。

比如你写 (A young woman, gentle and sweet voice)Hello,出来的就是一个年轻女性温柔甜美的声音。在 InstructTTSEval 英文评测中拿到了 APS 84.2 的最高分。

3. 声音克隆 —— 三种模式递进

4. 48kHz 高质量输出

输入 16kHz 参考音频,AudioVAE V2 的非对称编解码直接输出 48kHz 录音棚级音频,内置超分辨率。不需要额外接 upsample 模型。对比 VoxCPM1.5 的 44.1kHz 和更早的 16kHz,音质提升是能听出来的。


// 快速上手

安装

环境要求:Python 3.10+(<3.13)、PyTorch 2.5+、CUDA 12.0+。一行安装:

# 安装 pip install voxcpm # 国内可以用 ModelScope 加速下载 from modelscope import snapshot_download snapshot_download("OpenBMB/VoxCPM2", local_dir='./VoxCPM2')

Python API —— 基础合成

from voxcpm import VoxCPM import soundfile as sf model = VoxCPM.from_pretrained( "openbmb/VoxCPM2", load_denoiser=False, ) wav = model.generate( text="VoxCPM2 is the current recommended release.", cfg_value=2.0, inference_timesteps=10, ) sf.write("demo.wav", wav, model.tts_model.sample_rate)

Voice Design —— 文字造声

wav = model.generate( text="(A young woman, gentle and sweet voice)Hello!", cfg_value=2.0, inference_timesteps=10, ) sf.write("voice_design.wav", wav, model.tts_model.sample_rate)

声音克隆

# 基础克隆 wav = model.generate( text="This is a cloned voice.", reference_wav_path="path/to/voice.wav", ) # 终极克隆(带转录续接) wav = model.generate( text="Continuing in the original voice style.", prompt_wav_path="path/to/voice.wav", prompt_text="Transcript of the reference audio.", reference_wav_path="path/to/voice.wav", )

CLI 命令

# 声音设计 voxcpm design --text "Hello world" --output out.wav # 带风格控制的声音设计 voxcpm design --text "Hello" \ --control "Young female, warm and gentle" --output out.wav # 声音克隆 voxcpm clone --text "Hello" \ --reference-audio ref.wav --output out.wav # 批量处理 voxcpm batch --input input.txt --output-dir outs/

Web Demo

python app.py --port 8808 # 浏览器打开 http://localhost:8808

// 架构设计

VoxCPM2 走的是 Tokenizer-Free + Diffusion Autoregressive 路线,完全在 AudioVAE V2 的连续潜空间中操作,不经过任何离散分词。四阶段流水线:


// 四阶段流水线

📝
LocEnc局部编码器
文本+音素特征提取
🧠
TSLM文本-语音语言模型
语义-韵律规划生成
🎧
RALM残差自适应语言模型
恢复细粒度声学细节
🎵
LocDiT局部扩散变换器
Flow Matching 解码 48kHz
LocEnc → TSLM → RALM → LocDiT  |  骨干网络:MiniCPM-4  |  潜空间:AudioVAE V2(非对称编解码 + 超分辨率)

几个关键设计决策值得拆开说:

部署方面有三条路:


// 竞品对比

开源 TTS 赛道现在很卷,我把主要玩家拉到一起比一下:

模型 参数 开源 语言 声音设计 克隆 输出 RTF
VoxCPM2 2B Apache-2.0 30 语言 + 9 方言 ✅ 自然语言描述 ✅ 可控 + 终极 + LoRA 48kHz ~0.3
Qwen3-TTS 1.7B 开源 中/英为主 - -
FishAudio S2 4B 开源 多语言 - - -
LongCat-Audio-DiT 3.5B 开源 中/英 - - -
CosyVoice3 1.5B 不开源 中/英 + 多语言 - - -
Seed-TTS - 闭源 中/英 - - -

简单说:VoxCPM2 在 开源 + 可商用 + 多语言 + 声音设计 + 克隆 这个组合上,目前没有对手。CosyVoice3 WER 更低但不开源,FishAudio S2 覆盖广但 4B 参数更重且不支持声音设计,Qwen3-TTS 参数小但语言覆盖窄。


// 性能数据

说话人相似度 (SIM) —— VoxCPM2 的杀手级指标

在 MiniMax 多语言评测中,VoxCPM2 的说话人相似度(SIM)在 24 种语言的 20 种中排名第一。这是声音克隆最核心的指标——克隆得像不像。

🇺🇸 英语 SIM
VoxCPM2 — 85.4
🇺🇸 英语 SIM
Fish S2 — 79.7
🇺🇸 英语 SIM
MiniMax — 75.6
🇺🇸 英语 SIM
ElevenLabs — 61.3

Seed-TTS-eval 综合基准

中文 CER
VoxCPM2 — 0.97%
中文 SIM
VoxCPM2 — 79.5
英文 WER
VoxCPM2 — 1.84%
英文 SIM
VoxCPM2 — 75.3

坦白说,VoxCPM2 在 WER(词错率)上不是最优的——FishAudio S2 英文 WER 0.99%、中文 CER 0.54% 都比它低。但在 SIM(说话人相似度)上它是碾压级的。对于声音克隆场景,SIM 比 WER 重要得多——听众不在乎某个字轻微读错了,但一耳朵听出来"这不是原来那个人的声音"就是灾难。

声音设计方面,VoxCPM2 英文 APS 84.2 也是最高,说明它"听指令造声"的能力确实强。


// blogger verdict
8.6 / 10
开源 TTS 赛道的全能选手
PROS
✓ 30 语言 + 9 方言,低资源语言碾压竞品(高棉/缅甸/老挝 Fish 直接崩)
✓ Voice Design 能力独特——纯文字描述凭空创造声音,APS 英文第一
✓ SIM 说话人相似度碾压级领先,20/24 语言排名第一
✓ 三种克隆模式递进(可控→终极→LoRA),灵活度拉满
✓ Apache-2.0 完全可商用,ICLR 2026 论文背书
✓ 生态丰富:vLLM-Omni / Nano-vLLM / GGUF / ComfyUI / Apple NE 全有
✓ 48kHz 原生输出,AudioVAE V2 非对称编解码内建超分辨率
✓ pip install 一行安装,CLI + Python API + Web Demo + 批量处理
CONS
✗ WER 词错率不是最优,Fish S2 在中英上更准(0.54% vs 0.97%)
✗ 法语/阿拉伯语/捷克语等语言 WER 偏高(9.85%/13%/24%)
✗ Voice Design 和可控克隆结果有随机性,需生成 1-3 次取最佳
✗ 2B 参数 + 8GB 显存门槛,无 GPU 设备无法使用
✗ 104 Open Issues、最新提交 2026-05-11,维护节奏待观察
✗ 技术报告尚未发布(VoxCPM2 论文标注"即将发布")
✗ 声音克隆的伦理风险需自行把控

// links