TTS on 赛博工具站

Voicebox评测：开源语音克隆工作室，ElevenLabs免费替代方案

Fri, 17 Apr 2026 10:00:00 +0800

简介

Voicebox是一款本地优先的开源语音克隆工作室，号称是ElevenLabs的免费替代品。只需几秒音频就能克隆声音，支持23种语言、5种TTS引擎，所有数据都留在你的电脑上——对隐私敏感的内容创作者来说，这简直是神器。

核心功能

声音克隆：从几秒音频样本快速克隆任意声音，支持多样本提升质量
多引擎支持：内置5种TTS引擎（Qwen3-TTS、LuxTTS、Chatterbox Multilingual/Turbo、HumeAI TADA），各有特长
23种语言：覆盖英语、中文、日语、阿拉伯语、印地语、斯瓦希里语等主流语种
情感表达标签：使用[laugh]、[sigh]、[gasp]等标签让语音更生动自然
后期音效处理：8种专业音效（变调、混响、延迟、合唱、压缩器、增益、高低通滤波器）
多轨时间轴编辑器：适合制作对话、播客、有声书等多角色内容
无限长度：自动分块+交叉淡入淡出，最长支持5万字符
REST API：可集成到自己的项目中

价格方案

方案	价格	功能限制
完全免费	¥0	全功能无限制，需本地GPU

💡 这是一款完全开源免费的工具！唯一成本是你的硬件（需要GPU） CPS链接：Voicebox官网 →

优缺点对比

优点	缺点
完全免费开源，无使用限制	需要本地GPU，硬件门槛较高
数据完全本地化，隐私安全	模型体积较大（数GB）
支持23种语言，覆盖面广	初次配置对新手不太友好
5种引擎可切换，灵活性强	Linux版本需自行编译
支持情感标签，语音更自然	英文效果优于中文等小语种
提供API，可二次开发	无云端版本，必须本地运行

适合人群

强烈推荐给：

视频创作者（配音、旁白）
播客制作人
有声书制作者
游戏开发者（NPC配音）
隐私敏感的企业用户
有GPU的开发者

不太推荐：

没有独立显卡的用户
不想折腾配置的技术小白
需要云端随时随地访问的用户
追求极致中文效果的用户（目前英文效果最佳）

使用教程

1. 下载安装

访问 voicebox.sh 下载对应平台版本：

macOS（Apple Silicon/Intel）：DMG安装包
Windows：MSI安装包
Linux：需从源码编译

2. 创建声音档案

点击"New Profile"创建新声音
上传音频样本（或直接录制）
支持多样本提升克隆质量
添加描述和语言标签便于管理

3. 生成语音

选择声音档案和TTS引擎
输入文本（最长5万字符）
可插入情感标签如[laugh]、[sigh]
点击Generate开始生成

4. 应用音效

生成后可添加后期效果
使用内置预设（机器人、广播、回声等）
或自定义音效链
导出最终音频

购买建议

Voicebox完全免费开源，不需要购买。

Voicebox评测：开源语音克隆神器详解

Thu, 16 Apr 2026 10:00:00 +0800

简介

Voicebox是本地跑的语音克隆工具，有人叫它"开源版ElevenLabs"。上传几秒音频就能克隆声音，支持23种语言，数据都在自己电脑上，隐私这块不用担心。

核心功能

声音克隆：几秒音频就能克隆，多样本效果更好
5个TTS引擎：Qwen3-TTS、LuxTTS、Chatterbox Multilingual、Chatterbox Turbo、HumeAI TADA
23种语言：英语、日语、阿拉伯语、印地语都有，斯瓦希里语也支持
8种后处理效果：变调、混响、延迟、合唱、压缩等
多声轨编辑器：做播客和有声书挺方便
REST API：可以接自己的项目

价格方案

方案	价格	功能限制
完全免费	¥0	全功能开放，本地运行
云服务	暂无	暂无云端版本

开源免费，没有订阅套路 CPS链接：Voicebox官网 →

优缺点对比

优点	缺点
完全免费开源	需要本地显卡
支持23种语言	模型体积大
5个引擎可切换	Linux要自己编译
支持表情标签	效果依赖显卡性能
自带API	没有云端方案

适合人群

推荐给播客制作人、有声书创作者、游戏开发者、需要配音的视频博主。隐私要求高的企业用户也适合。

没有独立显卡、不想折腾配置的就不太推荐了。

使用教程

到 voicebox.sh 下载安装包
安装后启动，首次会自动下载模型（有点慢）
点"Create Profile"上传音频或录音
输入文字，选声音和引擎，生成
加效果或导出

购买建议

完全免费的开源工具，没有付费版。有独立显卡（NVIDIA或Apple Silicon）又想省钱做高质量配音的，值得研究。但得有心理准备：配置环境和学习用都得花点时间。

说实话，这个工具的门槛不低。你得有显卡、会折腾、愿意等模型下载。如果你只是想简单用用AI配音，ElevenLabs的云服务可能更省事。但如果你预算有限又有点技术底子，Voicebox确实是个好选择。

官方链接：Voicebox官网 →

VoxCPM2评测：开源48kHz多语言TTS方案详解

Mon, 13 Apr 2026 10:00:00 +0800

简介

VoxCPM2是OpenBMB团队开源的文本转语音模型，支持30种语言，能输出48kHz高质量音频。说白了就是：你输文字，它出人声，而且效果能打。

核心功能

30种语言直出：中英日韩法德西等主流语言全覆盖，输入文本自动识别语言，不用手动标注
Voice Design：用自然语言描述就行，比如"(年轻女性，温柔甜美的声音)大家好"，不需要参考音频
声音克隆：给一段参考音频就能克隆音色，还能控制语速和情绪
48kHz输出：直接输出广播级音质，内置超分辨率，不用外挂升采样
实时流式：RTF约0.3（4090显卡），延迟够低，能做实时对话

价格方案

方案	价格	功能限制
开源版	免费	Apache-2.0许可，商业可用，需自建服务器
云部署	按量付费	参考各大云平台GPU租赁价格

💡 完全开源免费，但需要GPU资源部署。4090显卡最佳，显存需求约8GB。

CPS链接：VoxCPM2官网 →

优缺点对比

优点	缺点
完全开源，Apache-2.0可商用	需要GPU资源，技术门槛较高
30种语言，中文方言支持	云端API需自己搭建
48kHz输出质量高	非技术人员上手困难
Voice Design很有创意	文档主要英文，中文资料少

适合人群

推荐给：开发者、需要大量语音合成的团队、想自建语音服务的企业、AI研究者

不推荐：不会代码的个人用户、没有GPU资源的人、只想要现成工具的小白

使用教程

1. 安装依赖

pip install voxcpm

要求：Python 3.10+，PyTorch 2.5+，CUDA 12.0+

2. 基础使用

from voxcpm import VoxCPM
import soundfile as sf

model = VoxCPM.from_pretrained("openbmb/VoxCPM2", load_denoiser=False)
wav = model.generate(
    text="VoxCPM2是一款强大的多语言语音合成工具。",
    cfg_value=2.0,
    inference_timesteps=10,
)
sf.write("output.wav", wav, model.tts_model.sample_rate)

3. Voice Design玩法

# 用自然语言描述声音
wav = model.generate(
    text="(年轻女性，温柔甜美的声音)欢迎来到VoxCPM2的世界！",
    cfg_value=2.0,
    inference_timesteps=10,
)

4. 声音克隆

# 提供参考音频克隆音色
wav = model.generate(
    text="这是克隆后的声音。",
    reference_wav_path="reference.wav",
)

购买建议

如果你是开发者或有技术团队，VoxCPM2是目前开源TTS里最值得投入的选择之一。30种语言支持、48kHz输出、声音克隆，这些功能放到SaaS平台月费至少几百。

VoxCPM2评测：开源多语言AI语音合成方案详解

Sun, 12 Apr 2026 10:00:00 +0800

简介

VoxCPM2是OpenBMB团队开源的AI语音合成工具，支持30种语言、48kHz高保真输出，能做声音克隆和语音设计。2B参数量，Apache-2.0许可证，可商用。

核心功能

30语言支持：中英日韩、欧洲主流语言、东南亚语言等，输入文本自动识别语言，不需要手动标注
Voice Design声音设计：用自然语言描述就能生成声音，比如"(年轻女性，温柔甜美)大家好"，不需要参考音频
可控声音克隆：上传一段参考音频就能克隆音色，还能用指令控制语速、情绪、风格
终极克隆模式：提供参考音频+对应文本，模型能完整复制音色、节奏、情绪等所有细节
48kHz高保真输出：输出录音棚级别的音频质量，不需要额外升采样
实时流式生成：RTF低至0.13（RTX 4090），支持流式输出

价格方案

方案	价格	功能限制
开源版	¥0	完整功能，Apache-2.0商用许可
Nano-VLLM加速版	¥0	需要额外安装加速引擎

💡 完全免费开源，权重和代码都在Apache-2.0下发布，可自由商用 GitHub开源地址 →

优缺点对比

优点	缺点
完全开源免费，可商用	需要8GB显存起步
支持30种语言，覆盖面广	英文效果最佳，小语种有波动
声音克隆效果出色	部署有一定技术门槛
48kHz高保真输出	首次加载模型较慢
支持实时流式生成	中文方言支持有限

适合人群

推荐给：

视频创作者（配音、旁白）
播客/有声书制作者
多语言内容创作者
有本地部署需求的开发者
想用AI语音又不想付订阅费的团队

不推荐：

没有GPU设备的用户
不想折腾部署的小白用户
只需要简单TTS功能的轻度用户

使用教程

安装

pip install voxcpm

要求：Python ≥ 3.10，PyTorch ≥ 2.5.0，CUDA ≥ 12.0

基础使用

from voxcpm import VoxCPM
import soundfile as sf

model = VoxCPM.from_pretrained("openbmb/VoxCPM2")

wav = model.generate(
    text="VoxCPM2支持中英文混合输入。",
    cfg_value=2.0,
    inference_timesteps=10,
)
sf.write("output.wav", wav, model.tts_model.sample_rate)

声音设计

wav = model.generate(
    text="(年轻女性，温柔甜美的声音)欢迎使用VoxCPM2！",
    cfg_value=2.0,
)

声音克隆

wav = model.generate(
    text="这是克隆后的声音。",
    reference_wav_path="reference.wav",
)

生产环境部署

pip install nano-vllm-voxcpm

使用Nano-VLLM加速引擎，RTF可降至0.13，支持并发请求。

VibeVoice评测：微软开源语音AI三剑客详解

Thu, 02 Apr 2026 10:00:00 +0800

简介

VibeVoice是微软开源的前沿语音AI框架，刚上GitHub Trending就炸了——一天涨了1600多星。这东西厉害在哪？它把语音识别和语音合成这两个硬骨头啃得挺漂亮：ASR能一口气处理60分钟长音频，TTS能生成90分钟的连续语音。对于做播客转写、有声书生成、多人对话场景的玩家来说，这套组合拳值得研究。

核心功能

VibeVoice-ASR（语音识别）：单次处理最长60分钟音频，自动识别谁在什么时候说了什么，支持50+种语言，还能加载自定义热词提高专业领域准确率。已集成到Hugging Face Transformers库，import就能跑。

VibeVoice-TTS（语音合成）：最长生成90分钟连续语音，支持4个不同说话者同时登场，中英文都行。论文被ICLR 2026录用了，技术层面是认真的。

VibeVoice-Realtime（实时TTS）：0.5B参数的轻量模型，首字延迟约300毫秒，支持流式输入。适合对话机器人、实时播报这类对延迟敏感的场景。

价格方案

方案	价格	功能限制
开源版	¥0	模型全开，需自部署GPU
Playground	¥0	在线体验，有调用限制
云服务	按量计费	微软Azure（待官方支持）

💡 官方Playground和Colab笔记本都可以免费试用，建议先玩玩再决定要不要自己部署 CPS链接：VibeVoice Playground →

优缺点对比

优点	缺点
完全开源，模型权重可下载	部署需要GPU资源（ASR 7B显存要求较高）
长音频处理能力业内领先	官方云服务还没上线
多语言支持，中文效果不错	社区生态还在建设中
微软背书，持续迭代有保障	TTS代码因合规原因已下架

适合人群

推荐给：播客、访谈类内容的创作者（ASR转写确实好用）；有声书、多角色配音需求的人；做语音AI研究的学生和开发者；需要本地部署语音能力的企业。

不推荐：没有GPU资源又不想花钱租云主机的；只需要简单短语音转写的轻度用户（用免费的Whisper更省事）。

使用教程

ASR快速上手（Hugging Face方式）

from transformers import AutoModel, AutoProcessor
import torch

# 加载模型
model = AutoModel.from_pretrained("microsoft/VibeVoice-ASR", trust_remote_code=True)
processor = AutoProcessor.from_pretrained("microsoft/VibeVoice-ASR")

# 处理音频
inputs = processor(audio_path, return_tensors="pt")
outputs = model.generate(**inputs)
result = processor.decode(outputs[0])
print(result)  # 输出：谁-何时-说什么的结构化结果

Realtime TTS在线体验

打开官方Colab笔记本
运行安装单元格
输入你想转成语音的文字
选择说话者风格（现支持9种语言+11种英文风格）
点击生成，下载音频

自定义热词提升识别率

# 比如你的音频里有大量专业术语
hotwords = ["RAG", "LangChain", "Vector Database", "Embedding"]
result = model.transcribe(audio_path, hotwords=hotwords)

购买建议

做语音相关产品的，这套工具值得花时间研究。ASR的长音频能力确实能解决很多痛点——以前得把音频切成小块再拼，现在直接扔进去就行。Realtime模型的300毫秒延迟也很适合实时场景。

VibeVoice评测：微软开源语音AI方案详解

Tue, 31 Mar 2026 10:00:00 +0800

简介

微软开源了一套语音AI模型，叫VibeVoice。今天GitHub上一天涨了2400多星，热度挺高的。核心卖点是：能一口气处理60分钟的音频，还能识别是谁说的、什么时候说的。

简单说，就是给播客、会议录音做转写的。跟那些把音频切成小段再拼起来的方案不一样，它直接吞整段，说话人不会乱。

核心功能

VibeVoice-ASR（语音转文字）

单次处理60分钟音频，不用切分
自动识别说话人、打时间戳
支持50多种语言，中文、英文、日文、韩文都行
能喂"热词"提高识别准确率，比如专业术语、人名

VibeVoice-TTS（文字转语音）

最多生成90分钟的语音
支持4个说话人，能模拟对话
已经被微软下架了——因为有人拿它做坏事

VibeVoice-Realtime（实时TTS）

0.5B参数，轻量级
300毫秒出声，适合做实时语音助手
流式输入，边打字边播

价格方案

方案	价格	功能限制
开源版	免费	需自己部署，要有GPU
HuggingFace在线试玩	免费	有额度限制
微软Playground	免费	需登录微软账号

这个是纯开源项目，没有商业授权。模型权重在HuggingFace上，代码在GitHub上。想用就得自己搭服务器，显卡建议A100或者4090起步。

优缺点对比

优点	缺点
微软出品，技术靠谱	需要GPU，门槛不低
长音频单次处理，不用切片	TTS代码已被移除
50+语言，中文支持	仅限研究用途，不能商用
已集成到Transformers库	文档不算太详细
支持热词定制	部署需要一定工程能力

适合人群

推荐给：

做播客、会议转写的开发者
需要长音频处理的语音项目
有GPU资源的研究团队
想自己搭语音识别服务的

不推荐：

没有技术背景的普通用户
想直接商用赚钱的
没有显卡资源的学生党

使用教程

方式一：HuggingFace在线体验

访问 https://huggingface.co/microsoft/VibeVoice-ASR
点击"Files and versions"，找到demo入口
上传音频文件测试

方式二：本地部署

# 安装依赖
pip install transformers torch

# Python代码
from transformers import AutoModel
model = AutoModel.from_pretrained("microsoft/VibeVoice-ASR", trust_remote_code=True)

# 推理
result = model.transcribe("your_audio.mp3")

方式三：Playground体验

访问 https://aka.ms/vibevoice-asr
用微软账号登录
上传音频体验完整功能

购买建议

这个项目不适合"买"，因为没有付费版。适合不适合你，看这三点：

fish-speech：开源 TTS 如何突破 SOTA？技术原理与应用实践

Sun, 15 Mar 2026 16:00:00 +0800

fish-speech 作为 GitHub 上最受关注的开源语音合成项目，号称达到 SOTA 水平。本文深入解析其技术架构、音色克隆能力、多语言支持，以及在 AI Agent 场景中的集成实践。