语音合成 on 赛博工具站

Voicebox评测：开源语音克隆工作室，ElevenLabs免费替代方案

Fri, 17 Apr 2026 10:00:00 +0800

简介

Voicebox是一款本地优先的开源语音克隆工作室，号称是ElevenLabs的免费替代品。只需几秒音频就能克隆声音，支持23种语言、5种TTS引擎，所有数据都留在你的电脑上——对隐私敏感的内容创作者来说，这简直是神器。

核心功能

声音克隆：从几秒音频样本快速克隆任意声音，支持多样本提升质量
多引擎支持：内置5种TTS引擎（Qwen3-TTS、LuxTTS、Chatterbox Multilingual/Turbo、HumeAI TADA），各有特长
23种语言：覆盖英语、中文、日语、阿拉伯语、印地语、斯瓦希里语等主流语种
情感表达标签：使用[laugh]、[sigh]、[gasp]等标签让语音更生动自然
后期音效处理：8种专业音效（变调、混响、延迟、合唱、压缩器、增益、高低通滤波器）
多轨时间轴编辑器：适合制作对话、播客、有声书等多角色内容
无限长度：自动分块+交叉淡入淡出，最长支持5万字符
REST API：可集成到自己的项目中

价格方案

方案	价格	功能限制
完全免费	¥0	全功能无限制，需本地GPU

💡 这是一款完全开源免费的工具！唯一成本是你的硬件（需要GPU） CPS链接：Voicebox官网 →

优缺点对比

优点	缺点
完全免费开源，无使用限制	需要本地GPU，硬件门槛较高
数据完全本地化，隐私安全	模型体积较大（数GB）
支持23种语言，覆盖面广	初次配置对新手不太友好
5种引擎可切换，灵活性强	Linux版本需自行编译
支持情感标签，语音更自然	英文效果优于中文等小语种
提供API，可二次开发	无云端版本，必须本地运行

适合人群

强烈推荐给：

视频创作者（配音、旁白）
播客制作人
有声书制作者
游戏开发者（NPC配音）
隐私敏感的企业用户
有GPU的开发者

不太推荐：

没有独立显卡的用户
不想折腾配置的技术小白
需要云端随时随地访问的用户
追求极致中文效果的用户（目前英文效果最佳）

使用教程

1. 下载安装

访问 voicebox.sh 下载对应平台版本：

macOS（Apple Silicon/Intel）：DMG安装包
Windows：MSI安装包
Linux：需从源码编译

2. 创建声音档案

点击"New Profile"创建新声音
上传音频样本（或直接录制）
支持多样本提升克隆质量
添加描述和语言标签便于管理

3. 生成语音

选择声音档案和TTS引擎
输入文本（最长5万字符）
可插入情感标签如[laugh]、[sigh]
点击Generate开始生成

4. 应用音效

生成后可添加后期效果
使用内置预设（机器人、广播、回声等）
或自定义音效链
导出最终音频

购买建议

Voicebox完全免费开源，不需要购买。

Voicebox评测：开源语音克隆神器详解

Thu, 16 Apr 2026 10:00:00 +0800

简介

Voicebox是本地跑的语音克隆工具，有人叫它"开源版ElevenLabs"。上传几秒音频就能克隆声音，支持23种语言，数据都在自己电脑上，隐私这块不用担心。

核心功能

声音克隆：几秒音频就能克隆，多样本效果更好
5个TTS引擎：Qwen3-TTS、LuxTTS、Chatterbox Multilingual、Chatterbox Turbo、HumeAI TADA
23种语言：英语、日语、阿拉伯语、印地语都有，斯瓦希里语也支持
8种后处理效果：变调、混响、延迟、合唱、压缩等
多声轨编辑器：做播客和有声书挺方便
REST API：可以接自己的项目

价格方案

方案	价格	功能限制
完全免费	¥0	全功能开放，本地运行
云服务	暂无	暂无云端版本

开源免费，没有订阅套路 CPS链接：Voicebox官网 →

优缺点对比

优点	缺点
完全免费开源	需要本地显卡
支持23种语言	模型体积大
5个引擎可切换	Linux要自己编译
支持表情标签	效果依赖显卡性能
自带API	没有云端方案

适合人群

推荐给播客制作人、有声书创作者、游戏开发者、需要配音的视频博主。隐私要求高的企业用户也适合。

没有独立显卡、不想折腾配置的就不太推荐了。

使用教程

到 voicebox.sh 下载安装包
安装后启动，首次会自动下载模型（有点慢）
点"Create Profile"上传音频或录音
输入文字，选声音和引擎，生成
加效果或导出

购买建议

完全免费的开源工具，没有付费版。有独立显卡（NVIDIA或Apple Silicon）又想省钱做高质量配音的，值得研究。但得有心理准备：配置环境和学习用都得花点时间。

说实话，这个工具的门槛不低。你得有显卡、会折腾、愿意等模型下载。如果你只是想简单用用AI配音，ElevenLabs的云服务可能更省事。但如果你预算有限又有点技术底子，Voicebox确实是个好选择。

官方链接：Voicebox官网 →

ElevenLabs评测：AI语音合成天花板，打造你的专属AI声音

Mon, 13 Apr 2026 16:00:00 +0800

先说结论

ElevenLabs是我用过最像真人的AI配音工具，没有之一。英文效果好到让你起鸡皮疙瘩，中文也说得过去。如果你做短视频、播客、或者需要大量配音内容，这个工具值得花钱。

ElevenLabs能做什么

简单说就是三件事：

文字转语音 — 输入文字，生成人声。支持30多种语言，男声女声童声都有，语速语调可以调。

声音克隆 — 上传几分钟你的声音样本，AI就能模仿你。做个人IP的话很实用。

视频配音 — 上传视频，它能自动翻译并配音成其他语言。做跨境电商或者出海内容的应该会喜欢。

价格怎么算

说实话，免费版只能尝鲜。10,000字符大约就是一篇短文的量，做几个短视频就没了。

方案	价格	字符/月	适合谁
免费	$0	10,000	体验一下效果
Starter	$5	30,000	偶尔用用
Creator	$22	100,000	正经创作者
Pro	$99	500,000	团队用

新用户注册送10,000字符，建议先试试效果再决定。

ElevenLabs官网

实际体验如何

先说优点。

音质真的很好。我测试过几个主流的AI配音工具，ElevenLabs的英文效果是唯一一个让我觉得"这真的是AI吗"的。语调自然、停顿合理、情感表达到位。

声音克隆功能也挺惊艳的。我上传了大概3分钟的录音，生成的声音跟我的声音有七八分像。当然，原声质量越好，克隆效果越好。

API接入很方便。如果你是开发者，可以把语音功能集成到自己的产品里。

再说缺点。

免费额度太少。10,000字符真的只是尝鲜，想做正经内容必须付费。

中文效果比英文差一截。虽然能用，但有时候会有一点点"机器感"，不像英文那么自然。如果中文是主要需求，可以对比看看国内的AI配音工具。

高峰期偶尔要排队。生成速度有时候会变慢，可能是因为用户太多。

跟其他工具比呢

我之前试过几个类似工具：

讯飞配音：中文效果好，但英文一般，出海内容不太行
Azure TTS：微软家的，稳定但声音选择少
Google TTS：免费但音质差一些

ElevenLabs在音质上确实是第一梯队，尤其是英文内容。但如果你主要做中文，可以横向对比一下国内方案。

适合什么人用

如果你是这几类人，可以考虑入：

做YouTube或者抖音的，需要大量配音
播客主播，想用AI辅助录制
跨境电商，需要多语言配音
游戏开发者，需要给NPC配音
教育培训，做课程内容

如果你只是偶尔需要配音，免费版够用了。如果每天都要生产内容，Creator版起步比较合适。

怎么用最快上手

三个步骤：

注册账号，用Google登录最快
在Voice Library里找个喜欢的声音试听
输入文字，点生成，下载MP3

声音克隆的话，需要上传1-5分钟的音频样本，然后在VoiceLab里创建。

值不值得买

看你需求。

VoxCPM2评测：开源48kHz多语言TTS方案详解

Mon, 13 Apr 2026 10:00:00 +0800

简介

VoxCPM2是OpenBMB团队开源的文本转语音模型，支持30种语言，能输出48kHz高质量音频。说白了就是：你输文字，它出人声，而且效果能打。

核心功能

30种语言直出：中英日韩法德西等主流语言全覆盖，输入文本自动识别语言，不用手动标注
Voice Design：用自然语言描述就行，比如"(年轻女性，温柔甜美的声音)大家好"，不需要参考音频
声音克隆：给一段参考音频就能克隆音色，还能控制语速和情绪
48kHz输出：直接输出广播级音质，内置超分辨率，不用外挂升采样
实时流式：RTF约0.3（4090显卡），延迟够低，能做实时对话

价格方案

方案	价格	功能限制
开源版	免费	Apache-2.0许可，商业可用，需自建服务器
云部署	按量付费	参考各大云平台GPU租赁价格

💡 完全开源免费，但需要GPU资源部署。4090显卡最佳，显存需求约8GB。

CPS链接：VoxCPM2官网 →

优缺点对比

优点	缺点
完全开源，Apache-2.0可商用	需要GPU资源，技术门槛较高
30种语言，中文方言支持	云端API需自己搭建
48kHz输出质量高	非技术人员上手困难
Voice Design很有创意	文档主要英文，中文资料少

适合人群

推荐给：开发者、需要大量语音合成的团队、想自建语音服务的企业、AI研究者

不推荐：不会代码的个人用户、没有GPU资源的人、只想要现成工具的小白

使用教程

1. 安装依赖

pip install voxcpm

要求：Python 3.10+，PyTorch 2.5+，CUDA 12.0+

2. 基础使用

from voxcpm import VoxCPM
import soundfile as sf

model = VoxCPM.from_pretrained("openbmb/VoxCPM2", load_denoiser=False)
wav = model.generate(
    text="VoxCPM2是一款强大的多语言语音合成工具。",
    cfg_value=2.0,
    inference_timesteps=10,
)
sf.write("output.wav", wav, model.tts_model.sample_rate)

3. Voice Design玩法

# 用自然语言描述声音
wav = model.generate(
    text="(年轻女性，温柔甜美的声音)欢迎来到VoxCPM2的世界！",
    cfg_value=2.0,
    inference_timesteps=10,
)

4. 声音克隆

# 提供参考音频克隆音色
wav = model.generate(
    text="这是克隆后的声音。",
    reference_wav_path="reference.wav",
)

购买建议

如果你是开发者或有技术团队，VoxCPM2是目前开源TTS里最值得投入的选择之一。30种语言支持、48kHz输出、声音克隆，这些功能放到SaaS平台月费至少几百。

VoxCPM2评测：开源多语言AI语音合成方案详解

Sun, 12 Apr 2026 10:00:00 +0800

简介

VoxCPM2是OpenBMB团队开源的AI语音合成工具，支持30种语言、48kHz高保真输出，能做声音克隆和语音设计。2B参数量，Apache-2.0许可证，可商用。

核心功能

30语言支持：中英日韩、欧洲主流语言、东南亚语言等，输入文本自动识别语言，不需要手动标注
Voice Design声音设计：用自然语言描述就能生成声音，比如"(年轻女性，温柔甜美)大家好"，不需要参考音频
可控声音克隆：上传一段参考音频就能克隆音色，还能用指令控制语速、情绪、风格
终极克隆模式：提供参考音频+对应文本，模型能完整复制音色、节奏、情绪等所有细节
48kHz高保真输出：输出录音棚级别的音频质量，不需要额外升采样
实时流式生成：RTF低至0.13（RTX 4090），支持流式输出

价格方案

方案	价格	功能限制
开源版	¥0	完整功能，Apache-2.0商用许可
Nano-VLLM加速版	¥0	需要额外安装加速引擎

💡 完全免费开源，权重和代码都在Apache-2.0下发布，可自由商用 GitHub开源地址 →

优缺点对比

优点	缺点
完全开源免费，可商用	需要8GB显存起步
支持30种语言，覆盖面广	英文效果最佳，小语种有波动
声音克隆效果出色	部署有一定技术门槛
48kHz高保真输出	首次加载模型较慢
支持实时流式生成	中文方言支持有限

适合人群

推荐给：

视频创作者（配音、旁白）
播客/有声书制作者
多语言内容创作者
有本地部署需求的开发者
想用AI语音又不想付订阅费的团队

不推荐：

没有GPU设备的用户
不想折腾部署的小白用户
只需要简单TTS功能的轻度用户

使用教程

安装

pip install voxcpm

要求：Python ≥ 3.10，PyTorch ≥ 2.5.0，CUDA ≥ 12.0

基础使用

from voxcpm import VoxCPM
import soundfile as sf

model = VoxCPM.from_pretrained("openbmb/VoxCPM2")

wav = model.generate(
    text="VoxCPM2支持中英文混合输入。",
    cfg_value=2.0,
    inference_timesteps=10,
)
sf.write("output.wav", wav, model.tts_model.sample_rate)

声音设计

wav = model.generate(
    text="(年轻女性，温柔甜美的声音)欢迎使用VoxCPM2！",
    cfg_value=2.0,
)

声音克隆

wav = model.generate(
    text="这是克隆后的声音。",
    reference_wav_path="reference.wav",
)

生产环境部署

pip install nano-vllm-voxcpm

使用Nano-VLLM加速引擎，RTF可降至0.13，支持并发请求。

VibeVoice评测：微软开源语音AI全家桶方案详解

Mon, 30 Mar 2026 10:00:00 +0800

简介

VibeVoice是微软开源的前沿语音AI框架，主打"长音频处理"——语音识别能一次吃下60分钟录音，语音合成能一口气生成90分钟的对话。这不是普通的TTS/ASR工具，而是专为播客、会议、多角色对话场景设计的硬核方案。

核心功能

VibeVoice-ASR（语音识别）：单次处理60分钟长音频，自动输出说话人识别、时间戳、文字内容三合一的结构化转录，支持50+语种
VibeVoice-TTS（语音合成）：最长90分钟连续生成，支持4个不同说话人同台对话，保留情感和对话节奏
VibeVoice-Realtime（实时语音）：0.5B轻量模型，300毫秒首字延迟，流式输入实时输出，适合对话机器人场景
自定义热词：可输入专业术语、人名等上下文，显著提升领域内容识别准确率
多语言支持：英语、中文及其他语言，跨语言合成自然流畅

价格方案

方案	价格	功能限制
开源版（GitHub）	¥0	完整模型权重，需自行部署
HuggingFace在线体验	¥0	Playground免费试用，有排队
Azure云服务	按量计费	企业级API，SLA保障

💡 点击下方链接可享受专属优惠 CPS链接：VibeVoice官网 →

优缺点对比

优点	缺点
微软出品，开源免费，可商用	自行部署门槛高，需要GPU
60分钟长音频一次搞定	TTS代码已被移除，仅保留ASR和Realtime
支持多说话人识别与合成	中文文档较少，主要靠英文README
已集成到HuggingFace Transformers	模型体积大（ASR 7B参数）

适合人群

推荐给：

播客制作团队（长音频转录+后期合成）
会议记录需求方（自动区分发言人）
AI语音应用开发者（需要开源底座）
内容创作者（多角色配音需求）

不推荐：

没有技术背景的普通用户（部署复杂）
短视频配音需求（有更轻量的选择）
对延迟极度敏感的实时对话场景（Realtime版延迟仍约300ms）

使用教程

ASR语音识别快速上手

# 安装依赖
pip install transformers torch

# 加载模型
from transformers import AutoModel, AutoProcessor
model = AutoModel.from_pretrained("microsoft/VibeVoice-ASR")
processor = AutoProcessor.from_pretrained("microsoft/VibeVoice-ASR")

# 处理音频
result = model(processor(audio_path))
# 输出包含：说话人、时间戳、文字

Realtime实时语音合成

# Colab一键体验
# 访问：https://colab.research.google.com/github/microsoft/VibeVoice/blob/main/demo/vibevoice_realtime_colab.ipynb

在线体验地址

ASR Playground: https://aka.ms/vibevoice-asr
Realtime Colab: 官方Demo笔记本

购买建议

如果你是个人开发者或小团队，直接用GitHub开源版本+HuggingFace在线体验即可，完全免费。

fish-speech：开源 TTS 如何突破 SOTA？技术原理与应用实践

Sun, 15 Mar 2026 16:00:00 +0800

fish-speech 作为 GitHub 上最受关注的开源语音合成项目，号称达到 SOTA 水平。本文深入解析其技术架构、音色克隆能力、多语言支持，以及在 AI Agent 场景中的集成实践。