简介

Voicebox是一款本地优先的开源语音克隆工作室,号称是ElevenLabs的免费替代品。只需几秒音频就能克隆声音,支持23种语言、5种TTS引擎,所有数据都留在你的电脑上——对隐私敏感的内容创作者来说,这简直是神器。

核心功能

  • 声音克隆:从几秒音频样本快速克隆任意声音,支持多样本提升质量
  • 多引擎支持:内置5种TTS引擎(Qwen3-TTS、LuxTTS、Chatterbox Multilingual/Turbo、HumeAI TADA),各有特长
  • 23种语言:覆盖英语、中文、日语、阿拉伯语、印地语、斯瓦希里语等主流语种
  • 情感表达标签:使用[laugh][sigh][gasp]等标签让语音更生动自然
  • 后期音效处理:8种专业音效(变调、混响、延迟、合唱、压缩器、增益、高低通滤波器)
  • 多轨时间轴编辑器:适合制作对话、播客、有声书等多角色内容
  • 无限长度:自动分块+交叉淡入淡出,最长支持5万字符
  • REST API:可集成到自己的项目中

价格方案

方案价格功能限制
完全免费¥0全功能无限制,需本地GPU

💡 这是一款完全开源免费的工具!唯一成本是你的硬件(需要GPU) CPS链接:Voicebox官网 →

优缺点对比

优点缺点
完全免费开源,无使用限制需要本地GPU,硬件门槛较高
数据完全本地化,隐私安全模型体积较大(数GB)
支持23种语言,覆盖面广初次配置对新手不太友好
5种引擎可切换,灵活性强Linux版本需自行编译
支持情感标签,语音更自然英文效果优于中文等小语种
提供API,可二次开发无云端版本,必须本地运行

适合人群

强烈推荐给:

  • 视频创作者(配音、旁白)
  • 播客制作人
  • 有声书制作者
  • 游戏开发者(NPC配音)
  • 隐私敏感的企业用户
  • 有GPU的开发者

不太推荐:

  • 没有独立显卡的用户
  • 不想折腾配置的技术小白
  • 需要云端随时随地访问的用户
  • 追求极致中文效果的用户(目前英文效果最佳)

使用教程

1. 下载安装

访问 voicebox.sh 下载对应平台版本:

  • macOS(Apple Silicon/Intel):DMG安装包
  • Windows:MSI安装包
  • Linux:需从源码编译

2. 创建声音档案

  • 点击"New Profile"创建新声音
  • 上传音频样本(或直接录制)
  • 支持多样本提升克隆质量
  • 添加描述和语言标签便于管理

3. 生成语音

  • 选择声音档案和TTS引擎
  • 输入文本(最长5万字符)
  • 可插入情感标签如[laugh][sigh]
  • 点击Generate开始生成

4. 应用音效

  • 生成后可添加后期效果
  • 使用内置预设(机器人、广播、回声等)
  • 或自定义音效链
  • 导出最终音频

购买建议

Voicebox完全免费开源,不需要购买。

但使用前请确认:

  • ✅ 你的电脑有NVIDIA显卡(推荐RTX 3060及以上)
  • ✅ 至少8GB显存(更高效果更好)
  • ✅ 足够的磁盘空间(模型约5-10GB)
  • ✅ 愿意花时间学习配置

如果你追求的是开箱即用的云端服务,ElevenLabs仍是首选。但如果你有硬件条件、重视隐私、想长期低成本使用——Voicebox绝对是最佳选择。

🎯 官方链接:Voicebox官网 → 📦 GitHub仓库:jamiepine/voicebox