简介
Voicebox是本地跑的语音克隆工具,有人叫它"开源版ElevenLabs"。上传几秒音频就能克隆声音,支持23种语言,数据都在自己电脑上,隐私这块不用担心。
核心功能
- 声音克隆:几秒音频就能克隆,多样本效果更好
- 5个TTS引擎:Qwen3-TTS、LuxTTS、Chatterbox Multilingual、Chatterbox Turbo、HumeAI TADA
- 23种语言:英语、日语、阿拉伯语、印地语都有,斯瓦希里语也支持
- 8种后处理效果:变调、混响、延迟、合唱、压缩等
- 多声轨编辑器:做播客和有声书挺方便
- REST API:可以接自己的项目
价格方案
| 方案 | 价格 | 功能限制 |
|---|---|---|
| 完全免费 | ¥0 | 全功能开放,本地运行 |
| 云服务 | 暂无 | 暂无云端版本 |
开源免费,没有订阅套路 CPS链接:Voicebox官网 →
优缺点对比
| 优点 | 缺点 |
|---|---|
| 完全免费开源 | 需要本地显卡 |
| 支持23种语言 | 模型体积大 |
| 5个引擎可切换 | Linux要自己编译 |
| 支持表情标签 | 效果依赖显卡性能 |
| 自带API | 没有云端方案 |
适合人群
推荐给播客制作人、有声书创作者、游戏开发者、需要配音的视频博主。隐私要求高的企业用户也适合。
没有独立显卡、不想折腾配置的就不太推荐了。
使用教程
- 到 voicebox.sh 下载安装包
- 安装后启动,首次会自动下载模型(有点慢)
- 点"Create Profile"上传音频或录音
- 输入文字,选声音和引擎,生成
- 加效果或导出
购买建议
完全免费的开源工具,没有付费版。有独立显卡(NVIDIA或Apple Silicon)又想省钱做高质量配音的,值得研究。但得有心理准备:配置环境和学习用都得花点时间。
说实话,这个工具的门槛不低。你得有显卡、会折腾、愿意等模型下载。如果你只是想简单用用AI配音,ElevenLabs的云服务可能更省事。但如果你预算有限又有点技术底子,Voicebox确实是个好选择。
官方链接:Voicebox官网 →
