<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>语音合成 on 赛博工具站</title>
    <link>https://www.haodaohang.top/tags/%E8%AF%AD%E9%9F%B3%E5%90%88%E6%88%90/</link>
    <description>Recent content in 语音合成 on 赛博工具站</description>
    <image>
      <title>赛博工具站</title>
      <url>https://www.haodaohang.top/images/cover.png</url>
      <link>https://www.haodaohang.top/images/cover.png</link>
    </image>
    <generator>Hugo -- 0.152.2</generator>
    <language>zh-cn</language>
    <lastBuildDate>Fri, 17 Apr 2026 10:00:00 +0800</lastBuildDate>
    <atom:link href="https://www.haodaohang.top/tags/%E8%AF%AD%E9%9F%B3%E5%90%88%E6%88%90/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Voicebox评测：开源语音克隆工作室，ElevenLabs免费替代方案</title>
      <link>https://www.haodaohang.top/posts/2026-04-17-voicebox-review/</link>
      <pubDate>Fri, 17 Apr 2026 10:00:00 +0800</pubDate>
      <guid>https://www.haodaohang.top/posts/2026-04-17-voicebox-review/</guid>
      <description>&lt;h2 id=&#34;简介&#34;&gt;简介&lt;/h2&gt;
&lt;p&gt;Voicebox是一款本地优先的开源语音克隆工作室，号称是ElevenLabs的免费替代品。只需几秒音频就能克隆声音，支持23种语言、5种TTS引擎，所有数据都留在你的电脑上——对隐私敏感的内容创作者来说，这简直是神器。&lt;/p&gt;
&lt;h2 id=&#34;核心功能&#34;&gt;核心功能&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;声音克隆&lt;/strong&gt;：从几秒音频样本快速克隆任意声音，支持多样本提升质量&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;多引擎支持&lt;/strong&gt;：内置5种TTS引擎（Qwen3-TTS、LuxTTS、Chatterbox Multilingual/Turbo、HumeAI TADA），各有特长&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;23种语言&lt;/strong&gt;：覆盖英语、中文、日语、阿拉伯语、印地语、斯瓦希里语等主流语种&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;情感表达标签&lt;/strong&gt;：使用&lt;code&gt;[laugh]&lt;/code&gt;、&lt;code&gt;[sigh]&lt;/code&gt;、&lt;code&gt;[gasp]&lt;/code&gt;等标签让语音更生动自然&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;后期音效处理&lt;/strong&gt;：8种专业音效（变调、混响、延迟、合唱、压缩器、增益、高低通滤波器）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;多轨时间轴编辑器&lt;/strong&gt;：适合制作对话、播客、有声书等多角色内容&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;无限长度&lt;/strong&gt;：自动分块+交叉淡入淡出，最长支持5万字符&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;REST API&lt;/strong&gt;：可集成到自己的项目中&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;价格方案&#34;&gt;价格方案&lt;/h2&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;方案&lt;/th&gt;
          &lt;th&gt;价格&lt;/th&gt;
          &lt;th&gt;功能限制&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;完全免费&lt;/td&gt;
          &lt;td&gt;¥0&lt;/td&gt;
          &lt;td&gt;全功能无限制，需本地GPU&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;blockquote&gt;
&lt;p&gt;💡 这是一款完全开源免费的工具！唯一成本是你的硬件（需要GPU）
&lt;a href=&#34;https://voicebox.sh&#34;&gt;CPS链接：Voicebox官网 →&lt;/a&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h2 id=&#34;优缺点对比&#34;&gt;优缺点对比&lt;/h2&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;优点&lt;/th&gt;
          &lt;th&gt;缺点&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;完全免费开源，无使用限制&lt;/td&gt;
          &lt;td&gt;需要本地GPU，硬件门槛较高&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;数据完全本地化，隐私安全&lt;/td&gt;
          &lt;td&gt;模型体积较大（数GB）&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;支持23种语言，覆盖面广&lt;/td&gt;
          &lt;td&gt;初次配置对新手不太友好&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;5种引擎可切换，灵活性强&lt;/td&gt;
          &lt;td&gt;Linux版本需自行编译&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;支持情感标签，语音更自然&lt;/td&gt;
          &lt;td&gt;英文效果优于中文等小语种&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;提供API，可二次开发&lt;/td&gt;
          &lt;td&gt;无云端版本，必须本地运行&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id=&#34;适合人群&#34;&gt;适合人群&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;强烈推荐给：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;视频创作者（配音、旁白）&lt;/li&gt;
&lt;li&gt;播客制作人&lt;/li&gt;
&lt;li&gt;有声书制作者&lt;/li&gt;
&lt;li&gt;游戏开发者（NPC配音）&lt;/li&gt;
&lt;li&gt;隐私敏感的企业用户&lt;/li&gt;
&lt;li&gt;有GPU的开发者&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;不太推荐：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;没有独立显卡的用户&lt;/li&gt;
&lt;li&gt;不想折腾配置的技术小白&lt;/li&gt;
&lt;li&gt;需要云端随时随地访问的用户&lt;/li&gt;
&lt;li&gt;追求极致中文效果的用户（目前英文效果最佳）&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;使用教程&#34;&gt;使用教程&lt;/h2&gt;
&lt;h3 id=&#34;1-下载安装&#34;&gt;1. 下载安装&lt;/h3&gt;
&lt;p&gt;访问 &lt;a href=&#34;https://voicebox.sh&#34;&gt;voicebox.sh&lt;/a&gt; 下载对应平台版本：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;macOS（Apple Silicon/Intel）：DMG安装包&lt;/li&gt;
&lt;li&gt;Windows：MSI安装包&lt;/li&gt;
&lt;li&gt;Linux：需从源码编译&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;2-创建声音档案&#34;&gt;2. 创建声音档案&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;点击&amp;quot;New Profile&amp;quot;创建新声音&lt;/li&gt;
&lt;li&gt;上传音频样本（或直接录制）&lt;/li&gt;
&lt;li&gt;支持多样本提升克隆质量&lt;/li&gt;
&lt;li&gt;添加描述和语言标签便于管理&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;3-生成语音&#34;&gt;3. 生成语音&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;选择声音档案和TTS引擎&lt;/li&gt;
&lt;li&gt;输入文本（最长5万字符）&lt;/li&gt;
&lt;li&gt;可插入情感标签如&lt;code&gt;[laugh]&lt;/code&gt;、&lt;code&gt;[sigh]&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;点击Generate开始生成&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;4-应用音效&#34;&gt;4. 应用音效&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;生成后可添加后期效果&lt;/li&gt;
&lt;li&gt;使用内置预设（机器人、广播、回声等）&lt;/li&gt;
&lt;li&gt;或自定义音效链&lt;/li&gt;
&lt;li&gt;导出最终音频&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;购买建议&#34;&gt;购买建议&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;Voicebox完全免费开源，不需要购买。&lt;/strong&gt;&lt;/p&gt;</description>
    </item>
    <item>
      <title>Voicebox评测：开源语音克隆神器详解</title>
      <link>https://www.haodaohang.top/posts/2026-04-16-voicebox-review/</link>
      <pubDate>Thu, 16 Apr 2026 10:00:00 +0800</pubDate>
      <guid>https://www.haodaohang.top/posts/2026-04-16-voicebox-review/</guid>
      <description>&lt;h2 id=&#34;简介&#34;&gt;简介&lt;/h2&gt;
&lt;p&gt;Voicebox是本地跑的语音克隆工具，有人叫它&amp;quot;开源版ElevenLabs&amp;quot;。上传几秒音频就能克隆声音，支持23种语言，数据都在自己电脑上，隐私这块不用担心。&lt;/p&gt;
&lt;h2 id=&#34;核心功能&#34;&gt;核心功能&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;声音克隆：几秒音频就能克隆，多样本效果更好&lt;/li&gt;
&lt;li&gt;5个TTS引擎：Qwen3-TTS、LuxTTS、Chatterbox Multilingual、Chatterbox Turbo、HumeAI TADA&lt;/li&gt;
&lt;li&gt;23种语言：英语、日语、阿拉伯语、印地语都有，斯瓦希里语也支持&lt;/li&gt;
&lt;li&gt;8种后处理效果：变调、混响、延迟、合唱、压缩等&lt;/li&gt;
&lt;li&gt;多声轨编辑器：做播客和有声书挺方便&lt;/li&gt;
&lt;li&gt;REST API：可以接自己的项目&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;价格方案&#34;&gt;价格方案&lt;/h2&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;方案&lt;/th&gt;
          &lt;th&gt;价格&lt;/th&gt;
          &lt;th&gt;功能限制&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;完全免费&lt;/td&gt;
          &lt;td&gt;¥0&lt;/td&gt;
          &lt;td&gt;全功能开放，本地运行&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;云服务&lt;/td&gt;
          &lt;td&gt;暂无&lt;/td&gt;
          &lt;td&gt;暂无云端版本&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;blockquote&gt;
&lt;p&gt;开源免费，没有订阅套路
&lt;a href=&#34;%E9%93%BE%E6%8E%A5&#34;&gt;CPS链接：Voicebox官网 →&lt;/a&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h2 id=&#34;优缺点对比&#34;&gt;优缺点对比&lt;/h2&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;优点&lt;/th&gt;
          &lt;th&gt;缺点&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;完全免费开源&lt;/td&gt;
          &lt;td&gt;需要本地显卡&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;支持23种语言&lt;/td&gt;
          &lt;td&gt;模型体积大&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;5个引擎可切换&lt;/td&gt;
          &lt;td&gt;Linux要自己编译&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;支持表情标签&lt;/td&gt;
          &lt;td&gt;效果依赖显卡性能&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;自带API&lt;/td&gt;
          &lt;td&gt;没有云端方案&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id=&#34;适合人群&#34;&gt;适合人群&lt;/h2&gt;
&lt;p&gt;推荐给播客制作人、有声书创作者、游戏开发者、需要配音的视频博主。隐私要求高的企业用户也适合。&lt;/p&gt;
&lt;p&gt;没有独立显卡、不想折腾配置的就不太推荐了。&lt;/p&gt;
&lt;h2 id=&#34;使用教程&#34;&gt;使用教程&lt;/h2&gt;
&lt;ol&gt;
&lt;li&gt;到 voicebox.sh 下载安装包&lt;/li&gt;
&lt;li&gt;安装后启动，首次会自动下载模型（有点慢）&lt;/li&gt;
&lt;li&gt;点&amp;quot;Create Profile&amp;quot;上传音频或录音&lt;/li&gt;
&lt;li&gt;输入文字，选声音和引擎，生成&lt;/li&gt;
&lt;li&gt;加效果或导出&lt;/li&gt;
&lt;/ol&gt;
&lt;h2 id=&#34;购买建议&#34;&gt;购买建议&lt;/h2&gt;
&lt;p&gt;完全免费的开源工具，没有付费版。有独立显卡（NVIDIA或Apple Silicon）又想省钱做高质量配音的，值得研究。但得有心理准备：配置环境和学习用都得花点时间。&lt;/p&gt;
&lt;p&gt;说实话，这个工具的门槛不低。你得有显卡、会折腾、愿意等模型下载。如果你只是想简单用用AI配音，ElevenLabs的云服务可能更省事。但如果你预算有限又有点技术底子，Voicebox确实是个好选择。&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;官方链接：&lt;a href=&#34;https://voicebox.sh&#34;&gt;Voicebox官网 →&lt;/a&gt;&lt;/p&gt;
&lt;/blockquote&gt;</description>
    </item>
    <item>
      <title>ElevenLabs评测：AI语音合成天花板，打造你的专属AI声音</title>
      <link>https://www.haodaohang.top/posts/2026-04-13-elevenlabs-review/</link>
      <pubDate>Mon, 13 Apr 2026 16:00:00 +0800</pubDate>
      <guid>https://www.haodaohang.top/posts/2026-04-13-elevenlabs-review/</guid>
      <description>&lt;h2 id=&#34;先说结论&#34;&gt;先说结论&lt;/h2&gt;
&lt;p&gt;ElevenLabs是我用过最像真人的AI配音工具，没有之一。英文效果好到让你起鸡皮疙瘩，中文也说得过去。如果你做短视频、播客、或者需要大量配音内容，这个工具值得花钱。&lt;/p&gt;
&lt;h2 id=&#34;elevenlabs能做什么&#34;&gt;ElevenLabs能做什么&lt;/h2&gt;
&lt;p&gt;简单说就是三件事：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;文字转语音&lt;/strong&gt; — 输入文字，生成人声。支持30多种语言，男声女声童声都有，语速语调可以调。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;声音克隆&lt;/strong&gt; — 上传几分钟你的声音样本，AI就能模仿你。做个人IP的话很实用。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;视频配音&lt;/strong&gt; — 上传视频，它能自动翻译并配音成其他语言。做跨境电商或者出海内容的应该会喜欢。&lt;/p&gt;
&lt;h2 id=&#34;价格怎么算&#34;&gt;价格怎么算&lt;/h2&gt;
&lt;p&gt;说实话，免费版只能尝鲜。10,000字符大约就是一篇短文的量，做几个短视频就没了。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;方案&lt;/th&gt;
          &lt;th&gt;价格&lt;/th&gt;
          &lt;th&gt;字符/月&lt;/th&gt;
          &lt;th&gt;适合谁&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;免费&lt;/td&gt;
          &lt;td&gt;$0&lt;/td&gt;
          &lt;td&gt;10,000&lt;/td&gt;
          &lt;td&gt;体验一下效果&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Starter&lt;/td&gt;
          &lt;td&gt;$5&lt;/td&gt;
          &lt;td&gt;30,000&lt;/td&gt;
          &lt;td&gt;偶尔用用&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Creator&lt;/td&gt;
          &lt;td&gt;$22&lt;/td&gt;
          &lt;td&gt;100,000&lt;/td&gt;
          &lt;td&gt;正经创作者&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Pro&lt;/td&gt;
          &lt;td&gt;$99&lt;/td&gt;
          &lt;td&gt;500,000&lt;/td&gt;
          &lt;td&gt;团队用&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;新用户注册送10,000字符，建议先试试效果再决定。&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;a href=&#34;%E5%BE%85%E7%94%B3%E8%AF%B7%E8%81%94%E7%9B%9F%E9%93%BE%E6%8E%A5&#34;&gt;ElevenLabs官网&lt;/a&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h2 id=&#34;实际体验如何&#34;&gt;实际体验如何&lt;/h2&gt;
&lt;p&gt;先说优点。&lt;/p&gt;
&lt;p&gt;音质真的很好。我测试过几个主流的AI配音工具，ElevenLabs的英文效果是唯一一个让我觉得&amp;quot;这真的是AI吗&amp;quot;的。语调自然、停顿合理、情感表达到位。&lt;/p&gt;
&lt;p&gt;声音克隆功能也挺惊艳的。我上传了大概3分钟的录音，生成的声音跟我的声音有七八分像。当然，原声质量越好，克隆效果越好。&lt;/p&gt;
&lt;p&gt;API接入很方便。如果你是开发者，可以把语音功能集成到自己的产品里。&lt;/p&gt;
&lt;p&gt;再说缺点。&lt;/p&gt;
&lt;p&gt;免费额度太少。10,000字符真的只是尝鲜，想做正经内容必须付费。&lt;/p&gt;
&lt;p&gt;中文效果比英文差一截。虽然能用，但有时候会有一点点&amp;quot;机器感&amp;quot;，不像英文那么自然。如果中文是主要需求，可以对比看看国内的AI配音工具。&lt;/p&gt;
&lt;p&gt;高峰期偶尔要排队。生成速度有时候会变慢，可能是因为用户太多。&lt;/p&gt;
&lt;h2 id=&#34;跟其他工具比呢&#34;&gt;跟其他工具比呢&lt;/h2&gt;
&lt;p&gt;我之前试过几个类似工具：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;讯飞配音&lt;/strong&gt;：中文效果好，但英文一般，出海内容不太行&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Azure TTS&lt;/strong&gt;：微软家的，稳定但声音选择少&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Google TTS&lt;/strong&gt;：免费但音质差一些&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;ElevenLabs在音质上确实是第一梯队，尤其是英文内容。但如果你主要做中文，可以横向对比一下国内方案。&lt;/p&gt;
&lt;h2 id=&#34;适合什么人用&#34;&gt;适合什么人用&lt;/h2&gt;
&lt;p&gt;如果你是这几类人，可以考虑入：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;做YouTube或者抖音的，需要大量配音&lt;/li&gt;
&lt;li&gt;播客主播，想用AI辅助录制&lt;/li&gt;
&lt;li&gt;跨境电商，需要多语言配音&lt;/li&gt;
&lt;li&gt;游戏开发者，需要给NPC配音&lt;/li&gt;
&lt;li&gt;教育培训，做课程内容&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果你只是偶尔需要配音，免费版够用了。如果每天都要生产内容，Creator版起步比较合适。&lt;/p&gt;
&lt;h2 id=&#34;怎么用最快上手&#34;&gt;怎么用最快上手&lt;/h2&gt;
&lt;p&gt;三个步骤：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;注册账号，用Google登录最快&lt;/li&gt;
&lt;li&gt;在Voice Library里找个喜欢的声音试听&lt;/li&gt;
&lt;li&gt;输入文字，点生成，下载MP3&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;声音克隆的话，需要上传1-5分钟的音频样本，然后在VoiceLab里创建。&lt;/p&gt;
&lt;h2 id=&#34;值不值得买&#34;&gt;值不值得买&lt;/h2&gt;
&lt;p&gt;看你需求。&lt;/p&gt;</description>
    </item>
    <item>
      <title>VoxCPM2评测：开源48kHz多语言TTS方案详解</title>
      <link>https://www.haodaohang.top/posts/2026-04-13-voxcpm2-review/</link>
      <pubDate>Mon, 13 Apr 2026 10:00:00 +0800</pubDate>
      <guid>https://www.haodaohang.top/posts/2026-04-13-voxcpm2-review/</guid>
      <description>&lt;h2 id=&#34;简介&#34;&gt;简介&lt;/h2&gt;
&lt;p&gt;VoxCPM2是OpenBMB团队开源的文本转语音模型，支持30种语言，能输出48kHz高质量音频。说白了就是：你输文字，它出人声，而且效果能打。&lt;/p&gt;
&lt;h2 id=&#34;核心功能&#34;&gt;核心功能&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;30种语言直出&lt;/strong&gt;：中英日韩法德西等主流语言全覆盖，输入文本自动识别语言，不用手动标注&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Voice Design&lt;/strong&gt;：用自然语言描述就行，比如&amp;quot;(年轻女性，温柔甜美的声音)大家好&amp;quot;，不需要参考音频&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;声音克隆&lt;/strong&gt;：给一段参考音频就能克隆音色，还能控制语速和情绪&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;48kHz输出&lt;/strong&gt;：直接输出广播级音质，内置超分辨率，不用外挂升采样&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;实时流式&lt;/strong&gt;：RTF约0.3（4090显卡），延迟够低，能做实时对话&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;价格方案&#34;&gt;价格方案&lt;/h2&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;方案&lt;/th&gt;
          &lt;th&gt;价格&lt;/th&gt;
          &lt;th&gt;功能限制&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;开源版&lt;/td&gt;
          &lt;td&gt;免费&lt;/td&gt;
          &lt;td&gt;Apache-2.0许可，商业可用，需自建服务器&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;云部署&lt;/td&gt;
          &lt;td&gt;按量付费&lt;/td&gt;
          &lt;td&gt;参考各大云平台GPU租赁价格&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;blockquote&gt;
&lt;p&gt;💡 完全开源免费，但需要GPU资源部署。4090显卡最佳，显存需求约8GB。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;a href=&#34;https://github.com/OpenBMB/VoxCPM&#34;&gt;CPS链接：VoxCPM2官网 →&lt;/a&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h2 id=&#34;优缺点对比&#34;&gt;优缺点对比&lt;/h2&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;优点&lt;/th&gt;
          &lt;th&gt;缺点&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;完全开源，Apache-2.0可商用&lt;/td&gt;
          &lt;td&gt;需要GPU资源，技术门槛较高&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;30种语言，中文方言支持&lt;/td&gt;
          &lt;td&gt;云端API需自己搭建&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;48kHz输出质量高&lt;/td&gt;
          &lt;td&gt;非技术人员上手困难&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Voice Design很有创意&lt;/td&gt;
          &lt;td&gt;文档主要英文，中文资料少&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id=&#34;适合人群&#34;&gt;适合人群&lt;/h2&gt;
&lt;p&gt;推荐给：开发者、需要大量语音合成的团队、想自建语音服务的企业、AI研究者&lt;/p&gt;
&lt;p&gt;不推荐：不会代码的个人用户、没有GPU资源的人、只想要现成工具的小白&lt;/p&gt;
&lt;h2 id=&#34;使用教程&#34;&gt;使用教程&lt;/h2&gt;
&lt;h3 id=&#34;1-安装依赖&#34;&gt;1. 安装依赖&lt;/h3&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;pip install voxcpm
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;要求：Python 3.10+，PyTorch 2.5+，CUDA 12.0+&lt;/p&gt;
&lt;h3 id=&#34;2-基础使用&#34;&gt;2. 基础使用&lt;/h3&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;from&lt;/span&gt; voxcpm &lt;span style=&#34;color:#f92672&#34;&gt;import&lt;/span&gt; VoxCPM
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;import&lt;/span&gt; soundfile &lt;span style=&#34;color:#66d9ef&#34;&gt;as&lt;/span&gt; sf
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;model &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; VoxCPM&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;from_pretrained(&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;openbmb/VoxCPM2&amp;#34;&lt;/span&gt;, load_denoiser&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#66d9ef&#34;&gt;False&lt;/span&gt;)
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;wav &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; model&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;generate(
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    text&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;VoxCPM2是一款强大的多语言语音合成工具。&amp;#34;&lt;/span&gt;,
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    cfg_value&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;2.0&lt;/span&gt;,
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    inference_timesteps&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;10&lt;/span&gt;,
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;)
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;sf&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;write(&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;output.wav&amp;#34;&lt;/span&gt;, wav, model&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;tts_model&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;sample_rate)
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id=&#34;3-voice-design玩法&#34;&gt;3. Voice Design玩法&lt;/h3&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 用自然语言描述声音&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;wav &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; model&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;generate(
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    text&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;(年轻女性，温柔甜美的声音)欢迎来到VoxCPM2的世界！&amp;#34;&lt;/span&gt;,
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    cfg_value&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;2.0&lt;/span&gt;,
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    inference_timesteps&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;10&lt;/span&gt;,
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;)
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id=&#34;4-声音克隆&#34;&gt;4. 声音克隆&lt;/h3&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 提供参考音频克隆音色&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;wav &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; model&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;generate(
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    text&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;这是克隆后的声音。&amp;#34;&lt;/span&gt;,
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    reference_wav_path&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;reference.wav&amp;#34;&lt;/span&gt;,
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;)
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h2 id=&#34;购买建议&#34;&gt;购买建议&lt;/h2&gt;
&lt;p&gt;如果你是开发者或有技术团队，VoxCPM2是目前开源TTS里最值得投入的选择之一。30种语言支持、48kHz输出、声音克隆，这些功能放到SaaS平台月费至少几百。&lt;/p&gt;</description>
    </item>
    <item>
      <title>VoxCPM2评测：开源多语言AI语音合成方案详解</title>
      <link>https://www.haodaohang.top/posts/2026-04-12-voxcpm-review/</link>
      <pubDate>Sun, 12 Apr 2026 10:00:00 +0800</pubDate>
      <guid>https://www.haodaohang.top/posts/2026-04-12-voxcpm-review/</guid>
      <description>&lt;h2 id=&#34;简介&#34;&gt;简介&lt;/h2&gt;
&lt;p&gt;VoxCPM2是OpenBMB团队开源的AI语音合成工具，支持30种语言、48kHz高保真输出，能做声音克隆和语音设计。2B参数量，Apache-2.0许可证，可商用。&lt;/p&gt;
&lt;h2 id=&#34;核心功能&#34;&gt;核心功能&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;30语言支持&lt;/strong&gt;：中英日韩、欧洲主流语言、东南亚语言等，输入文本自动识别语言，不需要手动标注&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Voice Design声音设计&lt;/strong&gt;：用自然语言描述就能生成声音，比如&amp;quot;(年轻女性，温柔甜美)大家好&amp;quot;，不需要参考音频&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;可控声音克隆&lt;/strong&gt;：上传一段参考音频就能克隆音色，还能用指令控制语速、情绪、风格&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;终极克隆模式&lt;/strong&gt;：提供参考音频+对应文本，模型能完整复制音色、节奏、情绪等所有细节&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;48kHz高保真输出&lt;/strong&gt;：输出录音棚级别的音频质量，不需要额外升采样&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;实时流式生成&lt;/strong&gt;：RTF低至0.13（RTX 4090），支持流式输出&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;价格方案&#34;&gt;价格方案&lt;/h2&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;方案&lt;/th&gt;
          &lt;th&gt;价格&lt;/th&gt;
          &lt;th&gt;功能限制&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;开源版&lt;/td&gt;
          &lt;td&gt;¥0&lt;/td&gt;
          &lt;td&gt;完整功能，Apache-2.0商用许可&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Nano-VLLM加速版&lt;/td&gt;
          &lt;td&gt;¥0&lt;/td&gt;
          &lt;td&gt;需要额外安装加速引擎&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;blockquote&gt;
&lt;p&gt;💡 完全免费开源，权重和代码都在Apache-2.0下发布，可自由商用
&lt;a href=&#34;https://github.com/OpenBMB/VoxCPM&#34;&gt;GitHub开源地址 →&lt;/a&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h2 id=&#34;优缺点对比&#34;&gt;优缺点对比&lt;/h2&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;优点&lt;/th&gt;
          &lt;th&gt;缺点&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;完全开源免费，可商用&lt;/td&gt;
          &lt;td&gt;需要8GB显存起步&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;支持30种语言，覆盖面广&lt;/td&gt;
          &lt;td&gt;英文效果最佳，小语种有波动&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;声音克隆效果出色&lt;/td&gt;
          &lt;td&gt;部署有一定技术门槛&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;48kHz高保真输出&lt;/td&gt;
          &lt;td&gt;首次加载模型较慢&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;支持实时流式生成&lt;/td&gt;
          &lt;td&gt;中文方言支持有限&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id=&#34;适合人群&#34;&gt;适合人群&lt;/h2&gt;
&lt;p&gt;推荐给：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;视频创作者（配音、旁白）&lt;/li&gt;
&lt;li&gt;播客/有声书制作者&lt;/li&gt;
&lt;li&gt;多语言内容创作者&lt;/li&gt;
&lt;li&gt;有本地部署需求的开发者&lt;/li&gt;
&lt;li&gt;想用AI语音又不想付订阅费的团队&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;不推荐：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;没有GPU设备的用户&lt;/li&gt;
&lt;li&gt;不想折腾部署的小白用户&lt;/li&gt;
&lt;li&gt;只需要简单TTS功能的轻度用户&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;使用教程&#34;&gt;使用教程&lt;/h2&gt;
&lt;h3 id=&#34;安装&#34;&gt;安装&lt;/h3&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;pip install voxcpm
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;要求：Python ≥ 3.10，PyTorch ≥ 2.5.0，CUDA ≥ 12.0&lt;/p&gt;
&lt;h3 id=&#34;基础使用&#34;&gt;基础使用&lt;/h3&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;from&lt;/span&gt; voxcpm &lt;span style=&#34;color:#f92672&#34;&gt;import&lt;/span&gt; VoxCPM
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;import&lt;/span&gt; soundfile &lt;span style=&#34;color:#66d9ef&#34;&gt;as&lt;/span&gt; sf
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;model &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; VoxCPM&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;from_pretrained(&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;openbmb/VoxCPM2&amp;#34;&lt;/span&gt;)
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;wav &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; model&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;generate(
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    text&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;VoxCPM2支持中英文混合输入。&amp;#34;&lt;/span&gt;,
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    cfg_value&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;2.0&lt;/span&gt;,
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    inference_timesteps&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;10&lt;/span&gt;,
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;)
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;sf&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;write(&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;output.wav&amp;#34;&lt;/span&gt;, wav, model&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;tts_model&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;sample_rate)
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id=&#34;声音设计&#34;&gt;声音设计&lt;/h3&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;wav &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; model&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;generate(
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    text&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;(年轻女性，温柔甜美的声音)欢迎使用VoxCPM2！&amp;#34;&lt;/span&gt;,
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    cfg_value&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#ae81ff&#34;&gt;2.0&lt;/span&gt;,
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;)
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id=&#34;声音克隆&#34;&gt;声音克隆&lt;/h3&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;wav &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; model&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;generate(
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    text&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;这是克隆后的声音。&amp;#34;&lt;/span&gt;,
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    reference_wav_path&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;reference.wav&amp;#34;&lt;/span&gt;,
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;)
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id=&#34;生产环境部署&#34;&gt;生产环境部署&lt;/h3&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;pip install nano-vllm-voxcpm
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;使用Nano-VLLM加速引擎，RTF可降至0.13，支持并发请求。&lt;/p&gt;</description>
    </item>
    <item>
      <title>VibeVoice评测：微软开源语音AI全家桶方案详解</title>
      <link>https://www.haodaohang.top/posts/2026-03-30-vibevoice-review/</link>
      <pubDate>Mon, 30 Mar 2026 10:00:00 +0800</pubDate>
      <guid>https://www.haodaohang.top/posts/2026-03-30-vibevoice-review/</guid>
      <description>&lt;h2 id=&#34;简介&#34;&gt;简介&lt;/h2&gt;
&lt;p&gt;VibeVoice是微软开源的前沿语音AI框架，主打&amp;quot;长音频处理&amp;quot;——语音识别能一次吃下60分钟录音，语音合成能一口气生成90分钟的对话。这不是普通的TTS/ASR工具，而是专为播客、会议、多角色对话场景设计的硬核方案。&lt;/p&gt;
&lt;h2 id=&#34;核心功能&#34;&gt;核心功能&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;VibeVoice-ASR（语音识别）&lt;/strong&gt;：单次处理60分钟长音频，自动输出说话人识别、时间戳、文字内容三合一的结构化转录，支持50+语种&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;VibeVoice-TTS（语音合成）&lt;/strong&gt;：最长90分钟连续生成，支持4个不同说话人同台对话，保留情感和对话节奏&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;VibeVoice-Realtime（实时语音）&lt;/strong&gt;：0.5B轻量模型，300毫秒首字延迟，流式输入实时输出，适合对话机器人场景&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;自定义热词&lt;/strong&gt;：可输入专业术语、人名等上下文，显著提升领域内容识别准确率&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;多语言支持&lt;/strong&gt;：英语、中文及其他语言，跨语言合成自然流畅&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;价格方案&#34;&gt;价格方案&lt;/h2&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;方案&lt;/th&gt;
          &lt;th&gt;价格&lt;/th&gt;
          &lt;th&gt;功能限制&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;开源版（GitHub）&lt;/td&gt;
          &lt;td&gt;¥0&lt;/td&gt;
          &lt;td&gt;完整模型权重，需自行部署&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;HuggingFace在线体验&lt;/td&gt;
          &lt;td&gt;¥0&lt;/td&gt;
          &lt;td&gt;Playground免费试用，有排队&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Azure云服务&lt;/td&gt;
          &lt;td&gt;按量计费&lt;/td&gt;
          &lt;td&gt;企业级API，SLA保障&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;blockquote&gt;
&lt;p&gt;💡 点击下方链接可享受专属优惠
&lt;a href=&#34;https://github.com/microsoft/VibeVoice&#34;&gt;CPS链接：VibeVoice官网 →&lt;/a&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h2 id=&#34;优缺点对比&#34;&gt;优缺点对比&lt;/h2&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;优点&lt;/th&gt;
          &lt;th&gt;缺点&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;微软出品，开源免费，可商用&lt;/td&gt;
          &lt;td&gt;自行部署门槛高，需要GPU&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;60分钟长音频一次搞定&lt;/td&gt;
          &lt;td&gt;TTS代码已被移除，仅保留ASR和Realtime&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;支持多说话人识别与合成&lt;/td&gt;
          &lt;td&gt;中文文档较少，主要靠英文README&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;已集成到HuggingFace Transformers&lt;/td&gt;
          &lt;td&gt;模型体积大（ASR 7B参数）&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id=&#34;适合人群&#34;&gt;适合人群&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;推荐给：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;播客制作团队（长音频转录+后期合成）&lt;/li&gt;
&lt;li&gt;会议记录需求方（自动区分发言人）&lt;/li&gt;
&lt;li&gt;AI语音应用开发者（需要开源底座）&lt;/li&gt;
&lt;li&gt;内容创作者（多角色配音需求）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;不推荐：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;没有技术背景的普通用户（部署复杂）&lt;/li&gt;
&lt;li&gt;短视频配音需求（有更轻量的选择）&lt;/li&gt;
&lt;li&gt;对延迟极度敏感的实时对话场景（Realtime版延迟仍约300ms）&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;使用教程&#34;&gt;使用教程&lt;/h2&gt;
&lt;h3 id=&#34;asr语音识别快速上手&#34;&gt;ASR语音识别快速上手&lt;/h3&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 安装依赖&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;pip install transformers torch
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 加载模型&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;from&lt;/span&gt; transformers &lt;span style=&#34;color:#f92672&#34;&gt;import&lt;/span&gt; AutoModel, AutoProcessor
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;model &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; AutoModel&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;from_pretrained(&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;microsoft/VibeVoice-ASR&amp;#34;&lt;/span&gt;)
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;processor &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; AutoProcessor&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;from_pretrained(&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;microsoft/VibeVoice-ASR&amp;#34;&lt;/span&gt;)
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 处理音频&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;result &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; model(processor(audio_path))
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 输出包含：说话人、时间戳、文字&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id=&#34;realtime实时语音合成&#34;&gt;Realtime实时语音合成&lt;/h3&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# Colab一键体验&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 访问：https://colab.research.google.com/github/microsoft/VibeVoice/blob/main/demo/vibevoice_realtime_colab.ipynb&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id=&#34;在线体验地址&#34;&gt;在线体验地址&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;ASR Playground: &lt;a href=&#34;https://aka.ms/vibevoice-asr&#34;&gt;https://aka.ms/vibevoice-asr&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;Realtime Colab: 官方Demo笔记本&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;购买建议&#34;&gt;购买建议&lt;/h2&gt;
&lt;p&gt;如果你是&lt;strong&gt;个人开发者或小团队&lt;/strong&gt;，直接用GitHub开源版本+HuggingFace在线体验即可，完全免费。&lt;/p&gt;</description>
    </item>
    <item>
      <title>fish-speech：开源 TTS 如何突破 SOTA？技术原理与应用实践</title>
      <link>https://www.haodaohang.top/posts/2026-03-15-fish-speech-tts/</link>
      <pubDate>Sun, 15 Mar 2026 16:00:00 +0800</pubDate>
      <guid>https://www.haodaohang.top/posts/2026-03-15-fish-speech-tts/</guid>
      <description>fish-speech 作为 GitHub 上最受关注的开源语音合成项目，号称达到 SOTA 水平。本文深入解析其技术架构、音色克隆能力、多语言支持，以及在 AI Agent 场景中的集成实践。</description>
    </item>
  </channel>
</rss>
