Invoice Mama

Invoicing that brings you faster payments! 💸

最后更新 07-25-2026

分类:

Text to Speech (TTS)

Reviews:

Join thousands of AI enthusiasts in the World of AI!

Deep Voice 3

Deep Voice 3 是百度研究所基于 PyTorch 的开源实现，重现了 Deep Voice 3 文本转语音模型。它复现了卷积序列学习的可扩展神经 TTS，并提供预训练的 checkpoint 以及单 speaker 和多 speaker 的音频演示。

该项目包括在 LJSpeech 上训练的单 speaker 合成模型，以及在 VCTK 数据集上训练的 108 speaker 多 speaker 生成模型。演示页面托管了示例音频片段、注意力图以及预训练权重的 GitHub 链接。

该项目面向希望拥有 Deep Voice 3 参考实现的研究人员和开发者，而非托管语音 API。训练脚本、推理代码以及社区贡献均托管在公开的 GitHub 仓库中。

主要功能:

Deep Voice 3 卷积序列 TTS 的 PyTorch 实现
在 LJSpeech 上训练的预训练单一说话人模型，附带公开音频样本
支持 108 位说话人的多说话人 VCTK 模型，含演示音频片段
GitHub 上的开源代码和预训练检查点
带有注意力可视化和参考论文链接的演示页面

Pros:

忠实开源的 Deep Voice 3 论文 PyTorch 实现。
包含单说话人和多说话人预训练演示。
适合研究人员比较卷积 TTS 架构。

Cons:

不是托管的API；您需要自己训练和运行推理。
项目维护依赖于开源社区。
演示网站是一个研究示例页面，而非精致的产品界面。

常见问题:

Deep Voice 3 是免费的吗？

是的。Deep Voice 3 是一个开源项目，在 GitHub 上发布，提供免费的预训练模型和示范音频样本。

Deep Voice 3 支持哪些数据集？

已发布的示范包括基于 LJSpeech 训练的单说话人模型，以及基于包含108名说话人的 VCTK 数据集训练的多说话人模型。

这是百度官方发布的 Deep Voice 3 吗？

不是。这是基于 Deep Voice 3 论文的社区开源 PyTorch 实现，由 r9y9 在 GitHub 上维护。

我可以将 Deep Voice 3 用于商业用途吗？

该仓库是开源的，但在商业使用之前，请务必查看 GitHub 上的项目许可证。

我在哪里可以获取预训练模型？

预训练模型的链接在示范页面 r9y9.github.io/deepvoice3_pytorch 以及 GitHub 仓库的 README 中提供。

分类:

Text to Speech (TTS)

定价:

免费

使用的技术:

Cloudflare

Google Cloud

Google Analytics

Google Fonts

GitHub

Emotion

Join thousands of AI enthusiasts in the World of AI!

最佳免费 Deep Voice 3 替代方案（和付费）

ElevenLabs

ElevenLabs 是一个语音和音频平台，旨在将文本转化为逼真的语音、转录音频、生成音乐，以及部署对话式语音代理。它为创作者、开发者和企业团队提供一个集中平台，用于制作旁白、配音、音效以及面对客户的电话或聊天体验，无需每次项目都使用录音棚或聘请配音人才。该公司自主开发了语音、转录和音乐模型，而不是依赖...

Text to Speech (TTS)

Freemium

ElevenLabs vs Deep Voice 3

Text to Speech Online

Text to Speech Online 是一个免费的浏览器工具，可以将书面文本转换为逼真的语音，拥有超过 100 种 AI 语音。用户可以选择语言、性别和语音风格，调整速度和音调，然后预览或生成音频，支持下载为 MP3 或 WAV 文件。界面支持多种语言、语音搜索、文件导入、字幕输出和生成后自动播放...

Text to Speech (TTS)

Free

Text to Speech Online vs Deep Voice 3

TexttoSpeech.im: Convert Text to Speech Free Online

TexttoSpeech.im 是一个基于浏览器的文本转语音生成器，可以将书面文本转化为可下载的音频文件。只需粘贴最多几千个字符，选择一种语言和语音，即可生成一个可以在浏览器中试听或保存的 MP3 文件。其主要吸引力在于丰富的语音目录：大约包含 148 种选择，包括美国、英国、澳大利亚、印度及其他地区的...

Text to Speech (TTS)

Freemium

TexttoSpeech.im: Convert Text to Speech Free Online vs Deep Voice 3

Speechelo - AI text to speech voices

Speechelo是一款云端文本转语音应用，专为需要视频配音但又不想聘请配音演员或自己录制的用户打造。你只需粘贴剧本，选择一个配音，然后下载一个可以直接放入你的视频编辑器的音频文件。它与电话系统的TTS不同之处在于专注于视频旁白。其引擎会加入语调变化，让你选择正常、愉快或严肃的表达方式，还支持呼吸声和较...

Text to Speech (TTS)

Paid

Speechelo - AI text to speech voices vs Deep Voice 3

TTSMaker

TTSMaker是一个免费的在线文本转语音工具，可以将书面文本转换为可下载的音频文件。它支持100多种语言和600多个人工智能语音，让创作者无需雇佣配音演员或自己录制，就能生成配音。该工具在你的浏览器中运行。只需粘贴文本，选择一种语言和语音，调整速度、音量和音调，然后导出为MP3、OGG、AAC、OPU...

Text to Speech (TTS)

Freemium

TTSMaker vs Deep Voice 3

BoodleBox

BoodleBox 是一个面向教育、企业团队和个人的协作式人工智能工作空间。它将 38 款以上领先模型（如 ChatGPT、Claude、Gemini、Perplexity 等）整合在一个共享环境中，允许多人可以并肩使用AI。用户可以将文档上传到知识库，构建基于机构或团队专业知识的定制机器人，并在不同模...

Text to Speech (TTS)

Freemium

BoodleBox vs Deep Voice 3

Voice to Text

Text to Voice (texttovoice.online) 是一个基于浏览器的文本转语音平台，可以将书面文本转换成可下载的 MP3 配音。你只需输入或粘贴文本，选择语言和语音，调整速度和情感，然后播放或下载结果。无需在桌面安装软件；它可以在 Mac、Windows 和移动设备的浏览器中运行。核...

Text to Speech (TTS)

Freemium

Voice to Text vs Deep Voice 3

Clearly Reader

Clearly Reader 是一款浏览器阅读模式插件，能够去除文章中的广告和杂乱元素，让你专注于文本内容。一键点击（或按 Alt+R）即可将嘈杂的网页变成干净的阅读布局，支持可调节字体、主题和行间距。该产品在基本的可读性基础上加入了AI辅助阅读工具。扫描模式（Alt+S）可以生成文章的快速摘要、提纲和...

Text to Speech (TTS)

Freemium

Clearly Reader vs Deep Voice 3

Clipboard TTS

剪贴板TTS是一款桌面阅读辅助工具，可以监控你的剪贴板并大声朗读复制的文本。你无需将文本粘贴到另一个应用程序中，只需在电脑上复制任何内容，它就会以你选择的声音将其读出。该工具面向希望免手操作即可阅读文章、学习资料和文档的用户。该软件考虑到了阅读障碍和阅读疲劳，提供单词和句子高亮、彩色背景覆盖、OpenD...

Text to Speech (TTS)

Paid

Clipboard TTS vs Deep Voice 3

Pickles

Pickles AI 提供了突破性的文本转语音 (TTS) API，旨在提供高质量、逼真的带有情感的 AI 语音，同时比竞争对手更具成本效益。它拥有约 500 毫秒的延迟优化性能，确保快速响应，非常适合扩展应用程序。 Pickles 的 TTS 服务脱颖而出，不仅因为比 ElevenLabs 等竞争对手...

Text to Speech (TTS)

Freemium

Pickles vs Deep Voice 3