Unreal Speech
Unreal Speech是一款基于开源Kokoro TTS引擎的生产就绪文本转语音API。它为开发者和企业提供自然的语音合成,成本仅为ElevenLabs、Amazon Polly、Google Cloud和Microsoft Azure的一小部分。该API的音频流传输时间约为300毫秒,支持每次请求长达10小时的长格式任务。
Kokoro运行在一个拥有8200万个参数的解码器模型上,该模型融合了StyleTTS 2和iSTFTNet的思想。您可以选择来自八种语言的48种声音,包括美式和英式英语、普通话、印地语、西班牙语、葡萄牙语、日语、法语和意大利语。每个单词的时间戳功能使应用能够与播放同步高亮显示文本,有助于无障碍、卡拉OK式界面和互动阅读体验。
REST API提供四个端点:/stream用于不到一秒的合成,支持最多1000字符;/speech支持最多3000字符并提供时间戳URL;/synthesisTasks用于异步作业,支持最多50万字符;以及用于实时音频和单词计时的websocket /streamWithTimestamps路由。开发者SDK包括Python、Node.js和React Native,主页提供示例代码。
unrealspeech.com上的Kokoro TTS Studio提供免费浏览器演示,便于在注册前试用语音。付费计划将取消商业音频的归属要求。平台的企业客户每月处理数十亿字符,保证99.9%的稳定性。
通过 /stream 以约 300 毫秒的速度流式传输最多 1,000 个字符
异步合成任务每次请求处理最多 500,000 个字符
逐词时间戳同步文本高亮与音频输出
覆盖八种语言的 48 个声音,具备速度和音调控制
Websocket /streamWithTimestamps 提供实时音频及时间数据
Python、Node.js 和 React Native SDK 搭配示例代码提供
单个合成任务最多可生成 10 小时音频
公开定价比 ElevenLabs 在相同比例下便宜大约 11 倍
四个 API 端点涵盖实时流媒体和长时间异步合成任务
每字时间戳支持同步高亮和无障碍功能
免费套餐包含 250,000 个字符,享有完整的语音和语言访问权限
Kokoro TTS 引擎是开源的,也可以本地自托管
语音克隆功能尚未在托管API上提供
免费套餐要求在发布的商业音频中标注Unreal Speech
Studio浏览器演示每次生成的输入限制为500个字符
Unreal Speech支持哪些语言和声音?
Unreal Speech提供8种语言共48种声音:美式英语、英式英语、普通话、印地语、西班牙语、葡萄牙语、日语、法语和意大利语。您可以选择不同的声音,调整语速和音调,并选择包括MP3和PCM在内的输出格式。
Unreal Speech有免费套餐吗?
有的。Unreal Speech提供每月25万个字符的免费额度,约合6小时音频。您可以使用所有声音和语言。免费套餐的商业用途音频必须在描述中包含链接至unrealspeech.com。
Unreal Speech生成音频的速度有多快?
Unreal Speech通过/stream端点约300毫秒即可流式传输多达1,000字符的音频。通过/speech或/synthesisTasks处理较长任务时,速度大约为每700到800个字符约1秒,具体取决于端点。
Unreal Speech支持语音克隆吗?
Unreal Speech的API暂不支持定制语音克隆。团队表示语音克隆功能正在开发中。开源的Kokoro模型可以在本地微调,用于API托管之外的定制语音。
如果我超过了每月字符限制,会怎样?
Unreal Speech会按您所选套餐的费率每日计费超额使用:Basic套餐每百万字符16美元,Plus套餐12美元,Pro套餐10美元,Enterprise套餐8美元。付费套餐中未使用的字符可以结转到下一个计费周期。免费套餐的字符额度会在每月初重置。
我可以将Unreal Speech生成的音频用于商业用途吗?
可以。Unreal Speech允许将生成的音频用于商业用途。免费套餐用户必须在发布内容中注明并附上指向unrealspeech.com的链接。付费用户则无需注明来源。
Unreal Speech提供哪些API端点?
Unreal Speech提供/stream端点用于即时音频生成,支持最多1,000字符;/speech端点支持最多3,000字符并带有时间戳URL;/synthesisTasks端点支持异步任务,最多50万个字符;以及通过websocket的/streamWithTimestamps端点,支持带单词级时间标记的实时音频流。

