Unreal Speech
Unreal Speech é uma API de texto-para-fala pronta para produção, construída sobre o motor Kokoro TTS de código aberto. Ela oferece a desenvolvedores e empresas uma síntese de fala natural por uma fração do custo da ElevenLabs, Amazon Polly, Google Cloud e Microsoft Azure. A API transmite áudio em aproximadamente 300 milissegundos e suporta trabalhos de longa duração de até 10 horas por solicitação.
Kokoro funciona com um modelo decodificador de 82 milhões de parâmetros, que combina ideias do StyleTTS 2 e iSTFTNet. Você tem acesso a 48 vozes em oito idiomas, incluindo inglês dos EUA e do Reino Unido, mandarim, hindi, espanhol, português, japonês, francês e italiano. Timestamps por palavra permitem que aplicativos destaquem o texto sincronizado com a reprodução, o que é útil para acessibilidade, interfaces no estilo karaokê e leitores interativos.
A API REST expõe quatro endpoints: /stream para síntese subsegundo de até 1.000 caracteres, /speech para até 3.000 caracteres com URLs de timestamp, /synthesisTasks para trabalhos assíncronos de até 500.000 caracteres, e uma rota websocket /streamWithTimestamps para áudio ao vivo com temporização de palavras. SDKs são disponibilizados para Python, Node.js e React Native, com códigos de exemplo na página inicial.
O Kokoro TTS Studio em unrealspeech.com oferece uma demonstração gratuita no navegador para testar vozes antes de se inscrever. Planos pagos eliminam os requisitos de atribuição para uso comercial de áudio. Clientes corporativos na plataforma processam bilhões de caracteres mensalmente com 99,9% de uptime.
Transmite até 1.000 caracteres em cerca de 300ms via /stream
Tarefas de síntese assíncrona lidam com até 500.000 caracteres por requisição
Carimbos de tempo por palavra sincronizam a realce de texto com a saída de áudio
48 vozes em oito idiomas com controles de velocidade e tom
Websocket /streamWithTimestamps oferece áudio ao vivo mais dados de sincronização
SDKs para Python, Node.js e React Native vêm com exemplos de código
Trabalhos de síntese únicos podem produzir até 10 horas de áudio
Os preços publicados são cerca de 11 vezes mais baratos que os da ElevenLabs em níveis comparáveis
Quatro endpoints de API abrangem streaming em tempo real e trabalhos longos de síntese assíncrona
Timestamps por palavra suportam destaque sincronizado e recursos de acessibilidade
O nível gratuito inclui 250.000 caracteres com acesso completo a vozes e idiomas
O motor Kokoro TTS é open source e também pode ser hospedado localmente
A clonagem de voz ainda não está disponível na API hospedada
O plano gratuito requer atribuição da Unreal Speech em áudio comercial publicado
A demonstração no navegador do Studio limita a entrada a 500 caracteres por geração
Quais idiomas e vozes o Unreal Speech suporta?
O Unreal Speech oferece 48 vozes em oito idiomas: inglês dos EUA, inglês do Reino Unido, mandarim, hindi, espanhol, português, japonês, francês e italiano. Você pode escolher vozes, ajustar velocidade e tom, e selecionar formatos de saída incluindo MP3 e PCM.
O Unreal Speech possui um plano gratuito?
Sim. O Unreal Speech inclui um nível gratuito com 250.000 caracteres por mês, aproximadamente seis horas de áudio. Você tem acesso a todas as vozes e idiomas. Áudios produzidos no plano gratuito usados comercialmente devem incluir um link para unrealspeech.com na descrição.
Quão rápido o Unreal Speech pode gerar áudio?
O Unreal Speech transmite áudio em cerca de 300 milissegundos pelo endpoint /stream para até 1.000 caracteres. Trabalhos mais longos via /speech ou /synthesisTasks levam aproximadamente um segundo para cada 700 a 800 caracteres, dependendo do endpoint.
O Unreal Speech suporta clonagem de voz?
O Unreal Speech ainda não oferece clonagem de voz personalizada na API. A equipe informa que a clonagem de voz está em desenvolvimento. O modelo open-source Kokoro pode ser ajustado localmente para vozes personalizadas fora da API hospedada.
O que acontece se eu exceder meu limite mensal de caracteres?
O Unreal Speech cobra o uso excedente diariamente à taxa do seu plano: Basic a 16 dólares por 1 milhão de caracteres, Plus a 12 dólares, Pro a 10 dólares e Enterprise a 8 dólares. Caracteres não usados em planos pagos são acumulados para o próximo ciclo de faturamento. Caracteres do plano gratuito são reiniciados no primeiro dia de cada mês.
Posso usar o áudio do Unreal Speech comercialmente?
Sim. O Unreal Speech permite o uso comercial do áudio gerado. Usuários do plano gratuito devem atribuir o Unreal Speech com um link para unrealspeech.com no conteúdo publicado. Assinantes pagos não precisam fazer atribuição.
Quais endpoints de API o Unreal Speech fornece?
O Unreal Speech oferece os endpoints /stream para áudio instantâneo de até 1.000 caracteres, /speech para até 3.000 caracteres com URLs de marcação temporal, /synthesisTasks para trabalhos assíncronos de até 500.000 caracteres, e /streamWithTimestamps via websocket para áudio em tempo real com temporização ao nível de palavra.

