
Última actualización 06-29-2026
Categoría:
Reviews:
Join thousands of AI enthusiasts in the World of AI!
Unreal Speech
Unreal Speech es una API de texto a voz lista para producción, construida sobre el motor TTS de código abierto Kokoro. Ofrece a desarrolladores y empresas una síntesis de voz natural a una fracción del costo de ElevenLabs, Amazon Polly, Google Cloud y Microsoft Azure. La API transmite audio en aproximadamente 300 milisegundos y soporta trabajos de formato largo de hasta 10 horas por solicitud.
Kokoro funciona con un modelo decodificador de 82 millones de parámetros que combina ideas de StyleTTS 2 e iSTFTNet. Cuenta con 48 voces en ocho idiomas, incluyendo inglés de EE. UU. y del Reino Unido, mandarín, hindi, español, portugués, japonés, francés e italiano. Los marcas de tiempo por palabra permiten que las aplicaciones destaquen el texto sincronizado con la reproducción, lo cual ayuda en accesibilidad, interfaces tipo karaoke y lectores interactivos.
La API REST expone cuatro endpoints: /stream para síntesis subsegundos de hasta 1,000 caracteres, /speech para hasta 3,000 caracteres con URLs de marcas de tiempo, /synthesisTasks para trabajos asincrónicos de hasta 500,000 caracteres y una ruta websocket /streamWithTimestamps para audio en vivo más temporización de palabras. Se ofrecen SDKs para Python, Node.js y React Native, con código de ejemplo en la página principal.
Kokoro TTS Studio en unrealspeech.com ofrece una demo gratuita en navegador para probar las voces antes de registrarse. Los planes de pago eliminan los requisitos de atribución para audio comercial. Clientes empresariales en la plataforma procesan miles de millones de caracteres mensualmente con un tiempo de actividad del 99.9%.
Transmite hasta 1,000 caracteres en aproximadamente 300 ms mediante /stream
Las tareas de síntesis asíncronas manejan hasta 500,000 caracteres por solicitud
Las marcas de tiempo por palabra sincronizan la resaltación del texto con la salida de audio
48 voces en ocho idiomas con controles de velocidad y tono
Websocket /streamWithTimestamps ofrece audio en vivo más datos de sincronización
Los SDKs de Python, Node.js y React Native incluyen ejemplos de código
Los trabajos de síntesis individuales pueden producir hasta 10 horas de audio
Los precios publicados son aproximadamente 11 veces más baratos que ElevenLabs en niveles comparables
Cuatro endpoints API cubren transmisión en tiempo real y trabajos largos de síntesis asíncrona
Las marcas de tiempo por palabra soportan resaltado sincronizado y funciones de accesibilidad
El nivel gratuito incluye 250,000 caracteres con acceso completo a voces e idiomas
El motor TTS Kokoro es de código abierto y también puede alojarse localmente
La clonación de voz aún no está disponible en la API alojada
El plan gratuito requiere atribuir Unreal Speech en el audio comercial publicado
La demostración del navegador Studio limita la entrada a 500 caracteres por generación
¿Qué idiomas y voces soporta Unreal Speech?
Unreal Speech ofrece 48 voces en ocho idiomas: inglés de EE. UU., inglés del Reino Unido, chino mandarín, hindi, español, portugués, japonés, francés e italiano. Puedes elegir voces, ajustar velocidad y tono, y seleccionar formatos de salida como MP3 y PCM.
¿Unreal Speech tiene un plan gratuito?
Sí. Unreal Speech incluye un nivel gratuito con 250,000 caracteres por mes, aproximadamente seis horas de audio. Tienes acceso a todas las voces e idiomas. El audio generado en el plan gratuito para uso comercial debe incluir un enlace a unrealspeech.com en la descripción.
¿Qué tan rápido puede generar audio Unreal Speech?
Unreal Speech transmite audio en unos 300 milisegundos a través del endpoint /stream para hasta 1,000 caracteres. Los trabajos más largos mediante /speech o /synthesisTasks tardan aproximadamente un segundo por cada 700 a 800 caracteres, según el endpoint.
¿Unreal Speech soporta clonación de voz?
Unreal Speech no ofrece clonación de voz personalizada en la API todavía. El equipo indica que la clonación de voz está en desarrollo. El modelo Kokoro de código abierto puede ajustarse localmente para voces personalizadas fuera de la API alojada.
¿Qué ocurre si supero el límite mensual de caracteres?
Unreal Speech cobra el uso excedente diariamente a la tarifa de tu plan: Basic a $16 por 1 millón de caracteres, Plus a $12, Pro a $10 y Enterprise a $8. Los caracteres no usados en planes pagos se acumulan para el siguiente ciclo de facturación. Los caracteres del plan gratuito se reinician el primero de cada mes.
¿Puedo usar el audio de Unreal Speech comercialmente?
Sí. Unreal Speech permite el uso comercial del audio generado. Los usuarios del plan gratuito deben acreditar a Unreal Speech con un enlace a unrealspeech.com en el contenido publicado. Los suscriptores de pago no necesitan dar atribución.
¿Qué endpoints de API ofrece Unreal Speech?
Unreal Speech tiene /stream para audio instantáneo hasta 1,000 caracteres, /speech para hasta 3,000 caracteres con URLs de marcas de tiempo, /synthesisTasks para trabajos asíncronos hasta 500,000 caracteres y /streamWithTimestamps por websocket para audio en tiempo real con sincronización a nivel de palabra.
