Invoice Mama

Invoicing that brings you faster payments! 💸

Última actualización 06-29-2026

Categoría:

Text to Speech (TTS)

Reviews:

Join thousands of AI enthusiasts in the World of AI!

Unreal Speech

Unreal Speech es una API de texto a voz lista para producción, construida sobre el motor TTS de código abierto Kokoro. Ofrece a desarrolladores y empresas una síntesis de voz natural a una fracción del costo de ElevenLabs, Amazon Polly, Google Cloud y Microsoft Azure. La API transmite audio en aproximadamente 300 milisegundos y soporta trabajos de formato largo de hasta 10 horas por solicitud.

Kokoro funciona con un modelo decodificador de 82 millones de parámetros que combina ideas de StyleTTS 2 e iSTFTNet. Cuenta con 48 voces en ocho idiomas, incluyendo inglés de EE. UU. y del Reino Unido, mandarín, hindi, español, portugués, japonés, francés e italiano. Los marcas de tiempo por palabra permiten que las aplicaciones destaquen el texto sincronizado con la reproducción, lo cual ayuda en accesibilidad, interfaces tipo karaoke y lectores interactivos.

La API REST expone cuatro endpoints: /stream para síntesis subsegundos de hasta 1,000 caracteres, /speech para hasta 3,000 caracteres con URLs de marcas de tiempo, /synthesisTasks para trabajos asincrónicos de hasta 500,000 caracteres y una ruta websocket /streamWithTimestamps para audio en vivo más temporización de palabras. Se ofrecen SDKs para Python, Node.js y React Native, con código de ejemplo en la página principal.

Kokoro TTS Studio en unrealspeech.com ofrece una demo gratuita en navegador para probar las voces antes de registrarse. Los planes de pago eliminan los requisitos de atribución para audio comercial. Clientes empresariales en la plataforma procesan miles de millones de caracteres mensualmente con un tiempo de actividad del 99.9%.

Funciones principales:

Transmite hasta 1,000 caracteres en aproximadamente 300 ms mediante /stream
Las tareas de síntesis asíncronas manejan hasta 500,000 caracteres por solicitud
Las marcas de tiempo por palabra sincronizan la resaltación del texto con la salida de audio
48 voces en ocho idiomas con controles de velocidad y tono
Websocket /streamWithTimestamps ofrece audio en vivo más datos de sincronización
Los SDKs de Python, Node.js y React Native incluyen ejemplos de código
Los trabajos de síntesis individuales pueden producir hasta 10 horas de audio

Pros:

Los precios publicados son aproximadamente 11 veces más baratos que ElevenLabs en niveles comparables
Cuatro endpoints API cubren transmisión en tiempo real y trabajos largos de síntesis asíncrona
Las marcas de tiempo por palabra soportan resaltado sincronizado y funciones de accesibilidad
El nivel gratuito incluye 250,000 caracteres con acceso completo a voces e idiomas
El motor TTS Kokoro es de código abierto y también puede alojarse localmente

Cons:

La clonación de voz aún no está disponible en la API alojada
El plan gratuito requiere atribuir Unreal Speech en el audio comercial publicado
La demostración del navegador Studio limita la entrada a 500 caracteres por generación

Preguntas frecuentes:

¿Qué idiomas y voces soporta Unreal Speech?

Unreal Speech ofrece 48 voces en ocho idiomas: inglés de EE. UU., inglés del Reino Unido, chino mandarín, hindi, español, portugués, japonés, francés e italiano. Puedes elegir voces, ajustar velocidad y tono, y seleccionar formatos de salida como MP3 y PCM.

¿Unreal Speech tiene un plan gratuito?

Sí. Unreal Speech incluye un nivel gratuito con 250,000 caracteres por mes, aproximadamente seis horas de audio. Tienes acceso a todas las voces e idiomas. El audio generado en el plan gratuito para uso comercial debe incluir un enlace a unrealspeech.com en la descripción.

¿Qué tan rápido puede generar audio Unreal Speech?

Unreal Speech transmite audio en unos 300 milisegundos a través del endpoint /stream para hasta 1,000 caracteres. Los trabajos más largos mediante /speech o /synthesisTasks tardan aproximadamente un segundo por cada 700 a 800 caracteres, según el endpoint.

¿Unreal Speech soporta clonación de voz?

Unreal Speech no ofrece clonación de voz personalizada en la API todavía. El equipo indica que la clonación de voz está en desarrollo. El modelo Kokoro de código abierto puede ajustarse localmente para voces personalizadas fuera de la API alojada.

¿Qué ocurre si supero el límite mensual de caracteres?

Unreal Speech cobra el uso excedente diariamente a la tarifa de tu plan: Basic a $16 por 1 millón de caracteres, Plus a $12, Pro a $10 y Enterprise a $8. Los caracteres no usados en planes pagos se acumulan para el siguiente ciclo de facturación. Los caracteres del plan gratuito se reinician el primero de cada mes.

¿Puedo usar el audio de Unreal Speech comercialmente?

Sí. Unreal Speech permite el uso comercial del audio generado. Los usuarios del plan gratuito deben acreditar a Unreal Speech con un enlace a unrealspeech.com en el contenido publicado. Los suscriptores de pago no necesitan dar atribución.

¿Qué endpoints de API ofrece Unreal Speech?

Unreal Speech tiene /stream para audio instantáneo hasta 1,000 caracteres, /speech para hasta 3,000 caracteres con URLs de marcas de tiempo, /synthesisTasks para trabajos asíncronos hasta 500,000 caracteres y /streamWithTimestamps por websocket para audio en tiempo real con sincronización a nivel de palabra.

Categoría:

Text to Speech (TTS)

Tarificación:

Freemium

Etiquetas:

text-to-speech

voice API

developer tools

speech synthesis

multilingual

real-time

open-source

audio streaming

accessibility

Tecnología utilizada:

Kokoro TTS

Chakra UI

Ant Design

jQuery

Amazon Web Services

Google Cloud

Google Analytics

Google Tag Manager

Hotjar

Mixpanel

Intercom

Google Fonts

Python

Ruby

GitHub

Emotion

Styled Components

Reseñas:

Join thousands of AI enthusiasts in the World of AI!

Mejor Gratis Unreal Speech Alternativas (y Pagadas)

ElevenLabs

ElevenLabs es una plataforma de voz y audio para convertir texto en habla realista, transcribir audio, generar música y desplegar agentes de voz conversac...

Text to Speech (TTS)

Freemium

ElevenLabs vs Unreal Speech

ttsMP3

ttsMP3.com ofrece una forma sencilla de convertir texto en un habla natural en más de 28 idiomas, incluido el inglés estadounidense y muchos acentos. Sopo...

Text to Speech (TTS)

Freemium

ttsMP3 vs Unreal Speech

SpeechGen

SpeechGen es una plataforma de texto a voz impulsada por inteligencia artificial que crea doblajes realistas de manera rápida y asequible. Soporta más de ...

Text to Speech (TTS)

Paid

SpeechGen vs Unreal Speech

ReadSpeaker

ReadSpeaker ofrece una amplia variedad de soluciones de texto a voz (TTS) que convierten contenido escrito en habla con sonido natural. Con más de 200 voc...

Text to Speech (TTS)

Paid

ReadSpeaker vs Unreal Speech

FakeYou

FakeYou es una plataforma versátil de IA que transforma texto en voz utilizando una amplia biblioteca de voces, incluyendo muchas de celebridades y person...

Text to Speech (TTS)

Paid

FakeYou vs Unreal Speech

Luvvoice

Luvvoice es una herramienta gratuita en línea de texto a voz que convierte texto en un habla de sonido natural con más de 200 voces en más de 70 idiomas. ...

Text to Speech (TTS)

Freemium

Luvvoice vs Unreal Speech

Deep Voice 3

Deep Voice 3 es un sistema de texto a voz de código abierto que utiliza una red neuronal convolucional completa para convertir texto en un habla de sonido...

Text to Speech (TTS)

Freemium

Deep Voice 3 vs Unreal Speech

Speechify

Speechify transforma texto escrito en audio de sonido natural, ayudando a los usuarios a escuchar libros, artículos, PDFs y páginas web en diferentes disp...

Text to Speech (TTS)

Freemium

Speechify vs Unreal Speech

SpeechGen.io

SpeechGen.io ofrece un servicio de texto a voz realista que convierte cualquier texto en voiceovers de sonido natural. Admite más de 150 idiomas y acentos...

Text to Speech (TTS)

Paid

SpeechGen.io vs Unreal Speech

Pickles

Pickles AI ofrece una innovadora API de texto a voz (TTS) diseñada para proporcionar voz de IA realista y de alta calidad con emoción, al tiempo que es si...

Text to Speech (TTS)

Freemium

Pickles vs Unreal Speech

ElevenLabs

Text to Speech (TTS)

Freemium

ElevenLabs es una plataforma de voz y audio para convertir texto en habla realista, transcribir audio, generar música y desplegar agentes de voz conversac...

ElevenLabs vs Unreal Speech

ttsMP3

Text to Speech (TTS)

Freemium

ttsMP3.com ofrece una forma sencilla de convertir texto en un habla natural en más de 28 idiomas, incluido el inglés estadounidense y muchos acentos. Sopo...

ttsMP3 vs Unreal Speech

SpeechGen

Text to Speech (TTS)

Paid

SpeechGen es una plataforma de texto a voz impulsada por inteligencia artificial que crea doblajes realistas de manera rápida y asequible. Soporta más de ...

SpeechGen vs Unreal Speech

ReadSpeaker

Text to Speech (TTS)

Paid

ReadSpeaker ofrece una amplia variedad de soluciones de texto a voz (TTS) que convierten contenido escrito en habla con sonido natural. Con más de 200 voc...

ReadSpeaker vs Unreal Speech

FakeYou

Text to Speech (TTS)

Paid

FakeYou es una plataforma versátil de IA que transforma texto en voz utilizando una amplia biblioteca de voces, incluyendo muchas de celebridades y person...

FakeYou vs Unreal Speech

Luvvoice

Text to Speech (TTS)

Freemium

Luvvoice es una herramienta gratuita en línea de texto a voz que convierte texto en un habla de sonido natural con más de 200 voces en más de 70 idiomas. ...

Luvvoice vs Unreal Speech

Deep Voice 3

Text to Speech (TTS)

Freemium

Deep Voice 3 es un sistema de texto a voz de código abierto que utiliza una red neuronal convolucional completa para convertir texto en un habla de sonido...

Deep Voice 3 vs Unreal Speech

Speechify

Text to Speech (TTS)

Freemium

Speechify transforma texto escrito en audio de sonido natural, ayudando a los usuarios a escuchar libros, artículos, PDFs y páginas web en diferentes disp...

Speechify vs Unreal Speech

SpeechGen.io

Text to Speech (TTS)

Paid

SpeechGen.io ofrece un servicio de texto a voz realista que convierte cualquier texto en voiceovers de sonido natural. Admite más de 150 idiomas y acentos...

SpeechGen.io vs Unreal Speech

Pickles

Text to Speech (TTS)

Freemium

Pickles AI ofrece una innovadora API de texto a voz (TTS) diseñada para proporcionar voz de IA realista y de alta calidad con emoción, al tiempo que es si...

Pickles vs Unreal Speech