
Última actualización 06-30-2026
Categoría:
Reviews:
Join thousands of AI enthusiasts in the World of AI!
Moshi AI
Moshi AI es un modelo conversacional nativo de la voz de Kyutai, un laboratorio de investigación de ciencia abierta con sede en París. En lugar de encadenar reconocimiento de voz, generación de texto y conversión de texto a voz, Moshi procesa el audio directamente y mantiene conversaciones de voz de doble sentido con una latencia mínima.
Su diseño de múltiples flujos ejecuta canales separados para el usuario, la salida hablada de Moshi y un flujo de texto de Monólogo Interno que mejora la coherencia. Esa configuración permite que Moshi escuche y hable al mismo tiempo, maneje solapamientos, interrupciones y respuestas de apoyo como en una conversación real en lugar de turnos rígidos de hablantes.
Moshi está construido sobre Helium, un modelo de lenguaje de 7 mil millones de parámetros, y Mimi, el códec de audio neural de Kyutai. Se distribuyen pesos y código de inferencia para PyTorch, Rust y MLX, y puedes probarlo en el navegador en moshi-chat.kyutai.org. Investigadores, desarrolladores de IA de voz y cualquier persona que cree interfaces habladas en tiempo real encontrarán aquí un gran valor.
Procesa el habla directamente sin una canalización de texto intermedia
Escucha y habla simultáneamente con soporte para superposición e interrupciones
El flujo de texto Inner Monologue mejora la calidad del habla y el razonamiento
Funciona en tiempo real en una GPU L4 o en un MacBook Pro M3 mediante el códec Mimi
Pesos abiertos en Hugging Face con código de inferencia en PyTorch, Rust y MLX
Primer modelo de habla a habla full dúplex abierto con pesos y código publicados públicamente
Baja latencia de alrededor de 200 ms en la práctica gracias al códec Mimi a 12.5 Hz
Maneja dinámicas naturales de conversación como interrupciones y respuestas breves (backchanneling)
Funciona localmente en hardware de consumo incluyendo MacBook Pro M3 y GPUs Nvidia L4
La demostración del navegador limita las conversaciones a cinco minutos por sesión
El estado experimental significa que las respuestas pueden ser poco fiables o carecer de sentido
No hay API en la nube gestionada; el autoalojamiento requiere hardware GPU capaz
¿Moshi AI es gratis para usar?
Sí. Moshi AI es de código abierto con los pesos del modelo y el código de inferencia disponibles en GitHub y Hugging Face. La demostración en línea en moshi-chat.kyutai.org es gratuita para probar, con conversaciones limitadas a cinco minutos por sesión.
¿Quién desarrolló Moshi AI?
Moshi AI fue desarrollado por Kyutai, un laboratorio de investigación de IA sin fines de lucro y de ciencia abierta con sede en París. Kyutai está financiado por Iliad Group, CMA CGM Group y Schmidt Sciences.
¿En qué se diferencia Moshi AI de los asistentes de voz típicos?
La mayoría de los asistentes de voz usan procesos por turnos que convierten el habla en texto, generan una respuesta y luego sintetizan audio. Moshi AI es nativo del habla: genera tokens de audio directamente y soporta diálogo full-dúplex donde ambos pueden hablar simultáneamente.
¿Puedo ejecutar Moshi AI localmente?
Sí. Kyutai ha publicado los pesos del modelo Moshi junto con el código de inferencia en streaming en PyTorch, Rust y MLX. El blog de lanzamiento señala un rendimiento en tiempo real en una GPU Nvidia L4 o en una MacBook Pro M3.
¿Moshi AI soporta imágenes?
MoshiVis extiende Moshi para discutir imágenes en tiempo real mientras mantiene el mismo flujo de conversación de baja latencia. Hay una demostración separada en vis.moshi.chat, con pesos y código disponibles en GitHub.
¿Cuáles son las limitaciones de la demo en moshi-chat.kyutai.org?
La demo en navegador de Moshi AI es experimental y limita cada conversación a cinco minutos. Kyutai indica que Chrome ofrece la mejor experiencia y que los usuarios deben tratar las respuestas generadas con precaución.
