
Dernière mise à jour 06-30-2026
Catégorie:
Reviews:
Join thousands of AI enthusiasts in the World of AI!
Moshi AI
Moshi AI est un modèle conversationnel natif à la parole développé par Kyutai, un laboratoire de recherche open-science basé à Paris. Au lieu de chaîner la reconnaissance vocale, la génération de texte et la synthèse vocale, Moshi traite directement l'audio et mène des conversations vocales en duplex intégral avec une latence minimale.
Sa conception multi-flux exécute des canaux séparés pour l'utilisateur, la sortie vocale de Moshi, et un flux de texte Monologue intérieur qui améliore la cohérence. Cette configuration permet à Moshi d'écouter et de parler en même temps, de gérer les chevauchements, les interruptions et la réponse en arrière-plan comme lors d'une vraie conversation, plutôt que des tours de parole rigides.
Moshi est construit sur Helium, un modèle linguistique de 7 milliards de paramètres, et Mimi, le codec audio neuronal de Kyutai. Les poids et le code d'inférence sont disponibles pour PyTorch, Rust, et MLX, et vous pouvez l'essayer dans le navigateur sur moshi-chat.kyutai.org. Les chercheurs, les développeurs d'IA vocale, et toute personne créant des interfaces vocales en temps réel y trouveront le plus de valeur.
Traite la parole directement sans pipeline de texte intermédiaire
Écoute et parle simultanément avec prise en charge du chevauchement et de l'interruption
Le flux de texte Inner Monologue améliore la qualité de la parole et le raisonnement
Fonctionne en temps réel sur un GPU L4 ou un MacBook Pro M3 via le codec Mimi
Poids ouverts sur Hugging Face avec PyTorch, Rust et code d'inférence MLX
Premier modèle de parole-à-parole full-duplex ouvert avec poids et code publiquement disponibles
Faible latence d'environ 200 ms en pratique grâce au codec Mimi à 12,5 Hz
Gère les dynamiques conversationnelles naturelles telles que les interruptions et les rétroactions
Fonctionne localement sur du matériel grand public, y compris le MacBook Pro M3 et les GPU Nvidia L4
La démonstration du navigateur limite les conversations à cinq minutes par session
Le statut expérimental signifie que les réponses peuvent être peu fiables ou dénuées de sens
Pas d'API cloud gérée ; l'auto-hébergement nécessite un matériel GPU performant
Moshi AI est-il gratuit ?
Oui. Moshi AI est open source avec les poids du modèle et le code d'inférence publiés sur GitHub et Hugging Face. La démo en ligne sur moshi-chat.kyutai.org est gratuite à essayer, avec des conversations limitées à cinq minutes par session.
Qui a développé Moshi AI ?
Moshi AI a été développé par Kyutai, un laboratoire de recherche en IA open-science à but non lucratif basé à Paris. Kyutai est financé par Iliad Group, CMA CGM Group et Schmidt Sciences.
En quoi Moshi AI est-il différent des assistants vocaux classiques ?
La plupart des assistants vocaux utilisent des pipelines à tours qui convertissent la parole en texte, génèrent une réponse, puis synthétisent l’audio. Moshi AI est natif de la parole : il génère directement des tokens audio et supporte le dialogue full-duplex où les deux interlocuteurs peuvent parler en même temps.
Puis-je faire fonctionner Moshi AI localement ?
Oui. Kyutai a publié les poids du modèle Moshi ainsi que le code d'inférence en streaming en PyTorch, Rust et MLX. Le blog de sortie mentionne une performance en temps réel sur un GPU Nvidia L4 ou un MacBook Pro M3.
Moshi AI supporte-t-il les images ?
MoshiVis étend Moshi pour discuter des images en temps réel tout en conservant le même flux de conversation à faible latence. Une démo distincte est disponible sur vis.moshi.chat, avec les poids et le code sur GitHub.
Quelles sont les limites de la démo sur moshi-chat.kyutai.org ?
La démo navigateur Moshi AI est expérimentale et limite chaque conversation à cinq minutes. Kyutai précise que Chrome offre la meilleure expérience et que les utilisateurs doivent considérer les réponses générées avec prudence.
