Moshi AI
Moshi AI é um modelo conversacional nativo de fala da Kyutai, um laboratório de pesquisa em ciência aberta com sede em Paris. Em vez de encadear reconhecimento de fala, geração de texto e síntese de fala, o Moshi processa áudio diretamente e mantém conversas de voz full-duplex com mínima latência.
Seu design multi-stream executa canais separados para o usuário, a saída falada do Moshi e um fluxo de texto de Monólogo Interno que melhora a coerência. Essa configuração permite que o Moshi ouça e fale ao mesmo tempo, lidando com sobreposições, interrupções e respostas de acompanhamento como uma conversa real, ao invés de turnos rígidos de fala.
O Moshi é construído sobre o Helium, um modelo de linguagem de 7B, e o Mimi, o codec de áudio neural da Kyutai. Pesos e código de inferência são disponibilizados para PyTorch, Rust e MLX, e você pode experimentá-lo no navegador em moshi-chat.kyutai.org. Pesquisadores, desenvolvedores de voice AI e qualquer pessoa que esteja construindo interfaces de fala em tempo real encontrarão aqui o máximo de valor.
Processa a fala diretamente sem um pipeline de texto intermediário
Escuta e fala simultaneamente com suporte a sobreposição e interrupção
O fluxo de texto Inner Monologue melhora a qualidade da fala e o raciocínio
Executa em tempo real em uma GPU L4 ou MacBook Pro M3 via o codec Mimi
Pesos abertos no Hugging Face com código de inferência PyTorch, Rust e MLX
Primeiro modelo de fala para fala full-duplex com pesos e código publicamente disponíveis
Baixa latência de cerca de 200ms na prática graças ao codec Mimi a 12,5 Hz
Lida com dinâmicas de conversação natural como interrupções e backchanneling
Executa localmente em hardware de consumidor, incluindo MacBook Pro M3 e GPUs Nvidia L4
A demonstração no navegador limita as conversas a cinco minutos por sessão
Status experimental significa que as respostas podem ser inconsistentes ou sem sentido
Sem API gerenciada na nuvem; hospedagem própria requer hardware GPU capaz
O Moshi AI é gratuito para usar?
Sim. O Moshi AI é open source, com os pesos do modelo e o código de inferência disponíveis no GitHub e Hugging Face. O demo online em moshi-chat.kyutai.org é gratuito para experimentar, com conversas limitadas a cinco minutos por sessão.
Quem desenvolveu o Moshi AI?
O Moshi AI foi desenvolvido pela Kyutai, um laboratório de pesquisa em IA de ciência aberta sem fins lucrativos sediado em Paris. A Kyutai é financiada pelo Iliad Group, CMA CGM Group e Schmidt Sciences.
Como o Moshi AI é diferente dos assistentes de voz típicos?
A maioria dos assistentes de voz usa pipelines baseados em turnos que convertem fala em texto, geram uma resposta e depois sintetizam o áudio. O Moshi AI é nativo de fala: ele gera diretamente tokens de áudio e suporta diálogo full-duplex, onde ambos os lados podem falar ao mesmo tempo.
Posso rodar o Moshi AI localmente?
Sim. A Kyutai lançou os pesos do modelo Moshi junto com código de inferência em streaming em PyTorch, Rust e MLX. O blog de lançamento menciona desempenho em tempo real em uma GPU Nvidia L4 ou em um MacBook Pro M3.
O Moshi AI suporta imagens?
O MoshiVis estende o Moshi para discutir imagens em tempo real, mantendo o mesmo fluxo de conversa com baixa latência. Um demo separado está disponível em vis.moshi.chat, com pesos e código no GitHub.
Quais são as limitações do demo em moshi-chat.kyutai.org?
O demo no navegador do Moshi AI é experimental e limita cada conversa a cinco minutos. A Kyutai ressalta que o Chrome oferece a melhor experiência e que os usuários devem tratar as respostas geradas com cautela.

