Moshi AI

Moshi AI

Moshi AI é um modelo conversacional nativo de fala da Kyutai, um laboratório de pesquisa em ciência aberta com sede em Paris. Em vez de encadear reconhecimento de fala, geração de texto e síntese de fala, o Moshi processa áudio diretamente e mantém conversas de voz full-duplex com mínima latência.

Seu design multi-stream executa canais separados para o usuário, a saída falada do Moshi e um fluxo de texto de Monólogo Interno que melhora a coerência. Essa configuração permite que o Moshi ouça e fale ao mesmo tempo, lidando com sobreposições, interrupções e respostas de acompanhamento como uma conversa real, ao invés de turnos rígidos de fala.

O Moshi é construído sobre o Helium, um modelo de linguagem de 7B, e o Mimi, o codec de áudio neural da Kyutai. Pesos e código de inferência são disponibilizados para PyTorch, Rust e MLX, e você pode experimentá-lo no navegador em moshi-chat.kyutai.org. Pesquisadores, desenvolvedores de voice AI e qualquer pessoa que esteja construindo interfaces de fala em tempo real encontrarão aqui o máximo de valor.

Recursos Principais:
  1. Processa a fala diretamente sem um pipeline de texto intermediário

  2. Escuta e fala simultaneamente com suporte a sobreposição e interrupção

  3. O fluxo de texto Inner Monologue melhora a qualidade da fala e o raciocínio

  4. Executa em tempo real em uma GPU L4 ou MacBook Pro M3 via o codec Mimi

  5. Pesos abertos no Hugging Face com código de inferência PyTorch, Rust e MLX

Pros:
  1. Primeiro modelo de fala para fala full-duplex com pesos e código publicamente disponíveis

  2. Baixa latência de cerca de 200ms na prática graças ao codec Mimi a 12,5 Hz

  3. Lida com dinâmicas de conversação natural como interrupções e backchanneling

  4. Executa localmente em hardware de consumidor, incluindo MacBook Pro M3 e GPUs Nvidia L4

Cons:
  1. A demonstração no navegador limita as conversas a cinco minutos por sessão

  2. Status experimental significa que as respostas podem ser inconsistentes ou sem sentido

  3. Sem API gerenciada na nuvem; hospedagem própria requer hardware GPU capaz

Perguntas frequentes:

O Moshi AI é gratuito para usar?

Sim. O Moshi AI é open source, com os pesos do modelo e o código de inferência disponíveis no GitHub e Hugging Face. O demo online em moshi-chat.kyutai.org é gratuito para experimentar, com conversas limitadas a cinco minutos por sessão.

Quem desenvolveu o Moshi AI?

O Moshi AI foi desenvolvido pela Kyutai, um laboratório de pesquisa em IA de ciência aberta sem fins lucrativos sediado em Paris. A Kyutai é financiada pelo Iliad Group, CMA CGM Group e Schmidt Sciences.

Como o Moshi AI é diferente dos assistentes de voz típicos?

A maioria dos assistentes de voz usa pipelines baseados em turnos que convertem fala em texto, geram uma resposta e depois sintetizam o áudio. O Moshi AI é nativo de fala: ele gera diretamente tokens de áudio e suporta diálogo full-duplex, onde ambos os lados podem falar ao mesmo tempo.

Posso rodar o Moshi AI localmente?

Sim. A Kyutai lançou os pesos do modelo Moshi junto com código de inferência em streaming em PyTorch, Rust e MLX. O blog de lançamento menciona desempenho em tempo real em uma GPU Nvidia L4 ou em um MacBook Pro M3.

O Moshi AI suporta imagens?

O MoshiVis estende o Moshi para discutir imagens em tempo real, mantendo o mesmo fluxo de conversa com baixa latência. Um demo separado está disponível em vis.moshi.chat, com pesos e código no GitHub.

Quais são as limitações do demo em moshi-chat.kyutai.org?

O demo no navegador do Moshi AI é experimental e limita cada conversa a cinco minutos. A Kyutai ressalta que o Chrome oferece a melhor experiência e que os usuários devem tratar as respostas geradas com cautela.

Preços:

Gratuito

Tags:

Speech-to-Speech AI
Real-Time Voice AI
Open Source AI
Conversational AI
Full-Duplex Dialogue

Tecnologia utilizada:

Next.js
GitHub
Webpack
Emotion
Tailwind CSS

Avaliações:

Give your opinion on Moshi AI :-

Overall rating

Join thousands of AI enthusiasts in the World of AI!

Melhor Gratuito Moshi AI Alternativas (e Pagas)

By Rishit