Moshi AI
Moshi AI 是来自巴黎开源科学研究实验室 Kyutai 的一种语音原生对话模型。它无需串联语音识别、文本生成和语音合成,而是直接处理音频,实现低延迟的全双工语音对话。
其多流设计为用户、Moshi的语音输出以及内部独白文本流开辟了独立的通道,从而提高一致性。这样的设置使得Moshi可以边听边说,应对重叠、打断和回话,就像真实的对话一样,而非僵硬的轮流发言。
Moshi建立在Helium——一个7B参数的语言模型,以及Kyutai的神经音频编码器Mimi之上。其权重和推理代码支持PyTorch、Rust和MLX,您还可以在浏览器中试用,网址为moshi-chat.kyutai.org。研究人员、语音AI开发者以及任何构建实时语音界面的人都能在这里找到最大的价值。
直接处理语音,无需中间文本管道
支持重叠和中断,能同时听和说
内心独白文本流提升语音质量和推理能力
通过Mimi编解码器在L4 GPU或M3 MacBook Pro上实时运行
在Hugging Face上开放权重,支持PyTorch、Rust和MLX推理代码
首个开源全双工语音对语音模型,公开了权重和代码
由于采用12.5 Hz的Mimi编解码器,实际低延迟约为200毫秒
处理自然对话动态,如打断和回应声
可在包括M3 MacBook Pro和Nvidia L4 GPU的消费级硬件上本地运行
浏览器演示版将每次会话限制为五分钟
实验性质意味着回复可能不可靠或无意义
无托管云API;自托管需要具备高性能GPU硬件
Moshi AI 是免费使用的吗?
是的。Moshi AI 是开源的,模型权重和推理代码已发布在 GitHub 和 Hugging Face 上。在线演示网站 moshi-chat.kyutai.org 免费试用,每次会话限制五分钟。
是谁开发了 Moshi AI?
Moshi AI 由总部位于巴黎的非盈利开放科学 AI 研究实验室 Kyutai 开发。Kyutai 的资金来自 Iliad Group、CMA CGM Group 和 Schmidt Sciences。
Moshi AI 与典型的语音助手有什么不同?
大多数语音助手采用基于回合的流程,先将语音转换为文本,生成回复,然后合成音频。Moshi AI 是语音原生的:它直接生成音频标记,并支持全双工对话,允许双方同时讲话。
我可以本地运行 Moshi AI 吗?
可以。Kyutai 发布了 Moshi 的模型权重及 PyTorch、Rust 和 MLX 的流式推理代码。发布博客指出,在 Nvidia L4 GPU 或 M3 MacBook Pro 上实现了实时性能。
Moshi AI 支持图像吗?
MoshiVis 扩展了 Moshi,可以实时讨论图像,同时保持相同的低延迟对话流程。单独的演示可在 vis.moshi.chat 访问,权重和代码在 GitHub 上提供。
moshi-chat.kyutai.org 上的演示有哪些限制?
Moshi AI 浏览器演示仍处于实验阶段,每次对话限制为五分钟。Kyutai 提示 Chrome 浏览器提供最佳体验,用户应谨慎对待生成的回复。

