VibeVoice

VibeVoice

AI工具

微软开源的前沿语音AI家族,支持TTS和ASR,能处理90分钟长音频

💰 开源📱 cli, api👁 1 次浏览🔗 0 次点击📅 2026/4/1 收录

📖 详细介绍

VibeVoice 是微软于 2026 年 3 月底开源的前沿语音 AI 模型家族,包含 TTS(文本转语音)和 ASR(语音识别)两大核心能力。最大亮点是能处理长达 90 分钟的长音频、支持 4 人多发言人对话识别、实时延迟仅 300 毫秒。采用 MIT 协议开源,可完全本地部署。GitHub 发布首日即获得 27K Star,成为语音 AI 领域的现象级项目。适合播客转录、会议记录、语音助手等场景。

✅ 核心功能

  • 90分钟长音频处理
  • 多发言人识别
  • TTS+ASR双模型
  • 300ms低延迟
  • MIT开源
  • 本地部署