VibeVoice

AI工具

微软开源的前沿语音AI家族，支持TTS和ASR，能处理90分钟长音频

💰 开源📱 cli, api👁 1 次浏览🔗 0 次点击📅 2026/4/1 收录

📖 详细介绍

VibeVoice 是微软于 2026 年 3 月底开源的前沿语音 AI 模型家族，包含 TTS（文本转语音）和 ASR（语音识别）两大核心能力。最大亮点是能处理长达 90 分钟的长音频、支持 4 人多发言人对话识别、实时延迟仅 300 毫秒。采用 MIT 协议开源，可完全本地部署。GitHub 发布首日即获得 27K Star，成为语音 AI 领域的现象级项目。适合播客转录、会议记录、语音助手等场景。