VibeVoice
AI工具微软开源的前沿语音AI家族,支持TTS和ASR,能处理90分钟长音频
💰 开源📱 cli, api👁 1 次浏览🔗 0 次点击📅 2026/4/1 收录
📖 详细介绍
VibeVoice 是微软于 2026 年 3 月底开源的前沿语音 AI 模型家族,包含 TTS(文本转语音)和 ASR(语音识别)两大核心能力。最大亮点是能处理长达 90 分钟的长音频、支持 4 人多发言人对话识别、实时延迟仅 300 毫秒。采用 MIT 协议开源,可完全本地部署。GitHub 发布首日即获得 27K Star,成为语音 AI 领域的现象级项目。适合播客转录、会议记录、语音助手等场景。
✅ 核心功能
- ✓90分钟长音频处理
- ✓多发言人识别
- ✓TTS+ASR双模型
- ✓300ms低延迟
- ✓MIT开源
- ✓本地部署