开源推荐
morning
GitHub 热门项目:CosyVoice
2026-05-27
1 阅读
GitHub Trending
GitHub 项目:CosyVoice
仓库地址:https://github.com/FunAudioLLM/CosyVoice
星级:21273 | 作者:FunAudioLLM
项目描述:多语言大语音生成模型,提供推理、训练和部署全栈能力。
===================================================
自述文件内容:

## ?? CosyVoice ??
**Fun-CosyVoice 3.0**:[演示](https://funaudiollm.github.io/cosyvoice3/); [论文](https://arxiv.org/pdf/2505.17589); [Modelscope](https://www.modelscope.cn/models/FunAudioLLM/Fun-CosyVoice3-0.5B-2512); [Huggingface](https://huggingface.co/FunAudioLLM/Fun-CosyVoice3-0.5B-2512); [CV3-Eval](https://github.com/FunAudioLLM/CV3-Eval)
**CosyVoice 2.0**:[演示](https://funaudiollm.github.io/cosyvoice2/); [论文](https://arxiv.org/pdf/2412.10117); [Modelscope](https://www.modelscope.cn/models/iic/CosyVoice2-0.5B); [HuggingFace](https://huggingface.co/FunAudioLLM/CosyVoice2-0.5B)
**CosyVoice 1.0**:[演示](https://fun-audio-llm.github.io); [论文](https://funaudiollm.github.io/pdf/CosyVoice_v1.pdf); [Modelscope](https://www.modelscope.cn/models/iic/CosyVoice-300M); [HuggingFace](https://huggingface.co/FunAudioLLM/CosyVoice-300M)
## 亮点?
**Fun-CosyVoice 3.0** 是基于大语言模型 (LLM) 的先进文本转语音 (TTS) 系统,在内容一致性、说话者相似度和韵律自然度方面超越了其前身 (CosyVoice 2.0)。它专为野外零样本多语言语音合成而设计。
### 主要特点
- **语言覆盖**:覆盖9种常用语言(中文、英语、日语、韩语、德语、西班牙语、法语、意大利语、俄语)、18+中国方言/口音(广东、闽南、四川、东北、山西、山西、上海、天津、山东、宁夏、甘肃等),同时支持多语言/跨语言零样本语音克隆。
- **内容一致性和自然度**:在内容一致性、说话者相似度和韵律自然度方面实现最先进的性能。
- **发音修复**:支持中文拼音和英文CMU音素的发音修复,提供更多的可控性,适合生产使用。
- **文本规范化**:支持读取数字、特殊符号和各种文本格式,无需传统的前端模块。
- **双流**:支持文本输入流和音频输出流,并实现低至 150 毫秒的延迟,同时保持高质量的音频输出。
- **指令支持**:支持语言、方言、情绪、速度、音量等多种指令。
## 路线图
- [x] 2025/12
- [x] 发布 Fun-CosyVoice3-0.5B-2512 基础模型、RL 模型及其训练/推理脚本
- [x] 发布 Fun-CosyVoice3-0.5B modelscope 渐变空间
- [x] 2025/08
- [x] 感谢 NVIDIA 张跃凯的贡献,添加 triton trtllm 运行时支持和 cosyvoice2 grpo 训练支持
- [x] 2025/07
- [x] 发布 Fun-CosyVoice 3.0 评估集
- [x] 2025/05
- [x] 添加 CosyVoice2-0.5B vllm 支持
- [x] 2024/12
- [x] 25hz CosyVoice2-0.5B 发布
- [x] 2024/09
- [x] 25hz CosyVoice-300M 基本型号
- [x] 25hz 联合