GitHub 热门项目：CosyVoice

GitHub 项目：CosyVoice 仓库地址：https://github.com/FunAudioLLM/CosyVoice 星级：21273 | 作者：FunAudioLLM 项目描述：多语言大语音生成模型，提供推理、训练和部署全栈能力。 =================================================== 自述文件内容： ![SVG 横幅](https://svg-banners.vercel.app/api?type=origin&text1=CosyVoice?&text2=Text-to-Speech%20?%20Large%20Language%20Model&width=800&height=210) ## ?? CosyVoice ?? **Fun-CosyVoice 3.0**：[演示](https://funaudiollm.github.io/cosyvoice3/)； [论文](https://arxiv.org/pdf/2505.17589); [Modelscope](https://www.modelscope.cn/models/FunAudioLLM/Fun-CosyVoice3-0.5B-2512); [Huggingface](https://huggingface.co/FunAudioLLM/Fun-CosyVoice3-0.5B-2512)； [CV3-Eval](https://github.com/FunAudioLLM/CV3-Eval) **CosyVoice 2.0**：[演示](https://funaudiollm.github.io/cosyvoice2/)； [论文](https://arxiv.org/pdf/2412.10117); [Modelscope](https://www.modelscope.cn/models/iic/CosyVoice2-0.5B); [HuggingFace](https://huggingface.co/FunAudioLLM/CosyVoice2-0.5B) **CosyVoice 1.0**：[演示](https://fun-audio-llm.github.io)； [论文](https://funaudiollm.github.io/pdf/CosyVoice_v1.pdf); [Modelscope](https://www.modelscope.cn/models/iic/CosyVoice-300M); [HuggingFace](https://huggingface.co/FunAudioLLM/CosyVoice-300M) ## 亮点? **Fun-CosyVoice 3.0** 是基于大语言模型 (LLM) 的先进文本转语音 (TTS) 系统，在内容一致性、说话者相似度和韵律自然度方面超越了其前身 (CosyVoice 2.0)。它专为野外零样本多语言语音合成而设计。 ### 主要特点 - **语言覆盖**：覆盖9种常用语言（中文、英语、日语、韩语、德语、西班牙语、法语、意大利语、俄语）、18+中国方言/口音（广东、闽南、四川、东北、山西、山西、上海、天津、山东、宁夏、甘肃等），同时支持多语言/跨语言零样本语音克隆。 - **内容一致性和自然度**：在内容一致性、说话者相似度和韵律自然度方面实现最先进的性能。 - **发音修复**：支持中文拼音和英文CMU音素的发音修复，提供更多的可控性，适合生产使用。 - **文本规范化**：支持读取数字、特殊符号和各种文本格式，无需传统的前端模块。 - **双流**：支持文本输入流和音频输出流，并实现低至 150 毫秒的延迟，同时保持高质量的音频输出。 - **指令支持**：支持语言、方言、情绪、速度、音量等多种指令。 ## 路线图 - [x] 2025/12 - [x] 发布 Fun-CosyVoice3-0.5B-2512 基础模型、RL 模型及其训练/推理脚本 - [x] 发布 Fun-CosyVoice3-0.5B modelscope 渐变空间 - [x] 2025/08 - [x] 感谢 NVIDIA 张跃凯的贡献，添加 triton trtllm 运行时支持和 cosyvoice2 grpo 训练支持 - [x] 2025/07 - [x] 发布 Fun-CosyVoice 3.0 评估集 - [x] 2025/05 - [x] 添加 CosyVoice2-0.5B vllm 支持 - [x] 2024/12 - [x] 25hz CosyVoice2-0.5B 发布 - [x] 2024/09 - [x] 25hz CosyVoice-300M 基本型号 - [x] 25hz 联合

订阅66必读