GitHub 热门项目:CosyVoice

2026-05-27 1 阅读 GitHub Trending
GitHub 项目:CosyVoice 仓库地址:https://github.com/FunAudioLLM/CosyVoice 星级:21273 | 作者:FunAudioLLM 项目描述:多语言大语音生成模型,提供推理、训练和部署全栈能力。 =================================================== 自述文件内容: ![SVG 横幅](https://svg-banners.vercel.app/api?type=origin&text1=CosyVoice?&text2=Text-to-Speech%20?%20Large%20Language%20Model&width=800&height=210) ## ?? CosyVoice ?? **Fun-CosyVoice 3.0**:[演示](https://funaudiollm.github.io/cosyvoice3/); [论文](https://arxiv.org/pdf/2505.17589); [Modelscope](https://www.modelscope.cn/models/FunAudioLLM/Fun-CosyVoice3-0.5B-2512); [Huggingface](https://huggingface.co/FunAudioLLM/Fun-CosyVoice3-0.5B-2512); [CV3-Eval](https://github.com/FunAudioLLM/CV3-Eval) **CosyVoice 2.0**:[演示](https://funaudiollm.github.io/cosyvoice2/); [论文](https://arxiv.org/pdf/2412.10117); [Modelscope](https://www.modelscope.cn/models/iic/CosyVoice2-0.5B); [HuggingFace](https://huggingface.co/FunAudioLLM/CosyVoice2-0.5B) **CosyVoice 1.0**:[演示](https://fun-audio-llm.github.io); [论文](https://funaudiollm.github.io/pdf/CosyVoice_v1.pdf); [Modelscope](https://www.modelscope.cn/models/iic/CosyVoice-300M); [HuggingFace](https://huggingface.co/FunAudioLLM/CosyVoice-300M) ## 亮点? **Fun-CosyVoice 3.0** 是基于大语言模型 (LLM) 的先进文本转语音 (TTS) 系统,在内容一致性、说话者相似度和韵律自然度方面超越了其前身 (CosyVoice 2.0)。它专为野外零样本多语言语音合成而设计。 ### 主要特点 - **语言覆盖**:覆盖9种常用语言(中文、英语、日语、韩语、德语、西班牙语、法语、意大利语、俄语)、18+中国方言/口音(广东、闽南、四川、东北、山西、山西、上海、天津、山东、宁夏、甘肃等),同时支持多语言/跨语言零样本语音克隆。 - **内容一致性和自然度**:在内容一致性、说话者相似度和韵律自然度方面实现最先进的性能。 - **发音修复**:支持中文拼音和英文CMU音素的发音修复,提供更多的可控性,适合生产使用。 - **文本规范化**:支持读取数字、特殊符号和各种文本格式,无需传统的前端模块。 - **双流**:支持文本输入流和音频输出流,并实现低至 150 毫秒的延迟,同时保持高质量的音频输出。 - **指令支持**:支持语言、方言、情绪、速度、音量等多种指令。 ## 路线图 - [x] 2025/12 - [x] 发布 Fun-CosyVoice3-0.5B-2512 基础模型、RL 模型及其训练/推理脚本 - [x] 发布 Fun-CosyVoice3-0.5B modelscope 渐变空间 - [x] 2025/08 - [x] 感谢 NVIDIA 张跃凯的贡献,添加 triton trtllm 运行时支持和 cosyvoice2 grpo 训练支持 - [x] 2025/07 - [x] 发布 Fun-CosyVoice 3.0 评估集 - [x] 2025/05 - [x] 添加 CosyVoice2-0.5B vllm 支持 - [x] 2024/12 - [x] 25hz CosyVoice2-0.5B 发布 - [x] 2024/09 - [x] 25hz CosyVoice-300M 基本型号 - [x] 25hz 联合