FunAudioLLM：阿里通义音频生成开源大模型

2024年7月8日单位

FunAudioLLM：阿里通义音频生成开源大模型

郝彦飞

CosyVoice 致力于自然语音生成，支持多语言、音色和情感控制，在多语言语音生成、零样本语音生成、跨语言声音合成和指令执行能力方面表现卓越。

多语言合成：采用了总共超15万小时的数据训练，支持中英日粤韩5种语言的合成，合成效果显著优于传统语音合成模型。
极速音色模拟：仅需要3~10s的原始音频，即可生成模拟音色，甚至包括韵律、情感等细节。在跨语种的语音合成中，也有不俗的表现。
富文本或自然语言的细粒度控制：支持以富文本或自然语言的形式，对合成语音的情感、韵律进行细粒度的控制，合成音频在情感表现力上得到明显提升。

SenseVoice 则专注于高精度多语言语音识别、情感辨识和音频事件检测。

多语言识别：采用超过40万小时数据训练，支持超过50种语言，识别效果上优于Whisper模型，中文与粤语上提升50%以上。
富文本识别：

具备优秀的情感识别，能够在测试数据上达到和超过目前最佳情感识别模型的效果。
支持声音事件检测能力，支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。

推理速度：SenseVoice-Small模型采用非自回归端到端框架，推理延迟极低，10s音频推理仅耗时70ms，15倍优于Whisper-large。

官网地址：https://fun-audio-llm.github.io/

源码地址：https://github.com/FunAudioLLM

参考文章： https://mp.weixin.qq.com/s/6XaECd_G7jp0q4jVvC9NPg

在 AI项目

# AI语音底层工具开源