盲测击败了ElevenLabs的一款TTS:Chatterbox,有极强的情感控制能力,可以调整其语音表现力支持语音克隆、风格定制除了正常对话,可以用于一些戏剧化的语音场景隆重推出 Chatterbo
一分钟克隆声音最强开源工具GPT-sovits安装包
具备细粒度语音编辑能力的一款AI语音修复模型:PlayDiffusion,修改后的语音听上去可与原语音无缝衔接,对于做语音播报、或者有声读物,这种需要频繁修改语音内容的场景来说比较实用,支持精准修改,
英伟达发的一款语音识别模型:Parakeet TDT 0.6B V2,核心能力是它准确的词级时间戳预测,还能自动加上标点符号和大小写6亿参数,可以精确预测单词的时间戳,主要用于英语识别,可以一次性处理
新出的一款端到端AI语音模型:Voila,全双工能同时听和说,低延迟,预置了一百万种语音还支持ASR、TTS以及多语言语音翻译端到端架构,支持全双工的低延迟对话,延迟195毫秒,超人类平均响应时间能实
一款开源的实时AI语音聊天助手:RealtimeVoiceChat,语音听起来相对自然,支持打断双向语音交互,延迟低,可以实时看到语音转录,以及AI的回复内容用来构建客服、教育或陪伴等等场景的AI语音
增强语音反欺骗系统
TTS 是一个用于高级文本转语音生成的库,超过 1100 种语言的预训练模型。
能“一步生成”极为逼真的多角色对话语音能直接根据对话文本生成自然、有情感的多说话人语音可用音频条件(prompt)进行控制,实现情感、语调的定制。可通过音频prompt实现声音克隆权重和推理代码完全公
So-vits-SVC4.1人工语音合成文字教程
文本转语音引擎
OpenVoice 是一种多功能的即时语音克隆模型
提供多种AI语音转化
MetaVoice-1B 是一个 1.2B 参数基础模型
文本转语音
Aero-1-Audio,1.5B参数,在一些基准上表现出了与Whisper、Qwen-2-Audio相当甚至更优的性能,尤其是在参数效率方面它是基于Qwen-2.5-1.5B构建的,核心是能处理15