语音软件_AI开源软件

盲测击败了ElevenLabs的一款TTS：Chatterbox，有极强的情感控制能力，可以调整其语音表现力支持语音克隆、风格定制除了正常对话，可以用于一些戏剧化的语音场景隆重推出 Chatterbo

一分钟克隆声音最强开源工具GPT-sovits安装包

具备细粒度语音编辑能力的一款AI语音修复模型：PlayDiffusion，修改后的语音听上去可与原语音无缝衔接，对于做语音播报、或者有声读物，这种需要频繁修改语音内容的场景来说比较实用，支持精准修改，

英伟达发的一款语音识别模型：Parakeet TDT 0.6B V2，核心能力是它准确的词级时间戳预测，还能自动加上标点符号和大小写6亿参数，可以精确预测单词的时间戳，主要用于英语识别,可以一次性处理

新出的一款端到端AI语音模型：Voila，全双工能同时听和说，低延迟，预置了一百万种语音还支持ASR、TTS以及多语言语音翻译端到端架构，支持全双工的低延迟对话，延迟195毫秒，超人类平均响应时间能实

一款开源的实时AI语音聊天助手：RealtimeVoiceChat，语音听起来相对自然，支持打断双向语音交互，延迟低，可以实时看到语音转录，以及AI的回复内容用来构建客服、教育或陪伴等等场景的AI语音

增强语音反欺骗系统

TTS 是一个用于高级文本转语音生成的库，超过 1100 种语言的预训练模型。

能“一步生成”极为逼真的多角色对话语音能直接根据对话文本生成自然、有情感的多说话人语音可用音频条件（prompt）进行控制，实现情感、语调的定制。可通过音频prompt实现声音克隆权重和推理代码完全公

So-vits-SVC4.1人工语音合成文字教程

文本转语音引擎

OpenVoice 是一种多功能的即时语音克隆模型

提供多种AI语音转化

MetaVoice-1B 是一个 1.2B 参数基础模型

文本转语音

Aero-1-Audio，1.5B参数，在一些基准上表现出了与Whisper、Qwen-2-Audio相当甚至更优的性能，尤其是在参数效率方面它是基于Qwen-2.5-1.5B构建的，核心是能处理15

AI工具集