一分钟克隆声音最强开源工具GPT-sovits教程
为了避免在之后的使用中出现各种意料之外的问题,请务必对照下面的 Checklist 检查本机环境。
<input type="checkbox" checked="true">关闭全局梯子 / 绕过局域网
<input type="checkbox" checked="true">使用推荐的浏览器(✅Chrome / Edge / Firefox)
<input type="checkbox" checked="true">关闭浏览器自带的网页翻译功能
<input type="checkbox" checked="true">关闭所有第三方杀毒软件 / 安全卫士等
<input type="checkbox" checked="true">如果内存吃紧,将系统虚拟内存设置为自动
<input type="checkbox" checked="true">建议关闭共享显存,教程:关闭共享显存
<input type="checkbox" checked="true">win11关闭GPU加速,貌似有占用不满的bug部分浏览器(尤其是 Edge)会出现 WebUI 打开后无法正常工作的现象。如果遇到卡死/无法点击交互等现象,请尝试更换为上述推荐的其他浏览器。
请认真看完教程和报错合集再有礼貌的去问别人问题,不要给自己和别人带来不必要的麻烦
文档更新频率:
· 每天github如果有更新,那么就会简单写一下新功能如何使用
· 等整合包更新后会详细讲解如何使用,整合包不可能每天有东西就立马更新的,肯定要等优化完成后才 更新,github上虽然更新频率快但可能有bug且功能不是那么完善
视频教程(V1版,已过时)
版本说明:
GPT-SoVITS-V1于2024年1月发布,V2于2024年8月7日发布,V3于2025年2月12日发布,V4于2025年4月19日发布,V2Pro/Pro Plus是V2的升级版,于2025年6月发布。V1版的后缀为beta,V2版的后缀为V2,V3版的后缀为V3。四位数字表示更新日期,如:GPT-SoVITS-beta0706fix1是在7月6号更新的V1版整合包,GPT-SoVITS-V2-0807是在8月7号更新的V2版整合包。V1将不再更新,最终版本是0706fix1,V2也不再更新,最终版本是0821。V3也不再更新,最终版本是0228。V4也(应该)不再更新,最终版本是0422。
如果你是用过V3的老用户可以直接去看 V3升级指南
V2ProPlus的特点
- <input type="checkbox" checked="true">s2增加SV音色emb引导
- <input type="checkbox" checked="true">输入模型的音色emb提升到1024通道;
- <input type="checkbox" checked="true">v2ProPlus增加s2的decoder宽度。
1.下载并更新
完整整合包(选择最新的下载)
百度网盘:
提取码:mqpi
原版直链下载(国内满速)
此处为语雀内容卡片,点击链接查看:https://www.yuque.com/flowercry/hxf0ds直链(不限速):
1.1:下载
1.1.1:百度网盘(要会员)
有百度网盘会员的可以选择百度网盘,修改日期就是更新时间。打开V2文件夹,勾选压缩包,点击右上角的下载后自动跳转到百度网盘客户端。如果没有客户端的先下载一个客户端。

先点浏览选择下载地址,然后点击下载。

1.1.2:直链下载
https://www.yuque.com/flowercry/hxf0ds
来到这个页面,找到对应的版本,复制链接到浏览器内打开
2:解压并打开
2.1:解压
请使用7-Zip解压!其他解压工具可能会吞文件,比如360解压、Windows自带的解压、2345好压等很多解压工具都会吞文件!
官网英文原版下载:https://www.7-zip.org/download.html
解压方法:
右键压缩包选择解压到GPT-SoVITS-v3-xxxx\,如果是win11需要先点击显示更多选项

2.2:打开
打开文件来到根目录,双击go-webui.bat打开,不要以管理员身份运行!
如果没有.bat的后缀可以在查看里打开文件扩展名,后面也会遇到很多需要后缀的
这就是正常打开了,稍加等待就会弹出网页。如果没有弹出网页可以复制http://0.0.0.0:9874到浏览器打开

这就是网页端


在开始使用前先提醒一下大家:打开的bat不可以关闭!这个黑色的bat框就是控制台,所有的日志都会在这上面呈现,所有的信息以控制台为准。如果要向别人提问请写清楚:哪一步骤+网页端(方便看你填没填对)+控制台截图!所有的报错都在控制台上!你不给别人看控制台谁也不知道你是什么问题!Error后面的一般是报错
3:数据集处理
请认真准备数据集!以免后面出现各种报错,和炼出不理想的模型!好的数据集是炼出好的模型的基础!
3.1:使用UVR5处理原音频(如果原音频足够干净可以跳过这步,比如游戏中提取的干声)
3.1.1:方法1:用自带的UVR5处理音频
点击开启UVR5-WebUI稍加等待就会自动弹出图二的网页,如果没有弹出复制http://0.0.0.0:9873到浏览器打开
首先输入音频文件夹路径或者直接选择文件(2选1)
文件夹上面那个地址框就是文件夹路径

如果要复制文件路径就是这样↓

先用model_bs_roformer_ep_317_sdr_12.9755模型(已经是目前最好的模型)处理一遍(提取人声),然后将输出的干声音频再用onnx_dereverb最后用DeEcho-Aggressive(去混响),输出格式选wav。输出的文件默认在GPT-SoVITS-beta\output\uvr5_opt这个文件夹下,建议不要改输出路径,到时候找不到文件谁也帮不了你。处理完的音频(vocal)的是人声,(instrument)是伴奏,(_vocal_main_vocal)的没混响的,(others)的是混响。(vocal)(_vocal_main_vocal)才是要用的文件,其他都可以删除。结束后记得到WebUI关闭UVR5节省显存。
←详细教程

如果没有成功输出,报错了(现在版本应该不会报错了)。
那么推荐使用下面一种方法——UVR5客户端。(✅可能兼容性有问题,但是效果是和UVR5对齐的,不要瞎黑内置工具效果有问题)
报错原因
报错原因一般是音频太短了,导致音频缓冲区爆了。也有一些是因为显卡性能不够的。
3.1.2:方法2:使用UVR5客户端(没有bug,模型更多)
官方下载地址:https://github.com/TRvlvr/model_repo/releases(beta版)
https://github.com/Anjok07/ultimatevocalremovergui/releases(正式版)
网盘下载(包含Windows和macOS):https://www.123pan.com/s/UHp9-9fi8H.html
macOS和Liunx的使用方法
由于苹果的严格管控应用程序的安全性,您可能需要按照以下步骤打开UVR:
首先,使用终端运行以下命令,允许应用程序从所有来源运行:
sudo spctl --master-disable
其次,运行以下命令来绕过验证:
sudo xattr -rd com.apple.quarantine /Applications/Ultimate\ Vocal\ Remover.app
Linux:嗯?都用Linux了,用Git拉代码自己部署不是难事吧?欸嘿~
为了最好的分离效果教程中使用的是beta版,网盘中的windows安装包是beta版
目前MAC使用beta版要自己拉代码装环境,或者等安装包制作完成
网盘中的安装包是正式版的
警告:安装路径必须为全英文!!!不推荐修改默认安装路径,否则会有权限问题!!!
详细教程:https://www.bilibili.com/read/cv27499700/ 作者@bilibili@bfloat16
打开UVR5首先要下载模型,建议下载我打包好的,里面有几乎所有模型,包含vip模型。下载解压后先把Ultimate Vocal Remover根目录的models文件夹删了,再把解压的文件夹直接拖进Ultimate Vocal Remover根目录替换models文件夹
模型包:https://www.123pan.com/s/UHp9-Qfi8H.html(下载精简版就好,里面有要用到的模型了。完整版是UVR5的所有模型,可能以后会用到)语雀直接下载↓
如果觉得模型包太大,也可以自己下载(需要科学上网,且速度很慢,一次只能下一个)。点击左下角的小扳手,打开设置界面,点击第三个下载模型。需要下载的模型有:MDX-Net:model_bs_roformer_ep_317_sdr_12.9755、VR Architecture:UVR-De-Echo-Normal、UVR-De-Echo-Aggressive、UVR-De-Echo-Dereverb、UVR-DeNoise。
如果是A卡或I卡用户需要在第二个设置界面点上Use OpenCL



下载完模型后开始处理音频,select input选择输入文件,select output选择输出文件夹,输出格式选WAV,记得点上GPU Conversion(使用GPU),首先选择MDX-Net类型使用Bs-Roformer-Viperx-1297(目前最好的提取人声的模型,又快又好)提取人声。处理完的音频(vocals)的是人声。然后把人声再输入去混响(下面三选一):VR Architecture:UVR-De-Echo-Normal(轻度混响)、UVR-De-Echo-Aggressive(重度混响)、UVR-De-Echo-Dereverb(变态混响),最后用UVR-DeNoise降噪一下。这套流程弄完会比自带的UVR5在人声提取方面好一点。

3.1.3:方法3:MDX23C(MAC用户暂时用)
因为目前MAC没有UVR5beta版的安装包,要么拉代码自己装,要么只能用5.6正式版
正式版目前最好的模型是MDX23C,流程和4.1.1.1.3.1一样的只是把Bs-Roformer-Viperx-1297换成MDX23C
3.2:切割音频
在切割音频前建议把所有音频拖进音频软件(如au、剪映)调整音量,最大音量调整至-9dB到-6dB,过高的删除
首先输入原音频的文件夹路径(不要有中文),如果刚刚经过了UVR5处理那么就是uvr5_opt这个文件夹。然后建议可以调整的参数有min_length、min_interval和max_sil_kept单位都是ms。min_length根据显存大小调整,显存越小调越小。min_interval根据音频的平均间隔调整,如果音频太密集可以适当调低。max_sil_kept会影响句子的连贯性,不同音频不同调整,不会调的话保持默认。其他参数不建议调整。点击开启语音切割,马上就切割好了。默认输出路径在output/slicer_opt。当然也可以使用其他切分工具切分。

切分完后文件在output\slicer_opt。打开切分文件夹,排序方式选大小,将时长超过 显存数 秒的音频手动切分至 显存数 秒以下。比如显卡是4090 显存是24g,那么就要将超过24秒的音频手动切分至24s以下,音频时长太长的会爆显存。如果语音切割后还是一个文件,那是因为音频太密集了。可以调低min_interval,从300调到100基本能解决这问题。实在不行用au手动切分。
川公网安备 123456789号