一分钟克隆声音最强开源工具GPT-sovits教程

AI教程 2025-11-12

为了避免在之后的使用中出现各种意料之外的问题,请务必对照下面的 Checklist 检查本机环境。


  • ZAK9IC}7SRRMJ]FH[(W~)_I.png<input type="checkbox" checked="true">关闭全局梯子 / 绕过局域网

  • ZAK9IC}7SRRMJ]FH[(W~)_I.png<input type="checkbox" checked="true">使用推荐的浏览器(Chrome / Edge / Firefox)

  • ZAK9IC}7SRRMJ]FH[(W~)_I.png<input type="checkbox" checked="true">关闭浏览器自带的网页翻译功能

  • ZAK9IC}7SRRMJ]FH[(W~)_I.png<input type="checkbox" checked="true">关闭所有第三方杀毒软件 / 安全卫士等

  • ZAK9IC}7SRRMJ]FH[(W~)_I.png<input type="checkbox" checked="true">如果内存吃紧,将系统虚拟内存设置为自动

  • ZAK9IC}7SRRMJ]FH[(W~)_I.png<input type="checkbox" checked="true">建议关闭共享显存,教程:关闭共享显存

  • ZAK9IC}7SRRMJ]FH[(W~)_I.png<input type="checkbox" checked="true">win11关闭GPU加速,貌似有占用不满的bug
  • 部分浏览器(尤其是 Edge)会出现 WebUI 打开后无法正常工作的现象。如果遇到卡死/无法点击交互等现象,请尝试更换为上述推荐的其他浏览器。

    如果你是个新手那么建议你先看一下快速开始 基础知识

    请认真看完教程和报错合集再有礼貌的去问别人问题,不要给自己和别人带来不必要的麻烦

    文档更新频率:

    · 每天github如果有更新,那么就会简单写一下新功能如何使用

    · 等整合包更新后会详细讲解如何使用,整合包不可能每天有东西就立马更新的,肯定要等优化完成后才 更新,github上虽然更新频率快但可能有bug且功能不是那么完善

    视频教程(V1版,已过时)

    版本说明:

    GPT-SoVITS-V1于2024年1月发布,V2于2024年8月7日发布,V3于2025年2月12日发布,V4于2025年4月19日发布,V2Pro/Pro Plus是V2的升级版,于2025年6月发布。V1版的后缀为beta,V2版的后缀为V2,V3版的后缀为V3。四位数字表示更新日期,如:GPT-SoVITS-beta0706fix1是在7月6号更新的V1版整合包,GPT-SoVITS-V2-0807是在8月7号更新的V2版整合包。V1将不再更新,最终版本是0706fix1,V2也不再更新,最终版本是0821。V3也不再更新,最终版本是0228。V4也(应该)不再更新,最终版本是0422。


    如果你是用过V3的老用户可以直接去看 V3升级指南

    V2ProPlus的特点

    • <input type="checkbox" checked="true">s2增加SV音色emb引导
    • <input type="checkbox" checked="true">输入模型的音色emb提升到1024通道;
    • <input type="checkbox" checked="true">v2ProPlus增加s2的decoder宽度。

    1.下载并更新

    完整整合包(选择最新的下载)


    百度网盘:

    提取码:mqpi


    原版直链下载(国内满速)

    此处为语雀内容卡片,点击链接查看:https://www.yuque.com/flowercry/hxf0ds

    直链(不限速):

    1.1:下载

    1.1.1:百度网盘(要会员)

    有百度网盘会员的可以选择百度网盘,修改日期就是更新时间。打开V2文件夹,勾选压缩包,点击右上角的下载后自动跳转到百度网盘客户端。如果没有客户端的先下载一个客户端。

    image.png

    先点浏览选择下载地址,然后点击下载。


    image.png

    1.1.2:直链下载

    https://www.yuque.com/flowercry/hxf0ds

    来到这个页面,找到对应的版本,复制链接到浏览器内打开



    2:解压并打开

    2.1:解压

    请使用7-Zip解压!其他解压工具可能会吞文件,比如360解压、Windows自带的解压、2345好压等很多解压工具都会吞文件!

    官网英文原版下载:https://www.7-zip.org/download.html

    汉化版直链下载:https://423down.lanzouo.com/i9Sn922czite


    解压方法:

    右键压缩包选择解压到GPT-SoVITS-v3-xxxx\,如果是win11需要先点击显示更多选项

    image.png

    2.2:打开

    打开文件来到根目录,双击go-webui.bat打开,不要以管理员身份运行!

    image.png

    如果没有.bat的后缀可以在查看里打开文件扩展名,后面也会遇到很多需要后缀的
    image.png

    这就是正常打开了,稍加等待就会弹出网页。如果没有弹出网页可以复制http://0.0.0.0:9874到浏览器打开

    image.png


    这就是网页端

    image.png


    在开始使用前先提醒一下大家:打开的bat不可以关闭!这个黑色的bat框就是控制台,所有的日志都会在这上面呈现,所有的信息以控制台为准。如果要向别人提问请写清楚:哪一步骤+网页端(方便看你填没填对)+控制台截图!所有的报错都在控制台上!你不给别人看控制台谁也不知道你是什么问题!Error后面的一般是报错

    3:数据集处理

    请认真准备数据集!以免后面出现各种报错,和炼出不理想的模型!好的数据集是炼出好的模型的基础!

    3.1:使用UVR5处理原音频(如果原音频足够干净可以跳过这步,比如游戏中提取的干声)


    3.1.1:方法1:用自带的UVR5处理音频


    点击开启UVR5-WebUI稍加等待就会自动弹出图二的网页,如果没有弹出复制http://0.0.0.0:9873到浏览器打开

    image.png

    首先输入音频文件夹路径或者直接选择文件(2选1)

    文件夹上面那个地址框就是文件夹路径

    image.png


    如果要复制文件路径就是这样↓

    image.png


    先用model_bs_roformer_ep_317_sdr_12.9755模型(已经是目前最好的模型)处理一遍(提取人声),然后将输出的干声音频再用onnx_dereverb最后用DeEcho-Aggressive(去混响),输出格式选wav。输出的文件默认在GPT-SoVITS-beta\output\uvr5_opt这个文件夹下,建议不要改输出路径,到时候找不到文件谁也帮不了你。处理完的音频(vocal)的是人声,(instrument)是伴奏,(_vocal_main_vocal)的没混响的,(others)的是混响。(vocal)(_vocal_main_vocal)才是要用的文件,其他都可以删除。结束后记得到WebUI关闭UVR5节省显存。

    详细教程image.png

    如果没有成功输出,报错了(现在版本应该不会报错了)。

    那么推荐使用下面一种方法——UVR5客户端。(可能兼容性有问题,但是效果是和UVR5对齐的,不要瞎黑内置工具效果有问题)


    报错原因

    报错原因一般是音频太短了,导致音频缓冲区爆了。也有一些是因为显卡性能不够的。


    3.1.2:方法2:使用UVR5客户端(没有bug,模型更多)

    官方下载地址https://github.com/TRvlvr/model_repo/releases(beta版)

    https://github.com/Anjok07/ultimatevocalremovergui/releases(正式版)

    网盘下载(包含Windows和macOS):https://www.123pan.com/s/UHp9-9fi8H.html

    macOS和Liunx的使用方法

    由于苹果的严格管控应用程序的安全性,您可能需要按照以下步骤打开UVR:

    首先,使用终端运行以下命令,允许应用程序从所有来源运行:

    sudo spctl --master-disable

    其次,运行以下命令来绕过验证:

    sudo xattr -rd com.apple.quarantine /Applications/Ultimate\ Vocal\ Remover.app

    Linux:嗯?都用Linux了,用Git拉代码自己部署不是难事吧?欸嘿~

    为了最好的分离效果教程中使用的是beta版,网盘中的windows安装包是beta版

    目前MAC使用beta版要自己拉代码装环境,或者等安装包制作完成

    网盘中的安装包是正式版的

    警告:安装路径必须为全英文!!!不推荐修改默认安装路径,否则会有权限问题!!!


    详细教程:https://www.bilibili.com/read/cv27499700/ 作者@bilibili@bfloat16

    打开UVR5首先要下载模型,建议下载我打包好的,里面有几乎所有模型,包含vip模型。下载解压后先把Ultimate Vocal Remover根目录的models文件夹删了,再把解压的文件夹直接拖进Ultimate Vocal Remover根目录替换models文件夹


    模型包:https://www.123pan.com/s/UHp9-Qfi8H.html(下载精简版就好,里面有要用到的模型了。完整版是UVR5的所有模型,可能以后会用到)语雀直接下载↓



    如果觉得模型包太大,也可以自己下载(需要科学上网,且速度很慢,一次只能下一个)。点击左下角的小扳手,打开设置界面,点击第三个下载模型。需要下载的模型有:MDX-Net:model_bs_roformer_ep_317_sdr_12.9755、VR Architecture:UVR-De-Echo-Normal、UVR-De-Echo-Aggressive、UVR-De-Echo-Dereverb、UVR-DeNoise。


    如果是A卡或I卡用户需要在第二个设置界面点上Use OpenCL

    image.png

    image.png

    下载完模型后开始处理音频,select input选择输入文件,select output选择输出文件夹,输出格式选WAV,记得点上GPU Conversion(使用GPU),首先选择MDX-Net类型使用Bs-Roformer-Viperx-1297(目前最好的提取人声的模型,又快又好)提取人声。处理完的音频(vocals)的是人声。然后把人声再输入去混响(下面三选一):VR Architecture:UVR-De-Echo-Normal(轻度混响)、UVR-De-Echo-Aggressive(重度混响)、UVR-De-Echo-Dereverb(变态混响),最后用UVR-DeNoise降噪一下。这套流程弄完会比自带的UVR5在人声提取方面好一点。

    image.png


    3.1.3:方法3:MDX23C(MAC用户暂时用)

    因为目前MAC没有UVR5beta版的安装包,要么拉代码自己装,要么只能用5.6正式版

    正式版目前最好的模型是MDX23C,流程和4.1.1.1.3.1一样的只是把Bs-Roformer-Viperx-1297换成MDX23C


    3.2:切割音频

    在切割音频前建议把所有音频拖进音频软件(如au、剪映)调整音量,最大音量调整至-9dB到-6dB,过高的删除

    首先输入原音频的文件夹路径(不要有中文),如果刚刚经过了UVR5处理那么就是uvr5_opt这个文件夹。然后建议可以调整的参数有min_length、min_interval和max_sil_kept单位都是ms。min_length根据显存大小调整,显存越小调越小。min_interval根据音频的平均间隔调整,如果音频太密集可以适当调低。max_sil_kept会影响句子的连贯性,不同音频不同调整,不会调的话保持默认。其他参数不建议调整。点击开启语音切割,马上就切割好了。默认输出路径在output/slicer_opt。当然也可以使用其他切分工具切分。

    image.png

    切分完后文件在output\slicer_opt。打开切分文件夹,排序方式选大小,将时长超过 显存数 秒的音频手动切分至 显存数 秒以下。比如显卡是4090 显存是24g,那么就要将超过24秒的音频手动切分至24s以下,音频时长太长的会爆显存。如果语音切割后还是一个文件,那是因为音频太密集了。可以调低min_interval,从300调到100基本能解决这问题。实在不行用au手动切分。

©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

相关文章