能“一步生成”极为逼真的多角色对话语音 能直接根据对话文本生成自然、有情感的多说话人语音 可用音频条件(prompt)进行控制,实现情感、语调的定制。 可通过音频prompt实现声音克隆 权重和推理代码完全公开 单步对话生成:一次性生成完整对话(支持多说话人,如[S1]、[S2]标签)。 非语言标签支持:支持丰富的非语言动作标签,增强真实感。Dia 的完整版需要大约 10GB 的显存可以运行。
使用与开发
支持 pip 安装与 Gradio Web 界面体验。
可直接作为 Python 库调用或本地 CLI 工具。
支持在 HuggingFace 上云端体验,无需本地部署。
社区活跃,持续优化升级。
GitHub:https://github.com/nari-labs/dia/
Hugging Face:https://huggingface.co/nari-labs/Dia-1.6B
更多演示:https://yummy-fir-7a4.notion.site/dia
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。