AI开源软件

Dia:一个由两人小团队开发的完全开源语音模型

能“一步生成”极为逼真的多角色对话语音能直接根据对话文本生成自然、有情感的多说话人语音可用音频条件(prompt)进行控制,实现情感、语调的定制。可通过音频prompt实现声音克隆权重和推理代码完全公

标签:

能“一步生成”极为逼真的多角色对话语音 能直接根据对话文本生成自然、有情感的多说话人语音 可用音频条件(prompt)进行控制,实现情感、语调的定制。 可通过音频prompt实现声音克隆 权重和推理代码完全公开 单步对话生成:一次性生成完整对话(支持多说话人,如[S1]、[S2]标签)。 非语言标签支持:支持丰富的非语言动作标签,增强真实感。Dia 的完整版需要大约 10GB 的显存可以运行。


使用与开发

  • 支持 pip 安装与 Gradio Web 界面体验。

  • 可直接作为 Python 库调用或本地 CLI 工具。

  • 支持在 HuggingFace 上云端体验,无需本地部署。

  • 社区活跃,持续优化升级。

GitHub:https://github.com/nari-labs/dia/

Hugging Face:https://huggingface.co/nari-labs/Dia-1.6B

更多演示:https://yummy-fir-7a4.notion.site/dia


©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

类似网站