Dia：一个由两人小团队开发的完全开源语音模型 _AI开源软件

Dia：一个由两人小团队开发的完全开源语音模型

能“一步生成”极为逼真的多角色对话语音能直接根据对话文本生成自然、有情感的多说话人语音可用音频条件（prompt）进行控制，实现情感、语调的定制。可通过音频prompt实现声音克隆权重和推理代码完全公

标签：语音模型

链接直达手机查看

能“一步生成”极为逼真的多角色对话语音能直接根据对话文本生成自然、有情感的多说话人语音可用音频条件（prompt）进行控制，实现情感、语调的定制。可通过音频prompt实现声音克隆权重和推理代码完全公开单步对话生成：一次性生成完整对话（支持多说话人，如[S1]、[S2]标签）。非语言标签支持：支持丰富的非语言动作标签，增强真实感。Dia 的完整版需要大约 10GB 的显存可以运行。

使用与开发

支持 pip 安装与 Gradio Web 界面体验。
可直接作为 Python 库调用或本地 CLI 工具。
支持在 HuggingFace 上云端体验，无需本地部署。
社区活跃，持续优化升级。

GitHub：https://github.com/nari-labs/dia/

Hugging Face：https://huggingface.co/nari-labs/Dia-1.6B

AI工具集

Dia：一个由两人小团队开发的完全开源语音模型

使用与开发

类似网站