牛,腾讯刚刚开源了HunyuanVideo-Avatar,根据音频生成动画视频,它能根据语音匹配丰富的表情,让你的数字人具备“生命力”

给一张人物的图片,再给一段音频,它能让这张图片里的人物动起来,从效果看,嘴型、表情、动作都和语音高度同步!

并且支持多个人物同时对话,这可以用来做对话、访谈类的内容了

支持多种风格,真人照片、动漫、3D角色、卡通等等

做电商直播、创意短视频、个性化老师、AI播报员都可以,数字人卷起来了



混元视频(HunyuanVideo-Avatar):基于多模态扩散Transformer的动态多角色情感对话视频生成框架

近年来音频驱动人体动画取得显著进展,但三大核心挑战依然存在:
(i) 保持角色一致性的高度动态视频生成
(ii) 实现角色与音频的精准情感对齐
(iii) 支持多角色音频驱动动画

为此,我们提出基于多模态扩散Transformer(MM-DiT)的HunyuanVideo-Avatar模型,可同步生成动态可控、情感可调的多角色对话视频。核心技术突破包括:

1. 角色图像注入模块
▸ 创新性替代传统加性条件机制
▸ 彻底解决训练与推理的条件失配问题
▸ 确保动态运动流畅性与角色强一致性

2. 音频情感模块(AEM)
▸ 从情感参考图像提取情绪特征
▸ 跨模态迁移至生成视频序列
▸ 实现细粒度精准情感风格控制

3. 面部感知音频适配器(FAA)
▸ 通过隐空间面部掩码隔离驱动角色
▸ 基于交叉注意力独立注入多角色音频
▸ 突破多角色场景协同生成瓶颈

在基准数据集及自建野外数据集上,本方法全面超越现有最优方案,可在动态沉浸式场景中生成逼真数字化身。模型源码与权重将全面开源




©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

类似网站