Avatar：音生成动画视频_视频工具_AI开源软件

Avatar：音生成动画视频

牛，腾讯刚刚开源了HunyuanVideo-Avatar，根据音频生成动画视频，它能根据语音匹配丰富的表情，让你的数字人具备“生命力”给一张人物的图片，再给一段音频，它能让这张图片里的人物动起来，从效

标签：音生视频小太阳贼大淫语ASMR

链接直达手机查看

牛，腾讯刚刚开源了HunyuanVideo-Avatar，根据音频生成动画视频，它能根据语音匹配丰富的表情，让你的数字人具备“生命力”

给一张人物的图片，再给一段音频，它能让这张图片里的人物动起来，从效果看，嘴型、表情、动作都和语音高度同步！

并且支持多个人物同时对话，这可以用来做对话、访谈类的内容了

支持多种风格，真人照片、动漫、3D角色、卡通等等

做电商直播、创意短视频、个性化老师、AI播报员都可以，数字人卷起来了

混元视频（HunyuanVideo-Avatar）：基于多模态扩散Transformer的动态多角色情感对话视频生成框架

近年来音频驱动人体动画取得显著进展，但三大核心挑战依然存在：
(i) 保持角色一致性的高度动态视频生成
(ii) 实现角色与音频的精准情感对齐
(iii) 支持多角色音频驱动动画

为此，我们提出基于多模态扩散Transformer（MM-DiT）的HunyuanVideo-Avatar模型，可同步生成动态可控、情感可调的多角色对话视频。核心技术突破包括：

1. 角色图像注入模块
▸ 创新性替代传统加性条件机制
▸ 彻底解决训练与推理的条件失配问题
▸ 确保动态运动流畅性与角色强一致性

2. 音频情感模块（AEM）
▸ 从情感参考图像提取情绪特征
▸ 跨模态迁移至生成视频序列
▸ 实现细粒度精准情感风格控制

3. 面部感知音频适配器（FAA）
▸ 通过隐空间面部掩码隔离驱动角色
▸ 基于交叉注意力独立注入多角色音频
▸ 突破多角色场景协同生成瓶颈

在基准数据集及自建野外数据集上，本方法全面超越现有最优方案，可在动态沉浸式场景中生成逼真数字化身。模型源码与权重将全面开源。

AI工具集

Avatar：音生成动画视频

类似网站