字节放出了款多主体视频生成神器:MAGREF,能在复杂的场景中保持多个主体的连贯性和精确控制

生成的视频质量和效果看起来很高,人物、物体、背景都比较自然

支持多人互动视频,单人视频,还可以生成人物+物体+背景环境组合视频

MAGREF通过掩码引导机制,可以基于多样化参考图像和文本提示,生成连贯的多主体视频合成。它在面部相似度、视觉质量、文本相关性以及多主体生成上,能力较强。


摘要: 随着深度生成模型,特别是基于扩散模型的方法的出现,视频生成取得了重大进展。然而,基于多个参考主体的视频生成在保持多主体一致性和确保高生成质量方面仍然面临重大挑战。本文提出 MAGREF,一个用于任意参考视频生成的统一框架,该框架引入了掩码引导(masked guidance)技术,能够在多样化的参考图像和文本提示的条件下实现连贯的多主体视频合成。具体而言,我们提出:(1) 区域感知动态掩码机制(region-aware dynamic masking mechanism),使单一模型无需改变架构即可灵活处理各种主体推理(包括人物、物体和背景);(2) 逐像素通道拼接机制(pixel-wise channel concatenation mechanism),该机制在通道维度上操作,以更好地保留外观特征。我们的模型实现了最先进的视频生成质量,能够从单主体训练场景泛化到复杂的多主体场景,实现连贯的合成精确控制各个主体,其性能超越了现有的开源和商业基线模型。为了便于评估,我们还引入了一个全面的多主体视频基准测试(comprehensive multi-subject video benchmark)。大量实验证明了我们方法的有效性,为可扩展、可控且高保真的多主体视频合成铺平了道路。

©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

类似网站