牛,腾讯刚刚开源了HunyuanVideo-Avatar,根据音频生成动画视频,它能根据语音匹配丰富的表情,让你的数字人具备“生命力”给一张人物的图片,再给一段音频,它能让这张图片里的人物动起来,从效
酷,中山大学、美团等的项目,音频驱动的多人对话视频生成工具:MultiTalk,从效果看人物唇形同步的一致性非常高给它多条音频、一张参考图像、以及一段文字提示,它可以生成一段包含多人对话,或唱歌的互动
酷,浙大、vivo最新出的一款视频虚拟试衣模型:MagicTryOn,服装的时空一致性、稳定性、服装细节都保持的不错,效果可以直接用于电商广告了支持图像试穿、视频试穿,以及自定义试穿擅长在比如跳舞这种
阿里放出了款在手机上运行的3D数字人应用:MNN TaoAvatar,可做虚拟客服、虚拟主播,可实时渲染本地运行、完全离线、支持多模态交互所有功能ASR、TTS、A2BS、NNR,包括LLM均在本地运
腾讯的Hunyuan3D-2.1已经放出来了,精度高,比2.0的渲染效果提升了很多在生成纹理3D资产质量和条件遵循能力上,超过了开源、闭源模型2.1的PBR流程通过基于物理的材质模拟,生成具有真实光照
字节放出了款多主体视频生成神器:MAGREF,能在复杂的场景中保持多个主体的连贯性和精确控制生成的视频质量和效果看起来很高,人物、物体、背景都比较自然支持多人互动视频,单人视频,还可以生成人物+物体+
和deepfacelab略有不同,这个是用于直播时候进行换脸的软件
6GB显存可玩,最强的开源AI图生视频工具了。
ComfyUI万相2.1作为开源视频生成领域的突破性框架,正重新定义AI创作的可能性。该技术基于先进的扩散模型架构,通过文本描述直接生成动态视频内容,其核心突破在于:多模态理解能力:融合视觉-语言模型
一、技术本质:平民化的创作引擎秋叶版ComfyUI作为中文社区最强AI工作流整合包,通过三项革新降低技术门槛:零配置部署:预装ControlNet/IPAdapter等28个核心插件,解压即用硬件熔断
Meta刚刚放出了最新研究,开源了基于视频训练的世界模型:V-JEPA 2,具备对物理世界的视觉理解与预测能力,并支持零样本机器人规划就是说V-JEPA 2能通过看视频来理解世界是怎么运转的,能预测接
根据文字提示生成成人视频内容
DiffSynth-Studio视频动漫化
清华和腾讯新发布的一款动作迁移工具:FlexiAct,核心能力在于它在异构场景下的动作控制和迁移,且高保真以及动作流畅也就是说目标图像与源视频在布局、视角、人物姿态甚至骨骼结构上存在明显差异的情况下,
腾讯刚刚放出来一款视频生成框架:HunyuanCustom,其核心是定制视频生成能力,看起来效果不输闭源模型用来生成商品广告、教育场景,或是个性视频制作都不错它由HunyuanVideo-13B支持,
一款单图秒级3D数字人生成模型
新出的一款唇形同步工具
Animatediff-cli生成动画
硅基智能开源数字人