Meta刚刚放出了最新研究,开源了基于视频训练的世界模型:V-JEPA 2,具备对物理世界的视觉理解与预测能力,并支持零样本机器人规划就是说V-JEPA 2能通过看视频来理解世界是怎么运转的,能预测接
酷,中山大学、美团等的项目,音频驱动的多人对话视频生成工具:MultiTalk,从效果看人物唇形同步的一致性非常高给它多条音频、一张参考图像、以及一段文字提示,它可以生成一段包含多人对话,或唱歌的互动