OmniTalker

OmniTalker:从文本实时生成同步的说话人视频项目

阿里云智能计算研究院最新推出的OmniTalker项目,是基于端到端统一框架的多模态生成系统,专注于从文本输入实时生成音视频同步的说话人视频。该系统通过整合语音合成与视频生成模块,实现了音频波形与唇形动作的精准对齐,解决了传统方案中音视频异步导致的唇形不匹配问题。其核心技术在于构建了一个共享的潜在空间,使得语音特征与面部动作特征能够联合优化,从而在推理阶段同步输出25帧/秒的高清视频与48kHz采