酷,中山大学、美团等的项目,音频驱动的多人对话视频生成工具:MultiTalk,从效果看人物唇形同步的一致性非常高给它多条音频、一张参考图像、以及一段文字提示,它可以生成一段包含多人对话,或唱歌的互动
盲测击败了ElevenLabs的一款TTS:Chatterbox,有极强的情感控制能力,可以调整其语音表现力支持语音克隆、风格定制除了正常对话,可以用于一些戏剧化的语音场景隆重推出 Chatterbo
基于Qwen3构建一个由MCP驱动的语音助手:mcp-voice-agent,能从数据库中查找信息,还能上网搜索最新的内容实时交互,根据问题灵活选择获取信息的方式,如问题比较复杂,它会先尝试从数据库中