盲测击败了ElevenLabs的一款TTS:Chatterbox,有极强的情感控制能力,可以调整其语音表现力支持语音克隆、风格定制除了正常对话,可以用于一些戏剧化的语音场景隆重推出 Chatterbo
一款多智能体情报系统,用它去帮你了解你的竞争对手情况,其产品、用户评价、销售情况等,市场部门的好帮手这个系统有产品发布分析师、市场情绪专家、发布指标专家三个智能体你想了解竞品的哪部分信息,它们就会去,
给个关键词,就能搜资料、写脚本、完成配音配乐的一款视频播客自动生成工具:Ecne-AI-Podcaster支持男女声,可以给不同的角色(主持人/嘉宾)设置不同的声音可以基于主题,或上传文档生成脚本
阿里通义实验室开源了:MaskSearch,增强AI推理能力的框架,让AI学会主动搜索+多步推理,实现复杂问题的精准回答Qwen2.5-1.5B用MaskSearch预训练后,在Bamboogle数据
酷,市场部门的AI利器,Firecrawl刚刚放出的:Fire Enrich,给它一份包含电子邮件的表格,它能自动补齐邮件中对应的公司名称、行业、规模等等信息输入电子邮件地址它能输出,包含公司名称、行
阿里放出了款在手机上运行的3D数字人应用:MNN TaoAvatar,可做虚拟客服、虚拟主播,可实时渲染本地运行、完全离线、支持多模态交互所有功能ASR、TTS、A2BS、NNR,包括LLM均在本地运
赋能AI成为智能视频会议助手的一款工具:joinly,当线上会议时,你可以让AI助手帮你搜信息、做会议纪要、甚至实时翻译支持AI会议助手语音或聊天实时与与会者互动,即时响应能处理中断和多人对话支持Go
腾讯的Hunyuan3D-2.1已经放出来了,精度高,比2.0的渲染效果提升了很多在生成纹理3D资产质量和条件遵循能力上,超过了开源、闭源模型2.1的PBR流程通过基于物理的材质模拟,生成具有真实光照
字节放出了款多主体视频生成神器:MAGREF,能在复杂的场景中保持多个主体的连贯性和精确控制生成的视频质量和效果看起来很高,人物、物体、背景都比较自然支持多人互动视频,单人视频,还可以生成人物+物体+
一分钟克隆声音最强开源工具GPT-sovits安装包
和deepfacelab略有不同,这个是用于直播时候进行换脸的软件
6GB显存可玩,最强的开源AI图生视频工具了。
ComfyUI万相2.1作为开源视频生成领域的突破性框架,正重新定义AI创作的可能性。该技术基于先进的扩散模型架构,通过文本描述直接生成动态视频内容,其核心突破在于:多模态理解能力:融合视觉-语言模型
一、技术本质:平民化的创作引擎秋叶版ComfyUI作为中文社区最强AI工作流整合包,通过三项革新降低技术门槛:零配置部署:预装ControlNet/IPAdapter等28个核心插件,解压即用硬件熔断
Meta刚刚放出了最新研究,开源了基于视频训练的世界模型:V-JEPA 2,具备对物理世界的视觉理解与预测能力,并支持零样本机器人规划就是说V-JEPA 2能通过看视频来理解世界是怎么运转的,能预测接
酷,中山大学、美团等的项目,音频驱动的多人对话视频生成工具:MultiTalk,从效果看人物唇形同步的一致性非常高给它多条音频、一张参考图像、以及一段文字提示,它可以生成一段包含多人对话,或唱歌的互动
根据文字提示生成成人视频内容
DeepSeek-R1-0528模型官方说明出来了,思考更深,推理更强!1、深度思考能力强化0528仍使用2024年12月发布的DeepSeek V3 Base作为基座,后训练中投入了更多算力,来提升
一款日语学习AI工具:japanese-analyzer,可以进行日语句子深度解析,拆解句法结构、标注词性、呈现发音和释义原声TTS朗读,还原纯正日语发音一键输出词性、假名、罗马音与语法成分,提供精准
能写代码、设计数据库