字节放出了款多主体视频生成神器:MAGREF,能在复杂的场景中保持多个主体的连贯性和精确控制生成的视频质量和效果看起来很高,人物、物体、背景都比较自然支持多人互动视频,单人视频,还可以生成人物+物体+
一分钟克隆声音最强开源工具GPT-sovits安装包
和deepfacelab略有不同,这个是用于直播时候进行换脸的软件
6GB显存可玩,最强的开源AI图生视频工具了。
ComfyUI万相2.1作为开源视频生成领域的突破性框架,正重新定义AI创作的可能性。该技术基于先进的扩散模型架构,通过文本描述直接生成动态视频内容,其核心突破在于:多模态理解能力:融合视觉-语言模型
一、技术本质:平民化的创作引擎秋叶版ComfyUI作为中文社区最强AI工作流整合包,通过三项革新降低技术门槛:零配置部署:预装ControlNet/IPAdapter等28个核心插件,解压即用硬件熔断
Meta刚刚放出了最新研究,开源了基于视频训练的世界模型:V-JEPA 2,具备对物理世界的视觉理解与预测能力,并支持零样本机器人规划就是说V-JEPA 2能通过看视频来理解世界是怎么运转的,能预测接
酷,中山大学、美团等的项目,音频驱动的多人对话视频生成工具:MultiTalk,从效果看人物唇形同步的一致性非常高给它多条音频、一张参考图像、以及一段文字提示,它可以生成一段包含多人对话,或唱歌的互动
根据文字提示生成成人视频内容
DeepSeek-R1-0528模型官方说明出来了,思考更深,推理更强!1、深度思考能力强化0528仍使用2024年12月发布的DeepSeek V3 Base作为基座,后训练中投入了更多算力,来提升
一款日语学习AI工具:japanese-analyzer,可以进行日语句子深度解析,拆解句法结构、标注词性、呈现发音和释义原声TTS朗读,还原纯正日语发音一键输出词性、假名、罗马音与语法成分,提供精准
能写代码、设计数据库
基于Qwen3构建一个由MCP驱动的语音助手:mcp-voice-agent,能从数据库中查找信息,还能上网搜索最新的内容实时交互,根据问题灵活选择获取信息的方式,如问题比较复杂,它会先尝试从数据库中
一款设计师的Cursor:onlook,设计师可以用拖拽/点击可视化的方式构建前端界面,不用写代码也可开发前端应用可以直接在浏览器里拖拽、调整元素来设计网站界面,实时预览效果,且内置了AI功能,每一步
可以把非结构化文本转为可视化可交互的知识图谱的一款AI工具:ai-knowledge-graph它通过LLM从文本中提取实体和关系,并以交互式知识图谱的形式可视化这些关系知识图谱可以通过缩放、拖动、点
酷,阿里通义团队刚刚放出了一款基于视觉感知RAG框架:VRAG-RL,在Qwen2.5-VL-3B上性能提升了30%VRAG使用强化学习训练模型,使其具备多轮思考和推理能力,来逐步提高VML的理解能力
新出来的一款生物学推理模型:BioReason,首个将 DNA基础模型与LLM深度结合的模型,疾病通路预测(比如判断某个基因变异导致什么疾病)准确率达到了97%变异效应预测准确率达80-88%。其比仅
一款多智能体交易系统:TradingAgents,它模拟真实的交易团队,通过分析、讨论和决策,来决定是否买卖股票它有分析师、研究员、交易员、风险管理员几个智能体,综合财务数据、市场情绪、新闻报道等多个
具备细粒度语音编辑能力的一款AI语音修复模型:PlayDiffusion,修改后的语音听上去可与原语音无缝衔接,对于做语音播报、或者有声读物,这种需要频繁修改语音内容的场景来说比较实用,支持精准修改,
claude-hub 是一款深度集成 Claude Code AI人工智能能力的 GitHub 工作流工具。它将大语言模型的智能引入代码开发全周期,用户只需在 issue 或 PR 中 @机器人,即可