第3页_AI开源软件

实用型研究人员AI工具：daily-arXiv-ai-enhanced，搞个工具帮你每天盯新论文做总结它会自动每日爬取arXiv论文，并用AI做总结，需要每天跟踪最新研究动态又没时间的用它默认爬取ht

基于FastMCP和nut.js实现的桌面自动化，用AI自动化你电脑上的一切操作：automation-mcp支持鼠标控制、键盘输入、屏幕截图与分析、窗口管理、UI交互等操作，可以基于它实现复杂的自动

DiffSynth-Studio视频动漫化

英伟达发的一款语音识别模型：Parakeet TDT 0.6B V2，核心能力是它准确的词级时间戳预测，还能自动加上标点符号和大小写6亿参数，可以精确预测单词的时间戳，主要用于英语识别,可以一次性处理

新出的一款端到端AI语音模型：Voila，全双工能同时听和说，低延迟，预置了一百万种语音还支持ASR、TTS以及多语言语音翻译端到端架构，支持全双工的低延迟对话，延迟195毫秒，超人类平均响应时间能实

一款开源的实时AI语音聊天助手：RealtimeVoiceChat，语音听起来相对自然，支持打断双向语音交互，延迟低，可以实时看到语音转录，以及AI的回复内容用来构建客服、教育或陪伴等等场景的AI语音

清华和腾讯新发布的一款动作迁移工具：FlexiAct，核心能力在于它在异构场景下的动作控制和迁移，且高保真以及动作流畅也就是说目标图像与源视频在布局、视角、人物姿态甚至骨骼结构上存在明显差异的情况下，

腾讯刚刚放出来一款视频生成框架：HunyuanCustom，其核心是定制视频生成能力，看起来效果不输闭源模型用来生成商品广告、教育场景，或是个性视频制作都不错它由HunyuanVideo-13B支持，

字节开源了：DeerFlow，基于LangChain和LangGraph框架的一款智能研究助手支持动态任务迭代、MCP无缝集成、自动生成研究计划、人机协作，甚至是播客、PPT生成它把语言模型与网络搜索

字节把他的基于节点的流程构建引擎开源了：http://flowgram.ai ！支持固定布局和自由布局模式，提供了一套交互最佳实践，特别适合需要明确输入和输出的可视化工作流Flowgram会用AI技术

一个快速商品广告图生成AI工具：ZenCtrl，帮你几分钟内生成多个不同背景、风格的广告图这个工具的核心能力是可以从单张主体图像生成多视角、多样场景、以及特定任务的高分辨率图像，并且无需微调比如提供一

一款单图秒级3D数字人生成模型

新出的一款唇形同步工具

增强语音反欺骗系统

一款类Manus开源项目

可以自动化跟踪分析指定社交媒体内容

你可以用自然语言检查网站流量或优化DNS设置了，cloudflare搞了个MCP出来：mcp-server-cloudflare用聊天的方式即可管理网站，一共给了13个MCP服务，每个服务对应Clou

一款Zotero的中文翻译插件：zotero-pdf2zh，可以生成中英对照版本支持多种翻译样式，比如纯中文版、中英对照版、双栏论文转单栏、中英文对照排版等支持自定义中文字体，可以批量处理多文档对经常

比较实用的一个跨空间语音翻译项目

比较实用的一款会议准备自动化工具：Meeting Prep Agent，适合需要频繁参加会议，但又没时间做充分准备的用户它通过MCP连接到Google日历，提取会议信息，对与会人员及公司进行背调，并整

AI工具集