一键可把音视频转换为小红书、公众号等风格文案的AI工具:AI-Media2Doc,也支持知识笔记、思维导图、内容总结等很适合自媒体人以及学生,比较实用1、支持基于视频内容二次对话,可以让AI回答关于视
与7B比,处理长文本序列上,显存占用降低了50%,在24GB消费级显卡上也能支持30秒音视频交互保留了7B 90%以上的多模态理解能力,语音输出的准确和稳定性与7B相当
小米已入局大模型行列,昨天放出了MiMo-7B,其核心是能解决数学以及代码等复杂的推理问题,说是性能超32B,MiMo-7B-RL媲美OpenAI o1-mini 在数学AIME24/25上分别是68
直接在代码编辑器里查看Deepwiki内容的MCP:deepwiki-mcp,相当于内置了个文档浏览器,非官方的但比较实用它通过MCP获取Deepwiki的URL,抓取相关页面,转换为Markdown
一款程序员的工作协作AI神器:KoalaWiki,这是一个基于AI的代码知识库平台,可以自动解析你的Git代码仓库,生成比较详细、结构化的代码文档和项目见解。支持添加和管理多个Git代码仓库仓库分析完
集PDF处理、AI翻译、RAG检索、AI问答及语音聊天于一体的一款学术论文阅读工具。导入PDF后它会自动提取、翻译和结构化论文内容,并且支持中英文对照阅读支持AI智能问答,分屏界面,左侧论文右侧AI问
给它一个GitHub/GitLab地址,它就能自动分析代码结构和关系,自动生成该项目的详细说明文档,还能画出图表来解释代码是怎么运作的。支持自动生成Mermaid图表展示架构和数据流支持Docker或
专用于做深度公司调研的一个多智能体:company-research-agent,告诉它需要了解的公司,它会自动从各渠道收集信息,并整理成详细的分析报告。会从公司网站、新闻报道、财务报告以及结合行业分
一款开源的AI面试辅助工具:CodeInterviewAssist,主要是编程面试,可以帮助你分析面试题目、生成解决方案,甚至调试代码隐形窗口,可以避开Zoom的低版本、浏览器录屏等一些屏幕录制及视频
TTS 是一个用于高级文本转语音生成的库,超过 1100 种语言的预训练模型。
它基于firecrawl和 Gemini 2.5 Pro自动搜索网络上最新的AI动态,整理总结,然后按时发送到邮箱。
百度地图MCP来了,AI助手可以更好的处理位置、导航、路线规划等地理信息相关的任务了用作智能旅行助手,AI助手就可以利用百度地图MCP来实现规划路线、景点位置查询、天气查询、提供交通建议了用作智能客服
能“一步生成”极为逼真的多角色对话语音能直接根据对话文本生成自然、有情感的多说话人语音可用音频条件(prompt)进行控制,实现情感、语调的定制。可通过音频prompt实现声音克隆权重和推理代码完全公
So-vits-SVC4.1人工语音合成文字教程
Animatediff-cli生成动画
文本转语音引擎
OpenVoice 是一种多功能的即时语音克隆模型
提供多种AI语音转化
MetaVoice-1B 是一个 1.2B 参数基础模型
文本转语音