阿里刚刚放出了:QwenLong-L1-32B,一款用于长上下文推理的LLM,性能优于o3-mini、Qwen3-235B-A22B,与Claude-3.7-Sonnet-Thinking相当Qwen
MiniMax深夜发货,放出了全球最长上下文推理模型:M1,原生支持100万token上下文,是DeepSeek R1 8倍在复杂的软件工程、工具使用、以及长上下文任务上优于DeepSeek-R1、Q
给个关键词,就能搜资料、写脚本、完成配音配乐的一款视频播客自动生成工具:Ecne-AI-Podcaster支持男女声,可以给不同的角色(主持人/嘉宾)设置不同的声音可以基于主题,或上传文档生成脚本
阿里通义实验室开源了:MaskSearch,增强AI推理能力的框架,让AI学会主动搜索+多步推理,实现复杂问题的精准回答Qwen2.5-1.5B用MaskSearch预训练后,在Bamboogle数据
DeepSeek-R1-0528模型官方说明出来了,思考更深,推理更强!1、深度思考能力强化0528仍使用2024年12月发布的DeepSeek V3 Base作为基座,后训练中投入了更多算力,来提升
酷,阿里通义团队刚刚放出了一款基于视觉感知RAG框架:VRAG-RL,在Qwen2.5-VL-3B上性能提升了30%VRAG使用强化学习训练模型,使其具备多轮思考和推理能力,来逐步提高VML的理解能力
与7B比,处理长文本序列上,显存占用降低了50%,在24GB消费级显卡上也能支持30秒音视频交互保留了7B 90%以上的多模态理解能力,语音输出的准确和稳定性与7B相当
小米已入局大模型行列,昨天放出了MiMo-7B,其核心是能解决数学以及代码等复杂的推理问题,说是性能超32B,MiMo-7B-RL媲美OpenAI o1-mini 在数学AIME24/25上分别是68