MiniMax:语言模型
MiniMax深夜发货,放出了全球最长上下文推理模型:M1,原生支持100万token上下文,是DeepSeek R1 8倍在复杂的软件工程、工具使用、以及长上下文任务上优于DeepSeek-R1、Q
标签: 语言模型 The best AI websitesMiniMax深夜发货,放出了全球最长上下文推理模型:M1,原生支持100万token上下文,是DeepSeek R1 8倍
在复杂的软件工程、工具使用、以及长上下文任务上优于DeepSeek-R1、Qwen3-235B
M1结合了MoE架构和闪电注意力机制,基于MiniMax-Text-01开发,4560亿参数,每次激活459亿
支持100万token上下文,8万token输出
基于强化学习+CISPO新算法训练
相当于MiniMax-M1同时具备超强记忆力、思考速度和学习能力,使其可以处理长文本和复杂任务。
我们推出 MiniMax-M1,全球首个开放权重的大规模混合注意力推理模型。 MiniMax-M1 由混合专家(MoE)架构与闪电注意力机制(lightning attention mechanism)共同驱动。该模型基于我们之前的 MiniMax-Text-01 模型开发,总参数量高达 4560 亿,每个 token 激活的参数量为 459 亿。与 MiniMax-Text-01 一致,M1 模型原生支持高达 100 万 token 的上下文长度,是 DeepSeek R1 上下文容量的 8 倍。此外,MiniMax-M1 中的闪电注意力机制实现了推理时计算(test-time compute)的高效扩展——例如,在生成长度为 10 万 token 时,M1 消耗的计算量(FLOPs)仅为 DeepSeek R1 的 25%。这些特性使得 M1 特别适用于需要处理长输入和深入思考的复杂任务。
MiniMax-M1 通过大规模强化学习(RL)在多样化的问题上进行训练,范围涵盖传统数学推理到基于沙盒的真实世界软件工程环境。我们为 M1 开发了一个高效的 RL 扩展框架,其亮点体现在两个视角:
(1) 我们提出了 CISPO(一种新颖的算法),它截断重要性采样权重(clips importance sampling weights)而非 token 更新,其性能优于其他竞争性的 RL 变体;
(2) 我们的混合注意力设计天然增强了 RL 的效率,在此我们解决了在使用混合架构扩展 RL 时遇到的独特挑战。
我们训练了两个版本的 MiniMax-M1 模型,分别具有 4 万和 8 万的思考预算(thinking budgets)。在标准基准测试上的实验表明,我们的模型性能超越了其他强大的开放权重模型,如原始的 DeepSeek-R1 和 Qwen3-235B,尤其是在复杂的软件工程、工具使用和长上下文任务上。凭借对推理时计算的高效扩展,MiniMax-M1 为下一代语言模型智能体进行推理并应对现实世界挑战奠定了坚实的基础。