今天,MiniMax发布并开源了MiniMax-01全新系列模型,其中包含两个模型,基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。
该系列模型以大规模应用线性注意力机制打破Transformer传统架构记忆瓶颈,能够处理400万token的输入,可输入长度是GPT-4o的32倍,Claude-3.5-Sonnet的20倍。
MiniMax认为2025年将是Agent高速发展的关键年份,无论是单Agent系统还是多Agent系统,都需要更长的上下文来支持持续记忆和大量通信。MiniMax-01系列模型的推出,正是为了满足这一需求,迈出建立复杂Agent基础能力的第一步。
据悉,MiniMax-01系列模型首次将线性注意力机制扩展到商用模型的级别。受益于此次架构创新,该系列模型在处理长输入的时候具有非常高的效率,接近线性复杂度。从Scaling Law、与MoE的结合、结构设计、训练优化和推理优化等层面综合考虑,MiniMax选择模型参数量为4560亿,其中每次激活459亿,能够高效处理高达400万token的上下文,将有效替代Transformer传统架构并开启超长文本输入时代。
在价格上,MiniMax称拥有极致性价比,标准定价是输入token 1元/百万token,输出token 8元/百万token。
MiniMax介绍,公司开源了两个模型的完整权重,这一系列模型的后续更新,包括代码和多模态相关的后续强化,公司会第一时间上传。“选择开源,一是因为公司认为这有可能启发更多长上下文的研究和应用,从而更快促进Agent时代的到来;二是开源也能促使公司努力做更多创新,更高质量地开展后续的模型研发工作。”