• 0
MiniMax发布并开源新一代01系列模型
统计 阅读时间大约2分钟(499字)

2025-01-15 MiniMax发布并开源新一代01系列模型

来源:企业供图
MiniMax-01系列模型首次将线性注意力机制扩展到商用模型的级别

今天,MiniMax发布并开源了MiniMax-01全新系列模型,其中包含两个模型,基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。

该系列模型以大规模应用线性注意力机制打破Transformer传统架构记忆瓶颈,能够处理400万token的输入,可输入长度是GPT-4o的32倍,Claude-3.5-Sonnet的20倍。

MiniMax认为2025年将是Agent高速发展的关键年份,无论是单Agent系统还是多Agent系统,都需要更长的上下文来支持持续记忆和大量通信。MiniMax-01系列模型的推出,正是为了满足这一需求,迈出建立复杂Agent基础能力的第一步。

据悉,MiniMax-01系列模型首次将线性注意力机制扩展到商用模型的级别。受益于此次架构创新,该系列模型在处理长输入的时候具有非常高的效率,接近线性复杂度。从Scaling Law、与MoE的结合、结构设计、训练优化和推理优化等层面综合考虑,MiniMax选择模型参数量为4560亿,其中每次激活459亿,能够高效处理高达400万token的上下文,将有效替代Transformer传统架构并开启超长文本输入时代。

在价格上,MiniMax称拥有极致性价比,标准定价是输入token 1元/百万token,输出token 8元/百万token。

MiniMax介绍,公司开源了两个模型的完整权重,这一系列模型的后续更新,包括代码和多模态相关的后续强化,公司会第一时间上传。“选择开源,一是因为公司认为这有可能启发更多长上下文的研究和应用,从而更快促进Agent时代的到来;二是开源也能促使公司努力做更多创新,更高质量地开展后续的模型研发工作。”

1、猎云网原创文章未经授权转载必究,如需转载请联系官方微信号进行授权。
2、转载时须在文章头部明确注明出处、保留官方微信、作者和原文超链接。如转自猎云网(微信号:lieyunjingxuan
)字样。
3、猎云网报道中所涉及的融资金额均由创业公司提供,仅供参考,猎云网不对真实性背书。
4、联系猎云,请加微信号:jinjilei
相关阅读
推荐阅读
{{item.author_display_name}}
{{item.author_display_name}}
{{item.author_user_occu}}
{{item.author_user_sign}}
×