当前位置:首页 > 外汇分析 > 正文

国家超算互联网平台上线超长文本多模态大模型,助力AI智能体开发

随着越来越多的智能体(Agent)进入应用场景,无论是单个智能体工作时产生的记忆,还是多个智能体协作产生的上下文,都会对大模型的上下文窗口长度提出更高要求。澎湃科技4月15日获悉,国家超算互联网平台近日已上线超长文本多模态大模型,该模型由上海稀宇科技有限公司(以下简称“稀宇科技”)研发,分别为MiniMax-Text-01和MiniMax-VL-01。

SCNet超算互联网平台chat页面截图  来源:MiniMax供图

国家超算互联网作为国家级算力服务平台,于2024年4月正式上线,今年2月启动了“AI生态伙伴加速计划”,提供3个月DeepSeek API接口免费使用、千万卡时算力资源池等激励,并通过技术赋能、市场协同、资源扶持三位一体,加速生态伙伴全面发展。

统计数据显示,自上线一年以来,国家超算互联网平台总用户量已突破35万,连接了全国14个省区市20多家超算和智算中心,并上线算力商品超6500款。澎湃科技注意到,其中AI模型服务有近240款,既有阿里通义千问Qwen、DeepSeek等国内开源模型,也有Llama、Stable Diffusion、Gemma等国外AI开源模型。

稀宇科技认为,该公司此次与国家超算互联网平台的合作能激发更多关于长上下文技术的创新研究与实际应用。长上下文能力与多模态处理能力的提升,有助于智能体为各行业带来更丰富、高效的解决方案。

“放眼国内外的大模型,‘大脑’虽大,但‘记忆力’往往不够。”稀宇科技研发负责人表示,“如果让大模型理解一份长达1000页的法律合同、一部长篇小说或一个几十万行的源代码项目,并给出准确的摘要、发现潜在风险、提出结构化建议,大多数大模型都无法完成任务,因为它们连读完材料也做不到,更不用说音视频等多模态信息处理了。而MiniMax-01可以做到,因为它的上下文窗口约为700万字,相当于一下子读完中国四大文学名著和哈利波特全集。”

据了解,今年初发布并开源的新一代系列模型MiniMax-01首次将线性注意力机制扩展到商用模型级别,综合能力跻身全球第一梯队。特别是在“上下文长度”这个指标上,它达到了国内外一些顶尖模型的20—32 倍水平,推理时的上下文窗口能达到400万token(词元)。在架构上,MiniMax-Text-01几乎重构了训练和推理系统,模型的参数量高达4560亿,每次激活459亿。在注意力机制层面,它的80个注意力层有架构创新,使大模型在处理长输入时在确保处理效果的同时做到了低延迟。这意味着该模型不仅能一次性完成大量文字的分析,还能做到真正理解并高效处理超长内容。

此次MiniMax加入国家超算互联网,将充分利用平台强大的算力资源、开放协作的生态体系以及广泛的开发者网络,稀宇科技认为,“此次合作不仅能够激发更多关于长上下文技术的创新研究与实际应用,推动Agent时代更快到来,也能通过开源形式进一步激励我们开展更深入、高质量的模型研发和创新工作。”未来,该公司还将继续以开源形式发布新版旗舰模型,并与国家超算互联网展开深入合作,共同推动国产人工智能技术加速发展。

有话要说...