
资料来源:36KR Performance Super Openai O1-Mini,26个贫困技术报告。文本| ZER0覆盖源| PIXABAY Zhidongxi在4月30日报告说,小米开放了第一个理解小米Mimo的模型。其中,研究培训产生的MIMO-7B-RL模型超过了OpenAI的封闭源推理模型QWQ-32B-Preiview在公共数学中断审查集(AIME 24-25)和竞争代码(LiveCodeBench V5)中。在相同的强化研究数据下,MIMO-7B-RL在数学活动和推理代码上都很好地执行,其标记超过了DeepSeek-R1-Distill-7B和Qwen2.5-32B。 MIMO是新成立的小米大型模特团队的初步尝试。四个MIMO-7B模型(基本模型,SFT模型,基于基本模型训练的PAMP研究模型以及基于SFT模型培训的增强研究模型)都开放,可以包含面部。代码库是根据Apache2.0许可证的许可。小米的大型核心团队模型释放ED一份26页的技术MIMO报告。这一消息提高了,例如中午市场的关闭,小米集团的股价今天上涨了4.74%,HK的总市场价值为1.29万亿港元(约1.21万亿元)。训练前 +训练后,链接以提高理解技能。 MIMO系列模型从一开始就进行了训练。在训练前和培训后阶段,包括数据和算法等创新驱动着提高他们的理解能力,包括:培训前:核心让模型查看更多数据模式数据:专注于挖掘Rich Rich Richcorpus推理,并合成约200B的滥用数据。练习:使用三阶段的数据方法混合数据,逐渐改善了难度训练。 MIMO-7B基准碱在将近25 t代币中预先训练;受DeepSeek-V3的启发,许多令牌预测被用作其他目标练习,以增强模型性能并加速理解。使用MIMO-7B实施多句话预测:USINg在训练前的单个MTP层,可以在理解阶段使用许多MTP层来获得其他加速后训练:核心是对算法和框架算法的研究的良好而稳定的增强,以加强教育培训。数据:130,000个数学和代码问题被选为加强培训数据,该数据基于基于规则的验证器来验证验证器。每个问题都经过精心清洁且难以评估以确保质量。仅采用基于奖励的奖励机制来避免潜在的奖励黑客。设计了无缝的推出系统盒,集成了持续的扩展,奖励的意外计算和早期终止以减少GPU时间,从而加速了刺激训练2.29次2.29次,并加速了1.96次。 MIMO-7B-RL无缝推出引擎7B增强学习模型的概述,具有性能超过Alibaba 32B型号和OpenAi O1-Mini Xiaomi Big Model CoRE团队与MIMO-7B基础相比,拥有Llama-3.1-8B,Gemma-2-9b,Qwen2.5-7B,Gemma-2-9b,Qwen2.5-7b,Qwen2.5-7b,gemma-2-9b,qwen,Qi Open资源,是同一规模的基本模型。所有SAGSMODEL调查都共享相同的评估设置。结果如图所示,达到的MIMO-7b基碱基分数高于所有基准测试的其他比较模型,并回顾了K。值K值在MIMO-7B基本和其他模型之间的上升,尤其是在LiveCodeBench中。在BBH基准测试语言识别模型期间,MIMO-7B基础得分为75.2分,比QWEN2.5-7B高近5分。 SuperGPQA基准测试结果表明,在解决研究生水平问题中剩余的MIMO-7B基准表现。通过阅读对基准理解的理解,该模型释放了其他比较模型。在代码和数学推理活动中,许多MIMO-7B基数超过Llama-3.1-8b和Gemma-2-9b。 MIMO-7B-BASE在受支持的32K上下文长度内实现了NIAH获取的几乎完美的表现,并且在需要长期理解的任务中表现良好,在大多数情况下,标记超过QWEN2.5-7B。这些结果证明了其在预训练期间将多元化数据与高质量图形模式相结合的方法的有效性。对MIMO-7B-RL领导者的上下文理解的结果接近或超过了具有32B参数量表的QWQ-32B预览模型,并且更全面地领导了数学性能和代码。在数学基准AIME 2025测试和代码基准LiveCodeBench V6上,MIMO-7B-RL分数超过OpenAI O1-Mini。 MIMO-7B系列的4个大型模型的多个数学测试和代码如下:今年大型模型的繁荣的三个集合,今年涵盖了小米Mimo。在DeepSeek变得流行之后,开放的资源和推理很快就成为大型模型领域的流行趋势。小米,a长时间的钥匙已经正式加入了战斗。作为领先的手机公司之一,小米的四个开放资源只有7B参数,足够小,可以满足本地操作的需求,从而适合末端设备的另一个主要趋势。通过与培训前和训练后的多个创新链接,MIMO-7B基础显示出出色的数学推理技能,代码和一般活动。这项研究可能会提供更强理解模型的参考。