小米首個推理大模型開源 數學與代碼測評超越OpenAI
4月30日,小米公司于“Xiaomi MiMo”公眾號正式宣布開源其首個專注于推理能力的大模型「Xiaomi MiMo」。小米官方表示,該模型以7B(70億)參數規模,在數學推理(AIME 24-25)和代碼競賽(LiveCodeBench v5)等公開測評中表現優異,超越OpenAI的閉源模型o1-mini及阿里Qwen2.5-32B等更大規模的開源模型。
小米技術團隊表示,MiMo的核心突破在于預訓練與后訓練階段的協同優化。在預訓練階段,模型通過挖掘高質量推理語料并合成約2000億tokens專項數據,采用三階段漸進訓練策略,累計訓練量達25萬億tokens。
后訓練階段則引入創新強化學習技術,包括自研的"Test Difficulty Driven Reward"算法和"Easy Data Re-Sampling"策略,有效提升模型在復雜任務中的穩定性。技術團隊還開發了"Seamless Rollout"系統,使訓練效率提升2.29倍,驗證速度加快1.96倍。
值得注意的是,小米官方表示,MiMo-7B在相同強化學習訓練數據下,數學與代碼領域的表現顯著優于當前業界廣泛使用的DeepSeek-R1-Distill-7B和Qwen2.5-32B模型。
目前,小米已在HuggingFace平臺開源MiMo-7B全系列4個模型,并發布詳細技術報告。
【來源: 鳳凰網 科技 】