當小米正式發布MiMo-V2-Pro大模型時,科技圈的目光并未完全聚焦在這家以硬件見長的公司身上,反倒是馬斯克旗下的xAI被推上了輿論的風口浪尖。這個成立僅三年的AI初創企業,盡管坐擁500億美元融資和來自OpenAI、DeepMind等頂尖機構的聯合創始人團隊,卻在最新發布的Grok 4.20 Beta上遭遇了滑鐵盧——在Artificial Analysis Intelligence Index評測中僅獲得48分,而小米的MiMo-V2-Pro卻以49分的成績實現了反超。
小米的AI征程始于2023年4月成立的AI實驗室大模型團隊,但真正發力通用基礎大模型是在2024年底至2025年初。雷軍親自掛帥,為這個被寄予厚望的Core團隊定下了"投入不設上限"的基調。初代MiMo在2025年4月問世時,7B的參數量被業界戲稱為"玩具級",但這個看似不起眼的模型卻在數學推理和代碼生成領域擊敗了OpenAI的o1-mini,為小米AI戰略打響了第一槍。更令人意外的是,小米以"Hunter Alpha"為代號在OpenRouter平臺悄然上線的大模型,僅用一周時間就登頂日調用量榜首,全球開發者在不知情的情況下用腳投票,直到小米官方深夜發文承認這是自家產品。
從技術架構看,MiMo-V2-Pro的1T參數、42B激活參數和100萬token上下文窗口并不突出,其采用的MoE混合專家架構、混合注意力機制和多token預測技術也都是行業通用方案。真正讓這個模型脫穎而出的是三項后訓練技術:首先是小米首創的MOPD(多教師在線策略蒸餾)技術,通過讓學生模型在生成回答時同時接受多個領域專家教師的實時監督,成功解決了傳統大模型訓練中"蹺蹺板效應"的行業難題。數據顯示,經過MOPD訓練的模型在AIME 2025數學競賽中取得94.1分,甚至超越了其教師模型的水平。
第二項突破是真實環境的agentic RL訓練體系。小米構建了覆蓋代碼、終端、網頁開發和通用四大類場景的12萬個真實交互環境,其中代碼agent直接從GitHub Issues中提取訓練數據,要求模型在完整的開發循環中完成讀文件、改代碼、運行測試的全流程。這種訓練方式使得模型在多樣化agent環境中獲得的強化學習收益能夠泛化到數學推理等其他任務,形成通用問題解決能力。與傳統的"做卷子"式訓練相比,這種"實習"模式培養出的模型更懂得如何應對真實世界的復雜任務。
第三項創新來自小米與北京大學計算機學院聯合研發的ARL-Tangram訓練基礎設施系統。針對agent訓練中外部資源利用率低下的痛點,該系統將每次外部調用視為原子動作,實現資源的動態分配和即時釋放。實測數據顯示,在AI編程任務中,外部資源平均利用率從47%提升至接近100%,訓練步驟時間加速最高達1.5倍,資源消耗降低71.2%。這意味著在相同硬件投入下,小米能夠支撐數倍于競爭對手的訓練量。
對于小米而言,MiMo-V2-Pro的意義遠不止于技術突破。在智能駕駛領域,小米汽車正在全面轉向端到端大模型技術路線,而MiMo-V2-Pro作為云端"教師模型",將通過知識蒸餾技術將其能力壓縮到端側小模型中,實現"云-邊-端"協同。這種布局與特斯拉形成鮮明對比:雖然Grok在2025年底進入了特斯拉車機系統,但目前僅能承擔導航和簡單對話功能,與FSD的聯動僅限于導航鏈路,而特斯拉車內控制座艙的AI系統實際上與xAI并無直接關聯。馬斯克在2026年3月提出的"Digital Optimus"計劃,試圖讓Grok充當"高層推理大腦",但這種協同路徑的清晰度遠不及小米的蒸餾方案。
然而,MiMo-V2-Pro的崛起之路并非一帆風順。在備受關注的SWE-bench Verified編程測試集中取得78.0%的成績固然亮眼,但這個測試集已被OpenAI等機構證實存在數據污染問題。小米尚未公布在更嚴格的SWE-bench Pro測試集上的表現,而該測試集目前最高得分僅為57.7%。MiMo-V2-Pro缺席了ARC-AGI-2推理泛化測試、Frontier Math數學推理測試和LiveCodeBench v6編程評測等新一代基準測試。在開源策略上,雖然MiMo-V2-Flash已開源,但V2-Pro的權重仍未開放,官方解釋稱需要等待模型足夠穩定。這些短板提醒我們,小米的AI轉型仍處在關鍵階段,其技術成果能否真正轉化為商業優勢,還需要時間來驗證。













