小米機器人團隊今日宣布,正式發布并開源全新具身智能VLA模型——Xiaomi-Robotics-0,其真機運行畫面同步公開。這一成果標志著小米在機器人領域實現關鍵突破,以47億參數規模、視覺語言理解與高性能實時執行能力的結合,在三大主流仿真測試中全面超越行業標桿,斬獲全項SOTA(當前最先進水平),并在真實機器人上實現流暢動作執行。
傳統機器人模型長期面臨兩大核心難題:一是推理延遲高導致動作斷層,模型在真實環境中反應遲緩,難以完成連貫操作;二是硬件門檻過高,依賴專業顯卡運行,限制了技術普及。小米此次發布的模型通過自研Mixture-of-Transformers(MoT)混合架構,創新性采用“雙腦協同系統”破解困局。其中,視覺語言大腦(VLM)負責理解模糊指令與環境感知,動作執行小腦(DiT)則專注于生成流暢動作軌跡,二者通過流匹配技術實現精準協同,從根源上消除機械卡頓現象。
技術團隊設計的兩階段訓練方案進一步強化模型性能。初期跨模態預訓練確保模型在掌握動作技能的同時,保留物體識別、視覺問答等基礎能力;后期通過異步推理模式與Clean Action Prefix技術,解決真機運行中的動作斷層問題,配合Λ-shape Attention Mask機制提升環境適應力。實測顯示,該模型在分揀積木、拆解大塊積木、疊放毛巾等任務中表現卓越,尤其能主動整理多余毛巾,展現對柔性物體的精準操控能力。
在Libero、Calvin、SimplerEnv三大國際測試集中,Xiaomi-Robotics-0對標30余款主流模型,以全項SOTA成績穩居行業第一梯隊。其顛覆性優勢在于支持消費級顯卡實時推理,普通開發者無需昂貴設備即可運行模型,這一特性直接打破高端技術壟斷。小米同步開放技術主頁、GitHub代碼及Hugging Face模型權重,全球開發者可自由獲取資源進行二次開發,推動具身智能技術加速迭代。
雷軍在社交平臺透露,小米已持續深耕機器人領域多年,目前正面向全球招募頂尖人才,團隊正全力研發下一代技術。此次發布的成果僅是階段性突破,未來將持續探索機器人技術的邊界。隨著Xiaomi-Robotics-0的開源,原本局限于實驗室的高端技術正走向開放生態,為行業創新注入新動能。













