時事快聞

打破技術壁壘！小米發布開源VLA模型，消費級顯卡實現機器人流暢運行

時間：2026-02-12 16:33 來源：天脈網作者：沈瑾瑜

小米機器人團隊今日宣布，正式發布并開源全新具身智能VLA模型——Xiaomi-Robotics-0，其真機運行畫面同步公開。這一成果標志著小米在機器人領域實現關鍵突破，以47億參數規模、視覺語言理解與高性能實時執行能力的結合，在三大主流仿真測試中全面超越行業標桿，斬獲全項SOTA（當前最先進水平），并在真實機器人上實現流暢動作執行。

傳統機器人模型長期面臨兩大核心難題：一是推理延遲高導致動作斷層，模型在真實環境中反應遲緩，難以完成連貫操作；二是硬件門檻過高，依賴專業顯卡運行，限制了技術普及。小米此次發布的模型通過自研Mixture-of-Transformers（MoT）混合架構，創新性采用“雙腦協同系統”破解困局。其中，視覺語言大腦（VLM）負責理解模糊指令與環境感知，動作執行小腦（DiT）則專注于生成流暢動作軌跡，二者通過流匹配技術實現精準協同，從根源上消除機械卡頓現象。

技術團隊設計的兩階段訓練方案進一步強化模型性能。初期跨模態預訓練確保模型在掌握動作技能的同時，保留物體識別、視覺問答等基礎能力；后期通過異步推理模式與Clean Action Prefix技術，解決真機運行中的動作斷層問題，配合Λ-shape Attention Mask機制提升環境適應力。實測顯示，該模型在分揀積木、拆解大塊積木、疊放毛巾等任務中表現卓越，尤其能主動整理多余毛巾，展現對柔性物體的精準操控能力。

在Libero、Calvin、SimplerEnv三大國際測試集中，Xiaomi-Robotics-0對標30余款主流模型，以全項SOTA成績穩居行業第一梯隊。其顛覆性優勢在于支持消費級顯卡實時推理，普通開發者無需昂貴設備即可運行模型，這一特性直接打破高端技術壟斷。小米同步開放技術主頁、GitHub代碼及Hugging Face模型權重，全球開發者可自由獲取資源進行二次開發，推動具身智能技術加速迭代。

雷軍在社交平臺透露，小米已持續深耕機器人領域多年，目前正面向全球招募頂尖人才，團隊正全力研發下一代技術。此次發布的成果僅是階段性突破，未來將持續探索機器人技術的邊界。隨著Xiaomi-Robotics-0的開源，原本局限于實驗室的高端技術正走向開放生態，為行業創新注入新動能。

更多>同類天脈資訊

紫金礦業一季度凈利首超200億新團隊引領沖刺全球超一流礦企新征程

04-22

勝宏科技港股成功上市首日收漲50% 完成A+H布局成PCB行業新標桿

04-22