浙江人形機器人創新中心等聯合攻關,RAM框架助力機器人“讀懂”三維世界

   時間:2026-05-01 17:21 來源:快訊作者:努力土撥鼠

在機器人技術領域,一項突破性研究成果為提升機器人在復雜任務中的操作可靠性開辟了新路徑。由浙江人形機器人創新中心聯合香港中文大學、浙江大學等多家高校與科研機構共同完成的機器人空間智能研究,近日發表于國際頂級機器人學術期刊《Science Robotics》。該研究提出的名為RAM(Retrieval-Augmented Manipulation)的三維空間理解與操作模型,為機器人理解三維環境、執行復雜操作提供了創新性解決方案。

當前,以視覺語言大模型(VLM)為代表的AI技術雖能提升機器人理解自然語言指令和分解復雜任務的能力,但從“聽懂指令”到“完成動作”之間仍存在關鍵障礙。機器人需要在三維空間中精準理解物體的位置、朝向、尺度、可操作區域及相互關系,并將這些信息轉化為可執行的運動約束。然而,現有大模型多依賴二維圖文數據訓練,缺乏直接物理世界經驗,在推理物體位姿和空間關系時容易產生不符合物理規律的判斷。如何讓模型獲得可驗證、可遷移的三維空間知識,并將高層語義規劃與底層物理執行連接起來,成為具身智能和機器人操作領域亟待解決的重要問題。

針對這一挑戰,RAM框架借鑒檢索增強生成(RAG)的思想,為大模型配備可查詢的外部三維知識庫。當機器人執行任務時,模型可按需檢索物體類別、幾何屬性、功能平面、抓取點等空間先驗信息,從而彌補視覺語言模型自身三維空間理解的不足。與將知識隱含在模型參數中的傳統方法不同,RAM的空間知識更加顯式、可解釋,且便于擴展。

RAM框架由三個核心模塊構成。首先是物體類別級知識引擎,研究團隊為每類物體建立標準化三維模板,并標注姿態、尺寸、對稱性、抓取點和功能平面等信息。實驗表明,這類模板可遷移至不同形狀、尺寸和紋理外觀的同類物體實例上,顯著減少了對每個具體物體逐一建模和標注的依賴。第二個模塊是三維視覺接地模型,負責將知識庫中的標準化先驗遷移到真實場景中的具體物體上。該模型基于視覺基礎模型DINO構建,結合二維圖像特征與三維點云信息,建立觀測物體與模板之間的對應關系,從而獲取物體姿態、抓取方式和功能平面等信息。此模塊主要基于合成數據訓練,并在真實場景實驗中展現出對多種未見物體實例的泛化能力。第三個模塊是檢索增強任務規劃器,它將接地后的空間信息以結構化文本形式注入大模型上下文,使大模型在分解復雜指令時能夠生成帶有明確空間約束的操作步驟。例如,對于“把碗放在盤子上”的指令,系統會將“底面與頂面平行對齊”“中心點在水平方向對齊”等約束納入規劃,再轉化為機器人的運動軌跡。

為檢驗RAM的空間智能水平,研究團隊在真實機器人平臺上設計了三個層次遞進的系統實驗,涵蓋14項空間操作任務、31個物體實例和11個物體類別。第一類實驗面向語言指令驅動的空間操作,包括單物體單步、多物體單步和多物體多步任務,測試機器人對位置、朝向、空間關系和長程規劃的理解能力。在總計120次重復測試中,RAM取得了89.17%的平均成功率。第二類實驗面向圖像引導的空間操作,以看圖擺放餐具為例,機器人需從二維參考圖中推理物體的三維相對位置和朝向,并映射到當前工作空間中順序執行。在多種參考圖和隨機初始位置測試中,RAM取得了92.00%的平均成功率。第三類實驗面向基于空間推理的自主決策,研究團隊通過改變臺面高度和物品尺寸構造約束場景,檢驗系統能否根據物理條件選擇合適策略。當直接操作受限時,RAM能規劃借助中間工具的間接操作方案,體現了其對空間約束的自適應規劃能力。

團隊構建了面向機器人操作場景的空間理解問答評測集,從相對位置、旋轉方向、操作可行性、任務規劃和尺寸估計等維度評估模型的空間認知能力。結果顯示,在該評測集覆蓋的多類空間推理任務中,RAM整體表現優于多種代表性視覺語言大模型。除核心任務外,RAM還展現出一定的通用性與擴展性。在模型層面,它可適配GPT、Claude和Qwen-VL等主流大模型;在操作對象上,從剛體擴展到鉸接物體和可變形物體;在硬件平臺方面,也已在包括配備五指靈巧手的人形機器人等多個平臺上完成驗證。

人形機器人要走向真實應用場景,不僅需要硬件本體、靈巧手和運動控制能力,也需要理解三維環境、判斷物理約束并規劃可執行動作的算法能力。RAM所展示的空間智能路徑,與浙江人形機器人創新中心長期關注的人形機器人平臺建設、靈巧操作和具身智能方向高度契合。目前,中心圍繞關節模組、執行器、整機系統、五指靈巧手和運動控制系統等方向開展研發,同時在視覺感知、三維重建、運動規劃、軌跡優化和大模型驅動的具身智能算法方面持續布局,為前沿算法的部署、測試和工程驗證提供平臺基礎。

空間智能技術的研究也為人形機器人未來走向復雜應用場景提供了有力支撐。圍繞平臺建設與場景需求,浙江人形機器人創新中心正持續關注三維感知、任務規劃、靈巧操作和具身智能等關鍵能力的融合發展,推動相關技術在工業制造、家庭服務、智能康養等場景中的探索驗證與逐步落地。面向智能康養等更具挑戰性的場景,機器人需要在與人近距離交互的環境下完成物品遞送、生活輔助等任務,對空間感知準確性與操作安全性提出更高要求。中心已在深圳成立邇伴智能機器人有限公司,聚焦面向養老康養場景的人形機器人產品與解決方案研發。

 
 
更多>同類天脈資訊
全站最新
熱門內容
媒體信息
新傳播周刊
新傳播,傳播新經濟之聲!
網站首頁  |  關于我們  |  聯系方式  |  版權隱私  |  RSS訂閱  |  違規舉報 魯公網安備37010202700497號