檢索增強的三維空間新框架:為機器人操作裝上“空間智慧大腦”

   時間:2026-05-01 04:34 來源:快訊作者:DeepTech深科技

在機器人技術領域,視覺語言大模型(VLM)雖能理解人類指令并完成場景推理,但如何將語義理解轉化為實際物理操作,始終是亟待突破的瓶頸。傳統模型擅長拆解“整理桌面”等抽象任務,卻難以處理物體位置、朝向、尺寸等三維空間約束,導致規劃結果常因忽視物理規律而失敗。近期發表于《科學·機器人學》的研究提出名為RAM(Retrieval-Augmented Manipulation)的框架,通過構建可檢索的三維物體知識庫,為機器人操作注入空間推理能力。

該研究的核心創新在于打破“將所有知識編碼進模型”的傳統思路,轉而構建外部知識庫。研究團隊為31類日常物體建立標準化三維模板,標注尺寸、對稱性、抓取點、功能平面等幾何與操作屬性。例如,杯子的模板會明確杯柄為抓取點、杯口平面為功能區域,并標注其與桌面接觸的穩定姿態。這種類別級建模方式可覆蓋同類物體的不同實例,顯著降低數據采集成本。

在實際操作中,系統通過三模塊協同工作實現空間增強:三維視覺接地模型利用二維圖像與點云數據,將真實場景中的物體與知識庫模板匹配,遷移空間屬性;檢索增強任務規劃器將結構化空間信息與原始指令輸入VLM,生成包含具體抓取點、對齊方向、運動軌跡的細粒度規劃;最后通過軌跡優化將規劃轉化為機械臂可執行的指令。這種設計使模型在規劃階段即可獲得物理約束,避免生成“空中抓取”等違背規律的方案。

實驗驗證環節,研究團隊在真實機械臂平臺上開展14項測試,覆蓋單物體單步驟、多物體多步驟等復雜場景。在語言指令驅動的任務中,系統在120次測試中取得89.17%的平均成功率,其中多物體多步驟任務成功率達80%。更突破性的是,當引入單張參考圖像作為空間布局指引時,系統在常規平面場景的成功率提升至92%,復雜高低平面場景仍保持72%的準確率,突破了傳統方法依賴俯視圖的局限。

針對鉸接物體與柔性物體的操作難題,研究團隊開發了多模板匹配策略。對于筆記本電腦、抽屜等具有運動部件的物體,系統預設不同開合狀態的模板,通過實時觀測匹配最接近的模板,從而確定旋轉軸或推動方向。在疊衣服任務中,系統將折疊過程拆解為展開、疊袖等階段,結合觸覺傳感器反饋修正抓取姿勢,成功完成柔性物體的分階段操作。這些實驗表明,RAM框架可擴展至更復雜的物理交互場景。

該研究為機器人空間推理提供了新范式。通過將靜態知識庫與動態感知結合,系統既能利用標準化模板降低數據依賴,又能通過實時觀測適應環境變化。這種設計尤其適用于家庭服務、養老照護等需要近距離人機交互的場景,其中對物體空間關系的精準理解是確保操作安全性的關鍵。隨著知識庫向材質、受力等更豐富維度擴展,機器人有望在復雜任務中實現更接近人類的物理直覺。

 
 
更多>同類天脈資訊
全站最新
熱門內容
媒體信息
新傳播周刊
新傳播,傳播新經濟之聲!
網站首頁  |  關于我們  |  聯系方式  |  版權隱私  |  RSS訂閱  |  違規舉報 魯公網安備37010202700497號