時事快聞

檢索增強的三維空間新框架：為機器人操作裝上“空間智慧大腦”

時間：2026-05-01 04:34 來源：快訊作者：DeepTech深科技

在機器人技術領域，視覺語言大模型（VLM）雖能理解人類指令并完成場景推理，但如何將語義理解轉化為實際物理操作，始終是亟待突破的瓶頸。傳統模型擅長拆解“整理桌面”等抽象任務，卻難以處理物體位置、朝向、尺寸等三維空間約束，導致規劃結果常因忽視物理規律而失敗。近期發表于《科學·機器人學》的研究提出名為RAM（Retrieval-Augmented Manipulation）的框架，通過構建可檢索的三維物體知識庫，為機器人操作注入空間推理能力。

該研究的核心創新在于打破“將所有知識編碼進模型”的傳統思路，轉而構建外部知識庫。研究團隊為31類日常物體建立標準化三維模板，標注尺寸、對稱性、抓取點、功能平面等幾何與操作屬性。例如，杯子的模板會明確杯柄為抓取點、杯口平面為功能區域，并標注其與桌面接觸的穩定姿態。這種類別級建模方式可覆蓋同類物體的不同實例，顯著降低數據采集成本。

在實際操作中，系統通過三模塊協同工作實現空間增強：三維視覺接地模型利用二維圖像與點云數據，將真實場景中的物體與知識庫模板匹配，遷移空間屬性；檢索增強任務規劃器將結構化空間信息與原始指令輸入VLM，生成包含具體抓取點、對齊方向、運動軌跡的細粒度規劃；最后通過軌跡優化將規劃轉化為機械臂可執行的指令。這種設計使模型在規劃階段即可獲得物理約束，避免生成“空中抓取”等違背規律的方案。

實驗驗證環節，研究團隊在真實機械臂平臺上開展14項測試，覆蓋單物體單步驟、多物體多步驟等復雜場景。在語言指令驅動的任務中，系統在120次測試中取得89.17%的平均成功率，其中多物體多步驟任務成功率達80%。更突破性的是，當引入單張參考圖像作為空間布局指引時，系統在常規平面場景的成功率提升至92%，復雜高低平面場景仍保持72%的準確率，突破了傳統方法依賴俯視圖的局限。

針對鉸接物體與柔性物體的操作難題，研究團隊開發了多模板匹配策略。對于筆記本電腦、抽屜等具有運動部件的物體，系統預設不同開合狀態的模板，通過實時觀測匹配最接近的模板，從而確定旋轉軸或推動方向。在疊衣服任務中，系統將折疊過程拆解為展開、疊袖等階段，結合觸覺傳感器反饋修正抓取姿勢，成功完成柔性物體的分階段操作。這些實驗表明，RAM框架可擴展至更復雜的物理交互場景。

該研究為機器人空間推理提供了新范式。通過將靜態知識庫與動態感知結合，系統既能利用標準化模板降低數據依賴，又能通過實時觀測適應環境變化。這種設計尤其適用于家庭服務、養老照護等需要近距離人機交互的場景，其中對物體空間關系的精準理解是確保操作安全性的關鍵。隨著知識庫向材質、受力等更豐富維度擴展，機器人有望在復雜任務中實現更接近人類的物理直覺。

更多>同類天脈資訊

科技助力春耕：黑龍江育秧大棚里智能機器人“上崗”護苗

05-01

塞上四月農品盛會啟幕全國客商齊聚銀川共繪供需共贏新畫卷

05-01

小紅書組織升級：柯南掛帥整合業務，AI部門獨立能否撬動電商新局？

05-01

上海新榜信息技術4月30日向港交所遞交上市申請招商證券國際保駕護航

05-01

佳合科技2025年營收7.38億增13.74% 凈利下滑39.25% 業務結構優化謀發展

05-01

馬斯克Neuralink新突破：手術機器人助力腦機接口植入更安全高效