视频在线观看你懂的,午夜毛片网站,人人草人人爽

北京大學與智元機器人聯合實驗室發布OmniManip架構

日期： 2025-01-23

來源：IT之家

關鍵詞： 智元機器人 OmniManip 北京大學

1 月 23 日消息，如何將視覺語?基礎模型（Vision Language Models, VLMs）應?于機器?以實現通?操作是具身智能領域的?個核?問題，這??標的實現受兩?關鍵挑戰制約：

VLM 缺少精確的 3D 理解能?：通過對?學習范式訓練、僅以 2D 圖像 / ?本作為輸?的 VLM 的天然局限；

?法輸出低層次動作：將 VLM 在機器?數據上進?微調以得到視覺 - 語? - 動作（VLA）模型是?種有前景的解決?案，但?前仍受到數據收集成本和泛化能?的限制。

上海智元新創技術有限公司官方今日發文稱，北?攜?智元機器?團隊提出 OmniManip 架構，基于以對象為中?的 3D 交互基元，將 VLM 的高層次推理能力轉化為機器?的低層次高精度動作。

針對?模型幻覺問題和真實環境操作的不確定性，OmniManip 引?了 VLM 規劃和機器?執?的雙閉環系統設計，實現了操作性能突破。目前項?主?與論?已上線，代碼與測試平臺即將開源。

從智元機器人官方獲悉，OmniManip 的關鍵設計包括：

基于 VLM 的任務解析：利? VLM 強?的常識推理能?，將任務分解為多個結構化階段（Stages），每個階段明確指定了主動物體（Active）、被動物體（Passive）和動作類型（Action）。

以物體為中?的交互基元作為空間約束：通過 3D 基座模型?成任務相關物體的 3D 模型和規范化空間（canonical space），使 VLM 能夠直接在該空間中采樣 3D 交互基元，作為 Action 的空間約束，從?優化求解出 Active 物體在 Passive 物體規范坐標系下的?標交互姿態。

閉環 VLM 規劃：將?標交互姿態下的 Active / Passive 物體渲染成圖像，由 VLM 評估與重采樣，實現 VLM 對?身規劃結果的閉環調整。

閉環機器?執?：通過物體 6D 姿態跟蹤器實時更新 Active / Passive 物體的位姿，轉換為機械臂末端執?器的操作軌跡，實現閉環執?。

此外，OmniManip 具備通?泛化能?，不受特定場景和物體限制。團隊已將其應?于數字資產?動標注 / 合成管道，實現?規模的機器?軌跡?動采集。該研究團隊將開源泛化操作?規模數據集和對應的仿真評測基準。

據IT之家此前報道，以“天才少年”身份加入華為的稚暉君于 2022 年底宣布離職，創業智元機器人。2024 年 9 月 3 日，智元機器人完成 A++++++ 輪融資，估值已超過 70 億元，得到了包括北汽、上汽、比亞迪在內的國內汽車巨頭支持。

目前，智元機器人量產的第 1000 臺通用具身機器人已于本月（1 月 6 日）正式下線，其中包括 731 臺雙足人形機器人（遠征 A2 / 靈犀 X1）和 269 臺輪式通用機器人（遠征 A2-D / A2-W）。

Magazine.Subscription.jpg

版權聲明：本站內容除特別聲明的原創文章之外，轉載內容只為傳遞更多信息，并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經濟損失。聯系電話：010-82306118；郵箱：aet@chinaaet.com。

北京大學與智元機器人聯合實驗室發布OmniManip架構

日期： 2025-01-23

來源：IT之家

相關內容