北大聯(lián)手智元機(jī)器人發(fā)布OmniManip,革新3D機(jī)器人操作能力,開啟新篇章

重塑3D機(jī)器人操作能力:北大與智元機(jī)器人引領(lǐng)OmniManip革新

隨著科技的發(fā)展,機(jī)器人的應(yīng)用場(chǎng)景日益廣泛,尤其是在3D機(jī)器人操作領(lǐng)域。近日,北京大學(xué)與智元機(jī)器人團(tuán)隊(duì)聯(lián)手推出的OmniManip架構(gòu),以其獨(dú)特的創(chuàng)新性和卓越的性能,引發(fā)了業(yè)界的廣泛關(guān)注。這一創(chuàng)新不僅有望革新3D機(jī)器人操作能力,更開啟了一個(gè)全新的篇章。

OmniManip架構(gòu)的核心,是以對(duì)象為中心的3D交互基元。它將視覺語(yǔ)言模型的高層次推理能力轉(zhuǎn)化為機(jī)器人的低層次高精度動(dòng)作,從而突破了現(xiàn)有技術(shù)的限制。這種以對(duì)象為中心的設(shè)計(jì),將機(jī)器人的操作與對(duì)象的具體形態(tài)緊密結(jié)合,使得操作更加精確和靈活。

面對(duì)大模型幻覺問題和真實(shí)環(huán)境操作的不確定性,OmniManip引入了視覺語(yǔ)言模型規(guī)劃和機(jī)器人執(zhí)行的雙重閉環(huán)系統(tǒng)設(shè)計(jì),實(shí)現(xiàn)了操作性能的突破。這種設(shè)計(jì)思路,既充分利用了視覺語(yǔ)言模型的優(yōu)勢(shì),又考慮了實(shí)際操作的現(xiàn)實(shí)需求,是一種非常具有前瞻性的解決方案。

OmniManip的關(guān)鍵設(shè)計(jì)之一,是基于視覺語(yǔ)言模型的任務(wù)解析。通過利用視覺語(yǔ)言模型強(qiáng)大的常識(shí)推理能力,將任務(wù)分解為多個(gè)結(jié)構(gòu)化階段,每個(gè)階段明確指定了主動(dòng)物體、被動(dòng)物體和動(dòng)作類型。這種分解方式,使得任務(wù)解析更加清晰和明確,為后續(xù)的機(jī)器人操作提供了堅(jiān)實(shí)的基礎(chǔ)。

此外,OmniManip還以物體為中心的交互基元作為空間約束。通過3D基座模型生成任務(wù)相關(guān)物體的3D模型和規(guī)范化空間,使視覺語(yǔ)言模型能夠直接在該空間中采樣3D交互基元,作為動(dòng)作的空間約束,從而優(yōu)化求解出主動(dòng)物體在被動(dòng)物體規(guī)范坐標(biāo)系下的目標(biāo)交互姿態(tài)。這種設(shè)計(jì)思路,充分體現(xiàn)了以物體為中心的思想,使得機(jī)器人操作更加貼近實(shí)際需求。

閉環(huán)視覺語(yǔ)言模型規(guī)劃是OmniManip的另一個(gè)關(guān)鍵設(shè)計(jì)。通過將目標(biāo)交互姿態(tài)下的主動(dòng)/被動(dòng)物體渲染成圖像,供視覺語(yǔ)言模型評(píng)估和重采樣,實(shí)現(xiàn)了視覺語(yǔ)言模型對(duì)自身規(guī)劃結(jié)果的閉環(huán)調(diào)整。這種設(shè)計(jì),使得機(jī)器人操作更加智能和靈活,為后續(xù)的執(zhí)行提供了更好的基礎(chǔ)。

而閉環(huán)機(jī)器人執(zhí)行則是OmniManip的又一個(gè)重要環(huán)節(jié)。通過物體6D姿態(tài)跟蹤器實(shí)時(shí)更新主動(dòng)/被動(dòng)物體的位姿,轉(zhuǎn)換為機(jī)械臂末端執(zhí)行器的操作軌跡,實(shí)現(xiàn)閉環(huán)執(zhí)行。這種設(shè)計(jì),使得機(jī)器人能夠更好地適應(yīng)各種復(fù)雜環(huán)境下的操作任務(wù)。

此外,OmniManip還具備通用泛化能力,不受特定場(chǎng)景和物體限制。這使得它能夠廣泛應(yīng)用于各種場(chǎng)景,如數(shù)字資產(chǎn)自動(dòng)標(biāo)注/合成管道,實(shí)現(xiàn)大規(guī)模的機(jī)器人軌跡自動(dòng)化采集。這一優(yōu)勢(shì),無(wú)疑將大大拓展機(jī)器人的應(yīng)用范圍。

值得一提的是,智元機(jī)器人的團(tuán)隊(duì)已經(jīng)將其應(yīng)用于實(shí)際場(chǎng)景中,并取得了良好的效果。他們將開源泛化操作大規(guī)模數(shù)據(jù)集和對(duì)應(yīng)的仿真評(píng)測(cè)基準(zhǔn),這無(wú)疑將推動(dòng)整個(gè)行業(yè)的發(fā)展。

總的來(lái)說(shuō),OmniManip架構(gòu)以其獨(dú)特的創(chuàng)新性和卓越的性能,有望引領(lǐng)3D機(jī)器人操作領(lǐng)域的新一輪革新。而這一切,都離不開北京大學(xué)與智元機(jī)器人團(tuán)隊(duì)的共同努力和創(chuàng)新精神。我們期待著他們?cè)谶@個(gè)領(lǐng)域取得更多的成果,為人類社會(huì)的發(fā)展做出更大的貢獻(xiàn)。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2025-01-24
北大聯(lián)手智元機(jī)器人發(fā)布OmniManip,革新3D機(jī)器人操作能力,開啟新篇章
北京大學(xué)與智元機(jī)器人聯(lián)合推出的OmniManip架構(gòu),以對(duì)象為中心的3D交互基元,突破了3D機(jī)器人操作限制,有望引領(lǐng)革新。

長(zhǎng)按掃碼 閱讀全文