星動(dòng)紀(jì)元端到端原生機(jī)器人大模型ERA-42正式亮相,引領(lǐng)具身大模型進(jìn)入靈巧操作時(shí)代

導(dǎo)語(yǔ):近期,星動(dòng)紀(jì)元端到端原生機(jī)器人大模型ERA-42正式亮相,即“紀(jì)元原生機(jī)器人大模型”,寓意著不斷探索宇宙萬(wàn)物的終極答案,展示了其與自研五指靈巧手星動(dòng)XHAND1結(jié)合后的靈巧操作能力,已學(xué)會(huì)了使用不同工具完成100多種復(fù)雜靈巧的操作任務(wù),并且持續(xù)在同一個(gè)模型下學(xué)習(xí)新的技能。例如,拿起桌上螺釘鉆鉆緊螺釘、用錘子敲打釘子、將水杯扶正后再往水杯中倒水等任務(wù)。

星動(dòng)紀(jì)元端到端原生機(jī)器人大模型ERA-42正式亮相,引領(lǐng)具身大模型進(jìn)入靈巧操作時(shí)代

基于ERA-42,星動(dòng)XHAND1能用不同工具完成多種靈巧操作新任務(wù)

這是業(yè)界首次僅通過(guò)同一個(gè)具身大模型就實(shí)現(xiàn)了五指靈巧手像人手一樣使用多種工具完成上百種靈巧復(fù)雜操作任務(wù),展現(xiàn)了ERA-42行業(yè)領(lǐng)先的通用、靈巧操作能力。模型不需要任何預(yù)編程技能,完全基于其強(qiáng)大的泛化和自適應(yīng)力,能在不到2小時(shí)內(nèi)通過(guò)收集少量數(shù)據(jù)就學(xué)會(huì)執(zhí)行新的任務(wù)。同時(shí),ERA-42還在快速不斷學(xué)習(xí)更多新技能中。

星動(dòng)紀(jì)元端到端原生機(jī)器人大模型ERA-42正式亮相,引領(lǐng)具身大模型進(jìn)入靈巧操作時(shí)代

基于ERA-42,星動(dòng)XHAND1可完成100多種精細(xì)化、智能化的五指靈巧手操作任務(wù)

ERA-42也是世界范圍內(nèi)首個(gè)真正的五指靈巧手具身大模型,開啟了具身大模型的通用靈巧操作時(shí)代。

1. “真正”的具身大模型才是開啟通用具身智能體的密鑰,需要具備以下三個(gè)要素:

一是統(tǒng)一一個(gè)模型泛化多種任務(wù)和環(huán)境:通過(guò)構(gòu)建一個(gè)統(tǒng)一的原生模型,融合視覺(jué)、語(yǔ)言、觸覺(jué)和身體姿態(tài)等全模態(tài)信息,實(shí)現(xiàn)對(duì)不同任務(wù)和環(huán)境的泛化能力。

二是端到端:從接收全模態(tài)數(shù)據(jù),到生成最終輸出(如決策、動(dòng)作等),通過(guò)一個(gè)簡(jiǎn)潔的神經(jīng)網(wǎng)絡(luò)鏈路完成。該過(guò)程無(wú)需人為設(shè)計(jì)特征、預(yù)編程或干預(yù)處理步驟,使得具身智能體能夠?qū)崟r(shí)適應(yīng)不同任務(wù)和環(huán)境,顯著提升靈活性與開發(fā)效率。

三是Scaling up(規(guī)模化):真正的統(tǒng)一的端到端算法才允許模型通過(guò)持續(xù)的數(shù)據(jù)積累實(shí)現(xiàn)自我完善,使得具身大模型在數(shù)據(jù)量指數(shù)級(jí)增長(zhǎng)的同時(shí),不僅提升性能,還能在未知任務(wù)中展現(xiàn)卓越的自適應(yīng)和泛化能力。

例如,被行業(yè)廣泛熟知的Physical Intelligence (簡(jiǎn)稱PI)發(fā)布的π0模型就具備上述要素,是典型的真正意義上的端到端具身大模型。

2. 星動(dòng)紀(jì)元ERA-42是國(guó)內(nèi)首個(gè)真正意義上的端到端原生機(jī)器人大模型,比肩世界領(lǐng)先水平

早期,星動(dòng)紀(jì)元和PI幾乎同期采用了端到端算法來(lái)提升其原生機(jī)器人大模型性能,PI推出的π0模型,通過(guò)結(jié)合互聯(lián)網(wǎng)規(guī)模的視覺(jué)-語(yǔ)言預(yù)訓(xùn)練與機(jī)器人操作數(shù)據(jù)集后訓(xùn)練,使得機(jī)器人能夠在人類環(huán)境中自主執(zhí)行多種復(fù)雜任務(wù),這是機(jī)器人從特定任務(wù)的“專家”向多任務(wù)的“通才”發(fā)展歷程上的重要一步,也是具身大模型領(lǐng)域的一個(gè)里程碑。

星動(dòng)紀(jì)元端到端原生機(jī)器人大模型ERA-42正式亮相,引領(lǐng)具身大模型進(jìn)入靈巧操作時(shí)代

星動(dòng)紀(jì)元早期發(fā)布的研究成果和Physical Intelligence (PI)幾乎不謀而合

星動(dòng)論文HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers發(fā)表在CoRL2024

而后,星動(dòng)紀(jì)元又探索了另一條訓(xùn)練道路,采用大規(guī)模視頻數(shù)據(jù)學(xué)習(xí)策略,涵蓋無(wú)標(biāo)注的視頻數(shù)據(jù)、公開各類形態(tài)機(jī)器人的數(shù)據(jù)、人類活動(dòng)數(shù)據(jù)以及遙操作數(shù)據(jù)等。并且,在上述數(shù)據(jù)的使用上,星動(dòng)紀(jì)元不是直接模仿視頻里的人怎么去做,而是學(xué)習(xí)行動(dòng)之后會(huì)產(chǎn)生什么樣的結(jié)果。這種方式使得學(xué)習(xí)效果不受限于數(shù)據(jù)質(zhì)量,能大大降低數(shù)據(jù)收集成本,解決了數(shù)據(jù)消耗量巨大、需要大量高質(zhì)量數(shù)據(jù)的行業(yè)難題。

此外,星動(dòng)紀(jì)元的技術(shù)團(tuán)隊(duì)已將世界模型融入原生機(jī)器人大模型中,使得模型不僅具備行動(dòng)能力,還具備了對(duì)物理世界的理解能力,能夠?qū)ξ磥?lái)行動(dòng)軌跡進(jìn)行預(yù)測(cè)。

星動(dòng)紀(jì)元端到端原生機(jī)器人大模型ERA-42正式亮相,引領(lǐng)具身大模型進(jìn)入靈巧操作時(shí)代

后期,星動(dòng)紀(jì)元探索了融合世界模型的原生機(jī)器人大模型

星動(dòng)論文Prediction with Action: Visual Policy Learning via Joint Denoising Process發(fā)表在NeurIPS 2024

還能迅速響應(yīng)外部干擾,并在任務(wù)執(zhí)行過(guò)程中持續(xù)自適應(yīng)優(yōu)化行為,直至任務(wù)完成。提升了機(jī)器人執(zhí)行任務(wù)的高效性和準(zhǔn)確性。

星動(dòng)紀(jì)元打造的端到端原生機(jī)器人大模型ERA-42憑借其預(yù)測(cè)能力,模型具備強(qiáng)大的泛化、自適應(yīng)和規(guī)?;芰?。結(jié)合星動(dòng)紀(jì)元為AI打造的全新硬件平臺(tái),可快速實(shí)現(xiàn)具身智能體軟硬件協(xié)同進(jìn)化和商業(yè)化落地。

3. 星動(dòng)紀(jì)元端到端原生機(jī)器人大模型ERA-42引領(lǐng)具身大模型進(jìn)入通用靈巧操作時(shí)代

1)相比夾爪,星動(dòng)XHAND1已經(jīng)可以完成100多種精細(xì)化、智能化的復(fù)雜靈巧操作任務(wù)

相比夾爪,基于ERA-42能力,五指靈巧手能夠真正像人手一樣使用更多種多樣的工具,完成更通用、靈巧性更強(qiáng)、復(fù)雜度更高的百種以上操作任務(wù)。

星動(dòng)紀(jì)元端到端原生機(jī)器人大模型ERA-42正式亮相,引領(lǐng)具身大模型進(jìn)入靈巧操作時(shí)代

基于ERA-42,五指靈巧手星動(dòng)XHAND1相比夾爪能使用更多不同工具執(zhí)行更靈巧操作

2)星動(dòng)紀(jì)元原生機(jī)器人大模型ERA-42能理解物理世界和預(yù)測(cè)未來(lái)

融合世界模型后,ERA-42具備對(duì)物理世界的理解以及對(duì)未來(lái)的預(yù)測(cè)的能力,從而大幅提升了泛化能力和任務(wù)成功率。

例如,下圖中上方的圖片展示了真實(shí)物理世界中打開冰箱的逐幀操作,下方的圖片則為ERA-42生成的環(huán)境建模與對(duì)打開冰箱任務(wù)的逐幀預(yù)測(cè)??梢钥吹絻蓮垐D片非常接近,說(shuō)明模型預(yù)測(cè)非常準(zhǔn)確。這與其他機(jī)器人大模型直接學(xué)習(xí)行動(dòng)、而忽視對(duì)世界本身理解的方式,或者僅將世界模型用于生成仿真數(shù)據(jù)的方式,存在本質(zhì)的區(qū)別。

星動(dòng)紀(jì)元端到端原生機(jī)器人大模型ERA-42正式亮相,引領(lǐng)具身大模型進(jìn)入靈巧操作時(shí)代

真實(shí)世界執(zhí)行任務(wù)和ERA-42預(yù)測(cè)執(zhí)行任務(wù)對(duì)比圖

3)星動(dòng)紀(jì)元原生機(jī)器人大模型ERA-42具備更強(qiáng)泛化能力

基于大規(guī)模視頻數(shù)據(jù)的預(yù)訓(xùn)練,只需采集少部分?jǐn)?shù)據(jù),基于ERA-42的泛化能力,短時(shí)間內(nèi)通過(guò)單一的策略靈巧手就能學(xué)會(huì)執(zhí)行新的操作任務(wù)。此前,星動(dòng)紀(jì)元技術(shù)團(tuán)隊(duì)就通過(guò)這種訓(xùn)練方式采集簡(jiǎn)單的紅黃藍(lán)方塊抓取數(shù)據(jù),成功實(shí)現(xiàn)了從未見(jiàn)過(guò)的多樣化物體(如胡蘿卜、茄子等)的抓取泛化,并相對(duì)其他模型算法在泛化任務(wù)上顯著提升了成功率。

星動(dòng)紀(jì)元端到端原生機(jī)器人大模型ERA-42正式亮相,引領(lǐng)具身大模型進(jìn)入靈巧操作時(shí)代

通過(guò)簡(jiǎn)單彩色方塊的抓取數(shù)據(jù)實(shí)現(xiàn)多樣化物體的泛化抓取操作

4)星動(dòng)紀(jì)元原生機(jī)器人大模型ERA-42具備更強(qiáng)自適應(yīng)性

由于融合了世界模型,ERA-42不管在單任務(wù)上,還是長(zhǎng)序列任務(wù)上都展現(xiàn)出了業(yè)內(nèi)領(lǐng)先的強(qiáng)大抗干擾能力。

5)星動(dòng)紀(jì)元原生機(jī)器人大模型ERA-42初步體現(xiàn)“Scaling效應(yīng)”

并且研究結(jié)果表明,隨著模型規(guī)模的擴(kuò)大,任務(wù)成功率也明顯提升,初步體現(xiàn)了和大語(yǔ)言模型訓(xùn)練中類似的“Scaling效應(yīng)”,即模型規(guī)模與性能之間的正相關(guān)性。

星動(dòng)紀(jì)元端到端原生機(jī)器人大模型ERA-42正式亮相,引領(lǐng)具身大模型進(jìn)入靈巧操作時(shí)代

“Scaling效應(yīng)”顯示模型與機(jī)器人性能呈現(xiàn)正相關(guān)性

4.星動(dòng)紀(jì)元端到端原生機(jī)器人大模型ERA-42和為AI打造的全新硬件平臺(tái)協(xié)同進(jìn)化,共建原生具身智能體

構(gòu)建通用具身智能體需要軟硬件協(xié)同迭代,就像人類的腦和身體是從小到大同步協(xié)同成長(zhǎng)的一樣。

星動(dòng)紀(jì)元端到端原生機(jī)器人大模型ERA-42正式亮相,引領(lǐng)具身大模型進(jìn)入靈巧操作時(shí)代

構(gòu)建原生通用具身智能體=原生機(jī)器人大模型+為AI定義的硬件平臺(tái)協(xié)同進(jìn)化

因此,星動(dòng)紀(jì)元打造了為AI定義的全新硬件平臺(tái)。以星動(dòng)自研推出的五指靈巧手星動(dòng)XHAND1為例,共有12個(gè)主動(dòng)自由度,并采用純電驅(qū)方式,且每個(gè)自由度都有對(duì)應(yīng)的驅(qū)動(dòng)源,實(shí)現(xiàn)全自主五指關(guān)節(jié)驅(qū)動(dòng),能執(zhí)行高精度任務(wù)。星動(dòng)XHAND1每個(gè)手指配備一個(gè)高分辨率(>100點(diǎn))觸覺(jué)陣列傳感器,提供精確的三維力觸覺(jué)和溫度信息。單手最大握力能達(dá)80N,負(fù)載可達(dá)25kg。

星動(dòng)紀(jì)元端到端原生機(jī)器人大模型ERA-42正式亮相,引領(lǐng)具身大模型進(jìn)入靈巧操作時(shí)代

星動(dòng)XHAND1 —— 全自驅(qū) 真自由

星動(dòng)XHAND1在作業(yè)能力上展現(xiàn)出的高性能在協(xié)同ERA-42后,為實(shí)現(xiàn)復(fù)雜靈巧操作任務(wù)奠定了基礎(chǔ)。

依托ERA-42,星動(dòng)紀(jì)元通用人形機(jī)器人執(zhí)行任務(wù)的通用性和泛化性將大幅提升,結(jié)合此前發(fā)布的在復(fù)雜多樣的地形上穩(wěn)定行走和奔跑的運(yùn)動(dòng)性能,配合上下肢協(xié)同作業(yè)能力,潛在應(yīng)用場(chǎng)景也將更加多元化,真正實(shí)現(xiàn)原生的通用具身智能體的產(chǎn)業(yè)化落地。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )