強(qiáng)化學(xué)習(xí)新突破:靈初智能發(fā)布雙靈巧手協(xié)同操作模型Psi R0,引領(lǐng)具身交互新紀(jì)元
在人工智能領(lǐng)域,強(qiáng)化學(xué)習(xí)一直是備受關(guān)注的研究方向。近日,靈初智能發(fā)布了首個(gè)基于強(qiáng)化學(xué)習(xí)的端到端具身模型PsiR0,這一突破性成果將強(qiáng)化學(xué)習(xí)應(yīng)用于復(fù)雜的長(zhǎng)程靈巧操作任務(wù),引領(lǐng)了具身交互的新紀(jì)元。
PsiR0模型支持雙靈巧手協(xié)同進(jìn)行復(fù)雜操作,將多個(gè)技能串聯(lián)混訓(xùn),生成具有推理能力的智能體,從而完成并閉環(huán)長(zhǎng)程靈巧操作任務(wù)。這一模型的特點(diǎn)在于其強(qiáng)大的泛化能力,能夠?qū)崿F(xiàn)跨物品、跨場(chǎng)景級(jí)別的泛化。這一突破性的進(jìn)展,對(duì)于提高生產(chǎn)效率、降低人工成本具有重要意義。
以電商場(chǎng)景為例,商品打包是典型的長(zhǎng)程任務(wù)作業(yè),需對(duì)上萬件商品進(jìn)行抓取、掃碼、放置、塑料袋打結(jié)等多個(gè)操作。Psi R0能夠使用雙靈巧手流暢地完成這一系列動(dòng)作,成為首個(gè)基于強(qiáng)化學(xué)習(xí)訓(xùn)練完成長(zhǎng)程靈巧操作任務(wù)的具身機(jī)器人。這一技術(shù)的應(yīng)用,將大大提高電商行業(yè)的生產(chǎn)效率,降低人工干預(yù),同時(shí)也為其他需要復(fù)雜操作的任務(wù)提供了新的解決方案。
PsiR0的另一個(gè)亮點(diǎn)是其采用了業(yè)界領(lǐng)先的雙向訓(xùn)練框架。該框架通過物體時(shí)空軌跡抽象出關(guān)鍵信息以構(gòu)建通用目標(biāo)函數(shù),從而解決獎(jiǎng)勵(lì)函數(shù)難設(shè)計(jì)的問題。在后訓(xùn)練階段,通過少量高質(zhì)量真機(jī)數(shù)據(jù)對(duì)齊,進(jìn)一步提升長(zhǎng)程任務(wù)的成功率。這種雙向訓(xùn)練框架賦予了模型自主切換技能的能力,使其在遭遇操作失敗時(shí)能夠迅速調(diào)整策略,確保高成功率。此外,轉(zhuǎn)移可行性函數(shù)在提高技能串聯(lián)的成功率與泛化性方面也發(fā)揮了重要作用。
強(qiáng)化學(xué)習(xí)的一個(gè)重要優(yōu)勢(shì)是其自適應(yīng)和自我優(yōu)化能力。PsiR0通過海量仿真數(shù)據(jù)訓(xùn)練出雙手操作的智能體,并在開放環(huán)境中成功完成了長(zhǎng)程任務(wù)。這種強(qiáng)大的魯棒性使得PsiR0在面對(duì)各種復(fù)雜環(huán)境和未知情況時(shí)都能表現(xiàn)出色,具有較強(qiáng)的泛化能力。
此外,PsiR0的具身特性也使其在工業(yè)應(yīng)用中具有獨(dú)特優(yōu)勢(shì)。傳統(tǒng)的機(jī)器人技術(shù)主要關(guān)注于局部操作和精細(xì)控制,而PsiR0則將多個(gè)技能串聯(lián)混訓(xùn),通過雙靈巧手進(jìn)行復(fù)雜操作。這種具身模型的應(yīng)用,能夠顯著提高生產(chǎn)線的自動(dòng)化程度,降低人力成本,同時(shí)提高生產(chǎn)效率和質(zhì)量。
總的來說,靈初智能的PsiR0模型是強(qiáng)化學(xué)習(xí)領(lǐng)域的一項(xiàng)重要突破。它通過將強(qiáng)化學(xué)習(xí)應(yīng)用于具身模型,成功解決了復(fù)雜長(zhǎng)程靈巧操作任務(wù)的問題,展示了強(qiáng)化學(xué)習(xí)的強(qiáng)大適應(yīng)性和自適應(yīng)性。這種新型的交互方式將為未來的工業(yè)自動(dòng)化和人工智能發(fā)展開辟新的道路。
在未來的研究中,我們期待看到更多基于強(qiáng)化學(xué)習(xí)的具身模型的出現(xiàn),它們將為我們的生活和工作帶來更多的便利和效率。同時(shí),我們也期待靈初智能能夠繼續(xù)保持其創(chuàng)新精神和技術(shù)實(shí)力,為推動(dòng)人工智能領(lǐng)域的發(fā)展做出更大的貢獻(xiàn)。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )