為了讓機(jī)器人研究走向大眾,加州大學(xué)伯克利分校(UC Berkeley)和谷歌大腦的研究人員提出了一個開源的低成本機(jī)器人學(xué)習(xí)平臺ROBEL(RoboticsBenchmarks for Learning with Low-Cost Robots)。
ROBEL可以作為快速實驗平臺,支持各種實驗需求,以及新的強(qiáng)化學(xué)習(xí)和控制方法的開發(fā),同時提供主要用于促進(jìn)現(xiàn)實世界物理硬件研究和開發(fā)的基準(zhǔn)任務(wù)。其由D’Claw和D'Kitty組成,D'Claw是一個有三只手臂的機(jī)械臂型機(jī)器人,可以幫助學(xué)習(xí)靈巧的操作任務(wù);D'Kitty是一個有四條腿的機(jī)器人,可以幫助學(xué)習(xí)靈活的腿部運(yùn)動任務(wù)。該機(jī)器人平臺具有低成本、模塊化、可靠性高、易于維護(hù)等特點,并且功能強(qiáng)大,可支持基于硬件的強(qiáng)化學(xué)習(xí)。
圖中左:十二自由度D'Kitty;中:9 自由度D'Claw;右:功能齊全的D'Claw 裝置D’Lantern。
為了使機(jī)器人成本便宜和易于構(gòu)建,研究人員基于現(xiàn)成的組件和常見的原型工具(3D打印或激光切割)設(shè)計了ROBEL。該設(shè)計很容易組裝,只需要幾個小時即可構(gòu)建。
為了使機(jī)器人成本低且易于構(gòu)建,研究人員基于現(xiàn)成的組件和常用的原型制作工具(3D打印或激光切割)設(shè)計出ROBEL,并提供詳細(xì)的零件清單、組裝說明和入門軟件說明。ROBEL設(shè)計易于組裝,僅需幾個小時即可構(gòu)建。
谷歌設(shè)計了一套對 D’Claw和D’Kitty兩個平臺都適用的任務(wù),可用于對現(xiàn)實世界的機(jī)器人學(xué)習(xí)進(jìn)行基準(zhǔn)測試。ROBEL的任務(wù)定義包括密集和稀疏任務(wù)目標(biāo),并在任務(wù)定義中引入硬件安全指標(biāo),例如,指示關(guān)節(jié)是否超過“安全”操作界限或作用力閾值。此外,ROBEL還為所有任務(wù)提供模擬器,以促進(jìn)算法開發(fā)和快速原型設(shè)計。D’Claw 任務(wù)主要圍繞三種常見的操作行為展開:擺形(Pose)、旋轉(zhuǎn)(Turn)和擰(Screw);D’Kitty任務(wù)主要圍繞三種常見的移動行為——站立、定向和行走展開。針對這些基準(zhǔn)任務(wù),研究人員評估了幾種深度強(qiáng)化學(xué)習(xí)方法,評估結(jié)果和最終策略被作為baseline包含在軟件包中以供比較。
ROBEL平臺支持直接的硬件訓(xùn)練,迄今已積累了超過1.4萬h的實際經(jīng)驗。為了確保平臺和基準(zhǔn)方法的可重復(fù)性,研究人員通過兩個不同的實驗室分別對ROBEL進(jìn)行了研究,本研究僅使用軟件分發(fā)和文檔、不允許親自訪問,利用ROBEL的設(shè)計文檔和組裝說明,兩者都可以復(fù)制兩個硬件平臺?;鶞?zhǔn)任務(wù)訓(xùn)練在兩個實驗室分別構(gòu)建的機(jī)器人上進(jìn)行,實驗表明,在兩個不同地點打造的兩個D'Claw機(jī)器人,它們不僅訓(xùn)練進(jìn)度相似,而且最終收斂到了相同的性能,這說明ROBEL基準(zhǔn)具備良好的可重復(fù)性。
ROBEL在各種強(qiáng)化學(xué)習(xí)研究中都非常有用。D’Claw平臺是完全自主的,可以在很長一段時間內(nèi)維持實驗的可靠性,而且可以使用剛性和柔性對象的各種強(qiáng)化學(xué)習(xí)范例和任務(wù)改進(jìn)實驗。重要的是,D'Claw平臺是高度模塊化的,而且具備高度可重復(fù)性,便于進(jìn)行擴(kuò)展實驗。通過擴(kuò)展設(shè)置,研究人員發(fā)現(xiàn)多個D'Claws可以通過共享經(jīng)驗更快地對任務(wù)進(jìn)行集體學(xué)習(xí),通過共享SAC的分布式版本的硬件訓(xùn)練流程,其可以面向多個目標(biāo)任務(wù)實現(xiàn)任意角度的結(jié)合。在多任務(wù)定制中,完成五個任務(wù)只需要單個任務(wù)經(jīng)驗的2倍時間即可。
同時,研究人員成功地在D’Kitty平臺上部署了強(qiáng)大的移動策略,比如,D'Kitty可以在“盲眼”條件下在室內(nèi)和室外地形上穩(wěn)定行走,展現(xiàn)了步態(tài)的穩(wěn)健性。
具體而言,在雜亂的室內(nèi)環(huán)境行走時,通過MuJoCo模擬通過自然策略梯度訓(xùn)練的Sim2Real策略,機(jī)器人可以在隨機(jī)擾動的條件下實現(xiàn)行走,并跨過障礙物;在布滿碎石和樹枝的室外環(huán)境行走時,通過自然策略梯度在MuJoCo模擬中訓(xùn)練的Sim2Real策略具有隨機(jī)的高度場,機(jī)器人可以學(xué)習(xí)在分布著碎石和樹枝的戶外環(huán)境中行走;在室外斜坡和草叢環(huán)境中,通過自然策略梯度在MuJoCo模擬中訓(xùn)練的Sim2Real策略具有隨機(jī)高度場,機(jī)器人可以學(xué)習(xí)在緩坡上行走。
當(dāng)D’Kitty收到有關(guān)其軀干和場景中目標(biāo)的信息時,其可以學(xué)會與表現(xiàn)出復(fù)雜行為的目標(biāo)進(jìn)行交互。比如,通過HierarchicalSim2Real訓(xùn)練的策略可以學(xué)習(xí)躲避移動障礙物,到達(dá)目標(biāo)位置;通過Hierarchical Sim2Real訓(xùn)練的策略學(xué)習(xí)將目標(biāo)推向移動目標(biāo)(由手中的控制器標(biāo)記);雙機(jī)器人協(xié)同-通過Hi-Herarchical Sim2Real訓(xùn)練的策略,可以學(xué)習(xí)協(xié)調(diào)兩個D'Kitty機(jī)器人,將沉重的障礙物推向目標(biāo)位置。
總之,ROBEL可以滿足新興的基于學(xué)習(xí)范式的需求,這些范式需要高度的可擴(kuò)展性和彈性。
-
機(jī)器人
+關(guān)注
關(guān)注
213文章
31125瀏覽量
222445 -
3D打印
+關(guān)注
關(guān)注
28文章
3641瀏覽量
118163
原文標(biāo)題:加州大學(xué)伯克利分校和谷歌大腦聯(lián)合推出低成本機(jī)器人訓(xùn)練平臺
文章出處:【微信號:robotmagazine,微信公眾號:機(jī)器人技術(shù)與應(yīng)用】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
基于NVIDIA Isaac Lab拓展多模態(tài)機(jī)器人學(xué)習(xí)
NVIDIA Isaac Lab 2.3新增功能助力簡化機(jī)器人學(xué)習(xí)
NVIDIA開源物理引擎與OpenUSD加速機(jī)器人學(xué)習(xí)
NVIDIA 發(fā)布三大利器,推動人形機(jī)器人邁向新紀(jì)元
NVIDIA Isaac Lab多GPU多節(jié)點訓(xùn)練指南
英偉達(dá)發(fā)布機(jī)器人 “新大腦”,黃仁勛:人形機(jī)器人三年普及
易控智駕與中科院端到端自動駕駛方案入選CoRL 2025
NVIDIA展示機(jī)器人領(lǐng)域的研究成果
NVIDIA Isaac Lab可用環(huán)境與強(qiáng)化學(xué)習(xí)腳本使用指南
通過NVIDIA Cosmos模型增強(qiáng)機(jī)器人學(xué)習(xí)
NVIDIA Isaac Sim與NVIDIA Isaac Lab的更新
盤點#機(jī)器人開發(fā)平臺
大象機(jī)器人攜手進(jìn)迭時空推出 RISC-V 全棧開源六軸機(jī)械臂產(chǎn)品
構(gòu)建人形機(jī)器人學(xué)習(xí)的合成運(yùn)動生成流程
深度解讀英偉達(dá)Newton機(jī)器人平臺:技術(shù)革新與跨界生態(tài)構(gòu)建
一個開源的低成本機(jī)器人學(xué)習(xí)平臺ROBEL
評論