人人操免费人妻,欧美在线超碰99,成人免费在线观看国产丝袜

為了讓機(jī)器人研究走向大眾，加州大學(xué)伯克利分校(UC Berkeley)和谷歌大腦的研究人員提出了一個開源的低成本機(jī)器人學(xué)習(xí)平臺ROBEL(RoboticsBenchmarks for Learning with Low-Cost Robots)。

ROBEL可以作為快速實驗平臺，支持各種實驗需求，以及新的強(qiáng)化學(xué)習(xí)和控制方法的開發(fā)，同時提供主要用于促進(jìn)現(xiàn)實世界物理硬件研究和開發(fā)的基準(zhǔn)任務(wù)。其由D’Claw和D'Kitty組成，D'Claw是一個有三只手臂的機(jī)械臂型機(jī)器人，可以幫助學(xué)習(xí)靈巧的操作任務(wù)；D'Kitty是一個有四條腿的機(jī)器人，可以幫助學(xué)習(xí)靈活的腿部運(yùn)動任務(wù)。該機(jī)器人平臺具有低成本、模塊化、可靠性高、易于維護(hù)等特點，并且功能強(qiáng)大，可支持基于硬件的強(qiáng)化學(xué)習(xí)。

圖中左：十二自由度D'Kitty；中：9 自由度D'Claw；右：功能齊全的D'Claw 裝置D’Lantern。

為了使機(jī)器人成本便宜和易于構(gòu)建，研究人員基于現(xiàn)成的組件和常見的原型工具(3D打印或激光切割)設(shè)計了ROBEL。該設(shè)計很容易組裝，只需要幾個小時即可構(gòu)建。

為了使機(jī)器人成本低且易于構(gòu)建，研究人員基于現(xiàn)成的組件和常用的原型制作工具（3D打印或激光切割）設(shè)計出ROBEL，并提供詳細(xì)的零件清單、組裝說明和入門軟件說明。ROBEL設(shè)計易于組裝，僅需幾個小時即可構(gòu)建。

谷歌設(shè)計了一套對 D’Claw和D’Kitty兩個平臺都適用的任務(wù)，可用于對現(xiàn)實世界的機(jī)器人學(xué)習(xí)進(jìn)行基準(zhǔn)測試。ROBEL的任務(wù)定義包括密集和稀疏任務(wù)目標(biāo)，并在任務(wù)定義中引入硬件安全指標(biāo)，例如，指示關(guān)節(jié)是否超過“安全”操作界限或作用力閾值。此外，ROBEL還為所有任務(wù)提供模擬器，以促進(jìn)算法開發(fā)和快速原型設(shè)計。D’Claw 任務(wù)主要圍繞三種常見的操作行為展開：擺形(Pose)、旋轉(zhuǎn)(Turn)和擰(Screw)；D’Kitty任務(wù)主要圍繞三種常見的移動行為——站立、定向和行走展開。針對這些基準(zhǔn)任務(wù)，研究人員評估了幾種深度強(qiáng)化學(xué)習(xí)方法，評估結(jié)果和最終策略被作為baseline包含在軟件包中以供比較。

ROBEL平臺支持直接的硬件訓(xùn)練，迄今已積累了超過1.4萬h的實際經(jīng)驗。為了確保平臺和基準(zhǔn)方法的可重復(fù)性，研究人員通過兩個不同的實驗室分別對ROBEL進(jìn)行了研究，本研究僅使用軟件分發(fā)和文檔、不允許親自訪問，利用ROBEL的設(shè)計文檔和組裝說明，兩者都可以復(fù)制兩個硬件平臺?；鶞?zhǔn)任務(wù)訓(xùn)練在兩個實驗室分別構(gòu)建的機(jī)器人上進(jìn)行，實驗表明，在兩個不同地點打造的兩個D'Claw機(jī)器人，它們不僅訓(xùn)練進(jìn)度相似，而且最終收斂到了相同的性能，這說明ROBEL基準(zhǔn)具備良好的可重復(fù)性。

ROBEL在各種強(qiáng)化學(xué)習(xí)研究中都非常有用。D’Claw平臺是完全自主的，可以在很長一段時間內(nèi)維持實驗的可靠性，而且可以使用剛性和柔性對象的各種強(qiáng)化學(xué)習(xí)范例和任務(wù)改進(jìn)實驗。重要的是，D'Claw平臺是高度模塊化的，而且具備高度可重復(fù)性，便于進(jìn)行擴(kuò)展實驗。通過擴(kuò)展設(shè)置，研究人員發(fā)現(xiàn)多個D'Claws可以通過共享經(jīng)驗更快地對任務(wù)進(jìn)行集體學(xué)習(xí)，通過共享SAC的分布式版本的硬件訓(xùn)練流程，其可以面向多個目標(biāo)任務(wù)實現(xiàn)任意角度的結(jié)合。在多任務(wù)定制中，完成五個任務(wù)只需要單個任務(wù)經(jīng)驗的2倍時間即可。

同時，研究人員成功地在D’Kitty平臺上部署了強(qiáng)大的移動策略，比如，D'Kitty可以在“盲眼”條件下在室內(nèi)和室外地形上穩(wěn)定行走，展現(xiàn)了步態(tài)的穩(wěn)健性。

具體而言，在雜亂的室內(nèi)環(huán)境行走時，通過MuJoCo模擬通過自然策略梯度訓(xùn)練的Sim2Real策略，機(jī)器人可以在隨機(jī)擾動的條件下實現(xiàn)行走，并跨過障礙物；在布滿碎石和樹枝的室外環(huán)境行走時，通過自然策略梯度在MuJoCo模擬中訓(xùn)練的Sim2Real策略具有隨機(jī)的高度場，機(jī)器人可以學(xué)習(xí)在分布著碎石和樹枝的戶外環(huán)境中行走；在室外斜坡和草叢環(huán)境中，通過自然策略梯度在MuJoCo模擬中訓(xùn)練的Sim2Real策略具有隨機(jī)高度場，機(jī)器人可以學(xué)習(xí)在緩坡上行走。

當(dāng)D’Kitty收到有關(guān)其軀干和場景中目標(biāo)的信息時，其可以學(xué)會與表現(xiàn)出復(fù)雜行為的目標(biāo)進(jìn)行交互。比如，通過HierarchicalSim2Real訓(xùn)練的策略可以學(xué)習(xí)躲避移動障礙物，到達(dá)目標(biāo)位置；通過Hierarchical Sim2Real訓(xùn)練的策略學(xué)習(xí)將目標(biāo)推向移動目標(biāo)（由手中的控制器標(biāo)記）；雙機(jī)器人協(xié)同-通過Hi-Herarchical Sim2Real訓(xùn)練的策略，可以學(xué)習(xí)協(xié)調(diào)兩個D'Kitty機(jī)器人，將沉重的障礙物推向目標(biāo)位置。

總之，ROBEL可以滿足新興的基于學(xué)習(xí)范式的需求，這些范式需要高度的可擴(kuò)展性和彈性。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴