午夜AV免费免费看啪啪视频,能播放的无码视频,国产免费麻豆A片链接

人工智能和自主學(xué)習(xí)的最新發(fā)展表明，在棋盤(pán)游戲和電腦游戲等任務(wù)中取得了令人印象深刻的成果。然而，學(xué)習(xí)技術(shù)的適用性主要局限于模擬環(huán)境。

這種不適用于實(shí)際場(chǎng)景的主要原因之一是樣本效率低下，無(wú)法保證最先進(jìn)的強(qiáng)化學(xué)習(xí)的安全運(yùn)行。在強(qiáng)化學(xué)習(xí)理論中，你想根據(jù)一個(gè)特定的指標(biāo)來(lái)改善一個(gè)代理的行為。為了改進(jìn)這個(gè)度量，代理可以與環(huán)境交互，從中收集觀察結(jié)果和獎(jiǎng)勵(lì)?？梢杂脙煞N不同的方式進(jìn)行改進(jìn)：論政策和非保險(xiǎn)單。

在政策性案例中，必須通過(guò)代理人與環(huán)境的直接互動(dòng)來(lái)實(shí)現(xiàn)改進(jìn)。這種改進(jìn)在數(shù)學(xué)上很簡(jiǎn)單，但由于不允許重復(fù)使用樣本，因此阻礙了樣本效率。當(dāng)代理行為得到改善時(shí)，代理必須與環(huán)境重新交互以生成新的 on 策略樣本。例如，在學(xué)習(xí)的早期階段， agentMIG 不適合與物理環(huán)境直接交互，因?yàn)樗男袨槭请S機(jī)的。在模擬任務(wù)中，樣本的可用性是無(wú)限的，有害行為的應(yīng)用沒(méi)有危險(xiǎn)。然而，對(duì)于實(shí)際應(yīng)用，這些問(wèn)題是嚴(yán)重的。

在關(guān)閉策略的情況下，可以通過(guò)與其他代理完成的環(huán)境的交互來(lái)改進(jìn)代理的行為。這允許樣本重用和更安全的交互，因?yàn)榕c環(huán)境交互的代理可以是專(zhuān)家。例如，人類(lèi)可以通過(guò)移動(dòng)機(jī)械臂來(lái)采集樣本。

政策外改善的缺點(diǎn)是難以獲得可靠的估計(jì)。在目前的技術(shù)狀況下，所提出的技術(shù)要么具有高偏差，要么具有高方差。此外，有些技術(shù)對(duì)必須如何與環(huán)境進(jìn)行交互有著具體而強(qiáng)烈的要求。

在這篇文章中，我討論了非參數(shù)非政策梯度（ NOPG ），它具有更好的偏差方差權(quán)衡，并且對(duì)如何生成非政策樣本沒(méi)有什么要求。 NOPG 是由 Darmstadt 的智能自治系統(tǒng)實(shí)驗(yàn)室開(kāi)發(fā)的，已經(jīng)被證明可以有效地解決一些經(jīng)典的控制問(wèn)題，并克服了目前最先進(jìn)的非策略梯度估計(jì)中存在的一些問(wèn)題。有關(guān)詳細(xì)信息，請(qǐng)參見(jiàn) 非參數(shù)的政策外政策梯度。

強(qiáng)化學(xué)習(xí)與政策外梯度

強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)子領(lǐng)域，其中一個(gè)代理（我在這篇文章中稱(chēng)之為策略）與環(huán)境交互并觀察環(huán)境的狀態(tài)和獎(jiǎng)勵(lì)信號(hào)。代理人的目標(biāo)是使累計(jì)折扣報(bào)酬最大化，如下式所示：

$latex.php?latex=J%5E%5Cpi+%3D+%5Cmathbb%7BE%7D%5Cleft%5B%5Csum_t+%5Cgamma%5Etr_t%5Cright%5D&bg=ffffff&fg=000&s=0$

代理通常由一組參數(shù)來(lái)參數(shù)化使得它能夠利用梯度優(yōu)化使強(qiáng)化學(xué)習(xí)目標(biāo)最大化。坡度關(guān)于策略參數(shù)通常是未知的，并且很難以分析形式獲得。因此，你不得不用樣本來(lái)近似它。利用非策略樣本估計(jì)梯度主要有兩種方法：半梯度法和重要性抽樣法。

半梯度

這些方法在梯度展開(kāi)中減少了一個(gè)項(xiàng)，這導(dǎo)致了估計(jì)量的偏差。理論上，這個(gè)偏差項(xiàng)仍然足夠低，足以保證梯度收斂到正確的解。然而，當(dāng)引入其他近似源（例如有限樣本或臨界近似）時(shí)，不能保證收斂到最優(yōu)策略。在實(shí)踐中，經(jīng)常會(huì)觀察到性能不佳。

重要性抽樣

這些方法都是基于重要性抽樣校正的。這種估計(jì)通常會(huì)受到高方差的影響，并且這種方差在強(qiáng)化學(xué)習(xí)環(huán)境中會(huì)被放大，因?yàn)樗鼤?huì)隨著情節(jié)的長(zhǎng)度而倍增。涉及重要性抽樣的技術(shù)需要已知的隨機(jī)策略和基于軌跡的數(shù)據(jù)（與環(huán)境的順序交互）。因此，在這種情況下，不允許不完整的數(shù)據(jù)或基于人的交互。

非參數(shù)非政策梯度估計(jì)

強(qiáng)化學(xué)習(xí)理論的一個(gè)重要組成部分是 Bellman 方程。 Bellman 方程遞歸地定義了以下值函數(shù)：

求梯度的一種方法是用非參數(shù)技術(shù)近似 Bellman 方程，并進(jìn)行解析求解。具體來(lái)說(shuō)，可以構(gòu)造一個(gè)非參數(shù)的報(bào)酬函數(shù)和轉(zhuǎn)移函數(shù)模型。

通過(guò)增加采樣數(shù)和減少內(nèi)核帶寬，您將向右收斂到無(wú)偏解。更準(zhǔn)確地說(shuō)，當(dāng)方差縮小到零時(shí)，這個(gè)估計(jì)量是一致的。

非參數(shù) Bellman 方程的求解涉及到一組線性方程組的求解，該方程組可以通過(guò)矩陣反演或共軛梯度等近似迭代方法獲得。這兩種方法都是重線性代數(shù)運(yùn)算，因此適合與 GPUs 并行計(jì)算。

求解非參數(shù) Bellman 方程后，梯度的計(jì)算變得非常簡(jiǎn)單，可以使用自動(dòng)微分工具，如 TensorFlow 或 PyTorch 來(lái)獲得。這些工具具有易于使用的 GPU 支持，與以前僅使用 CPU 的實(shí)現(xiàn)相比，這些工具已經(jīng)被證明實(shí)現(xiàn)了相當(dāng)大的加速。

特別是， IASL 團(tuán)隊(duì)在配備了四個(gè) NVIDIA V100 GPUs 的 NVIDIA DGX 站上測(cè)試了 TensorFlow 和 PyTorch 兩種算法。由于 NVIDIA DGX 站提供的 20 個(gè) NVIDIA 核有助于利用多處理技術(shù)進(jìn)行多次評(píng)估，因此該機(jī)器非常適合于實(shí)證評(píng)估。有關(guān)實(shí)現(xiàn)代碼的更多信息，請(qǐng)參見(jiàn) 非參數(shù)政策外政策梯度。

實(shí)證分析

為了評(píng)估 NOPG 相對(duì)于經(jīng)典的非政策梯度方法的性能，例如深度確定性策略梯度，或具有重要抽樣校正的 G-POMDP ，團(tuán)隊(duì)選擇了一些經(jīng)典的低維控制任務(wù)：

線性二次型調(diào)節(jié)器

OpenAI 健身房秋千

手推車(chē)和電桿（ Quanser 平臺(tái)）

OpenAI 健身山地車(chē)

我的團(tuán)隊(duì)的分析表明，與最先進(jìn)的技術(shù)相比，這種方法更具優(yōu)勢(shì)。在表示為 NOPG-S 和 NOPG-D 的圖中，我們分別展示了隨機(jī)策略和確定性策略的算法：

PWIS （路徑重要性抽樣）

DPG （ deterministicpolicy gradient ），一種半梯度方法

DDPG （ deep deterministicy policy gradient ），在其經(jīng)典的在線和離線模式下

該團(tuán)隊(duì)使用 OpenAI 基線對(duì)在線版本的 DDPG 進(jìn)行編碼。

坡度的質(zhì)量

圖 1 LQR 任務(wù)中的梯度方向。與 DPG 技術(shù)相比，方差是有利的。

圖 1 描述了參數(shù)空間中的漸變方向。真梯度（ TG ）是理想的梯度方向。當(dāng) PWIS 的方差較大時(shí)， DPG 表現(xiàn)出較大的偏差，兩種方法都無(wú)法優(yōu)化策略。相反，這種同時(shí)具有隨機(jī)和確定性策略的方法顯示出更好的偏差/方差權(quán)衡，并允許更好和一致的策略改進(jìn)。

學(xué)習(xí)曲線

圖 2 該算法（ NOPG-D ， NOPG-S ）比其他基線具有更好的采樣效率。在實(shí)際系統(tǒng)上，驗(yàn)證了所學(xué)習(xí)策略對(duì)車(chē)輛穩(wěn)定性的有效性。

圖 2 描述了算法關(guān)于一些經(jīng)典基線的學(xué)習(xí)曲線。該算法使用較少的樣本，取得了較好的效果。 cartpole 的最終策略已經(jīng)在一個(gè)真實(shí)的 cartpole 上進(jìn)行了測(cè)試，如右圖所示。

從人類(lèi)示范中學(xué)習(xí)

該算法可以處理基于人類(lèi)的數(shù)據(jù)，而重要性抽樣技術(shù)并不直接適用。在這個(gè)實(shí)驗(yàn)中，研究小組提供了次優(yōu)的，人類(lèi)演示的山地車(chē)任務(wù)軌跡。

圖3 在左邊，提供了關(guān)于演示次數(shù)的算法學(xué)習(xí)曲線。該圖附有 95% 的置信區(qū)間。右邊是一個(gè)人類(lèi)演示和隨后的政策在空間狀態(tài)下的表現(xiàn)的例子。

左邊的圖 3 顯示， NOPG 可以在只有兩個(gè)次優(yōu)的演示或軌跡的情況下獲得一個(gè)有效的策略。然而，更大的數(shù)字有助于它學(xué)習(xí)稍微好一點(diǎn)的政策。右邊是一個(gè)人類(lèi)演示的例子（橙色）和策略?xún)?yōu)化的結(jié)果（綠色）。人體在位置和速度空間的演示是次優(yōu)的，因?yàn)樗枰嗟牟襟E來(lái)達(dá)到目標(biāo)位置。即使人類(lèi)的演示是次優(yōu)的，算法也能找到一個(gè)接近最優(yōu)的策略。

今后的工作

博世人工智能中心的一個(gè)應(yīng)用是節(jié)流閥控制器。節(jié)流閥是用來(lái)調(diào)節(jié)流體或氣體流量的技術(shù)裝置。由于其復(fù)雜的動(dòng)力學(xué)和物理約束，該裝置的控制具有挑戰(zhàn)性。

由于參數(shù)設(shè)置困難，設(shè)計(jì)最先進(jìn)的控制器（如 PID 控制器）非常耗時(shí)。強(qiáng)化學(xué)習(xí)似乎特別適合這種應(yīng)用。然而，政策外數(shù)據(jù)的可用性加上系統(tǒng)的低維性（系統(tǒng)可以用襟翼的角度和角速度來(lái)描述），使得它特別適合于 NOPG 方法。

結(jié)論

在這篇文章中，您研究了非政策梯度估計(jì)的問(wèn)題。最先進(jìn)的技術(shù)，如半梯度法和重要性抽樣法，往往不能提供一個(gè)可靠的估計(jì)。我討論了 NOPG ，它是在達(dá)姆施塔特的智能自治系統(tǒng)（ IAS ）實(shí)驗(yàn)室開(kāi)發(fā)的。

在經(jīng)典和低維任務(wù)（如 LQR 、擺起擺錘和 cartopole ）上， NOPG 方法是樣本有效的，與基線相比安全（也就是說(shuō)，它可以向人類(lèi)專(zhuān)家學(xué)習(xí)）。雖然重要性抽樣不適用，但該方法也能從次優(yōu)的人類(lèi)演示數(shù)據(jù)中學(xué)習(xí)。然而，由于非參數(shù)方法不適用于高維問(wèn)題，該算法僅限于低維任務(wù)。您可以研究深度學(xué)習(xí)技術(shù)的適用性，以允許降維，以及 Bellman 方程的不同近似值的使用，從而克服非參數(shù)技術(shù)的問(wèn)題。

關(guān)于作者

Samuele Tosatto 是達(dá)姆施塔特理工大學(xué)的博士生。他的主要研究方向是將強(qiáng)化學(xué)習(xí)應(yīng)用于現(xiàn)實(shí)世界的機(jī)器人技術(shù)。他認(rèn)為，獲得更有效的學(xué)習(xí)算法對(duì)于縮短強(qiáng)化學(xué)習(xí)與實(shí)際機(jī)器人技術(shù)之間的差距至關(guān)重要。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

控制器

控制器

+關(guān)注

關(guān)注
114

文章
17841

瀏覽量
194733
機(jī)器人

機(jī)器人

+關(guān)注

關(guān)注
213

文章
31296

瀏覽量
223289
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5602

瀏覽量
124567

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

用非參數(shù)方法提高強(qiáng)化學(xué)習(xí)的樣本效率

評(píng)論