91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Google強化學習框架,要滿足哪三大特性

MqC7_CAAI_1981 ? 來源:未知 ? 作者:工程師郭婷 ? 2018-09-03 14:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

強化學習是一種非常重要 AI 技術,它能使用獎勵(或懲罰)來驅動智能體(agents)朝著特定目標前進,比如它訓練的 AI 系統(tǒng) AlphaGo 擊敗了頂尖圍棋選手,它也是 DeepMind 的深度 Q 網絡(DQN)的核心部分,它可以在多個 workers 之間分步學習,例如,在 Atari 2600 游戲中實現“超人”性能。

麻煩的是,強化學習框架需要花費大量時間來掌握一個目標,而且框架往往是不靈活和不總是穩(wěn)定的。

但不用擔心,Google 近日發(fā)布了一個替代方案:基于 TensorFlow 的開源強化學習框架 Dopamine(多巴胺)。

Google 的博文中提到,這個基于 Tensorflow 的強化學習框架,旨在為 RL 的研究人員提供靈活性,穩(wěn)定性和可重復性的研究。受到大腦中獎勵動機行為的主要成分的啟發(fā),以及反映神經科學與強化學習研究之間強烈的歷史聯系,該平臺旨在實現可推動激進發(fā)現的思辨研究(speculative research)。此版本還包括一組闡明如何使用整個框架的 colabs。

除了強化學習框架的發(fā)布,谷歌還推出了一個網站(https://google.github.io/dopamine/baselines/plots.html),允許開發(fā)人員快速可視化多個智能體的訓練運行情況。他們希望,這一框架的靈活性和易用性將使研究人員能積極嘗試新的想法,不管是漸進式還是激進式的想法。

引入靈活和可重復的強化學習研究的新框架

強化學習(RL)研究在過去幾年中取得了許多重大進展。這些進步使得智能體可以以超人類級別的能力玩游戲。比如 Atari 游戲中 DeepMind 的 DQN ,AlphaGo ,AlphaGo Zero 以及 Open AI Five。

具體而言,在 DQN 中引入 replay memories 可以利用以前的智能體經驗,大規(guī)模的分布式訓練可以在多個 workers 之間分配學習過程,分布式方法允許智能體模擬完整的分布過程,而不僅僅是模擬它們期望值,以學習更完整的圖景。這種類型的進展很重要,因為出現這些進步的算法還適用于其他領域,例如機器人技術。

通常,這種進步都來自于快速迭代設計(通常沒有明確的方向),以及顛覆既定方法的結構。然而,大多數現有的 RL 框架并沒有結合靈活性和穩(wěn)定性以及使研究人員能夠有效地迭代 RL 方法,并因此探索可能沒有直接明顯益處的新研究方向。此外,從現有框架再現結果通常太耗時,這可能導致科學的再現性問題。

今天,我們推出了一個新的基于 Tensorflow 的框架,旨在為 RL 的研究人員提供靈活性、穩(wěn)定性和可重復性。受到大腦中獎勵動機行為的主要成分的啟發(fā),以及反映神經科學與強化學習研究之間強烈的歷史聯系,該平臺旨在實現可推動激進發(fā)現的思辨研究(speculative research)。此版本還包括一組闡明如何使用整個框架的 colabs。

易用性

清晰和簡潔是該框架設計中要考慮的兩個關鍵因素。我們提供更精簡的代碼(大約 15 個Python 文件),并且有詳細記錄。這是通過專注于 Arcade 學習環(huán)境(一個成熟的,易于理解的基準)和四個基于 value 的智能體來實現的:DQN,C51,一個精心策劃的 Rainbow 智能體的簡化版本,以及隱式分位數網絡(Implicit Quantile Network)智能體,這已在上個月的 ICML 大會上已經發(fā)表。我們希望這種簡潔性使研究人員能夠輕松了解智能體內部的運作狀況,并積極嘗試新的想法。

可重復性

我們對重復性在強化學習研究中的重要性特別敏感。為此,我們?yōu)榇a提供完整的測試覆蓋率,這些測試也可作為其他文檔形式。此外,我們的實驗框架遵循 Machado 等人給出的關于使用 Arcade 學習環(huán)境標準化經驗評估的建議。

基準測試

對于新的研究人員來說,能夠根據既定方法快速對其想法進行基準測試非常重要。因此,我們?yōu)?Arcade 學習環(huán)境支持的 60 個游戲提供四個智能體的完整培訓數據,可用作 Python pickle 文件(用于使用我們框架訓練的智能體)和 JSON 數據文件(用于與受過其他框架訓練的智能體進行比較);我們還提供了一個網站,你可以在其中快速查看 60 個游戲中所有智能體的訓練運行情況。

下面展示我們在 Seaquest 上的 4 個代理的訓練情況,這是由 Arcade 學習環(huán)境支持的一種 Atari 2600 游戲。

在 Seaquest 上的 4 名智能體參加了訓練。x 軸表示迭代,其中每次迭代是 100 萬個游戲幀(4.5 小時的實時游戲);y 軸是每場比賽獲得的平均分數。陰影區(qū)域顯示的是來自 5 次獨立運行的置信區(qū)間。

我們還提供已經訓練好的深度網絡,原始統(tǒng)計日志以及用 Tensorboard 繪圖的 Tensorflow 事件文件。這些都可以在網站的下載部分找到。

希望我們框架的靈活性和易用性將使研究人員敢于嘗試新的想法,包括漸進式和激進式的想法。我們已經積極地將它用于我們的研究,并發(fā)現它能夠靈活且快速迭代許多想法。我們很高興可以為更大的社區(qū)做些貢獻。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • Google
    +關注

    關注

    5

    文章

    1807

    瀏覽量

    60524
  • AI
    AI
    +關注

    關注

    91

    文章

    39793

    瀏覽量

    301443

原文標題:Google發(fā)布“多巴胺”開源強化學習框架,三大特性全滿足

文章出處:【微信號:CAAI-1981,微信公眾號:中國人工智能學會】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    防漆是指

    的常用材料,不少人都會好奇:防漆是指防,它又憑借什么成為電子設備的防護選擇?防漆是指
    的頭像 發(fā)表于 02-28 15:19 ?78次閱讀
    <b class='flag-5'>三</b>防漆是指<b class='flag-5'>哪</b><b class='flag-5'>三</b>防

    自動駕駛中常提的離線強化學習是什么?

    [首發(fā)于智駕最前沿微信公眾號]在之前談及自動駕駛模型學習時,詳細聊過強化學習的作用,由于強化學習能讓大模型通過交互學到策略,不需要固定的規(guī)則,從而給自動駕駛的落地創(chuàng)造了更多可能。 強化學習
    的頭像 發(fā)表于 02-07 09:21 ?213次閱讀
    自動駕駛中常提的離線<b class='flag-5'>強化學習</b>是什么?

    強化學習會讓自動駕駛模型學習更快嗎?

    [首發(fā)于智駕最前沿微信公眾號]在談及自動駕駛大模型訓練時,有的技術方案會采用模仿學習,而有些會采用強化學習。同樣作為大模型的訓練方式,強化學習有何不同?又有什么特點呢? 什么是強化學習
    的頭像 發(fā)表于 01-31 09:34 ?646次閱讀
    <b class='flag-5'>強化學習</b>會讓自動駕駛模型<b class='flag-5'>學習</b>更快嗎?

    多智能體強化學習(MARL)核心概念與算法概覽

    訓練單個RL智能體的過程非常簡單,那么我們現在換一個場景,同時訓練五個智能體,而且每個都有自己的目標、只能看到部分信息,還能互相幫忙。這就是多智能體強化學習
    的頭像 發(fā)表于 01-21 16:21 ?198次閱讀
    多智能體<b class='flag-5'>強化學習</b>(MARL)核心概念與算法概覽

    AI通過傳感器融合與強化學習破解eVTOL自主起降難題

    隨著地面交通擁堵日益加劇,向維空間效率已成為智慧城市發(fā)展的必然選擇。低空交通網絡建設正從一個前沿概念,迅速演進為城市基礎設施的新維度。
    的頭像 發(fā)表于 01-15 13:41 ?489次閱讀

    上汽別克至境E7首發(fā)搭載Momenta R6強化學習大模型

    別克至境家族迎來新成員——大五座智能SUV別克至境E7首發(fā)。新車將搭載Momenta R6強化學習大模型,帶來全場景的智能出行體驗。
    的頭像 發(fā)表于 01-12 16:23 ?330次閱讀

    Cadence Conformal AI Studio大核心引擎重塑IC驗證

    Cadence 以 Conformal AI Studio 結合強化學習與分布式架構,全面升級 LEC、低功耗驗證和 ECO,在 AI 設計時代開創(chuàng)新范式。
    的頭像 發(fā)表于 01-05 10:12 ?489次閱讀

    如何訓練好自動駕駛端到端模型?

    [首發(fā)于智駕最前沿微信公眾號]最近有位小伙伴在后臺留言提問:端到端算法是怎樣訓練的?是模仿學習強化學習和離線強化學習類嗎?其實端到端(end-to-end)算法在自動駕駛、智能體
    的頭像 發(fā)表于 12-08 16:31 ?1431次閱讀
    如何訓練好自動駕駛端到端模型?

    中國研究發(fā)布新型混合微電網系統(tǒng)

    該系統(tǒng)核心是管理能源的方法。團隊采用調度框架,將多目標分布魯棒優(yōu)化(DRO)與實時強化學習(RL)輔助機制結合。能源管理系統(tǒng)(EMS)是運行“大腦”,分布式響應系統(tǒng)(DRO)生成基準調度策略,強化學習(RL)模塊實時調整控制信號
    的頭像 發(fā)表于 11-27 17:05 ?578次閱讀

    線路板防漆防是防?

    的水汽和凝露。防腐蝕:保護線路板免受化學物質、鹽霧、酸堿性氣體、霉菌等的侵蝕。防塵:防止灰塵、顆粒物、金屬碎屑等落在電路板上。線路版防漆是防,uv
    的頭像 發(fā)表于 11-07 15:59 ?635次閱讀
    線路板<b class='flag-5'>三</b>防漆<b class='flag-5'>三</b>防是<b class='flag-5'>哪</b><b class='flag-5'>三</b>防?

    今日看點:智元推出真機強化學習;美國軟件公司SAS退出中國市場

    智元推出真機強化學習,機器人訓練周期從“數周”減至“數十分鐘” ? 近日,智元機器人宣布其研發(fā)的真機強化學習技術,已在與龍旗科技合作的驗證產線中成功落地。據介紹,此次落地的真機強化學習方案,機器人
    發(fā)表于 11-05 09:44 ?1100次閱讀

    自動駕駛中常提的“強化學習”是個啥?

    [首發(fā)于智駕最前沿微信公眾號]在談及自動駕駛時,有些方案中會提到“強化學習(Reinforcement Learning,簡稱RL)”,強化學習是一類讓機器通過試錯來學會做決策的技術。簡單理解
    的頭像 發(fā)表于 10-23 09:00 ?675次閱讀
    自動駕駛中常提的“<b class='flag-5'>強化學習</b>”是個啥?

    NVIDIA Isaac Lab可用環(huán)境與強化學習腳本使用指南

    Lab 是一個適用于機器人學習的開源模塊化框架,其模塊化高保真仿真適用于各種訓練環(huán)境,Isaac Lab 同時支持模仿學習(模仿人類)和強化學習(在嘗試和錯誤中進行
    的頭像 發(fā)表于 07-14 15:29 ?2349次閱讀
    NVIDIA Isaac Lab可用環(huán)境與<b class='flag-5'>強化學習</b>腳本使用指南

    Google Fast Pair服務簡介

    Google Fast Pair 是一項利用低功耗藍牙(Bluetooth LE)技術,實現設備間快速安全配對及提供多種服務的協議。其主要功能包括: 設備處于配對模式時,顯示半頁通知,便于用戶進行
    發(fā)表于 06-29 19:28

    18個常用的強化學習算法整理:從基礎方法到高級模型的理論技術與代碼實現

    本來轉自:DeepHubIMBA本文系統(tǒng)講解從基本強化學習方法到高級技術(如PPO、A3C、PlaNet等)的實現原理與編碼過程,旨在通過理論結合代碼的方式,構建對強化學習算法的全面理解。為確保內容
    的頭像 發(fā)表于 04-23 13:22 ?1613次閱讀
    18個常用的<b class='flag-5'>強化學習</b>算法整理:從基礎方法到高級模型的理論技術與代碼實現