91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何切實地設計實現現實世界中的強化學習

倩倩 ? 來源:讀芯術 ? 2020-02-06 14:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

許多文章解釋了強化學習(RL)的概念,但鮮有文章解釋如何切實地設計實現現實世界中的強化學習。

小芯這次想分享人工智能范式轉變課程,討論設計權衡問題,并深入研究技術細節(jié)。

那么,我們開始吧!

首先,喝酒?

想象一下你身處聚會,有點微醺或酩酊大醉,自愿參加一個飲酒游戲,想要打動一個(或多個)頗具魅力的泛泛之交。

有人蒙住你的眼睛,給你一杯或一瓶啤酒,喊道:“倒酒!”

你會怎么做?

可能會有以下反應:該死,我應該怎么做?怎樣能贏!要是輸了怎么辦!?

游戲規(guī)則如下:在10秒內把啤酒灌滿,盡可能接近玻璃杯上的標記??梢园哑【频惯M倒出。

RL(強化學習)解決方案面臨著類似的任務,高大上且有意義,歡迎了解。

現實世界中的啤酒問題

環(huán)保共享單車業(yè)務存在一個大問題。一天中,每個單車停放處(杯)的共享單車(啤酒)數量過多或不足。

紐約市單車停放處的單車過剩和不足

對于騎自行車的人來說,這十分不便,并且要花費數百萬美元來管理運營,也不劃算。不久前,筆者在紐約大學的團隊任務是提供人工智能解決方案,將人工干預降到最小,幫助管理自行車庫存。

目標:每天將各個單車停放處的數量保持在1至50之間(想想杯子上的標記)。這在共享經濟中被稱為“再平衡問題”。

限制條件:由于運營限制,團隊每天每小時只能移動1、3或10輛單車(可以倒入或倒出的啤酒量)。當然,他們可以選擇什么都不做。團隊移動的單車越多,價格越昂貴。

惰性RL(強化學習)解決方案

來源:Pexels

團隊決定使用RL (強化學習),它克服了傳統(tǒng)方法的許多局限(例如基于規(guī)則和預測)。

如果想了解RL(強化學習)以及一些關鍵概念,喬納森·輝(JonathanHui)撰寫了一篇很棒的介紹,托馬斯·西蒙尼尼(ThomasSimonini )詳細解釋了解決方案中應用的RL算法Q-Learning。

事實證明,人類創(chuàng)建了極具惰性的人工智能。當單車存量超過60輛時,它通常會選擇不執(zhí)行任何操作或執(zhí)行最少操作(移動1或3輛自行車)。似乎有違常理,但這是非常明智的。

根據直覺,可能會移動盡可能多的單車以將其保持在50輛以下,尤其是在停放處停滿時。但是,RL(強化學習)識別出移動成本(移動的單車越多,成本越高)以及在某些情況下成功的機會。考慮到所剩時間,根本不可能實現目標。它知道最好的選擇是“放棄”。因此,放棄比繼續(xù)嘗試要付出更少的代價!

所以呢?當人工智能做出非常規(guī)決策時,類似于谷歌Alpha Go研發(fā)的著名Move 37 and 78 ,它們會挑戰(zhàn)人類的偏見,幫助打破知識的魔咒,并將人類推向未知的道路。

創(chuàng)造人工智能既是一種發(fā)明,也是一種探索人類內心活動的旅程?!狣eepMind創(chuàng)始人德米斯·哈薩比斯 (Demis Hassabis)在《經濟學人》雜志《2020年的世界》(The World in 2020)一文中所言。

但是,請保持謹慎。人類價值體系無可替代,因此人類不會一落千丈或迷失自我。

哲學知識已經足夠了,現在現實一點吧

RL如何管理單車停放處?

下圖顯示了在有無RL的情況下,一天當中單車的停放量。

· 藍色線是無RL情況下的單車停放趨勢。

· 黃色線是最初RL情況下移出單車的趨勢,很昂貴。

· 綠色線是訓練有素的RL,它僅移出足以滿足目標的單車,更能了解成本。

作者分析

RL如何決定該做什么?

以下是經過98,000次訓練后RL解決方案Q表的快照。它解釋了RL如何根據停放處(垂直數據)上的自行車數量來決定做什么(水平數據)。RL不太可能選擇用紅色進行操作??纯吹撞康募t色區(qū)域。

作者分析

RL能有多智能?以下圖表介紹了RL對停放處的管理情況。通過深入學習,RL可以將整體成功率逐步提高到98%,令人印象深刻。

作者分析

希望大家喜歡這篇文章,并由衷地期待RL在現實世界中展示出的潛力。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1819

    文章

    50185

    瀏覽量

    266264
  • 強化學習
    +關注

    關注

    4

    文章

    272

    瀏覽量

    11986
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Momenta R6強化學習大模型上車東風日產NX8

    3月20日,東風日產NX8技術暨預售發(fā)布會在廣州舉辦,官宣Momenta R6強化學習大模型正式上車東風日產新能源SUV——NX8。以全球頂級大廠合力,融合先鋒科技力量,打造更適配全家出行的智能SUV,開啟合資品牌智能化全新賽道。
    的頭像 發(fā)表于 03-24 09:08 ?590次閱讀

    Momenta強化學習大模型助力別克至境世家純電版正式上市

    3月17日,別克至境世家純電版正式上市,這是別克與Momenta強化學習大模型的又一次深度聯(lián)手。融合別克在MPV市場深耕27年的技術積淀,以更從容的智慧駕控,重新定義豪華與自在的出行體驗。
    的頭像 發(fā)表于 03-18 15:48 ?163次閱讀

    Momenta R7強化學習世界模型即將推出

    3月16日,上汽大眾舉辦以“人本科技”為主題的ID. ERA技術發(fā)布會,首次揭曉了ID. ERA 系列包括智能輔助駕駛在內的諸多核心技術亮點。會上,Momenta CEO曹旭東正式宣布:Momenta R7強化學習世界模型即將推出,并將全球首發(fā)搭載于上汽大眾全新旗艦SUV
    的頭像 發(fā)表于 03-17 13:57 ?1054次閱讀

    自動駕駛中常提的離線強化學習是什么?

    ,圖片源自:網絡 但強化學習本身是需要不斷試錯的,如果采用這種學習方式在真實道路不斷嘗試,一定會導致不可控的事故。于是就有人提出一種猜測,能不能利用已經存在的大量行駛日志、仿真記錄和人類駕駛數據,在訓練過程
    的頭像 發(fā)表于 02-07 09:21 ?276次閱讀
    自動駕駛中常提的離線<b class='flag-5'>強化學習</b>是什么?

    強化學習會讓自動駕駛模型學習更快嗎?

    [首發(fā)于智駕最前沿微信公眾號]在談及自動駕駛大模型訓練時,有的技術方案會采用模仿學習,而有些會采用強化學習。同樣作為大模型的訓練方式,強化學習有何不同?又有什么特點呢? 什么是強化學習
    的頭像 發(fā)表于 01-31 09:34 ?735次閱讀
    <b class='flag-5'>強化學習</b>會讓自動駕駛模型<b class='flag-5'>學習</b>更快嗎?

    蔚來世界模型NWM全新版本使用指南

    模型+閉環(huán)強化學習」研發(fā)范式應用于智能輔助駕駛研發(fā),將城區(qū)與高速領航輔助全面模型化,在選道、博弈、控車等基礎行車體驗層面有了大幅提升。
    的頭像 發(fā)表于 01-29 09:13 ?712次閱讀

    多智能體強化學習(MARL)核心概念與算法概覽

    (Multi-AgentReinforcementLearning,MARL),但是這樣會很快變得混亂。什么是多智能體強化學習MARL是多個決策者(智能體)在同一環(huán)境交互的強化學習。環(huán)境類型可
    的頭像 發(fā)表于 01-21 16:21 ?246次閱讀
    多智能體<b class='flag-5'>強化學習</b>(MARL)核心概念與算法概覽

    上汽別克至境E7首發(fā)搭載Momenta R6強化學習大模型

    別克至境家族迎來新成員——大五座智能SUV別克至境E7首發(fā)。新車將搭載Momenta R6強化學習大模型,帶來全場景的智能出行體驗。
    的頭像 發(fā)表于 01-12 16:23 ?400次閱讀

    如何訓練好自動駕駛端到端模型?

    ,確實會用到模仿學習(包括行為克隆、逆最優(yōu)控制/逆強化學習等)、強化學習(RL),以及近年來越來越受關注的離線強化學習(OfflineRL/BatchRL)這三類。 什么是“端到端”訓
    的頭像 發(fā)表于 12-08 16:31 ?1525次閱讀
    如何訓練好自動駕駛端到端模型?

    今日看點:智元推出真機強化學習;美國軟件公司SAS退出中國市場

    智元推出真機強化學習,機器人訓練周期從“數周”減至“數十分鐘” ? 近日,智元機器人宣布其研發(fā)的真機強化學習技術,已在與龍旗科技合作的驗證產線成功落地。據介紹,此次落地的真機強化學習
    發(fā)表于 11-05 09:44 ?1126次閱讀

    自動駕駛中常提的“強化學習”是個啥?

    [首發(fā)于智駕最前沿微信公眾號]在談及自動駕駛時,有些方案中會提到“強化學習(Reinforcement Learning,簡稱RL)”,強化學習是一類讓機器通過試錯來學會做決策的技術。簡單理解
    的頭像 發(fā)表于 10-23 09:00 ?767次閱讀
    自動駕駛中常提的“<b class='flag-5'>強化學習</b>”是個啥?

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+化學或生物方法實現AI

    21世紀是生命科學的世紀,生物技術的潛力將比電子技術更深遠----- 里卡多-戈蒂爾 半導體實現AI應該沒什么疑問了吧?化學、生物怎么實現AI呢? 生物大腦是一個由無數神經元通過突觸連接而成的復雜
    發(fā)表于 09-15 17:29

    NVIDIA Isaac Lab可用環(huán)境與強化學習腳本使用指南

    Lab 是一個適用于機器人學習的開源模塊化框架,其模塊化高保真仿真適用于各種訓練環(huán)境,Isaac Lab 同時支持模仿學習(模仿人類)和強化學習(在嘗試和錯誤中進行學習),為所有機器
    的頭像 發(fā)表于 07-14 15:29 ?2463次閱讀
    NVIDIA Isaac Lab可用環(huán)境與<b class='flag-5'>強化學習</b>腳本使用指南

    使用英偉達 NVIDIA Air 服務將仿真與現實世界連接

    優(yōu)勢之一是能夠將您的仿真與現實世界連接起來。通過啟用外部連接,可以在您的環(huán)境顯著增強其功能、性能和靈活性。通過集成云資源、API、第三方數據、協(xié)作工具或高級機器學習模型,它可提高仿真
    的頭像 發(fā)表于 07-07 19:41 ?1329次閱讀
    使用英偉達 NVIDIA Air 服務將仿真與<b class='flag-5'>現實</b><b class='flag-5'>世界</b>連接

    18個常用的強化學習算法整理:從基礎方法到高級模型的理論技術與代碼實現

    本來轉自:DeepHubIMBA本文系統(tǒng)講解從基本強化學習方法到高級技術(如PPO、A3C、PlaNet等)的實現原理與編碼過程,旨在通過理論結合代碼的方式,構建對強化學習算法的全面理解。為確保內容
    的頭像 發(fā)表于 04-23 13:22 ?1686次閱讀
    18個常用的<b class='flag-5'>強化學習</b>算法整理:從基礎方法到高級模型的理論技術與代碼<b class='flag-5'>實現</b>