91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

DeepMind用新方法讓智能體在復(fù)雜的非對(duì)稱博弈里找到納什均衡

mK5P_AItists ? 2018-01-19 10:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

隨著人工智能系統(tǒng)在現(xiàn)實(shí)世界中扮演越來(lái)越重要的角色,理解不同的系統(tǒng)如何相互作用至關(guān)重要。

剛剛,DeepMind發(fā)表了一篇名為Symmetric Decomposition of Asymmetric Games的論文。在這篇論文中,DeepMind研究人員采用了博弈論的分支試圖這個(gè)問(wèn)題。

研究人員重點(diǎn)觀察了在德州撲克,棋盤(pán)游戲蘇格蘭特警等非對(duì)稱博弈中,兩個(gè)智能體會(huì)有怎樣的行為和表現(xiàn)。

用這種新方法,智能體能簡(jiǎn)單快速地在復(fù)雜的非對(duì)稱博弈里找到納什均衡。

博弈與納什均衡

博弈論屬于數(shù)學(xué)的一個(gè)分支,用于分析競(jìng)爭(zhēng)環(huán)境下決策者的策略。

這套理論適用于人類(lèi),動(dòng)物,以及超過(guò)一個(gè)AI時(shí)的多AI環(huán)境。比如說(shuō)家里多個(gè)機(jī)器人同時(shí)打掃房間。

非對(duì)稱信息博弈模擬了真實(shí)世界的場(chǎng)景,就像拍賣(mài)時(shí)買(mǎi)家和賣(mài)家的心態(tài)和動(dòng)機(jī)不同。我們得到的結(jié)果給了我們獨(dú)道的見(jiàn)解,以及極其簡(jiǎn)潔的方式分析他們。

非對(duì)稱博弈的特點(diǎn)是每方玩家都有不同的策略、目標(biāo)和獎(jiǎng)勵(lì)。比如說(shuō)博弈論研究里最常見(jiàn)的協(xié)調(diào)博弈,性別之戰(zhàn)。

一般來(lái)說(shuō),多AI系統(tǒng)的進(jìn)化動(dòng)態(tài)過(guò)程是用簡(jiǎn)單的對(duì)稱博弈來(lái)分析,比如說(shuō)經(jīng)典的囚徒困境,兩方玩家都可以采取同樣的行動(dòng)。即使這些博弈能夠?yàn)槎郃I系統(tǒng)提供有效的洞見(jiàn),告訴我們?nèi)绾尾僮魉型婕也拍塬@得最優(yōu)結(jié)果(這就是納什均衡),但他們并不能模擬出所有的情況。

DeepMind的新的方法,能簡(jiǎn)單快速地在復(fù)雜的非對(duì)稱博弈里找到納什均衡。

雖然目前這套理論的重點(diǎn)還在如何應(yīng)用在多個(gè)AI系統(tǒng)的互動(dòng)中,但研究人員相信這個(gè)結(jié)論也可以用于經(jīng)濟(jì)、進(jìn)化生物學(xué)、經(jīng)驗(yàn)博弈論中。

歌劇還是電影?

舉個(gè)例子吧。

兩名玩家需要決定晚上是去看歌劇還是電影,不巧的是,其中一名偏好歌劇而另一名偏好電影。這是場(chǎng)不對(duì)稱的游戲,雖然兩名玩家可以任意選擇,但是根據(jù)玩家的喜好,每個(gè)玩家得到獎(jiǎng)勵(lì)是不同的。

但是,為了維持他們的友誼,或者我們稱為一種平衡,雙方需要選擇相同的活動(dòng),因此單獨(dú)行動(dòng)的回報(bào)為零。

這個(gè)游戲有三個(gè)平衡:(i)雙方都去看歌劇,(ii)雙方去看電影,(iii)還有一個(gè)混合選項(xiàng),每個(gè)玩家在五分之三的時(shí)間里選擇他們喜歡的選項(xiàng)。

這個(gè)“不穩(wěn)定的”的最后一個(gè)選項(xiàng),就是用了將不對(duì)稱游戲簡(jiǎn)化或分解成它的對(duì)稱對(duì)等體的方法。

我們可以將這種游戲的本質(zhì)想象成,每個(gè)玩家的獎(jiǎng)勵(lì)分?jǐn)?shù)表是一個(gè)獨(dú)立對(duì)稱的雙玩家游戲,它的平衡點(diǎn)與原始的不對(duì)稱游戲一致。

在下面這張圖中,納什均衡是通過(guò)兩個(gè)對(duì)等點(diǎn)得到的,幫助我們快速確定不對(duì)稱博弈中的最優(yōu)策略(a)。反過(guò)來(lái)說(shuō),利用不對(duì)稱博弈來(lái)確定對(duì)稱對(duì)等點(diǎn)的均衡。

DeepMind用新方法讓智能體在復(fù)雜的非對(duì)稱博弈里找到納什均衡

△紅點(diǎn)代表納什均衡。對(duì)于不對(duì)稱的游戲(a),納什均衡可以很容易地從(b)和(c)兩張對(duì)稱圖中得到。上述圖中,x、y軸分別為玩家1、2選擇歌劇的概率

好消息是,這種方法也適用于其他游戲,比如Leduc撲克等。這些方法應(yīng)用了一個(gè)簡(jiǎn)單的數(shù)學(xué)原理,從而快速直接分析不對(duì)稱游戲。我們希望它也能幫助我們理解各種動(dòng)態(tài)系統(tǒng),包括多代理環(huán)境。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 博弈論
    +關(guān)注

    關(guān)注

    0

    文章

    8

    瀏覽量

    7433
  • DeepMind
    +關(guān)注

    關(guān)注

    0

    文章

    131

    瀏覽量

    12305
  • 納什均衡
    +關(guān)注

    關(guān)注

    0

    文章

    2

    瀏覽量

    1256

原文標(biāo)題:AI博弈論:DeepMind讓智能體在非對(duì)稱博弈中找納什均衡

文章出處:【微信號(hào):AItists,微信公眾號(hào):人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    matlab 如何計(jì)算均衡

    如題 怎樣使用matlab 實(shí)現(xiàn)計(jì)算n人非合作博弈均衡結(jié)果?本人新手中的菜鳥(niǎo) 在網(wǎng)上下了一個(gè)代碼文件,并找了文章,代碼文件按自己的理
    發(fā)表于 03-26 10:10

    蘋(píng)果獲得Macbook Pro非對(duì)稱散熱風(fēng)扇設(shè)計(jì)專利

    中去,起到減小噪音的目的,音調(diào)BPF上從聽(tīng)覺(jué)中用戶感覺(jué)噪音變小。令風(fēng)扇的葉片分布處于不均衡狀態(tài),并保持葉輪的平衡,能夠起到很好的降低噪音的效果?!备鶕?jù)專利文件所說(shuō),對(duì)風(fēng)扇的葉片分布和角度進(jìn)行重新排列
    發(fā)表于 12-23 10:30

    運(yùn)用于matlab中的矩陣求逆的新方法有哪些?。ú皇呛瘮?shù)inv)

    運(yùn)用于matlab中的矩陣求逆的新方法有哪些啊或者考慮矩陣的特殊性質(zhì),比如稀疏、對(duì)稱性,有哪些求逆的新方法可以運(yùn)用???求助!
    發(fā)表于 01-21 17:10

    轉(zhuǎn)帖:完全Proteus8.0編譯測(cè)試ARM Cortex的最新方法

    本帖最后由 鼓山 于 2013-7-4 14:31 編輯 俺在網(wǎng)上找到的基于Proteus 8.0開(kāi)發(fā)LM3S ARM Cortex的新方法給碼農(nóng)們分享!
    發(fā)表于 07-04 14:00

    測(cè)電阻,新方法,不加激勵(lì)

    測(cè)電阻,新方法,不加激勵(lì)的辦法有沒(méi)有。
    發(fā)表于 03-26 10:44

    一種標(biāo)定陀螺儀的新方法

    一種標(biāo)定陀螺儀的新方法
    發(fā)表于 08-17 12:17

    求大佬分享按鍵掃描的新方法

    求大佬分享按鍵掃描的新方法
    發(fā)表于 01-17 06:50

    基于博弈論的功率控制策略及其牛頓迭代算法

    某系統(tǒng)碼相關(guān)測(cè)距中,每一個(gè)飛機(jī)的詢問(wèn)信號(hào)都可能會(huì)成為其他飛機(jī)的干擾。在有限的可用功率下,就需要一個(gè)可靠和高效的功率控制策略。博弈(非合作博弈
    發(fā)表于 01-29 14:09 ?21次下載

    基于FlipIt模型的非對(duì)稱信息條件下攻防博弈模型

    雙方對(duì)目標(biāo)資源的交替控制;然后,考慮到攻防雙方博弈中觀察到的反饋信息的不對(duì)稱性以及防御效果的不徹底性,給出了防御者采取更新策略時(shí)攻防雙方的收益模型及最優(yōu)策略的條件,同時(shí)給出并分別證
    發(fā)表于 11-28 15:06 ?0次下載
    基于FlipIt模型的<b class='flag-5'>非對(duì)稱</b>信息條件下攻防<b class='flag-5'>博弈</b>模型

    北卡羅萊州立大學(xué)開(kāi)發(fā)了一種直接印刷柔性電子產(chǎn)品金屬電路的新方法

    美國(guó)北卡羅萊州立大學(xué)的一個(gè)研究小組宣布,他們開(kāi)發(fā)了一種直接印刷柔性電子產(chǎn)品金屬電路的新方法。
    的頭像 發(fā)表于 01-23 11:31 ?5166次閱讀

    AD采集的新方法資料分享

    AD采集的新方法
    發(fā)表于 03-23 09:44 ?10次下載

    Daskalakis憑借自己博弈論、均衡和機(jī)器學(xué)習(xí)領(lǐng)域的貢獻(xiàn)獲得“奈望林獎(jiǎng)”

    一個(gè)機(jī)緣巧合,Daskalakis聽(tīng)了理論計(jì)算機(jī)科學(xué)家Christos Papadimitriou的一次演講,這給他留下了非常深刻的印象。除了其他內(nèi)容,演講中重點(diǎn)提及的還有均衡,這是博弈
    的頭像 發(fā)表于 08-05 08:52 ?6354次閱讀

    華裔女科學(xué)家找到了精確測(cè)量重力的新方法

    科學(xué)家們找到新方法來(lái)通過(guò)激光、原子來(lái)測(cè)量重力。這種辦法精度極高,甚至能測(cè)量你的微小體重對(duì)重力的影響。
    的頭像 發(fā)表于 05-19 15:08 ?3358次閱讀

    基于矩陣半張量積的時(shí)滯演化擁塞博弈鎮(zhèn)定方法

    擁塞博弈的動(dòng)態(tài)行為,證明該博弈的不動(dòng)點(diǎn)即為均衡點(diǎn),給出其開(kāi)環(huán)控制和狀態(tài)反饋控制下全局鎮(zhèn)定到
    發(fā)表于 03-30 11:47 ?23次下載
    基于矩陣半張量積的時(shí)滯演化擁塞<b class='flag-5'>博弈</b>鎮(zhèn)定<b class='flag-5'>方法</b>

    VLSI系統(tǒng)設(shè)計(jì)的最新方法

    電子發(fā)燒友網(wǎng)站提供《VLSI系統(tǒng)設(shè)計(jì)的最新方法.pdf》資料免費(fèi)下載
    發(fā)表于 11-20 11:10 ?0次下載
    VLSI系統(tǒng)設(shè)計(jì)的最<b class='flag-5'>新方法</b>