色情一区二区三区,韩日三级专区黄片免费卡

迄今為止，大部分人工智能落地的技術(shù)都在預(yù)測技術(shù)方面，而不是決策技術(shù)，目前決策技術(shù)的應(yīng)用落地還很少。對此，俞揚以診斷報告作比喻，形象地指出，日常生活中想達到目的，比如看到診斷報告識別問題，我們不可能等著病的發(fā)生，而是想辦法將病治愈。但是決策方面落地的技術(shù)非常少，據(jù)俞揚介紹，以往決策的途徑可以分成以下三種。

南京大學(xué)人工智能學(xué)院俞揚教授

第一種是寫規(guī)則，即通過程序員將決策方式或企業(yè)決策的解決方法寫入系統(tǒng)中，這是決策技術(shù)的現(xiàn)狀；第二種是做規(guī)劃，將要解決的目標寫下來，用機器找到?jīng)Q策，雖然機器自動解決問題，但問題的定義還是由人來做，一旦定義出現(xiàn)錯誤，定義的和真實的情況不符合，那么系統(tǒng)就沒有任何途徑能夠修正這個定義。第三種途徑是基于學(xué)習(xí)的途徑，即基于數(shù)據(jù)驅(qū)動的途徑，通過環(huán)境感知來定義應(yīng)該解決什么樣的問題。俞揚表示，第三種方法看起來更有可能解決真實環(huán)境中做決策的問題。

機器學(xué)習(xí)的三大技術(shù)

若將機器做決策放在學(xué)習(xí)的框架上，則可以分為無監(jiān)督學(xué)習(xí)、監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)三大類技術(shù)。其中，無監(jiān)督學(xué)習(xí)的數(shù)據(jù)沒有任何標記，它所做的事是分析數(shù)據(jù)，從中發(fā)現(xiàn)數(shù)據(jù)結(jié)構(gòu)是什么。而監(jiān)督學(xué)習(xí)是目前落地最多的技術(shù)，通過很多標注的數(shù)據(jù)，告訴機器圖像中是什么樣的對象，讓機器可以在數(shù)據(jù)中預(yù)測、識別到對象。

強化學(xué)習(xí)是機器學(xué)習(xí)中的一個重要研究領(lǐng)域，從大量數(shù)據(jù)中反復(fù)學(xué)習(xí)找到最優(yōu)解，只從最終產(chǎn)生的結(jié)果來倒推模型應(yīng)該是什么，正好對應(yīng)做決策。俞揚指出，實際上這兩年強化學(xué)習(xí)在做決策方面有很大突破，突破主要是在規(guī)模上，此前大熱的AlphaGo與AlphaGo Zero都是經(jīng)過深度強化學(xué)習(xí)后，在游戲中“碾壓”了人類。

強化學(xué)習(xí)面臨的困境

雖然強化學(xué)習(xí)發(fā)展較快，但目前所有的成功案例都發(fā)生在電子環(huán)境下。俞揚認為，主要原因是現(xiàn)在的算法效率太低。因此也出現(xiàn)很多批評的聲音，說強化學(xué)習(xí)，特別在引入深度學(xué)習(xí)后，需要的數(shù)據(jù)樣本量更大，導(dǎo)致這種方法無法直接應(yīng)用于實際中。

俞揚指出，在很多傳統(tǒng)工業(yè)，特別是機器人設(shè)計中，大家可能會很熟悉做模擬器。模擬器通常用于高成本的行業(yè)，在傳統(tǒng)工業(yè)里，為了減少和真正環(huán)境的交互，通常在模擬器里先進行設(shè)計。那么，能否讓機器在模擬器中學(xué)習(xí)決策呢？俞揚以購物平臺為例，指出機器在了解買家行為的過程中，通過多代理模仿學(xué)習(xí)，根據(jù)買家數(shù)據(jù)進行觀察再行動。他表示，機器學(xué)習(xí)決策所面臨的環(huán)境更大程度上更困難，因為它是一個開放環(huán)境，而不是和固定的物理定律打交道。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴