91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深度學(xué)習(xí)在計算機(jī)視覺領(lǐng)域的瓶頸已至

悟空智能科技 ? 來源:lq ? 2019-02-18 14:52 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

一片欣欣向榮背后,深度學(xué)習(xí)計算機(jī)視覺領(lǐng)域的瓶頸已至。提出這個觀點的,不是外人,正是計算機(jī)視覺奠基者之一,約翰霍普金斯大學(xué)教授Alan Yuille,他還是霍金的弟子。

他說,現(xiàn)在做AI不提神經(jīng)網(wǎng)絡(luò),成果都很難發(fā)表了,這不是個好勢頭。

如果人們只追神經(jīng)網(wǎng)絡(luò)的潮流,拋棄所有老方法;如果人們只會刷榜,不去想怎樣應(yīng)對深度網(wǎng)絡(luò)的局限性,這個領(lǐng)域可能很難有更好的發(fā)展。

面對深度學(xué)習(xí)的三大瓶頸,Yuille教授給出兩條應(yīng)對之道:靠組合模型培養(yǎng)泛化能力,用組合數(shù)據(jù)測試潛在的故障。

觀點發(fā)表之后,引發(fā)不少的共鳴。Reddit話題熱度快速超過200,學(xué)界業(yè)界的AI科學(xué)家們也紛紛在Twitter上轉(zhuǎn)發(fā)。

Reddit網(wǎng)友評論道,以Yuille教授的背景,他比別人更清楚在深度學(xué)習(xí)在計算機(jī)視覺領(lǐng)域現(xiàn)狀如何,為什么出現(xiàn)瓶頸。

深度學(xué)習(xí)的三大瓶頸

Yuille指出,深度學(xué)習(xí)雖然優(yōu)于其他技術(shù),但它不是通用的,經(jīng)過數(shù)年的發(fā)展,它的瓶頸已經(jīng)凸顯出來,主要有三個:

需要大量標(biāo)注數(shù)據(jù)

深度學(xué)習(xí)能夠?qū)崿F(xiàn)的前提是大量經(jīng)過標(biāo)注的數(shù)據(jù),這使得計算機(jī)視覺領(lǐng)域的研究人員傾向于在數(shù)據(jù)資源豐富的領(lǐng)域搞研究,而不是去重要的領(lǐng)域搞研究。

雖然有一些方法可以減少對數(shù)據(jù)的依賴,比如遷移學(xué)習(xí)、少樣本學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和弱監(jiān)督學(xué)習(xí)。但是到目前為止,它們的性能還沒法與監(jiān)督學(xué)習(xí)相比。

過度擬合基準(zhǔn)數(shù)據(jù)

深度神經(jīng)網(wǎng)絡(luò)在基準(zhǔn)數(shù)據(jù)集上表現(xiàn)很好,但在數(shù)據(jù)集之外的真實世界圖像上,效果就差強(qiáng)人意了。比如下圖就是一個失敗案例。

一個用ImageNet訓(xùn)練來識別沙發(fā)的深度神經(jīng)網(wǎng)絡(luò),如果沙發(fā)擺放角度特殊一點,就認(rèn)不出來了。這是因為,有些角度在ImageNet數(shù)據(jù)集里很少見。

在實際的應(yīng)用中, 如果深度網(wǎng)絡(luò)有偏差,將會帶來非常嚴(yán)重的后果。

要知道,用來訓(xùn)練自動駕駛系統(tǒng)的數(shù)據(jù)集中,基本上從來沒有坐在路中間的嬰兒。

對圖像變化過度敏感

深度神經(jīng)網(wǎng)絡(luò)對標(biāo)準(zhǔn)的對抗性攻擊很敏感,這些攻擊會對圖像造成人類難以察覺的變化,但可能會改變神經(jīng)網(wǎng)絡(luò)對一個物體的認(rèn)知。

而且,神經(jīng)網(wǎng)絡(luò)對場景的變化也過于敏感。比如下面的這張圖,在猴子圖片上放了吉他等物體,神經(jīng)網(wǎng)絡(luò)就將猴子識別成了人類,吉他識別成了鳥類。

背后的原因是,與猴子相比,人類更有可能攜帶吉他,與吉他相比,鳥類更容易出現(xiàn)在叢林中。

這種對場景的過度敏感,原因在于數(shù)據(jù)集的限制。

對于任何一個目標(biāo)對象,數(shù)據(jù)集中只有有限數(shù)量的場景。在實際的應(yīng)用中,神經(jīng)網(wǎng)絡(luò)會明顯偏向這些場景。

對于像深度神經(jīng)網(wǎng)絡(luò)這樣數(shù)據(jù)驅(qū)動的方法來說,很難捕捉到各種各樣的場景,以及各種各樣的干擾因素。

想讓深度神經(jīng)網(wǎng)絡(luò)處理所有的問題,似乎需要一個無窮大的數(shù)據(jù)集,這就給訓(xùn)練和測試數(shù)據(jù)集帶來了巨大的挑戰(zhàn)。

為什么數(shù)據(jù)集會不夠大?

這三大問題,還殺不死深度學(xué)習(xí),但它們都是需要警惕的信號

Yuille說,瓶頸背后的原因,就是一個叫做“組合爆炸”的概念:

就說視覺領(lǐng)域,真實世界的圖像,從組合學(xué)觀點來看太大量了。任何一個數(shù)據(jù)集,不管多大,都很難表達(dá)出現(xiàn)實的復(fù)雜程度。

那么,組合學(xué)意義上的大,是個什么概念?

大家想象一下,現(xiàn)在要搭建一個視覺場景:你有一本物體字典,要從字典里選出各種各樣的物體,把它們放到不同的位置上。

說起來容易,但每個人選擇物體、擺放物體的方法都不一樣,搭出的場景數(shù)量是可以指數(shù)增長的。

就算只有一個物體,場景還是能指數(shù)增長。因為,它可以用千奇百怪的方式被遮擋;物體所在的背景也有無窮多種。

人類的話,能夠自然而然適應(yīng)背景的變化;但深度神經(jīng)網(wǎng)絡(luò)對變化就比較敏感了,也更容易出錯:

△是的,前面出現(xiàn)過了

也不是所有視覺任務(wù)都會發(fā)生組合爆炸(Combinatorial Explosion) 。

比如,醫(yī)學(xué)影像就很適合用深度網(wǎng)絡(luò)來處理,因為背景少有變化:比如,胰腺通常都會靠近十二指腸。

但這樣的應(yīng)用并不常見,復(fù)雜多變的情況在現(xiàn)實中更普遍。如果沒有指數(shù)意義上的大數(shù)據(jù)集,就很難模擬真實情況。

而在有限的數(shù)據(jù)集上訓(xùn)練/測試出來的模型,會缺乏現(xiàn)實意義:因為數(shù)據(jù)集不夠大,代表不了真實的數(shù)據(jù)分布。

那么,就有兩個新問題需要重視:

1、怎樣在有限的數(shù)據(jù)集里訓(xùn)練,才能讓AI在復(fù)雜的真實世界里也有很好的表現(xiàn)?

2、怎樣在有限的數(shù)據(jù)集里,高效地給算法做測試,才能保證它們承受得了現(xiàn)實里大量數(shù)據(jù)的考驗?

組合爆炸如何應(yīng)對?

數(shù)據(jù)集是不會指數(shù)型長大的,所以要試試從別的地方突破。

可以訓(xùn)練一個組合模型,培養(yǎng)泛化能力。也可以用組合數(shù)據(jù)來測試模型,找出容易發(fā)生的故障。

總之,組合是關(guān)鍵。

訓(xùn)練組合模型

組合性 (Compositionality) 是指,一個復(fù)雜的表達(dá),它的意義可以通過各個組成部分的意義來決定。

這里,一個重要的假設(shè)就是,一個結(jié)構(gòu)是由許多更加基本的子結(jié)構(gòu),分層組成的;背后有一些語法規(guī)則。

這就表示,AI可以從有限的數(shù)據(jù)里,學(xué)會那些子結(jié)構(gòu)和語法,再泛化到各種各樣的情景里。

與深度網(wǎng)絡(luò)不同,組合模型 (Compositional Models) 需要結(jié)構(gòu)化的表示方式,才能讓結(jié)構(gòu)和子結(jié)構(gòu)更明確。

組合模型的推斷能力,可以延伸到AI見過的數(shù)據(jù)之外:推理、干預(yù)、診斷,以及基于現(xiàn)有知識結(jié)構(gòu)去回答不同的問題。

引用Stuart German的一句話:

The world is compositional or God exists.

世界是組合性的,不然,上帝就是存在的。

雖然,深度神經(jīng)網(wǎng)絡(luò)也有些組合性:高級特征是由低級特征的響應(yīng)組成的;但在本文所討論的意義上,深度神經(jīng)網(wǎng)絡(luò)并不是組合性的。

組合模型的優(yōu)點已經(jīng)在許多視覺任務(wù)里面體現(xiàn)了:比如2017年登上Science的、用來識別CAPTCHA驗證碼的模型。

還有一些理論上的優(yōu)點,比如可解釋,以及可以生成樣本。這樣一來,研究人員就更加容易發(fā)現(xiàn)錯誤在哪,而不像深度神經(jīng)網(wǎng)絡(luò)是個黑盒,誰也不知道里面發(fā)生了什么。

但要學(xué)習(xí)組合模型,并不容易。因為這里需要學(xué)習(xí)所有的組成部分和語法;

還有,如果要通過合成 (Synthesis) 來作分析,就需要有生成模型(Generative Models) 來生成物體和場景結(jié)構(gòu)。

就說圖像識別,除了人臉、字母等等少數(shù)幾種很有規(guī)律的圖案之外,其他物體還很難應(yīng)付:

從根本上說,要解決組合爆炸的問題,就要學(xué)習(xí)3D世界的因果模型(Causal Models) ,以及這些模型是如何生成圖像的。

有關(guān)人類嬰兒的研究顯示,他們是通過搭建因果模型來學(xué)習(xí)的,而這些模型可以預(yù)測他們生活環(huán)境的結(jié)構(gòu)。

對因果關(guān)系的理解,可以把從有限數(shù)據(jù)里學(xué)到的知識,有效擴(kuò)展到新場景里去。

在組合數(shù)據(jù)里測試模型

訓(xùn)練過后,該測試了。

前面說過,世界那么復(fù)雜,而我們只能在有限的數(shù)據(jù)上測試算法。

要處理組合數(shù)據(jù) (Combinatorial Data) ,博弈論是一種重要的方法:它專注于最壞情況(Worst Case) ,而不是平均情況 (Average Case) 。

就像前面討論過的那樣,如果數(shù)據(jù)集沒有覆蓋到問題的組合復(fù)雜性,用平均情況討論出的結(jié)果可能缺乏現(xiàn)實意義。

而關(guān)注最壞情況,在許多場景下都是有意義的:比如自動駕駛汽車的算法,比如癌癥診斷的算法。因為在這些場景下,算法故障可能帶來嚴(yán)重的后果。

如果,能在低維空間里捕捉到故障模式 (Failure Modes) ,比如立體視覺的危險因子 (Hazard Factors) ,就能用圖形和網(wǎng)格搜索來研究這些故障。

但是對于大多數(shù)視覺任務(wù),特別是那些涉及組合數(shù)據(jù)的任務(wù),通常不會有能找出幾個危險因子、隔離出來單獨研究的簡單情況。

△對抗攻擊:稍稍改變紋理,只影響AI識別,不影響人類

有種策略,是把標(biāo)準(zhǔn)對抗攻擊(Adversarial Attacks) 的概念擴(kuò)展到包含非局部結(jié)構(gòu)(Non-Local Structure) ,支持讓圖像或場景發(fā)生變化的復(fù)雜運(yùn)算,比如遮擋,比如改變物體表面的物理性質(zhì),但不要對人類的認(rèn)知造成重大改變。

把這樣的方法應(yīng)用到視覺算法上,還是很有挑戰(zhàn)性的。

不過,如果算法是用組合性(Compositional) 的思路來寫,清晰的結(jié)構(gòu)可能會給算法故障檢測帶來很大的幫助。

關(guān)于Alan Yuille

Alan Yuille,目前就職于約翰霍普金斯大學(xué),是認(rèn)知科學(xué)和計算機(jī)科學(xué)的杰出教授。

1976年,在劍橋大學(xué)數(shù)學(xué)專業(yè)獲得學(xué)士學(xué)位。之后師從霍金,在1981年獲得理論物理博士學(xué)位。

畢業(yè)之后,轉(zhuǎn)而開拓計算機(jī)視覺領(lǐng)域。并先后就職于麻省理工學(xué)院的人工智能實驗室,哈佛大學(xué)計算機(jī)系等等學(xué)術(shù)機(jī)構(gòu)。

2002年加入UCLA,之后擔(dān)任視覺識別與機(jī)器學(xué)習(xí)中心主任,同時也在心理學(xué)系,計算機(jī)系,精神病學(xué)和生物行為學(xué)系任客座教授。

2016年,加入約翰霍普金斯大學(xué)。

他曾獲得ICCV的最佳論文獎,2012年,擔(dān)任計算機(jī)視覺頂級會議CVPR的主席,計算機(jī)視覺界的奠基人之一。

此外,Alan Yuille也直接影響了中國AI的發(fā)展,其嫡系弟子朱瓏博士學(xué)成后,回國創(chuàng)辦了AI公司依圖科技,現(xiàn)在也是中國CV領(lǐng)域最知名的創(chuàng)業(yè)公司之一。

這篇文章中的觀點,出自Yuille在2018年5月發(fā)表的一篇論文,共同作者是他的博士生Chenxi Liu,在今年一月份,他們對這篇論文進(jìn)行了更新。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:三大瓶頸扼住深度學(xué)習(xí)咽喉

文章出處:【微信號:WUKOOAI,微信公眾號:悟空智能科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    上海計算機(jī)視覺企業(yè)行學(xué)術(shù)沙龍走進(jìn)西井科技

    12月5日,由中國圖象圖形學(xué)學(xué)會青年工作委員會(下簡稱“青工委”)、上海市計算機(jī)學(xué)會計算機(jī)視覺專委會(下簡稱“專委會”)聯(lián)合主辦,上海西井科技股份有限公司、江蘇路街道商會承辦的“上海計算機(jī)
    的頭像 發(fā)表于 12-16 15:39 ?589次閱讀

    【團(tuán)購】獨家全套珍藏!龍哥LabVIEW視覺深度學(xué)習(xí)實戰(zhàn)課(11大系列課程,共5000+分鐘)

    行業(yè)市場具備深度學(xué)習(xí)能力的視覺系統(tǒng)占比突破40%,催生大量復(fù)合型技術(shù)崗位需求: ? 崗位缺口:視覺算法工程師全國缺口15萬+,缺陷檢測專項
    發(fā)表于 12-04 09:28

    【團(tuán)購】獨家全套珍藏!龍哥LabVIEW視覺深度學(xué)習(xí)實戰(zhàn)課程(11大系列課程,共5000+分鐘)

    行業(yè)市場具備深度學(xué)習(xí)能力的視覺系統(tǒng)占比突破40%,催生大量復(fù)合型技術(shù)崗位需求: ? 崗位缺口:視覺算法工程師全國缺口15萬+,缺陷檢測專項
    發(fā)表于 12-03 13:50

    工控機(jī)與普通計算機(jī)的核心差異解析

    工業(yè)自動化和智能制造領(lǐng)域,計算機(jī)設(shè)備作為核心控制單元,其選擇直接影響整個系統(tǒng)的穩(wěn)定性與可靠性。工控機(jī)與普通計算機(jī)雖同屬計算設(shè)備,但其設(shè)計目
    的頭像 發(fā)表于 11-25 14:45 ?1787次閱讀
    工控機(jī)與普通<b class='flag-5'>計算機(jī)</b>的核心差異解析

    龍芯中科斬獲2025中國工業(yè)計算機(jī)大會兩項殊榮

    近日,2025中國工業(yè)計算機(jī)大會(CCF ICCC 2025)云南昆明召開。本次大會由中國計算機(jī)學(xué)會主辦,中國計算機(jī)學(xué)會工業(yè)控制計算機(jī)專委
    的頭像 發(fā)表于 11-10 17:35 ?665次閱讀

    2025中國計算機(jī)大會DPU技術(shù)論壇成功舉辦

    近日,備受矚目的第22屆中國計算機(jī)大會(CNCC2025)哈爾濱開幕。本屆大會注冊人數(shù)突破1.2萬人,匯聚了來自全球計算機(jī)領(lǐng)域的頂尖學(xué)者、產(chǎn)業(yè)領(lǐng)袖、青年學(xué)子及國際組織代表。大會以“數(shù)
    的頭像 發(fā)表于 11-02 09:29 ?718次閱讀

    摩爾線程亮相2025中國計算機(jī)大會

    10月23日25日,第二十二屆中國計算機(jī)大會(CNCC2025)哈爾濱成功舉辦。大會以“數(shù)智賦能,無限可能”為主題,匯聚了來自全球計算機(jī)領(lǐng)域
    的頭像 發(fā)表于 10-27 17:46 ?1003次閱讀

    STM32計算機(jī)視覺開發(fā)套件:B-CAMS-IMX攝像頭模塊技術(shù)解析

    CMOS RGB圖像傳感器、ISM330DLC慣性運(yùn)動單元和VL53L5CX ToF傳感器。B-CAMS-IMX可用于任何具有MIPI CSI-2? 接口(帶22引腳FFC連接器)的STM32開發(fā)板,輕松STM32微控制器和微處理器上實現(xiàn)全功能計算機(jī)
    的頭像 發(fā)表于 10-20 09:46 ?1287次閱讀
    STM32<b class='flag-5'>計算機(jī)</b><b class='flag-5'>視覺</b>開發(fā)套件:B-CAMS-IMX攝像頭模塊技術(shù)解析

    如何在機(jī)器視覺中部署深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

    人士而言往往難以理解,人們也常常誤以為需要扎實的編程技能才能真正掌握并合理使用這項技術(shù)。事實上,這種印象忽視了該技術(shù)為機(jī)器視覺(乃至生產(chǎn)自動化)帶來的潛力,因為深度學(xué)習(xí)并非只屬于計算機(jī)
    的頭像 發(fā)表于 09-10 17:38 ?902次閱讀
    如何在機(jī)器<b class='flag-5'>視覺</b>中部署<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>神經(jīng)網(wǎng)絡(luò)

    易控智駕榮獲計算機(jī)視覺頂會CVPR 2025認(rèn)可

    近日,2025年國際計算機(jī)視覺與模式識別頂級會議(IEEE/CVF Conference on Computer Vision and Pattern Recognition,CVPR 2025)美國田納西州納什維爾召開。
    的頭像 發(fā)表于 07-29 16:54 ?1222次閱讀

    自動化計算機(jī)經(jīng)過加固后有什么好處?

    讓我們討論一下部署堅固的自動化計算機(jī)的一些好處。1.溫度范圍寬自動化計算機(jī)經(jīng)過工程設(shè)計,配備了支持寬溫度范圍的組件,使自動化計算解決方案能夠各種不同的極端環(huán)境中運(yùn)行。自動化
    的頭像 發(fā)表于 07-21 16:44 ?628次閱讀
    自動化<b class='flag-5'>計算機(jī)</b>經(jīng)過加固后有什么好處?

    自動化計算機(jī)的功能與用途

    工業(yè)自動化是指利用自動化計算機(jī)來控制工業(yè)環(huán)境中的流程、機(jī)器人和機(jī)械,以制造產(chǎn)品或其部件。工業(yè)自動化的目的是提高生產(chǎn)率、增加靈活性,并提升制造過程的質(zhì)量。工業(yè)自動化汽車制造中體現(xiàn)得最為明顯,其中許多
    的頭像 發(fā)表于 07-15 16:32 ?747次閱讀
    自動化<b class='flag-5'>計算機(jī)</b>的功能與用途

    工業(yè)計算機(jī)與商用計算機(jī)的區(qū)別有哪些

    工業(yè)計算機(jī)是一種專為工廠和工業(yè)環(huán)境設(shè)計的計算系統(tǒng),具有高可靠性和穩(wěn)定性,能夠應(yīng)對惡劣環(huán)境下的自動化、制造和機(jī)器人操作。其特點包括無風(fēng)扇散熱技術(shù)、無電纜連接和防塵防水設(shè)計,使其各種工業(yè)自動化場景中
    的頭像 發(fā)表于 07-10 16:36 ?752次閱讀
    工業(yè)<b class='flag-5'>計算機(jī)</b>與商用<b class='flag-5'>計算機(jī)</b>的區(qū)別有哪些

    一文帶你了解工業(yè)計算機(jī)尺寸

    一項艱巨的任務(wù)。本博客將指導(dǎo)您了解關(guān)鍵的工業(yè)計算機(jī)尺寸、使用案例。關(guān)鍵工業(yè)計算機(jī)外形要素及其使用案例一、工業(yè)微型PC尺寸范圍:寬度:100毫米-180毫米深度:10
    的頭像 發(fā)表于 04-24 13:35 ?1047次閱讀
    一文帶你了解工業(yè)<b class='flag-5'>計算機(jī)</b>尺寸

    英飛凌邊緣AI平臺通過Ultralytics YOLO模型增加對計算機(jī)視覺的支持

    計算機(jī)視覺的支持,擴(kuò)大了當(dāng)前對音頻、雷達(dá)和其他時間序列信號數(shù)據(jù)的支持范圍。增加這項支持后,該平臺將能夠用于開發(fā)低功耗、低內(nèi)存的邊緣AI視覺模型。這將給諸多應(yīng)用
    的頭像 發(fā)表于 03-11 15:11 ?816次閱讀
    英飛凌邊緣AI平臺通過Ultralytics YOLO模型增加對<b class='flag-5'>計算機(jī)</b><b class='flag-5'>視覺</b>的支持