91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

深度學習在圖像識別方面所面臨的挑戰(zhàn)以及具有未來價值的研究方向

新機器視覺 ? 來源:微軟研究院AI頭條 ? 作者:微軟研究院AI頭條 ? 2020-11-03 10:11 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

編者按:自1998年成立以來,微軟亞洲研究院一直致力于推動計算機科學領域的前沿技術發(fā)展。在建院20周年之際,我們特別邀請微軟亞洲研究院不同領域的專家共同撰寫“預見未來”系列文章,以各自領域的前瞻視角,從機器學習、計算機視覺、系統(tǒng)架構(gòu)、圖形學、自然語言處理等多個方向出發(fā),試圖描繪一幅未來科技藍圖。

在計算機視覺領域,圖像識別這幾年的發(fā)展突飛猛進,但在進一步廣泛應用之前,仍然有很多挑戰(zhàn)需要我們?nèi)ソ鉀Q。本文中,微軟亞洲研究院視覺計算組的研究員們?yōu)槲覀兪崂砟壳?a href="http://www.makelele.cn/v/tag/448/" target="_blank">深度學習在圖像識別方面所面臨的挑戰(zhàn)以及具有未來價值的研究方向。

識別圖像對人類來說是件極容易的事情,但是對機器而言,這也經(jīng)歷了漫長歲月。

在計算機視覺領域,圖像識別這幾年的發(fā)展突飛猛進。例如,在PASCAL VOC物體檢測基準測試中,檢測器的性能從平均準確率30%飆升到了今天的超過90%。對于圖像分類,在極具挑戰(zhàn)性的ImageNet數(shù)據(jù)集上,目前先進算法的表現(xiàn)甚至超過了人類。

圖像識別技術的高價值應用就發(fā)生在你我身邊,例如視頻監(jiān)控、自動駕駛和智能醫(yī)療等,而這些圖像識別最新進展的背后推動力是深度學習。深度學習的成功主要得益于三個方面:大規(guī)模數(shù)據(jù)集的產(chǎn)生、強有力的模型的發(fā)展以及可用的大量計算資源。對于各種各樣的圖像識別任務,精心設計的深度神經(jīng)網(wǎng)絡已經(jīng)遠遠超越了以前那些基于人工設計的圖像特征的方法。

盡管到目前為止深度學習在圖像識別方面已經(jīng)取得了巨大成功,但在它進一步廣泛應用之前,仍然有很多挑戰(zhàn)需要我們?nèi)ッ鎸?。與此同時,我們也看到了很多具有未來價值的研究方向。

挑戰(zhàn)一:如何提高模型的泛化能力

圖像識別技術在可以被廣泛應用之前,一個重要的挑戰(zhàn)是,怎樣才能知道一個模型對未曾出現(xiàn)過的場景仍然具有很好的泛化能力。

在目前的實踐中,數(shù)據(jù)集被隨機劃分為訓練集和測試集,模型也相應地在這個數(shù)據(jù)集上被訓練和評估。需要注意的是,在這種做法中,測試集擁有和訓練集一樣的數(shù)據(jù)分布,因為它們都是從具有相似場景內(nèi)容和成像條件的數(shù)據(jù)中采樣得到的。

然而,在實際應用中,測試圖像或許會來自不同于訓練時的數(shù)據(jù)分布。這些未曾出現(xiàn)過的數(shù)據(jù)可能會在視角、大小尺度、場景配置、相機屬性等方面與訓練數(shù)據(jù)不同。

一項研究表明,數(shù)據(jù)分布上的這種差異會導致各種深度網(wǎng)絡模型的準確率產(chǎn)生明顯的下降 。當前模型對數(shù)據(jù)分布自然變化的敏感性可能成為自動駕駛等關鍵應用的一個嚴重問題。

挑戰(zhàn)二:如何利用小規(guī)模和超大規(guī)模數(shù)據(jù)

我們需要面對的另一個重要的挑戰(zhàn)是如何更好地利用小規(guī)模訓練數(shù)據(jù)。雖然深度學習通過利用大量標注數(shù)據(jù)在各種任務中都取得了巨大的成功,但現(xiàn)有的技術通常會因為只有很少的標記實例可用而在小數(shù)據(jù)情景中崩潰。這個情景通常被稱為“少樣本學習(few-shot learning)”,并需要在實際應用中仔細考慮。例如,一個家庭機器人被期望可以完成這樣的任務:向它展示一個新物體,且只展示一次,之后它便可以識別這個物體。一個人可以很自然地完成這個任務,即使這個物體之后又被操作過了,例如一個毛毯被折疊起來了。如何賦予神經(jīng)網(wǎng)絡像人類這樣的泛化能力是一個開放的研究問題。

另一個極端是如何利用超大規(guī)模數(shù)據(jù)有效地提高識別算法的性能。對于像自動駕駛這樣的關鍵應用,圖像識別的出錯成本非常高。因此,研究者們創(chuàng)造出了非常龐大的數(shù)據(jù)集,這些數(shù)據(jù)集包含了數(shù)以億計的帶有豐富標注的圖像,并且他們希望通過利用這些數(shù)據(jù)使模型的準確度得到顯著提高。

然而,目前的算法并不能很好地利用這種超大規(guī)模數(shù)據(jù) 。在包含了3億張標注圖片的JFT數(shù)據(jù)集上,各種深度網(wǎng)絡的性能隨著訓練數(shù)據(jù)量的增加,僅僅呈現(xiàn)出對數(shù)級的提高(圖一)。在大規(guī)模數(shù)據(jù)的情況下,繼續(xù)增加訓練數(shù)據(jù)帶來的收益會變得越來越不明顯,這是一個有待解決的重要問題。

圖一目標檢測在JFT-300M數(shù)據(jù)集上的性能隨訓練樣例的增多呈對數(shù)倍的提高。x軸是對數(shù)尺度下的數(shù)據(jù)大小。y軸是目標檢測的性能。左圖使用COCO minival測試集上的mAP@[0.5,0.95] 指標,右圖使用PASCAL VOC 2007測試集上的mAP@0.5指標 。紅藍兩條曲線分別代表兩種不同的模型。

挑戰(zhàn)三:全面的場景理解

除了這些與訓練數(shù)據(jù)和泛化能力相關的問題外,還有一個重要的研究課題是全面的場景理解。除了識別和定位場景中的物體之外,人類還可以推斷物體和物體之間的關系、部分到整體的層次、物體的屬性和三維場景布局。

獲得對場景的更廣泛的理解將會幫助例如機器人交互這樣的應用,因為這些應用通常需要物體標識和位置以外的信息。這個任務不僅涉及到對場景的感知,而且還需要對現(xiàn)實世界的認知理解。要實現(xiàn)這一目標,我們還有很長的路要走。全面的場景理解的一個例子為全景分割,見圖二。

圖二 (a)原圖;(b)語義分割:識別天空、草地、道路等沒有固定形狀的不可數(shù)材質(zhì)(stuff),標記方法通常是給每個像素加上標簽 ;(c)實例分割:分割人、動物或工具等可數(shù)且獨立的物體實例(object instance),通常用包圍盒或分割掩碼標記目標;(d)全景分割:生成統(tǒng)一的、全局的分割圖像,既識別材質(zhì),也識別物體。

挑戰(zhàn)四:自動化網(wǎng)絡設計

最后一個值得一提的挑戰(zhàn)是使網(wǎng)絡設計自動化。近年來,圖像識別這一領域的重心從設計更好的特征轉(zhuǎn)向了設計更新的網(wǎng)絡架構(gòu)。然而,設計網(wǎng)絡架構(gòu)是一個冗長乏味的過程,它需要處理大量的超參數(shù)和設計選擇。調(diào)優(yōu)這些元素需要有經(jīng)驗的工程師花費大量的時間和精力。

更重要的是,一個任務的最優(yōu)架構(gòu)和另一個任務的最優(yōu)架構(gòu)可能是完全不同的。盡管我們對自動神經(jīng)架構(gòu)搜索的研究已經(jīng)開始了,但它們?nèi)匀惶幱谠缙陔A段并且僅適用于圖像分類任務。當前方法的搜索空間非常狹窄,因為它們尋找的是現(xiàn)有網(wǎng)絡模塊的局部最優(yōu)組合(例如深度可分離卷積和恒等連接),并且無法發(fā)現(xiàn)新的模塊。目前還不清楚這些現(xiàn)有的方法是否足以勝任更復雜的任務。

圖三 神經(jīng)架構(gòu)搜索算法的抽象圖解。搜索策略首先從事先定義好的搜索空間中選擇一個架構(gòu)A,這個構(gòu)架接著被評估策略進行評估,并將評估的A的性能傳遞給搜索策略 。

盡管在圖像識別領域存在上述諸多挑戰(zhàn),但我們?nèi)匀幌嘈派疃葘W習在圖像識別領域的巨大潛力。解決這些問題的機會比比皆是,下面我們看看這其中的幾個研究方向:

方向一:整合常識

圖像識別領域有一個重要的研究方向是將常識融入到深度學習中。目前,深度學習主要作為一種純粹的數(shù)據(jù)驅(qū)動技術被使用。在深度學習中,神經(jīng)網(wǎng)絡利用訓練集中的標注樣本學習一個非線性函數(shù),之后在測試時則將這個學習到的函數(shù)作用到圖片像素上。訓練集之外的信息則一點也沒有被用到。

相比之下,人類識別物體不僅基于已經(jīng)看到的樣本,還基于他們有關真實世界的常識。人們能夠?qū)λ麄兯吹降臇|西進行推理,以避免不合邏輯的識別結(jié)果。此外,當遇到新的或超出預期的東西時,人類可以迅速調(diào)整他們的知識來解釋這次的新經(jīng)歷。如何在深度網(wǎng)絡中獲取、表示常識以及利用常識進行推理是一個挑戰(zhàn)。

方向二:幾何推理

聯(lián)合執(zhí)行圖像識別和幾何推理則是另一個有潛力的方向。圖像識別的主要模型只考慮了二維外觀,而人類可以感知三維場景布局以及推斷其內(nèi)在的語義類別。三維布局不僅可以從雙目視覺中獲得,還可以從二維輸入的幾何推理中得到,就像人們看照片時所做的那樣。聯(lián)合圖像識別和幾何推理為雙方都提供了好處。

從幾何推理中確定的三維布局可以幫助在看不見的視角、變形和外觀的情況下引導識別。它還可以消除不合理的語義布局,并幫助識別由其三維形狀或功能定義的類別。例如,沙發(fā)中存在著巨大的類內(nèi)外觀差異。然而,它們擁有共同的屬性,可以幫助識別它們。比如它們都有一個水平面用來坐,一個背面用于支撐。另一方面,識別出來的語義可以規(guī)范化幾何推理的解空間。例如,如果一只狗在一個場景中被識別,它相應的三維結(jié)構(gòu)應該符合狗的三維形狀模型。

圖四 從視頻的兩個不同視角的幀重建出復雜動態(tài)場景的點云

方向三:對關系建模

關系建模也有很大的研究潛力。想要全面理解一個場景,對場景中存在的目標實體之間的關系和相互作用的建模非常重要(圖四)??紤]兩張圖片,每個圖片都包含一個人和一匹馬。如果一張展示的是騎著馬的人,另一張展示的是踩著人的馬,顯然這兩張圖片表達了完全不同的意思。此外,通過關系建模提取的底層場景結(jié)構(gòu)可以幫助補償當前深度學習方法因數(shù)據(jù)有限而出現(xiàn)的模糊不確定等問題。盡管人們已經(jīng)在努力解決關系建模這個問題,但這項研究仍然是初步的,并且還有很大的探索空間。

圖五 目標檢測中的關系網(wǎng)絡。表示物體的外表特征,表示物體的幾何特征

方向四:學習如何學習

這里還有一個值得一提的方向是元學習,它的目標是學習學習過程。這個課題最近引起了相當多的關注,而且神經(jīng)架構(gòu)搜索也可以被認為是它的一種應用。

然而,由于目前對學習過程建模的機制、表示和算法還比較初級,元學習的研究仍處于早期階段。以神經(jīng)架構(gòu)搜索為例,它只局限于現(xiàn)有網(wǎng)絡模塊的簡單組合。元學習者無法捕捉到創(chuàng)作新網(wǎng)絡模塊所需的微妙的直覺和敏銳的洞察力。隨著元學習的進步,自動架構(gòu)設計的潛力可能會被完全釋放出來,進而得到遠超手工設計的網(wǎng)絡結(jié)構(gòu)。

圖六 元學習近期的進展。自左至右分別為元學習的超參數(shù)優(yōu)化 、神經(jīng)架構(gòu)搜索 、少樣本圖像分類 。

這是一個激動人心的從事圖像識別的時代,一個充滿了推動領域發(fā)展、影響未來應用的機會時代。我們熱切盼望即將到來的進步,并期待這些新技術以深刻而神奇的方式改變我們的生活。

責任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 圖像識別
    +關注

    關注

    9

    文章

    534

    瀏覽量

    40076
  • 計算機視覺
    +關注

    關注

    9

    文章

    1715

    瀏覽量

    47647
  • 數(shù)據(jù)集

    關注

    4

    文章

    1236

    瀏覽量

    26211

原文標題:預見未來 | 圖像識別的未來:機遇與挑戰(zhàn)并存

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    如何讓ResNet50圖像識別模型光計算硬件上飛快運行

    你可能每天都在用圖像識別:手機相冊自動歸類、刷臉支付、甚至智能相機的寵物模式。但你有沒有想過,這些“一眼認出”的本領,是怎么教出來的?
    的頭像 發(fā)表于 03-09 14:21 ?192次閱讀

    ??低暤\花圖像識別智能系統(tǒng)推動水質(zhì)處理精細化管控

    為了解決這個痛點,??低曂瞥龅\花圖像識別智能系統(tǒng)——為水處理提質(zhì)增效,告別單一“肉眼判斷”時代。
    的頭像 發(fā)表于 01-10 16:08 ?2463次閱讀

    應用多光譜數(shù)字圖像區(qū)分苗期作物與雜草的研究進展

    處理與機器學習算法,為自動化、智能化的雜草管理提供了新思路。本文綜述該技術的研究現(xiàn)狀、核心方法、挑戰(zhàn)未來發(fā)展方向。 技術原理與方法 1.
    的頭像 發(fā)表于 10-21 15:25 ?376次閱讀

    開發(fā)無線通信系統(tǒng)面臨的設計挑戰(zhàn)

    的設計面臨多種挑戰(zhàn)。為了解決這些挑戰(zhàn),業(yè)界逐漸采用創(chuàng)新的技術解決方案,例如高效調(diào)變與編碼技術、動態(tài)頻譜管理、網(wǎng)狀網(wǎng)絡拓撲結(jié)構(gòu)以及先進的加密通信協(xié)議。此外,模塊化設計、可升級架構(gòu)與邊緣計
    的頭像 發(fā)表于 10-01 15:15 ?1w次閱讀

    射頻功率放大器賦能:雙極射頻溶脂實驗研究的創(chuàng)新應用

    的顯著提升,P=0.046)。后續(xù)可拓展至動態(tài)能量分配算法優(yōu)化,或結(jié)合AI圖像識別實現(xiàn)溶脂區(qū)域的精準定位,推動無創(chuàng)美容技術向“高效、低痛、個性化”方向發(fā)展。 實驗目的:本研究旨在針對傳統(tǒng)射頻溶脂技術存在的表皮熱損傷風險及溶
    的頭像 發(fā)表于 09-09 10:48 ?433次閱讀
    射頻功率放大器賦能:雙極射頻溶脂實驗<b class='flag-5'>研究</b>的創(chuàng)新應用

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+內(nèi)容總覽

    ,其中第一章是概論,主要介紹大模型浪潮下AI芯片的需求與挑戰(zhàn)。第二章和第三章分別介紹實現(xiàn)深度學習AI芯片的創(chuàng)新方法和架構(gòu)。以及一些新型的算法和思路。第四章是全面介紹半導體芯產(chǎn)業(yè)的前沿技
    發(fā)表于 09-05 15:10

    【Sipeed MaixCAM Pro開發(fā)板試用體驗】基于MaixCAM-Pro的AI生成圖像鑒別系統(tǒng)

    技術落地到了一個小小的邊緣設備MaixCAM-Pro上。它不僅展示了深度學習圖像取證領域的強大能力,更體現(xiàn)了邊緣AI現(xiàn)實世界中的應用
    發(fā)表于 08-21 13:59

    基于米爾MYC-YM90X安路飛龍DR1開發(fā)板儀表圖像識別系統(tǒng)開發(fā)

    識別速度方面,平均每張圖像識別時間為 30ms,滿足工業(yè)現(xiàn)場實時性要求。通過與其他基于不同平臺的儀表圖像識別系統(tǒng)對比,本系統(tǒng)
    發(fā)表于 08-17 21:29

    華怡豐推出ISC-B/C系列圖像識別傳感器

    工業(yè)自動化領域,精準、高效的視覺檢測是提升生產(chǎn)效率的關鍵。華怡豐全新推出的ISC-B/C系列圖像識別傳感器集高精度定位、測量算法與先進圖像處理技術于一體,為各類工業(yè)場景提供穩(wěn)定、可靠的解決方案!
    的頭像 發(fā)表于 08-15 11:36 ?1731次閱讀
    華怡豐推出ISC-B/C系列<b class='flag-5'>圖像識別</b>傳感器

    火車車號圖像識別系統(tǒng)如何應對不同光照條件下的識別問題?

    鐵路運輸管理中,準確識別火車車號是實現(xiàn)自動化車輛管理的關鍵環(huán)節(jié)。然而,實際應用場景中復雜多變的光照條件給車號識別帶來了巨大挑戰(zhàn)。現(xiàn)代火車車號圖像識
    的頭像 發(fā)表于 07-15 11:37 ?780次閱讀
    火車車號<b class='flag-5'>圖像識別</b>系統(tǒng)如何應對不同光照條件下的<b class='flag-5'>識別</b>問題?

    深度學習遇上嵌入式資源困境,特征空間如何破局?

    近年來,隨著人工智能(AI)技術的迅猛發(fā)展,深度學習(Deep Learning)成為最熱門的研究領域之一。語音識別、
    發(fā)表于 07-14 14:50 ?1255次閱讀
    當<b class='flag-5'>深度</b><b class='flag-5'>學習</b>遇上嵌入式資源困境,特征空間如何破局?

    任正非說 AI已經(jīng)確定是第四次工業(yè)革命 那么如何從容地加入進來呢?

    芯片、更高效的深度學習算法等。通過與參會的專家學者和企業(yè)代表交流,可以拓寬視野,尋找合作機會。 加入AI行業(yè)協(xié)會或者專業(yè)社群。在這些組織中,可以分享自己的見解和經(jīng)驗,也能從他人那里獲取有價值的信息。例如,
    發(fā)表于 07-08 17:44

    手持終端集裝箱識別系統(tǒng)的圖像識別技術

    行業(yè)提供了更靈活、精準的管理工具。 一、技術核心:OCR+AI深度融合 現(xiàn)代手持終端系統(tǒng)采用多模態(tài)圖像識別技術,結(jié)合深度學習算法,可快速捕捉并解析集裝箱號碼。其技術優(yōu)勢體現(xiàn)在: 1.
    的頭像 發(fā)表于 04-03 10:49 ?745次閱讀

    岸橋箱號識別系統(tǒng)如何工作?揭秘AI圖像識別技術!

    港口自動化升級的浪潮中,AI岸橋識別系統(tǒng)憑借前沿的圖像識別技術,成為提升碼頭作業(yè)效率的“智慧之眼”。那么,這套系統(tǒng)如何實現(xiàn)集裝箱信息的精準捕捉?又是如何通過AI技術替代傳統(tǒng)人工理貨?讓我們一探
    的頭像 發(fā)表于 04-02 09:45 ?762次閱讀