精品国产v无码大片在线看,成人无码精品人人干人人橾

7月28-29日，由中國人工智能學會和深圳市羅湖區(qū)人民政府共同主辦，馬上科普承辦的“2018 中國人工智能大會（CCAI 2018）”完美收官。

香港中文大學終身教授，騰訊優(yōu)圖實驗室杰出科學家，IEEE Fellow賈佳亞作題為《大規(guī)模圖像理解、分割新進展》的主題演講。

以下是根據(jù)速記整理的大會講座實錄。

賈佳亞香港中文大學終身教授，騰訊優(yōu)圖實驗室杰出科學家，IEEE Fellow

目前，機器視覺已在下面幾個領(lǐng)域得到了成功的應用。

1. 在游戲領(lǐng)域。機器視覺可以知道一個人的形體、骨骼、結(jié)構(gòu)，可以制作出很多新的游戲。這個市場非常大。

2. 安防領(lǐng)域。傳統(tǒng)上需要看很多的攝像頭，需要很多人力去審查，現(xiàn)在基于機器視覺技術(shù)，日常的判別不需要人去看，電腦就可以完成。

3. 娛樂領(lǐng)域。視覺技術(shù)可以創(chuàng)造出非常漂亮的人物，改變每一個人的外觀。基于此，騰訊做了很多的娛樂應用，如QQ里就有非常多有趣的玩法。

4. 醫(yī)療領(lǐng)域。從被醫(yī)生主導到現(xiàn)在電腦技術(shù)和人工智能技術(shù)，病變和異?？梢宰詣訖z測出來，這也是計算機視覺可實用的一部分。

5.自動駕駛領(lǐng)域。計算機視覺是其中一個基本模塊。

我今天演講的主要部分是偏技術(shù)的，在演講之前，給大家看一些有趣的東西。

第一個是是超分辨率的結(jié)果圖（見上圖）。這是一個老問題，研究了幾十年。我們?nèi)ツ暝贗CCV發(fā)表的一篇論文又在之前的基礎(chǔ)上極大地提高了速度和結(jié)果的分辨率，在一個非常模糊的圖片中生成清晰的細節(jié)。系統(tǒng)很簡單，它對在網(wǎng)絡(luò)上需要大量傳輸?shù)膱D像或者視頻，可以極大地減少帶寬流量需求，節(jié)省成本。

第二個是我們團隊研究了多年的Deblurring去模糊。當大家看到像上面這張模糊照片時第一個反應是把這張圖像刪除，節(jié)省空間?，F(xiàn)在我們的技術(shù)可以“變廢為寶”，從這些圖像里解析出車牌、人臉、字符，以及其他很多清晰細節(jié)。去模糊是圖像處理里比較難的問題之一，因為它是一個高度ill-posed(病態(tài))的問題，已經(jīng)研究了十年。最近我們又開發(fā)出了新的方法，把結(jié)果做的更好。

第三個是我們和Intel的合作者今年在CVPR大會上發(fā)表的一個有趣的圖像生成系統(tǒng)。給出一個簡單的畫板（見上圖），可以生成非常真實的圖像結(jié)果。這個過程可以用歷史上的文藝發(fā)展階段來理解。人類經(jīng)歷了一個從寫實派到抽象派的發(fā)展過程?，F(xiàn)在電腦技術(shù)創(chuàng)造還處在一個連寫實派都做不好的階段 —— 從一個任意的簡單構(gòu)思到電腦幫你生成一張高質(zhì)量的相片還是非常難做到。這是其中一個我們要攻克的難關(guān)。

第四個就是我們?nèi)ツ曜隽艘粋€Make-UP Go（一鍵卸妝）的系統(tǒng)。其目標是把上了妝（如上面左圖所示）的和實際樣子差別太大的圖片回復到上妝之前的容貌。這個系統(tǒng)在未婚男士群體中需求量很大。

基于這個系統(tǒng)和改進，我們今年發(fā)表了一個Face edit（臉部編輯）系統(tǒng)。它可以任意改變面部的表情和真實容貌，可以加胡子,去除胡子；變年輕，變老；變哭為笑。這些效果都非常真實，就像一個人真實面容一樣。上圖示一個主持人的視頻，我們可以隨便改變他的樣子，比如留英俊的小胡子，年輕10歲；或者看到他20年后的樣貌。

以上的技術(shù)和效果都叫做前端視覺，就是可以讓人直接看到很多效果的一類視覺研究。很有趣，用了很多時間研發(fā)。加入騰訊以后，我發(fā)現(xiàn)前端視覺有非常多的應用，可以給不同的團隊和產(chǎn)品賦能。所以在這一年時間里，騰訊產(chǎn)品里多了很多以這樣的技術(shù)為基礎(chǔ)的產(chǎn)品應用。

除了給大家列舉的這些前段視覺的例子，今天我主要講的技術(shù)叫做語義分割，它是計算機視覺里最難的技術(shù)之一。同時這類研究我也稱之為后端視覺。因為它們是基本工具，不能直接變成視覺效果。但是這些工具確實非常有用，基本上很多應用都必須用到，這是為什么叫它后端視覺的原因。

從2016年到今天，3年時間里,我們做了大量的圖像語義分割研究。它的目標是把一幅圖像里的每個像素分到一個類別里，比如人、車或者道路。這是一個非常難的問題，需要分辨每個像素是什么類別。而總類別有80個以上，這就使得合理的分割具有很大的歧義性和巨大的搜索空間。

下面是語義分割技術(shù)的應用范圍。

? 可以分辨哪些是人、車、樹和房屋，是自動駕駛和道路理解里很重要的部分。

? 可以把提取出來的物體輪廓做增強，幫助很多有視力疾病的人，使他們生活變得更加便利。

? 智能醫(yī)療的核心部分是病理圖像的理解。其中最關(guān)鍵的部分就是語義分割，找到病變的圖像部分，或者分析心血管的內(nèi)部結(jié)構(gòu)信息。這對于醫(yī)生的幫助非常大，可以節(jié)省時間或者提高診斷的準確度。

? 衛(wèi)星圖像理解。可以自動定位出不同的人、樹、房屋；也可以在衛(wèi)星圖像里找到道路，以及更加復雜的環(huán)境布局。

? 可以把圖像或者視頻中的人物提取出來，自動切換背景，以及實現(xiàn)虛化等效果。

這些都是在圖像語義分割的基礎(chǔ)上實現(xiàn)的。

展望未來，如果有家庭機器人，它一定要有本領(lǐng)理解環(huán)境，看到周圍的事物。而語義分割技術(shù)可以改進機器人的識別能力，是其一個重要的組件。

上面我講的是圖像語義分割研究的重要性，下面的內(nèi)容就更加技術(shù)化，主要闡述怎樣開發(fā)這類算法和算法的特點。

首先要展開講的技術(shù)是傳統(tǒng)語義分割。如上圖所示，2012—2013年語義分割技術(shù)沒有大的變化，說明領(lǐng)域出現(xiàn)了一個小瓶頸；2014年，因為有了新的神經(jīng)網(wǎng)絡(luò)模型——全卷積神經(jīng)網(wǎng)絡(luò)(FCN）為代表的工作，使這個領(lǐng)域又被推動了一步；從2013—2018年每年都有提升，說明這個領(lǐng)域開始進入了一個新增長期。在可用數(shù)據(jù)集上，傳統(tǒng)用的是Pascal VOC 2012，包含大概2萬張圖片，數(shù)據(jù)量并不大。后來出現(xiàn)了cityscapes 數(shù)據(jù)集，標注了更多道路圖像，有粗標注和精細標注的種類。

在方法上，傳統(tǒng)的語義分割技術(shù)需要預處理、主程序和后處理，現(xiàn)在的深度學習框架下則全部統(tǒng)一了。也就是說，輸入一個視頻或者圖像直接在網(wǎng)絡(luò)里輸出結(jié)果。這對于硬件適配也是很好的簡化。

在2017年我們推出了一個技術(shù)叫做PSPNet（見上圖）。這是我們學校的研究組和商湯科技一起開發(fā)的，它最重要的部分就是中間把輸入的圖像通過網(wǎng)絡(luò)分成不同大小的特征，每一個特征做提取，最后做一個聚集達到高質(zhì)量的結(jié)果。這個網(wǎng)絡(luò)非常簡單，但是拿到了ImageNet Scene Parsing Challenge 2016 第一名。剛才說到的FCN準確率44.8%，這個網(wǎng)絡(luò)達到57.21%，提高了13%，是非常大的進步。這個框架現(xiàn)在有很多應用，在不同領(lǐng)域都可以使用，包括顯著性檢、雙目深度估計、運動估計、3D重建，而且我們已經(jīng)將它開源。

開發(fā)完這個技術(shù)之后我們開始新的挑戰(zhàn)。在上面的圖表里，橫軸是時間，越往右說明算法越快；縱軸是準確率，越往上越高。我們讓所有之前的算法都在這個圖里根據(jù)速度和準確度找到自己的位置。在統(tǒng)計意義上，里面有三個部分。一個部分是做的很準，但是模型很復雜，計算量大，所以跑的很慢；一個是做的很快，但是因為對網(wǎng)絡(luò)簡化的太厲害導致效果不好?；诖?，我們迎接了一個挑戰(zhàn)，就是把分割做到又快又準，這就是在這個圖標里進入右上角的象限。

我們提出的算法叫做ICNet，是今年ECCV的論文。它的原理是把圖像特征提取分成幾個部分，對于小尺度的圖像，用一個比較深的網(wǎng)絡(luò)來提取特征，因為每一層的運算非常小，所以這部分時間開銷不大；對于大一些的圖像尺度把網(wǎng)絡(luò)的層數(shù)減少，也可以很快減少運算量。按照這個思路，在三個尺度上對圖像提取了特征，最后做融合和分類，這個網(wǎng)絡(luò)就完成了。ICNet既滿足了運算量的壓縮需求，又沒有損失太多的特征信息，是一個比較好用的網(wǎng)絡(luò)結(jié)構(gòu)。我們的代碼也是開源的。

利用PSPNet和ICNet，在2016年開始的各類語義分割比賽中拿到了很好的成績，證明了我們這套框架在實際應用中有效，可以被廣泛的應用。

以上是傳統(tǒng)語義分割。同期我們進行了另外一個重要研究，就是把語義分割延展到個體理解。語義分割不需要知道一張圖里有幾個人，只要能正確地把人的像素點給分類正確就可以了。而新的個體分割（instance segmentation）需要理解的更深刻，把圖像分成個體而不是類別。這個問題更難解決，因為它有了計數(shù)的概念。個體分割的概念提還不到10年時間。

從2015—2018年3年時間里，我們在這類研究中投入巨大，當時成績也是不錯的。在這個例子里，我們可以把這復雜的十幾輛有遮擋，有斷層，顏色相近，大大小小的車全部分割出來。

我們設(shè)計模型時嘗試了很多辦法。舉這個Simpson的例子，里面三個人，如果要把Simpson分離出來，需要設(shè)計一個網(wǎng)絡(luò)（見上圖）。首先想到的是檢測出Simpson，然后把他提取出具體輪廓；后來把每個個體的各個部分分割出來組合成整體，這是第二個解決方案；第三個算法是把物體的橫向和豎向信息分別找一遍，然后結(jié)合起來一個二維的理解，把人提取出來；最后還有一個方法根據(jù)物體邊界，把里面填滿就可以找出需要的個體信息。

首先講第一個從部分到整體的方法。原理是分別用小范圍信息分割出需要的像素點，最后整合成整體目標。這個算法與樂高玩具的原理比較相近。一個樂高的玩具車可以被拆成很小的部件；同時如果合理的利用這些部件，加以改變，就可以組裝成另外車的樣子。所以，一個物體的組成是依賴于自己小部件的組合方式，以及每一個小部件的特點。這個結(jié)構(gòu)里包含了兩條路徑分別分割出物體，以及給出合適的類別標簽。

第二個我們探索的個體分割的算法類似于一個建筑物的建造過程，是由一磚一瓦慢慢由底至上搭建起來的。類似提出了sequential Grouping（序列組合）的算法，去實現(xiàn)逐步分割出物體的過程。我們的想法是，用線條組成物體的基本幾何元素，這樣利用橫線和豎線的交叉（見上圖），以及起點終點的建立，就可以搭出一個所需物體的輪廓。

橫線和豎線是一維的信息；把它們結(jié)合到一起就變成了二維的特征。這個方法很有創(chuàng)新性，是之前沒有人做過的。我們的結(jié)果也很激動人心，在這樣的程序下面也可以得到相當準確的結(jié)果。大家有興趣可以到我們的項目網(wǎng)站上查詢更多細節(jié)。

最后要介紹的方法是我們最近的研究結(jié)果PANet（見上圖），它基于了Mask R-CNN一個理解。我們的重要算法是將各層級提出來的特征做融合，使語義和結(jié)構(gòu)信息更好保留，對最后檢測和分割有很大的提高。

這個改進非常有效，在最有代表性的COCO數(shù)據(jù)集上比之前的方法提高了好幾個百分點。

這一頁slide給大家看看個體分割的進展。從2015年開始， 2016年達到了37.6的分割結(jié)果。我們的PANet實現(xiàn)了46.7點的分割結(jié)果，比上一年最好的方法有了24%的相對進步。

后面的例子包含的信息量很大。上圖是很多車在畫面中，我們分割出其中最重要的駕駛員。他們雖然個體很小，使用我們的方法也能比較準確地找到了他們。

在上圖所示復雜雨天打傘排隊的圖像里，哪怕有些人被遮擋了一半或者三分之二，還有小朋友個頭比較小的，同樣都可以把他們找到分割出來。其它的物品還包括背包、雨傘等。后面還有很多例子不具體介紹了。

最后我想說的是，語義分割和個體分割都是計算機視覺里最有挑戰(zhàn)性的問題。它們的重要性不言而喻，可以提供給很多應用所需的工具。它們就是我之前所說的背景視覺。真正設(shè)計開發(fā)出里面的算法都是不容易的。所以，科研做事情要耐得住辛苦和長時間的失敗。但是一旦成功，一個算法就能夠幫助這個領(lǐng)域之外的很多應用，包括醫(yī)學圖像的分析、工業(yè)圖像的分析和日常圖像的理解等。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴