91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

《大規(guī)模圖像理解、分割新進展》的主題演講

MqC7_CAAI_1981 ? 來源:未知 ? 作者:李倩 ? 2018-08-28 15:43 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

7月28-29日,由中國人工智能學會和深圳市羅湖區(qū)人民政府共同主辦,馬上科普承辦的“2018 中國人工智能大會(CCAI 2018)”完美收官。

香港中文大學終身教授,騰訊優(yōu)圖實驗室杰出科學家,IEEE Fellow賈佳亞作題為《大規(guī)模圖像理解、分割新進展》的主題演講。

以下是根據(jù)速記整理的大會講座實錄。

賈佳亞 香港中文大學終身教授,騰訊優(yōu)圖實驗室杰出科學家,IEEE Fellow

目前,機器視覺已在下面幾個領(lǐng)域得到了成功的應用。

1. 在游戲領(lǐng)域。機器視覺可以知道一個人的形體、骨骼、結(jié)構(gòu),可以制作出很多新的游戲。這個市場非常大。

2. 安防領(lǐng)域。傳統(tǒng)上需要看很多的攝像頭,需要很多人力去審查,現(xiàn)在基于機器視覺技術(shù),日常的判別不需要人去看,電腦就可以完成。

3. 娛樂領(lǐng)域。視覺技術(shù)可以創(chuàng)造出非常漂亮的人物,改變每一個人的外觀。基于此,騰訊做了很多的娛樂應用,如QQ里就有非常多有趣的玩法。

4. 醫(yī)療領(lǐng)域。從被醫(yī)生主導到現(xiàn)在電腦技術(shù)和人工智能技術(shù),病變和異??梢宰詣訖z測出來,這也是計算機視覺可實用的一部分。

5.自動駕駛領(lǐng)域。計算機視覺是其中一個基本模塊。

我今天演講的主要部分是偏技術(shù)的,在演講之前,給大家看一些有趣的東西。

第一個是是超分辨率的結(jié)果圖(見上圖)。這是一個老問題,研究了幾十年。我們?nèi)ツ暝贗CCV發(fā)表的一篇論文又在之前的基礎(chǔ)上極大地提高了速度和結(jié)果的分辨率,在一個非常模糊的圖片中生成清晰的細節(jié)。系統(tǒng)很簡單,它對在網(wǎng)絡(luò)上需要大量傳輸?shù)膱D像或者視頻,可以極大地減少帶寬流量需求,節(jié)省成本。

第二個是我們團隊研究了多年的Deblurring去模糊。當大家看到像上面這張模糊照片時第一個反應是把這張圖像刪除,節(jié)省空間?,F(xiàn)在我們的技術(shù)可以“變廢為寶”,從這些圖像里解析出車牌、人臉、字符,以及其他很多清晰細節(jié)。去模糊是圖像處理里比較難的問題之一,因為它是一個高度ill-posed(病態(tài))的問題,已經(jīng)研究了十年。最近我們又開發(fā)出了新的方法,把結(jié)果做的更好。

第三個是我們和Intel的合作者今年在CVPR大會上發(fā)表的一個有趣的圖像生成系統(tǒng)。給出一個簡單的畫板(見上圖),可以生成非常真實的圖像結(jié)果。這個過程可以用歷史上的文藝發(fā)展階段來理解。人類經(jīng)歷了一個從寫實派到抽象派的發(fā)展過程?,F(xiàn)在電腦技術(shù)創(chuàng)造還處在一個連寫實派都做不好的階段 —— 從一個任意的簡單構(gòu)思到電腦幫你生成一張高質(zhì)量的相片還是非常難做到。這是其中一個我們要攻克的難關(guān)。

第四個就是我們?nèi)ツ曜隽艘粋€Make-UP Go(一鍵卸妝)的系統(tǒng)。其目標是把上了妝(如上面左圖所示)的和實際樣子差別太大的圖片回復到上妝之前的容貌。這個系統(tǒng)在未婚男士群體中需求量很大。

基于這個系統(tǒng)和改進,我們今年發(fā)表了一個Face edit(臉部編輯)系統(tǒng)。它可以任意改變面部的表情和真實容貌,可以加胡子,去除胡子;變年輕,變老;變哭為笑。這些效果都非常真實,就像一個人真實面容一樣。上圖示一個主持人的視頻,我們可以隨便改變他的樣子,比如留英俊的小胡子,年輕10歲;或者看到他20年后的樣貌。

以上的技術(shù)和效果都叫做前端視覺,就是可以讓人直接看到很多效果的一類視覺研究。很有趣,用了很多時間研發(fā)。加入騰訊以后,我發(fā)現(xiàn)前端視覺有非常多的應用,可以給不同的團隊和產(chǎn)品賦能。所以在這一年時間里,騰訊產(chǎn)品里多了很多以這樣的技術(shù)為基礎(chǔ)的產(chǎn)品應用。

除了給大家列舉的這些前段視覺的例子,今天我主要講的技術(shù)叫做語義分割,它是計算機視覺里最難的技術(shù)之一。同時這類研究我也稱之為后端視覺。因為它們是基本工具,不能直接變成視覺效果。但是這些工具確實非常有用,基本上很多應用都必須用到,這是為什么叫它后端視覺的原因。

從2016年到今天,3年時間里,我們做了大量的圖像語義分割研究。它的目標是把一幅圖像里的每個像素分到一個類別里,比如人、車或者道路。這是一個非常難的問題,需要分辨每個像素是什么類別。而總類別有80個以上,這就使得合理的分割具有很大的歧義性和巨大的搜索空間。

下面是語義分割技術(shù)的應用范圍。

? 可以分辨哪些是人、車、樹和房屋,是自動駕駛和道路理解里很重要的部分。

? 可以把提取出來的物體輪廓做增強,幫助很多有視力疾病的人,使他們生活變得更加便利。

? 智能醫(yī)療的核心部分是病理圖像的理解。其中最關(guān)鍵的部分就是語義分割,找到病變的圖像部分,或者分析心血管的內(nèi)部結(jié)構(gòu)信息。這對于醫(yī)生的幫助非常大,可以節(jié)省時間或者提高診斷的準確度。

? 衛(wèi)星圖像理解。可以自動定位出不同的人、樹、房屋;也可以在衛(wèi)星圖像里找到道路,以及更加復雜的環(huán)境布局。

? 可以把圖像或者視頻中的人物提取出來,自動切換背景,以及實現(xiàn)虛化等效果。

這些都是在圖像語義分割的基礎(chǔ)上實現(xiàn)的。

展望未來,如果有家庭機器人,它一定要有本領(lǐng)理解環(huán)境,看到周圍的事物。而語義分割技術(shù)可以改進機器人的識別能力,是其一個重要的組件。

上面我講的是圖像語義分割研究的重要性,下面的內(nèi)容就更加技術(shù)化,主要闡述怎樣開發(fā)這類算法和算法的特點。

首先要展開講的技術(shù)是傳統(tǒng)語義分割。如上圖所示,2012—2013年語義分割技術(shù)沒有大的變化,說明領(lǐng)域出現(xiàn)了一個小瓶頸;2014年,因為有了新的神經(jīng)網(wǎng)絡(luò)模型——全卷積神經(jīng)網(wǎng)絡(luò)(FCN)為代表的工作,使這個領(lǐng)域又被推動了一步;從2013—2018年每年都有提升,說明這個領(lǐng)域開始進入了一個新增長期。在可用數(shù)據(jù)集上,傳統(tǒng)用的是Pascal VOC 2012,包含大概2萬張圖片,數(shù)據(jù)量并不大。后來出現(xiàn)了cityscapes 數(shù)據(jù)集,標注了更多道路圖像,有粗標注和精細標注的種類。

在方法上,傳統(tǒng)的語義分割技術(shù)需要預處理、主程序和后處理,現(xiàn)在的深度學習框架下則全部統(tǒng)一了。也就是說,輸入一個視頻或者圖像直接在網(wǎng)絡(luò)里輸出結(jié)果。這對于硬件適配也是很好的簡化。

在2017年我們推出了一個技術(shù)叫做PSPNet(見上圖)。這是我們學校的研究組和商湯科技一起開發(fā)的,它最重要的部分就是中間把輸入的圖像通過網(wǎng)絡(luò)分成不同大小的特征,每一個特征做提取,最后做一個聚集達到高質(zhì)量的結(jié)果。這個網(wǎng)絡(luò)非常簡單,但是拿到了ImageNet Scene Parsing Challenge 2016 第一名。剛才說到的FCN準確率44.8%,這個網(wǎng)絡(luò)達到57.21%,提高了13%,是非常大的進步。這個框架現(xiàn)在有很多應用,在不同領(lǐng)域都可以使用,包括顯著性檢、雙目深度估計、運動估計、3D重建,而且我們已經(jīng)將它開源。

開發(fā)完這個技術(shù)之后我們開始新的挑戰(zhàn)。在上面的圖表里,橫軸是時間,越往右說明算法越快;縱軸是準確率,越往上越高。我們讓所有之前的算法都在這個圖里根據(jù)速度和準確度找到自己的位置。在統(tǒng)計意義上,里面有三個部分。一個部分是做的很準,但是模型很復雜,計算量大,所以跑的很慢;一個是做的很快,但是因為對網(wǎng)絡(luò)簡化的太厲害導致效果不好?;诖?,我們迎接了一個挑戰(zhàn),就是把分割做到又快又準,這就是在這個圖標里進入右上角的象限。

我們提出的算法叫做ICNet,是今年ECCV的論文。它的原理是把圖像特征提取分成幾個部分,對于小尺度的圖像,用一個比較深的網(wǎng)絡(luò)來提取特征,因為每一層的運算非常小,所以這部分時間開銷不大;對于大一些的圖像尺度把網(wǎng)絡(luò)的層數(shù)減少,也可以很快減少運算量。按照這個思路,在三個尺度上對圖像提取了特征,最后做融合和分類,這個網(wǎng)絡(luò)就完成了。ICNet既滿足了運算量的壓縮需求,又沒有損失太多的特征信息,是一個比較好用的網(wǎng)絡(luò)結(jié)構(gòu)。我們的代碼也是開源的。

利用PSPNet和ICNet,在2016年開始的各類語義分割比賽中拿到了很好的成績,證明了我們這套框架在實際應用中有效,可以被廣泛的應用。

以上是傳統(tǒng)語義分割。同期我們進行了另外一個重要研究,就是把語義分割延展到個體理解。語義分割不需要知道一張圖里有幾個人,只要能正確地把人的像素點給分類正確就可以了。而新的個體分割(instance segmentation)需要理解的更深刻,把圖像分成個體而不是類別。這個問題更難解決,因為它有了計數(shù)的概念。個體分割的概念提還不到10年時間。

從2015—2018年3年時間里,我們在這類研究中投入巨大,當時成績也是不錯的。在這個例子里,我們可以把這復雜的十幾輛有遮擋,有斷層,顏色相近,大大小小的車全部分割出來。

我們設(shè)計模型時嘗試了很多辦法。舉這個Simpson的例子,里面三個人,如果要把Simpson分離出來,需要設(shè)計一個網(wǎng)絡(luò)(見上圖)。首先想到的是檢測出Simpson,然后把他提取出具體輪廓;后來把每個個體的各個部分分割出來組合成整體,這是第二個解決方案;第三個算法是把物體的橫向和豎向信息分別找一遍,然后結(jié)合起來一個二維的理解,把人提取出來;最后還有一個方法根據(jù)物體邊界,把里面填滿就可以找出需要的個體信息。

首先講第一個從部分到整體的方法。原理是分別用小范圍信息分割出需要的像素點,最后整合成整體目標。這個算法與樂高玩具的原理比較相近。一個樂高的玩具車可以被拆成很小的部件;同時如果合理的利用這些部件,加以改變,就可以組裝成另外車的樣子。所以,一個物體的組成是依賴于自己小部件的組合方式,以及每一個小部件的特點。這個結(jié)構(gòu)里包含了兩條路徑分別分割出物體,以及給出合適的類別標簽。

第二個我們探索的個體分割的算法類似于一個建筑物的建造過程 ,是由一磚一瓦慢慢由底至上搭建起來的。類似提出了sequential Grouping(序列組合)的算法,去實現(xiàn)逐步分割出物體的過程。我們的想法是,用線條組成物體的基本幾何元素,這樣利用橫線和豎線的交叉(見上圖),以及起點終點的建立,就可以搭出一個所需物體的輪廓。

橫線和豎線是一維的信息;把它們結(jié)合到一起就變成了二維的特征。這個方法很有創(chuàng)新性,是之前沒有人做過的。我們的結(jié)果也很激動人心,在這樣的程序下面也可以得到相當準確的結(jié)果。大家有興趣可以到我們的項目網(wǎng)站上查詢更多細節(jié)。

最后要介紹的方法是我們最近的研究結(jié)果PANet(見上圖),它基于了Mask R-CNN一個理解。我們的重要算法是將各層級提出來的特征做融合,使語義和結(jié)構(gòu)信息更好保留,對最后檢測和分割有很大的提高。

這個改進非常有效,在最有代表性的COCO數(shù)據(jù)集上比之前的方法提高了好幾個百分點。

這一頁slide給大家看看個體分割的進展。從2015年開始, 2016年達到了37.6的分割結(jié)果。我們的PANet實現(xiàn)了46.7點的分割結(jié)果,比上一年最好的方法有了24%的相對進步。

后面的例子包含的信息量很大。上圖是很多車在畫面中,我們分割出其中最重要的駕駛員。他們雖然個體很小,使用我們的方法也能比較準確地找到了他們。

在上圖所示復雜雨天打傘排隊的圖像里,哪怕有些人被遮擋了一半或者三分之二,還有小朋友個頭比較小的,同樣都可以把他們找到分割出來。其它的物品還包括背包、雨傘等。后面還有很多例子不具體介紹了。

最后我想說的是,語義分割和個體分割都是計算機視覺里最有挑戰(zhàn)性的問題。它們的重要性不言而喻,可以提供給很多應用所需的工具。它們就是我之前所說的背景視覺。真正設(shè)計開發(fā)出里面的算法都是不容易的。所以,科研做事情要耐得住辛苦和長時間的失敗。但是一旦成功,一個算法就能夠幫助這個領(lǐng)域之外的很多應用,包括醫(yī)學圖像的分析、工業(yè)圖像的分析和日常圖像的理解等。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器視覺
    +關(guān)注

    關(guān)注

    165

    文章

    4813

    瀏覽量

    126358
  • 人工智能
    +關(guān)注

    關(guān)注

    1819

    文章

    50207

    瀏覽量

    266434

原文標題:CCAI2018演講實錄丨賈佳亞:大規(guī)模圖像理解、分割新進展

文章出處:【微信號:CAAI-1981,微信公眾號:中國人工智能學會】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    2025年聯(lián)接領(lǐng)域十大創(chuàng)新進展回顧

    的創(chuàng)新前沿技術(shù)加速落地,形成“短距+廣域”協(xié)同發(fā)展格局,成為萬物互聯(lián)的核心基礎(chǔ)。下面讓我們一起回顧2025年聯(lián)接領(lǐng)域十大創(chuàng)新進展。
    的頭像 發(fā)表于 01-19 13:08 ?707次閱讀

    上海光機所在中紅外光譜合束光柵研究方面取得新進展

    ,中國科學院上海光學精密機械研究所高功率激光元件技術(shù)與工程部研究團隊在中紅外光譜合束光柵研究方面取得新進展,相關(guān)研究成果以“Robust volcano-shaped gold-coated
    的頭像 發(fā)表于 12-24 06:38 ?189次閱讀
    上海光機所在中紅外光譜合束光柵研究方面取得<b class='flag-5'>新進展</b>

    從協(xié)議到實踐——EtherNet/IP與NetStaX的最新進展

    從協(xié)議到實踐——EtherNet/IP與NetStaX的最新進展
    的頭像 發(fā)表于 12-19 15:26 ?1620次閱讀
    從協(xié)議到實踐——EtherNet/IP與NetStaX的最<b class='flag-5'>新進展</b>

    Soitec受邀亮相APCSCRM 2025并發(fā)表主題演講

    在Asia-Pacific Conference on Silicon Carbide and Related Materials (APCSCRM 2025) 上,Soitec 的寬禁帶半導體產(chǎn)品設(shè)計經(jīng)理 Eric Guiot 代表 Soitec 分享了我們在碳化硅(SiC)技術(shù)方面的最新進展
    的頭像 發(fā)表于 12-13 15:50 ?1862次閱讀

    奧迪雙品牌陣容亮相2025廣州國際車展

    奧迪正持續(xù)推進其在華最大規(guī)模產(chǎn)品布局,憑借“雙品牌、雙合作伙伴”戰(zhàn)略,全面展現(xiàn)品牌最新進展,并強化對中國這一重要市場的長期承諾。
    的頭像 發(fā)表于 11-28 12:49 ?736次閱讀

    芯科科技分享在物聯(lián)網(wǎng)領(lǐng)域的最新進展

    Labs(芯科科技)亞太區(qū)業(yè)務(wù)副總裁王祿銘、中國大陸區(qū)總經(jīng)理周巍及臺灣區(qū)總經(jīng)理寶陸格就公司技術(shù)路線、產(chǎn)品策略及市場趨勢回答了媒體提問。三位高管圍繞安全認證、無線連接、邊緣計算等議題,介紹了公司在物聯(lián)網(wǎng)領(lǐng)域的最新進展。
    的頭像 發(fā)表于 11-13 10:48 ?1802次閱讀

    DisplayPort汽車擴展標準新進展,顯示系統(tǒng)靈活性和效率大幅提升

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)2025年10月27日,VESA(視頻電子標準協(xié)會)在深圳益田威斯汀酒店舉辦新聞發(fā)布會,詳細介紹了DisplayPort汽車擴展標準(DP AE)的最新進展,同時分享了
    的頭像 發(fā)表于 11-08 10:43 ?1.1w次閱讀
    DisplayPort汽車擴展標準<b class='flag-5'>新進展</b>,顯示系統(tǒng)靈活性和效率大幅提升

    上海光機所在不同激光諧波裂解HDPE方面取得新進展

    北極大學UiT合作,在高密度聚乙烯(HDPE)激光誘導下發(fā)生鍵斷裂方面取得新進展。研究成果以“Investigating laser-induced bond breaking
    的頭像 發(fā)表于 08-14 10:11 ?614次閱讀
    上海光機所在不同激光諧波裂解HDPE方面取得<b class='flag-5'>新進展</b>

    上海光機所在激光驅(qū)動離子加速方面取得新進展

    圖1 實驗原理示意圖 近期,中國科學院上海光學精密機械研究所超強激光科學與技術(shù)全國重點實驗室賓建輝研究員團隊在激光驅(qū)動離子加速方面取得新進展。相關(guān)研究成果分別以“Enhanced proton
    的頭像 發(fā)表于 08-06 09:36 ?695次閱讀
    上海光機所在激光驅(qū)動離子加速方面取得<b class='flag-5'>新進展</b>

    東風汽車轉(zhuǎn)型突破取得新進展

    上半年,東風汽車堅定高質(zhì)量發(fā)展步伐,整體銷量逐月回升,經(jīng)營質(zhì)量持續(xù)改善,自主品牌和新能源滲透率和收益性進一步提升,半年累計終端銷售汽車111.6萬輛,轉(zhuǎn)型突破取得新進展
    的頭像 發(fā)表于 07-10 15:29 ?988次閱讀

    FMCW激光雷達,工業(yè)應用新進展

    電子發(fā)燒友網(wǎng)報道(文/梁浩斌)FMCW激光雷達有了新進展。近日FMCW激光雷達廠商Aeva宣布,通過與SICK?AG和LMI等工業(yè)自動化領(lǐng)域領(lǐng)導者合作,其應用于工業(yè)自動化的高精度傳感器Eve?1系列
    的頭像 發(fā)表于 05-18 00:02 ?6089次閱讀

    百度在AI領(lǐng)域的最新進展

    近日,我們在武漢舉辦了Create2025百度AI開發(fā)者大會,與全球各地的5000多名開發(fā)者,分享了百度在AI領(lǐng)域的新進展。
    的頭像 發(fā)表于 04-30 10:14 ?1421次閱讀

    西安光機所在太赫茲超表面逆向設(shè)計領(lǐng)域取得新進展

    高精度超表面逆向設(shè)計方法及透射/反射雙功能的寬頻段聚焦渦旋光產(chǎn)生器示意圖 近日,中國科學院西安光機所超快光科學與技術(shù)全國重點實驗室在太赫茲頻段超表面逆向設(shè)計領(lǐng)域取得新進展,相關(guān)研究成果以《High
    的頭像 發(fā)表于 04-22 06:12 ?878次閱讀
    西安光機所在太赫茲超表面逆向設(shè)計領(lǐng)域取得<b class='flag-5'>新進展</b>

    谷歌Gemini API最新進展

    體驗的 Live API 的最新進展,以及正式面向開發(fā)者開放的高質(zhì)量視頻生成工具 Veo 2。近期,我們面向在 Google AI Studio 中使用 Gemini API 的開發(fā)者推出了許多不容錯過的重要更新,一起來看看吧。
    的頭像 發(fā)表于 04-12 16:10 ?1778次閱讀

    華為公布AI基礎(chǔ)設(shè)施架構(gòu)突破性新進展

    近日,華為公司常務(wù)董事、華為云計算CEO張平安在華為云生態(tài)大會2025上公布了AI基礎(chǔ)設(shè)施架構(gòu)突破性新進展——推出基于新型高速總線架構(gòu)的CloudMatrix 384超節(jié)點集群,并宣布已在蕪湖數(shù)據(jù)中心規(guī)模上線。
    的頭像 發(fā)表于 04-12 15:09 ?2047次閱讀