▌前言
作為計(jì)算機(jī)視覺領(lǐng)域的頂級(jí)會(huì)議,2018年的計(jì)算機(jī)視覺和模式識(shí)別會(huì)議(CVPR) 上周在美國鹽湖城舉行。今年的 CVPR共收到3300份來稿并接收了其中的979份。超過6500人參加了今年的會(huì)議,這間容納6500人的房間座無虛席,堪稱是一屆史詩般的盛會(huì):
每年的 CVPR都會(huì)吸引眾多優(yōu)秀的人才和他們最新的研究成果,總可以看到學(xué)到新的東西。當(dāng)然還有那些發(fā)表了最新并具有突破性成果的論文,為該領(lǐng)域帶來很棒的新知識(shí)。這些論文經(jīng)常在計(jì)算機(jī)視覺的許多子領(lǐng)域形成最新的技術(shù)。
最近,我們看到了一些開箱即用且富有創(chuàng)意的論文!隨著最近深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的突破性進(jìn)展,我們?nèi)匀辉谔剿鞑l(fā)現(xiàn)一切未知的可能性。許多論文展示了深度神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺領(lǐng)域中的全新應(yīng)用。它們可能不是最根本的開創(chuàng)性作品,但就它們從新穎有趣的角度呈現(xiàn)出全新的想法,為相關(guān)領(lǐng)域提供了創(chuàng)造性和啟發(fā)性的視角。總而言之,這些都是非??岬淖髌罚?/p>
在這里,我將展示我認(rèn)為在本屆 CVPR上最酷的10篇論文。我們將看到最近使用深度網(wǎng)絡(luò)實(shí)現(xiàn)的一些新應(yīng)用,以及如何進(jìn)一步使用它們。你可以在閱讀過程中根據(jù)自己的喜好選擇性地進(jìn)行閱讀。讓我們開始吧!
▌Training Deep Networks with Synthetic Data: Bridging the Reality Gap by Domain Randomization(用合成數(shù)據(jù)訓(xùn)練深度網(wǎng)絡(luò):通過領(lǐng)域隨機(jī)化來彌合現(xiàn)實(shí)差距)
這篇論文出自Nvidia團(tuán)隊(duì)的研究,使用合成數(shù)據(jù)來訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(CNN)。 他們?yōu)樘摶靡?Unreal Engine 4) 創(chuàng)建了一個(gè)插件用于生成合成的訓(xùn)練數(shù)據(jù)。這項(xiàng)研究的關(guān)鍵在于他們對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行了隨機(jī)化,使其能夠包含多種變量,包括:
目標(biāo)的數(shù)量和類型
干擾物的數(shù)量,類型,顏色和尺度
感興趣物體的紋理特征及圖片的背景
虛擬攝像機(jī)相對(duì)于場景的位置
相機(jī)相對(duì)于場景的角度
光點(diǎn)的數(shù)量和位置
他們展示了一些非常有前途的實(shí)驗(yàn)結(jié)果,證明了合成數(shù)據(jù)預(yù)訓(xùn)練的有效性,這是先前研究從未實(shí)現(xiàn)過的結(jié)果。如果你之前并不了解這個(gè)重要知識(shí)的話,那么這項(xiàng)研究將會(huì)啟發(fā)你如何生成并使用合成數(shù)據(jù)。
▌WESPE: Weakly Supervised Photo Enhancer for Digital?Cameras(WESPE:用于數(shù)碼相機(jī)的弱監(jiān)督照片增強(qiáng)器)
這項(xiàng)研究通過訓(xùn)練生成對(duì)抗網(wǎng)絡(luò)(GAN) 來從美學(xué)上自動(dòng)化增強(qiáng)圖片。該研究最酷的地方在于以一種弱監(jiān)督的方式:你不需要輸入-輸出的圖像對(duì)。訓(xùn)練網(wǎng)絡(luò)時(shí),你只需要一組“好看”的圖像(用于輸出基礎(chǔ)事實(shí)) 和一組想要增強(qiáng)的“不好看”的圖像(用于輸入圖像)。然后,通過訓(xùn)練GAN產(chǎn)生輸入圖像的增強(qiáng)版本,通常所生成的圖像會(huì)極大地增強(qiáng)原圖像的顏色和對(duì)比度。
由于不需要精確的圖像對(duì),因而你能夠快捷方便地使用這個(gè)圖像增強(qiáng)器。我喜歡這項(xiàng)研究的原因主要是因?yàn)樗且环N弱監(jiān)督的方法。雖然我們離無監(jiān)督學(xué)習(xí)似乎還很遙遠(yuǎn),但對(duì)計(jì)算機(jī)視覺的許多子領(lǐng)域而言,弱監(jiān)督學(xué)習(xí)似乎是一個(gè)充滿希望且值得研究的方向。
▌Efficient Interactive Annotation of Segmentation Datasets with Polygon-RNN++(用Polygon-RNN ++對(duì)圖像分割數(shù)據(jù)集進(jìn)行高效地交互式標(biāo)注)
深度神經(jīng)網(wǎng)絡(luò)之所以能夠表現(xiàn)出如此強(qiáng)大性能的主要原因之一是大型且完全帶標(biāo)注的可用的數(shù)據(jù)集。然而,對(duì)于許多計(jì)算機(jī)視覺任務(wù)而言,這樣的數(shù)據(jù)既費(fèi)時(shí)又昂貴。特別對(duì)于圖像分割任務(wù)而言,我們需要對(duì)圖像中的每個(gè)像素進(jìn)行類別標(biāo)注,你可以想象其中的困難性有多大!
Polygon-RNN ++這項(xiàng)研究允許研究者只需在圖像中每個(gè)目標(biāo)周圍設(shè)置粗糙的多邊形點(diǎn),然后該網(wǎng)絡(luò)能夠自動(dòng)生成圖像分割所需的標(biāo)注信息!本文研究表明這種方法能夠在實(shí)際應(yīng)用中很好地推廣,并可以用來為分段任務(wù)創(chuàng)建快速簡便的數(shù)據(jù)標(biāo)注!
▌Creating Capsule Wardrobes from Fashion?Images
(從時(shí)尚配圖中創(chuàng)造自己的衣柜)
“嗯,我今天應(yīng)該穿什么?”如果有人能夠每天早上為你解決這個(gè)問題,那將再好不過了。
本文研究中,作者設(shè)計(jì)了一種模型,基于給定的候選服裝和配件清單,模型通過收集一組最小的項(xiàng)目集,提供最全面的服裝混合搭配的方案。研究中模型使用目標(biāo)函數(shù)進(jìn)行訓(xùn)練,這些目標(biāo)函數(shù)旨在捕獲視覺兼容性,多功能性及特定用戶的偏好等關(guān)鍵要素。有了這種衣柜 (Capsule Wardrobes),你可以輕松從衣櫥中挑選最佳的服裝搭配。
▌Super SloMo: High Quality Estimation of Multiple Intermediate Frames for Video Interpolation (Super SloMo:視頻插值中多個(gè)中間幀的高質(zhì)量估計(jì))
你曾經(jīng)是否想過以超慢的動(dòng)作拍攝超級(jí)酷炫的東西呢?Nvdia的這項(xiàng)研究 Super SloMo就能幫你實(shí)現(xiàn)!研究中他們使用 CNN估計(jì)視頻的中間幀,并能將標(biāo)準(zhǔn)的30fps視頻轉(zhuǎn)換為240fps的慢動(dòng)作!該模型估計(jì)視頻中間幀之間的光流信息,并在這些信息中間插入視頻幀,使慢動(dòng)作的視頻看起來也能清晰銳利。
▌Who Let The Dogs Out? Modeling Dog Behavior From Visual?Data(用視覺數(shù)據(jù)構(gòu)建狗的行為模型)
這可能是有史以來最酷的研究論文!這項(xiàng)研究的想法是試圖模擬狗的思想和行為。研究人員將許多傳感器連接到狗的四肢以收集其運(yùn)動(dòng)和行為數(shù)據(jù);。此外,他們還在狗的頭部安裝一個(gè)攝像頭,以便從狗的視角獲取相應(yīng)的運(yùn)動(dòng)信息。然后,將一組CNN特征提取器用于從視頻幀獲取圖像特征,并將其與傳感器數(shù)據(jù)一起傳遞給一組LSTM模型,以便學(xué)習(xí)并預(yù)測狗的動(dòng)作和行為。這是一項(xiàng)非常新穎而富有創(chuàng)造性的應(yīng)用研究,其整體的任務(wù)框架及獨(dú)特的執(zhí)行方式都是本文的亮點(diǎn)!希望這項(xiàng)研究能夠?yàn)槲覀兾磥硎占瘮?shù)據(jù)和應(yīng)用深度學(xué)習(xí)技術(shù)的方式帶來更多的創(chuàng)造力。
▌Learning to Segment Every?Thing(學(xué)習(xí)分割一切)
在過去的幾年里,何凱明團(tuán)隊(duì) (以前在微軟研究院,現(xiàn)就職于 Facebook AI Research) 提出了許多重大的計(jì)算機(jī)視覺研究成果。他們的研究最棒之處在于將創(chuàng)造力和簡單性相結(jié)合,諸如將 ResNets和Mask R-CNN相結(jié)合的研究,這些都不是最瘋狂或最復(fù)雜的研究思路,但是它們簡單易行,并在實(shí)踐中非常有效。
該團(tuán)隊(duì)最新的研究 Learning to Segment Every Thing是 Mask R-CNN研究的擴(kuò)展,它使模型準(zhǔn)確地分割訓(xùn)練期間未出現(xiàn)的類別目標(biāo)!這對(duì)于獲取快速且廉價(jià)的分割數(shù)據(jù)標(biāo)注是非常有用的。事實(shí)上,該研究能夠獲得一些未知目標(biāo)的基準(zhǔn)分割效果(baseline segment),這對(duì)于在自然條件中部署這樣的分割模型來說是至關(guān)重要的,因?yàn)樵谶@樣的環(huán)境下可能存在許多未知的目標(biāo)??偟膩碚f,這絕對(duì)是我們思考如何充分利用深層神經(jīng)網(wǎng)絡(luò)模型的正確方向。
▌Soccer on Your?Tabletop(桌上足球)
本文的研究是在FIFA世界杯開幕時(shí)正式發(fā)表的,理應(yīng)獲得最佳時(shí)機(jī)獎(jiǎng)!這的確是CVPR上在計(jì)算機(jī)視覺領(lǐng)域的“更酷”應(yīng)用之一。簡而言之,作者訓(xùn)練了一個(gè)模型,在給定足球比賽視頻的情況下,該模型能夠輸出相應(yīng)視頻的動(dòng)態(tài)3D重建,這意味著你可以利用增強(qiáng)現(xiàn)實(shí)技術(shù)在任何地方查看它!
本文最大的亮點(diǎn)是結(jié)合使用許多不同類型的信息。使用視頻比賽數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò),從而相當(dāng)容易地提取3D網(wǎng)格信息。在測試時(shí),提取運(yùn)動(dòng)員的邊界框,姿勢及跨越多個(gè)幀的運(yùn)動(dòng)軌跡以便分割運(yùn)動(dòng)員。接著你可以輕松地將這些3D片段投射到任何平面上。在這種情況下,你可以通過制作虛擬的足球場,以便在 AR條件下觀看的足球比賽!在我看來,這是一種使用合成數(shù)據(jù)進(jìn)行訓(xùn)練的方法。無論如何它都是一個(gè)有趣的應(yīng)用程序!
▌LayoutNet: Reconstructing the 3D Room Layout from a Single RGBImage(LayoutNet:從單個(gè)RGB圖像重建3D房間布局)
這是一個(gè)計(jì)算機(jī)視覺的應(yīng)用程序,我們可能曾經(jīng)想過:使用相機(jī)拍攝某些東西,然后用數(shù)字3D技術(shù)重建它。這也正是本文研究的目的,特別是重建 3D房間布局。研究人員使用全景圖像作為網(wǎng)絡(luò)的輸入,以獲得房間的完整視圖。網(wǎng)絡(luò)的輸出是3D重建后的房間布局,具有相當(dāng)高的準(zhǔn)確性!該模型足夠強(qiáng)大,可以推廣到不同形狀、包含許多不同家具的房間。這是一個(gè)有趣而好玩、又不需要投入太多研究人員就能實(shí)現(xiàn)的應(yīng)用程序。
▌Learning Transferable Architectures for Scalable Image Recognition (學(xué)習(xí)可遷移的結(jié)構(gòu)用于可擴(kuò)展的圖像識(shí)別任務(wù))
最后要介紹的是一項(xiàng)許多人都認(rèn)為是深度學(xué)習(xí)未來的研究:神經(jīng)架構(gòu)搜索(NAS)。NAS背后的基本思想是我們可以使用另一個(gè)網(wǎng)絡(luò)來“搜索”最佳的模型結(jié)構(gòu),而不需要手動(dòng)地設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)。結(jié)構(gòu)搜索過程是基于獎(jiǎng)勵(lì)函數(shù)進(jìn)行的,通過獎(jiǎng)勵(lì)模型以使其在驗(yàn)證數(shù)據(jù)集上有良好的表現(xiàn)。此外,作者在論文中表明,這種模型結(jié)構(gòu)比起手動(dòng)設(shè)計(jì)的模型能夠獲得更高的精度。這將是未來巨大的研究方向,特別是對(duì)于設(shè)計(jì)特定的應(yīng)用程序而言。因?yàn)槲覀冋嬲P(guān)注的是設(shè)計(jì)好的NAS算法,而不是為我們特定的應(yīng)用設(shè)計(jì)特定的網(wǎng)絡(luò)。精心設(shè)計(jì)的NAS算法將足夠靈活,并能夠?yàn)槿魏稳蝿?wù)找到良好的網(wǎng)絡(luò)結(jié)構(gòu)。

▌結(jié)束語
希望你能從中學(xué)到一些新的、有用的東西,甚至能夠?yàn)槟阕约旱难芯颗c工作找到一些新的想法!
-
3D
+關(guān)注
關(guān)注
9文章
3013瀏覽量
115205 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5599瀏覽量
124457 -
cnn
+關(guān)注
關(guān)注
3文章
355瀏覽量
23455
原文標(biāo)題:CVPR 2018 上10篇最酷論文,圈兒里最Cool的人都在看
文章出處:【微信號(hào):AI_Thinker,微信公眾號(hào):人工智能頭條】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
Nullmax研發(fā)團(tuán)隊(duì)靜態(tài)元素檢測和拓?fù)渫评硇鲁晒脒xCVPR 2026
從CVPR 2019看事件相機(jī)步態(tài)識(shí)別:技術(shù)突破與產(chǎn)品應(yīng)用
后摩智能4篇論文入選人工智能頂會(huì)ICLR 2026
MediaTek多篇論文入選全球前沿國際學(xué)術(shù)會(huì)議
地平線五篇論文入選NeurIPS 2025與AAAI 2026
后摩智能六篇論文入選四大國際頂會(huì)
理想汽車12篇論文入選全球五大AI頂會(huì)
思必馳與上海交大聯(lián)合實(shí)驗(yàn)室五篇論文入選NeurIPS 2025
易控智駕榮獲計(jì)算機(jī)視覺頂會(huì)CVPR 2025認(rèn)可
格靈深瞳六篇論文入選ICCV 2025
理想汽車八篇論文入選ICCV 2025
傳音多媒體團(tuán)隊(duì)攬獲CVPR NTIRE 2025兩項(xiàng)挑戰(zhàn)賽冠亞軍
NVIDIA榮獲CVPR 2025輔助駕駛國際挑戰(zhàn)賽冠軍
后摩智能四篇論文入選三大國際頂會(huì)
云知聲四篇論文入選自然語言處理頂會(huì)ACL 2025
CVPR 2018 上10篇最酷論文,渴望進(jìn)步的人都在看
評(píng)論