人類(lèi)的本質(zhì)是復(fù)讀機(jī),GANs的本質(zhì)是復(fù)制粘貼
研究人員從Copy-Pasting(GANs)中得到啟發(fā),設(shè)計(jì)了一種新的對(duì)象發(fā)現(xiàn)訓(xùn)練程序。在這一新的訓(xùn)練流程中,生成器不會(huì)像傳統(tǒng)的對(duì)象發(fā)現(xiàn)方法那樣直接生成對(duì)象。相反,它會(huì)識(shí)別并分割現(xiàn)有對(duì)象。該方法適用于各種不同的數(shù)據(jù)集,包括復(fù)雜背景下有外觀變換的大型對(duì)象。
研究表明,通過(guò)訓(xùn)練Copy-Pasting GANs,防止生成模型走捷徑,可以實(shí)現(xiàn)無(wú)監(jiān)督的對(duì)象發(fā)現(xiàn)。該方法可以處理來(lái)自真實(shí)圖像的雜亂背景,并且可以在不從頭開(kāi)始的情況下,以更高效的數(shù)據(jù)方式預(yù)先訓(xùn)練用于有監(jiān)督的對(duì)象檢測(cè)模型。它還可以用作智能代理的視覺(jué)模塊?;旧?,這項(xiàng)工作可以有效地為用戶驅(qū)動(dòng)的圖像處理、對(duì)象檢測(cè)和分割等任務(wù)創(chuàng)建實(shí)際的可視化數(shù)據(jù)。
Google AI:變大的CNN,變小的模型
谷歌研究人員提出了一種新的方法,該方法實(shí)現(xiàn)了一個(gè)簡(jiǎn)單但高效的復(fù)合系數(shù)來(lái)擴(kuò)大CNN。傳統(tǒng)方法會(huì)隨意地縮放網(wǎng)絡(luò)規(guī)模(寬度、深度和分辨率),而這種新方法將每一個(gè)規(guī)模的維度都與固定系數(shù)進(jìn)行了平衡。

通過(guò)將這一方法和最新的AutoML技術(shù)結(jié)合起來(lái),研究人員開(kāi)發(fā)了EfficientNets,它能夠在實(shí)現(xiàn)更小更快的模型的同時(shí)優(yōu)化精度和效率(10倍),遠(yuǎn)遠(yuǎn)超過(guò)了傳統(tǒng)方法。
EfficientNets有望成為最先進(jìn)的計(jì)算機(jī)視覺(jué)任務(wù)的基礎(chǔ)。為了機(jī)器學(xué)習(xí)社區(qū)的利益,研究人員還開(kāi)發(fā)了開(kāi)源的高效網(wǎng)絡(luò)算法。
基于深度學(xué)習(xí)的深度預(yù)測(cè)
谷歌人工智能的一組研究人員已經(jīng)應(yīng)用深度學(xué)習(xí)來(lái)解決從二維圖像數(shù)據(jù)重建幾何場(chǎng)景的挑戰(zhàn)。他們開(kāi)發(fā)了一種新的模型,能夠在攝像機(jī)和拍攝對(duì)象都自由移動(dòng)的情況下創(chuàng)建深度圖。通過(guò)對(duì)人體姿態(tài)和數(shù)據(jù)形狀的先驗(yàn)學(xué)習(xí),該算法能夠避免直接使用三維三角定位。
研究人員主要關(guān)注于人類(lèi),因?yàn)樗麄兪窃鰪?qiáng)現(xiàn)實(shí)和3D視頻效果的良好目標(biāo)。令人驚訝的是,雖然有許多方法可以預(yù)測(cè)深度圖,但這一研究是第一項(xiàng)幫助設(shè)計(jì)和實(shí)現(xiàn)照相機(jī)和人體同時(shí)運(yùn)動(dòng)的工作。
生成的預(yù)測(cè)深度圖可用于創(chuàng)建各種3D感知視頻效果。它們可以幫助生成單目立體視頻,也可以將合成CG對(duì)象插入到場(chǎng)景中。此外,它們還提供了用視頻其他幀中的內(nèi)容填充孔和不被遮擋區(qū)域的能力。
電話詐騙時(shí)代的落幕
即便是最先進(jìn)的欺騙檢測(cè)系統(tǒng),也嚴(yán)重依賴于關(guān)于欺騙的技術(shù)知識(shí)。本文通過(guò)探索傳統(tǒng)和自動(dòng)編碼器的音頻特性來(lái)解決這一局限性,這些特性在不同類(lèi)型的重播欺騙中都是可推廣的。

研究人員全面解釋了建立高級(jí)音頻特征檢測(cè)所需的所有步驟,包括預(yù)處理和后處理。他們還評(píng)估了強(qiáng)大的重放揚(yáng)聲器檢測(cè)系統(tǒng)的性能,該系統(tǒng)將提取的和機(jī)器學(xué)習(xí)的音頻特征進(jìn)行了不同的組合,并在嘈雜環(huán)境下于ASVSpoof 2017數(shù)據(jù)集上進(jìn)行了測(cè)試。
與當(dāng)前最先進(jìn)的技術(shù)相比,這一程序提供了極具競(jìng)爭(zhēng)力的結(jié)果,并重申了集成不同類(lèi)型音頻特征以開(kāi)發(fā)用于欺騙檢測(cè)的強(qiáng)大模型的重要性。
移動(dòng)設(shè)備的自監(jiān)督音頻表示學(xué)習(xí)
Google Research最近基于移動(dòng)設(shè)備音頻剪輯中的時(shí)間環(huán)境提出了一種自我監(jiān)督的學(xué)習(xí)方法。在這一研究中他們推薦了Audio2Vec,這是一個(gè)受Word2Vec啟發(fā)的自我監(jiān)督學(xué)習(xí)過(guò)程,但應(yīng)用于音頻頻譜圖。
他們同樣推薦了TemporalGap,這是另一種自我監(jiān)督的學(xué)習(xí)過(guò)程,它可以估計(jì)隨機(jī)抽取的任意兩對(duì)音頻片段之間的時(shí)間距離。

基于可能部署在移動(dòng)設(shè)備上的小型編碼器架構(gòu),研究人員證明,Audio2Vec和TAemporalGap能夠生成可重復(fù)用于各種下游任務(wù)(如語(yǔ)音、音樂(lè)檢測(cè)、揚(yáng)聲器識(shí)別和語(yǔ)言識(shí)別等)的表示,而無(wú)需在訓(xùn)練工程中使用有標(biāo)記數(shù)據(jù)集。
研究表明,自監(jiān)督模型能在一定程度上減小與完全監(jiān)督模型的精度差距。
未來(lái),研究人員計(jì)劃以分布式方法直接在設(shè)備上研究自我監(jiān)督模型的訓(xùn)練。有趣的是,他們還計(jì)劃合并從不同的自我監(jiān)督模型中學(xué)習(xí)到的表示(比如在嵌入語(yǔ)音的情況下)以改進(jìn)他們的發(fā)現(xiàn)。
-
谷歌
+關(guān)注
關(guān)注
27文章
6255瀏覽量
111885 -
AI
+關(guān)注
關(guān)注
91文章
40643瀏覽量
302302
原文標(biāo)題:谷歌開(kāi)發(fā)EfficientNets,擴(kuò)大CNN并與AutoML結(jié)合,效率提升10倍|一周AI最火論文
文章出處:【微信號(hào):BigDataDigest,微信公眾號(hào):大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
【米爾全志T153開(kāi)發(fā)板評(píng)測(cè)】kws語(yǔ)音關(guān)鍵字識(shí)別測(cè)試
谷歌評(píng)論卡,碰一碰即可完成谷歌評(píng)論 #谷歌評(píng)論卡 #NFC標(biāo)簽 #nfc卡
谷歌XR生態(tài)加速落地:Galaxy XR上線月入60+應(yīng)用,Project Aura明年發(fā)售
谷歌開(kāi)發(fā)EfficientNets 擴(kuò)大CNN并與AutoML結(jié)合
評(píng)論