神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)是提高深度神經(jīng)網(wǎng)絡(luò)性能的基礎(chǔ)。研究人員開發(fā)出了首個通過語法引導(dǎo)的神經(jīng)網(wǎng)絡(luò)生成器AOGNets,它能更有效地在原始數(shù)據(jù)中提取信息,在圖像分類、目標檢測和分割方面的表現(xiàn)優(yōu)于包括ResNets、DenseNets、ResNeXts和DualPathNets在內(nèi)最先進的神經(jīng)網(wǎng)絡(luò)。
北卡羅萊納州立大學(xué)的研究人員開發(fā)了一個通過語法指導(dǎo)的網(wǎng)絡(luò)生成器來打造深度神經(jīng)網(wǎng)絡(luò)的新框架。在實驗測試中,被稱為AOGNets的新網(wǎng)絡(luò)在視覺識別任務(wù)方面優(yōu)于現(xiàn)有的最先進的框架,包括廣泛使用的ResNet和DenseNet系統(tǒng)。
作為這項研究中一篇論文的作者,北卡羅萊納州立大學(xué)電子與計算機工程副教授吳田富博士說:“與我們對比過的任何一個網(wǎng)絡(luò)相比,AOGNets都具有更好的預(yù)測精度?!?AOGNets也更容易解釋,這意味著用戶可以看到系統(tǒng)是如何得出結(jié)論的。”
新框架對系統(tǒng)架構(gòu)使用了一個組合語法方法,該方法可以從以前的網(wǎng)絡(luò)系統(tǒng)上獲取最佳實踐,從而更有效地從原始數(shù)據(jù)中提取有用的信息。
吳教授說:“我們發(fā)現(xiàn),層次和組合語法為我們提供了一種簡單、優(yōu)雅的方法來統(tǒng)一以前系統(tǒng)架構(gòu)所采用的方法,據(jù)我們所知,這是第一個將語法用于網(wǎng)絡(luò)生成的成果。”
為了測試他們的新框架,研究人員開發(fā)了AOGNets,并將其用三個圖像分類基準(CIFAR-10、CIFAR-100和ImageNet-1K)進行了測試。
“在公平比較下,AOGNets的表現(xiàn)明顯優(yōu)于其他所有最先進的網(wǎng)絡(luò),包括ResNets, DenseNets, ResNeXts和DualPathNets?!?吳田富說:”利用圖像網(wǎng)絡(luò)中的網(wǎng)絡(luò)剖分度量,AOGNets獲得了最高的模型可解釋性分。AOGNets在對抗性防御和平臺不可知( platform-agnostic)部署(移動vs云)方面進一步顯示出巨大的潛力?!?/p>
研究人員還使用vanilla Mask R-CNN系統(tǒng)在微軟Coco基準測試中測試了AOGNets在目標檢測和實例語義分割方面的表現(xiàn)。
“在模型尺寸更小、推理時間相似或更短的情況下,AOGNets比ResNet和ResNeXt獲得了更好的結(jié)果?!?吳教授表示:“結(jié)果表明,在目標檢測和分割任務(wù)中,AOGNets具有較好的學(xué)習(xí)效果?!?/p>
這些測試是相關(guān)的,因為圖像分類是視覺識別的核心基礎(chǔ)任務(wù)之一,而ImageNet是標準的大規(guī)模分類基準。同樣,目標檢測和分割是兩個核心的高級視覺任務(wù),而MS-COCO是最廣泛使用的基準之一。
“為了評估用于視覺識別中進行深度學(xué)習(xí)的新網(wǎng)絡(luò)體系結(jié)構(gòu),它們是黃金試驗臺?!?吳田富說道:“AOGNets是在一個有原則的語法框架下開發(fā)的,并在ImageNet和MS-COCO下都得到了顯著的改進,從而對許多實際應(yīng)用中的表示學(xué)習(xí)顯示出潛在的廣泛和深刻的影響?!?/p>
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4838瀏覽量
107874 -
視覺識別
+關(guān)注
關(guān)注
3文章
111瀏覽量
17366
原文標題:AOGNets:首個語法生成網(wǎng)絡(luò),視覺識別優(yōu)于當前最先進框架
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
商湯科技NEO-unify如何打造原生視覺語言理解與生成
愛立信攜手DNB斬獲全球首個自智網(wǎng)絡(luò)L4級認證
語法糾錯和testbench的自動生成
目前最先進的半導(dǎo)體工藝水平介紹
基于LockAI視覺識別模塊:C++人臉識別
基于LockAI視覺識別模塊:C++人臉識別
基于LockAI視覺識別模塊:手寫數(shù)字識別
基于LockAI視覺識別模塊:手寫數(shù)字識別
基于LockAI視覺識別模塊:C++條碼識別
基于LockAI視覺識別模塊:C++條碼識別
Gemini API集成Google圖像生成模型Imagen 3
一種實時多線程VSLAM框架vS-Graphs介紹
首個語法生成網(wǎng)絡(luò) 視覺識別優(yōu)于當前最先進框架
評論