欧美精产国品一二三区视频,人人干人人操人人舔,A片免费在线播放

編者按：卷積神經(jīng)網(wǎng)絡如今的應用已十分廣泛，但是uber的工程師們最近表示，卷積網(wǎng)絡在坐標變換上的缺陷限制了它的性能提升，而uber開發(fā)的CoordConv結構正好可以解決這一問題。以下是論智帶來的編譯：

Uber在很多設計坐標變換的領域都使用了卷積神經(jīng)網(wǎng)絡，從設計自動駕駛工具到自動信號燈監(jiān)測和建造地圖等等，這些工具都大大提升了空間移動效率。

在深度學習中，很少能有像卷積影響深遠的成果。幾乎機器視覺中所有先進成果都用了堆疊的卷積層作為基本搭建模塊。由于這種結構的廣泛應用，我們期待它們能應用于一些簡單任務，例如在小尺寸圖畫上繪畫單一像素。

但令人驚訝的是，卷積結構似乎很難處理看上去很平?，嵥榈娜蝿铡Ｔ谖覀兊恼撐摹狝n Intriguing Failing of Convolutional Neural Networks and the CoordConv Solution中，我們研究并分析了卷積神經(jīng)網(wǎng)絡的一種常見缺陷，即它無法將空間表示轉換成笛卡爾空間中的坐標和one-hot像素空間中的坐標。這很意外，因為這些任務似乎很簡單，并且此類坐標的轉換也是解決常見問題的必備方法，例如圖像中的物體檢測、訓練生成模型、訓練強化學習智能體等等，所以也很重要。經(jīng)過研究我們發(fā)現(xiàn)，這些任務已經(jīng)多多少少受到卷積結構的限制。所以為了提升性能，我們提出了一種名為CoordConv的解決方案，在多個領域進行了成果展示。

發(fā)現(xiàn)一：CNN很難做到監(jiān)督式渲染

我們先從一個簡單的監(jiān)督式渲染開始，假設我們向一個網(wǎng)絡中輸入(i, j)坐標，要求它輸出一個64×64的圖像，并在坐標處畫一個正方形，如圖1a所示。你會用哪種網(wǎng)絡進行這一問題呢？

我們可以借鑒很多用于圖片生成的方法，用反卷積層畫正方形。為了測試這種方法，我們創(chuàng)建了一個數(shù)據(jù)集，其中在64×64的畫布上隨機放置了一些9×9的方塊，如圖1b所示。將數(shù)據(jù)集中方塊所有可能的位置列出后，總共有3136個樣本。為了評估模型生成的表現(xiàn)，我們將樣本分為兩組訓練/測試數(shù)據(jù)集：一組是將數(shù)據(jù)集中80%坐標用于訓練，20%用于測試。另一組中將畫布從中分為四個象限，坐標位于前三個象限的用于訓練，第四象限的坐標用于測試。兩組數(shù)據(jù)的分布如1c所示。

圖1

我們設想CNN能完成這個任務，因為它很簡單（整個數(shù)據(jù)集可能用兩行Python就能表示出來了），并且數(shù)據(jù)集很小，我們能輕易地用模型進行參數(shù)設定。但結果恰恰相反，CNN表現(xiàn)得極差。即使有1M的參數(shù)、訓練了90分鐘（圖2b），模型在第一個數(shù)據(jù)集上也沒達到0.83的IOU分數(shù)，在第二個數(shù)據(jù)集上甚至都沒超過0.36（圖2a）。

圖2

簡化任務以及發(fā)現(xiàn)二：監(jiān)督式坐標分類對CNN也很困難

所以為什么監(jiān)督式渲染對CNN這么難？我們需要深入挖掘一下原因。的確，如果在直接的監(jiān)督條件下渲染訓練都這么困難，在無監(jiān)督下會更有挑戰(zhàn)性。

我們先看一下是什么讓這個問題變得困難?，F(xiàn)在我們讓網(wǎng)絡簡單地繪制一個像素，而不是9×9的方塊。可以想象，如果這個任務能解決，那么之后的反卷積網(wǎng)絡就可以輕易地將單一像素擴展成更大的方塊。于是我們開始了監(jiān)督式坐標分類任務（如圖3a）其中的數(shù)據(jù)集包括成對的(i, j)坐標，并且有單一對應像素的圖像，如圖3b：

圖3

之后我們又嘗試了擁有不同參數(shù)的網(wǎng)絡，發(fā)現(xiàn)及時有些網(wǎng)絡能記住訓練集，但沒有一個的測試準確率超過86%（如圖4a）。并且訓練時間都超過了一小時。

圖4 兩數(shù)據(jù)集上的訓練和測試結果

我們期望卷積網(wǎng)絡能表現(xiàn)的很好，但是很遺憾它并沒有。為了弄清楚原因，我們選擇了表現(xiàn)最好的網(wǎng)絡，來驗證結果。

我們讓網(wǎng)絡畫一張圖，上面僅有一個像素（即在one-hot表示中的值為1）。為了看看發(fā)生了什么，我們放大了該區(qū)域。在圖5中，目標像素用紅色圈出，我們展示出了模型的softmax預測和logits圖。第一個像素（第一行）是訓練集中的數(shù)據(jù)，所以模型做對了，雖然模型在其周圍也做了一些預測。第二個像素（第二行）來自測試集，模型險些沒有猜對，可以看到左上像素的概率也挺大的。最后一個像素（第三行）顯示模型完全預測錯誤。

圖5

反方向和第三個發(fā)現(xiàn)：監(jiān)督式回歸對CNN同樣很難

所以為什么網(wǎng)絡很難定位一個像素呢？是因為從小空間到大空間的轉換很困難嗎？如果朝一個方向會不會容易點呢？如果我們訓練卷積網(wǎng)絡將圖像信息轉換成標量坐標，是否與普通圖像分類更相似呢？

結果模型在這種監(jiān)督式回歸的任務上同樣表現(xiàn)得不好。在圖10中，左邊圖中的點表示正確的像素坐標，中間圖中的點表示模型的預測。模型在測試集上表現(xiàn)得不好，并且在訓練集上也差強人意。

簡單地說，方向根本不重要。

所以，這一看似簡單的坐標轉換任務在卷積網(wǎng)絡身上主要有兩個問題：從笛卡爾空間轉換到one-hot像素空間及其他方式上。即使用監(jiān)督式方法進行訓練，即使只有一個像素，即使所有的訓練案例很容易獲得，卷積仍然學不會順利轉換。另外，表現(xiàn)最好的卷機模型體積巨大，訓練耗時很長。

解決辦法：CoordConv

我們提出了解決這一難題的方法。

卷積是等變的，也就是說當每個過濾器應用到輸入上時，它不知道每個過濾器在哪。我們可以幫助卷積，讓它知道過濾器的位置。這一過程需要在輸入上添加兩個通道實現(xiàn)，一個在i坐標，另一個在j坐標。我們將這個圖層成為CoordConv，如圖6所示：

圖6

我們提出的CoordConv圖層是標準卷積層的簡單擴展，其中卷積和坐標相對應。讓卷積過濾器看到坐標其實違背了等變性原則，看起來不是個好方法，但是，等變性原則對卷積有好處嗎？

我們認為，卷積獲得成功的原因主要依靠三個元素：運用相對較少的學習參數(shù)、在GPU上計算速度很快、它學習的函數(shù)時符合平移等變性的。

CoordConv保留了前兩種特點——較少的參數(shù)和高效的計算。如果坐標的權重變?yōu)榱悖珻oordConv就和普通卷積沒什么區(qū)別。另一方面，如果平移依賴對下游任務有用的話，它也同樣可以學習。

CoordConv與目前很多理念相關，例如局部連接層、復合模式生成網(wǎng)絡（CPPN）以及語言建模中用到的位置嵌入。

用CoordConv解決此前的監(jiān)督問題

首先，讓我們回顧下剛剛提到的任務，并看一下CoordConv如何解決。

如圖7和圖8所示，CoordConv模型在監(jiān)督式坐標分類和監(jiān)督式渲染任務上都達到了最佳訓練和測試性能。另外，CoordConv的參數(shù)比之前少10—100倍，訓練時間幾秒就完成，比之前快了150倍。

圖7

圖8

為了進一步驗證，下圖9展示了普通反卷積和CoordConv的對比：

圖9

當用卷積繪制像素時，我們發(fā)現(xiàn)了明顯的殘影和過擬合現(xiàn)象。CoordConv在訓練集和測試集上都表現(xiàn)的很好。同樣，在反方向的情況上也是如此。盡管卷積很難對坐標進行回歸，CoordConv能表現(xiàn)的很好：

圖10

CoordConv應用廣泛

以下是我們總結的CoordConv的應用場景：

目標檢測

目標檢測模型也是在像素塊空間中尋找，輸出的是笛卡爾空間中的邊界框，所以看起來CoordConv很適合。我們還發(fā)現(xiàn)，在簡單的MNIST數(shù)據(jù)集檢測上，F(xiàn)aster-RCNN網(wǎng)絡的IOU分數(shù)提高了約24%。

圖像分類

在所有視覺任務中，我們很期待CoordConv對分類任務的提高，因為分類更關乎的是“這物體是什么”而不是“它在哪”。實際上，當我們將CoordConv圖層添加到ResNet-50的底部，并在ImageNet上訓練后，卻只有很少的進步。

生成模型

在類似GAN和VAE這樣的生成模型中，像素是在隱藏空間中的，對于高層次概念的編碼是很理想的位置。也許CoordConv能對此有所幫助。利用基于Sort-of-CLEVR的簡單數(shù)據(jù)集，我們訓練了GAN和VAE，并展示了隱藏空間之間的插值。

這次的任務是生成帶有顏色的形狀。圖11左邊是普通的GAN，右邊是CoordConv GAN。我們在隱藏空間中對點之間進行插值，研究CoordConv的影響，這也是評估生成模型性能的常用方法之一。

圖11

對于普通GAN來說，動畫一開始看起來很好。但是當我們近距離觀察后發(fā)現(xiàn)，并不是所有像素都在移動。一些小的殘影會靜止不動，有些點會時不時的消失再出現(xiàn)。當我們加入CoordConv后，動作變得流暢了許多。

在訓練VAE時我們也發(fā)現(xiàn)了相似的情況。在有卷積的情況下，我們觀察到圖中一部分物體會逐漸消失，但后來加入CoordConv就不會有這種情況。

當用GAN繪制更大的場景時，普通的GAN仍會出現(xiàn)靜止不動的物體時不時消失，而CoordConv對于變換就很流暢。

強化學習

強化學習也是CoordConv想提供幫助的一個領域，我們訓練智能體玩吃豆人，我們認為如果卷積過濾器能立刻認出其他豆人并且鎖定其在迷宮中的位置，那么這對學習更好的策略是很有幫助的。

我們試著將CoordConv加入到Distributed Prioritized Experience Replay（Ape-X）中，但是CoordConv并沒有立即提升其性能。我們又試了A2C，這是一種常用的策略梯度方法，CoordConv起了作用。經(jīng)過訓練，如我們所想，吃豆人的分數(shù)有所提高，也證明CoordConv可以幫助強化學習。