解析神經(jīng)網(wǎng)絡(luò)進行表征的過程

我們了解神經(jīng)網(wǎng)絡(luò)以及它們從數(shù)據(jù)科學到計算機視覺的多個領(lǐng)域中的無數(shù)成就。眾所周知，它們在解決有關(guān)泛化性方面的復雜任務(wù)中表現(xiàn)良好。從數(shù)學上講，他們非常擅長近似任何的復雜函數(shù)。讓我們形象化地理解這種近似概念，而不是前向和后向傳播方法中的最小化預測誤差。假設(shè)你了解前向和后向傳播的一點基礎(chǔ)，其旨在借助梯度和網(wǎng)絡(luò)中的錯誤傳播來近似函數(shù)。讓我們通過另一種視覺解釋來理解神經(jīng)網(wǎng)絡(luò)的近似能力。其中涉及基礎(chǔ)數(shù)學和圖形分析。

在數(shù)學上，我們將研究給定神經(jīng)網(wǎng)絡(luò)的表征能力，以便提供近似的函數(shù)。

表征能力與神經(jīng)網(wǎng)絡(luò)的能力相關(guān)，神經(jīng)網(wǎng)絡(luò)會為特定實例分配適當標簽并為該類創(chuàng)建明確定義的準確決策邊界。在本文中，我們將探索一種視覺方法，用于更多地了解神經(jīng)網(wǎng)絡(luò)的近似特性，這與神經(jīng)網(wǎng)絡(luò)的表征能力直接相關(guān)。

旅程

它始于MP 神經(jīng)元模型，它是一個非常簡化的神經(jīng)元模型。通過非常簡單地概念，神經(jīng)元激活與否取決于某一閾值，即只有當其輸入總和大于給定函數(shù)的閾值時，神經(jīng)元才被激活，否則神經(jīng)元不會發(fā)生輸出信號。為了檢查它的表征能力，讓我們看它的幾何解釋。首先進行2-D分析，使用2個輸入來近似OR函數(shù)，然后使用3個輸入進行3-D分析。

解析神經(jīng)網(wǎng)絡(luò)進行表征的過程

對于二維坐標系中的分離，需要一條分類直線。神經(jīng)元會向直線右側(cè)的點發(fā)射信號。因此，就創(chuàng)建出了分離邊界。

解析神經(jīng)網(wǎng)絡(luò)進行表征的過程

對于三維坐標系中的分離，需要一個分類面。神經(jīng)元會向這個面上方的所有的點發(fā)射信號。

因此，M-P神經(jīng)元模型可用于表示任何線性可分的布爾函數(shù)。此外，我們可以看到一個嚴格的分界規(guī)則，而不是一個漸進的決策邊界，任何略高于分離邊界的為1，下面的正好為0。神經(jīng)元觸發(fā)了和階梯函數(shù)一樣的行為。感知器的每個輸入都帶有權(quán)重，但仍然存在嚴格的劃分，從而實現(xiàn)了更大的靈活性。但是，上述機制不能處理非線性可分函數(shù)。一個非常簡單的例子比如異或（XOR，兩個輸入如果相同，輸出為0；兩個輸入如果是不同，輸出為1），就無法用一條直線來分割開來，想象一下在這個函數(shù)的2維平面上繪制一條分離線。讓感知器處理異或這樣線性不可分問題，它就無能為力了。大多數(shù)數(shù)據(jù)與異或非常相似，本質(zhì)上是線性不可分的。

因此，需要先進的計算模型，如當前需要為這些函數(shù)創(chuàng)建分離邊界的神經(jīng)網(wǎng)絡(luò)。只需看一個包含一個隱藏層和一些復制異或函數(shù)的預定義權(quán)重的基本圖。

解析神經(jīng)網(wǎng)絡(luò)進行表征的過程

圖：紅線表示權(quán)重為-1，藍色表示權(quán)重為+1

異或函數(shù)實現(xiàn)的條件：w1

記住：具有n個輸入的任何布爾函數(shù)都可以由感知器網(wǎng)絡(luò)表示，感知器網(wǎng)絡(luò)包含具有2 ^ n個感知器的1個隱藏層和包含1個感知器的1個輸出層。這是充分不必要條件。

通過我們對具有階梯函數(shù)（如近似）的單個隱藏層網(wǎng)絡(luò)的分析。它的嚴格判斷標準與階梯函數(shù)一樣具有局限性。讓我們深入研究具有S形非線性逼近函數(shù)的多層深度網(wǎng)絡(luò)。

時過境遷

經(jīng)過sigmoid激活的神經(jīng)元具有非常強的表征能力。具有一個單隱層的多層神經(jīng)元網(wǎng)絡(luò)可以近似任意連續(xù)函數(shù)，并達到任何想達到的精度。

數(shù)學上，可以得到這樣的證明：對于任意函數(shù)f（x）：R（n）→ R（m），我們總可以找到一個擁有（單或多）隱層的神經(jīng)網(wǎng)絡(luò)，其輸出g（x）滿足 |g（x）-f（x）| 《 Θ。

上述的說法在自然界中是非常的。因為它意味著，我們可以用一個給定的神經(jīng)網(wǎng)絡(luò)去近似任意函數(shù)。從數(shù)學角度來講，萬能近似定理（universal approximation theorem）指出，在對激活函數(shù)溫和的假設(shè)下，一個包含有限神經(jīng)元的單隱層自編碼網(wǎng)絡(luò)可以近似R（n）緊致子集上的任意連續(xù)函數(shù)。這個理論因此也就說明，在給定合適參數(shù)下，簡單的神經(jīng)網(wǎng)絡(luò)可以代表各種各樣的函數(shù)。然而，它并沒有涉及到那些參數(shù)的算法收斂性。收斂是和前饋、后饋算法相關(guān)的。下面讓我們通過一種直觀的解釋方式來理解上述理論，它是神經(jīng)網(wǎng)絡(luò)學習的基礎(chǔ)。

解析神經(jīng)網(wǎng)絡(luò)進行表征的過程

對函數(shù)近似的幾何解釋。是數(shù)值近似中一種經(jīng)典的數(shù)學方式。

結(jié)束游戲：Sigmoids的塔

繼續(xù)上述與神經(jīng)網(wǎng)絡(luò)近似函數(shù)的對話。只需看下面的圖表并自行決定?？梢酝ㄟ^疊加多個塔功能來近似函數(shù)。該過程將形成與給定函數(shù)等效的形狀，其中與一些小的近似誤差是近似的?，F(xiàn)在，上面對通用近似定理的解釋告訴我們，我們用于近似的更多塔數(shù)是近似行為。因此，調(diào)整在Sigmoid激活函數(shù)中參數(shù)，目的是創(chuàng)建這樣的近似塔。從理論上講，根據(jù)這種解釋，對神經(jīng)網(wǎng)絡(luò)的準確性沒有限制。

解析神經(jīng)網(wǎng)絡(luò)進行表征的過程

顯然，塔的數(shù)量越多，近似效果越好，近似誤差越小。

讓我們更深入地探討這個解釋過程。所有這些“tower”功能都是相似的，只是它們在x軸上的高度和位置不同。現(xiàn)在，我們必須看看這些Towers是如何用sigmoid激活函數(shù)創(chuàng)建的。

解析神經(jīng)網(wǎng)絡(luò)進行表征的過程

我們的目標是找出用于塔式結(jié)構(gòu)的黑匣子塔式制造機。

典型的邏輯sigmoid激活函數(shù)方程如下。

解析神經(jīng)網(wǎng)絡(luò)進行表征的過程

w：代表權(quán)重 b：代表偏置

隨著w的增加，函數(shù)變得像階梯函數(shù)更陡峭。b的更正值將曲線從原始曲線向左移動。

因此，通過改變這些值，我們可以創(chuàng)建不同版本的sigmoids激活函數(shù)，我們可以相互疊加以獲得塔狀結(jié)構(gòu)。為了在二維坐標系中創(chuàng)建塔，減去兩個曲線不同的偏置值。

解析神經(jīng)網(wǎng)絡(luò)進行表征的過程

左曲線的偏置值b具有更大的正值。因此，上面的隨機曲線可以用多個這樣的塔近似或表示。

我們可以將此操作擴展到神經(jīng)網(wǎng)絡(luò)的隱藏層，以構(gòu)建模擬這種曲線減法方法的神經(jīng)網(wǎng)絡(luò)。因此，神經(jīng)網(wǎng)絡(luò)可以表示任何具有權(quán)重和偏置的參數(shù)值的這樣的函數(shù)，我們使用我們的前向和后向傳播算法不斷的確定這些參數(shù)值直到收斂標準。

解析神經(jīng)網(wǎng)絡(luò)進行表征的過程

現(xiàn)在，可以通過疊加這樣的塔來近似上述功能的隨機曲線。

案例研究

考慮具有多個輸入的場景。假設(shè)我們在海床的特定位置是否會找到石油這個問題試圖做出決策。此外，假設(shè)我們的決策基于兩個因素：鹽度（x1）和壓力（x2）。一些數(shù)據(jù)已經(jīng)給了我們， y（有油|無油）似乎是一個x1和x2的復合函數(shù)。我們想要一個神經(jīng)網(wǎng)絡(luò)來近似這個函數(shù)。

解析神經(jīng)網(wǎng)絡(luò)進行表征的過程