我們了解神經(jīng)網(wǎng)絡(luò)以及它們從數(shù)據(jù)科學到計算機視覺的多個領(lǐng)域中的無數(shù)成就。眾所周知,它們在解決有關(guān)泛化性方面的復雜任務(wù)中表現(xiàn)良好。從數(shù)學上講,他們非常擅長近似任何的復雜函數(shù)。讓我們形象化地理解這種近似概念,而不是前向和后向傳播方法中的最小化預測誤差。假設(shè)你了解前向和后向傳播的一點基礎(chǔ),其旨在借助梯度和網(wǎng)絡(luò)中的錯誤傳播來近似函數(shù)。讓我們通過另一種視覺解釋來理解神經(jīng)網(wǎng)絡(luò)的近似能力。其中涉及基礎(chǔ)數(shù)學和圖形分析。
在數(shù)學上,我們將研究給定神經(jīng)網(wǎng)絡(luò)的表征能力,以便提供近似的函數(shù)。
表征能力與神經(jīng)網(wǎng)絡(luò)的能力相關(guān),神經(jīng)網(wǎng)絡(luò)會為特定實例分配適當標簽并為該類創(chuàng)建明確定義的準確決策邊界。在本文中,我們將探索一種視覺方法,用于更多地了解神經(jīng)網(wǎng)絡(luò)的近似特性,這與神經(jīng)網(wǎng)絡(luò)的表征能力直接相關(guān)。
旅程
它始于MP 神經(jīng)元模型,它是一個非常簡化的神經(jīng)元模型。通過非常簡單地概念,神經(jīng)元激活與否取決于某一閾值,即只有當其輸入總和大于給定函數(shù)的閾值時,神經(jīng)元才被激活,否則神經(jīng)元不會發(fā)生輸出信號。為了檢查它的表征能力,讓我們看它的幾何解釋。首先進行2-D分析,使用2個輸入來近似OR函數(shù),然后使用3個輸入進行3-D分析。

對于二維坐標系中的分離,需要一條分類直線。神經(jīng)元會向直線右側(cè)的點發(fā)射信號。因此,就創(chuàng)建出了分離邊界。

對于三維坐標系中的分離,需要一個分類面。神經(jīng)元會向這個面上方的所有的點發(fā)射信號。
因此,M-P神經(jīng)元模型可用于表示任何線性可分的布爾函數(shù)。此外,我們可以看到一個嚴格的分界規(guī)則,而不是一個漸進的決策邊界,任何略高于分離邊界的為1,下面的正好為0。神經(jīng)元觸發(fā)了和階梯函數(shù)一樣的行為。感知器的每個輸入都帶有權(quán)重,但仍然存在嚴格的劃分,從而實現(xiàn)了更大的靈活性。但是,上述機制不能處理非線性可分函數(shù)。一個非常簡單的例子比如異或(XOR,兩個輸入如果相同,輸出為0;兩個輸入如果是不同,輸出為1),就無法用一條直線來分割開來,想象一下在這個函數(shù)的2維平面上繪制一條分離線。讓感知器處理異或這樣線性不可分問題,它就無能為力了。大多數(shù)數(shù)據(jù)與異或非常相似,本質(zhì)上是線性不可分的。
因此,需要先進的計算模型,如當前需要為這些函數(shù)創(chuàng)建分離邊界的神經(jīng)網(wǎng)絡(luò)。只需看一個包含一個隱藏層和一些復制異或函數(shù)的預定義權(quán)重的基本圖。

圖:紅線表示權(quán)重為-1,藍色表示權(quán)重為+1
異或函數(shù)實現(xiàn)的條件:w1
記住:具有n個輸入的任何布爾函數(shù)都可以由感知器網(wǎng)絡(luò)表示,感知器網(wǎng)絡(luò)包含具有2 ^ n個感知器的1個隱藏層和包含1個感知器的1個輸出層。這是充分不必要條件。
通過我們對具有階梯函數(shù)(如近似)的單個隱藏層網(wǎng)絡(luò)的分析。它的嚴格判斷標準與階梯函數(shù)一樣具有局限性。讓我們深入研究具有S形非線性逼近函數(shù)的多層深度網(wǎng)絡(luò)。
時過境遷
經(jīng)過sigmoid激活的神經(jīng)元具有非常強的表征能力。具有一個單隱層的多層神經(jīng)元網(wǎng)絡(luò)可以近似任意連續(xù)函數(shù),并達到任何想達到的精度。
數(shù)學上,可以得到這樣的證明:對于任意函數(shù)f(x):R(n)→ R(m),我們總可以找到一個擁有(單或多)隱層的神經(jīng)網(wǎng)絡(luò),其輸出g(x)滿足 |g(x)-f(x)| 《 Θ。
上述的說法在自然界中是非常的。因為它意味著,我們可以用一個給定的神經(jīng)網(wǎng)絡(luò)去近似任意函數(shù)。從數(shù)學角度來講,萬能近似定理(universal approximation theorem)指出,在對激活函數(shù)溫和的假設(shè)下,一個包含有限神經(jīng)元的單隱層自編碼網(wǎng)絡(luò)可以近似R(n)緊致子集上的任意連續(xù)函數(shù)。這個理論因此也就說明,在給定合適參數(shù)下,簡單的神經(jīng)網(wǎng)絡(luò)可以代表各種各樣的函數(shù)。然而,它并沒有涉及到那些參數(shù)的算法收斂性。收斂是和前饋、后饋算法相關(guān)的。下面讓我們通過一種直觀的解釋方式來理解上述理論,它是神經(jīng)網(wǎng)絡(luò)學習的基礎(chǔ)。

對函數(shù)近似的幾何解釋。是數(shù)值近似中一種經(jīng)典的數(shù)學方式。
結(jié)束游戲:Sigmoids的塔
繼續(xù)上述與神經(jīng)網(wǎng)絡(luò)近似函數(shù)的對話。只需看下面的圖表并自行決定??梢酝ㄟ^疊加多個塔功能來近似函數(shù)。該過程將形成與給定函數(shù)等效的形狀,其中與一些小的近似誤差是近似的?,F(xiàn)在,上面對通用近似定理的解釋告訴我們,我們用于近似的更多塔數(shù)是近似行為。因此,調(diào)整在Sigmoid激活函數(shù)中參數(shù),目的是創(chuàng)建這樣的近似塔。從理論上講,根據(jù)這種解釋,對神經(jīng)網(wǎng)絡(luò)的準確性沒有限制。

顯然,塔的數(shù)量越多,近似效果越好,近似誤差越小。
讓我們更深入地探討這個解釋過程。所有這些“tower”功能都是相似的,只是它們在x軸上的高度和位置不同。現(xiàn)在,我們必須看看這些Towers是如何用sigmoid激活函數(shù)創(chuàng)建的。

我們的目標是找出用于塔式結(jié)構(gòu)的黑匣子塔式制造機。
典型的邏輯sigmoid激活函數(shù)方程如下。

w:代表權(quán)重 b:代表偏置
隨著w的增加,函數(shù)變得像階梯函數(shù)更陡峭。b的更正值將曲線從原始曲線向左移動。
因此,通過改變這些值,我們可以創(chuàng)建不同版本的sigmoids激活函數(shù),我們可以相互疊加以獲得塔狀結(jié)構(gòu)。為了在二維坐標系中創(chuàng)建塔,減去兩個曲線不同的偏置值。

左曲線的偏置值b具有更大的正值。因此,上面的隨機曲線可以用多個這樣的塔近似或表示。
我們可以將此操作擴展到神經(jīng)網(wǎng)絡(luò)的隱藏層,以構(gòu)建模擬這種曲線減法方法的神經(jīng)網(wǎng)絡(luò)。因此,神經(jīng)網(wǎng)絡(luò)可以表示任何具有權(quán)重和偏置的參數(shù)值的這樣的函數(shù),我們使用我們的前向和后向傳播算法不斷的確定這些參數(shù)值直到收斂標準。

現(xiàn)在,可以通過疊加這樣的塔來近似上述功能的隨機曲線。
案例研究
考慮具有多個輸入的場景。假設(shè)我們在海床的特定位置是否會找到石油這個問題試圖做出決策。此外,假設(shè)我們的決策基于兩個因素:鹽度(x1)和壓力(x2)。一些數(shù)據(jù)已經(jīng)給了我們, y(有油|無油) 似乎是一個x1和x2的復合函數(shù)。我們想要一個神經(jīng)網(wǎng)絡(luò)來近似這個函數(shù)。

上面的插圖繪制了上述場景。顯然,我們需要三維塔近似這個分布函數(shù)。
按照我們的理解,需要在三維坐標系中制作這樣的三維閉合塔。如果我們繼續(xù)使用上述類似的方法,在三維空間中,兩個有不同偏置值的sigmoids激活函數(shù)相減。我們將得到以下的等效曲線。

我們?nèi)匀粵]有得到一個封閉的塔。
但是,我們可以看到,如果我們采用另一個水平垂直的塔架到現(xiàn)在組合的曲線上。在疊加這兩個水平垂直的開放式塔時,我們就可以得到封閉的塔。

我們可以通過另一個組合的sigmoid激活函數(shù)來傳遞上面的輸出, 從而能得到一個最近似的合適的塔。

我們現(xiàn)在可以通過總結(jié)許多這樣的塔來近似任何的函數(shù)。
上述案例研究中的復雜分布函數(shù)可以借助多個這樣的塔來重建。在這里,我們看一個神經(jīng)網(wǎng)絡(luò)來表示上述過程。

我們可以通過另一個組合的sigmoid激活函數(shù)來傳遞上面的輸出, 這意味著我們可以有一個神經(jīng)網(wǎng)絡(luò),它可以準確地分離出像上面的案例研究中提到的分布。對神經(jīng)網(wǎng)絡(luò)的準確性沒有理論上的限制。

我們有興趣將藍點與紅點分開。單個S形神經(jīng)元存在明顯的誤差。但是,通過兩個隱藏層,我們可以通過塔的總和來近似上述函數(shù)。我們可以有一個神經(jīng)網(wǎng)絡(luò),它可以準確地將藍點與紅點分開!
電子發(fā)燒友App







評論