91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

深層神經(jīng)網(wǎng)絡模型的訓練:過擬合優(yōu)化

電子設計 ? 來源:TOMORROW 星辰 ? 作者:TOMORROW 星辰 ? 2020-12-02 14:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

·過擬合(Overfitting)

深層神經(jīng)網(wǎng)絡模型的訓練過程,就是尋找一個模型能夠很好的擬合現(xiàn)有的數(shù)據(jù)(訓練集),同時能夠很好的預測未來的數(shù)據(jù)。

在訓練過程中由于模型建立的不恰當,往往所訓練得到的模型能夠?qū)τ柧毤臄?shù)據(jù)非常好的擬合,但是卻在預測未來的數(shù)據(jù)上表現(xiàn)得非常差,這種情況就叫做過擬合(Overfitting)。

為了訓練出高效可用的深層神經(jīng)網(wǎng)絡模型,在訓練時必須要避免過擬合的現(xiàn)象。過擬合現(xiàn)象的優(yōu)化方法通常有三種,分別是:正則化(Regulation),擴增訓練集(Data augmentation)以及提前停止迭代(Early stopping)。

·正則化(Regulation)

正則化方法是指在進行損失函數(shù)(costfunction)優(yōu)化時,在損失函數(shù)后面加上一個正則項。

正則化方法中目前常用的有兩種方法:L2 正則化和 Dropout 正則化。

L2 正則

L2 正則是基于 L2 范數(shù),即在函數(shù)后面加上參數(shù)的 L2 范數(shù)的平方,即:

其中J0是原損失函數(shù),m 表示數(shù)據(jù)集的大小。使用下式對參數(shù)進行更新:

其中,因此知道 w 在進行權重衰減。在神經(jīng)網(wǎng)絡中,當一個神經(jīng)元的權重越小時,那么該神經(jīng)元在神經(jīng)網(wǎng)絡中起到的作用就越小,當權重為 0 時,那么該神經(jīng)元就可以被神經(jīng)網(wǎng)絡剔除。而過擬合現(xiàn)象出現(xiàn)的原因之一就是,模型復雜度過高。那么,也就是說 L2 正則化后,權重會衰減,從而降低了模型的復雜度,從而一定程度上避免對數(shù)據(jù)過擬合。

隨機失活(Dropout)正則

其實 Dropout 的思路與 L2 的思路是一致的,都是降低模型的復雜度,從而避免過擬合。只是實現(xiàn)的方法有所不同。

Dropout 的做法是,在訓練過程中,按照一定的概率隨機的忽略掉一些神經(jīng)元,使其失活,從而就降低了模型的復雜度,提高了泛化的能力,一定程度上避免了過擬合。

常用的實現(xiàn)方法是 InvertedDropout。

使用 Dropout 的小技巧

·1、通常丟棄率控制在 20%~50%比較好,可以從 20%開始嘗試。如果比例太低則起不到效果,比例太高則會導致模型的欠學習。

·2、在大的網(wǎng)絡模型上應用。當 dropout 用在較大的網(wǎng)絡模型時更有可能得到效果的提升,模型有更多的機會學習到多種獨立的表征。

·3、在輸入層(可見層)和隱藏層都使用 dropout。在每層都應用 dropout 被證明會取得好的效果。

·4、增加學習率和沖量。把學習率擴大 10~100 倍,沖量值調(diào)高到 0.9~0.99.

·5、限制網(wǎng)絡模型的權重。大的學習率往往導致大的權重值。對網(wǎng)絡的權重值做最大范數(shù)正則化等方法被證明會提升效果。

·擴增訓練集(Data augmentation)

“有時候不是因為算法好贏了,而是因為擁有更多的數(shù)據(jù)才贏了?!?/p>

特別在深度學習中,更多的訓練數(shù)據(jù),意味著可以訓練更深的網(wǎng)絡,訓練出更好的模型。

然而很多時候,收集更多的數(shù)據(jù)并不那么容易,要付出很大的代價。那么,為了得到更多的訓練數(shù)據(jù),我們可以在原有的數(shù)據(jù)上做一些改動產(chǎn)生新的可用數(shù)據(jù),以圖片數(shù)據(jù)為例,將圖片水平翻轉(zhuǎn),放大或者選擇一個小角度都可以得到新的圖片數(shù)據(jù)用于訓練。

雖然這樣的效果沒有全新的數(shù)據(jù)更加好,但是付出的代價卻是接近于零的。所以,很多情況下,這是一個非常好的數(shù)據(jù)擴增方法。

·提前停止迭代(Early stopping)

在訓練過程中繪制訓練集誤差函數(shù)的同時也繪制交叉驗證集的誤差。從下面的圖可以看出,訓練集誤差隨著迭代次數(shù)增加而不斷降低,而驗證集誤差卻是先降低后上升。很明顯,在這個模型中,我們希望驗證集誤差和訓練集誤差都盡量的小,那么最優(yōu)點就是在驗證集誤差的最低點,訓練應該在該點處停止,也就是選取該點處的權重值作為神經(jīng)網(wǎng)絡的參數(shù)。

但是這種優(yōu)化方法有很大的缺點。因為提前停止訓練,也就是停止優(yōu)化訓練集的誤差,通常情況下,在驗證集誤差達到最小值時,訓練集誤差還未處于一個足夠小的值。從而使得該模型雖然沒有出現(xiàn)過擬合現(xiàn)象,卻是出現(xiàn)了欠擬合的情況。當然,這種優(yōu)化方法還是有著表現(xiàn)優(yōu)異的使用場景的。
編輯:hfy

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    算法工程師需要具備哪些技能?

    景:神經(jīng)網(wǎng)絡中的權重矩陣計算、降維算法(如PCA)等。 概率論與數(shù)理統(tǒng)計核心內(nèi)容:貝葉斯定理、最大似然估計、假設檢驗等。應用場景:模型不確定性分析、A/B測試效果評估等。 微積分核心內(nèi)容:導數(shù)、梯度
    發(fā)表于 02-27 10:53

    面向嵌入式部署的神經(jīng)網(wǎng)絡優(yōu)化模型壓縮深度解析

    1.為什么需要神經(jīng)網(wǎng)絡模型壓縮? 神經(jīng)網(wǎng)絡已經(jīng)成為解決復雜機器學習問題的強大工具。然而,這種能力往往伴隨著模型規(guī)模和計算復雜度的增加。當輸入維度較大(例如長時序窗口、高分辨率特征空間)
    的頭像 發(fā)表于 02-24 15:37 ?5069次閱讀
    面向嵌入式部署的<b class='flag-5'>神經(jīng)網(wǎng)絡</b><b class='flag-5'>優(yōu)化</b>:<b class='flag-5'>模型</b>壓縮深度解析

    神經(jīng)網(wǎng)絡的初步認識

    日常生活中的智能應用都離不開深度學習,而深度學習則依賴于神經(jīng)網(wǎng)絡的實現(xiàn)。什么是神經(jīng)網(wǎng)絡?神經(jīng)網(wǎng)絡的核心思想是模仿生物神經(jīng)系統(tǒng)的結構,特別是大腦中神經(jīng)
    的頭像 發(fā)表于 12-17 15:05 ?338次閱讀
    <b class='flag-5'>神經(jīng)網(wǎng)絡</b>的初步認識

    激活函數(shù)ReLU的理解與總結

    ): 隨著人工神經(jīng)網(wǎng)絡快速發(fā)展,研究人員都對其研究,演化出更多的,更加復雜的,更深的神經(jīng)網(wǎng)絡來提高精確度。而激活函數(shù)的不同也會導致擬合等問題?,F(xiàn)在我們看看經(jīng)典的
    發(fā)表于 10-31 06:16

    CNN卷積神經(jīng)網(wǎng)絡設計原理及在MCU200T上仿真測試

    數(shù)的提出很大程度的解決了BP算法在優(yōu)化深層神經(jīng)網(wǎng)絡時的梯度耗散問題。當x&gt;0 時,梯度恒為1,無梯度耗散問題,收斂快;當x&lt;0 時,該層的輸出為0。 CNN
    發(fā)表于 10-29 07:49

    NMSIS神經(jīng)網(wǎng)絡庫使用介紹

    NMSIS NN 軟件庫是一組高效的神經(jīng)網(wǎng)絡內(nèi)核,旨在最大限度地提高 Nuclei N 處理器內(nèi)核上的神經(jīng)網(wǎng)絡的性能并最??大限度地減少其內(nèi)存占用。 該庫分為多個功能,每個功能涵蓋特定類別
    發(fā)表于 10-29 06:08

    構建CNN網(wǎng)絡模型優(yōu)化的一般化建議

    :Dropout層隨機跳過神經(jīng)網(wǎng)絡模型中某些神經(jīng)元之間的連接,通過隨機制造缺陷進行訓練提升整個神經(jīng)網(wǎng)絡的魯棒性。 6)指定合理的學習率策
    發(fā)表于 10-28 08:02

    如何將訓練好的神經(jīng)網(wǎng)絡模型部署到蜂鳥e203開發(fā)板上

    本帖欲分享如何將訓練好的神經(jīng)網(wǎng)絡模型部署到蜂鳥e203開發(fā)板上。 1. 加載TFLite模型 std::unique_ptr interpreter(new tflite::Inte
    發(fā)表于 10-22 08:04

    在Ubuntu20.04系統(tǒng)中訓練神經(jīng)網(wǎng)絡模型的一些經(jīng)驗

    , batch_size=512, epochs=20)總結 這個核心算法中的卷積神經(jīng)網(wǎng)絡結構和訓練過程,是用來對MNIST手寫數(shù)字圖像進行分類的。模型將圖像作為輸入,通過卷積和池化層提取圖像的特征,然后通過全連接層進行分類預
    發(fā)表于 10-22 07:03

    液態(tài)神經(jīng)網(wǎng)絡(LNN):時間連續(xù)性與動態(tài)適應性的神經(jīng)網(wǎng)絡

    1.算法簡介液態(tài)神經(jīng)網(wǎng)絡(LiquidNeuralNetworks,LNN)是一種新型的神經(jīng)網(wǎng)絡架構,其設計理念借鑒自生物神經(jīng)系統(tǒng),特別是秀麗隱桿線蟲的神經(jīng)結構,盡管這種微生物的
    的頭像 發(fā)表于 09-28 10:03 ?1252次閱讀
    液態(tài)<b class='flag-5'>神經(jīng)網(wǎng)絡</b>(LNN):時間連續(xù)性與動態(tài)適應性的<b class='flag-5'>神經(jīng)網(wǎng)絡</b>

    神經(jīng)網(wǎng)絡的并行計算與加速技術

    隨著人工智能技術的飛速發(fā)展,神經(jīng)網(wǎng)絡在眾多領域展現(xiàn)出了巨大的潛力和廣泛的應用前景。然而,神經(jīng)網(wǎng)絡模型的復雜度和規(guī)模也在不斷增加,這使得傳統(tǒng)的串行計算方式面臨著巨大的挑戰(zhàn),如計算速度慢、訓練
    的頭像 發(fā)表于 09-17 13:31 ?1143次閱讀
    <b class='flag-5'>神經(jīng)網(wǎng)絡</b>的并行計算與加速技術

    基于神經(jīng)網(wǎng)絡的數(shù)字預失真模型解決方案

    在基于神經(jīng)網(wǎng)絡的數(shù)字預失真(DPD)模型中,使用不同的激活函數(shù)對整個系統(tǒng)性能和能效有何影響?
    的頭像 發(fā)表于 08-29 14:01 ?3478次閱讀

    無刷電機小波神經(jīng)網(wǎng)絡轉(zhuǎn)子位置檢測方法的研究

    摘要:論文通過對無刷電機數(shù)學模型的推導,得出轉(zhuǎn)角:與三相相電壓之間存在映射關系,因此構建了一個以三相相電壓為輸人,轉(zhuǎn)角為輸出的小波神經(jīng)網(wǎng)絡來實現(xiàn)轉(zhuǎn)角預測,并采用改進遺傳算法來訓練網(wǎng)絡
    發(fā)表于 06-25 13:06

    神經(jīng)網(wǎng)絡RAS在異步電機轉(zhuǎn)速估計中的仿真研究

    眾多方法中,由于其結構簡單,穩(wěn)定性好廣泛受到人們的重視,且已被用于產(chǎn)品開發(fā)。但是MRAS仍存在在低速區(qū)速度估計精度下降和對電動機參數(shù)變化非常敏感的問題。本文利用神經(jīng)網(wǎng)絡的特點,使估計更為簡單、快速
    發(fā)表于 06-16 21:54

    基于FPGA搭建神經(jīng)網(wǎng)絡的步驟解析

    本文的目的是在一個神經(jīng)網(wǎng)絡已經(jīng)通過python或者MATLAB訓練好的神經(jīng)網(wǎng)絡模型,將訓練好的模型
    的頭像 發(fā)表于 06-03 15:51 ?1240次閱讀
    基于FPGA搭建<b class='flag-5'>神經(jīng)網(wǎng)絡</b>的步驟解析