一级黄色视频日逼,人妻无码1区2区

在深度神經(jīng)網(wǎng)絡中，超參數(shù)的調(diào)整是一項必備技能，通過觀察在訓練過程中的監(jiān)測指標如損失loss和準確率來判斷當前模型處于什么樣的訓練狀態(tài)，及時調(diào)整超參數(shù)以更科學地訓練模型能夠提高資源利用率。下面將分別介紹并總結(jié)不同超參數(shù)的調(diào)整規(guī)則。

（1）學習率

學習率（learning rate或作lr）是指在優(yōu)化算法中更新網(wǎng)絡權重的幅度大小。學習率可以是恒定的、逐漸降低的，基于動量的或者是自適應的。不同的優(yōu)化算法決定不同的學習率。當學習率過大則可能導致模型不收斂，損失loss不斷上下震蕩；學習率過小則導致模型收斂速度偏慢，需要更長的時間訓練。通常lr取值為[0.01,0.001,0.0001]

（2）批次大小batch_size

批次大小是每一次訓練神經(jīng)網(wǎng)絡送入模型的樣本數(shù)，在卷積神經(jīng)網(wǎng)絡中，大批次通?？墒咕W(wǎng)絡更快收斂，但由于內(nèi)存資源的限制，批次過大可能會導致內(nèi)存不夠用或程序內(nèi)核崩潰。bath_size通常取值為[16,32,64,128]

（3）優(yōu)化器optimizer

目前Adam是快速收斂且常被使用的優(yōu)化器。隨機梯度下降(SGD)雖然收斂偏慢，但是加入動量Momentum可加快收斂，同時帶動量的隨機梯度下降算法有更好的最優(yōu)解，即模型收斂后會有更高的準確性。通常若追求速度則用Adam更多。

（4）迭代次數(shù)

迭代次數(shù)是指整個訓練集輸入到神經(jīng)網(wǎng)絡進行訓練的次數(shù)，當測試錯誤率和訓練錯誤率相差較小時，可認為當前迭代次數(shù)合適；當測試錯誤率先變小后變大時則說明迭代次數(shù)過大了，需要減小迭代次數(shù)，否則容易出現(xiàn)過擬合。

（5）激活函數(shù)

在神經(jīng)網(wǎng)絡中，激活函數(shù)不是真的去激活什么，而是用激活函數(shù)給神經(jīng)網(wǎng)絡加入一些非線性因素，使得網(wǎng)絡可以更好地解決較為復雜的問題。比如有些問題是線性可分的，而現(xiàn)實場景中更多問題不是線性可分的，若不使用激活函數(shù)則難以擬合非線性問題，測試時會有低準確率。所以激活函數(shù)主要是非線性的，如sigmoid、tanh、relu。sigmoid函數(shù)通常用于二分類，但要防止梯度消失，故適合淺層神經(jīng)網(wǎng)絡且需要配備較小的初始化權重，tanh函數(shù)具有中心對稱性，適合于有對稱性的二分類。在深度學習中，relu是使用最多的激活函數(shù)，簡單又避免了梯度消失。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴