91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

循環(huán)神經網絡LSTM為何如此有效?

Dbwd_Imgtec ? 來源:AI科技評論 ? 作者:張大倩 ? 2021-03-19 11:22 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

長短期記憶網絡(LSTM),作為一種改進之后的循環(huán)神經網絡,不僅能夠解決 RNN無法處理長距離的依賴的問題,還能夠解決神經網絡中常見的梯度爆炸或梯度消失等問題,在處理序列數據方面非常有效。

有效背后的根本原因有哪些?本文結合簡單的案例,帶大家了解關于 LSTM 的五個秘密,也解釋了 LSTM如此有效的關鍵所在。

秘密一:發(fā)明LSTM是因為RNN 發(fā)生嚴重的內存泄漏

之前,我們介紹了遞歸神經網絡(RNN),并演示了如何將它們用于情感分析。 RNN 的問題是遠程內存。例如,它們能夠預測出“the clouds are in the…”這句話的下一個單詞“sky”,但卻無法預測出下面這句話中缺失的單詞:“她在法國長大?,F在到中國才幾個月。她說一口流利的 …”(“She grew up in France. Now she has been in China for few months only. She speaks fluent …”) 隨著間隔的拉長,RNN變得無法學會信息連接。在此示例中,最近的信息表明,下一個詞可能是一種語言的名稱,但是如果我們想縮小哪種語言的范圍,那么就需要到間隔很長的前文中去找“法國”。在自然語言文本中,這種問題,完全有可能在相關信息和需要該信息的地方出現很大的差異。這種差異在德語中也很常見。

為什么RNN在長序列文本方面存在巨大的問題?根據設計,RNN 在每個時間步長上都會接受兩個輸入:一個輸入向量(例如,輸入句子中的一個詞)和一個隱藏狀態(tài)(例如,以前詞中的記憶表示)。 RNN下一個時間步長采用第二個輸入向量和第一隱藏狀態(tài)來創(chuàng)建該時間步長的輸出。因此,為了捕獲長序列中的語義,我們需要在多個時間步長上運行RNN,將展開的RNN變成一個非常深的網絡。

長序列并不是RNN的唯一麻煩制造者。就像任何非常深的神經網絡一樣,RNN也存在梯度消失和爆炸的問題,因此需要花費大量時間進行訓練。人們已經提出了許多技術來緩解此問題,但還無法完全消除該問題,這些技術包括:

仔細地初始化參數

使用非飽和激活函數,如ReLU

應用批量歸一化、梯度消失、舍棄網絡細胞等方法

使用經過時間截斷的反向傳播

這些方法仍然有其局限性。此外,除了訓練時間長之外,長期運行的RNN還面臨另一個問題是:對首個輸入的記憶會逐漸消失。 一段時間后,RNN的狀態(tài)庫中幾乎沒有首個輸入的任何痕跡。例如,如果我們想對以“我喜歡這款產品”開頭的長評論進行情感分析,但其余評論列出了許多可能使該產品變得更好的因素,那么 RNN 將逐漸忘記首個評論中傳遞的正面情緒,并且會完全誤認為該評論是負面的。

為了解決RNN的這些問題,研究者已經在研究中引入了各類具有長期記憶的細胞。實際上,不再使用基本的RNN的大多數工作是通過所謂的長短期記憶網絡(LSTM)完成的。LSTM是由S. Hochreiter和J. Schmidhuber發(fā)明的。

秘密2 :LSTM的一個關鍵思想是“門”

每個LSTM細胞都控制著要記住的內容、要忘記的內容以及如何使用門來更新存儲器。這樣,LSTM網絡解決了梯度爆炸或梯度消失的問題,以及前面提到的所有其他問題! LSTM細胞的架構如下圖所示:

913feee4-86a1-11eb-8b86-12bb97331649.jpg

來源:哈佛大學 P. Protopapas教授的課堂講稿(下同,不再一一注釋) h 是隱藏狀態(tài),表示的是短期記憶;C是細胞狀態(tài),表示的是長期記憶;x表示輸入。 門只能執(zhí)行很少的矩陣轉換,激活 sigmoid函數和tanh函數可以神奇地解決所有RNN問題。 在下一節(jié)中,我們將通過觀察這些細胞如何遺忘、記憶和更新其內存來深入研究這一過程。 一個有趣的故事: 讓我們設置一個有趣的情節(jié)來探索這個圖表。假設你是老板,你的員工要求加薪。你會同意嗎?這取決于多個因素,比如你當時的心情。 下面我們將你的大腦視為LSTM細胞,當然我們無意冒犯你聰明的大腦。

91eda250-86a1-11eb-8b86-12bb97331649.jpg

你的長期狀態(tài)C將影響你的決定。平均來說,你有70%的時間心情很好,而你還剩下30%的預算。因此你的細胞狀態(tài)是C=[0.7, 0.3]。 最近,所有的事情對你來說都很順利,100%地提升了你的好心情,而你有100%的可能性預留可操作的預算。這就把你的隱藏狀態(tài)變成了h=[1,1]。 今天,發(fā)生了三件事:你的孩子在學校考試中取得了好成績,盡管你的老板對你的評價很差,但是你發(fā)現你仍然有足夠的時間來完成工作。因此,今天的輸入是x=[1,- 1,1]。

基于這個評估,你會給你的員工加薪嗎?

秘密3:LSTM通過使用“忘記門”來忘記

在上述情況下,你的第一步可能是弄清楚今天發(fā)生的事情(輸入x)和最近發(fā)生的事情(隱藏狀態(tài)h),二者會影響你對情況的長期判斷(細胞狀態(tài)C)。“忘記門”( Forget Gate)控制著過去存儲的內存量。 在收到員工加薪的請求后,你的“忘記門”會運行以下f_t的計算,其值最終會影響你的長期記憶。 下圖中顯示的權重是為了便于說明目的的隨意選擇。它們的值通常是在網絡訓練期間計算的。結果[0,0]表示要抹去(完全忘記)你的長期記憶,不要讓它影響你今天的決定。

926281e2-86a1-11eb-8b86-12bb97331649.jpg

秘密4:LSTM 記得使用“輸入門”

接下來,你需要決定:最近發(fā)生的事情(隱藏狀態(tài)h)和今天發(fā)生的事情(輸入x)中的哪些信息需要記錄到你對所處情況的長遠判斷中(狀態(tài)狀態(tài)C)。LSTM通過使用“輸入門”( Input Gate)來決定要記住什么。 首先,你要計算輸入門的值 i_t,由于激活了sigmoid函數,值落在0和1之間;接下來,你要tanh激活函數在-1和1之間縮放輸入;最后,你要通過添加這兩個結果來估計新的細胞狀態(tài)。 結果[1,1]表明,根據最近和當前的信息,你100%處于良好狀態(tài),給員工加薪有很高的可能性。這對你的員工來說很有希望。

92932798-86a1-11eb-8b86-12bb97331649.jpg

秘密5 :LSTM使用“細胞狀態(tài)”保持長期記憶

現在,你知道最近發(fā)生的事情會如何影響你的狀態(tài)。接下來,是時候根據新的理論來更新你對所處情況的長期判斷了。 當出現新值時,LSTM 再次通過使用門來決定如何更新其內存。門控的新值將添加到當前存儲器中。這種加法運算解決了簡單RNN的梯度爆炸或梯度消失問題。 LSTM 通過相加而不是相乘的方式來計算新狀態(tài)。結果C_t 被存儲為所處情況的新的長期判斷(細胞狀態(tài))。 值[1,1]表示你整體有100%的時間保持良好的心情,并且有100%的可能性一直都有錢!你是位無可挑剔的老板!

934f6390-86a1-11eb-8b86-12bb97331649.jpg

根據這些信息,你可以更新所處情況的短期判斷:h_t(下一個隱藏狀態(tài))。值[0.9,0.9]表示你有90%的可能性在下一步增加員工的工資!祝賀他!

93d40a5a-86a1-11eb-8b86-12bb97331649.jpg

1、門控循環(huán)單元LSTM細胞的一種變體被稱為門控循環(huán)單元,簡稱GRU。GRU 是Kyunghyun Cho等人在2014年的一篇論文中提出的。 GRU是LSTM細胞的簡化版本,速度比LSTM快一點,而且性能似乎也與LSTM相當,這就是它為什么越來越受歡迎的原因。

94089702-86a1-11eb-8b86-12bb97331649.jpg

如上所示,這兩個狀態(tài)向量合并為一個向量。單個門控制器控制“忘記門”和“輸入門”。如果門控制器輸出 1,則輸入門打開,忘記門關閉。如果輸出0,則相反。換句話說,每當必須存儲內存時,其存儲位置先被刪除。 上圖中沒有輸出門,在每一步都輸出完整的狀態(tài)向量。但是,增加了一個新的門控制器,它控制之前狀態(tài)的哪一部分將呈現給主層。2、堆疊LSTM細胞通過對齊多個LSTM細胞,我們可以處理序列數據的輸入,例如下圖中有4個單詞的句子。

LSTM單元通常是分層排列的,因此每個單元的輸出都是其他單元的輸入。在本例中,我們有兩個層,每個層有4個細胞。通過這種方式,網絡變得更加豐富,并捕獲到更多的依賴項。3、雙向LSTMRNN、LSTM和GRU是用來分析數值序列的。有時候,按相反的順序分析序列也是有意義的。 例如,在“老板對員工說,他需要更努力地工作”這個句子中,盡管“他”一開始就出現了,但這句話中的他指的是:在句末提到的員工。 因此,分析序列的順序需要顛倒或通過組合向前和向后的順序。下圖描述了這種雙向架構:

下圖進一步說明了雙向 LSTM。底部的網絡接收原始順序的序列,而頂部的網絡按相反順序接收相同的輸入。這兩個網絡不一定完全相同。重要的是,它們的輸出被合并為最終的預測。

9523f2ee-86a1-11eb-8b86-12bb97331649.jpg

想要知道更多的秘密? 正如我們剛剛提到的那樣,LSTM細胞可以學會識別重要的輸入(輸入門的作用),將該輸入存儲在長期狀態(tài)下,學會在需要時將其保留(忘記門的作用),并在需要時學會提取它。 LSTM 已經改變了機器學習范式,現在可以通過世界上最有價值的上市公司如谷歌、Amazon和Facebook向數十億用戶提供服務。 自2015年中期以來,LSTM極大地改善了超過40億部Android手機語音識別。 自2016年11月以來,LSTM應用在了谷歌翻譯中,極大地改善了機器翻譯。 Facebook每天執(zhí)行超過40億個基于LSTM的翻譯。 自2016年以來,近20億部iPhone手機上搭載了基于LSTM的Siri。 亞馬遜的Alexa回答問題也是基于 LSTM。

原文標題:LSTM 為何如此有效?這五個秘密是你要知道的

文章出處:【微信公眾號:Imagination Tech】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4838

    瀏覽量

    107869

原文標題:LSTM 為何如此有效?這五個秘密是你要知道的

文章出處:【微信號:Imgtec,微信公眾號:Imagination Tech】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    神經網絡的初步認識

    日常生活中的智能應用都離不開深度學習,而深度學習則依賴于神經網絡的實現。什么是神經網絡?神經網絡的核心思想是模仿生物神經系統的結構,特別是大腦中神經
    的頭像 發(fā)表于 12-17 15:05 ?339次閱讀
    <b class='flag-5'>神經網絡</b>的初步認識

    一文讀懂LSTM與RNN:從原理到實戰(zhàn),掌握序列建模核心技術

    在AI領域,文本翻譯、語音識別、股價預測等場景都離不開序列數據處理。循環(huán)神經網絡(RNN)作為最早的序列建模工具,開創(chuàng)了“記憶歷史信息”的先河;而長短期記憶網絡LSTM)則通過創(chuàng)新設
    的頭像 發(fā)表于 12-09 13:56 ?1432次閱讀
    一文讀懂<b class='flag-5'>LSTM</b>與RNN:從原理到實戰(zhàn),掌握序列建模核心技術

    政策多次提及,零碳園區(qū)為何如此重要?氫能源如何進入?

    11月10日,《國家發(fā)展改革委、國家能源局關于促進新能源消納和調控的指導意見》發(fā)布。意見指出,推進零碳園區(qū)建設。 這是2025年國家層面第三次明文支持零碳園區(qū)建設,不難看出國家的支持力度,那么,零碳園區(qū)為何如此重要呢?從目前發(fā)展情況來看,氫能源又該如何與零碳園區(qū)融合發(fā)展?
    的頭像 發(fā)表于 11-12 15:16 ?417次閱讀
    政策多次提及,零碳園區(qū)<b class='flag-5'>為何如此</b>重要?氫能源如何進入?

    NMSIS神經網絡庫使用介紹

    NMSIS NN 軟件庫是一組高效的神經網絡內核,旨在最大限度地提高 Nuclei N 處理器內核上的神經網絡的性能并最??大限度地減少其內存占用。 該庫分為多個功能,每個功能涵蓋特定類別
    發(fā)表于 10-29 06:08

    在Ubuntu20.04系統中訓練神經網絡模型的一些經驗

    本帖欲分享在Ubuntu20.04系統中訓練神經網絡模型的一些經驗。我們采用jupyter notebook作為開發(fā)IDE,以TensorFlow2為訓練框架,目標是訓練一個手寫數字識別的神經網絡
    發(fā)表于 10-22 07:03

    CICC2033神經網絡部署相關操作

    在完成神經網絡量化后,需要將神經網絡部署到硬件加速器上。首先需要將所有權重數據以及輸入數據導入到存儲器內。 在仿真環(huán)境下,可將其存于一個文件,并在 Verilog 代碼中通過 readmemh 函數
    發(fā)表于 10-20 08:00

    人工智能工程師高頻面試題匯總:循環(huán)神經網絡篇(題目+答案)

    ,提前準備一些面試常問的問題,比如概率論與統計知識、機器學習的那些算法,或者深度學習的框架,還有怎么優(yōu)化模型,循環(huán)神經網絡等,這些都是加分項,能有效提高面試通過率
    的頭像 發(fā)表于 10-17 16:36 ?718次閱讀
    人工智能工程師高頻面試題匯總:<b class='flag-5'>循環(huán)</b><b class='flag-5'>神經網絡</b>篇(題目+答案)

    液態(tài)神經網絡(LNN):時間連續(xù)性與動態(tài)適應性的神經網絡

    1.算法簡介液態(tài)神經網絡(LiquidNeuralNetworks,LNN)是一種新型的神經網絡架構,其設計理念借鑒自生物神經系統,特別是秀麗隱桿線蟲的神經結構,盡管這種微生物的
    的頭像 發(fā)表于 09-28 10:03 ?1254次閱讀
    液態(tài)<b class='flag-5'>神經網絡</b>(LNN):時間連續(xù)性與動態(tài)適應性的<b class='flag-5'>神經網絡</b>

    神經網絡的并行計算與加速技術

    隨著人工智能技術的飛速發(fā)展,神經網絡在眾多領域展現出了巨大的潛力和廣泛的應用前景。然而,神經網絡模型的復雜度和規(guī)模也在不斷增加,這使得傳統的串行計算方式面臨著巨大的挑戰(zhàn),如計算速度慢、訓練時間長等
    的頭像 發(fā)表于 09-17 13:31 ?1145次閱讀
    <b class='flag-5'>神經網絡</b>的并行計算與加速技術

    基于神經網絡的數字預失真模型解決方案

    在基于神經網絡的數字預失真(DPD)模型中,使用不同的激活函數對整個系統性能和能效有何影響?
    的頭像 發(fā)表于 08-29 14:01 ?3482次閱讀

    無刷電機小波神經網絡轉子位置檢測方法的研究

    摘要:論文通過對無刷電機數學模型的推導,得出轉角:與三相相電壓之間存在映射關系,因此構建了一個以三相相電壓為輸人,轉角為輸出的小波神經網絡來實現轉角預測,并采用改進遺傳算法來訓練網絡結構與參數,借助
    發(fā)表于 06-25 13:06

    神經網絡專家系統在電機故障診斷中的應用

    的診斷誤差。仿真結果驗證了該算法的有效性。 純分享帖,需要者可點擊附件免費獲取完整資料~~~*附件:神經網絡專家系統在電機故障診斷中的應用.pdf【免責聲明】本文系網絡轉載,版權歸原作者所有。本文所用視頻、圖片、文字如涉及作品版
    發(fā)表于 06-16 22:09

    神經網絡RAS在異步電機轉速估計中的仿真研究

    眾多方法中,由于其結構簡單,穩(wěn)定性好廣泛受到人們的重視,且已被用于產品開發(fā)。但是MRAS仍存在在低速區(qū)速度估計精度下降和對電動機參數變化非常敏感的問題。本文利用神經網絡的特點,使估計更為簡單、快速
    發(fā)表于 06-16 21:54

    基于FPGA搭建神經網絡的步驟解析

    本文的目的是在一個神經網絡已經通過python或者MATLAB訓練好的神經網絡模型,將訓練好的模型的權重和偏置文件以TXT文件格式導出,然后通過python程序將txt文件轉化為coe文件,(coe
    的頭像 發(fā)表于 06-03 15:51 ?1245次閱讀
    基于FPGA搭建<b class='flag-5'>神經網絡</b>的步驟解析

    NVIDIA實現神經網絡渲染技術的突破性增強功能

    近日,NVIDIA 宣布了 NVIDIA RTX 神經網絡渲染技術的突破性增強功能。NVIDIA 與微軟合作,將在 4 月的 Microsoft DirectX 預覽版中增加神經網絡著色技術,讓開
    的頭像 發(fā)表于 04-07 11:33 ?1206次閱讀