91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ICLR2019公布了最佳論文,有兩篇論文獲得了最佳論文

電子工程師 ? 來(lái)源:lq ? 2019-05-08 10:04 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【導(dǎo)語(yǔ)】ICLR 是深度學(xué)習(xí)領(lǐng)域的頂級(jí)會(huì)議,素有深度學(xué)習(xí)頂會(huì) “無(wú)冕之王” 之稱。今年的 ICLR 大會(huì)將于5月6日到5月9日在美國(guó)新奧爾良市舉行,大會(huì)采用 OpenReview 的公開(kāi)雙盲評(píng)審機(jī)制,共接收了 1578 篇論文:其中 oral 論文 24 篇 (約占 1.5%),poster 論文共 476 篇 (占30.2%)。在這些錄用的論文中,深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和生成對(duì)抗網(wǎng)絡(luò) GANs 是最熱門的三大研究方向。

今天, ICLR2019 公布了最佳論文,有兩篇論文獲得了最佳論文,在此對(duì)獲獎(jiǎng)?wù)撐淖髡呒皥F(tuán)隊(duì)表示祝賀!一篇是《Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks》,在 RNN 網(wǎng)絡(luò)中集成樹(shù)結(jié)構(gòu),提出一種神經(jīng)元排序策略,由蒙特利爾大學(xué)、微軟研究院共同研究發(fā)表;另一篇是 MIT CSAIL 的研究成果《The Lottery Ticket Hypothesis: Finding Spare, Trainable Neural Networks》。下面就為大家?guī)?lái)這兩篇最佳論文的解讀。

論文一

論文地址:

https://openreview.net/forum?id=B1l6qiR5F7

摘要

自然語(yǔ)言可視為是一種小單元 (如短語(yǔ)) 嵌套在大單元 (如字句) 中的分層結(jié)構(gòu)。當(dāng)結(jié)束一個(gè)大單元時(shí),內(nèi)部所嵌套的小單元也將隨之關(guān)閉。盡管標(biāo)準(zhǔn)的 LSTM 結(jié)構(gòu)允許不同的神經(jīng)元跟蹤不同時(shí)間維度信息,但它對(duì)于層級(jí)結(jié)構(gòu)建模中的各組成沒(méi)有明確的偏向。針對(duì)這個(gè)問(wèn)題,本文提出神經(jīng)元排序策略來(lái)添加一個(gè)歸納偏置量 (inducive bias),當(dāng)主輸入向量和遺忘門結(jié)構(gòu)確保給定的神經(jīng)網(wǎng)絡(luò)更新時(shí),后續(xù)跟隨的所有神經(jīng)元也將隨之更新。這種集成樹(shù)結(jié)構(gòu)的新穎循環(huán)神經(jīng)網(wǎng)絡(luò) ON-LSTM (ordered neurons LSTM) 在四種不同的 NLP 任務(wù):語(yǔ)言建模、無(wú)監(jiān)督解析、目標(biāo)句法評(píng)估和邏輯推理上都取得了良好的表現(xiàn)。

研究動(dòng)機(jī)

將樹(shù)結(jié)構(gòu)集成到神經(jīng)網(wǎng)絡(luò)模型用于 NLP 任務(wù)主要有如下原因:

學(xué)習(xí)抽象的逐層特征表征是深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的一大關(guān)鍵特征

對(duì)語(yǔ)言的組成影響進(jìn)行建模并通過(guò) shortcuts 連接方法為反向傳播過(guò)程提供有效的梯度信息,這有助于解決深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的長(zhǎng)期依賴性問(wèn)題

通過(guò)更好的歸納偏置來(lái)改善模型的泛化能力,同時(shí)能夠減少模型訓(xùn)練過(guò)程對(duì)大量數(shù)據(jù)的需求

基于以上動(dòng)機(jī),該研究提出一種有序化神經(jīng)元方法 (結(jié)構(gòu)示意圖如下圖1),通過(guò)歸納偏置來(lái)強(qiáng)化每個(gè)神經(jīng)元中的信息儲(chǔ)存:大的、高級(jí)的神經(jīng)元儲(chǔ)存長(zhǎng)期信息,這些信息通過(guò)大量的步驟保存;小的、低級(jí)的神經(jīng)元儲(chǔ)存短期信息,這些信息能夠快速遺忘。此外,一種新型的激活函數(shù) cumulative softmax (cumax) 用于主動(dòng)為神經(jīng)元分配長(zhǎng)/短期所儲(chǔ)存的信息,有效地避免高/低級(jí)神經(jīng)元的固定劃分問(wèn)題。

總的來(lái)說(shuō),本文的研究集成樹(shù)結(jié)構(gòu)到 LSTM 網(wǎng)絡(luò)中,并通過(guò)歸納偏置和 cumax 函數(shù),構(gòu)建一種新穎的 ON-LSTM 模型,在多項(xiàng) NLP 任務(wù)中都取得了不錯(cuò)的性能表現(xiàn)。

圖1 組成解析樹(shù)結(jié)構(gòu)與 ON-LSTM 模型隱藏狀態(tài)的對(duì)應(yīng)關(guān)系

實(shí)驗(yàn)結(jié)果

在四種 NLP 任務(wù)中評(píng)估 ON-LSTM 模型的性能,具體如下。

語(yǔ)言建模

圖2 Penn Treebank 語(yǔ)言建模任務(wù)驗(yàn)證機(jī)和測(cè)試集的單模型困惑度

無(wú)監(jiān)督句法組成分析

圖3 full WSJ10 和 WSJ test 數(shù)據(jù)集上的句法組成分析評(píng)估結(jié)果

目標(biāo)句法評(píng)估

圖4 ON-LSTM 和 LSTM 模型在每個(gè)測(cè)試樣本的總體精度表現(xiàn)

邏輯推理

圖5 在邏輯短序列數(shù)據(jù)上訓(xùn)練的模型的測(cè)試精度

論文二

論文地址:

https://openreview.net/forum?id=rJl-b3RcF7

摘要

神經(jīng)網(wǎng)絡(luò)的剪枝技術(shù)能夠在不影響模型準(zhǔn)確性能的情況下,減少網(wǎng)絡(luò)的訓(xùn)練參數(shù)量,多達(dá)90%以上,在降低計(jì)算存儲(chǔ)空間的同時(shí)提高模型的推理性能。然而,先前的研究經(jīng)驗(yàn)表明,通過(guò)剪枝技術(shù)得到的稀疏網(wǎng)絡(luò)結(jié)構(gòu)在初期是很難訓(xùn)練的,這似乎也有利于訓(xùn)練性能的提升。一個(gè)標(biāo)準(zhǔn)的剪枝技術(shù)能夠自然地發(fā)現(xiàn)子網(wǎng)絡(luò)結(jié)構(gòu),這些子網(wǎng)絡(luò)的初始化能夠幫助網(wǎng)絡(luò)更有效地訓(xùn)練。

因此,本研究提出一種 lottery ticket hypothesis:對(duì)于那些包含子網(wǎng)絡(luò) (winning ticket) 結(jié)構(gòu)的密集、隨機(jī)初始化前饋網(wǎng)絡(luò),當(dāng)單獨(dú)訓(xùn)練這些子網(wǎng)絡(luò)時(shí),通過(guò)相似的訓(xùn)練迭代次數(shù)能夠取得與原始網(wǎng)絡(luò)相當(dāng)?shù)臏y(cè)試性能。而這些子網(wǎng)絡(luò)也驗(yàn)證了初始的假設(shè):即具有初始權(quán)重的連接網(wǎng)絡(luò)能夠更有效地訓(xùn)練。

基于這些結(jié)果,本文提出一種算法來(lái)確定子網(wǎng)絡(luò)結(jié)構(gòu),并通過(guò)一系列的實(shí)驗(yàn)來(lái)支持 lottery ticket hypothesis 以及這些偶然初始化的重要性。實(shí)驗(yàn)結(jié)果表明,在 MNIST 和 CIFAR-10 數(shù)據(jù)集上,子網(wǎng)絡(luò)的規(guī)模始終比幾種全連接結(jié)構(gòu)和卷積神經(jīng)網(wǎng)絡(luò)小10%-20%。當(dāng)規(guī)模超過(guò)這個(gè)范圍時(shí),子網(wǎng)絡(luò)能夠比原始網(wǎng)絡(luò)有更快的學(xué)習(xí)速度和更好的測(cè)試精度表現(xiàn)。

研究動(dòng)機(jī)與方法

本文分析驗(yàn)證了存在較小的子網(wǎng)絡(luò)結(jié)構(gòu),在相當(dāng)?shù)臏y(cè)試精度表現(xiàn)前提下,一開(kāi)始就訓(xùn)練網(wǎng)絡(luò)能夠達(dá)到與較大子網(wǎng)絡(luò)一樣,甚至更快的訓(xùn)練速度。而基于此,本文提出 Lottery Ticket Hypothesis:將一個(gè)復(fù)雜網(wǎng)絡(luò)的所有參數(shù)作為一個(gè)獎(jiǎng)勵(lì)池,存在一個(gè)參數(shù)組合所構(gòu)成的子網(wǎng)絡(luò) (用 winning ticket 表示),單獨(dú)訓(xùn)練該網(wǎng)絡(luò)能夠達(dá)到與原始復(fù)雜網(wǎng)絡(luò)相當(dāng)?shù)臏y(cè)試精度。

對(duì)于該子網(wǎng)絡(luò)結(jié)構(gòu)的確定,主要是通過(guò)訓(xùn)練一個(gè)網(wǎng)絡(luò)并剪枝其中最小權(quán)重來(lái)確定子網(wǎng)絡(luò),而其余未剪枝部分連接構(gòu)成自網(wǎng)絡(luò)的結(jié)構(gòu)。具體步驟如下:

首先通過(guò)隨機(jī)初始化得到一個(gè)復(fù)雜的神經(jīng)網(wǎng)絡(luò) f

接著重復(fù)訓(xùn)練該網(wǎng)絡(luò) j 次,得到網(wǎng)絡(luò)參數(shù)

然后對(duì)該模型按 p% 進(jìn)行剪枝得到一個(gè)掩碼 m;將步驟二中的網(wǎng)絡(luò)參數(shù)作為參數(shù)向量,每個(gè)向量元素對(duì)應(yīng)于一個(gè) m,用于表征是否丟棄。

最后,對(duì)于存留下來(lái)的模型,在原始復(fù)雜網(wǎng)絡(luò)參數(shù)組合進(jìn)行初始化,創(chuàng)建一個(gè)子網(wǎng)絡(luò)結(jié)構(gòu)。

總的來(lái)說(shuō),本研究的主要貢獻(xiàn)如下:

驗(yàn)證了剪枝技術(shù)能夠發(fā)現(xiàn)可訓(xùn)練的子網(wǎng)絡(luò)結(jié)構(gòu),而這些網(wǎng)絡(luò)能夠達(dá)到與原始網(wǎng)絡(luò)相當(dāng)?shù)臏y(cè)試精度。

提出了一種 lottery ticket hypothesis,從一種新的角度來(lái)解釋這些神經(jīng)網(wǎng)絡(luò)的組成。

證明了通過(guò)剪枝技術(shù)得到的子網(wǎng)絡(luò)相比于原是網(wǎng)絡(luò),有著更快的學(xué)習(xí)速度、更高的測(cè)試精度和更好的泛化性能。

應(yīng)用

本文的研究驗(yàn)證了確實(shí)存在比原始網(wǎng)絡(luò)更快速、性能更佳的子網(wǎng)絡(luò),這種結(jié)構(gòu)能夠給未來(lái)的研究提供諸多方向:

提高模型訓(xùn)練性能:由于子網(wǎng)絡(luò)能夠從一開(kāi)始就進(jìn)行單獨(dú)訓(xùn)練,因此盡早進(jìn)行剪枝的訓(xùn)練方案值得進(jìn)一步探索。

設(shè)計(jì)更好的網(wǎng)絡(luò)結(jié)構(gòu):子網(wǎng)絡(luò)結(jié)構(gòu)的存在說(shuō)明稀疏架構(gòu)和初始化組合有利于模型的學(xué)習(xí)。因此設(shè)計(jì)出有助于學(xué)習(xí)的新結(jié)構(gòu)和初始化方案,甚至將子網(wǎng)絡(luò)結(jié)構(gòu)遷移到其他任務(wù)仍需要進(jìn)一步研究。

提高神經(jīng)網(wǎng)絡(luò)的理論理解高度:更加深入地理解隨機(jī)初始化網(wǎng)絡(luò)與子網(wǎng)絡(luò)的關(guān)系、網(wǎng)絡(luò)優(yōu)化與泛化性能的知識(shí)等。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:ICLR 2019最佳論文揭曉!NLP深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)壓縮奪魁 | 技術(shù)頭條

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    地平線11論文強(qiáng)勢(shì)入選CVPR 2026

    論文收錄結(jié)果。地平線憑借深厚的技術(shù)積淀與前瞻的科研布局,共有11論文成功入選,覆蓋端到端自動(dòng)駕駛、3D重建、世界模型、具身智能等多個(gè)核心領(lǐng)域,充分彰顯地平線在前沿技術(shù)領(lǐng)域的頂尖研發(fā)水平。
    的頭像 發(fā)表于 03-18 15:18 ?474次閱讀
    地平線11<b class='flag-5'>篇</b><b class='flag-5'>論文</b>強(qiáng)勢(shì)入選CVPR 2026

    西井科技攜手同濟(jì)大學(xué) 三AI研究成果入選頂會(huì)ICLR 2026

    近日,國(guó)際頂級(jí)人工智能會(huì)議?ICLR 2026(International Conference on Learning Representations,國(guó)際表征學(xué)習(xí)大會(huì))公布論文接收結(jié)果。西井
    的頭像 發(fā)表于 02-12 17:42 ?1w次閱讀
    西井科技攜手同濟(jì)大學(xué) 三<b class='flag-5'>篇</b>AI研究成果入選頂會(huì)<b class='flag-5'>ICLR</b> 2026

    后摩智能4論文入選人工智能頂會(huì)ICLR 2026

    繼斬獲NeurIPS、ICCV、AAAI、ACMMM四大頂會(huì)認(rèn)可后,后摩智能再傳捷報(bào)——4論文成功入選國(guó)際頂級(jí)人工智能會(huì)議ICLR 2026(International Conference
    的頭像 發(fā)表于 02-09 14:18 ?840次閱讀

    梁文鋒署名DeepSeek新論文:突破GPU內(nèi)存限制的技術(shù)革命

    電子發(fā)燒友網(wǎng)報(bào)道 DeepSeek團(tuán)隊(duì)發(fā)布由創(chuàng)始人梁文鋒署名的新論文,主題為《Conditional Memory via Scalable Lookup: A New Axis
    的頭像 發(fā)表于 01-14 11:29 ?5291次閱讀

    小鵬汽車與北京大學(xué)研究論文成功入選AAAI 2026

    近日,AAAI 2026公布論文錄用結(jié)果,該會(huì)議是人工智能領(lǐng)域的國(guó)際頂級(jí)會(huì)議之一。據(jù)悉,AAAI 2026共收到23,680份論文投稿,其中4,167
    的頭像 發(fā)表于 01-04 11:22 ?687次閱讀
    小鵬汽車與北京大學(xué)研究<b class='flag-5'>論文</b>成功入選AAAI 2026

    MediaTek多論文入選全球前沿國(guó)際學(xué)術(shù)會(huì)議

    MediaTek 宣布,今年旗下多論文入選 ISSCC、NeurIPS、CVPR、ICLR、ICML、ICC、CLOBECOM 等全球半導(dǎo)體、人工智能及通信領(lǐng)域的前沿國(guó)際學(xué)術(shù)會(huì)議。此外
    的頭像 發(fā)表于 12-02 14:43 ?674次閱讀

    地平線五論文入選NeurIPS 2025與AAAI 2026

    近日,大頂級(jí)學(xué)術(shù)會(huì)議錄用結(jié)果相繼揭曉,地平線憑借在機(jī)器人算法領(lǐng)域的深度鉆研,共有5論文從全球數(shù)萬(wàn)份投稿中脫穎而出,分別入選NeurIPS 2025與AAAI 2026。
    的頭像 發(fā)表于 11-27 11:39 ?1245次閱讀
    地平線五<b class='flag-5'>篇</b><b class='flag-5'>論文</b>入選NeurIPS 2025與AAAI 2026

    Nullmax端到端軌跡規(guī)劃論文入選AAAI 2026

    11月8日,全球人工智能頂會(huì) AAAI 2026 公布論文錄用結(jié)果,Nullmax 研發(fā)團(tuán)隊(duì)的端到端軌跡規(guī)劃論文成功入選。該論文創(chuàng)新提出一種由粗到精的軌跡預(yù)測(cè)框架——DiffRefin
    的頭像 發(fā)表于 11-12 10:53 ?926次閱讀

    思必馳與上海交大聯(lián)合實(shí)驗(yàn)室五論文入選NeurIPS 2025

    近日,機(jī)器學(xué)習(xí)與計(jì)算神經(jīng)科學(xué)領(lǐng)域全球頂級(jí)學(xué)術(shù)頂級(jí)會(huì)議NeurIPS 2025公布論文錄用結(jié)果,思必馳-上海交大聯(lián)合實(shí)驗(yàn)室共有5論文被收錄。NeurIPS(Conference on
    的頭像 發(fā)表于 10-23 15:24 ?971次閱讀
    思必馳與上海交大聯(lián)合實(shí)驗(yàn)室五<b class='flag-5'>篇</b><b class='flag-5'>論文</b>入選NeurIPS 2025

    格靈深瞳六論文入選ICCV 2025

    近日,國(guó)際頂級(jí)會(huì)議ICCV 2025(計(jì)算機(jī)視覺(jué)國(guó)際大會(huì))公布論文錄用結(jié)果,格靈深瞳團(tuán)隊(duì)共有6論文入選。
    的頭像 發(fā)表于 07-07 18:23 ?1620次閱讀

    后摩智能與高校合作研究成果榮獲ISCA 2025最佳論文獎(jiǎng)

    》,成功榮獲第52屆計(jì)算機(jī)體系結(jié)構(gòu)國(guó)際研討會(huì)(ISCA)最佳論文獎(jiǎng)。作為國(guó)內(nèi)學(xué)術(shù)機(jī)構(gòu)在該會(huì)議上的首次獲獎(jiǎng)成果,其核心創(chuàng)新聚焦于邊緣側(cè)大語(yǔ)言模型(LLM)推理加速架構(gòu)的關(guān)鍵技術(shù)突破,為解決邊緣設(shè)備高效LLM推理難題提供創(chuàng)新性方案
    的頭像 發(fā)表于 07-05 11:21 ?2354次閱讀

    理想汽車八論文入選ICCV 2025

    近日,ICCV 2025(國(guó)際計(jì)算機(jī)視覺(jué)大會(huì))公布論文錄用結(jié)果,理想汽車共有8論文入選,其中5來(lái)自自動(dòng)駕駛團(tuán)隊(duì),3
    的頭像 發(fā)表于 07-03 13:58 ?1187次閱讀

    后摩智能四論文入選三大國(guó)際頂會(huì)

    2025 年上半年,繼年初被 AAAI、ICLR、DAC 三大國(guó)際頂會(huì)收錄 5 論文后,后摩智能近期又有 4 論文入選CVPR、ICML
    的頭像 發(fā)表于 05-29 15:37 ?1398次閱讀

    云知聲四論文入選自然語(yǔ)言處理頂會(huì)ACL 2025

    結(jié)果正式公布。云知聲在此次國(guó)際學(xué)術(shù)盛會(huì)中表現(xiàn)卓越,共有4論文被接收,其中包括2主會(huì)論文(Main Paper)和2
    的頭像 發(fā)表于 05-26 14:15 ?1373次閱讀
    云知聲四<b class='flag-5'>篇</b><b class='flag-5'>論文</b>入選自然語(yǔ)言處理頂會(huì)ACL 2025

    老板必修課:如何用NotebookLM 在上下班路上吃透一科技論文?

    常必要的,這有助于我們理解技術(shù)邊界,更好地定義產(chǎn)品并做出更精準(zhǔn)的投資決策。 一,使用NotebookLM,隨身解讀科技論文 我經(jīng)常使用的解讀科技論文的工具是Notebook,只需要把科技論文丟給它,它即可以: 1. 自動(dòng)生成的摘
    的頭像 發(fā)表于 05-07 16:13 ?739次閱讀
    老板必修課:如何用NotebookLM 在上下班路上吃透一<b class='flag-5'>篇</b>科技<b class='flag-5'>論文</b>?