91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

中國(guó)博士生Liyuan Liu提出了一個(gè)新的優(yōu)化器RAdam

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來(lái)源:通信信號(hào)處理研究所 ? 2019-12-06 15:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

找到一種快速穩(wěn)定的優(yōu)化算法,是所有AI研究人員的目標(biāo)。

但是魚(yú)和熊掌不可兼得。Adam、RMSProp這些算法雖然收斂速度很快,當(dāng)往往會(huì)掉入局部最優(yōu)解的“陷阱”;原始的SGD方法雖然能收斂到更好的結(jié)果,但是訓(xùn)練速度太慢。

最近,一位來(lái)自UIUC的中國(guó)博士生Liyuan Liu提出了一個(gè)新的優(yōu)化器RAdam。

它兼有Adam和SGD兩者的優(yōu)點(diǎn),既能保證收斂速度快,也不容易掉入局部最優(yōu)解,而且收斂結(jié)果對(duì)學(xué)習(xí)率的初始值非常不敏感。在較大學(xué)習(xí)率的情況下,RAdam效果甚至還優(yōu)于SGD。

RAdam意思是“整流版的Adam”(Rectified Adam),它能根據(jù)方差分散度,動(dòng)態(tài)地打開(kāi)或者關(guān)閉自適應(yīng)學(xué)習(xí)率,并且提供了一種不需要可調(diào)參數(shù)學(xué)習(xí)率預(yù)熱的方法。

一位Medium網(wǎng)友Less Wright在測(cè)試完RAdam算法后,給予了很高的評(píng)價(jià):

RAdam可以說(shuō)是最先進(jìn)的AI優(yōu)化器,可以永遠(yuǎn)取代原來(lái)的Adam算法了。

目前論文作者已將RAdam開(kāi)源,F(xiàn)astAI現(xiàn)在已經(jīng)集成了RAdam,只需幾行代碼即可直接調(diào)用。

補(bǔ)眾家之短

想造出更強(qiáng)的優(yōu)化器,就要知道前輩們的問(wèn)題出在哪:

像Adam這樣的優(yōu)化器,的確可以快速收斂,也因此得到了廣泛的應(yīng)用。

但有個(gè)重大的缺點(diǎn)是不夠魯棒,常常會(huì)收斂到不太好的局部最優(yōu)解 (Local Optima) ,這就要靠預(yù)熱(Warmup)來(lái)解決——

最初幾次迭代,都用很小的學(xué)習(xí)率,以此來(lái)緩解收斂問(wèn)題。

為了證明預(yù)熱存在的道理,團(tuán)隊(duì)在IWSLT’14德英數(shù)據(jù)集上,測(cè)試了原始Adam和帶預(yù)熱的Adam。

結(jié)果發(fā)現(xiàn),一把預(yù)熱拿掉,Transformer語(yǔ)言模型的訓(xùn)練復(fù)雜度 (Perplexity) ,就從10增到了500。

另外,BERT預(yù)訓(xùn)練也是差不多的情況。

為什么預(yù)熱、不預(yù)熱差距這樣大?團(tuán)隊(duì)又設(shè)計(jì)了兩個(gè)變種來(lái)分析:

缺乏樣本,是問(wèn)題根源

一個(gè)變種是Adam-2k:

在前2000次迭代里,只有自適應(yīng)學(xué)習(xí)率是一直更新的,而動(dòng)量 (Momentum) 和參數(shù)都是固定的。除此之外,都沿襲了原始Adam算法。

實(shí)驗(yàn)表明,在給它2000個(gè)額外的樣本來(lái)估計(jì)自適應(yīng)學(xué)習(xí)率之后,收斂問(wèn)題就消失了:

另外,足夠多的樣本可以避免梯度分布變扭曲 (Distorted) :

這些發(fā)現(xiàn)證明了一點(diǎn):早期缺乏足夠數(shù)據(jù)樣本,就是收斂問(wèn)題的根源。

下面就要證明,可以通過(guò)降低自適應(yīng)學(xué)習(xí)率的方差來(lái)彌補(bǔ)這個(gè)缺陷。

降低方差,可解決問(wèn)題

一個(gè)直接的辦法就是:

把ψ-cap里面的?增加。假設(shè)ψ-cap(. ) 是均勻分布,方差就是1/12?^2。

這樣就有了另一個(gè)變種Adam-eps。開(kāi)始把?設(shè)成一個(gè)可以忽略的1×10^-8,慢慢增加,到不可忽略的1×10^-4。

從實(shí)驗(yàn)結(jié)果看,它已經(jīng)沒(méi)有Adam原本的收斂問(wèn)題了:

這就證明了,真的可以通過(guò)控制方差來(lái)解決問(wèn)題。另外,它和Adam-2k差不多,也可以避免梯度分布扭曲。

然而,這個(gè)模型表現(xiàn)比Adam-2k和帶預(yù)熱的Adam差很多。

推測(cè)是因?yàn)?太大,會(huì)給自適應(yīng)學(xué)習(xí)率帶來(lái)重大的偏差 (Bias) ,也會(huì)減慢優(yōu)化的過(guò)程。

所以,就需要一個(gè)更加嚴(yán)格的方法,來(lái)控制自適應(yīng)學(xué)習(xí)率。

論文中提出,要通過(guò)估算自由度ρ來(lái)實(shí)現(xiàn)量化分析。

RAdam定義

RAdam算法的輸入有:步長(zhǎng)αt;衰減率{β1, β2},用于計(jì)算移動(dòng)平均值和它的二階矩。

輸出為θt。

首先,將移動(dòng)量的一階矩和二階矩初始化為m0,v0,計(jì)算出簡(jiǎn)單移動(dòng)平均值(SMA)的最大長(zhǎng)度ρ∞←2/(1-β2)-1。

然后按照以下的迭代公式計(jì)算出:第t步時(shí)的梯度gt,移動(dòng)量的二階矩vt,移動(dòng)量的一階矩mt,移動(dòng)偏差的修正和SMA的最大值ρt。

如果ρ∞大于4,那么,計(jì)算移動(dòng)量二階矩的修正值和方差修正范圍:

如果ρ∞小于等于4,則使用非自適應(yīng)動(dòng)量更新參數(shù):

以上步驟都完成后,得出T步驟后的參數(shù)θT。

測(cè)試結(jié)果

RAdam在圖像分類(lèi)任務(wù)CIFAR-10和ImageNet上測(cè)試的結(jié)果如下:

盡管在前幾個(gè)周期內(nèi)整流項(xiàng)使得RAdam比Adam方法慢,但是在后期的收斂速度是比Adam要更快的。

盡管RAdam在測(cè)試精度方面未能超越SGD,但它可以帶來(lái)更好的訓(xùn)練性能。

此外,RAdam算法對(duì)初始學(xué)習(xí)率是具有魯棒性的,可以適應(yīng)更寬范圍內(nèi)的變化。在從0.003到0.1一個(gè)很寬的范圍內(nèi),RAdam表現(xiàn)出了一致的性能,訓(xùn)練曲線末端高度重合。

親測(cè)過(guò)的網(wǎng)友Less Wright說(shuō),RAdam和他今年測(cè)試的許多其它論文都不一樣。

其他方法常常是在特定數(shù)據(jù)集上有良好的效果,但是放在新的數(shù)據(jù)集上往往表現(xiàn)不佳。

而RAdam在圖像分類(lèi)、語(yǔ)言建模,以及機(jī)器翻譯等等許多任務(wù)上,都證明有效。

(也側(cè)面說(shuō)明,機(jī)器學(xué)習(xí)的各類(lèi)任務(wù)里,廣泛存在著方差的問(wèn)題。)

Less Wright在ImageNette上進(jìn)行了測(cè)試,取得了相當(dāng)不錯(cuò)的效果(注:ImageNette是從ImageNet上抽取的包含10類(lèi)圖像的子集)。在5個(gè)epoch后,RAdam已經(jīng)將準(zhǔn)確率快速收斂到86%。

如果你以為RAdam只能處理較小數(shù)據(jù)集上的訓(xùn)練,或者只有在CNN上有較好的表現(xiàn)就大錯(cuò)特錯(cuò)了。即使大道有幾十億個(gè)單詞的數(shù)據(jù)集的LSTM模型,RAdam依然有比Adam更好的表現(xiàn)。

總之,RAdam有望提供更好的收斂性、訓(xùn)練穩(wěn)定性,以及幾乎對(duì)所有AI應(yīng)用都用更好的通用性。

關(guān)于作者

論文的作者Liyuan Liu是一位90后,本科畢業(yè)于中國(guó)科學(xué)技術(shù)大學(xué),曾在微軟亞洲研究院實(shí)習(xí)。而這項(xiàng)工作,也得益于與微軟的合作。

早在本科期間,Liyuan Liu就師從國(guó)家杰出青年基金獲得者,中科大陳恩紅教授,以第一作者的身份在ICDM發(fā)表過(guò)文章。

2016年,Liyuan Liu小哥本科畢業(yè),加入了美國(guó)伊利諾伊大學(xué)香檳分校數(shù)據(jù)挖掘小組(DMG),成為美國(guó)計(jì)算機(jī)協(xié)會(huì)和IEEE院士韓家煒教授課題組的一名CS博士,從事NLP研究。

讀博以來(lái),Liyuan Liu開(kāi)始在各大頂會(huì)上嶄露頭角。在2018年NLP領(lǐng)域國(guó)際頂會(huì)EMNLP當(dāng)中,他的一作論文《Efficient Contextualized Representation: Language Model Pruning for Sequence Labeling》就被收錄為口頭報(bào)告。

又是一位閃閃發(fā)光的少年英才啊。

論文地址:
https://arxiv.org/abs/1908.03265v1

源代碼:
https://github.com/LiyuanLucasLiu/RAdam

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39944

    瀏覽量

    301574
  • 開(kāi)源
    +關(guān)注

    關(guān)注

    3

    文章

    4222

    瀏覽量

    46196

原文標(biāo)題:中國(guó)博士生提出最先進(jìn)AI訓(xùn)練優(yōu)化器,收斂快精度高,網(wǎng)友親測(cè):Adam可以退休了

文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    2026年NVIDIA研究獎(jiǎng)學(xué)金名單公布

    25 年來(lái),NVIDIA 研究獎(jiǎng)學(xué)金計(jì)劃致力于為在與 NVIDIA 技術(shù)相關(guān)的前沿領(lǐng)域開(kāi)展研究的碩博研究提供支持。近日,該計(jì)劃公布了最新批獎(jiǎng)學(xué)金授予結(jié)果:10 位博士生脫穎而出,
    的頭像 發(fā)表于 12-13 09:44 ?1062次閱讀

    直播預(yù)約 |開(kāi)源芯片系列講座第30期:“一生芯”計(jì)劃——從零開(kāi)始設(shè)計(jì)自己的RISC-V處理芯片

    鷺島論壇開(kāi)源芯片系列講座第30期「“一生芯”計(jì)劃從零開(kāi)始設(shè)計(jì)自己的RISC-V處理芯片」11月17日(周三)20:00精彩開(kāi)播期待與您云相聚,共襄學(xué)術(shù)盛宴!|直播信息報(bào)告題目“一生
    的頭像 發(fā)表于 11-10 12:03 ?899次閱讀
    直播預(yù)約 |開(kāi)源芯片系列講座第30期:“<b class='flag-5'>一生</b><b class='flag-5'>一</b>芯”計(jì)劃——從零開(kāi)始設(shè)計(jì)自己的RISC-V處理<b class='flag-5'>器</b>芯片

    億緯鋰能受邀出席北大國(guó)際博士生學(xué)術(shù)論壇

    10月26日,北京大學(xué)“博雅材思”國(guó)際博士生學(xué)術(shù)論壇在燕園舉行,億緯鋰能人力資源中心總監(jiān)張清剛博士受邀出席,并發(fā)表《億緯鋰能材料學(xué)人才職業(yè)發(fā)展》專(zhuān)題報(bào)告。
    的頭像 發(fā)表于 10-31 12:36 ?657次閱讀

    新思科技連續(xù)八年助力中國(guó)研究創(chuàng)“芯”大賽

    作為中國(guó)研究創(chuàng) “芯” 大賽的創(chuàng)始合作方,新思科技始終秉持初心,連續(xù)八年全力支持這賽事,致力于為中國(guó)本土集成電路設(shè)計(jì)領(lǐng)域培育后備力量,以實(shí)際行動(dòng)推動(dòng)產(chǎn)業(yè)人才生態(tài)建設(shè)。
    的頭像 發(fā)表于 08-15 15:40 ?1051次閱讀

    Cadence連續(xù)八年助力中國(guó)研究創(chuàng)“芯”大賽

    中國(guó)研究創(chuàng)“芯”大賽是中國(guó)研究創(chuàng)新實(shí)踐系列賽事之,是項(xiàng)面向全國(guó)高等院校和科研院所在讀研究
    的頭像 發(fā)表于 08-06 15:05 ?1310次閱讀

    博士學(xué)位論文-永磁同步電機(jī)脈振高頻信號(hào)注入無(wú)位置傳感技術(shù)研究

    用于無(wú)結(jié)構(gòu)凸極性的表貼式永磁同步電機(jī)。實(shí)現(xiàn)永磁同步電機(jī)無(wú)位置傳感控制的首要問(wèn)題是轉(zhuǎn)子初始位置檢測(cè),本文提出了種表貼式永磁同步電機(jī)轉(zhuǎn)子初始位置檢測(cè)的新方法。它是基于定子電感非線性飽和特性,在估計(jì)
    發(fā)表于 07-17 14:34

    山西大學(xué)實(shí)現(xiàn)種壓縮激光新型光源

    lasing through the parametric coupling”發(fā)表于物理學(xué)頂級(jí)期刊Physical Review Letters上。山西大學(xué)為第單位和通訊單位。其中,山西大學(xué)光電研究所博士生
    的頭像 發(fā)表于 07-17 09:44 ?430次閱讀
    山西大學(xué)實(shí)現(xiàn)<b class='flag-5'>一</b>種壓縮激光新型光源

    維智科技為什么提出時(shí)空人工智能

    世界的關(guān)鍵轉(zhuǎn)折點(diǎn)。為此,陶闖博士提出“時(shí)空人工智能”(Spatio-Temporal AI)概念,試圖系統(tǒng)性地回答個(gè)問(wèn)題:如何讓AI看得懂空間、學(xué)得會(huì)語(yǔ)義、做得了決策?
    的頭像 發(fā)表于 06-12 14:30 ?933次閱讀

    VirtualLab 應(yīng)用:傾斜光柵的參數(shù)優(yōu)化及公差分析

    摘要 對(duì)于背光系統(tǒng)、光內(nèi)連和近眼顯示等許多應(yīng)用來(lái)說(shuō),將光高效地耦合到引導(dǎo)結(jié)構(gòu)中是個(gè)重要的問(wèn)題。對(duì)于這種應(yīng)用,傾斜光柵以能夠高效地耦合單色光而聞名。在本例中,
    發(fā)表于 05-22 08:52

    DEKRA德凱林博士榮獲TIC理事會(huì)“Merit Award for Advocacy”獎(jiǎng)項(xiàng)

    5月13日,TIC理事會(huì)總部年度會(huì)員大會(huì)公布了TIC Merit Award的獲獎(jiǎng)?wù)?。DEKRA德凱集團(tuán)執(zhí)行副總裁、亞太區(qū)總裁,TIC理事會(huì)中國(guó)地區(qū)指導(dǎo)委員會(huì)主席林博士(Dr. Kilian
    的頭像 發(fā)表于 05-15 11:29 ?911次閱讀
    DEKRA德凱林<b class='flag-5'>一</b>墨<b class='flag-5'>博士</b>榮獲TIC理事會(huì)“Merit Award for Advocacy”獎(jiǎng)項(xiàng)

    小設(shè)備大模型 創(chuàng)盈芯特邀中南大學(xué)何世文教授、博導(dǎo)揭秘AI新趨勢(shì)

    當(dāng)全球前2%頂尖科學(xué)家走進(jìn)創(chuàng)盈芯,會(huì)碰撞出怎樣的智慧火花? 4月25日,創(chuàng)盈芯特邀 中南大學(xué)博士生導(dǎo)師、IEEE國(guó)際標(biāo)準(zhǔn)制定專(zhuān)家何世文教授 開(kāi)展《 無(wú)線內(nèi)智能通信基礎(chǔ)理論與應(yīng)用研究 》專(zhuān)題培訓(xùn)
    的頭像 發(fā)表于 05-06 17:54 ?684次閱讀
    小設(shè)備大模型 創(chuàng)盈芯特邀中南大學(xué)何世文教授、博導(dǎo)揭秘AI新趨勢(shì)

    安森美最新消息:安森美中國(guó)區(qū)汽車(chē)解決方案負(fù)責(zé)人吳桐博士出任I.S.I.G.中國(guó)區(qū)主席

    I.S.I.G. (國(guó)際半導(dǎo)體行業(yè)集團(tuán))近日宣布, 安森美(onsemi)中國(guó)區(qū)汽車(chē)解決方案負(fù)責(zé)人吳桐博士正式宣布擔(dān)任I.S.I.G.中國(guó)區(qū)主席 。這任命在3月25日舉辦的 “I.S
    的頭像 發(fā)表于 03-31 19:24 ?1410次閱讀
    安森美最新消息:安森美<b class='flag-5'>中國(guó)</b>區(qū)汽車(chē)解決方案負(fù)責(zé)人吳桐<b class='flag-5'>博士</b>出任I.S.I.G.<b class='flag-5'>中國(guó)</b>區(qū)主席

    種分段氣隙的CLLC變換平面變壓設(shè)計(jì)

    種路徑,采用磁集成方法,對(duì)1MHz雙向CLLC變換的變壓進(jìn)行研究、設(shè)計(jì)與測(cè)試,通過(guò)優(yōu)化PCB繞線方法、進(jìn)行仿真優(yōu)化,
    發(fā)表于 03-27 13:57

    使用ADHV4702創(chuàng)建個(gè)高壓精密恒流源,如何優(yōu)化?

    我想使用ADHV4702創(chuàng)建個(gè)高壓精密恒流源,通過(guò)切換RS的檔位,使得該恒流源可以輸出pA到A級(jí)的電流,但是這個(gè)電路無(wú)法仿真,請(qǐng)問(wèn)應(yīng)該如何優(yōu)化
    發(fā)表于 03-25 06:07

    開(kāi)關(guān)電源設(shè)計(jì)指南(完整版)

    了功率因數(shù)校正、印制電路設(shè)計(jì)、熱設(shè)計(jì)、噪聲控制和電磁干擾抑制等內(nèi)容。 可供從事開(kāi)關(guān)電源開(kāi)發(fā)的工程技術(shù)人員參考使用,也可作為高等院校電力電子技術(shù)專(zhuān)業(yè)及相關(guān)專(zhuān)業(yè)高年級(jí)大學(xué)生、碩士、博士生和教師的參考書(shū)使用。 (如果內(nèi)容有幫助可以關(guān)注、點(diǎn)贊、評(píng)論支持
    發(fā)表于 03-17 14:18