91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Swin Transformer在MIM中的應(yīng)用

OpenCV學(xué)堂 ? 來(lái)源:量子位 ? 作者:量子位 ? 2022-05-31 10:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

自何愷明MAE橫空出世以來(lái),MIM(Masked Image Modeling)這一自監(jiān)督預(yù)訓(xùn)練表征越來(lái)越引發(fā)關(guān)注。

但與此同時(shí), 研究人員也不得不思考它的局限性。

MAE論文中只嘗試了使用原版ViT架構(gòu)作為編碼器,而表現(xiàn)更好的分層設(shè)計(jì)結(jié)構(gòu)(以Swin Transformer為代表),并不能直接用上MAE方法。

于是,一場(chǎng)整合的范式就此在研究團(tuán)隊(duì)中上演。

代表工作之一是來(lái)自清華、微軟亞研院以及西安交大提出SimMIM,它探索了Swin Transformer在MIM中的應(yīng)用。

但與MAE相比,它在可見(jiàn)和掩碼圖塊均有操作,且計(jì)算量過(guò)大。有研究人員發(fā)現(xiàn),即便是SimMIM的基本尺寸模型,也無(wú)法在一臺(tái)配置8個(gè)32GB GPU的機(jī)器上完成訓(xùn)練。

基于這樣的背景,東京大學(xué)&商湯&悉尼大學(xué)的研究員,提供一個(gè)新思路。

cf3dbdfe-e030-11ec-ba43-dac502259ad0.png

不光將Swin Transformer整合到了MAE框架上,既有與SimMIM相當(dāng)?shù)娜蝿?wù)表現(xiàn),還保證了計(jì)算效率和性能——

將分層ViT的訓(xùn)練速度提高2.7倍,GPU內(nèi)存使用量減少70%。

來(lái)康康這是一項(xiàng)什么研究?

當(dāng)分層設(shè)計(jì)引入MAE

這篇論文提出了一種面向MIM的綠色分層視覺(jué)Transformer。

即允許分層ViT丟棄掩碼圖塊,只對(duì)可見(jiàn)圖塊進(jìn)行操作。

cf59a7ee-e030-11ec-ba43-dac502259ad0.png

具體實(shí)現(xiàn),由兩個(gè)關(guān)鍵部分組成。

首先,設(shè)計(jì)了一種基于分治策略的群體窗口注意力方案。

將具有不同數(shù)量可見(jiàn)圖塊的局部窗口聚集成幾個(gè)大小相等的組,然后在每組內(nèi)進(jìn)行掩碼自注意力。

cf7baa60-e030-11ec-ba43-dac502259ad0.png

其次,把上述分組任務(wù)視為有約束動(dòng)態(tài)規(guī)劃問(wèn)題,受貪心算法的啟發(fā)提出了一種分組算法。

cf9d5566-e030-11ec-ba43-dac502259ad0.png

它可以自適應(yīng)選擇最佳分組大小,并將局部窗口分成最少的一組,從而使分組圖塊上的注意力整體計(jì)算成本最小。

表現(xiàn)相當(dāng),訓(xùn)練時(shí)間大大減少

結(jié)果顯示,在ImageNet-1K和MS-COCO數(shù)據(jù)集上實(shí)驗(yàn)評(píng)估表明,與基線(xiàn)SimMIM性能相當(dāng)?shù)耐瑫r(shí),效率提升2倍以上。

cfbce552-e030-11ec-ba43-dac502259ad0.png

而跟SimMIM相比,這一方法在所需訓(xùn)練時(shí)間大大減少,消耗GPU內(nèi)存也小得多。具體而言,在相同的訓(xùn)練次數(shù)下,在Swin-B上提高2倍的速度和減少60%的內(nèi)存。

d00b726c-e030-11ec-ba43-dac502259ad0.png

值得一提的是,該研究團(tuán)隊(duì)在有8個(gè)32GB V100 GPU的單機(jī)上進(jìn)行評(píng)估的,而SimMIM是在2或4臺(tái)機(jī)器上進(jìn)行評(píng)估。

研究人員還發(fā)現(xiàn),效率的提高隨著Swin-L的增大而變大,例如,與SimMIM192相比,速度提高了2.7倍。

實(shí)驗(yàn)的最后,提到了算法的局限性。其中之一就是需要分層次掩碼來(lái)達(dá)到最佳的效率,限制了更廣泛的應(yīng)用。這一點(diǎn)就交給未來(lái)的研究。

d050031e-e030-11ec-ba43-dac502259ad0.png

而談到這一研究的影響性,研究人員表示,主要就是減輕了MIM的計(jì)算負(fù)擔(dān),提高了MIM的效率和有效性。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3958

    瀏覽量

    142744
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1236

    瀏覽量

    26208

原文標(biāo)題:何愷明MAE局限性被打破,與Swin Transformer結(jié)合,訓(xùn)練速度大大提升 | 東大&商湯&悉大

文章出處:【微信號(hào):CVSCHOOL,微信公眾號(hào):OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Transformer 入門(mén):從零理解 AI 大模型的核心原理

    │ │ 456 │→ │ 25 │ └─────────┘│ 36 │ (2×3) └─────────┘ (3×2) 記憶技巧:想象沿著對(duì)角線(xiàn)折疊紙張。 Transformer 的應(yīng)用:計(jì)算注意力分?jǐn)?shù)
    發(fā)表于 02-10 16:33

    Transformer如何讓自動(dòng)駕駛大模型獲得思考能力?

    在談及自動(dòng)駕駛時(shí),Transformer一直是非常關(guān)鍵的技術(shù),為何Transformer自動(dòng)駕駛行業(yè)一直被提及?
    的頭像 發(fā)表于 02-01 09:15 ?4208次閱讀

    深入解析HVMA03F40C - ST10S Flyback Transformer

    深入解析HVMA03F40C - ST10S Flyback Transformer 引言 電子工程領(lǐng)域,變壓器是眾多電路不可或缺的關(guān)鍵組件。今天,我們將詳細(xì)探討B(tài)ourns公司
    的頭像 發(fā)表于 12-22 16:50 ?522次閱讀

    B1500a電容測(cè)試出現(xiàn)問(wèn)題

    使用b1505和探針臺(tái)測(cè)試MIM電容,我測(cè)其漏電流大小,發(fā)現(xiàn)是pA級(jí)別;電容測(cè)試的結(jié)果和設(shè)備空測(cè)結(jié)果類(lèi)似,fF級(jí)別;只是偶爾能測(cè)出正常電容,百pF級(jí)別,但這個(gè)正常測(cè)試結(jié)果不能復(fù)現(xiàn)
    發(fā)表于 12-09 17:23

    Transformer如何讓自動(dòng)駕駛變得更聰明?

    ]自動(dòng)駕駛中常提的Transformer本質(zhì)上是一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),最早在自然語(yǔ)言處理里火起來(lái)。與卷積神經(jīng)網(wǎng)絡(luò)(CNN)或循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)不同,Transformer能夠自動(dòng)審視所有輸入信息,并動(dòng)態(tài)判斷哪些部分更為關(guān)鍵,同時(shí)可以將這些重要信息有效地關(guān)聯(lián)起來(lái)。
    的頭像 發(fā)表于 11-19 18:17 ?2293次閱讀

    圖解AI核心技術(shù):大模型、RAG、智能體、MCP

    它們與 Transformers 的區(qū)別。 ? Transformer 使用前饋網(wǎng)絡(luò)。 MoE 使用專(zhuān)家,它們是前饋網(wǎng)絡(luò),但與 Transformer 的網(wǎng)絡(luò)相比規(guī)模較小。推理過(guò)程
    的頭像 發(fā)表于 10-21 09:48 ?753次閱讀
    圖解AI核心技術(shù):大模型、RAG、智能體、MCP

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+第二章 實(shí)現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法與架構(gòu)

    Transformer 模型 通過(guò)簡(jiǎn)化Transformer 模型而不影響其收斂性能和下游任務(wù)性能來(lái)加速GPUTransformer 網(wǎng)絡(luò)。簡(jiǎn)化
    發(fā)表于 09-12 17:30

    自動(dòng)駕駛Transformer大模型會(huì)取代深度學(xué)習(xí)嗎?

    持續(xù)討論。特別是自動(dòng)駕駛領(lǐng)域,部分廠(chǎng)商開(kāi)始嘗試將多模態(tài)大模型(MLLM)引入到感知、規(guī)劃與決策系統(tǒng),引發(fā)了“傳統(tǒng)深度學(xué)習(xí)是否已過(guò)時(shí)”的激烈爭(zhēng)論。然而,從技術(shù)原理、算力成本、安全需求與實(shí)際落地路徑等維度來(lái)看,Transformer與深度學(xué)習(xí)并非你死我活的替代
    的頭像 發(fā)表于 08-13 09:15 ?4205次閱讀
    自動(dòng)駕駛<b class='flag-5'>中</b><b class='flag-5'>Transformer</b>大模型會(huì)取代深度學(xué)習(xí)嗎?

    Transformer端到端自動(dòng)駕駛架構(gòu)是何定位?

    典型的Transformer架構(gòu)已被用于構(gòu)建“感知-規(guī)劃-控制統(tǒng)一建模”的方案。如Waymo和小馬智行正在研發(fā)的多模態(tài)大模型(MultimodalLargeModels,MLLMs),將來(lái)自攝像頭
    的頭像 發(fā)表于 08-03 11:03 ?1410次閱讀

    視頻分析系統(tǒng)化工廠(chǎng)應(yīng)用的算法通常有哪些?

    "化工廠(chǎng)的復(fù)雜環(huán)境,AI視頻分析系統(tǒng)正成為安全守護(hù)神:從人員入侵檢測(cè)到設(shè)備泄漏預(yù)警,從火焰識(shí)別到操作合規(guī)驗(yàn)證,智能算法正全天候保障工業(yè)安全。當(dāng)YOLO遇見(jiàn)紅外攝像頭,當(dāng)Transformer分析煙霧動(dòng)態(tài),科技讓每一處危險(xiǎn)無(wú)所
    的頭像 發(fā)表于 07-21 14:24 ?539次閱讀
    視頻分析系統(tǒng)<b class='flag-5'>在</b>化工廠(chǎng)應(yīng)用的算法通常有哪些?

    Transformer架構(gòu)解碼器的工作流程

    解碼器的作用主要是制作文本序列。與編碼器類(lèi)似,解碼器也配備了一組類(lèi)似的子層。它具有兩個(gè)Multi-Head attention層,一個(gè)點(diǎn)前饋層,并且每個(gè)子層之后都包含剩余連接和層歸一化。
    的頭像 發(fā)表于 06-10 14:32 ?1231次閱讀
    <b class='flag-5'>Transformer</b>架構(gòu)<b class='flag-5'>中</b>解碼器的工作流程

    Transformer架構(gòu)編碼器的工作流程

    編碼器是Transformer體系結(jié)構(gòu)的基本組件。編碼器的主要功能是將輸入標(biāo)記轉(zhuǎn)換為上下文表示。與早期獨(dú)立處理token的模型不同,Transformer編碼器根據(jù)整個(gè)序列捕獲每個(gè)token的上下文。
    的頭像 發(fā)表于 06-10 14:27 ?1077次閱讀
    <b class='flag-5'>Transformer</b>架構(gòu)<b class='flag-5'>中</b>編碼器的工作流程

    Transformer架構(gòu)概述

    由于Transformer模型的出現(xiàn)和快速發(fā)展,深度學(xué)習(xí)領(lǐng)域正在經(jīng)歷一場(chǎng)翻天覆地的變化。這些突破性的架構(gòu)不僅重新定義了自然語(yǔ)言處理(NLP)的標(biāo)準(zhǔn),而且拓寬了視野,徹底改變了AI的許多方面。
    的頭像 發(fā)表于 06-10 14:24 ?1303次閱讀
    <b class='flag-5'>Transformer</b>架構(gòu)概述

    快手上線(xiàn)鴻蒙應(yīng)用高性能解決方案:數(shù)據(jù)反序列化性能提升90%

    了其數(shù)據(jù)反序列化性能,典型場(chǎng)景下能夠降低約90%的數(shù)據(jù)轉(zhuǎn)換耗時(shí),為鴻蒙應(yīng)用帶來(lái)了更流暢的用戶(hù)體驗(yàn)和更敏捷的交互響應(yīng)。 鴻蒙應(yīng)用開(kāi)發(fā)過(guò)程,“class-transformer”三方
    發(fā)表于 05-15 10:01

    MATLAB工程的應(yīng)用

    電子發(fā)燒友網(wǎng)站提供《MATLAB工程的應(yīng)用.pdf》資料免費(fèi)下載
    發(fā)表于 04-19 16:54 ?9次下載