91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

淺析4個計算機視覺領域常用遷移學習模型

新機器視覺 ? 來源:Orhan G. Yal??n ? 2023-04-23 18:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

導讀

使用SOTA的預訓練模型來通過遷移學習解決現(xiàn)實的計算機視覺問題。

849ea7fe-daf8-11ed-bfe3-dac502259ad0.png

如果你試過構建高精度機器學習模型,但還沒有試過遷移學習,這篇文章將改變你的生活。至少,對我來說是的。

我們大多數(shù)人已經(jīng)嘗試過,通過幾個機器學習教程來掌握神經(jīng)網(wǎng)絡的基礎知識。這些教程非常有助于了解人工神經(jīng)網(wǎng)絡的基本知識,如循環(huán)神經(jīng)網(wǎng)絡,卷積神經(jīng)網(wǎng)絡,GANs和自編碼器。但是這些教程的主要功能是為你在現(xiàn)實場景中實現(xiàn)做準備。

現(xiàn)在,如果你計劃建立一個利用深度學習人工智能系統(tǒng),你要么(i)有一個非常大的預算用于培訓優(yōu)秀的人工智能研究人員,或者(ii)可以從遷移學習中受益。

什么是遷移學習?

遷移學習是機器學習和人工智能的一個分支,其目的是將從一個任務(源任務)中獲得的知識應用到一個不同但相似的任務(目標任務)中。

例如,在學習對維基百科文本進行分類時獲得的知識可以用于解決法律文本分類問題。另一個例子是利用在學習對汽車進行分類時獲得的知識來識別天空中的鳥類。這些樣本之間存在關聯(lián)。我們沒有在鳥類檢測上使用文本分類模型。

遷移學習是指從相關的已經(jīng)學習過的任務中遷移知識,從而對新的任務中的學習進行改進

總而言之,遷移學習是一個讓你不必重復發(fā)明輪子的領域,并幫助你在很短的時間內(nèi)構建AI應用。

遷移學習的歷史

為了展示遷移學習的力量,我們可以引用Andrew Ng的話:

遷移學習將是繼監(jiān)督學習之后機器學習商業(yè)成功的下一個驅動因素

遷移學習的歷史可以追溯到1993年。Lorien Pratt的論文“Discriminability-Based Transfer between Neural Networks”打開了潘多拉的盒子,向世界介紹了遷移學習的潛力。1997年7月,“Machine Learning”雜志發(fā)表了一篇遷移學習論文???。隨著該領域的深入,諸如多任務學習等相鄰主題也被納入遷移學習領域。“Learning to Learn”是這一領域的先驅書籍之一。如今,遷移學習是科技企業(yè)家構建新的人工智能解決方案、研究人員推動機器學習前沿的強大源泉。

84d70df6-daf8-11ed-bfe3-dac502259ad0.png

遷移學習是如何工作的?

實現(xiàn)遷移學習有三個要求:

由第三方開發(fā)開源預訓練模型

重用模型

對問題進行微調

開發(fā)開源預訓練模型

預訓練的模型是由其他人創(chuàng)建和訓練來解決與我們類似的問題的模型。在實踐中,幾乎總是有人是科技巨頭或一群明星研究人員。他們通常選擇一個非常大的數(shù)據(jù)集作為他們的基礎數(shù)據(jù)集,比如ImageNet或Wikipedia Corpus。然后,他們創(chuàng)建一個大型神經(jīng)網(wǎng)絡(例如,VGG19有143,667,240個參數(shù))來解決一個特定的問題(例如,這個問題用VGG19做圖像分類。)當然,這個預先訓練過的模型必須公開,這樣我們就可以利用這些模型并重新使用它們。

重用模型

在我們掌握了這些預先訓練好的模型之后,我們重新定位學習到的知識,包括層、特征、權重和偏差。有幾種方法可以將預先訓練好的模型加載到我們的環(huán)境中。最后,它只是一個包含相關信息的文件/文件夾。然而,深度學習庫已經(jīng)托管了許多這些預先訓練過的模型,這使得它們更容易訪問:

TensorFlow Hub

Keras Applications

PyTorch Hub

你可以使用上面的一個源來加載經(jīng)過訓練的模型。它通常會有所有的層和權重,你可以根據(jù)你的意愿調整網(wǎng)絡。

對問題進行微調

現(xiàn)在的模型也許能解決我們的問題。對預先訓練好的模型進行微調通常更好,原因有兩個:

這樣我們可以達到更高的精度。

我們的微調模型可以產(chǎn)生正確的格式的輸出。

一般來說,在神經(jīng)網(wǎng)絡中,底層和中層通常代表一般的特征,而頂層則代表特定問題的特征。由于我們的新問題與原來的問題不同,我們傾向于刪除頂層。通過為我們的問題添加特定的層,我們可以達到更高的精度。

在刪除頂層之后,我們需要放置自己的層,這樣我們就可以得到我們想要的輸出。例如,使用ImageNet訓練的模型可以分類多達1000個對象。如果我們試圖對手寫數(shù)字進行分類(例如,MNIST classification),那么最后得到一個只有10個神經(jīng)元的層可能會更好。

在我們將自定義層添加到預先訓練好的模型之后,我們可以用特殊的損失函數(shù)和優(yōu)化器來配置它,并通過額外的訓練進行微調。

計算機視覺中的4個預訓練模型

這里有四個預先訓練好的網(wǎng)絡,可以用于計算機視覺任務,如圖像生成、神經(jīng)風格轉換、圖像分類、圖像描述、異常檢測等:

VGG19

Inceptionv3 (GoogLeNet)

ResNet50

EfficientNet

讓我們一個一個地深入研究。

VGG-19

VGG是一種卷積神經(jīng)網(wǎng)絡,深度為19層。它是由牛津大學的Karen Simonyan和Andrew Zisserman在2014年構建和訓練的,論文為:Very Deep Convolutional Networks for large Image Recognition。VGG-19網(wǎng)絡還使用ImageNet數(shù)據(jù)庫中的100多萬張圖像進行訓練。當然,你可以使用ImageNet訓練過的權重導入模型。這個預先訓練過的網(wǎng)絡可以分類多達1000個物體。對224x224像素的彩色圖像進行網(wǎng)絡訓練。以下是關于其大小和性能的簡要信息:

大小:549 MB

Top-1 準確率:71.3%

Top-5 準確率:90.0%

參數(shù)個數(shù):143,667,240

深度:26

84e90ede-daf8-11ed-bfe3-dac502259ad0.jpg

Inceptionv3 (GoogLeNet)

Inceptionv3是一個深度為50層的卷積神經(jīng)網(wǎng)絡。它是由谷歌構建和訓練的,你可以查看這篇論文:“Going deep with convolutions”。預訓練好的帶有ImageNet權重的Inceptionv3可以分類多達1000個對象。該網(wǎng)絡的圖像輸入大小為299x299像素,大于VGG19網(wǎng)絡。VGG19是2014年ImageNet競賽的亞軍,而Inception是冠軍。以下是對Inceptionv3特性的簡要總結:

尺寸:92 MB

Top-1 準確率:77.9%

Top-5 準確率:93.7%

參數(shù)數(shù)量:23,851,784

深度:159

850261ae-daf8-11ed-bfe3-dac502259ad0.jpg

ResNet50 (Residual Network)

ResNet50是一個卷積神經(jīng)網(wǎng)絡,深度為50層。它是由微軟于2015年建立和訓練的,論文:[Deep Residual Learning for Image Recognition](http://deep Residual Learning for Image Recognition /)。該模型對ImageNet數(shù)據(jù)庫中的100多萬張圖像進行了訓練。與VGG-19一樣,它可以分類多達1000個對象,網(wǎng)絡訓練的是224x224像素的彩色圖像。以下是關于其大小和性能的簡要信息:

尺寸:98 MB

Top-1 準確率:74.9%

Top-5 準確率:92.1%

參數(shù)數(shù)量:25,636,712

如果你比較ResNet50和VGG19,你會發(fā)現(xiàn)ResNet50實際上比VGG19性能更好,盡管它的復雜性更低。你也可以使用更新的版本,如ResNet101,ResNet152,ResNet50V2,ResNet101V2,ResNet152V2。

8510ac00-daf8-11ed-bfe3-dac502259ad0.jpg

EfficientNet

EfficientNet是一種最先進的卷積神經(jīng)網(wǎng)絡,由谷歌在2019年的論文“efficient entnet: Rethinking Model Scaling for convolutional neural Networks”中訓練并發(fā)布。EfficientNet有8種可選實現(xiàn)(B0到B7),甚至最簡單的EfficientNet B0也是非常出色的。通過530萬個參數(shù),實現(xiàn)了77.1%的最高精度性能。

85210df2-daf8-11ed-bfe3-dac502259ad0.png

EfficientNetB0的特性簡要介紹如下:

尺寸:29 MB

Top-1 準確率:77.1%

Top-5 準確率:93.3%

參數(shù)數(shù)量:~5,300,000

深度:159

其他的計算機視覺問題的預訓練模型

我們列出了四種最先進的獲獎卷積神經(jīng)網(wǎng)絡模型。然而,還有幾十種其他模型可供遷移學習使用。下面是對這些模型的基準分析,這些模型都可以在Keras Applications中獲得。

85359d9e-daf8-11ed-bfe3-dac502259ad0.png

總結

在一個我們可以很容易地獲得最先進的神經(jīng)網(wǎng)絡模型的世界里,試圖用有限的資源建立你自己的模型就像是在重復發(fā)明輪子,是毫無意義的。

相反,嘗試使用這些訓練模型,在上面添加一些新的層,考慮你的特殊計算機視覺任務,然后訓練。其結果將比你從頭構建的模型更成功。





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:4個計算機視覺領域常用遷移學習模型

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    【上海晶珩睿莓 1 單板計算機】人臉識別

    計算機視覺庫,廣泛應用于圖像處理、視頻分析和機器學習領域。 為了避免影響系統(tǒng) Python,采用虛擬環(huán)境的方案。 創(chuàng)建并激活虛擬環(huán)境 mkdir ~/cv &&
    發(fā)表于 01-04 20:22

    上海計算機視覺企業(yè)行學術沙龍走進西井科技

    12月5日,由中國圖象圖形學學會青年工作委員會(下簡稱“青工委”)、上海市計算機學會計算機視覺專委會(下簡稱“專委會”)聯(lián)合主辦,上海西井科技股份有限公司、江蘇路街道商會承辦的“上海計算機
    的頭像 發(fā)表于 12-16 15:39 ?591次閱讀

    使用代理式AI激活傳統(tǒng)計算機視覺系統(tǒng)的三種方法

    當前的計算機視覺系統(tǒng)擅長于識別物理空間與流程中的事件,卻難以詮釋場景細節(jié)及其意義,也無法推理后續(xù)可能發(fā)生的情況。
    的頭像 發(fā)表于 12-01 09:44 ?648次閱讀

    工控機與普通計算機的核心差異解析

    在工業(yè)自動化和智能制造領域,計算機設備作為核心控制單元,其選擇直接影響整個系統(tǒng)的穩(wěn)定性與可靠性。工控機與普通計算機雖同屬計算設備,但其設計目標、性能側重和應用場景存在根本性差異。準確理
    的頭像 發(fā)表于 11-25 14:45 ?1789次閱讀
    工控機與普通<b class='flag-5'>計算機</b>的核心差異解析

    STM32計算機視覺開發(fā)套件:B-CAMS-IMX攝像頭模塊技術解析

    STMicroelectronics用于 STM32開發(fā)板的B-CAMS-IMX攝像頭模塊提供強大的硬件集,可處理多種計算機視覺場景和用例。該模塊具有高分辨率500萬像素IMX335LQN
    的頭像 發(fā)表于 10-20 09:46 ?1298次閱讀
    STM32<b class='flag-5'>計算機</b><b class='flag-5'>視覺</b>開發(fā)套件:B-CAMS-IMX攝像頭模塊技術解析

    【作品合集】賽昉科技VisionFive 2單板計算機開發(fā)板測評

    VisionFive 2 上為目標檢測準備軟件環(huán)境并運行 MobileNet-SSD 模型【VisionFive 2單板計算機試用體驗】VisionFive 2復古游戲機改造 作者:TLLED【VisionFive 2
    發(fā)表于 09-04 09:08

    易控智駕榮獲計算機視覺頂會CVPR 2025認可

    近日,2025年國際計算機視覺與模式識別頂級會議(IEEE/CVF Conference on Computer Vision and Pattern Recognition,CVPR 2025)在美國田納西州納什維爾召開。
    的頭像 發(fā)表于 07-29 16:54 ?1223次閱讀

    自動化計算機經(jīng)過加固后有什么好處?

    讓我們討論一下部署堅固的自動化計算機的一些好處。1.溫度范圍寬自動化計算機經(jīng)過工程設計,配備了支持寬溫度范圍的組件,使自動化計算解決方案能夠在各種不同的極端環(huán)境中運行。自動化計算機能夠
    的頭像 發(fā)表于 07-21 16:44 ?628次閱讀
    自動化<b class='flag-5'>計算機</b>經(jīng)過加固后有什么好處?

    自動化計算機的功能與用途

    工業(yè)自動化是指利用自動化計算機來控制工業(yè)環(huán)境中的流程、機器人和機械,以制造產(chǎn)品或其部件。工業(yè)自動化的目的是提高生產(chǎn)率、增加靈活性,并提升制造過程的質量。工業(yè)自動化在汽車制造中體現(xiàn)得最為明顯,其中許多
    的頭像 發(fā)表于 07-15 16:32 ?747次閱讀
    自動化<b class='flag-5'>計算機</b>的功能與用途

    工業(yè)計算機與商用計算機的區(qū)別有哪些

    工業(yè)計算機是一種專為工廠和工業(yè)環(huán)境設計的計算系統(tǒng),具有高可靠性和穩(wěn)定性,能夠應對惡劣環(huán)境下的自動化、制造和機器人操作。其特點包括無風扇散熱技術、無電纜連接和防塵防水設計,使其在各種工業(yè)自動化場景中
    的頭像 發(fā)表于 07-10 16:36 ?753次閱讀
    工業(yè)<b class='flag-5'>計算機</b>與商用<b class='flag-5'>計算機</b>的區(qū)別有哪些

    工業(yè)計算機如何設計用于沖擊和振動

    工業(yè)計算機是為挑戰(zhàn)消費級系統(tǒng)耐用性的環(huán)境而構建的。在制造業(yè)、運輸業(yè)、國防和采礦業(yè)等領域計算機面臨著持續(xù)的沖擊、振動和其他物理壓力。設計這些系統(tǒng)以在這種條件下保持可靠需要卓越的工程和創(chuàng)新技術。本文
    的頭像 發(fā)表于 05-19 15:27 ?504次閱讀
    工業(yè)<b class='flag-5'>計算機</b>如何設計用于沖擊和振動

    計算機網(wǎng)絡入門指南

    計算機網(wǎng)絡是指將地理位置不同且具有獨立功能的多臺計算機及其外部設備,通過通信線路連接起來,在網(wǎng)絡操作系統(tǒng)、網(wǎng)絡管理軟件及網(wǎng)絡通信協(xié)議的管理和協(xié)調下,實現(xiàn)資源共享和信息傳遞的計算機系統(tǒng)。
    的頭像 發(fā)表于 04-22 14:29 ?2266次閱讀
    <b class='flag-5'>計算機</b>網(wǎng)絡入門指南

    軟通計算機重磅發(fā)布DeepSeek大模型一體機產(chǎn)品

    3月20日,華為中國合作伙伴大會2025在深圳盛大啟幕。大會上,軟通計算機重磅發(fā)布了“DeepSeek大模型一體機產(chǎn)品”,為用戶提供一站式的AI應用算力平臺,讓大模型的落地變得前所未有的簡單高效
    的頭像 發(fā)表于 03-22 10:40 ?1553次閱讀
    軟通<b class='flag-5'>計算機</b>重磅發(fā)布DeepSeek大<b class='flag-5'>模型</b>一體機產(chǎn)品

    NVIDIA 宣布推出 DGX Spark 個人 AI 計算機

    的 DGX? 個人 AI 超級計算機。 ? DGX Spark(前身為 Project DIGITS)支持 AI 開發(fā)者、研究人員、數(shù)據(jù)科學家和學生,在臺式電腦上對大模型進行原型設計、微調和推理。用
    發(fā)表于 03-19 09:59 ?790次閱讀
       NVIDIA 宣布推出 DGX Spark 個人 AI <b class='flag-5'>計算機</b>

    英飛凌邊緣AI平臺通過Ultralytics YOLO模型增加對計算機視覺的支持

    計算機視覺的支持,擴大了當前對音頻、雷達和其他時間序列信號數(shù)據(jù)的支持范圍。在增加這項支持后,該平臺將能夠用于開發(fā)低功耗、低內(nèi)存的邊緣AI視覺模型。這將給諸多應用
    的頭像 發(fā)表于 03-11 15:11 ?818次閱讀
    英飛凌邊緣AI平臺通過Ultralytics YOLO<b class='flag-5'>模型</b>增加對<b class='flag-5'>計算機</b><b class='flag-5'>視覺</b>的支持