91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

3D計(jì)算機(jī)視覺(jué)的圖像表示方法

新機(jī)器視覺(jué) ? 來(lái)源:計(jì)算機(jī)視覺(jué)與深度學(xué)習(xí) ? 作者:計(jì)算機(jī)視覺(jué)與深度 ? 2021-03-04 09:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

目前深度學(xué)習(xí)已經(jīng)在2D計(jì)算機(jī)視覺(jué)領(lǐng)域取得了非凡的成果,比如使用一張圖像進(jìn)行目標(biāo)檢測(cè),語(yǔ)義分割,對(duì)視頻當(dāng)中的物體進(jìn)行目標(biāo)跟蹤等任務(wù)都有非常不錯(cuò)的效果。傳統(tǒng)的3D計(jì)算機(jī)視覺(jué)則是基于純立體幾何來(lái)實(shí)現(xiàn)的,而目前我們使用深度學(xué)習(xí)在3D計(jì)算機(jī)視覺(jué)當(dāng)中也可以得到一些不錯(cuò)的效果,目前甚至有超越傳統(tǒng)依靠立體幾何識(shí)別準(zhǔn)確率的趨勢(shì)。因此咱們現(xiàn)在來(lái)介紹一下深度學(xué)習(xí)在3D計(jì)算機(jī)視覺(jué)當(dāng)中的應(yīng)用吧!本博文參考了前幾天斯坦福大學(xué)最新出的CS231n課程(2020/8/11新出),新課增加了3D計(jì)算機(jī)視覺(jué)和視頻/動(dòng)作分類的lecture,同時(shí)豐富了生成對(duì)抗網(wǎng)絡(luò)(GAN)的內(nèi)容,暫時(shí)國(guó)內(nèi)還無(wú)人翻譯,因此小編將其翻譯整理成博文的形式供大家參考,如有錯(cuò)誤之處,請(qǐng)大家見(jiàn)諒,同時(shí)歡迎大家討論。

一.3D計(jì)算機(jī)視覺(jué)的圖像表示方法

在3D計(jì)算機(jī)視覺(jué)當(dāng)中,我們可以采用于訓(xùn)練的模型共有以上幾種,分別是:

1.Depth Map(深度圖)

2.Voxel Grid(翻譯過(guò)來(lái)很奇怪,因此就保留原英語(yǔ))

3.Implicit Surface(隱表面)

4.PointCloud(三維點(diǎn)云)

5.Mesh

如下圖所示:

二.Depth Map(深度圖)

深度圖的圖像如下所示:

在左上角有一張關(guān)于斯坦福大學(xué)寢室的圖片,我們可以將其轉(zhuǎn)化為右上角的深度圖,其中深度圖當(dāng)中不同的顏色表示了不同物體距離攝像頭的距離,距離攝像頭的距離越大,則顯示出來(lái)的顏色則越紅。我們假設(shè)有一個(gè)神經(jīng)網(wǎng)絡(luò),我們只需要輸入一張圖片,就可以得到圖片當(dāng)中的所有位置距離攝像頭的距離,這樣是不是很酷呢?那么我們?nèi)绾问褂蒙窠?jīng)網(wǎng)絡(luò)對(duì)一系列的圖片訓(xùn)練成為深度圖的形式呢?一些研究人員便立馬想到可以使用全卷積神經(jīng)網(wǎng)絡(luò)(Fully convolutional Network)來(lái)實(shí)現(xiàn)這個(gè)過(guò)程,全卷積神經(jīng)網(wǎng)絡(luò)(Fully convolutional Network)是我們之前在2D計(jì)算機(jī)視覺(jué)當(dāng)中所采用的用于圖像分割的神經(jīng)網(wǎng)絡(luò),之前圖像分割得到的是每一個(gè)像素點(diǎn)顯示的是屬于某一個(gè)物體類別的概率值,而現(xiàn)在我們把同樣的神經(jīng)網(wǎng)絡(luò)用于深度圖當(dāng)中就可以得到圖像當(dāng)中某一個(gè)像素距離攝像頭的遠(yuǎn)近大小。這樣就可以完美得到咱們的深度圖訓(xùn)練模型了,我們甚至可以把這個(gè)全卷積神經(jīng)網(wǎng)絡(luò)替換成U-net以期在一些特定數(shù)據(jù)集上得到更好的效果。模型如下所示:

這個(gè)模型首先也是輸出一個(gè)3通道的彩色圖片,經(jīng)過(guò)一個(gè)全卷積神經(jīng)網(wǎng)絡(luò)(FCN)然后對(duì)深度圖進(jìn)行估計(jì),輸出的深度圖僅僅具有兩個(gè)通道,因?yàn)榈谌齻€(gè)通道的維度為1,意味著我們輸出的深度圖實(shí)際上是黑白的,用黑色或者白色的深度來(lái)表示距離攝像頭的距離,圖像當(dāng)中使用了彩色僅僅是因?yàn)榭雌饋?lái)更加方便。同時(shí)這里的loss使用了L2距離進(jìn)行損失函數(shù)的編寫。

但是!?。?!細(xì)心的同學(xué)肯定會(huì)發(fā)現(xiàn)其中有一定的問(wèn)題,那就是同一個(gè)物體,擁有不同的大小,他們?nèi)绻麅H僅通過(guò)一張圖片來(lái)判定他們離攝像頭的距離是不一定準(zhǔn)確的。因?yàn)閳D片當(dāng)中并沒(méi)有包含物體有關(guān)深度的信息。

比如我們有兩只形狀完全相同的鳥(niǎo),但是其中一只鳥(niǎo)是另一只鳥(niǎo)大小的2倍,我們把小鳥(niǎo)放到離攝像頭更近的位置,將大鳥(niǎo)放到離攝像頭更遠(yuǎn)的位置,那么僅僅通過(guò)一張圖片我們就會(huì)認(rèn)為這兩只鳥(niǎo)離我們的攝像頭距離是一樣大的!如下圖所示:

那么這樣我們又該如何解決呢?聰明的研究人員設(shè)計(jì)了一個(gè)具有尺寸不變特征的的loss function來(lái)解決了這個(gè)問(wèn)題,這個(gè)loss function的寫法如下:

至于這個(gè)公式為什么會(huì)讓圖片的深度信息得以保留,這里不再贅述,感興趣的同學(xué)可以翻看一下提出這個(gè)loss的論文,在2016年的世界頂級(jí)人工智能會(huì)議論文NIPS上發(fā)表,于紐約大學(xué)(New York University)提出,論文的鏈接如下:https://papers.nips.cc/paper/5539-depth-map-prediction-from-a-single-image-using-a-multi-scale-deep-network.pdf

同時(shí)呢,在深度圖當(dāng)中還有一種圖叫做垂直表面法向量圖,它的圖像如下所示:

最后輸出圖像當(dāng)中的不同顏色代表了這個(gè)物體的表面所朝空間當(dāng)中的方向,比如綠色代表這個(gè)物體的表面是朝向右邊的,而紅色則代表這個(gè)物體的表面是朝向左邊的。我們也可以使用全卷積神經(jīng)網(wǎng)絡(luò)(Fully convolutional Network)對(duì)這種輸出的圖像進(jìn)行處理,其中的結(jié)構(gòu)如下所示:

最后的Loss采用了(x*y)/(|x|*|y||)的方法,因?yàn)槲覀兯A(yù)測(cè)的圖像具備圖像的方向和深度的信息,而圖像的方向和大小正好可以由向量表示,豈不美哉?每一個(gè)訓(xùn)練集當(dāng)中的圖片的其中一個(gè)像素點(diǎn)都可以由一個(gè)向量來(lái)表示,同時(shí)具備深度(長(zhǎng)度)和方向的信息。而原圖當(dāng)中某個(gè)像素點(diǎn)的大小可以表示為向量x,通過(guò)神經(jīng)網(wǎng)絡(luò)推測(cè)之后的同一個(gè)像素點(diǎn)則可以表示為向量y,因此我們可以使用公式(x*y)/(|x|*|y||)來(lái)衡量這兩個(gè)向量之間的差距,其中(x*y)中的乘法使用了點(diǎn)乘,因此上下相除可得cos(theta)也就是圖片當(dāng)中某個(gè)像素點(diǎn)所具備的loss的大小,將整個(gè)圖片當(dāng)中所有像素點(diǎn)的大小加起來(lái)則可以得到整個(gè)圖像當(dāng)中l(wèi)oss的大小了。

三.Voxel Grid網(wǎng)格表示法

如下圖所示,我們可以將一張二維的圖片轉(zhuǎn)為一張三維的Mesh圖,什么是Mesh圖呢?Voxels grid圖就是在一個(gè)三維的,大小為V*V*V的空間立體當(dāng)中,由一系列1*1*1正方體網(wǎng)格堆砌出來(lái)的三維立體圖形,Voxels grid圖當(dāng)中的每一個(gè)網(wǎng)格只具有兩個(gè)值,1或者0,1表示這個(gè)地方有正方體,0表示這個(gè)地方?jīng)]有正方體。一個(gè)Voxels grid圖當(dāng)中只保留物體的形狀和大小信息,而不保留物體的顏色以及紋理的信息。

我們先來(lái)看一個(gè)有趣的問(wèn)題,用什么方法可以對(duì)三維Voxels grid圖進(jìn)行分類呢?我們暫時(shí)不考慮將二維圖像恢復(fù)到三維Voxels grid圖的情況的話,常見(jiàn)的手段是使用立體3D卷積,如下圖所示:

3D立體卷積和我們的2D卷積有一點(diǎn)不同之處,那就是卷積核的神奇之處是它竟然一個(gè)正立方體!而不是一個(gè)二維的平面!在上圖當(dāng)中,我們的輸入是一個(gè)四通道的1*30*30*30的Mesh圖,輸入的圖像可能是一個(gè)椅子,也可能是一個(gè)床。我們通過(guò)三維卷積,不斷地進(jìn)行卷積以及池化的操作,接著使用全連接神經(jīng)網(wǎng)絡(luò)將其展開(kāi),最后使用softmax函數(shù)將其繼續(xù)擰分類。我們使用3D卷積能夠?qū)αⅢw圖像的特征進(jìn)行更為有效的檢測(cè),因?yàn)橐粋€(gè)立體的圖像不僅僅有長(zhǎng)和寬上面的信息,還有其有關(guān)深度的相關(guān)信息,因此需要采用3D卷積。3D卷積的動(dòng)態(tài)圖如下所示,這個(gè)例題動(dòng)態(tài)圖當(dāng)中卷積核的大小為3*3*3:

再回到我們剛才的問(wèn)題,如何將一個(gè)二維的圖像轉(zhuǎn)化為Voxels grid圖呢,我們可以采用的卷積神經(jīng)網(wǎng)絡(luò)如下所示:

首先我們將二維的圖像首先送入到一個(gè)2D卷積神經(jīng)網(wǎng)絡(luò)當(dāng)中,用于提取這個(gè)二維圖像的特征,然后通過(guò)全連接神經(jīng)網(wǎng)絡(luò)或者Flatten層將其展平一個(gè)一維的向量,這樣就可以更加方便地轉(zhuǎn)化reshape為四通道進(jìn)行三維卷積的形式,前面我們已經(jīng)說(shuō)過(guò)三維卷積能夠更好地抽象地還原和提取到圖像在三維空間上的個(gè)特征,因此我們對(duì)剛才二維圖像抽象出來(lái)的特征通過(guò)三維卷積進(jìn)行還原,這是一個(gè)通過(guò)三維卷積進(jìn)行上采樣的過(guò)程。最后輸出的結(jié)果就可以得到我們的Voxels grid圖啦!

但是使用三維卷積常常就會(huì)用更為昂貴的代價(jià)來(lái)?yè)Q取更為準(zhǔn)確的結(jié)果,因?yàn)槿S卷積使用的參數(shù)過(guò)多,如下圖所示:

我們僅僅儲(chǔ)存1024^3個(gè)Voxels grid網(wǎng)格就需要電腦4GB的顯存,實(shí)在是太大了!好多電腦的顯存還沒(méi)有這么大呢!因此有些研究人員則直接使用二維卷積對(duì)圖像進(jìn)行三維的還原,當(dāng)然效果肯定沒(méi)這么好啦,如下圖所示:

這個(gè)思想就很和我們的自編碼器(Auto-Encoders)很像了。

四.采用3D點(diǎn)云

采用3D點(diǎn)云應(yīng)該是目前比較靠譜的方案,

在3D點(diǎn)云當(dāng)中每一個(gè)點(diǎn),都有三個(gè)參數(shù),分別是每個(gè)點(diǎn)在x,y,z軸上的位置,對(duì)3D點(diǎn)云進(jìn)行分類的話和對(duì)Mesh分類的方法差不多,也是經(jīng)過(guò)一定的神經(jīng)網(wǎng)絡(luò)再經(jīng)過(guò)softmax函數(shù)就可以得到最后的分類了!如下圖所示:

這就是今天小編給大家分享的全部?jī)?nèi)容啦!

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 3D
    3D
    +關(guān)注

    關(guān)注

    9

    文章

    3013

    瀏覽量

    115122
  • 計(jì)算機(jī)視覺(jué)

    關(guān)注

    9

    文章

    1715

    瀏覽量

    47646
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5599

    瀏覽量

    124428

原文標(biāo)題:一門入門當(dāng)今最火的3D計(jì)算機(jī)視覺(jué)

文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺(jué)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    上海計(jì)算機(jī)視覺(jué)企業(yè)行學(xué)術(shù)沙龍走進(jìn)西井科技

    12月5日,由中國(guó)圖象圖形學(xué)學(xué)會(huì)青年工作委員會(huì)(下簡(jiǎn)稱“青工委”)、上海市計(jì)算機(jī)學(xué)會(huì)計(jì)算機(jī)視覺(jué)專委會(huì)(下簡(jiǎn)稱“專委會(huì)”)聯(lián)合主辦,上海西井科技股份有限公司、江蘇路街道商會(huì)承辦的“上海計(jì)算機(jī)
    的頭像 發(fā)表于 12-16 15:39 ?604次閱讀

    2025 3D機(jī)器視覺(jué)的發(fā)展趨勢(shì)

    迭代與應(yīng)用拓展成為市場(chǎng)的主要推動(dòng)力:·技術(shù)升級(jí):視覺(jué)系統(tǒng)從單一任務(wù)的2D相機(jī)向多功能3D相機(jī)進(jìn)化。過(guò)去用2D相機(jī)完成單一任務(wù),如今用戶更愿意為能自動(dòng)化多流程的
    的頭像 發(fā)表于 12-10 17:25 ?1282次閱讀
    2025 <b class='flag-5'>3D</b>機(jī)器<b class='flag-5'>視覺(jué)</b>的發(fā)展趨勢(shì)

    使用代理式AI激活傳統(tǒng)計(jì)算機(jī)視覺(jué)系統(tǒng)的三種方法

    當(dāng)前的計(jì)算機(jī)視覺(jué)系統(tǒng)擅長(zhǎng)于識(shí)別物理空間與流程中的事件,卻難以詮釋場(chǎng)景細(xì)節(jié)及其意義,也無(wú)法推理后續(xù)可能發(fā)生的情況。
    的頭像 發(fā)表于 12-01 09:44 ?657次閱讀

    圖像采集卡:機(jī)器視覺(jué)時(shí)代的圖像數(shù)據(jù)核心樞紐

    的采集、轉(zhuǎn)換、傳輸與初步處理,搭建起圖像傳感器(相機(jī)/攝像頭)與計(jì)算機(jī)之間的高速數(shù)據(jù)鏈路。其核心價(jià)值在于解決“原始圖像信號(hào)如何高效、精準(zhǔn)、穩(wěn)定地轉(zhuǎn)化為計(jì)算機(jī)可處理數(shù)據(jù)
    的頭像 發(fā)表于 11-12 15:15 ?654次閱讀
    <b class='flag-5'>圖像</b>采集卡:機(jī)器<b class='flag-5'>視覺(jué)</b>時(shí)代的<b class='flag-5'>圖像</b>數(shù)據(jù)核心樞紐

    奧比中光領(lǐng)跑韓國(guó)機(jī)器人3D視覺(jué)市場(chǎng)

    近日,國(guó)際權(quán)威行業(yè)研究機(jī)構(gòu)Interact Analysis發(fā)布《韓國(guó)商用及工業(yè)移動(dòng)機(jī)器人3D視覺(jué)市場(chǎng)分析》報(bào)告(以下簡(jiǎn)稱“報(bào)告”)。數(shù)據(jù)顯示,奧比中光在韓國(guó)商用和工業(yè)移動(dòng)機(jī)器人3D視覺(jué)
    的頭像 發(fā)表于 10-23 16:27 ?750次閱讀

    STM32計(jì)算機(jī)視覺(jué)開(kāi)發(fā)套件:B-CAMS-IMX攝像頭模塊技術(shù)解析

    CMOS RGB圖像傳感器、ISM330DLC慣性運(yùn)動(dòng)單元和VL53L5CX ToF傳感器。B-CAMS-IMX可用于任何具有MIPI CSI-2? 接口(帶22引腳FFC連接器)的STM32開(kāi)發(fā)板,輕松在STM32微控制器和微處理器上實(shí)現(xiàn)全功能計(jì)算機(jī)
    的頭像 發(fā)表于 10-20 09:46 ?1322次閱讀
    STM32<b class='flag-5'>計(jì)算機(jī)</b><b class='flag-5'>視覺(jué)</b>開(kāi)發(fā)套件:B-CAMS-IMX攝像頭模塊技術(shù)解析

    季豐電子邀您相約2025國(guó)際3D視覺(jué)感知與應(yīng)用大會(huì)

    9月20日 - 21日,國(guó)際3D視覺(jué)感知與應(yīng)用大會(huì)將在蘇州太湖國(guó)際會(huì)議中心盛大啟幕,大會(huì)議題涵蓋3D成像與測(cè)量、3D視覺(jué)
    的頭像 發(fā)表于 09-08 15:03 ?1067次閱讀

    iTOF技術(shù),多樣化的3D視覺(jué)應(yīng)用

    視覺(jué)傳感器對(duì)于機(jī)器信息獲取至關(guān)重要,正在從二維(2D)發(fā)展到三維(3D),在某些方面模仿并超越人類的視覺(jué)能力,從而推動(dòng)創(chuàng)新應(yīng)用。3D
    發(fā)表于 09-05 07:24

    【作品合集】賽昉科技VisionFive 2單板計(jì)算機(jī)開(kāi)發(fā)板測(cè)評(píng)

    賽昉科技VisionFive 2單板計(jì)算機(jī)開(kāi)發(fā)板測(cè)評(píng)作品合集 產(chǎn)品介紹: 昉·星光 2是全球首款集成了3D GPU的高性能量產(chǎn)RISC-V單板計(jì)算機(jī),搭載昉·驚鴻-7110(型號(hào):JH-7110
    發(fā)表于 09-04 09:08

    易控智駕榮獲計(jì)算機(jī)視覺(jué)頂會(huì)CVPR 2025認(rèn)可

    近日,2025年國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別頂級(jí)會(huì)議(IEEE/CVF Conference on Computer Vision and Pattern Recognition,CVPR 2025)在美國(guó)田納西州納什維爾召開(kāi)。
    的頭像 發(fā)表于 07-29 16:54 ?1231次閱讀

    TechWiz LCD 3D應(yīng)用:FFS仿真

    建模任務(wù) 堆棧結(jié)構(gòu) 建模過(guò)程 2.1使用TechWiz Layout繪制各層掩模版平面圖 2.2創(chuàng)建堆棧結(jié)構(gòu),并生成3D結(jié)構(gòu) 2.3 使用TechWiz LCD 3D進(jìn)行各項(xiàng)參數(shù)計(jì)算 3
    的頭像 發(fā)表于 07-14 14:08 ?704次閱讀
    TechWiz LCD <b class='flag-5'>3D</b>應(yīng)用:FFS仿真

    3D視覺(jué)引領(lǐng)工業(yè)變革

    隨著工業(yè)智能化的推進(jìn),3D視覺(jué)技術(shù)正為制造業(yè)帶來(lái)變革。市場(chǎng)規(guī)模逐年擴(kuò)大,技術(shù)應(yīng)用與市場(chǎng)競(jìng)爭(zhēng)日益激烈。
    的頭像 發(fā)表于 07-07 11:08 ?750次閱讀
    <b class='flag-5'>3D</b><b class='flag-5'>視覺(jué)</b>引領(lǐng)工業(yè)變革

    工業(yè)相機(jī)圖像采集卡:機(jī)器視覺(jué)的核心樞紐

    工業(yè)相機(jī)圖像采集卡是用于連接工業(yè)相機(jī)與計(jì)算機(jī)的關(guān)鍵硬件設(shè)備,主要負(fù)責(zé)將相機(jī)輸出的圖像信號(hào)轉(zhuǎn)換為計(jì)算機(jī)可處理的數(shù)字信號(hào),并實(shí)現(xiàn)高速、穩(wěn)定的數(shù)據(jù)傳輸。它在工業(yè)自動(dòng)化、機(jī)器
    的頭像 發(fā)表于 05-21 12:13 ?883次閱讀
    工業(yè)相機(jī)<b class='flag-5'>圖像</b>采集卡:機(jī)器<b class='flag-5'>視覺(jué)</b>的核心樞紐

    基于LockAI視覺(jué)識(shí)別模塊:C++圖像的基本運(yùn)算

    圖像處理中,理解圖像的基本操作是掌握計(jì)算機(jī)視覺(jué)技術(shù)的關(guān)鍵。本文章將介紹基于LockAI視覺(jué)識(shí)別模塊下OpenCV中
    的頭像 發(fā)表于 05-06 16:20 ?725次閱讀
    基于LockAI<b class='flag-5'>視覺(jué)</b>識(shí)別模塊:C++<b class='flag-5'>圖像</b>的基本運(yùn)算

    NVIDIA助力影眸科技3D生成工具Rodin升級(jí)

    AI、計(jì)算機(jī)視覺(jué)技術(shù)在大眾娛樂(lè)市場(chǎng)的推廣應(yīng)用,其 3D 生成工具 Rodin(Hyper3d.ai)去年 6 月發(fā)布后迅速突破了百萬(wàn)用戶量級(jí),背后技術(shù)論文 CLAY 還提名了 SIG
    的頭像 發(fā)表于 04-27 15:09 ?1315次閱讀