91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

開放詞匯檢測(cè)新晉SOTA:地瓜機(jī)器人開源DOSOD實(shí)時(shí)檢測(cè)算法

地瓜機(jī)器人 ? 2025-01-08 15:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

計(jì)算機(jī)視覺領(lǐng)域,目標(biāo)檢測(cè)是一項(xiàng)關(guān)鍵技術(shù),旨在識(shí)別圖像或視頻中感興趣物體的位置與類別。傳統(tǒng)的閉集檢測(cè)長(zhǎng)期占據(jù)主導(dǎo)地位,但近年來(lái),開放詞匯檢測(cè)(Open-Vocabulary Object Detection-OVOD 或者 Open-Set Object Detection-OSOD)嶄露頭角,為目標(biāo)檢測(cè)帶來(lái)了新的活力與可能性。與閉集檢測(cè)相比,開放詞匯檢測(cè)打破了檢測(cè)類別固定的“枷鎖”,它在訓(xùn)練時(shí)利用豐富多樣的文本 - 區(qū)域?qū)Γ╰ext-region pairs)數(shù)據(jù),將文本作為類別標(biāo)簽,大大拓寬了可檢測(cè)的范圍。尤其是在機(jī)器人感受周圍環(huán)境的任務(wù)中,能夠起到極大的幫助。

目前主流的開放詞匯檢測(cè)算法有Grounding-DINO系列和YOLO-World。在海量的私有數(shù)據(jù)集的加持下,前者具有非常強(qiáng)大的檢測(cè)能力,精度遙遙領(lǐng)先,其模型依賴參數(shù)量較大的Transformer結(jié)構(gòu),實(shí)時(shí)性較弱。后者依賴輕量級(jí)的Convolution結(jié)構(gòu),能夠達(dá)到實(shí)時(shí)推理的效率,精度上依然不錯(cuò)。

DOSOD(Decoupled Open-Set Object Detection)是地瓜機(jī)器人最新發(fā)布的開放詞匯目標(biāo)檢測(cè)算法,力求在低算力邊緣端實(shí)現(xiàn)更高的推理效率,同時(shí)帶來(lái)比YOLO-World更具競(jìng)爭(zhēng)力的精度表現(xiàn)。在算法上,DOSOD采用了獨(dú)特的解耦特征對(duì)齊策略,摒棄了傳統(tǒng)的圖像-文本交互方式,通過基于MLPs的特征適配模塊對(duì)圖像與文本的特征進(jìn)行優(yōu)化與對(duì)齊,進(jìn)一步提升了模型的推理效率和精度。

實(shí)驗(yàn)結(jié)果顯示,DOSOD在多個(gè)公開數(shù)據(jù)集(如LVIS)上的表現(xiàn)超越了YOLO-World-v2,并在邊緣AI計(jì)算平臺(tái)上展現(xiàn)了壓倒性的效率優(yōu)勢(shì)。

wKgZPGd-J-yAGoSwAACJUwG6G7Q417.pngwKgZPGd-J-yAFdkCAADuErP-nd8054.png

文章開源地址:https://arxiv.org/abs/2412.14680

代碼開源地址:https://github.com/D-Robotics-AI-Lab/DOSOD

文章由地瓜機(jī)器人應(yīng)用算法部,中科院自動(dòng)化所多模態(tài)人工智能系統(tǒng)全國(guó)重點(diǎn)實(shí)驗(yàn)室,蘇州大學(xué)未來(lái)學(xué)院,上??萍即髮W(xué)信息科學(xué)技術(shù)學(xué)院聯(lián)合出品。

DOSOD的基本原理

wKgZO2d-J_iAWCzrAAE33dqtCyY933.png

目前主流的開放詞匯檢測(cè)對(duì)齊策略主要分為以下三種:

(a) 教師 - 學(xué)生蒸餾方法

  • 描述:利用 VLM(視覺語(yǔ)言模型)的文本編碼器生成的文本嵌入來(lái)監(jiān)督圖像特征和檢測(cè)器特征的對(duì)齊。也可以通過裁剪圖像區(qū)域來(lái)對(duì)齊特征。
  • 總結(jié):通過 VLM 的文本編碼器來(lái)指導(dǎo)圖像和檢測(cè)器特征的對(duì)齊。

(b) 基于交互的對(duì)齊策略

  • 描述:文本嵌入與檢測(cè)器骨干網(wǎng)絡(luò)提取的圖像特征進(jìn)行交互,以實(shí)現(xiàn)對(duì)齊。
  • 總結(jié):通過文本嵌入與圖像特征的交互來(lái)實(shí)現(xiàn)特征對(duì)齊。

(c) 提出的解耦對(duì)齊策略

  • 描述:在不進(jìn)行交互的情況下對(duì)齊特征,通過視覺 - 語(yǔ)言特征適配來(lái)實(shí)現(xiàn)。
  • 總結(jié):采用解耦方式,不依賴交互來(lái)進(jìn)行特征對(duì)齊。

DOSOD(Decoupled Open-Set Object Detection) 屬于第三種開放詞匯檢測(cè)對(duì)齊策略——解耦對(duì)齊策略。該方法的核心思想是通過將文本和圖像模態(tài)的特征解耦,以實(shí)現(xiàn)更高效的對(duì)齊過程,從而在保證檢測(cè)精度的同時(shí)大幅提升推理速度。

wKgZPGd-J-yAFdkCAADuErP-nd8054.png

在此基礎(chǔ)上,DOSOD洞察到了閉集檢測(cè)開放詞匯檢測(cè)之間的本質(zhì)聯(lián)系,提出了全新的結(jié)構(gòu)框架(如上圖所示)。具體來(lái)說(shuō),DOSOD將傳統(tǒng)分類分支最后的卷積操作等價(jià)地解構(gòu)為兩個(gè)模態(tài)的特征對(duì)齊操作,從而激發(fā)出解耦的特征學(xué)習(xí)和共同空間對(duì)齊的結(jié)構(gòu)。

在該框架中,類別標(biāo)簽文本首先通過一個(gè)文本編碼器(來(lái)自VLM)生成初步的Text Embedding,然后經(jīng)過一個(gè)基于MLPs的特征適應(yīng)模塊,對(duì)Text Embedding進(jìn)行特征優(yōu)化,為Joint Space中的對(duì)齊操作做準(zhǔn)備。

在圖像側(cè),DOSOD使用經(jīng)典的單階段目標(biāo)檢測(cè)器(文中使用了YOLOv8)來(lái)提取圖像的多尺度特征圖。每個(gè)特征點(diǎn)表示圖像中的一個(gè)區(qū)域特征。最后,在Joint Space中,通過計(jì)算Text Embedding與Region Feature之間的相似度,從而完成特征對(duì)齊。

DOSOD的實(shí)驗(yàn)結(jié)果

在實(shí)驗(yàn)部分,DOSOD在公開數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練,并在LVISCOCO數(shù)據(jù)集上進(jìn)行了Zero-shot驗(yàn)證。DOSOD均擁有優(yōu)秀的精度表現(xiàn):

  • 在LVIS數(shù)據(jù)集上,相較于YOLO-World-v2,DOSOD精度全面領(lǐng)先,并與YOLO-World-v1不分伯仲。
wKgZPGd-KCSALFMrAAIe5rvyLD8554.png
  • 在COCO數(shù)據(jù)集上,DOSOD整體精度要略低于YOLO-World,但YOLO-World-v2的精度微高于YOLO-World-v1,也一定程度上說(shuō)明,COCO由于詞匯豐富程度較低,不太適用于開放詞匯檢測(cè)任務(wù)評(píng)測(cè)。
wKgZO2d-KC6AKSsFAAGDQ-iWUZo696.png

在推理速度上,通過將DOSODYOLO-WorldNVIDIA RTX 4090D-Robotics RDK X5上進(jìn)行全面對(duì)比,我們可以看到:

  • DOSOD在主流的服務(wù)器級(jí)別的芯片上,推理效率是顯著高于YOLO-World。
wKgZO2d-KC6AKSsFAAGDQ-iWUZo696.pngwKgZPGd-KEOALx_OAAGP2zjV2sc218.png
  • 在邊緣側(cè)的AI計(jì)算平臺(tái)上,DOSOD以碾壓式的效率提升,遠(yuǎn)遠(yuǎn)超越Y(jié)OLO-World。
wKgZPGd-KDyAMKDDAAFpUcnVdy8314.png

DOSOD的應(yīng)用效果

DOSOD開放詞匯檢測(cè)算法有著廣泛的應(yīng)用場(chǎng)景,既能用于常規(guī)檢測(cè)任務(wù)里的目標(biāo)檢測(cè),也可以應(yīng)用在特殊場(chǎng)景下長(zhǎng)尾目標(biāo)類型的檢測(cè)任務(wù)當(dāng)中。針對(duì)某些極端長(zhǎng)尾的目標(biāo)類型,只需收集少量相關(guān)數(shù)據(jù)進(jìn)行微調(diào),就能顯著提高模型的穩(wěn)定性和檢測(cè)效果。

  • DOSOD 在常規(guī)目標(biāo)檢測(cè)上的檢測(cè)效果

在閉集目標(biāo)檢測(cè)任務(wù)中,COCO數(shù)據(jù)集預(yù)先定義了80個(gè)固定類別。我們可以看到,在經(jīng)過大數(shù)據(jù)量的開放詞匯數(shù)據(jù)集預(yù)訓(xùn)練后,DOSOD能夠檢測(cè)出諸多長(zhǎng)尾類別,如圖2左下角的“heater”,圖4中的“shoe”和“wheel”,而這些詞匯并未包含在COCO數(shù)據(jù)集的80個(gè)類別之內(nèi)。

wKgZPGd-KGuAD2btABTSXQElOvM312.png
  • DOSOD 在特殊場(chǎng)景的長(zhǎng)尾類別上的檢測(cè)效果

以下展示的是掃地機(jī)視角下的圖像,任務(wù)要求是檢測(cè)出地面上的各類污漬或障礙物,這些類別并不是常規(guī)目標(biāo)檢測(cè)任務(wù)中的標(biāo)準(zhǔn)類別。通過少量數(shù)據(jù)的微調(diào),DOSOD成功識(shí)別了這些特殊類別,為在該場(chǎng)景中準(zhǔn)確檢測(cè)出多樣化的長(zhǎng)尾類別發(fā)揮了關(guān)鍵作用。

wKgZO2d-KHiAbTY1AA2qnxQlJ6M949.pngwKgZO2d-KHyAWxULAAs0BhJTdr4300.pngwKgZO2d-KICAQBnfAArijXABNDw183.pngwKgZO2d-KIeAahcBAAljeeMwkGw740.png

DOSOD作為一款新興的開放詞匯檢測(cè)算法,憑借創(chuàng)新的解耦特征對(duì)齊策略,在提升推理效率的同時(shí),成功地保證了精度,展示出了極強(qiáng)的應(yīng)用潛力。未來(lái),隨著計(jì)算資源的提升與算法的不斷優(yōu)化,DOSOD有望在機(jī)器人、自動(dòng)駕駛、智能家居等領(lǐng)域提供更加高效精準(zhǔn)的目標(biāo)檢測(cè)解決方案。

作為地瓜機(jī)器人前沿算法研究的最新成果,DOSOD不僅在精度上超越了對(duì)標(biāo)方法,更成功解決了推理效率與低算力設(shè)備適應(yīng)性之間的挑戰(zhàn),為智能機(jī)器人技術(shù)的普及與發(fā)展提供了有力支持。

未來(lái),地瓜機(jī)器人將秉承“成為機(jī)器人時(shí)代的Wintel”的品牌初心,持續(xù)與客戶一同深入應(yīng)用場(chǎng)景,在提供擁有極致性能表現(xiàn)的硬件的同時(shí),為行業(yè)客戶和開發(fā)者提供豐富的具有實(shí)用價(jià)值的算法,加速機(jī)器人技術(shù)的落地和廣泛應(yīng)用。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    213

    文章

    31079

    瀏覽量

    222239
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4784

    瀏覽量

    98055
  • 人工智能
    +關(guān)注

    關(guān)注

    1817

    文章

    50098

    瀏覽量

    265363
  • RDK
    RDK
    +關(guān)注

    關(guān)注

    0

    文章

    26

    瀏覽量

    9398
  • 地瓜機(jī)器人
    +關(guān)注

    關(guān)注

    1

    文章

    31

    瀏覽量

    380
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    打造機(jī)器人母生態(tài)!一年開發(fā)者數(shù)量翻倍,地瓜機(jī)器人發(fā)布具身智能大算力開發(fā)平臺(tái)

    電子發(fā)燒友網(wǎng)報(bào)道(文/莫婷婷)2025年11月21日,在地瓜機(jī)器人舉辦的DDC2025開發(fā)者大會(huì)上,地瓜機(jī)器人CEO王叢宣布了一組令人矚目的數(shù)據(jù):公司全年出貨量同比增長(zhǎng)超180%,客戶
    的頭像 發(fā)表于 11-27 09:16 ?7900次閱讀
    打造<b class='flag-5'>機(jī)器人</b>母生態(tài)!一年開發(fā)者數(shù)量翻倍,<b class='flag-5'>地瓜</b><b class='flag-5'>機(jī)器人</b>發(fā)布具身智能大算力開發(fā)平臺(tái)

    廣和通亮相DDC 2025地瓜機(jī)器人開發(fā)者大會(huì)

    11月21日,DDC2025地瓜機(jī)器人開發(fā)者大會(huì)在深圳順利舉行。大會(huì)匯聚來(lái)自機(jī)器人全產(chǎn)業(yè)鏈的技術(shù)團(tuán)隊(duì)、生態(tài)伙伴與開發(fā)者,共同探討機(jī)器人技術(shù)的創(chuàng)新趨勢(shì)與未來(lái)應(yīng)用。作為
    的頭像 發(fā)表于 11-26 15:49 ?486次閱讀
    廣和通亮相DDC 2025<b class='flag-5'>地瓜</b><b class='flag-5'>機(jī)器人</b>開發(fā)者大會(huì)

    高精度機(jī)器人控制的核心——基于 MYD-LT536 開發(fā)板的精密運(yùn)動(dòng)控制方案

    ,MYD-LT536 具備以下突出優(yōu)勢(shì): 1. 高算力與實(shí)時(shí)性兼顧 四核 Cortex-A55 架構(gòu)可并行運(yùn)行多線程控制任務(wù),滿足多軸機(jī)器人同步控制與動(dòng)態(tài)補(bǔ)償算法實(shí)時(shí)計(jì)算需求; T5
    發(fā)表于 11-14 15:48

    奧比中光與地平線、地瓜機(jī)器人達(dá)成戰(zhàn)略合作

    8月11日,奧比中光與地平線及其控股子公司地瓜機(jī)器人在北京簽訂合作協(xié)議,雙方將在機(jī)器人智能化領(lǐng)域展開深度合作,充分發(fā)揮各自的技術(shù)與產(chǎn)品優(yōu)勢(shì),攜手推動(dòng)機(jī)器人產(chǎn)業(yè)的技術(shù)創(chuàng)新與落地應(yīng)用。奧比
    的頭像 發(fā)表于 08-12 11:31 ?2276次閱讀

    汽車制造車間檢測(cè)機(jī)器人與PLC無(wú)線以太網(wǎng)實(shí)時(shí)控制方案

    。檢測(cè)機(jī)器人通過傳感器、視覺系統(tǒng)和軟件算法采集數(shù)據(jù)后,將信息傳輸?shù)骄偷豍LC控制系統(tǒng)中,以實(shí)現(xiàn)人機(jī)交互、實(shí)時(shí)監(jiān)控、數(shù)據(jù)分析、工藝優(yōu)化以及生產(chǎn)流程閉環(huán)控制?,F(xiàn)計(jì)劃在總裝車間內(nèi),為4臺(tái)
    的頭像 發(fā)表于 07-05 15:45 ?667次閱讀
    汽車制造車間<b class='flag-5'>檢測(cè)</b><b class='flag-5'>機(jī)器人</b>與PLC無(wú)線以太網(wǎng)<b class='flag-5'>實(shí)時(shí)</b>控制方案

    算控一體新物種發(fā)布!百TOPS算力,地瓜為具身機(jī)器人量產(chǎn)“夯地基”

    ? ? 電子發(fā)燒友網(wǎng)(文/莫婷婷)近期,地瓜機(jī)器人正式發(fā)布了RDK S100算控一體化機(jī)器人開發(fā)套件,采用大小腦超級(jí)異構(gòu),提供80TOPS和128TOPS的算力組合。RDK S100將與
    的頭像 發(fā)表于 06-18 09:09 ?1.8w次閱讀
    算控一體新物種發(fā)布!百TOPS算力,<b class='flag-5'>地瓜</b>為具身<b class='flag-5'>機(jī)器人</b>量產(chǎn)“夯地基”

    盤點(diǎn)#機(jī)器人開發(fā)平臺(tái)

    地瓜機(jī)器人RDK X5開發(fā)套件地瓜機(jī)器人RDK X5開發(fā)套件產(chǎn)品介紹 旭日5芯片10TOPs算力-電子發(fā)燒友網(wǎng)機(jī)器人開發(fā)套件 Kria KR
    發(fā)表于 05-13 15:02

    【「# ROS 2智能機(jī)器人開發(fā)實(shí)踐」閱讀體驗(yàn)】視覺實(shí)現(xiàn)的基礎(chǔ)算法的應(yīng)用

    。 學(xué)習(xí)建議 對(duì)于初學(xué)者,建議先通過仿真(如Gazebo)驗(yàn)證算法,再遷移到真實(shí)機(jī)器人,以降低硬件調(diào)試成本。 多參與開源社區(qū)(如ROS2的GitHub項(xiàng)目),學(xué)習(xí)前沿技術(shù)并貢獻(xiàn)代碼,是快速提升實(shí)戰(zhàn)能力
    發(fā)表于 05-03 19:41

    大象機(jī)器人攜手進(jìn)迭時(shí)空推出 RISC-V 全棧開源六軸機(jī)械臂產(chǎn)品

    末端執(zhí)行器。 全棧開源 從RISC-V指令集、芯片SDK到機(jī)器人控制代碼100%開放,開發(fā)者可自由定制算法與控制邏輯。 官方apt倉(cāng)庫(kù)提供deepseek-r1-distill-qwe
    發(fā)表于 04-25 17:59

    樂聚機(jī)器人地瓜機(jī)器人達(dá)成戰(zhàn)略合作,聯(lián)合發(fā)布Aelos Embodied具身智能

    要聞4月19日,在CCF人形機(jī)器人與人工智能技術(shù)巡回研討會(huì)(武漢站)上,樂聚機(jī)器人地瓜機(jī)器人達(dá)成戰(zhàn)略合作,雙方將基于RDKX5、RDKS100以及更高性能的國(guó)產(chǎn)大算力平臺(tái),就夸父(K
    的頭像 發(fā)表于 04-24 22:07 ?1423次閱讀
    樂聚<b class='flag-5'>機(jī)器人</b>與<b class='flag-5'>地瓜</b><b class='flag-5'>機(jī)器人</b>達(dá)成戰(zhàn)略合作,聯(lián)合發(fā)布Aelos Embodied具身智能

    地瓜機(jī)器人RDK X5 規(guī)格書與地瓜機(jī)器人RDK X5原理圖

    地瓜機(jī)器人是芯片公司地平線成立的全資控股子公司。專注于機(jī)器人市場(chǎng)的軟硬件通用底座提供商。地瓜機(jī)器人以旭日智能計(jì)算芯片和 RDK
    的頭像 發(fā)表于 04-21 19:01 ?3354次閱讀
    <b class='flag-5'>地瓜</b><b class='flag-5'>機(jī)器人</b>RDK X5 規(guī)格書與<b class='flag-5'>地瓜</b><b class='flag-5'>機(jī)器人</b>RDK X5原理圖

    大象機(jī)器人推出myCobot 280 RDK X5,攜手地瓜機(jī)器人共建智能教育機(jī)

    摘要大象機(jī)器人全新推出輕量級(jí)高性能教育機(jī)械臂myCobot280RDKX5,該產(chǎn)品集成地瓜機(jī)器人RDKX5開發(fā)者套件,深度整合雙方在硬件研發(fā)與智能計(jì)算領(lǐng)域的技術(shù)優(yōu)勢(shì),實(shí)現(xiàn)芯片架構(gòu)、軟件算法
    的頭像 發(fā)表于 04-15 22:05 ?1363次閱讀
    大象<b class='flag-5'>機(jī)器人</b>推出myCobot 280 RDK X5,攜手<b class='flag-5'>地瓜</b><b class='flag-5'>機(jī)器人</b>共建智能教育機(jī)

    軒轅智駕紅外目標(biāo)檢測(cè)算法在汽車領(lǐng)域的應(yīng)用

    在 AI 技術(shù)蓬勃發(fā)展的當(dāng)下,目標(biāo)檢測(cè)算法取得了重大突破,其中紅外目標(biāo)檢測(cè)算法更是在汽車行業(yè)掀起了波瀾壯闊的變革,從根本上重塑著汽車的安全性能、駕駛體驗(yàn)與產(chǎn)業(yè)生態(tài)。
    的頭像 發(fā)表于 03-27 15:55 ?956次閱讀

    地瓜機(jī)器人,和全球機(jī)器人開發(fā)者交朋友

    前言自2024年9月20日在國(guó)內(nèi)官宣以來(lái),地瓜機(jī)器人(D-Robotics)正在以行業(yè)領(lǐng)軍者的角色,開放姿態(tài)擁抱全球機(jī)遇,致力于和全球機(jī)器人開發(fā)者交朋友。短短半年間,從亞洲的東京、首爾
    的頭像 發(fā)表于 03-24 15:27 ?1673次閱讀
    <b class='flag-5'>地瓜</b><b class='flag-5'>機(jī)器人</b>,和全球<b class='flag-5'>機(jī)器人</b>開發(fā)者交朋友

    開啟報(bào)名!地瓜機(jī)器人-全國(guó)大學(xué)生嵌入式芯片與系統(tǒng)設(shè)計(jì)競(jìng)賽賽題發(fā)布

    1公司介紹公司簡(jiǎn)介起步于2015年誕生的地平線,地瓜機(jī)器人是業(yè)界領(lǐng)先的機(jī)器人軟硬件通用底座提供商。承載著「成為機(jī)器人時(shí)代的Wintel」的品牌初心,
    的頭像 發(fā)表于 03-13 22:33 ?1614次閱讀
    開啟報(bào)名!<b class='flag-5'>地瓜</b><b class='flag-5'>機(jī)器人</b>-全國(guó)大學(xué)生嵌入式芯片與系統(tǒng)設(shè)計(jì)競(jìng)賽賽題發(fā)布