91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

「悟道·視界」視覺(jué)大模型系列,6項(xiàng)領(lǐng)先成果技術(shù)詳解

硬科技星球 ? 來(lái)源:硬科技星球 ? 作者:硬科技星球 ? 2023-06-27 16:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

日前,智源「悟道·視界」通用視覺(jué)大模型系列,帶來(lái)計(jì)算機(jī)視覺(jué)多任務(wù)處理能力方面的6項(xiàng)國(guó)際領(lǐng)先技術(shù),迎接通用視覺(jué)智能曙光降臨,包括:

在多模態(tài)序列中補(bǔ)全一切的多模態(tài)大模型Emu

最強(qiáng)十億級(jí)視覺(jué)基礎(chǔ)模型EVA

一通百通、分割一切的視界通用分割模型

首創(chuàng)上下文圖像學(xué)習(xí)技術(shù)路徑的通用視覺(jué)模型Painter

性能最強(qiáng)開(kāi)源CLIP模型 EVA-CLIP

簡(jiǎn)單prompt(提示)即可視頻編輯的 vid2vid-zero 零樣本視頻編輯技術(shù)

“悟道·視界”

通用視覺(jué)大模型系列開(kāi)源地址:

EVA代碼和論文

Github 項(xiàng)目地址

https://github.com/baaivision/EVA

論文地址

https://arxiv.org/abs/2211.07636

EVA-CLIP代碼和論文

Github 項(xiàng)目地址

https://github.com/baaivision/EVA/tree/master/EVA-CLIP

論文地址

https://arxiv.org/abs/2303.15389

Painter代碼和論文

Github 項(xiàng)目地址

https://github.com/baaivision/Painter

論文地址

https://arxiv.org/abs/2212.02499

「視界通用分割模型」代碼和論文

Github 項(xiàng)目地址

https://github.com/baaivision/Painter

論文地址

https://arxiv.org/abs/2304.03284

Demo 地址

https://huggingface.co/spaces/BAAI/SegGPT

vid2vid-zero代碼和論文

Github 項(xiàng)目地址

https://github.com/baaivision/vid2vid-zero

論文鏈接

https://arxiv.org/abs/2303.17599

Demo 地址

https://huggingface.co/spaces/BAAI/vid2vid-zero

Emu:在多模態(tài)序列中補(bǔ)全一切的多模態(tài)大模型

多模態(tài)輸入,多模態(tài)輸出。

Emu作為業(yè)界首個(gè)多模態(tài)-to-多模態(tài)的多模態(tài)大模型,可以接受和處理不同模態(tài)的數(shù)據(jù),并輸出想要的多模態(tài)類別。

基于多模態(tài)上下文學(xué)習(xí)技術(shù)路徑,從圖文、交錯(cuò)圖文、交錯(cuò)視頻文本等海量多模態(tài)序列中學(xué)習(xí)。訓(xùn)練完成后,Emu能在多模態(tài)序列的上下文中補(bǔ)全一切,對(duì)圖像、文本和視頻等多種模態(tài)的數(shù)據(jù)進(jìn)行感知、推理和生成,實(shí)現(xiàn)多輪圖文對(duì)話、視頻理解、精準(zhǔn)圖像認(rèn)知、文圖生成、多模態(tài)上下文學(xué)習(xí)、視頻問(wèn)答和圖圖生成等多模態(tài)能力。

在零樣本COCO圖像描述性能方面,Emu超越Flagmingo-80B,取得109分。相比其他多模態(tài)模型,可以準(zhǔn)確識(shí)別出莫奈的日出印象;可以完成少樣本圖文理解,以兩個(gè)圖文對(duì)為例,可自動(dòng)完成對(duì)應(yīng)任務(wù);還可根據(jù)圖片或視頻進(jìn)行問(wèn)答和多輪對(duì)話。


在生成能力方面,可以根據(jù)任意長(zhǎng)度文本生成圖像;在圖圖生成方面,可以自動(dòng)推理生成新的圖片;在多模態(tài)上下文生成方面,可以根據(jù)文本-圖片作為prompt,生成融合了上下文的新圖片。


EVA:最強(qiáng)十億級(jí)視覺(jué)基礎(chǔ)模型

通用性是大模型能力的重要指標(biāo),亦是研究難點(diǎn)所在。如何讓通用視覺(jué)模型,在更高效的同時(shí)更簡(jiǎn)單?語(yǔ)義學(xué)習(xí)和幾何結(jié)構(gòu)學(xué)習(xí)是解決視覺(jué)問(wèn)題的兩大關(guān)鍵點(diǎn)。


將最強(qiáng)十億級(jí)視覺(jué)基礎(chǔ)模型 EVA 正是將最強(qiáng)語(yǔ)義學(xué)習(xí)(CLIP)與最強(qiáng)幾何結(jié)構(gòu)學(xué)習(xí)(MIM)結(jié)合,再將標(biāo)準(zhǔn)的 ViT 模型擴(kuò)大規(guī)模至 10 億參數(shù)進(jìn)行訓(xùn)練,一舉在 ImageNet 分類、COCO 檢測(cè)分割、Kinetics 視頻分類等廣泛的視覺(jué)感知任務(wù)中取得當(dāng)時(shí)最強(qiáng)性能。

視覺(jué)預(yù)訓(xùn)練模型EVA的命名來(lái)源于論文標(biāo)題“Exploring the Limits of Masked Visual Representation Learning at Scale”相關(guān)字母的簡(jiǎn)化,意為探索遮蔽視覺(jué)表征學(xué)習(xí)的極限。

EVA模型把以“視覺(jué)為中心”作為建模思想,將語(yǔ)義學(xué)習(xí)(CLIP)與幾何結(jié)構(gòu)學(xué)習(xí)(MIM)結(jié)合,僅使用標(biāo)準(zhǔn)的 ViT 模型,并將其規(guī)模擴(kuò)大到十億參數(shù)(1-Billion)進(jìn)行訓(xùn)練。

模型訓(xùn)練方法是使用圖像-文本對(duì)齊(即CLIP)的視覺(jué)特征作為MIM的預(yù)測(cè)目標(biāo),模型設(shè)計(jì)思路有兩個(gè)特點(diǎn):

高效,EVA僅使用開(kāi)源的純圖像數(shù)據(jù)即可進(jìn)行掩碼預(yù)測(cè)任務(wù),不需要預(yù)訓(xùn)練階段重新學(xué)習(xí)語(yǔ)義以及不需要巨量的成對(duì)有標(biāo)注數(shù)據(jù)。相比而言,主流標(biāo)桿性模型(ViT-g、SwinV2、CoCa等)仍依賴于冗長(zhǎng)的有監(jiān)督或弱監(jiān)督訓(xùn)練,以及不可公開(kāi)訪問(wèn)的數(shù)億級(jí)有標(biāo)簽數(shù)據(jù)。

簡(jiǎn)單,EVA不需要特殊設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)。使用簡(jiǎn)單的網(wǎng)絡(luò)結(jié)構(gòu)—標(biāo)準(zhǔn)的ViT-g,而無(wú)需額外特殊設(shè)計(jì)的算子,使得其非常容易的遷移到廣泛的下游任務(wù),并且可以和其他模態(tài)共享。

經(jīng)過(guò)實(shí)驗(yàn),模型在ImageNet分類、COCO檢測(cè)分割、Kinetics視頻分類等廣泛的視覺(jué)感知任務(wù)中取得當(dāng)前最強(qiáng)性能。

如上圖,ImageNet圖像分類中取得89.7%的top-1準(zhǔn)確率;Kinetics-700視頻動(dòng)作識(shí)別取得82.9%的top-1準(zhǔn)確率;COCO目標(biāo)檢測(cè)取得64.7 mAP、實(shí)例分割取得55.5 mAP;LVIS的實(shí)例分割取得55.0 mAP;語(yǔ)義分割的COCO-stuff取得53.4 mIoU、ADE-20K取得62.3 mIoU。


Painter通用視覺(jué)模型:首創(chuàng)「上下文視覺(jué)學(xué)習(xí)」技術(shù)路徑


圖像理解圖像、圖像解釋圖像,圖像輸出圖像。將NLP中的上下文學(xué)習(xí)概念引入視覺(jué)模型,是智源對(duì)通用智能的新探索。


通用視覺(jué)模型 Painter , 將“以視覺(jué)為中心”作為建模核心思想,將圖像作為輸入和輸出,從而獲得上下文視覺(jué)信息,完成不同的視覺(jué)任務(wù)。

通用視覺(jué)模型Painter的設(shè)計(jì)思路是將大多數(shù)視覺(jué)任務(wù)看成”圖像修復(fù)問(wèn)題“,即給定輸入(“缺失”)圖像,預(yù)測(cè)輸出是“修復(fù)“過(guò)的圖像。這保持了像素之間的空間關(guān)系,確保每個(gè)輸出圖像的像素仍然代表相關(guān)任務(wù)的輸出。

Painter的建模要素可以歸納為三部分:輸入、架構(gòu)以及損失函數(shù)。

輸入為圖像。任務(wù)輸入和輸出都是圖像,會(huì)隨機(jī)遮蔽任務(wù)輸出圖像,并訓(xùn)練模型重構(gòu)缺失(被遮蔽掉)的像素。研究人員發(fā)現(xiàn),遮蔽比例為75%效果最好。


損失函數(shù)采用簡(jiǎn)單的回歸損失。研究人員發(fā)現(xiàn),Smooth l1 損失能幫助模型取得最好的性能。


架構(gòu)采用基本的ViT(vision Transformer)作為編碼器。具體來(lái)說(shuō),神經(jīng)網(wǎng)絡(luò)頭部(head)由兩個(gè)線性層(每個(gè)是1×1卷積),一個(gè)3×3卷積層組成。

模型目前可完成 7 種主流視覺(jué)任務(wù),已經(jīng)在深度估計(jì)、語(yǔ)義分割等核心視覺(jué)任務(wù)中性能“大幅超越同類”,相比同類模型具有 11%~25% 的性能提升,超過(guò)了圖靈獎(jiǎng)得主 Geoffrey Hinton 團(tuán)隊(duì)的 Pix2Seqv2,艾倫AI研究所的視覺(jué)通用模型 Unified-IO 和谷歌的 UViM。

「視界」通用分割模型:一通百通,分割一切

「視界通用分割模型」基于通用模型Painter開(kāi)發(fā),是首個(gè)利用視覺(jué)提示(prompt)完成任意分割任務(wù)的通用視覺(jué)模型,一通百通、分割一切。

從影像中分割出各種各樣的對(duì)象,是視覺(jué)智能的關(guān)鍵里程碑。今年年初,智源視界分割模型與Meta 的 SAM 模型同時(shí)發(fā)布,點(diǎn)亮通用視覺(jué)曙光。

它將分割任務(wù)視為一種通用的視覺(jué)感知格式,即通過(guò)將它們轉(zhuǎn)化為圖像的相同格式來(lái)適應(yīng)不同種類的分割數(shù)據(jù);同時(shí),模型訓(xùn)練被構(gòu)造為一個(gè)在上下文中的著色問(wèn)題,即目標(biāo)是只根據(jù)上下文,來(lái)著色相應(yīng)的區(qū)域,而不是依賴特定的顏色,這使得模型更靈活和可泛化。

總的來(lái)說(shuō)「視界通用分割模型」在基礎(chǔ)模型Painter做了三點(diǎn)主要?jiǎng)?chuàng)新:


1.上下文隨機(jī)著色方法。首先隨機(jī)采樣與輸入圖像“相似”的圖像,然后從目標(biāo)圖像中隨機(jī)抽取一組顏色,并將每種顏色映射到一個(gè)隨機(jī)顏色,如此可得到兩對(duì)圖像,被定義為上下文對(duì)。從而打破了原始圖像中的顏色關(guān)聯(lián),迫使模型“放棄”顏色信息依賴,更多依賴依賴上下文信息。


2.上下文集成方法。兩種集成方案:空間集成,將多個(gè)示例圖像拼接在一起,并將它們調(diào)整到與單個(gè)示例相同的大??;特征集成,將多個(gè)示例在批處理維度上進(jìn)行組合,并獨(dú)立計(jì)算。兩種集成方式讓模型可以使用多個(gè)示例,從而提供更準(zhǔn)確和具體的上下文信息。


3.上下文微調(diào)方法。凍結(jié)整個(gè)模型,并初始化一個(gè)可學(xué)習(xí)的圖像張量作為輸入上下文。在訓(xùn)練過(guò)程中,只有這個(gè)可學(xué)習(xí)的圖像張量會(huì)被更新,其他的訓(xùn)練過(guò)程保持不變。從而能以靈活的方式適應(yīng)特定的任務(wù)或數(shù)據(jù)集。

以上技術(shù)讓「視界通用分割模型」具備輸入任意數(shù)量的prompt,以及對(duì)特定場(chǎng)景優(yōu)化專用prompt的能力。即「視界通用分割模型」解鎖了上下文推理能力,訓(xùn)練完成后無(wú)需微調(diào),只需提供示例即可自動(dòng)推理并完成對(duì)應(yīng)分割任務(wù)。

實(shí)驗(yàn)結(jié)果也顯示了模型強(qiáng)大的能力。例如模型只需少數(shù) prompt 示例,在 COCO 和 PASCAL 數(shù)據(jù)集上取得最優(yōu)性能;模型的零樣本場(chǎng)景遷移實(shí)驗(yàn)中,模型在少樣本語(yǔ)義分割測(cè)試集 FSS-1000 上,在無(wú)需訓(xùn)練的情況下取得最佳性能;另外,無(wú)需視頻訓(xùn)練數(shù)據(jù),模型可直接進(jìn)行視頻物體分割,并取得和專門優(yōu)化的模型相當(dāng)?shù)男阅堋?/p>

EVA-CLIP:性能最強(qiáng)開(kāi)源CLIP模型

零樣本學(xué)習(xí)是指僅通過(guò)描述讓AI“認(rèn)出”未見(jiàn)過(guò)的物體,是評(píng)價(jià)模型泛化能力的重要指標(biāo)。多模態(tài)預(yù)訓(xùn)練模型CLIP 作為零樣本學(xué)習(xí)基礎(chǔ)模型,廣受業(yè)界認(rèn)可。

智源視覺(jué)團(tuán)隊(duì)于2023年初發(fā)布的 EVA-CLIP 5B 版本, 創(chuàng)造了零樣本學(xué)習(xí)性能新高度:超越此前最強(qiáng)的 OpenCLIP 模型,在 ImageNet1K 零樣本 top1 達(dá)到最高的 82.0% 準(zhǔn)確率。


而去年發(fā)布的 EVA-CLIP 1B 版本,今年才被 Meta 發(fā)布的 DINOv2 模型追平 ImageNet kNN準(zhǔn)確率指標(biāo)。

EVA-CLIP是一系列模型的總稱,集成了當(dāng)前新興的幾種模型訓(xùn)練技術(shù),包括用EVA預(yù)訓(xùn)練模型進(jìn)行初始化,用LAMB優(yōu)化器加速模型,用FLIP技術(shù)節(jié)省訓(xùn)練時(shí)間等等。具體而言,模型有兩種集成思路:

1.EVA預(yù)訓(xùn)練 + LAMB優(yōu)化器讓CLIP模型表現(xiàn)更加強(qiáng)大。

視覺(jué)預(yù)訓(xùn)練模型 EVA 能將語(yǔ)義學(xué)習(xí)(CLIP)與幾何結(jié)構(gòu)學(xué)習(xí)(MIM)結(jié)合,在標(biāo)準(zhǔn)模型基礎(chǔ)上,將規(guī)模擴(kuò)大到十億參數(shù)(1-Billion)進(jìn)行訓(xùn)練。EVA 模型的輸入為有遮蓋的圖像,但遮蓋部分能重構(gòu) CLIP 模型對(duì)應(yīng)位置,從而獲得高效、簡(jiǎn)單的可泛化模型。

LAMB優(yōu)化器專門面向大批量(batch)訓(xùn)練,考慮到它自適應(yīng)的學(xué)習(xí)率和動(dòng)量參數(shù)設(shè)置的優(yōu)勢(shì),為避免泛化差距難題,研究員認(rèn)為L(zhǎng)AMB優(yōu)化器比Adam、RMSprop更適合訓(xùn)練大規(guī)模CLIP模型。

2,F(xiàn)lashAttention機(jī)制+ FLIP加速讓CLIP模型訓(xùn)練更迅速。

FlashAttention算法可以在執(zhí)行更少的內(nèi)存/訪問(wèn)的基礎(chǔ)之上,在加速和節(jié)省內(nèi)存的基礎(chǔ)上計(jì)算精確注意力。研究員使用該機(jī)制訓(xùn)練CLIP時(shí)可以提升15%-30%的訓(xùn)練速度。

FLIP旨在通過(guò)簡(jiǎn)單的圖像掩蔽提升CLIP的訓(xùn)練速度,帶來(lái)性能提升。實(shí)踐中,研究員隨機(jī)掩蔽了50%的圖像標(biāo)簽,減少一半的時(shí)間復(fù)雜度。

實(shí)驗(yàn)結(jié)果表現(xiàn),50億參數(shù)量的EVA-CLIP模型,零樣本分類和檢索的性能全面提升。在ImageNet1K零樣本top1 準(zhǔn)確率達(dá)到了82.0%,高于此前最佳OpenCLIP的80%;在 MS COCO 上實(shí)現(xiàn)了75.0% 的zero-shot圖像檢索(Recall@5)。

同時(shí),EVA-CLIP兼顧了泛化能力和魯棒性。例如EVA-CLIP與27個(gè)零樣本圖像分類基準(zhǔn)的對(duì)比,效果最好的EVA-CLIP達(dá)到了平均77.5的Top-1準(zhǔn)確率,模型泛化能力業(yè)界領(lǐng)先。EVA-02-CLIP-E/14+在ImageNet系列和ObjectNet的所有6個(gè)基準(zhǔn)測(cè)試中獲得了平均80.9%的準(zhǔn)確率,這充分證實(shí)了魯棒性。

vid2vid-zero:簡(jiǎn)單prompt(提示)即可視頻編輯的零樣本視頻編輯方法


現(xiàn)有文本驅(qū)動(dòng)的 AIGC 視頻編輯方法嚴(yán)重依賴于在大量「文本-視頻」數(shù)據(jù)上調(diào)整預(yù)訓(xùn)練好的視頻擴(kuò)散模型,需要龐大的計(jì)算資源,帶來(lái)了高昂的人工數(shù)據(jù)標(biāo)注成本和計(jì)算成本。


智源研究院提出了零樣本視頻編輯方法「vid2vid-zero」,首次在無(wú)需額外視頻訓(xùn)練的情況下,利用注意力機(jī)制動(dòng)態(tài)運(yùn)算的特點(diǎn),結(jié)合現(xiàn)有圖像擴(kuò)散模型,實(shí)現(xiàn)可指定屬性的視頻編輯。

這里用兩組視頻展示了模型的有效性。我們介紹第一組:輸入文本“a man is running”。


加入指令:動(dòng)漫風(fēng)格。輸出結(jié)果可以很好的將人物轉(zhuǎn)換成動(dòng)漫,展示了模型風(fēng)格編輯能力。

加入指令:一位老人在海灘。輸出結(jié)果說(shuō)明模型的屬性編輯和背景編輯能力已經(jīng)過(guò)關(guān)。


此外,論文中公布了更多的視頻案例,更多模型能力,請(qǐng)?jiān)L問(wèn)論文。

用戶根據(jù)「視頻質(zhì)量」、「文本與視頻的對(duì)齊程度」、「對(duì)原始視頻的保真度」在 32 段視頻上對(duì) vid2vid-zero、TAV、PnP 模型的性能進(jìn)行了比較。實(shí)驗(yàn)結(jié)果表明,vid2vid-zero 在上述三項(xiàng)指標(biāo)上都具有顯著優(yōu)勢(shì)。

審核編輯黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3653

    瀏覽量

    5196
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    東風(fēng)汽車六項(xiàng)科創(chuàng)成果入選國(guó)家級(jí)推薦目錄

    為加速中央企業(yè)科技創(chuàng)新成果的推廣與應(yīng)用,近日,國(guó)務(wù)院國(guó)資委正式發(fā)布了《中央企業(yè)科技創(chuàng)新成果推薦目錄成果手冊(cè)(2024年版)》,收錄電子元器件、零部件、新材料、儀器儀表等7個(gè)領(lǐng)域263項(xiàng)
    的頭像 發(fā)表于 01-28 11:44 ?675次閱讀

    云知聲山海醫(yī)療大模型問(wèn)鼎MedBench4.0三項(xiàng)榜首

    12月16日,中文醫(yī)療大模型權(quán)威評(píng)測(cè)平臺(tái)MedBench4.0發(fā)布最新評(píng)測(cè)結(jié)果。云知聲自主研發(fā)的“山海醫(yī)療大模型(UniGPT?Med)”展現(xiàn)出全面領(lǐng)先技術(shù)實(shí)力,一舉斬獲醫(yī)療智能體、
    的頭像 發(fā)表于 12-29 14:35 ?3290次閱讀
    云知聲山海醫(yī)療大<b class='flag-5'>模型</b>問(wèn)鼎MedBench4.0三<b class='flag-5'>項(xiàng)</b>榜首

    研華科技攜手森云智能率先完成一項(xiàng)重要技術(shù)突破

    近日,研華科技攜手AI視覺(jué)解決方案領(lǐng)域的全球領(lǐng)導(dǎo)者森云智能,率先完成一項(xiàng)重要技術(shù)突破。雙方成功將 GMSL 相機(jī)集成至基于NVIDIA Jetson Thor平臺(tái)的 MIC?742系統(tǒng)中。這一
    的頭像 發(fā)表于 12-25 09:50 ?307次閱讀

    【團(tuán)購(gòu)】獨(dú)家全套珍藏!龍哥LabVIEW視覺(jué)深度學(xué)習(xí)實(shí)戰(zhàn)課(11大系列課程,共5000+分鐘)

    系列課程,形成\"傳統(tǒng)視覺(jué)算法→深度學(xué)習(xí)建模→工業(yè)級(jí)部署\"的完整技術(shù)鏈,不論是新手、老手都適合學(xué)習(xí)。 1. 新手入門 課程通過(guò)三層保障體系降低學(xué)習(xí)門檻: 1)零基礎(chǔ)友好的教學(xué)
    發(fā)表于 12-04 09:28

    【團(tuán)購(gòu)】獨(dú)家全套珍藏!龍哥LabVIEW視覺(jué)深度學(xué)習(xí)實(shí)戰(zhàn)課程(11大系列課程,共5000+分鐘)

    系列課程,形成\"傳統(tǒng)視覺(jué)算法→深度學(xué)習(xí)建模→工業(yè)級(jí)部署\"的完整技術(shù)鏈,不論是新手、老手都適合學(xué)習(xí)。 1. 新手入門 課程通過(guò)三層保障體系降低學(xué)習(xí)門檻: 1)零基礎(chǔ)友好的教學(xué)
    發(fā)表于 12-03 13:50

    云知聲三項(xiàng)技術(shù)成果達(dá)到國(guó)際領(lǐng)先水平

    2025年10月28日,由中國(guó)人工智能學(xué)會(huì)組織的“多模態(tài)數(shù)字專家關(guān)鍵技術(shù)及產(chǎn)業(yè)應(yīng)用”科技成果鑒定會(huì)在北京舉行。經(jīng)專家委員會(huì)嚴(yán)格評(píng)審,云知聲研發(fā)的“多模態(tài)醫(yī)療垂類大模型”“芯上端側(cè)小模型
    的頭像 發(fā)表于 11-04 10:26 ?788次閱讀

    奧比中光3D視覺(jué)技術(shù)賦能IROS 2025研究成果

    全球機(jī)器人領(lǐng)域最具影響力的學(xué)術(shù)會(huì)議IROS 2025于10月19日至25日在杭州國(guó)際博覽中心舉行。大會(huì)收錄的多篇論文的研究成果采用了奧比中光的3D視覺(jué)技術(shù),涵蓋自動(dòng)化掃描、空間建模、人機(jī)交互等前沿方向,彰顯了奧比中光在全球機(jī)器人
    的頭像 發(fā)表于 10-23 16:29 ?798次閱讀

    華冠科技兩項(xiàng)科技成果獲評(píng)權(quán)威認(rèn)證

    近日,華冠科技再傳捷報(bào)。公司兩項(xiàng)核心裝備與關(guān)鍵技術(shù)順利通過(guò)權(quán)威科技成果評(píng)價(jià),分別榮獲“國(guó)際先進(jìn)”和“國(guó)內(nèi)領(lǐng)先”認(rèn)證:
    的頭像 發(fā)表于 09-30 15:07 ?1117次閱讀

    鴻蒙中Stage模型與FA模型詳解

    【HarmonyOS 5】鴻蒙中Stage模型與FA模型詳解 ##鴻蒙開(kāi)發(fā)能力 ##HarmonyOS SDK應(yīng)用服務(wù)##鴻蒙金融類應(yīng)用 (金融理財(cái)# 一、前言 在HarmonyOS 5的應(yīng)用開(kāi)發(fā)
    的頭像 發(fā)表于 07-07 11:50 ?926次閱讀

    龍芯中科與文心系列模型開(kāi)展深度技術(shù)合作

    ? ? ? ? ? 6月30日,文心4.5系列模型正式開(kāi)源。龍芯中科在文心大模型開(kāi)源首日啟動(dòng)技術(shù)合作,雙方將共同推進(jìn)國(guó)產(chǎn)算力基礎(chǔ)設(shè)施與大
    的頭像 發(fā)表于 07-02 16:53 ?1361次閱讀

    兆芯率先展開(kāi)文心系列模型深度技術(shù)合作

    6月30日,百度正式開(kāi)源文心大模型4.5系列等10款模型,并實(shí)現(xiàn)預(yù)訓(xùn)練權(quán)重和推理代碼的完全開(kāi)源,兆芯率先與文心系列
    的頭像 發(fā)表于 07-01 10:49 ?980次閱讀

    阿丘科技亮相日本橫濱圖像傳感展,以AI視覺(jué)技術(shù)深耕本土市場(chǎng)

    領(lǐng)域的創(chuàng)新成果。阿丘科技作為“AI+工業(yè)”視覺(jué)領(lǐng)域的創(chuàng)新先鋒,向觀眾全面展示了前沿技術(shù)成果與扎實(shí)的落地應(yīng)用實(shí)踐,并憑借領(lǐng)先的解決方案吸引眾多行業(yè)專家與客戶的深度關(guān)注
    的頭像 發(fā)表于 06-17 15:58 ?1058次閱讀
    阿丘科技亮相日本橫濱圖像傳感展,以AI<b class='flag-5'>視覺(jué)</b><b class='flag-5'>技術(shù)</b>深耕本土市場(chǎng)

    Google發(fā)布最新AI模型Gemma 3

    Gemma 開(kāi)放模型系列是 Google 推動(dòng)實(shí)用 AI 技術(shù)普惠大眾的重要基石。上個(gè)月,Gemma 迎來(lái)了首個(gè)生日?;赝^(guò)去一年,其成果斐然:全球下載量突破 1 億,社區(qū)欣欣向榮,衍
    的頭像 發(fā)表于 03-18 09:51 ?1737次閱讀

    ?VLM(視覺(jué)語(yǔ)言模型)?詳細(xì)解析

    視覺(jué)語(yǔ)言模型(Visual Language Model, VLM)是一種結(jié)合視覺(jué)(圖像/視頻)和語(yǔ)言(文本)處理能力的多模態(tài)人工智能模型,能夠理解并生成與
    的頭像 發(fā)表于 03-17 15:32 ?8909次閱讀
    ?VLM(<b class='flag-5'>視覺(jué)</b>語(yǔ)言<b class='flag-5'>模型</b>)?詳細(xì)解析

    ??低暟l(fā)布視覺(jué)模型周界攝像機(jī)

    上周,我們發(fā)布了視覺(jué)模型系列攝像機(jī),其中有大模型加持的周界系列攝像機(jī),誤報(bào)率下降90%以上。
    的頭像 發(fā)表于 03-11 18:12 ?1821次閱讀