學(xué)習(xí)利用視覺語言模型,打造從 AI 驅(qū)動的智能搜索到全自動分析的視頻解析應(yīng)用。
當(dāng)前的計(jì)算機(jī)視覺系統(tǒng)擅長于識別物理空間與流程中的事件,卻難以詮釋場景細(xì)節(jié)及其意義,也無法推理后續(xù)可能發(fā)生的情況。
由視覺語言模型(VLM) 驅(qū)動的代理式 AI,能夠解決這一問題。它讓團(tuán)隊(duì)能夠快速、便捷地獲取關(guān)鍵的洞見與分析,并將文本描述與時空信息、以及系統(tǒng)每日產(chǎn)生的海量視覺數(shù)據(jù)無縫銜接。
以下三種方法可助力企業(yè)使用代理式 AI 激活傳統(tǒng)計(jì)算機(jī)視覺系統(tǒng):
- 運(yùn)用密集標(biāo)注技術(shù),生成可搜索的視覺內(nèi)容
- 利用詳細(xì)上下文增強(qiáng)系統(tǒng)警報(bào)
- 借助AI 推理,總結(jié)復(fù)雜場景中的信息并解答疑問
利用密集標(biāo)注,實(shí)現(xiàn)視覺內(nèi)容可搜索
傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(CNN) 驅(qū)動的視頻搜索工具受限于有限的訓(xùn)練數(shù)據(jù)、上下文及語義理解的不足,這導(dǎo)致信息提煉工作必須依賴人工,且既繁瑣又耗時。CNN 通常被調(diào)優(yōu)以執(zhí)行如識別異常之類的視覺任務(wù),但缺乏將其所見轉(zhuǎn)換為文本的多模態(tài)能力。
企業(yè)可以將 VLM 直接嵌入其現(xiàn)有應(yīng)用程序中,為圖像和視頻生成詳盡的標(biāo)注。這些標(biāo)注能在不受限于文件名或基礎(chǔ)標(biāo)簽的情況下,將非結(jié)構(gòu)化內(nèi)容轉(zhuǎn)化為豐富的、可搜索的元數(shù)據(jù),從而實(shí)現(xiàn)靈活度遠(yuǎn)勝以往的視覺搜索。
以自動化車輛檢測系統(tǒng)Uveye為例,作為全球規(guī)模最大的車輛及零部件數(shù)據(jù)集之一,它每月處理超過 7 億張高分辨率圖像。通過應(yīng)用 VLM,Uveye 將這些視覺數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化的報(bào)告,且能夠以高準(zhǔn)確性與可靠性,檢測出細(xì)微的缺陷、改裝或異物,以供搜索與分析。
由 VLM 驅(qū)動的視覺理解提供了至關(guān)重要的上下文,保障了從合規(guī)、安全到質(zhì)控各環(huán)節(jié)洞察的透明與一致。Uveye 能檢測出 96% 的缺陷,比人工檢測高出 24%,這使早期干預(yù)成為可能,從而減少停機(jī)時間并控制維護(hù)成本。
Relo Metrics是一家由 AI 驅(qū)動的體育營銷評估服務(wù)商,致力于幫助品牌量化媒體投資價(jià)值并優(yōu)化支出。通過將 VLM 與計(jì)算機(jī)視覺相結(jié)合,Relo Metrics 不僅僅可以做到基礎(chǔ)的 Logo 檢測,現(xiàn)能夠精準(zhǔn)捕捉如在比賽“絕殺球”時刻展示的場邊廣告牌等場景,并將其轉(zhuǎn)化為實(shí)時的商業(yè)價(jià)值。
這種基于環(huán)境的洞察能力,通過突顯 Logo 在關(guān)鍵高曝光時刻的出現(xiàn)時間和方式,幫助營銷人員更清晰地了解投資回報(bào)率,并找到優(yōu)化策略的途徑。例如,Stanley Black & Decker 及其旗下的 Dewalt,此前僅依賴賽季末的報(bào)告來評估贊助資產(chǎn)的表現(xiàn),這限制了決策的及時性?,F(xiàn)在通過利用 Relo Metrics 獲取實(shí)時洞察,Stanley Black & Decker 及時調(diào)整了廣告牌位置,從而挽回了價(jià)值 130 萬美元的潛在贊助媒體損失。
利用 VLM 推理能力增強(qiáng)計(jì)算機(jī)視覺系統(tǒng)警報(bào)
基于 CNN 的計(jì)算機(jī)視覺系統(tǒng)通常只生成類似“是或否”、“真或假”的二元的檢測警報(bào)。缺乏 VLM 的推理能力,往往會導(dǎo)致誤報(bào)或細(xì)節(jié)遺漏,從而在安全保障方面引發(fā)代價(jià)高昂的錯誤,并造成商業(yè)情報(bào)的缺失。VLM 無需完全取代現(xiàn)有的 CNN 視覺系統(tǒng),而是可以作為一個智能附加組件,輕松地對現(xiàn)有系統(tǒng)進(jìn)行增強(qiáng)。通過在 CNN 系統(tǒng)之上疊加 VLM 層,系統(tǒng)不僅能標(biāo)記檢測警報(bào),還能結(jié)合場景語境對事件發(fā)生的地點(diǎn)、方式及原因進(jìn)行復(fù)核。
在智慧城市交通管理領(lǐng)域,Linker Vision利用 VLM 驗(yàn)證關(guān)鍵的城市警報(bào),包括:交通事故、洪澇災(zāi)害或暴風(fēng)雨引發(fā)的樹木及電線桿倒塌。這種方式不僅降低了誤報(bào)率,還為每起事件補(bǔ)充了關(guān)鍵的背景信息,從而顯著提升了市政部門的實(shí)時響應(yīng)效率。
當(dāng)前的計(jì)算機(jī)視覺系統(tǒng)擅長于識別物理空間與流程中的事件,卻難以詮釋場景細(xì)節(jié)及其意義,也無法推理后續(xù)可能發(fā)生的情況。
由視覺語言模型(VLM) 驅(qū)動的代理式 AI,能夠解決這一問題。它讓團(tuán)隊(duì)能夠快速、便捷地獲取關(guān)鍵的洞見與分析,并將文本描述與時空信息、以及系統(tǒng)每日產(chǎn)生的海量視覺數(shù)據(jù)無縫銜接。
以下三種方法可助力企業(yè)使用代理式 AI 激活傳統(tǒng)計(jì)算機(jī)視覺系統(tǒng):
運(yùn)用密集標(biāo)注技術(shù),生成可搜索的視覺內(nèi)容
利用詳細(xì)上下文增強(qiáng)系統(tǒng)警報(bào)
借助AI 推理,總結(jié)復(fù)雜場景中的信息并解答疑問
利用密集標(biāo)注,實(shí)現(xiàn)視覺內(nèi)容可搜索
傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(CNN) 驅(qū)動的視頻搜索工具受限于有限的訓(xùn)練數(shù)據(jù)、上下文及語義理解的不足,這導(dǎo)致信息提煉工作必須依賴人工,且既繁瑣又耗時。CNN 通常被調(diào)優(yōu)以執(zhí)行如識別異常之類的視覺任務(wù),但缺乏將其所見轉(zhuǎn)換為文本的多模態(tài)能力。
企業(yè)可以將 VLM 直接嵌入其現(xiàn)有應(yīng)用程序中,為圖像和視頻生成詳盡的標(biāo)注。這些標(biāo)注能在不受限于文件名或基礎(chǔ)標(biāo)簽的情況下,將非結(jié)構(gòu)化內(nèi)容轉(zhuǎn)化為豐富的、可搜索的元數(shù)據(jù),從而實(shí)現(xiàn)靈活度遠(yuǎn)勝以往的視覺搜索。
以自動化車輛檢測系統(tǒng)Uveye為例,作為全球規(guī)模最大的車輛及零部件數(shù)據(jù)集之一,它每月處理超過 7 億張高分辨率圖像。通過應(yīng)用 VLM,Uveye 將這些視覺數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化的報(bào)告,且能夠以高準(zhǔn)確性與可靠性,檢測出細(xì)微的缺陷、改裝或異物,以供搜索與分析。
由 VLM 驅(qū)動的視覺理解提供了至關(guān)重要的上下文,保障了從合規(guī)、安全到質(zhì)控各環(huán)節(jié)洞察的透明與一致。Uveye 能檢測出 96% 的缺陷,比人工檢測高出 24%,這使早期干預(yù)成為可能,從而減少停機(jī)時間并控制維護(hù)成本。
Relo Metrics是一家由 AI 驅(qū)動的體育營銷評估服務(wù)商,致力于幫助品牌量化媒體投資價(jià)值并優(yōu)化支出。通過將 VLM 與計(jì)算機(jī)視覺相結(jié)合,Relo Metrics 不僅僅可以做到基礎(chǔ)的 Logo 檢測,現(xiàn)能夠精準(zhǔn)捕捉如在比賽“絕殺球”時刻展示的場邊廣告牌等場景,并將其轉(zhuǎn)化為實(shí)時的商業(yè)價(jià)值。
這種基于環(huán)境的洞察能力,通過突顯 Logo 在關(guān)鍵高曝光時刻的出現(xiàn)時間和方式,幫助營銷人員更清晰地了解投資回報(bào)率,并找到優(yōu)化策略的途徑。例如,Stanley Black & Decker 及其旗下的 Dewalt,此前僅依賴賽季末的報(bào)告來評估贊助資產(chǎn)的表現(xiàn),這限制了決策的及時性。現(xiàn)在通過利用 Relo Metrics 獲取實(shí)時洞察,Stanley Black & Decker 及時調(diào)整了廣告牌位置,從而挽回了價(jià)值 130 萬美元的潛在贊助媒體損失。
利用 VLM 推理能力增強(qiáng)計(jì)算機(jī)視覺系統(tǒng)警報(bào)
基于 CNN 的計(jì)算機(jī)視覺系統(tǒng)通常只生成類似“是或否”、“真或假”的二元的檢測警報(bào)。缺乏 VLM 的推理能力,往往會導(dǎo)致誤報(bào)或細(xì)節(jié)遺漏,從而在安全保障方面引發(fā)代價(jià)高昂的錯誤,并造成商業(yè)情報(bào)的缺失。VLM 無需完全取代現(xiàn)有的 CNN 視覺系統(tǒng),而是可以作為一個智能附加組件,輕松地對現(xiàn)有系統(tǒng)進(jìn)行增強(qiáng)。通過在 CNN 系統(tǒng)之上疊加 VLM 層,系統(tǒng)不僅能標(biāo)記檢測警報(bào),還能結(jié)合場景語境對事件發(fā)生的地點(diǎn)、方式及原因進(jìn)行復(fù)核。
在智慧城市交通管理領(lǐng)域,Linker Vision利用 VLM 驗(yàn)證關(guān)鍵的城市警報(bào),包括:交通事故、洪澇災(zāi)害或暴風(fēng)雨引發(fā)的樹木及電線桿倒塌。這種方式不僅降低了誤報(bào)率,還為每起事件補(bǔ)充了關(guān)鍵的背景信息,從而顯著提升了市政部門的實(shí)時響應(yīng)效率。
Linker Vision的代理式 AI 架構(gòu)能自動分析超過 50,000 路多樣化的智慧城市攝像頭視頻流,以實(shí)現(xiàn)跨部門的協(xié)同整治。當(dāng)事件發(fā)生時,該系統(tǒng)可協(xié)調(diào)如交通管制、公共事業(yè)及急救響應(yīng)等多團(tuán)隊(duì)展開聯(lián)合行動。憑借同時查詢所有攝像頭流的能力,系統(tǒng)能迅速將觀察到的現(xiàn)象轉(zhuǎn)化為深刻洞察,給出下一步最佳行動的具體建議。
基于代理式 AI 的復(fù)雜場景自動解析
代理式 AI系統(tǒng)能夠處理視頻流、音頻、文本、視頻及傳感器數(shù)據(jù)等多種模態(tài)的信息,并能對復(fù)雜查詢進(jìn)行推理與回答,從而實(shí)現(xiàn)對復(fù)雜場景的自動化分析。該功能的實(shí)現(xiàn),需結(jié)合 VLM、推理模型、大語言模型 (LLM)、檢索增強(qiáng)生成 (RAG)、計(jì)算機(jī)視覺和語音轉(zhuǎn)錄等多種技術(shù)。
將 VLM 直接集成到現(xiàn)有計(jì)算機(jī)視覺工作流中,雖能驗(yàn)證關(guān)鍵時刻的短視頻片段,但其能力受限于單模型一次可處理的視覺token數(shù)量,故而無法理解更長時間周期與外部知識構(gòu)成的上下文,最終只能提供表面層次的答案。
相比之下,基于代理式 AI 構(gòu)建的完整架構(gòu),則能對冗長、多路的視頻檔案進(jìn)行可擴(kuò)展且精確的處理,實(shí)現(xiàn)超越表面理解的更深層、準(zhǔn)確和可靠的洞察。此外,該系統(tǒng)還適用于根本原因分析,或處理冗長巡檢視頻以生成帶時間戳洞察的報(bào)告。
Levatas利用移動機(jī)器人與自主系統(tǒng),為關(guān)鍵基礎(chǔ)設(shè)施開發(fā)視覺巡檢解決方案,致力于提升電力變電站、燃料站、鐵路調(diào)車場與物流中心等關(guān)鍵基礎(chǔ)設(shè)施資產(chǎn)的安全性、可靠性與性能。基于 VLM,Levatas 構(gòu)建了視頻分析 AI 智能體,可自動審查巡檢影像并起草詳細(xì)報(bào)告,從而極大地優(yōu)化了這一傳統(tǒng)上依賴人工的耗時流程。 Levatas 通過將其 AI 與 Skydio X10 設(shè)備集成,為 American Electric Power (AEP) 簡化電力基礎(chǔ)設(shè)施巡檢。該方案使 AEP 能夠自主巡檢電線桿、精準(zhǔn)識別熱缺陷并檢測設(shè)備損壞。一旦發(fā)現(xiàn)問題,系統(tǒng)會立即向 AEP 團(tuán)隊(duì)發(fā)送警報(bào),確保快速響應(yīng)與問題解決,從而保障可靠、清潔且經(jīng)濟(jì)高效的能源供應(yīng)。
Eklipse 是一款利用 VLM 驅(qū)動代理的 AI 游戲高光工具,它能通過為直播流添加字幕和索引元數(shù)據(jù),實(shí)現(xiàn)快速查詢、總結(jié)并生成精美高光片段,整個過程僅需數(shù)分鐘,效率高達(dá)傳統(tǒng)方案的 10 倍,徹底革新了內(nèi)容消費(fèi)體驗(yàn)。
基于 NVIDIA 技術(shù)構(gòu)建視頻智能體
開發(fā)人員可運(yùn)用NVCLIP、NVIDIA Cosmos Reason與Nemotron Nano V2等多模態(tài) VLM,構(gòu)建富含元數(shù)據(jù)的索引,以此實(shí)現(xiàn)高級搜索與推理功能。
開發(fā)人員若要將 VLM 集成到計(jì)算機(jī)視覺應(yīng)用中,可使用NVIDIA 用于視頻搜索及總結(jié)的Blueprint (VSS)中的 event reviewer 功能。VSS Blueprint 是NVIDIA Metropolis 平臺的一部分。
為實(shí)現(xiàn)智能運(yùn)營、更豐富的視頻分析及實(shí)時流程合規(guī)性,并能隨需求擴(kuò)展,VSS Blueprint提供了定制化方案:它支持開發(fā)人員構(gòu)建直接訪問 VLM 的 AI 智能體,或?qū)?VLM 與 LLM、RAG 和計(jì)算機(jī)視覺模型結(jié)合使用,以應(yīng)對更復(fù)雜的視頻查詢與總結(jié)任務(wù)。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5600瀏覽量
109824 -
AI
+關(guān)注
關(guān)注
91文章
39944瀏覽量
301582 -
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
9文章
1715瀏覽量
47646
原文標(biāo)題:AI On:代理式 AI 在計(jì)算機(jī)視覺中的三大應(yīng)用
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
上海計(jì)算機(jī)視覺企業(yè)行學(xué)術(shù)沙龍走進(jìn)西井科技
NVIDIA DGX Spark桌面AI計(jì)算機(jī)開啟預(yù)訂
【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+可期之變:從AI硬件到AI濕件
代理式 AI 重構(gòu) EDA:從對話助手到虛擬工程師
機(jī)器視覺系統(tǒng)工業(yè)相機(jī)的成像原理及如何選型
代理式AI與AI智能體在不同行業(yè)中的實(shí)際應(yīng)用
NVIDIA全棧加速代理式AI應(yīng)用落地
工業(yè)計(jì)算機(jī)與商用計(jì)算機(jī)的區(qū)別有哪些
NVIDIA攜手微軟加速代理式AI發(fā)展
基于代理式AI建立網(wǎng)絡(luò)安全防御體系
精選好文!噪聲系數(shù)測量的三種方法
英偉達(dá)GTC2025亮點(diǎn):Oracle與NVIDIA合作助力企業(yè)加速代理式AI推理
Oracle 與 NVIDIA 合作助力企業(yè)加速代理式 AI 推理
NVIDIA 宣布推出 DGX Spark 個人 AI 計(jì)算機(jī)
工業(yè)相機(jī)采集卡:機(jī)器視覺系統(tǒng)的關(guān)鍵樞紐
使用代理式AI激活傳統(tǒng)計(jì)算機(jī)視覺系統(tǒng)的三種方法
評論