亚洲91av人妻,97在线观看免费视频公开

學(xué)習(xí)利用視覺語言模型，打造從 AI 驅(qū)動的智能搜索到全自動分析的視頻解析應(yīng)用。

當(dāng)前的計(jì)算機(jī)視覺系統(tǒng)擅長于識別物理空間與流程中的事件，卻難以詮釋場景細(xì)節(jié)及其意義，也無法推理后續(xù)可能發(fā)生的情況。

由視覺語言模型(VLM) 驅(qū)動的代理式 AI，能夠解決這一問題。它讓團(tuán)隊(duì)能夠快速、便捷地獲取關(guān)鍵的洞見與分析，并將文本描述與時空信息、以及系統(tǒng)每日產(chǎn)生的海量視覺數(shù)據(jù)無縫銜接。

以下三種方法可助力企業(yè)使用代理式 AI 激活傳統(tǒng)計(jì)算機(jī)視覺系統(tǒng)：

運(yùn)用密集標(biāo)注技術(shù)，生成可搜索的視覺內(nèi)容
利用詳細(xì)上下文增強(qiáng)系統(tǒng)警報(bào)
借助AI 推理，總結(jié)復(fù)雜場景中的信息并解答疑問

利用密集標(biāo)注，實(shí)現(xiàn)視覺內(nèi)容可搜索

傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(CNN) 驅(qū)動的視頻搜索工具受限于有限的訓(xùn)練數(shù)據(jù)、上下文及語義理解的不足，這導(dǎo)致信息提煉工作必須依賴人工，且既繁瑣又耗時。CNN 通常被調(diào)優(yōu)以執(zhí)行如識別異常之類的視覺任務(wù)，但缺乏將其所見轉(zhuǎn)換為文本的多模態(tài)能力。

企業(yè)可以將 VLM 直接嵌入其現(xiàn)有應(yīng)用程序中，為圖像和視頻生成詳盡的標(biāo)注。這些標(biāo)注能在不受限于文件名或基礎(chǔ)標(biāo)簽的情況下，將非結(jié)構(gòu)化內(nèi)容轉(zhuǎn)化為豐富的、可搜索的元數(shù)據(jù)，從而實(shí)現(xiàn)靈活度遠(yuǎn)勝以往的視覺搜索。

以自動化車輛檢測系統(tǒng)Uveye為例，作為全球規(guī)模最大的車輛及零部件數(shù)據(jù)集之一，它每月處理超過 7 億張高分辨率圖像。通過應(yīng)用 VLM，Uveye 將這些視覺數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化的報(bào)告，且能夠以高準(zhǔn)確性與可靠性，檢測出細(xì)微的缺陷、改裝或異物，以供搜索與分析。

由 VLM 驅(qū)動的視覺理解提供了至關(guān)重要的上下文，保障了從合規(guī)、安全到質(zhì)控各環(huán)節(jié)洞察的透明與一致。Uveye 能檢測出 96% 的缺陷，比人工檢測高出 24%，這使早期干預(yù)成為可能，從而減少停機(jī)時間并控制維護(hù)成本。

Relo Metrics是一家由 AI 驅(qū)動的體育營銷評估服務(wù)商，致力于幫助品牌量化媒體投資價(jià)值并優(yōu)化支出。通過將 VLM 與計(jì)算機(jī)視覺相結(jié)合，Relo Metrics 不僅僅可以做到基礎(chǔ)的 Logo 檢測，現(xiàn)能夠精準(zhǔn)捕捉如在比賽“絕殺球”時刻展示的場邊廣告牌等場景，并將其轉(zhuǎn)化為實(shí)時的商業(yè)價(jià)值。

這種基于環(huán)境的洞察能力，通過突顯 Logo 在關(guān)鍵高曝光時刻的出現(xiàn)時間和方式，幫助營銷人員更清晰地了解投資回報(bào)率，并找到優(yōu)化策略的途徑。例如，Stanley Black & Decker 及其旗下的 Dewalt，此前僅依賴賽季末的報(bào)告來評估贊助資產(chǎn)的表現(xiàn)，這限制了決策的及時性?，F(xiàn)在通過利用 Relo Metrics 獲取實(shí)時洞察，Stanley Black & Decker 及時調(diào)整了廣告牌位置，從而挽回了價(jià)值 130 萬美元的潛在贊助媒體損失。

利用 VLM 推理能力增強(qiáng)計(jì)算機(jī)視覺系統(tǒng)警報(bào)

基于 CNN 的計(jì)算機(jī)視覺系統(tǒng)通常只生成類似“是或否”、“真或假”的二元的檢測警報(bào)。缺乏 VLM 的推理能力，往往會導(dǎo)致誤報(bào)或細(xì)節(jié)遺漏，從而在安全保障方面引發(fā)代價(jià)高昂的錯誤，并造成商業(yè)情報(bào)的缺失。VLM 無需完全取代現(xiàn)有的 CNN 視覺系統(tǒng)，而是可以作為一個智能附加組件，輕松地對現(xiàn)有系統(tǒng)進(jìn)行增強(qiáng)。通過在 CNN 系統(tǒng)之上疊加 VLM 層，系統(tǒng)不僅能標(biāo)記檢測警報(bào)，還能結(jié)合場景語境對事件發(fā)生的地點(diǎn)、方式及原因進(jìn)行復(fù)核。

在智慧城市交通管理領(lǐng)域，Linker Vision利用 VLM 驗(yàn)證關(guān)鍵的城市警報(bào)，包括：交通事故、洪澇災(zāi)害或暴風(fēng)雨引發(fā)的樹木及電線桿倒塌。這種方式不僅降低了誤報(bào)率，還為每起事件補(bǔ)充了關(guān)鍵的背景信息，從而顯著提升了市政部門的實(shí)時響應(yīng)效率。

以下三種方法可助力企業(yè)使用代理式 AI 激活傳統(tǒng)計(jì)算機(jī)視覺系統(tǒng)：

運(yùn)用密集標(biāo)注技術(shù)，生成可搜索的視覺內(nèi)容

利用詳細(xì)上下文增強(qiáng)系統(tǒng)警報(bào)

借助AI 推理，總結(jié)復(fù)雜場景中的信息并解答疑問

利用密集標(biāo)注，實(shí)現(xiàn)視覺內(nèi)容可搜索

這種基于環(huán)境的洞察能力，通過突顯 Logo 在關(guān)鍵高曝光時刻的出現(xiàn)時間和方式，幫助營銷人員更清晰地了解投資回報(bào)率，并找到優(yōu)化策略的途徑。例如，Stanley Black & Decker 及其旗下的 Dewalt，此前僅依賴賽季末的報(bào)告來評估贊助資產(chǎn)的表現(xiàn)，這限制了決策的及時性。現(xiàn)在通過利用 Relo Metrics 獲取實(shí)時洞察，Stanley Black & Decker 及時調(diào)整了廣告牌位置，從而挽回了價(jià)值 130 萬美元的潛在贊助媒體損失。

利用 VLM 推理能力增強(qiáng)計(jì)算機(jī)視覺系統(tǒng)警報(bào)

Linker Vision的代理式 AI 架構(gòu)能自動分析超過 50,000 路多樣化的智慧城市攝像頭視頻流，以實(shí)現(xiàn)跨部門的協(xié)同整治。當(dāng)事件發(fā)生時，該系統(tǒng)可協(xié)調(diào)如交通管制、公共事業(yè)及急救響應(yīng)等多團(tuán)隊(duì)展開聯(lián)合行動。憑借同時查詢所有攝像頭流的能力，系統(tǒng)能迅速將觀察到的現(xiàn)象轉(zhuǎn)化為深刻洞察，給出下一步最佳行動的具體建議。

基于代理式 AI 的復(fù)雜場景自動解析

代理式 AI系統(tǒng)能夠處理視頻流、音頻、文本、視頻及傳感器數(shù)據(jù)等多種模態(tài)的信息，并能對復(fù)雜查詢進(jìn)行推理與回答，從而實(shí)現(xiàn)對復(fù)雜場景的自動化分析。該功能的實(shí)現(xiàn)，需結(jié)合 VLM、推理模型、大語言模型 (LLM)、檢索增強(qiáng)生成 (RAG)、計(jì)算機(jī)視覺和語音轉(zhuǎn)錄等多種技術(shù)。

將 VLM 直接集成到現(xiàn)有計(jì)算機(jī)視覺工作流中，雖能驗(yàn)證關(guān)鍵時刻的短視頻片段，但其能力受限于單模型一次可處理的視覺token數(shù)量，故而無法理解更長時間周期與外部知識構(gòu)成的上下文，最終只能提供表面層次的答案。

相比之下，基于代理式 AI 構(gòu)建的完整架構(gòu)，則能對冗長、多路的視頻檔案進(jìn)行可擴(kuò)展且精確的處理，實(shí)現(xiàn)超越表面理解的更深層、準(zhǔn)確和可靠的洞察。此外，該系統(tǒng)還適用于根本原因分析，或處理冗長巡檢視頻以生成帶時間戳洞察的報(bào)告。

Levatas利用移動機(jī)器人與自主系統(tǒng)，為關(guān)鍵基礎(chǔ)設(shè)施開發(fā)視覺巡檢解決方案，致力于提升電力變電站、燃料站、鐵路調(diào)車場與物流中心等關(guān)鍵基礎(chǔ)設(shè)施資產(chǎn)的安全性、可靠性與性能。基于 VLM，Levatas 構(gòu)建了視頻分析 AI 智能體，可自動審查巡檢影像并起草詳細(xì)報(bào)告，從而極大地優(yōu)化了這一傳統(tǒng)上依賴人工的耗時流程。 Levatas 通過將其 AI 與 Skydio X10 設(shè)備集成，為 American Electric Power (AEP) 簡化電力基礎(chǔ)設(shè)施巡檢。該方案使 AEP 能夠自主巡檢電線桿、精準(zhǔn)識別熱缺陷并檢測設(shè)備損壞。一旦發(fā)現(xiàn)問題，系統(tǒng)會立即向 AEP 團(tuán)隊(duì)發(fā)送警報(bào)，確保快速響應(yīng)與問題解決，從而保障可靠、清潔且經(jīng)濟(jì)高效的能源供應(yīng)。

Eklipse 是一款利用 VLM 驅(qū)動代理的 AI 游戲高光工具，它能通過為直播流添加字幕和索引元數(shù)據(jù)，實(shí)現(xiàn)快速查詢、總結(jié)并生成精美高光片段，整個過程僅需數(shù)分鐘，效率高達(dá)傳統(tǒng)方案的 10 倍，徹底革新了內(nèi)容消費(fèi)體驗(yàn)。

基于 NVIDIA 技術(shù)構(gòu)建視頻智能體

開發(fā)人員可運(yùn)用NVCLIP、NVIDIA Cosmos Reason與Nemotron Nano V2等多模態(tài) VLM，構(gòu)建富含元數(shù)據(jù)的索引，以此實(shí)現(xiàn)高級搜索與推理功能。

開發(fā)人員若要將 VLM 集成到計(jì)算機(jī)視覺應(yīng)用中，可使用NVIDIA 用于視頻搜索及總結(jié)的Blueprint (VSS)中的 event reviewer 功能。VSS Blueprint 是NVIDIA Metropolis 平臺的一部分。

為實(shí)現(xiàn)智能運(yùn)營、更豐富的視頻分析及實(shí)時流程合規(guī)性，并能隨需求擴(kuò)展，VSS Blueprint提供了定制化方案：它支持開發(fā)人員構(gòu)建直接訪問 VLM 的 AI 智能體，或?qū)?VLM 與 LLM、RAG 和計(jì)算機(jī)視覺模型結(jié)合使用，以應(yīng)對更復(fù)雜的視頻查詢與總結(jié)任務(wù)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴