如今,數(shù)據(jù)的生成速度遠(yuǎn)遠(yuǎn)超出了任何人的想象。過(guò)去,人類是數(shù)據(jù)生成的主要來(lái)源。現(xiàn)在,存在以多種方式和格式生成數(shù)據(jù)的圖像設(shè)備,傳感器,無(wú)人機(jī),聯(lián)網(wǎng)汽車,IoT設(shè)備和工業(yè)設(shè)備。但是,我們不應(yīng)將數(shù)據(jù)與信息混淆-區(qū)分這兩個(gè)術(shù)語(yǔ)至關(guān)重要。
當(dāng)前,只有一小部分收集的數(shù)據(jù)有價(jià)值,足以被視為真實(shí)資產(chǎn)。拍攝成像設(shè)備。這里一分鐘的相關(guān)活動(dòng)很重要,而不是長(zhǎng)時(shí)間的無(wú)關(guān)緊要的無(wú)關(guān)緊要的視頻鏡頭。通過(guò)類推,“數(shù)據(jù)”是人們?cè)谕诰颉靶畔ⅰ钡慕饓K的礦場(chǎng)。將這些數(shù)據(jù)轉(zhuǎn)化為有價(jià)值的信息的能力(如果需要的話,可以稱為“挖掘”)稱為“分析”。

圖12009年至2020年數(shù)據(jù)存儲(chǔ)需求的增長(zhǎng)
由分析公司Statista編制的圖1中的圖表描述了過(guò)去十年中存儲(chǔ)數(shù)據(jù)容量的驚人增長(zhǎng)。它預(yù)測(cè),到2020年,存儲(chǔ)需求將超過(guò)42,000 EB。但是,大多數(shù)存儲(chǔ)的數(shù)據(jù)(大多數(shù)估計(jì)表明至少有80%)仍處于完全非結(jié)構(gòu)化的形式,這在將其用于分析目的時(shí)會(huì)遇到困難。估計(jì)只有5%的存儲(chǔ)數(shù)據(jù)實(shí)際在分析中。如果我們可以用一種元數(shù)據(jù)來(lái)表示這種非結(jié)構(gòu)化數(shù)據(jù),該元數(shù)據(jù)可以在完成分析的情況下有效地描述它,那么可以分析大量數(shù)據(jù)。這顯著增加了組織可以從其擁有的數(shù)據(jù)中產(chǎn)生的價(jià)值。
人工智能(AI)是一項(xiàng)將對(duì)現(xiàn)代社會(huì)的各個(gè)方面產(chǎn)生重大影響的技術(shù)。這包括電子商務(wù)建議,自然語(yǔ)言翻譯,金融科技,安全性,對(duì)象識(shí)別/檢測(cè)等領(lǐng)域,甚至包括可以迅速查明威脅生命的癌細(xì)胞(或其他異常情況)的醫(yī)學(xué)領(lǐng)域。盡管它們具有多樣性,但所有這些用例都有一個(gè)共同的線索,因?yàn)槲覀儸F(xiàn)在擁有一種可以有效掃描大量非結(jié)構(gòu)化數(shù)據(jù)(視頻,文本,語(yǔ)音,圖像等)并對(duì)其進(jìn)行處理以實(shí)現(xiàn)真正價(jià)值的技術(shù)??梢缘贸?。
具體而言,我們不僅可以將AI用于分析過(guò)程本身,還可以將AI用于預(yù)處理原始非結(jié)構(gòu)化數(shù)據(jù),以為其提供帶標(biāo)簽的元數(shù)據(jù),從而可以以一種簡(jiǎn)單而精確的方式表示它。該簡(jiǎn)化的數(shù)據(jù)庫(kù)可以通過(guò)上層分析軟件進(jìn)行分析,并從中收集有用的信息。組織一直在等待AI從存儲(chǔ)的數(shù)據(jù)中獲取更多信息,直到這一階段,人工智能一直處于“黑暗”狀態(tài)。
好的,所以我們想生成元數(shù)據(jù)以使我們的分析軟件更有效地運(yùn)行,并且我們擁有AI作為從龐大的非結(jié)構(gòu)化數(shù)據(jù)庫(kù)中創(chuàng)建該元數(shù)據(jù)數(shù)據(jù)庫(kù)的工具?,F(xiàn)在,我們只需要將這些海量數(shù)據(jù)帶到我們的AI計(jì)算實(shí)體即可完成工作。但是,等等,這是正確的方法嗎?真的嗎?
如果我們看一下當(dāng)今生成和存儲(chǔ)數(shù)據(jù)的兩個(gè)主要地方,即云和邊緣,那么很快就會(huì)發(fā)現(xiàn),移動(dòng)大量數(shù)據(jù)非常昂貴,應(yīng)該避免。在云中,通過(guò)數(shù)據(jù)中心路由所有這些數(shù)據(jù)將給組成的網(wǎng)絡(luò)基礎(chǔ)架構(gòu)帶來(lái)壓力,消耗大量電能,并增加延遲級(jí)別(從而增加總體處理時(shí)間)。相反,在邊緣,可用的計(jì)算和功能資源有限。那里的小型設(shè)備有限的網(wǎng)絡(luò)功能將使將大量數(shù)據(jù)上傳到云進(jìn)行處理是不切實(shí)際的。在這兩種情況下,最大限度地減少我們移動(dòng)的數(shù)據(jù)量,轉(zhuǎn)而依賴元數(shù)據(jù)是最大化運(yùn)營(yíng)效率的關(guān)鍵。
如果可以在源頭(即數(shù)據(jù)位于存儲(chǔ)設(shè)備本身內(nèi)部的位置)完成元數(shù)據(jù)的分配,而不是四處移動(dòng)數(shù)據(jù),那將更加有效。固態(tài)驅(qū)動(dòng)器(SSD)已經(jīng)包括用作計(jì)算實(shí)體所需的基本元素。這些通常僅用于驅(qū)動(dòng)器操作,但是可以將它們重新用于執(zhí)行與功能有關(guān)的任務(wù),并負(fù)責(zé)此標(biāo)記工作,或者通過(guò)集成的硬件/軟件/固件模塊進(jìn)行補(bǔ)充以承擔(dān)此類功能。一種操作模式可能是使用驅(qū)動(dòng)器的空閑窗口來(lái)執(zhí)行后臺(tái)映射任務(wù)。一種不同的方法可能是在將數(shù)據(jù)寫入驅(qū)動(dòng)器時(shí)對(duì)其進(jìn)行處理。這兩種操作模式各有其優(yōu)缺點(diǎn),并且可能適用于不同的用例。
例如,在將數(shù)據(jù)寫入驅(qū)動(dòng)器時(shí)對(duì)其進(jìn)行分析可能對(duì)生成警報(bào)非常有用。如果您考慮使用監(jiān)視系統(tǒng),那么這種能夠在存儲(chǔ)時(shí)掃描數(shù)據(jù)的邏輯可以補(bǔ)充攝像機(jī)能夠生成(例如運(yùn)動(dòng))并進(jìn)一步識(shí)別重要事件(例如可疑行為)的警報(bào)。或人員)并建議安全控制。同時(shí),就“數(shù)據(jù)接觸”而言,這將是最有效的方法,因?yàn)檫@意味著數(shù)據(jù)進(jìn)入后僅需接觸和處理一次。
但是,在許多情況下,這也意味著要使用更強(qiáng)大的CPU和AI引擎,以便在可能是高分辨率視頻的流上提供實(shí)時(shí)結(jié)果。在像SSD那樣對(duì)成本和功耗非常敏感的環(huán)境中,這可能會(huì)成為一個(gè)問(wèn)題。同時(shí),當(dāng)系統(tǒng)對(duì)驅(qū)動(dòng)器進(jìn)行讀寫操作時(shí),這種在線分析將與其他與驅(qū)動(dòng)器相關(guān)的操作競(jìng)爭(zhēng),因?yàn)檫@兩個(gè)功能都可能爭(zhēng)奪驅(qū)動(dòng)器的相同計(jì)算和內(nèi)存資源。
為了更好地控制AI處理能力與SSD的成本/功耗/區(qū)域限制之間的權(quán)衡,可能值得考慮使用離線處理方法。使用這種方法可以使我們與所需的AI資源的多余功率和面積交換處理速度(一個(gè)度量標(biāo)準(zhǔn)示例可以是TOPS / Watt / mm2)。因此,我們可以選擇使用較小的,性能較差的AI推理引擎來(lái)延長(zhǎng)掃描數(shù)據(jù)所需的時(shí)間,并最大程度地降低總體功耗,或者選擇相反的方法。該方法還可以消除與驅(qū)動(dòng)器之間的其他讀/寫操作的沖突,因?yàn)樗赡軆H在驅(qū)動(dòng)器的識(shí)別的空閑時(shí)間完成。
它支持的另一件事是,一旦可用,就可以根據(jù)新模型對(duì)數(shù)據(jù)進(jìn)行重新處理。例如,如果使用能夠識(shí)別動(dòng)物的模型對(duì)數(shù)據(jù)進(jìn)行了一次掃描,則以后可以使用能夠識(shí)別對(duì)象的新繼承模型對(duì)數(shù)據(jù)進(jìn)行重新掃描,并相應(yīng)地更新元數(shù)據(jù)數(shù)據(jù)庫(kù)。
在這兩種使用模式中,節(jié)電和節(jié)省成本,以及最小化數(shù)據(jù)移動(dòng)和顯著減少延遲,再加上較低的總體網(wǎng)絡(luò)流量,僅是在存儲(chǔ)點(diǎn)部署這種加速(如果應(yīng)用)所能獲得的部分好處。正確的用例。這種方法固有的可擴(kuò)展性將意味著企業(yè)和云服務(wù)提供商可以通過(guò)利用AI的力量來(lái)擴(kuò)展其功能范圍。
數(shù)據(jù)與主機(jī)之間的距離越遠(yuǎn),這種架構(gòu)的潛力就越大,并且利用多個(gè)驅(qū)動(dòng)器可以完成更多的并行性。下圖說(shuō)明了該架構(gòu)在延遲(完成視頻數(shù)據(jù)庫(kù)的完整掃描和標(biāo)記所需的總時(shí)間),功耗和網(wǎng)絡(luò)利用率方面的潛力。它顯示了一個(gè)全閃存陣列盒與一個(gè)普通服務(wù)器處理器之間的比較,該陣列盒由24個(gè)固態(tài)硬盤組成,每個(gè)固態(tài)硬盤內(nèi)部具有AI推理引擎。在這兩種情況下,計(jì)算資源都會(huì)從每個(gè)SSD中獲取視頻文件庫(kù),并使用AI預(yù)訓(xùn)練模型對(duì)它們進(jìn)行分析以查看特定對(duì)象的外觀,并將其標(biāo)記為元數(shù)據(jù)數(shù)據(jù)庫(kù)。

圖2在分析數(shù)據(jù)時(shí),存儲(chǔ)中處理降低了網(wǎng)絡(luò)利用率。
從圖2中可以看出,由于所有計(jì)算都是在本地完成的,并且不會(huì)超出驅(qū)動(dòng)器的邊界,因此存儲(chǔ)中處理降低了網(wǎng)絡(luò)利用率。圖3顯示存儲(chǔ)中處理還可以縮短等待時(shí)間,因?yàn)樵撎幚碓谒序?qū)動(dòng)器上并行進(jìn)行,并且沒(méi)有數(shù)據(jù)路由。其他好處包括更低的功耗,當(dāng)然還有更低的主機(jī)利用率,這使主機(jī)可以執(zhí)行其他任務(wù)。盡管這些結(jié)果高度依賴于特定的引擎功能,視頻文件類型,網(wǎng)絡(luò)延遲和其他次要因素,并且在其他設(shè)置上可能會(huì)有所不同,但結(jié)果趨勢(shì)可能會(huì)保持下去。

圖3存儲(chǔ)中處理減少了由于并行性引起的等待時(shí)間。
這種方法的另一個(gè)重要優(yōu)點(diǎn)是它實(shí)現(xiàn)了線性可伸縮性。隨著數(shù)據(jù)庫(kù)的增長(zhǎng)以及需要添加更多SSD來(lái)容納更多數(shù)據(jù)的需求,我們同時(shí)添加了在感興趣的上下文中處理它所需的“精確”計(jì)算量,因此性能與數(shù)據(jù)庫(kù)之間的關(guān)系尺寸圖保持線性。在主機(jī)處理器上執(zhí)行相同的操作,有時(shí)會(huì)基于處理器的強(qiáng)大程度,最終得到一個(gè)圖表,該圖表在處理器周期用盡時(shí)已趨于平坦。

圖4可伸縮性是使用AI進(jìn)行存儲(chǔ)內(nèi)計(jì)算的另一個(gè)好處。
在8月于圣塔克拉拉(Santa Clara)舉行的閃存峰會(huì)上,Marvell揭開(kāi)了AI SSD控制器概念驗(yàn)證(PoC)的角色,說(shuō)明了如何有效執(zhí)行數(shù)據(jù)標(biāo)記而無(wú)需訪問(wèn)主機(jī)CPU處理資源-避免了成本和延遲已概述的問(wèn)題。向與會(huì)者展示了如何與開(kāi)源NVIDIA深度學(xué)習(xí)加速器(NVDLA)技術(shù)一起使用現(xiàn)成的Marvell數(shù)據(jù)中心和客戶端SSD控制器IC??梢岳^承經(jīng)過(guò)培訓(xùn)的AI模型,將其編譯到集成的AI推理IP上,并掃描驅(qū)動(dòng)器本地存儲(chǔ)的大型非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)庫(kù)(例如,視頻庫(kù))。由此,可以生成標(biāo)簽,并且創(chuàng)建元數(shù)據(jù)數(shù)據(jù)庫(kù)以方便地在搜索的上下文中表示數(shù)據(jù)。上面顯示的結(jié)果基于作為此PoC一部分開(kāi)發(fā)的演示Marvell。
如果目標(biāo)是檢測(cè)和識(shí)別對(duì)象或場(chǎng)景,則AI推理引擎可以掃描存儲(chǔ)在驅(qū)動(dòng)器上的視頻文件,并創(chuàng)建元數(shù)據(jù)來(lái)列出它們出現(xiàn)在視頻中的時(shí)間。得益于這項(xiàng)新的AI增強(qiáng)存儲(chǔ)技術(shù),元數(shù)據(jù)數(shù)據(jù)庫(kù)可以本地存儲(chǔ)在SSD上,并可供分析軟件根據(jù)需要進(jìn)行檢查。
以一家執(zhí)法機(jī)構(gòu)為例,該機(jī)構(gòu)在無(wú)數(shù)小時(shí)的視頻文件中尋找可疑的“東西”。他們可以加載經(jīng)過(guò)訓(xùn)練的模型,該模型確切地知道如何識(shí)別這種“事物”,并作為對(duì)存儲(chǔ)它的所有驅(qū)動(dòng)器的后臺(tái)任務(wù),并行地對(duì)所有可用視頻內(nèi)容進(jìn)行推理。這種“事物”的任何外觀都會(huì)被標(biāo)記和標(biāo)記,這使得以后進(jìn)行進(jìn)一步分析變得非常容易。
同樣,請(qǐng)考慮這種體系結(jié)構(gòu)對(duì)諸如后臺(tái)聊天機(jī)器人分析之類的工具可能有多有效,在后臺(tái)聊天機(jī)器人呼叫中有一個(gè)大型數(shù)據(jù)庫(kù),需要對(duì)其進(jìn)行掃描以提高服務(wù)質(zhì)量??梢栽u(píng)估用戶何時(shí)對(duì)收到的回復(fù)感到滿意/煩惱,或者通話時(shí)間是否太長(zhǎng)/太短。一旦創(chuàng)建了知道如何跟蹤這些指標(biāo)的AI模型,就可以將它們編譯到AI存儲(chǔ)推理引擎中,并離線掃描調(diào)用。對(duì)于諸如視頻點(diǎn)播(VOD)服務(wù)的個(gè)性化廣告插入,人員或?qū)ο笏阉髦惖氖虑椋约袄媒咏鼣?shù)據(jù)的各種其他IO密集型用例,也可以獲得主要的性能優(yōu)勢(shì)。
AI SSD控制器技術(shù)演示了如何實(shí)現(xiàn)新的數(shù)據(jù)存儲(chǔ)架構(gòu),以處理不斷涌現(xiàn)的,具有計(jì)算挑戰(zhàn)性的“大數(shù)據(jù)”相關(guān)應(yīng)用程序,而無(wú)需昂貴的定制IC。通過(guò)為市場(chǎng)上已經(jīng)可用的SSD硬件提供使其更智能的附加邏輯的訪問(wèn)權(quán)限,可以直接處理對(duì)于下一代分析工作負(fù)載至關(guān)重要的元數(shù)據(jù)和標(biāo)簽。無(wú)需連接到專用的處理資源。
遵循這種替代策略,依靠常規(guī)的集中處理將使整個(gè)過(guò)程效率更高。它幾乎占用了最小的可用網(wǎng)絡(luò)帶寬,并防止了瓶頸的發(fā)生。通過(guò)將AI加速器直接集成到具有成本效益的SSD控制器IC中,可以快速完成分析任務(wù)。它還將需要更少的處理能力,并消耗更少的可用功率預(yù)算,同時(shí)完全避免從頭開(kāi)發(fā)復(fù)雜的ASIC的需求。由于使用了可編程的體系結(jié)構(gòu),因此也將提供足夠的更新更新所采用的AI模型的方法,以便在新的用例開(kāi)發(fā)時(shí)就可以對(duì)其進(jìn)行處理。
Noam Mizrahi是Marvell研究員,也是Marvell CTO辦公室技術(shù)與建筑副總裁。
編輯:hfy
-
傳感器
+關(guān)注
關(guān)注
2577文章
55346瀏覽量
793260
發(fā)布評(píng)論請(qǐng)先 登錄
AI數(shù)據(jù)周期存儲(chǔ)破局者:企業(yè)級(jí)SSD激活千億級(jí)市場(chǎng)
AI賦能邊緣網(wǎng)關(guān):開(kāi)啟智能時(shí)代的新藍(lán)海
AI 邊緣計(jì)算網(wǎng)關(guān):開(kāi)啟智能新時(shí)代的鑰匙?—龍興物聯(lián)
硬件幫助將AI移動(dòng)到邊緣
EdgeBoard FZ5 邊緣AI計(jì)算盒及計(jì)算卡
【HarmonyOS HiSpark AI Camera】邊緣計(jì)算安全監(jiān)控系統(tǒng)
網(wǎng)絡(luò)邊緣實(shí)施AI的原因
一文了解邊緣計(jì)算和邊緣AI 精選資料分享
開(kāi)箱啦!帶你玩轉(zhuǎn)飛凌高算力“魔盒”——AI邊緣計(jì)算終端FCU3001
嵌入式邊緣AI應(yīng)用開(kāi)發(fā)指南
ST MCU邊緣AI開(kāi)發(fā)者云 - STM32Cube.AI
邊緣數(shù)據(jù)影響存儲(chǔ)的五種方式
邊緣AI:可以在無(wú)線模塊上運(yùn)行么?
AI邊緣計(jì)算是什么意思?邊緣ai是什么?AI邊緣計(jì)算應(yīng)用
AI大模型對(duì)數(shù)據(jù)存儲(chǔ)技術(shù)的發(fā)展趨勢(shì)
探討了邊緣應(yīng)用AI對(duì)數(shù)據(jù)存儲(chǔ)的問(wèn)題
評(píng)論