如今的數(shù)據(jù)中心承載著許多用戶和各種應(yīng)用,它們甚至已經(jīng)成為科研、技術(shù)和全球產(chǎn)業(yè)競爭優(yōu)勢的關(guān)鍵因素。隨著科學(xué)計算復(fù)雜性的增加,數(shù)據(jù)中心的運(yùn)營成本也在不斷上升。除了要防止運(yùn)營安全隱患的干擾外,保持?jǐn)?shù)據(jù)中心的完整和平滑運(yùn)行也至關(guān)重要。
更重要的是,惡意用戶可能會利用數(shù)據(jù)中心的訪問權(quán)限,運(yùn)行被禁止的應(yīng)用,濫用計算資源,進(jìn)而導(dǎo)致意外停機(jī)以及更高的運(yùn)營成本。對于今天的 IT 經(jīng)理和支持開發(fā)者而言,能夠快速識別問題并提高效率的數(shù)據(jù)中心管理工具比以往任何時候都更加重要。
NVIDIA 以圖形處理能力和出色 GPU 計算性能而聞名,廣泛應(yīng)用于各個研究領(lǐng)域。同時, NVIDIA 也是安全和可擴(kuò)展數(shù)據(jù)中心技術(shù)的領(lǐng)導(dǎo)者,提供了各種靈活的庫和工具,來最大程度地優(yōu)化業(yè)界一流的基礎(chǔ)設(shè)施。
要為當(dāng)今研究和商業(yè)領(lǐng)域最關(guān)鍵的組成部分提供全棧式解決方案,其中不僅包括提供一流的服務(wù)器平臺、GPU 以及部署在整個數(shù)據(jù)中心的豐富軟件組合,而且還需要關(guān)注到安全和可管理性是建立數(shù)據(jù)中心基礎(chǔ)設(shè)施的關(guān)鍵支柱。
NVIDIA UFM Cyber-AI
為 InfiniBand 數(shù)據(jù)中心帶來變革
NVIDIA Unified Fabric Manager(UFM)Cyber-AI 平臺提供增強(qiáng)的實時網(wǎng)絡(luò)遙測功能,并結(jié)合了 AI 智能和先進(jìn)的分析技術(shù),讓 IT 經(jīng)理能夠發(fā)現(xiàn)運(yùn)營異常,甚至預(yù)測網(wǎng)絡(luò)故障。這既提高了安全性和數(shù)據(jù)中心的正常運(yùn)行時間,又降低了整體運(yùn)營費(fèi)用。
UFM Cyber-AI 的獨(dú)特優(yōu)勢在于它能夠捕獲豐富的遙測信息并采用 AI 技術(shù)來識別事件之間的隱形關(guān)聯(lián),從而檢測到異常的系統(tǒng)和應(yīng)用行為,而且在引發(fā)組件或系統(tǒng)故障之前就能識別到性能的下降。UFM Cyber-AI 甚至可以實時采取修正措施。該平臺能夠?qū)W習(xí)數(shù)據(jù)中心的典型運(yùn)行模式,并根據(jù)網(wǎng)絡(luò)遙測數(shù)據(jù)(包括流量模式、溫度等)檢測異常使用情況。
UFM Cyber-AI 基本原理
如UFM Cyber-AI 包含三個不同的層級。
輸入遙測:以多種方式從網(wǎng)絡(luò)中采集信息并學(xué)習(xí):
網(wǎng)絡(luò)中各種元素的遙測信息
網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)(租戶或應(yīng)用的連接與資源分配)
網(wǎng)絡(luò)設(shè)備特性和功能
處理模型:包含若干模型,如:用于數(shù)據(jù)準(zhǔn)備的提取、轉(zhuǎn)換和加載(ETL)處理引擎。它還包含用于對比的聚合、數(shù)據(jù)存儲和分析模型。UFM Cyber-AI 使用用于異常檢測和預(yù)測的機(jī)器學(xué)習(xí)(ML)技術(shù)和AI模型來學(xué)習(xí)數(shù)據(jù)中心網(wǎng)絡(luò)組件(線纜、交換機(jī)、端口、InfiniBand 網(wǎng)卡)的生命周期模式。
輸出 dashboard:一個顯示中央 dashboard 的可視化層,讓網(wǎng)絡(luò)管理員和云編排人員可以查看警報和建議,以提高網(wǎng)絡(luò)利用率和效率并解決網(wǎng)絡(luò)健康問題。dashboard 分為兩個主要類別:可疑行為和鏈接分析,每個類別都包含警報和預(yù)測部分。
UFM Cyber-AI
功能豐富、簡潔直觀的自定義網(wǎng)絡(luò)管理器
UFM Cyber-AI 還支持自定義網(wǎng)絡(luò)警報,或查看隨時間變化的異常情況,以及不同時間維度情況。通過使用基于小時或星期參數(shù)的聚合網(wǎng)絡(luò)統(tǒng)計數(shù)據(jù),可基于可能偏離正常操作使用的測量結(jié)果來設(shè)置閾值和配置通知。例如可以使用預(yù)定義閾值來識別有問題的線纜。
內(nèi)置分析功能將當(dāng)前的遙測信息與基于時間的匯總信息進(jìn)行比較,以檢測系統(tǒng)使用或流量模式中任何可疑的增加或減少并立即通知系統(tǒng)管理員。UFM Cyber-AI 還通過鏈路或端口遙測信息提供數(shù)據(jù)中心租戶或應(yīng)用警報,并識別與底層 PKEY 相關(guān)的統(tǒng)計數(shù)據(jù)及其相關(guān)節(jié)點。
目前只有 UFM Cyber-AI 提供支持預(yù)測性維護(hù)的鏈路故障預(yù)測等功能。通過在早期階段監(jiān)測性能下降情況,UFM Cyber-AI 可以預(yù)測潛在的鏈路或端口故障,使管理員能夠進(jìn)行及時維護(hù)進(jìn)而規(guī)避數(shù)據(jù)中心的故障停機(jī)。
NVIDIA Morpheus 賦能未來
要為 InfiniBand 帶來最強(qiáng)大的網(wǎng)絡(luò)管理解決方案,就必須通過不斷創(chuàng)新來應(yīng)對當(dāng)今數(shù)據(jù)中心管理的復(fù)雜性。NVIDIA 計劃將 NVIDIA Morpheus 與 UFM Cyber-AI(圖 3)進(jìn)行集成,以從其他數(shù)據(jù)中心元件中獲取更多遙測信息,例如基于服務(wù)器或機(jī)架的組件遙測或 DPU、GPU 和應(yīng)用計數(shù)器。
我們甚至可以提供一個可以直接與 Kafka(一個用于高性能數(shù)據(jù)流水線、流分析和數(shù)據(jù)整合的開源分布式事件流平臺)等其他 API 對接的附加層。用戶可以使用該集成對開發(fā)者定義的操作系統(tǒng)異常進(jìn)行特定檢測,例如在一個專門用于生命科學(xué)研究的系統(tǒng)上進(jìn)行加密挖掘檢測。
Morpheus 是一個為網(wǎng)絡(luò)安全開發(fā)者提供高度優(yōu)化 AI 流水線和預(yù)訓(xùn)練 AI 功能的開放 AI 應(yīng)用框架。這些功能能夠即時檢查整個數(shù)據(jù)中心架構(gòu)中的所有網(wǎng)絡(luò)流量。Morpheus 通過提供以下功能將數(shù)據(jù)中心的安全提升到全新的水平:
動態(tài)保護(hù)
實時遙測
自適應(yīng)策略
用于檢測和處理網(wǎng)絡(luò)安全威脅的網(wǎng)絡(luò)防御措施
隨著 Morpheus 與 UFM Cyber-AI 設(shè)備的集成,NVIDIA 可以提供出色、完整的解決方案,為關(guān)鍵數(shù)據(jù)中心提高靈活性和可擴(kuò)展性,并為開發(fā)者提供支持。通過自定義異常檢測和與其他標(biāo)準(zhǔn)化 API 的對接,UFM Cyber-AI 可以成為任何多租戶數(shù)據(jù)中心或云原生基礎(chǔ)設(shè)施的一項靈活資產(chǎn)。
編輯:jq
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5602瀏覽量
109832
原文標(biāo)題:使用 NVIDIA UFM Cyber-AI 安全、智能地管理數(shù)據(jù)中心
文章出處:【微信號:murata-eetrend,微信公眾號:murata-eetrend】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
1分鐘帶你了解數(shù)據(jù)中心供電架構(gòu) #電子元器件 #數(shù)據(jù)中心 #供電架構(gòu)
華為星河AI高算效數(shù)據(jù)中心網(wǎng)絡(luò)亮相ODCC 2025
Cadence 借助 NVIDIA DGX SuperPOD 模型擴(kuò)展數(shù)字孿生平臺庫,加速 AI 數(shù)據(jù)中心部署與運(yùn)營
華為數(shù)字能源亮相2025開放數(shù)據(jù)中心大會
睿海光電:400G光模塊技術(shù)創(chuàng)新與AI數(shù)據(jù)中心變革
睿海光電以高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級
加速AI未來,睿海光電800G OSFP光模塊重構(gòu)數(shù)據(jù)中心互聯(lián)標(biāo)準(zhǔn)
華為面向拉美地區(qū)發(fā)布全新星河AI數(shù)據(jù)中心網(wǎng)絡(luò)方案
安森美攜手英偉達(dá)推動下一代AI數(shù)據(jù)中心發(fā)展
NVIDIA 800V HVDC 架構(gòu)賦能新一代AI數(shù)據(jù)中心 挑戰(zhàn)傳統(tǒng)機(jī)架電源系統(tǒng)極限
利用NVIDIA技術(shù)構(gòu)建從數(shù)據(jù)中心到邊緣的智慧醫(yī)院解決方案
施耐德電氣發(fā)布數(shù)據(jù)中心高密度AI集群部署解決方案
NVIDIA UFM Cyber-AI為InfiniBand數(shù)據(jù)中心帶來變革
評論