91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

智能運(yùn)維第一步:HDD磁盤故障預(yù)測(cè)

浪潮存儲(chǔ) ? 來源:未知 ? 2023-10-27 19:55 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

當(dāng)今數(shù)字化時(shí)代,信息技術(shù)扮演著企業(yè)和組織運(yùn)營(yíng)的關(guān)鍵角色。然而,隨著IT環(huán)境不斷復(fù)雜化和數(shù)據(jù)量激增,傳統(tǒng)的運(yùn)維管理方法已經(jīng)無法滿足日益增長(zhǎng)的需求。為應(yīng)對(duì)這一挑戰(zhàn),智能運(yùn)維(Artificial intelligence for IT operations,簡(jiǎn)稱AIOPS)應(yīng)運(yùn)而生。

AIOPS融合了人工智能、自動(dòng)化和數(shù)據(jù)分析等技術(shù),旨在優(yōu)化IT運(yùn)維的效率、可靠性和可用性。在AIOPS的范疇內(nèi),硬盤驅(qū)動(dòng)器(HDD)故障預(yù)測(cè)是其中一個(gè)至關(guān)重要的組成部分。在數(shù)字化時(shí)代,數(shù)據(jù)被譽(yù)為"新時(shí)代的石油",HDD作為數(shù)據(jù)存儲(chǔ)的基礎(chǔ)設(shè)備,在數(shù)據(jù)中心、服務(wù)器和個(gè)人計(jì)算機(jī)中廣泛使用,扮演著關(guān)鍵角色。然而其敏感、精確、結(jié)構(gòu)復(fù)雜的特性往往也使得某些故障難以避免。因此,通過AIOPS來實(shí)現(xiàn)HDD故障預(yù)測(cè),避免數(shù)據(jù)丟失、業(yè)務(wù)中斷、維護(hù)成本上升,從而保障數(shù)據(jù)可用性和系統(tǒng)穩(wěn)定性,逐漸成為保障業(yè)務(wù)正常運(yùn)轉(zhuǎn)的重要手段。

為什么硬盤會(huì)出現(xiàn)故障?

wKgZomU7pkOAJU_PAAAGvXnJwAk578.png

由旋轉(zhuǎn)磁盤和漂浮在其上方的讀/寫頭組合而成的硬盤驅(qū)動(dòng)器盡管結(jié)構(gòu)復(fù)雜,但它們已經(jīng)證明了自己作為數(shù)據(jù)載體的價(jià)值。然而,引起機(jī)械硬盤發(fā)生故障的原因有多種:首先,如高溫、濕度、機(jī)械磨損、讀寫操作頻率等,這些因素之間的相互作用使得故障模式變得更為復(fù)雜,大大提高了預(yù)測(cè)難度。其次,溫度、振動(dòng)、讀寫速度、錯(cuò)誤率等多樣性HDD性能數(shù)據(jù)在規(guī)模龐大的數(shù)據(jù)存儲(chǔ)環(huán)境中對(duì)進(jìn)行有效利用和分析,無疑也是一個(gè)挑戰(zhàn)。

傳統(tǒng)的故障預(yù)測(cè)方法主要基于固定的閾值和經(jīng)驗(yàn)判斷,存在明顯的限制:傳統(tǒng)方法只能在故障已經(jīng)發(fā)生或接近發(fā)生時(shí)才采取行動(dòng),無法預(yù)測(cè)性地防止故障;基于閾值的警報(bào)往往容易誤報(bào),因?yàn)槟承﹨?shù)可能因正常使用而產(chǎn)生波動(dòng);傳統(tǒng)方法通常需要大量的人工干預(yù),增加管理成本。相比之下,智能算法的引入為HDD故障預(yù)測(cè)帶來諸多可能性,利用大數(shù)據(jù)和機(jī)器學(xué)習(xí)技術(shù),其強(qiáng)大的學(xué)習(xí)和自適應(yīng)能力可以更好地利用和分析這些多樣化的數(shù)據(jù),從海量的硬盤驅(qū)動(dòng)器數(shù)據(jù)中提取有價(jià)值的信息,進(jìn)而更加準(zhǔn)確地進(jìn)行故障預(yù)測(cè)。

HDD故障預(yù)測(cè)解決方案

wKgZomU7pkOAJU_PAAAGvXnJwAk578.png

方案主要包含兩部分:模型離線訓(xùn)練以及實(shí)時(shí)監(jiān)測(cè)和警報(bào)。首先通過離線訓(xùn)練得到可用的預(yù)測(cè)模型,然后將模型運(yùn)用到實(shí)際生產(chǎn)環(huán)境中進(jìn)行實(shí)時(shí)故障預(yù)測(cè)。

? 模型離線訓(xùn)練

模型離線訓(xùn)練整體流程如圖1所示。模型所需數(shù)據(jù)為S.M.A.R.T.(Self-Monitoring Analysis and Reporting Technology,自我監(jiān)測(cè)、分析及報(bào)告技術(shù),即一種自動(dòng)的硬盤狀態(tài)檢測(cè)與預(yù)警系統(tǒng)和規(guī)范)數(shù)據(jù),主要指硬盤運(yùn)行過程中的指標(biāo)值。在數(shù)據(jù)預(yù)處理階段,由于并非所有原始屬性都是機(jī)器學(xué)習(xí)模型的可用特征,因此需要先去除冗余和不相關(guān)的特征并選擇與預(yù)測(cè)結(jié)果相關(guān)的特征,然后對(duì)于空缺的數(shù)據(jù)進(jìn)行向前補(bǔ)全。同時(shí),故障盤最后兩周的樣本均為潛在故障樣本(預(yù)示著該硬盤可能隨時(shí)會(huì)發(fā)生故障),即需要將最后兩周的樣本設(shè)置為故障盤樣本標(biāo)簽。最后,二維數(shù)據(jù)類圖構(gòu)建則是將時(shí)間作為第二維度(SMART屬性作為第一維度),使用滑動(dòng)窗口的方式,構(gòu)建出二維數(shù)據(jù)圖,如圖2所示。經(jīng)過此階段處理能夠保持SMART數(shù)據(jù)的時(shí)間局部性,有利于磁盤故障預(yù)測(cè)。最后將得到的數(shù)據(jù)進(jìn)行數(shù)據(jù)劃分,分別組成訓(xùn)練集、驗(yàn)證集和測(cè)試集用于模型訓(xùn)練和評(píng)估。

wKgZomU7pkOAG_HlAAEAIgtwnGA841.png

圖1 模型離線訓(xùn)練

wKgZomU7pkOAF8zHAAAyiXXqqb0455.png

圖2 滑動(dòng)窗口構(gòu)建數(shù)據(jù)類圖

在故障預(yù)測(cè)模型訓(xùn)練過程中(圖3中虛線框所示),只使用健康硬盤的樣本。編碼器GE用來對(duì)原始輸入圖片x進(jìn)行編碼,得到圖片特征z,解碼器GD對(duì)編碼后的圖片特征z`進(jìn)行解碼。得到重構(gòu)圖片x`。為檢測(cè)異常,添加一個(gè)編碼器E來學(xué)習(xí)重構(gòu)樣本x`的特征表示z`。對(duì)于原始樣本x和生成圖片x`,交由判別網(wǎng)絡(luò)D來判別真?zhèn)?,這樣,在判別網(wǎng)絡(luò)進(jìn)行更新時(shí),判別網(wǎng)絡(luò)的判別能力會(huì)得到提升。

wKgZomU7pkOAMA8bAADDnIL74D4946.png

圖3 故障預(yù)測(cè)模型

在模型預(yù)測(cè)過程中(圖3中實(shí)線框所示),無判別網(wǎng)絡(luò),只利用生成網(wǎng)絡(luò)。將硬盤當(dāng)前的二維SMART數(shù)據(jù)類圖作為輸入,經(jīng)過模型中生成網(wǎng)絡(luò)的處理,得到輸入類圖的特征表示z和生成網(wǎng)絡(luò)的特征表示z`。其預(yù)測(cè)原理是,利用z和z`之間的差異來衡量樣本生成的有效性,且兩者差異越小,樣本生成越好。因此,兩者的L2范式 A(X)=||z-z`||2用于衡量樣本的異常度,即當(dāng)值大于某一閾值時(shí),表示樣本異常,即該硬盤將發(fā)生故障。其背后原因是,在訓(xùn)練過程中只利用和學(xué)習(xí)健康硬盤樣本的分布,則使得健康硬盤樣本的差異更小,即zz`的差距更小。在預(yù)測(cè)時(shí),如果輸入樣本來自故障硬盤,則會(huì)因?yàn)楣收蠘颖酒x健康樣本的分布,導(dǎo)致zz`差異更顯著。

模型每次迭代訓(xùn)練使用AUC(Area Under Curve,接受者操作特征曲線下面積)區(qū)域預(yù)測(cè)效果最好的模型參數(shù)進(jìn)行保存并供后續(xù)預(yù)測(cè)使用。模型訓(xùn)練完成后使用準(zhǔn)確率對(duì)模型的性能進(jìn)行評(píng)估,經(jīng)評(píng)估模型的預(yù)測(cè)準(zhǔn)確性可達(dá)99%。

? 實(shí)時(shí)監(jiān)測(cè)和警報(bào)

當(dāng)模型訓(xùn)練完成后將HDD故障預(yù)測(cè)引擎順利整合到多設(shè)備管理軟件InView端,允許實(shí)時(shí)采集硬盤SMART數(shù)據(jù),并利用模型進(jìn)行在線推理預(yù)測(cè)未來兩周內(nèi)硬盤發(fā)生故障可能性(如圖4所示)。當(dāng)系統(tǒng)檢測(cè)到硬盤出現(xiàn)故障風(fēng)險(xiǎn)立即觸發(fā)告警機(jī)制,及時(shí)通知用戶進(jìn)行換盤處理。此機(jī)制不僅能夠確保數(shù)據(jù)的安全可靠性,還提高了硬盤驅(qū)動(dòng)器的整體性能和維護(hù)效率,強(qiáng)力保障了業(yè)務(wù)的連續(xù)性和數(shù)據(jù)管理的穩(wěn)定性。

wKgZomU7pkOAKqtTAAI_iEdZrYQ599.png

圖4 InView端HDD故障預(yù)測(cè)

通過AIOPS技術(shù),浪潮信息HDD磁盤故障預(yù)測(cè)解決方案不僅實(shí)現(xiàn)了業(yè)界領(lǐng)先的預(yù)測(cè)準(zhǔn)確性,還成功整合預(yù)測(cè)引擎和實(shí)時(shí)監(jiān)測(cè)系統(tǒng),能夠在故障風(fēng)險(xiǎn)出現(xiàn)時(shí)采取及時(shí)的措施,保護(hù)數(shù)據(jù)的安全和業(yè)務(wù)的連續(xù)性。

未來,將繼續(xù)優(yōu)化和拓展HDD磁盤故障預(yù)測(cè)能力:

  • 除SMART數(shù)據(jù)外拓展更多類型數(shù)據(jù),全方位多角度評(píng)估硬盤健康狀況;

  • 通過機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)的發(fā)展為識(shí)別和預(yù)測(cè)復(fù)雜的故障模式提供更多工具;

  • 進(jìn)一步改進(jìn)實(shí)時(shí)監(jiān)測(cè)和警報(bào)系統(tǒng),提高智能化和自適應(yīng)性,使系統(tǒng)學(xué)習(xí)并適應(yīng)不斷變化的硬盤性能和環(huán)境條件;

  • 研究自動(dòng)化響應(yīng)機(jī)制,實(shí)現(xiàn)更快速的故障處理,進(jìn)一步降低業(yè)務(wù)中斷的風(fēng)險(xiǎn)。

面對(duì)生成式AI掀起的變革浪潮,5G、AI大語言模型、自動(dòng)駕駛等各類新技術(shù)融合,大容量HDD依然是企業(yè)級(jí)數(shù)據(jù)中心、云服務(wù)提供商以及超大規(guī)模云業(yè)務(wù)領(lǐng)域的首選,浪潮信息將繼續(xù)秉承“極致存儲(chǔ),智慧有數(shù)”的理念,基于自身技術(shù)優(yōu)勢(shì)不斷創(chuàng)新,持續(xù)推動(dòng)該領(lǐng)域的技術(shù)發(fā)展,以高效可靠的一體式解決方案守護(hù)企業(yè)數(shù)據(jù)安全,助力千行百業(yè)數(shù)字化轉(zhuǎn)型。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 存儲(chǔ)
    +關(guān)注

    關(guān)注

    13

    文章

    4838

    瀏覽量

    90170
  • 浪潮
    +關(guān)注

    關(guān)注

    1

    文章

    477

    瀏覽量

    25458

原文標(biāo)題:智能運(yùn)維第一步:HDD磁盤故障預(yù)測(cè)

文章出處:【微信號(hào):inspurstorage,微信公眾號(hào):浪潮存儲(chǔ)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    AIOps 智能運(yùn):讓 IT 運(yùn)從 “被動(dòng)救火” 到 “主動(dòng)防御”

    、故障定位慢、業(yè)務(wù)中斷損失大,成了運(yùn)工程師的日常痛點(diǎn)。而AIOps(智能運(yùn))的出現(xiàn),就像給I
    的頭像 發(fā)表于 02-12 14:09 ?1697次閱讀
    AIOps <b class='flag-5'>智能</b>化<b class='flag-5'>運(yùn)</b><b class='flag-5'>維</b>:讓 IT <b class='flag-5'>運(yùn)</b><b class='flag-5'>維</b>從 “被動(dòng)救火” 到 “主動(dòng)防御”

    良好的設(shè)備運(yùn)能夠有效告別故障停機(jī)焦慮

    化工生產(chǎn)以連續(xù)化作業(yè)為核心,反應(yīng)釜、壓縮機(jī)、輸送泵等關(guān)鍵設(shè)備的穩(wěn)定運(yùn)行直接決定生產(chǎn)效益,旦設(shè)備突發(fā)故障,不僅會(huì)造成原料浪費(fèi)、產(chǎn)能損失,更可能引發(fā)安全隱患。傳統(tǒng)運(yùn)模式下,化工設(shè)備參數(shù)
    的頭像 發(fā)表于 02-12 10:47 ?645次閱讀

    光伏電站智能運(yùn)平臺(tái)是如何在光伏電站中應(yīng)用的?

    光伏電站智能運(yùn)平臺(tái)是種實(shí)現(xiàn)對(duì)光伏電站的實(shí)時(shí)監(jiān)控、故障預(yù)警、性能優(yōu)化、智能
    的頭像 發(fā)表于 01-04 17:59 ?1595次閱讀

    7×24小時(shí)AI運(yùn)服務(wù):以 “云-邊-云” 架構(gòu)重塑企業(yè) IT 運(yùn)范式

    前言云邊云科技7×24小時(shí)AI運(yùn)管家,依托自主研發(fā)的“云-邊-云”智能云網(wǎng)架構(gòu),融合SD-WAN、SASE技術(shù)與AI運(yùn)算法,構(gòu)建“實(shí)時(shí)監(jiān)
    的頭像 發(fā)表于 12-24 09:20 ?797次閱讀
    7×24小時(shí)AI<b class='flag-5'>運(yùn)</b><b class='flag-5'>維</b>服務(wù):以 “云-邊-云” 架構(gòu)重塑企業(yè) IT <b class='flag-5'>運(yùn)</b><b class='flag-5'>維</b>范式

    復(fù)卷機(jī)遠(yuǎn)程運(yùn)物聯(lián)網(wǎng)管理方案

    仍面臨設(shè)備分布廣泛、運(yùn)行狀態(tài)監(jiān)控不便、故障響應(yīng)不及時(shí)、運(yùn)成本高昂等諸多挑戰(zhàn),限制了生產(chǎn)效能的進(jìn)一步釋放,自身也需要付出較多的時(shí)間、精力與成本。 二、系統(tǒng)概述 對(duì)此,數(shù)之能基于設(shè)備
    的頭像 發(fā)表于 11-25 15:25 ?323次閱讀
    復(fù)卷機(jī)遠(yuǎn)程<b class='flag-5'>運(yùn)</b><b class='flag-5'>維</b>物聯(lián)網(wǎng)管理方案

    光伏電站運(yùn)管理系統(tǒng)這種運(yùn)管理模式的應(yīng)用

    光伏電站運(yùn)管理系統(tǒng)針對(duì)不同光伏電站的運(yùn)模式、技術(shù)架構(gòu)和功能模塊有著不同的類別,其中各功能模塊通過數(shù)據(jù)交互與流程銜接實(shí)現(xiàn)協(xié)同運(yùn)作,來實(shí)現(xiàn)對(duì)光伏電站
    的頭像 發(fā)表于 11-18 15:40 ?433次閱讀
    光伏電站<b class='flag-5'>運(yùn)</b><b class='flag-5'>維</b>管理系統(tǒng)這種<b class='flag-5'>運(yùn)</b><b class='flag-5'>維</b>管理模式的應(yīng)用

    光伏電站智能運(yùn)平臺(tái)是如何解決傳統(tǒng)運(yùn)核心痛點(diǎn)的?

    通過建設(shè)光伏電站智能運(yùn)平臺(tái)實(shí)現(xiàn)智能運(yùn)管理,是應(yīng)對(duì)傳統(tǒng)運(yùn)
    的頭像 發(fā)表于 11-04 17:41 ?663次閱讀
    光伏電站<b class='flag-5'>智能</b><b class='flag-5'>運(yùn)</b><b class='flag-5'>維</b>平臺(tái)是如何解決傳統(tǒng)<b class='flag-5'>運(yùn)</b><b class='flag-5'>維</b>核心痛點(diǎn)的?

    掌握數(shù)字設(shè)計(jì)基礎(chǔ):邁向芯片設(shè)計(jì)的第一步

    在當(dāng)今電子世界里,數(shù)字設(shè)計(jì) 是切復(fù)雜系統(tǒng)的基石。從智能手機(jī)到自動(dòng)駕駛,從AI芯片到物聯(lián)網(wǎng)設(shè)備,數(shù)字電路無處不在。想要進(jìn)入半導(dǎo)體與IC設(shè)計(jì)領(lǐng)域,扎實(shí)的數(shù)字設(shè)計(jì)基礎(chǔ)幾乎是“必修課”。今天我們就帶你梳理
    發(fā)表于 10-09 21:11

    智能運(yùn)管理平臺(tái)智慧園區(qū)應(yīng)用案例

    、項(xiàng)目背景 隨著機(jī)房設(shè)備的逐步增多,該產(chǎn)業(yè)園的運(yùn)管理工作產(chǎn)生了較大壓力,無法及時(shí)得知園區(qū)所屬設(shè)備的運(yùn)行狀態(tài),沒有套統(tǒng)
    的頭像 發(fā)表于 09-12 16:20 ?670次閱讀
    <b class='flag-5'>智能</b><b class='flag-5'>運(yùn)</b><b class='flag-5'>維</b>管理平臺(tái)智慧園區(qū)應(yīng)用案例

    企業(yè)級(jí)Linux磁盤維護(hù)的完整流程

    在企業(yè)級(jí)Linux環(huán)境中,磁盤故障是導(dǎo)致系統(tǒng)宕機(jī)和數(shù)據(jù)丟失的主要原因之。據(jù)統(tǒng)計(jì),超過70%的企業(yè)級(jí)服務(wù)器故障與存儲(chǔ)系統(tǒng)相關(guān)。作為運(yùn)
    的頭像 發(fā)表于 07-23 16:59 ?961次閱讀

    工業(yè)設(shè)備故障早知道?中設(shè)智控聲振溫監(jiān)測(cè)系統(tǒng)讓預(yù)測(cè)運(yùn)落地成真

    中設(shè)智控聲振溫監(jiān)測(cè)系統(tǒng)用聲音、振動(dòng)、溫度的三數(shù)據(jù),為工業(yè)設(shè)備裝上 "聽診器" 和 "體溫計(jì)",讓預(yù)測(cè)運(yùn)從 PPT 概念變成車間里的真實(shí)場(chǎng)景,成為
    的頭像 發(fā)表于 07-21 15:20 ?800次閱讀
    工業(yè)設(shè)備<b class='flag-5'>故障</b>早知道?中設(shè)智控聲振溫監(jiān)測(cè)系統(tǒng)讓<b class='flag-5'>預(yù)測(cè)</b>性<b class='flag-5'>運(yùn)</b><b class='flag-5'>維</b>落地成真

    光伏電站智能運(yùn)的趨勢(shì)發(fā)展

    ,易造成火災(zāi)事故;管理低效,缺乏專業(yè)技術(shù)人員,無法及時(shí)響應(yīng)限電或調(diào)峰要求等。通過智能系統(tǒng)的引入,可實(shí)時(shí)監(jiān)測(cè)異常、避免事故發(fā)生的同時(shí),為光伏電站提供智能化的管理輔助決策,進(jìn)一步提升電站的運(yùn)
    的頭像 發(fā)表于 07-07 14:40 ?831次閱讀
    光伏電站<b class='flag-5'>智能</b><b class='flag-5'>運(yùn)</b><b class='flag-5'>維</b>的趨勢(shì)發(fā)展

    廣東移動(dòng)聯(lián)合華為推出SPN網(wǎng)絡(luò)運(yùn)故障智能體方案

    近日,廣東移動(dòng)與華為聯(lián)合推出基于華為網(wǎng)絡(luò)智能體NetMaster的SPN網(wǎng)絡(luò)運(yùn)故障智能體方案,該方案在SPN(Slicing Packet
    的頭像 發(fā)表于 05-16 20:13 ?1631次閱讀

    智慧園區(qū)配電房智能化在智能電力運(yùn)中的應(yīng)用

    著重要的作用。傳統(tǒng)的配電房運(yùn)方式存在系列問題,如運(yùn)效率低、故障響應(yīng)慢、信息不透明等,限制了
    的頭像 發(fā)表于 04-29 17:05 ?2465次閱讀
    智慧園區(qū)配電房<b class='flag-5'>智能</b>化在<b class='flag-5'>智能</b>電力<b class='flag-5'>運(yùn)</b><b class='flag-5'>維</b>中的應(yīng)用

    預(yù)測(cè)運(yùn)管理平臺(tái)是什么?有什么功能?

    預(yù)測(cè)運(yùn)管理平臺(tái)是種基于物聯(lián)網(wǎng)(IoT)、大數(shù)據(jù)分析、人工智能(AI)和機(jī)器學(xué)習(xí)等先進(jìn)技術(shù)的智能
    的頭像 發(fā)表于 04-10 09:23 ?653次閱讀