91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

服務器“異常”的幾個可能性預警請重視!

恒創(chuàng)主機服務器 ? 來源:恒創(chuàng)主機服務器 ? 作者:恒創(chuàng)主機服務器 ? 2023-04-06 17:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

提到服務器宕機檢測,大家會想到,宕機能夠很快知道,這個有什么可做的?實際上,很多時候服務器宕機,并不總是被及時感知。服務器宕機,ping或者ssh這是最簡單的做法,但真正的工程實踐,沒這么簡單。

想要獲知服務器宕機怎么辦?可以通過服務器宕機實時檢測:

1)發(fā)現(xiàn)宕機。

2)提前告警。

3)告知宕機的詳細原因,如硬件故障,內(nèi)核bug,網(wǎng)絡異常等等。

4)自動報修生成工單。

我們知道,進行全網(wǎng)物理機宕機準確探測與實時發(fā)現(xiàn),可以給宕機分析提供第一現(xiàn)場,獲取第一現(xiàn)場的日志。也可以盡早將宕機數(shù)據(jù)推送給業(yè)務或運營感知并處理,如自動報修,業(yè)務遷移等,從而盡可能將業(yè)務影響降到最低。

更重要的是,準確的宕機發(fā)現(xiàn)數(shù)據(jù)可以為宕機預測提供準確的標注數(shù)據(jù),為后期宕機預測提供數(shù)據(jù)基礎,并且這些數(shù)據(jù)提供給運營部門進行整體分析,提升處理效率。

那么,如何可以準確發(fā)現(xiàn)宕機,減少誤報呢?我們可以有以下操作,比如:

心跳源檢測異常

顧名思義,通過心跳源,初步發(fā)現(xiàn)異常。通常心跳變化會有三類消息,update消息,delete消息和insert消息。心跳邏輯在于,正常情況下SA服務端與NC建立長連接,每數(shù)秒緩存一次心跳,每幾分鐘打包上報一次,但當NC異常時,長連接感知后,立即上報異常,并修改路由表。所以心跳異常做到秒級感知。

update消息,在有心跳發(fā)生變化情況下都會有,心跳異常和心跳恢復正常時都會發(fā)起,是主要的心跳來源。

delete消息,在心跳異常,并且SA判斷ping不通,且ssh不通情況下發(fā)起,刪除該條消息,避免延遲太長。

insert消息,在新增加機器, 或者重裝后重新上位的機器發(fā)起,該消息對宕機發(fā)現(xiàn)價值不大,配合uptime使用。

心跳源檢測任務邏輯,主要是監(jiān)聽并緩存uptime消息,同時避免時間窗內(nèi)多次消息沖突,導致信息被覆蓋。

異常排除

排除非物理機器,將系統(tǒng)中暫時不關注的VM等產(chǎn)生的異常信息排除掉。

排除非業(yè)務狀態(tài)的機器,如裝機狀態(tài)中的,包括生產(chǎn)中,維修中,遷移中,重裝中,銷毀中,重啟中,無管控狀態(tài),只監(jiān)控正常狀態(tài)的機器。

排除非正在工作的機器,如非working狀態(tài)機器。

網(wǎng)絡干擾排除

宕機分析中,較多誤報是由于網(wǎng)絡問題干擾,無法準確判斷出物理機是否宕機,有可能是網(wǎng)絡問題。

排除上聯(lián)網(wǎng)絡設備異常導致的誤報,包括機房斷網(wǎng)演練,小面積網(wǎng)絡故障,上聯(lián)網(wǎng)絡故障,如通過探測丟包情況,使用一些邏輯初步判斷網(wǎng)絡問題。

服務器本身未丟包的誤報,除了需要過濾出網(wǎng)絡問題,還要通過丟包數(shù)據(jù)分析,過濾掉SA誤報問題, SA異常會上報心跳異常,被誤理解為宕機。

icmp及tcp丟包分析,icmp采集頻率為固定數(shù)秒,tcp采集頻率固定數(shù)秒,包括多個不同大小包(16,32,64,128,256等)的丟包情況,根據(jù)分析時間窗內(nèi)兩項數(shù)據(jù)的丟包情況

特殊情況干擾排除

個別機房有時候會出現(xiàn)大面積風暴式的無故心跳異常,同時網(wǎng)絡ping包異常,但上聯(lián)網(wǎng)絡設備ping包正常,這種誤報,一般根據(jù)具體case具體進行針對性的分析。如根據(jù)監(jiān)控每個機房的上報頻率,排除干擾。

進一步識別誤報

至此,大部分干擾已經(jīng)過濾掉,但仍有一部分誤報隱藏其中。比如心跳異常,ping異常,都合乎宕機判斷的邏輯,會導致誤判成宕機,如導致網(wǎng)卡被打爆,或者重試率高,這種是業(yè)務原因?qū)е戮W(wǎng)絡異常,但業(yè)務認為不是異常,需要排除掉。再例如服務器并沒有掛掉,但是IO延時和資源占用率各項指標都不正常等場景。針對以上等情況,增加uptime判斷以及帶外日志分析排查。

宕機時間點探測uptime確定是否發(fā)生重啟。

進一步通過分析日志是否連續(xù),判斷是否發(fā)生重啟。

日志重啟特征值匹配,確認是否發(fā)生重啟。

如果還不能確定,使用uptime的時間窗技術進行重啟。

仍不能確定的待處理,進入長尾處理名單。

長尾再次處理

未確認的待處理的,會加入到長尾列表中,像這種分鐘級的心跳異常,ping異常,但串口日志一直正常輸出的情況,一般就是某種死機,死到連網(wǎng)絡都不通的場景。會觀察一段時間,一個固定時間窗內(nèi)仍未恢復或重啟的話,就暫時報宕機。后期會把這種死機單獨找劃分歸類。

講了這么多,到底效果怎么樣?

我們從準確率和覆蓋率來看:

準確率:目前發(fā)現(xiàn)的宕機中有很高準確度,可以區(qū)分出真正宕機或者未宕機。而判斷為宕機的數(shù)據(jù)中,也存在少量的,由于缺少相關信息導致誤報,該部分將進一步優(yōu)化,逐漸降低誤報,在新的措施之后,該比例會接近0。

覆蓋率:當前統(tǒng)計的覆蓋率已經(jīng)能很好的支撐日常宕機處理,該數(shù)據(jù)在有足夠的特征后,會進一步提升。

目前,宕機感知是宕機分析的基礎,通過服務器宕機實時檢測,會把相應的宕機原因分布整理出來,明確具體的原因,達成服務器極致可靠性。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)

    關注

    8

    文章

    7335

    瀏覽量

    94779
  • 服務器
    +關注

    關注

    14

    文章

    10253

    瀏覽量

    91502
  • TCP
    TCP
    +關注

    關注

    8

    文章

    1425

    瀏覽量

    83518
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    新西蘭服務器運維必備:自動化監(jiān)控與故障預警實踐

    。 什么是自動化監(jiān)控與故障預警? 自動化監(jiān)控與故障預警服務器運維中的一種實踐,通過自動化手段對服務器進行持續(xù)監(jiān)控,實時捕捉性能數(shù)據(jù),并在發(fā)現(xiàn)異常
    的頭像 發(fā)表于 02-26 14:26 ?164次閱讀

    服務器數(shù)據(jù)恢復—RAIDZ多盤離線導致服務器崩潰的數(shù)據(jù)恢復案例

    某存儲設備中一共有40塊磁盤組建存儲池,其中4塊磁盤作為全局熱備盤使用。存儲池內(nèi)劃分出若干空間映射到服務器使用。 服務器存儲設備在沒有斷電、進水、異常操作、供電不穩(wěn)定等外部因素的情況下突然崩潰。管理員重啟
    的頭像 發(fā)表于 12-11 14:16 ?262次閱讀
    <b class='flag-5'>服務器</b>數(shù)據(jù)恢復—RAIDZ多盤離線導致<b class='flag-5'>服務器</b>崩潰的數(shù)據(jù)恢復案例

    時間同步服務器為地震預警系統(tǒng)精準授時

    服務器
    西安同步電子科技有限公司
    發(fā)布于 :2025年12月03日 17:14:53

    NTP授時同步服務器在地震預警中的作用

    服務器
    西安同步電子科技有限公司
    發(fā)布于 :2025年11月12日 17:08:45

    高防服務器對CC攻擊的防御原理是什么?

    連接等核心計算資源,導致網(wǎng)站響應緩慢甚至癱瘓。 高防服務器的防御體系,就是一套智能的“安檢和過濾系統(tǒng)”,其核心原理可以概括為以下幾個步驟: 防御原理一:流量調(diào)度與“戰(zhàn)場”隔離 當高防系統(tǒng)檢測到異常流量時,首先做的不是讓流量直接
    的頭像 發(fā)表于 10-16 09:29 ?619次閱讀

    服務器數(shù)據(jù)恢復—RAIDZ多塊硬盤離線導致服務器崩潰的數(shù)據(jù)恢復案例

    服務器數(shù)據(jù)恢復環(huán)境&故障: 一臺服務器有32塊硬盤,采用Windows操作系統(tǒng)。 服務器在正常運行的時候突然變得不可用。沒有異常斷電、進水、異常
    的頭像 發(fā)表于 09-18 12:29 ?899次閱讀
    <b class='flag-5'>服務器</b>數(shù)據(jù)恢復—RAIDZ多塊硬盤離線導致<b class='flag-5'>服務器</b>崩潰的數(shù)據(jù)恢復案例

    Linux服務器入侵檢測與應急響應流程

    作為一名運維工程師,你是否曾在凌晨3點接到告警電話?服務器異常、流量暴增、CPU飆升...這些可能都是入侵的征兆。本文將分享一套完整的Linux服務器入侵檢測與應急響應流程,讓你在面對
    的頭像 發(fā)表于 08-21 17:29 ?1608次閱讀

    華納云服務器角色服務器失敗的原因和解決辦法

    是常見的,這可能導致數(shù)據(jù)丟失、系統(tǒng)停機和效率降低等嚴重后果。因此,了解服務器角色故障的原因和影響,并采取有效的預防措施,對于確保業(yè)務連續(xù)和數(shù)據(jù)安全至關重要。 一、
    的頭像 發(fā)表于 07-17 18:18 ?573次閱讀

    服務器數(shù)據(jù)恢復——服務器異常斷電導致raid模塊損壞的數(shù)據(jù)恢復案例

    服務器上有一組由12塊硬盤組建的raid5磁盤陣列。 機房供電不穩(wěn)定導致機房中該服務器非正常斷電,重啟服務器后管理員發(fā)現(xiàn)服務器無法正常使用。 意外斷電
    的頭像 發(fā)表于 06-24 16:34 ?536次閱讀

    服務器機房用UPS系統(tǒng)的理由,可能導致文件損壞

    服務器機房使用UPS系統(tǒng)的重要   為了更高效地運行服務器機房,提高數(shù)字活動的可持續(xù)非常重要。
    的頭像 發(fā)表于 06-10 15:30 ?838次閱讀
    <b class='flag-5'>服務器</b>機房用UPS系統(tǒng)的理由,<b class='flag-5'>可能</b>導致文件損壞

    國外bgp服務器多少錢?# 服務器

    服務器
    jf_57681485
    發(fā)布于 :2025年04月24日 14:19:00

    新加坡服務器延遲大嗎?真相在這里#新加坡服務器 #服務器

    服務器
    jf_57681485
    發(fā)布于 :2025年04月18日 13:48:50

    AI 推理服務器都有什么?2025年服務器品牌排行TOP10與選購技巧

    根據(jù)行業(yè)數(shù)據(jù),AI推理服務器的性能差異可以達到10倍以上。比如,用普通服務器跑一個700億參數(shù)的大模型,可能需要30秒才能出結果,而用頂級服務器可能
    的頭像 發(fā)表于 04-09 11:06 ?8619次閱讀
    AI 推理<b class='flag-5'>服務器</b>都有什么?2025年<b class='flag-5'>服務器</b>品牌排行TOP10與選購技巧

    NTP校時服務器 時鐘同步服務器

    服務器
    jf_75250307
    發(fā)布于 :2025年03月19日 20:56:34