智能運維場景解析:如何通過異常檢測發(fā)現(xiàn)業(yè)務系統(tǒng)狀態(tài)異常

通常情況下,業(yè)務系統(tǒng)出現(xiàn)異常,最直接、最直觀反映就是關鍵業(yè)務指標出現(xiàn)異常波動。以保險行業(yè)為例,當業(yè)務系統(tǒng)出現(xiàn)異常時,系統(tǒng)處理保單的能力會顯著下降,對應到業(yè)務指標描述,即:業(yè)務系統(tǒng)出現(xiàn)問題時,“保單量”會出現(xiàn)下降。

智能運維場景解析:如何通過異常檢測發(fā)現(xiàn)業(yè)務系統(tǒng)狀態(tài)異常

如何正確判斷“保單量”出現(xiàn)下降呢?傳統(tǒng)的方式就是設置一個固定的閾值,例如:定義在正常情況下,系統(tǒng)每分鐘可以處理的保單量應該在200~600之間。當實時監(jiān)控到的保單量超出上述閾值時,即認為保單量出現(xiàn)異常。傳統(tǒng)監(jiān)控系統(tǒng)的固定閾值告警,就是通過設置固定的告警閾值與真實數(shù)據(jù)進行對比產生告警信息。

這個邏輯表面看上去沒有問題,但是仔細想一下,每天凌晨的時候,會有多少新的保單提交到系統(tǒng)中呢(假設保險公司只受理國內的業(yè)務)?顯然,每天上午10點到12點之間新提交到系統(tǒng)中的保單量要遠遠多于每天凌晨提交到系統(tǒng)中的保單量。

以此類推,業(yè)務系統(tǒng)在節(jié)假日和工作日處理的保單量也存在顯著的差別。如果據(jù)此邏輯進行深入分析,會發(fā)現(xiàn),企業(yè)很難用預先設定的規(guī)則(閾值)來判斷業(yè)務系統(tǒng)保單量指標的是否出現(xiàn)異常。

智能運維場景解析:如何通過異常檢測發(fā)現(xiàn)業(yè)務系統(tǒng)狀態(tài)異常

為了解決上述問題,云智慧DOCP平臺的DOEM數(shù)字化運維事件管理產品采用多算法集成學習模式,并引入3種針對時序型監(jiān)控指標進行異常檢測的方法:動態(tài)基線、同比/環(huán)比和指標異常檢測。

動態(tài)基線基于歷史數(shù)據(jù),利用智能算法進行深度學習后,對未來一段時間內的每個時間點的數(shù)值進行精準預測,以預測值作為基線,并通過比較實際值與基線的偏離度(百分比差異)來監(jiān)控和告警。

動態(tài)基線適用于已知某數(shù)據(jù)指標呈周期性變化且沒辦法給出每個周期的準確值或者周期內的數(shù)據(jù)變化過多的場景。以保險行業(yè)業(yè)務場景為例,我們根據(jù)歷史保單量的學習,識別出歷史數(shù)據(jù)的趨勢性和周期性的變化,預測未來一段時間保單量的變化。同時根據(jù)歷史數(shù)據(jù)的分布情況,給出未來一段時間的上下限的變化情況。當待檢測指標高于基線高于上限/低于下限時,即判斷為出現(xiàn)異常。監(jiān)測發(fā)現(xiàn)預測實際值數(shù)據(jù)頻繁小于預測數(shù)據(jù),我們有效的檢測到這種異常,并追蹤到事件的根源。

智能運維場景解析:如何通過異常檢測發(fā)現(xiàn)業(yè)務系統(tǒng)狀態(tài)異常

同/環(huán)比異常檢測用于發(fā)現(xiàn)某個待監(jiān)測指標的變化趨勢是持續(xù)變好還是持續(xù)變壞。將目標監(jiān)控值與歷史同期數(shù)據(jù)的分布和同環(huán)比的變化情況進行對比,根據(jù)數(shù)值或百分比差異情況判斷新進數(shù)據(jù)是否異常,并作出判斷是否進行告警。

智能運維場景解析:如何通過異常檢測發(fā)現(xiàn)業(yè)務系統(tǒng)狀態(tài)異常

為了應對不對業(yè)務模式的差異化數(shù)據(jù)特點,DOEM采用無監(jiān)督集成學習算法進行單/多指標異常檢測,無需人工設置固定閾值和定義基線偏離度,系統(tǒng)根據(jù)不同的數(shù)據(jù)特點,選擇不同算法去做針對性的檢測,并對異常進行整體的評估,自動識別出不符合期望的數(shù)據(jù)后產生告警消息。

云智慧DOEM(Digital Operation Event Management的縮寫)數(shù)字化運維事件管理產品面向技術和管理,以事件為核心,實現(xiàn)問題事件全生命周期的全局管控。DOEM基于大數(shù)據(jù)技術和機器學習算法,對來自于各種監(jiān)控系統(tǒng)的告警消息與數(shù)據(jù)指標進行統(tǒng)一的接入與處理,支持告警事件的過濾、通知、響應、處置、定級、跟蹤以及多維分析。DOEM產品基于動態(tài)基線等多種算法,能夠實現(xiàn)事件的告警收斂、異常檢測、根因分析、智能預測,幫助企業(yè)打通數(shù)據(jù)孤島,統(tǒng)一運維的標準與管理規(guī)范,減少對運維的事務性干擾,提升運維的整體管理水平。

極客網企業(yè)會員

免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2019-09-06
智能運維場景解析:如何通過異常檢測發(fā)現(xiàn)業(yè)務系統(tǒng)狀態(tài)異常
通常情況下,業(yè)務系統(tǒng)出現(xiàn)異常,最直接、最直觀反映就是關鍵業(yè)務指標出現(xiàn)異常波動。

長按掃碼 閱讀全文