智能運維場景解析:基于AIOps的智能根因分析實踐

企業(yè)上云、區(qū)塊鏈、物聯(lián)網、5G,隨著一個個數字化場景的應用和業(yè)務模式的多樣化發(fā)展,支撐這一切的企業(yè)IT系統(tǒng)的規(guī)模和復雜性正在大幅提高,IT 運維團隊面臨的壓力和挑戰(zhàn)與日俱增,任何一次服務中斷事件都有可能對公司業(yè)務造成極大影響。因此,當故障發(fā)生時候,必須快速、準確、有效的定位到故障根源,通過快速修復保障數字業(yè)務穩(wěn)定可靠運行,是CIO所領導的IT部門職責的重中之重。

然而,依賴運維經驗和手工操作的傳統(tǒng)故障排查方式效率低下,無法應對如今大規(guī)模、分布式、異構IT系統(tǒng)的運維挑戰(zhàn),必須利用基于大數據和機器學習等智能運維技術的根因分析(Root Cause Analysis,RCA),才能在最短時間內定位故障根因,全面提升MTTR(平均故障修復時間)這兩個數字化運維的關鍵指標。

在海量離散數據中追蹤故障根因的難點

應用系統(tǒng)架構復雜,技術體系多樣,數據孤島在企業(yè)中大量存在。目前,IT部門普遍采用多種離散監(jiān)控系統(tǒng)來實現不同的技術棧監(jiān)控,如基礎設施與服務監(jiān)控采用Zabbix或監(jiān)控寶、網絡監(jiān)控使用Solarwinds軟件、應用性能管理采用透視寶等APM產品,還有一些業(yè)務和性能采用日志分析手段進行監(jiān)控。

智能運維場景解析:基于AIOps的智能根因分析實踐

 當問題出現時,技術人員往往需要從用戶使用的終端應用和設備開始,對各個IT環(huán)節(jié)的運行狀態(tài)和性能進行端到端分析,從全棧全維度的角度深入對故障進行定位。然而,傳統(tǒng)的統(tǒng)計型和Trace型根因分析方法各有缺點,導致無法快速準確定位根源故障,需要大量的人工排障時間。

基于AIOps的根因分析方法

根因分析方法廣泛應用于IT和醫(yī)學等領域。著名IT研究機構Gartner為根因分析給出的定義,是一種旨在將當前條件與過去采集到的結構化/非結構化數據模式進行匹配的復雜分析方法,根因分析的目標是嘗試定位一個系統(tǒng)錯誤的問題根源。

因此,根因分析需要將異常檢測和事件相關性從另一個維度結合起來進行分析,該分析將一般性的意外情況轉化為具有特定解決方案的特定問題。因此,根因分析需要與異常檢測和事件關聯(lián)分析相同類型的數據,即用于檢測異常的黑盒數據和將整個系統(tǒng)中異常關聯(lián)的白盒數據。

事件的質量和跨系統(tǒng)/數據的異常關聯(lián)的質量都將對根因分析結果產生巨大影響。所以,不僅要了解關聯(lián)機制,還要了解確保相關性持續(xù)存在且正確的操作條件或配置。根因分析需要利用以下技術發(fā)現和自動維護系統(tǒng)拓撲,避免手動指定拓撲造成的誤差:

·從現有的IT運維數據庫(如CMDB)中提取關聯(lián)關系

·基于agent發(fā)現系統(tǒng)的相關性,通過觀察系統(tǒng)之間的連接來構建拓撲

·通過日志文件從共享數據的實體(例如主機名或IP地址)之間推斷拓撲關系

異常檢測旨在表明某些不正?,F象,而根因分析則試圖闡明“是什么問題”、“為什么發(fā)生問題”、“問題的最佳解決方案是什么”,這一系列目標需要準確性和精確性,總的來說,這是一個極其復雜的數據科學問題。

根因分析的優(yōu)點:

·實施效果良好的根因分析會大幅縮短系統(tǒng)中斷后的平均故障恢復時間(MTTR);

·根因分析可以減少對經驗的依賴,并可以通過定向響應進行更多的機械補救;

·如果精度和準確度足以滿足用例的要求,根因分析將為智能自動化開啟大門;

根因分析的難點:

·根因分析解決方案通常依靠關聯(lián)和抽象技術來獲得準確性、精度和影響范圍,當這些假設不可靠時,根因分析結果也會受到影響;

·創(chuàng)建問題指紋庫的工作量和復雜性很大,這使得根因分析對于大多數手動方法來說都是遙不可及的。

基于多源數據的云智慧智能故障根因分析

現在的根因診斷算法(格蘭杰因果關系等)多是從數據關聯(lián)出發(fā),給出數據的相關性概率,但不能有效給出系統(tǒng)根因。云智慧DOEM數字化運維事件管理產品提供了多個算法相互結合驗證的根因診斷系統(tǒng),智能滿足特定數據的驗證,利用Open Tracing、APM(應用性監(jiān)控)等技術對業(yè)務和系統(tǒng)的調用關系進行有效構建,同時利用CMDB等部署關系建立統(tǒng)一的調用拓撲圖和物理拓撲圖,構建基于圖算法和數據關聯(lián)相結合的算法。

智能運維場景解析:基于AIOps的智能根因分析實踐

當數據之間存在邏輯關系時,可以根據數據邏輯給出根源;當數據存在結構性的時候,會根據圖算法模型對根因進行分析,然后進一步將不同的算法模型對場景和不同的元數據進行適配,對異常進行有效的根因定位。在眾多可能引起故障的因素中,追溯到導致故障發(fā)生的癥結所在,并找出根本性的解決方案。利用機器學習或者深度學習的方法,找出不同因素的之間的強相關關系,并利用這些關系推斷出哪些因素是根本原因。

智能運維場景解析:基于AIOps的智能根因分析實踐

當故障發(fā)生時,DOEM的根因分析功能基于智能算法給出當前問題事件的故障根因推薦,并將問題事件的相關故障信息匯集到一個頁面,根因分析結果可以幫助運維工程師快速確定故障的根因,并迅速對故障進行修復,降低損失。

上面的示例中,明確指出引起業(yè)務量波動最可能的原因(87%概率)是某臺主機的CPU使用率過高,可以進一步查看詳情,如下圖所示:

智能運維場景解析:基于AIOps的智能根因分析實踐

展示該主機的關鍵指標信息:此時CPU使用率達到了100%。在拓撲圖中可以分析該主機的問題所引起的其它組件與應用的故障與性能不佳情況。同時,本頁面集中展現該了主機的實時數據、告警事件信息,幫助分析問題。

智能運維場景解析:基于AIOps的智能根因分析實踐

DOEM基于問題事件的特征,自動匹配知識庫中的相似問題,把問題的處置建議與經驗推送給用戶,實現“知識找人、知識找問題”?;谀_本封裝式的知識,運維人員可進一步執(zhí)行處置程序,實現問題的自動化處置。

云智慧DOEM(Digital Operation Event Management的縮寫)數字化運維事件管理產品面向技術和管理,以事件為核心,實現問題事件全生命周期的全局管控。DOEM基于大數據技術和機器學習算法,對來自于各種監(jiān)控系統(tǒng)的告警消息與數據指標進行統(tǒng)一的接入與處理,支持告警事件的過濾、通知、響應、處置、定級、跟蹤以及多維分析。DOEM運用動態(tài)基線等算法,實現事件的告警收斂、異常檢測、根因分析、智能預測,幫助企業(yè)打通數據孤島,統(tǒng)一運維的標準與管理規(guī)范,減少對運維的事務性干擾,提升運維的整體管理水平。

極客網企業(yè)會員

免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2019-12-06
智能運維場景解析:基于AIOps的智能根因分析實踐
企業(yè)上云、區(qū)塊鏈、物聯(lián)網、5G,隨著一個個數字化場景的應用和業(yè)務模式的多樣化發(fā)展,支撐這一切的企業(yè)IT系統(tǒng)的規(guī)模和復雜性正在大幅提高,IT 運維團隊面臨的壓力和

長按掃碼 閱讀全文