對標數(shù)字未來,智能運維AIOps何以美好

簡到極致,便是大智。簡到極致,便是大美。數(shù)字化之于金融行業(yè)追求的便是一種簡到極致的服務體驗,然而行業(yè)數(shù)字化程度越高,IT系統(tǒng)的復雜度和規(guī)模就越大。特別是隨著科技的進步,區(qū)塊鏈、容器、物聯(lián)網(wǎng)等Fintech技術(shù)相繼落地,帶來更加開放的格局。如何有效地利用ABC技術(shù)實現(xiàn)高可用、高性能和高可擴展,并且維持信息系統(tǒng)有效、穩(wěn)定、持續(xù)地運行?智能運維的呼聲越來越高。

IT運維之變, ITOM/ITSM向AIOps演進

近年來,金融行業(yè)的IT系統(tǒng)架構(gòu)逐漸從“傳統(tǒng)集中式架構(gòu)”轉(zhuǎn)向“互聯(lián)網(wǎng)架構(gòu)”,互聯(lián)網(wǎng)架構(gòu)所涉及的云化、分布式、DevOps等,使得IT運維的壓力越來越大。隨著AI技術(shù)的商用,監(jiān)管部門鼓勵金融機構(gòu)利用智能化手段進行業(yè)務創(chuàng)新和IT運維管理,所以運維體系在經(jīng)過了腳本化、工具化、自動化之后,逐漸向智能化發(fā)展。2016年,AIOps的概念被Gartner正式提出:使用智能算法解決已知的IT問題,并自動化重復的工作。

經(jīng)過幾年的爭論和實踐,現(xiàn)在行業(yè)對AIOps基本形成共識:融合大數(shù)據(jù),機器學習獲得深入的洞察力,實現(xiàn)IT運維能力和運營能力的全面增強,發(fā)掘更多運維人員尚未覺察的潛在的系統(tǒng)故障和運維問題。隨著IT管理由ITIL進化為DevOps,運維管理平臺也從ITOM/ITSM向AIOps不斷演進。

Gartner預測,到2022年,40%的大型企業(yè)將選擇結(jié)合大數(shù)據(jù)和機器學習能力的AIOps,支持和部分替代IT監(jiān)控、服務臺和自動化流程和任務,成為IT部門提升運維效率、降低運維成本的重要手段。那么,AIOps如何與金融行業(yè)復雜的IT系統(tǒng)實現(xiàn)融合呢?

金融業(yè)AIOps智能運維場景解析

由于金融業(yè)的IT成熟度高,數(shù)字化轉(zhuǎn)型需求迫切,有大量場景亟需AIOps能力。比如,海量日志數(shù)據(jù)分析、告警風暴抑制、通過告警事件追蹤故障根因、預測業(yè)務風險等等。

云智慧CEO殷晉認為,AIOps基于金融行業(yè)的應用場景,依托大數(shù)據(jù)和人工智能技術(shù),能夠?qū)崿F(xiàn)業(yè)務指標與IT監(jiān)控、分析、預警、處理場景的融合,通過關聯(lián)分析和交易鏈路追蹤,最終能夠發(fā)現(xiàn)和解決實際業(yè)務問題。

對標數(shù)字未來,智能運維AIOps何以美好

  云智慧智能運維平臺

通常情況下,業(yè)務系統(tǒng)出現(xiàn)異常,最直接、最直觀反映就是關鍵業(yè)務指標出現(xiàn)異常波動。以云智慧某保險行業(yè)頭部客戶為例,業(yè)務系統(tǒng)異常時,系統(tǒng)處理保單的能力會顯著下降。

但是,如何正確判斷“保單量”出現(xiàn)下降呢?傳統(tǒng)的方式就是設置一個固定的閾值,當實時監(jiān)控到的保單量超出上述閾值時,即認為保單量出現(xiàn)異常。傳統(tǒng)監(jiān)控系統(tǒng)的固定閾值告警,就是籍此產(chǎn)生告警信息的。

這個邏輯表面看上去沒有問題,但是仔細想一下,每天凌晨的時候,會有多少新的保單提交到系統(tǒng)中呢(假設保險公司只受理國內(nèi)的業(yè)務)?顯然,每天上午10點到12點之間新提交到系統(tǒng)中的保單量要遠遠多于每天凌晨提交到系統(tǒng)中的保單量。以此類推,業(yè)務系統(tǒng)在促銷活動期間和平日處理的保單量也存在顯著的差別。因此,企業(yè)很難用固定閾值來判斷業(yè)務系統(tǒng)保單量指標是否出現(xiàn)異常。

為了解決上述問題,云智慧AIOps平臺采用多算法集成學習模式,并引入3種針對時序數(shù)據(jù)的異常檢測方法:動態(tài)基線、同比/環(huán)比和指標異常檢測。

動態(tài)基線基于歷史數(shù)據(jù),利用智能算法進行深度學習,對未來一段時間內(nèi)的每個時間點的數(shù)值進行預測,以預測值作為基線,并通過比較實際值與基線的偏離度(百分比差異)來監(jiān)控和告警。這種方法適用于已知某數(shù)據(jù)指標呈周期性變化且沒辦法給出每個周期的準確值或者周期內(nèi)的數(shù)據(jù)變化過多的場景。

同/環(huán)比變化用于發(fā)現(xiàn)某個待監(jiān)測指標的變化趨勢是持續(xù)變好還是持續(xù)變壞。將目標監(jiān)控值與歷史同期數(shù)據(jù)的分布和同環(huán)比的變化情況進行對比,根據(jù)數(shù)值或百分比差異情況判斷新進數(shù)據(jù)是否異常,并作出判斷是否進行告警。

指標異常檢測為了應對不對業(yè)務模式的數(shù)據(jù)差異化特點,采用無監(jiān)督集成學習算法,無需人工設置固定閾值和定義基線偏離度,系統(tǒng)根據(jù)不同數(shù)據(jù)特點,選擇不同算法去做針對性的檢測,并對異常進行整體評估,自動識別不符合期望的數(shù)據(jù)后產(chǎn)生告警。

在銀行業(yè),云智慧AIOps同樣在多家商業(yè)銀行的智能業(yè)務鏈路追蹤場景中發(fā)揮價值。我們都知道,任何一筆金融業(yè)務的交易鏈路都可能涉及幾十個環(huán)節(jié),IT追蹤非常困難,過去都是基于垂直系統(tǒng)的監(jiān)控數(shù)據(jù)由人工去做的。現(xiàn)在,利用AIOps的實時數(shù)據(jù)分析能力,自動對交易進行全鏈路追蹤,對采集到的數(shù)據(jù)進行智能關聯(lián)分析,快速得到想要的結(jié)果。

云智慧AIOps平臺以事件為核心,基于大數(shù)據(jù)技術(shù)和機器學習算法,實現(xiàn)IT全生命周期的統(tǒng)一管控。對來自于各種監(jiān)控系統(tǒng)的告警消息與業(yè)務指標進行統(tǒng)一的接入與處理,幫助金融企業(yè)打通數(shù)據(jù)孤島,統(tǒng)一運維的標準與管理規(guī)范,減少對運維的事務性干擾,實現(xiàn)事件的智能告警、異常檢測、根因分析、智能預測等。

AIOps智能運維落地最佳實踐

2016年,云智慧在國內(nèi)率先推出了智能業(yè)務運維解決方案,并在多個互聯(lián)網(wǎng)+轉(zhuǎn)型需求迫切的行業(yè)展開實踐。歷經(jīng)3載,云智慧積累了豐富智能運維最佳實踐經(jīng)驗。殷晉在總結(jié)過往時表示,AIOps作為IT運維發(fā)展的新階段,需要根據(jù)金融機構(gòu)的IT現(xiàn)狀和技術(shù)成熟度,采用逐步推進、分階段實施的方式進行落地,建議從基礎運維到業(yè)務運維,最終實現(xiàn)智能運維。

第一階段是數(shù)據(jù)為先,無論現(xiàn)有系統(tǒng)維穩(wěn)還是業(yè)務創(chuàng)新,都需要完整數(shù)據(jù)作為基礎。企業(yè)完成IT系統(tǒng)建設之后,需要構(gòu)建面向全部系統(tǒng)和技術(shù)棧的統(tǒng)一監(jiān)控和運維數(shù)據(jù)處理平臺,將采集的IT數(shù)據(jù)、日志數(shù)據(jù)、網(wǎng)絡數(shù)據(jù)等進行實時處理和分析。

第二個階段變傳統(tǒng)被動運維為主動運維。利用大數(shù)據(jù)、人工智能和數(shù)據(jù)可視化手段,通過IT與業(yè)務指標的融合,雙向驅(qū)動IT管理。這個階段,既要讓業(yè)務部門能夠看懂IT,又能讓IT部門更加敏捷、主動的支撐業(yè)務發(fā)展。

最后是智能運維階段,該階段主要有兩個重點:一是實時響應,當發(fā)生問題的時候,能夠?qū)崟r動態(tài)響應,迅速定位問題、解決問題;二是預測未來,結(jié)合DevOps、容器化等新一代技術(shù),做到故障治愈,這是目前智能運維的最理想結(jié)果。

如今,基于AIOps的云智慧DOCP數(shù)字化運維中臺已經(jīng)陸續(xù)在銀行、保險、證券、基金、制造、航空等多個行業(yè)的頭部企業(yè)中得到大量應用和認可。

盡管AIOps在實際應用過程中面臨著許多挑戰(zhàn),但是作為AI和大數(shù)據(jù)技術(shù)對傳統(tǒng)運維產(chǎn)品和理念的顛覆,AIOps對標數(shù)字未來,能夠更深層次的解決數(shù)字孿生世界中的運維管理難題,為IT管理和業(yè)務決策提供更明智的選擇,并對業(yè)務發(fā)展進行洞察和預測。隨著時間推移,相信AIOps時代終將到來。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

2019-07-04
對標數(shù)字未來,智能運維AIOps何以美好
簡到極致,便是大智。簡到極致,便是大美。數(shù)字化之于金融行業(yè)追求的便是一種簡到極致的服務體驗,然而行業(yè)數(shù)字化程度越高,IT系統(tǒng)的復雜度和規(guī)模就越大。

長按掃碼 閱讀全文