從算法到智能,智能運(yùn)維的實(shí)踐之路

隨著企業(yè)數(shù)字化轉(zhuǎn)型的不斷深入,利用AI技術(shù)改善運(yùn)維和IT服務(wù)水平成為當(dāng)前運(yùn)維管理的主要關(guān)注方向。在此過(guò)程中逐漸產(chǎn)生了不同的發(fā)展策略:圍繞著AI的平臺(tái)化智能運(yùn)維發(fā)展模式、場(chǎng)景化智能運(yùn)維發(fā)展模式以及自建智能運(yùn)維發(fā)展模式。

不同發(fā)展策略的智能運(yùn)維發(fā)展方向是一致的,即通過(guò)大數(shù)據(jù)和人工智能技術(shù)對(duì)運(yùn)維管理進(jìn)行賦能:

●結(jié)合現(xiàn)有監(jiān)控手段,增強(qiáng)數(shù)據(jù)分析,進(jìn)一步提高監(jiān)控的能力;

●通過(guò)資源的有效配置節(jié)省運(yùn)維成本;

●通過(guò)多數(shù)據(jù)源分析增強(qiáng)排查問(wèn)題的能力,有效縮短故障恢復(fù)時(shí)間;

●通過(guò)預(yù)警并結(jié)合自動(dòng)化工具,有效提高運(yùn)維效率甚至自愈能力。

目前智能運(yùn)維尚處在弱人工智能階段,人機(jī)協(xié)作的方式將促進(jìn)智能運(yùn)維的發(fā)展,人教會(huì)AI去學(xué)習(xí),AI實(shí)現(xiàn)對(duì)數(shù)據(jù)的智能分析,提高運(yùn)維人員的運(yùn)營(yíng)能力。

建設(shè)智能運(yùn)維的算法挑戰(zhàn)

雖然這幾年人工智能在人臉識(shí)別、智能駕駛等領(lǐng)域得到了大量應(yīng)用,但是AI仍然面臨著計(jì)算效能、安全、可解釋性等諸多挑戰(zhàn)。相比于其他AI落地場(chǎng)景,智能運(yùn)維所亟需解決的問(wèn)題具有一定的獨(dú)特性:

1、心態(tài)的轉(zhuǎn)變:智能運(yùn)維是運(yùn)維發(fā)展的方向,而且是一個(gè)長(zhǎng)期的過(guò)程——從經(jīng)驗(yàn)主義到數(shù)據(jù)驅(qū)動(dòng),再回歸到業(yè)務(wù)驅(qū)動(dòng)的過(guò)程。經(jīng)驗(yàn)是結(jié)合了數(shù)據(jù)、知識(shí)、業(yè)務(wù)等長(zhǎng)時(shí)間學(xué)習(xí)的結(jié)果,而AI主要依靠歷史指標(biāo)或者文本數(shù)據(jù),對(duì)歷史數(shù)據(jù)進(jìn)行預(yù)測(cè),從而對(duì)未來(lái)趨勢(shì)做出判斷。對(duì)于想達(dá)到的目標(biāo),需要考慮現(xiàn)有的信息是否充足,還需要結(jié)合業(yè)務(wù)場(chǎng)景進(jìn)行具體模型的不斷優(yōu)化。

2、工程化算法的欠缺:由于缺乏標(biāo)準(zhǔn)的運(yùn)維數(shù)據(jù)集,學(xué)術(shù)界針對(duì)運(yùn)維的算法還比較少,工程化的算法尤其欠缺。同時(shí)算法在不同數(shù)據(jù)集上的泛化能力也決定了算法能否在真實(shí)場(chǎng)景應(yīng)用的關(guān)鍵。

3、缺乏有效的標(biāo)簽體系:以異常定義為例,由于不同業(yè)務(wù)部門(mén)對(duì)數(shù)據(jù)需求存在巨大區(qū)別,同時(shí)對(duì)異常的容忍程度也有不同定義,因此現(xiàn)有的泛化模型難以滿足用戶的實(shí)際需求。

4、數(shù)據(jù)的多樣化和變更頻繁:運(yùn)維場(chǎng)景存在大量變更行為,因此需要考慮Concept-shift(如:促銷(xiāo)中的變更)前后對(duì)算法結(jié)果的影響。

5、唯一性:很多異常和故障的特征是唯一的,很難通過(guò)歷史數(shù)據(jù)的學(xué)習(xí)得到,因此需要結(jié)合業(yè)務(wù)屬性和其它數(shù)據(jù)進(jìn)行有效學(xué)習(xí)。

6、算法失效帶來(lái)的災(zāi)難:AI的應(yīng)用需要明確目標(biāo)和不確定性。工業(yè)化算法的準(zhǔn)確性在85%以上可以用,但是需要考慮不準(zhǔn)確情景的影響。算法很多時(shí)候需要考慮準(zhǔn)確和召回的集合(F-score),而很多場(chǎng)景對(duì)算法的準(zhǔn)確性有更高要求,因此對(duì)算法結(jié)果的評(píng)估將有助于進(jìn)一步完善模型。

提升智能運(yùn)維關(guān)鍵能力

面對(duì)上述算法落地挑戰(zhàn),需要對(duì)運(yùn)維場(chǎng)景進(jìn)行剖析,將學(xué)術(shù)界的算法和業(yè)界的場(chǎng)景有效的融合統(tǒng)一,再通過(guò)業(yè)界的工程實(shí)現(xiàn)能力進(jìn)行有效的組合。對(duì)于每個(gè)場(chǎng)景的實(shí)現(xiàn),都不僅僅是一個(gè)或多個(gè)算法。在智能運(yùn)維的落地的過(guò)程中,一般會(huì)構(gòu)建四個(gè)智能分析能力集合:

●智能告警能力

及時(shí)有效的告警是運(yùn)維的基礎(chǔ)。智能運(yùn)維常常利用異常檢測(cè)來(lái)實(shí)現(xiàn)智能告警,但是異常檢測(cè)主要是找出數(shù)據(jù)的異常,而告警是業(yè)務(wù)驅(qū)動(dòng)的,因此在設(shè)計(jì)告警條件時(shí),需要集合異常檢測(cè)和業(yè)務(wù)的特性進(jìn)行告警。

●智能診斷能力

當(dāng)關(guān)鍵業(yè)務(wù)指標(biāo)發(fā)生異常時(shí),快速給出問(wèn)題的根本原因的能力。在運(yùn)維過(guò)程中,根因很可能是唯一的,不能通過(guò)歷史學(xué)習(xí)的方式構(gòu)建,需要一個(gè)系統(tǒng)性設(shè)計(jì),構(gòu)建完善的運(yùn)維分析庫(kù),通過(guò)有效的學(xué)習(xí)對(duì)故障進(jìn)行快速定位。

●智能預(yù)警能力

通過(guò)基于歷史數(shù)據(jù)的有效學(xué)習(xí),對(duì)未來(lái)可能的故障進(jìn)行有效預(yù)測(cè)是減少損失的重要手段。故障的類型很多,針對(duì)不同類型的預(yù)測(cè)需要不同的算法模型。當(dāng)故障發(fā)生時(shí),配合資源優(yōu)化算法,自動(dòng)化的對(duì)任務(wù)進(jìn)行編排,從而有效、及時(shí)預(yù)測(cè)故障的發(fā)生。

●智能服務(wù)管理能力

智能服務(wù)管理能力將利用人工智能技術(shù),與新一代ITSM進(jìn)行融合。通過(guò)知識(shí)庫(kù)的構(gòu)建,利用文本相似度,對(duì)歷史上發(fā)生的故障工單進(jìn)行匹配,及時(shí)有效的提供故障的解決方案,大大提升了故障的處理效率,結(jié)合自動(dòng)化的工具,快速給出請(qǐng)求回復(fù),減少運(yùn)維人員的時(shí)間浪費(fèi)。

注重算法的魯棒性、自適應(yīng)性、可解釋性、泛化能力等,通過(guò)構(gòu)建專業(yè)運(yùn)維數(shù)據(jù)庫(kù)以及智能分析方面的4個(gè)關(guān)鍵能力,將為企業(yè)智能運(yùn)維體系化建設(shè)提供有力支撐,落地從運(yùn)維的監(jiān)控預(yù)警、告警、診斷分析、事件管理和知識(shí)推薦的全鏈路智能系統(tǒng)。

發(fā)展與展望

從算法到智能,智能運(yùn)維的實(shí)踐之路

隨著AIOps應(yīng)用不斷的深入,智能運(yùn)維將會(huì)在縱向和橫向不斷延伸。橫向上,智能運(yùn)維應(yīng)用場(chǎng)景將會(huì)從ITOM向ITOA、ITSM和ITBM發(fā)展,覆蓋更多的運(yùn)維領(lǐng)域??v向上,隨著運(yùn)維數(shù)據(jù)成熟度以及AI能力的提升,智能運(yùn)維將從機(jī)器學(xué)習(xí)向深度學(xué)習(xí)、增強(qiáng)學(xué)習(xí)甚至向元學(xué)習(xí)能力延伸。這種縱橫能力的覆蓋,將實(shí)現(xiàn)AI對(duì)整個(gè)運(yùn)維場(chǎng)景的可見(jiàn)、可控、可分析、可管理。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )