前言:作者詮釋了智能化運(yùn)維是一種全新的數(shù)字化能力,是企業(yè)數(shù)字化轉(zhuǎn)型的必備能力,以及如何擁有這種能力。
作者:楊辰
上海擎創(chuàng)信息技術(shù)有限公司CEO、中治研(北京)國際信息技術(shù)研究院特約高級研究員,曾在BMC、HP等國際科技企業(yè)擔(dān)任技術(shù)、產(chǎn)品要職,擁有20多年信息系統(tǒng)運(yùn)維管理和專家服務(wù)經(jīng)驗。專注在智能運(yùn)維數(shù)據(jù)治理和模型、產(chǎn)品研發(fā)。
一、為什么數(shù)字化轉(zhuǎn)型中企業(yè)必須具備智能運(yùn)維能力
數(shù)字化轉(zhuǎn)型是當(dāng)前每一家企業(yè)都必須面對的挑戰(zhàn)和機(jī)遇,猶如滾滾洪流,奔流向前,如果沒有能夠抓住時機(jī)進(jìn)行數(shù)字化轉(zhuǎn)型,那可能只會失去競爭力而黯然離開歷史舞臺。
對于很多企業(yè)來說,數(shù)字化轉(zhuǎn)型等同于一種生命力的重塑,因為它能夠幫助企業(yè)建構(gòu)一套以客戶為中心的系統(tǒng),通過重塑企業(yè)中人員、流程和數(shù)據(jù)的協(xié)同模式,能夠為客戶創(chuàng)造更大價值,提升企業(yè)在數(shù)字時代的競爭力。以金融服務(wù)行業(yè)為例,根據(jù)IDC分析報告,F(xiàn)inTech在金融行業(yè)的應(yīng)用正逐步呈現(xiàn)出金融服務(wù)場景化、平臺化、智能化的發(fā)展趨勢,以云計算和大數(shù)據(jù)為首的科技發(fā)展推動著金融行業(yè)的業(yè)務(wù)場景創(chuàng)新與技術(shù)應(yīng)用創(chuàng)新,而核心目標(biāo)就是“以客戶為中心”。
著名科技趨勢分析組織Gartner將數(shù)字化轉(zhuǎn)型細(xì)分為信息數(shù)字化、業(yè)務(wù)數(shù)字化兩個方面。在企業(yè)的業(yè)務(wù)流程中,對于已經(jīng)由信息技術(shù)支撐的業(yè)務(wù)品種來說,信息數(shù)字化即通過相應(yīng)的技術(shù)令其過程數(shù)據(jù)得以留存,并利用其提升及優(yōu)化業(yè)務(wù)運(yùn)行效率;而對于不具備信息技術(shù)支撐的業(yè)務(wù)品種,就需要通過新技術(shù)的運(yùn)用構(gòu)建相應(yīng)的數(shù)字化業(yè)務(wù)。無論是信息數(shù)字化,還是業(yè)務(wù)數(shù)字化,在其背后都會涌現(xiàn)日益復(fù)雜的業(yè)務(wù)系統(tǒng)、基礎(chǔ)架構(gòu)和日益增長的運(yùn)維數(shù)據(jù),這對于企業(yè)運(yùn)維而言,都是非常巨大的挑戰(zhàn)。
在傳統(tǒng)運(yùn)維方式下,工具眾多但各自為政、數(shù)據(jù)處理和實時分析能力薄弱且依賴于經(jīng)驗和規(guī)則,導(dǎo)致故障的根因定位十分困難,解決問題效率非常低下,運(yùn)維的實用性就大打折扣。因此必須借助一定的手段和方式,如對客戶的IT運(yùn)維數(shù)據(jù)實現(xiàn)全量的集中化管理,實現(xiàn)數(shù)據(jù)實時處理、智能分析和預(yù)測,進(jìn)行多維度高效根因定位。
而這些都是智能運(yùn)維AIOps所具備的。智能運(yùn)維是一種全新的數(shù)字化運(yùn)維能力,也將是數(shù)字化轉(zhuǎn)型的必備能力。智能運(yùn)維相對于傳統(tǒng)運(yùn)維模式而言,能夠在四個方面有本質(zhì)的效能提升:
• 運(yùn)維數(shù)據(jù)治理。通過高性能實時處理的數(shù)據(jù)平臺廣泛采集、處理和分析數(shù)字化業(yè)務(wù)運(yùn)行過程中的多樣化運(yùn)維數(shù)據(jù),包括告警、指標(biāo)、日志、配置以及運(yùn)維工單等類別,不僅提升了運(yùn)維大數(shù)據(jù)的治理能力,優(yōu)化了數(shù)據(jù)質(zhì)量,而且為進(jìn)一步激活運(yùn)維數(shù)據(jù)的價值打下了良好基礎(chǔ);
• 業(yè)務(wù)數(shù)字化風(fēng)險。使運(yùn)維人員不僅提升了歷史運(yùn)維數(shù)據(jù)的分析能力并且能夠?qū)崟r數(shù)據(jù)進(jìn)行異常檢測和問題預(yù)判,有效降低數(shù)字化業(yè)務(wù)的運(yùn)行風(fēng)險,提升可用性、穩(wěn)定性;
• 運(yùn)維人力成本。使真正意義上的跨域根因定位成為可能,降低對專業(yè)運(yùn)維人員經(jīng)驗技能的依賴,迅速縮短故障排查時間并有效降低人力成本;
• 業(yè)務(wù)側(cè)影響力。以業(yè)務(wù)視角利用多元化數(shù)據(jù)提高運(yùn)營分析和決策能力,比如端到端的分析業(yè)務(wù)交易狀態(tài),提供給業(yè)務(wù)、客服部門及時反饋和決策支持依據(jù),充分增強(qiáng)業(yè)務(wù)影響力;
二、智能運(yùn)維能力建設(shè)的五大困惑
數(shù)字化轉(zhuǎn)型勢在必行,而智能運(yùn)維模式顯然優(yōu)勢諸多,因此其能力建設(shè)是大部分傳統(tǒng)運(yùn)維人必須要思考的事務(wù)。但因為智能運(yùn)維畢竟還是最近幾年出現(xiàn)的新興事物,在企業(yè)建設(shè)智能運(yùn)維能力的過程中,許多企業(yè)勢必會面臨著方方面面的挑戰(zhàn)和困惑。下面來我們來談一談幾種典型的困惑。
困惑一:智能運(yùn)維=機(jī)器學(xué)習(xí)算法?
在一些人看來,智能運(yùn)維就是智能算法加上傳統(tǒng)運(yùn)維,只需加入機(jī)器學(xué)習(xí)算法即可,與傳統(tǒng)運(yùn)維唯一的區(qū)別就是算法的有無。究竟是否如此?我們借鑒一個成熟市場的例子來看這個困惑的答案。Google開源的安卓系統(tǒng)現(xiàn)在已經(jīng)成為大多數(shù)安卓平臺手機(jī)的系統(tǒng)標(biāo)準(zhǔn),市場上這樣的手機(jī)有數(shù)百個品牌,幾十億部之多,如果說軟件代碼的本質(zhì)就是算法,那么這幾百個品牌手機(jī)的核心算法都是安卓。但是若在圖中的三款手機(jī)中選擇,不考慮價格的情況下,相信很多人一定會選擇體驗更好的小米或者華為手機(jī),而不會考慮邊上的雜牌機(jī)。
既然都是安卓系統(tǒng),為什么會出現(xiàn)這種情況?原因在于算法(源代碼、操作系統(tǒng))對于一個產(chǎn)品而言雖說重要但并非全部,它僅是一款優(yōu)秀產(chǎn)品的基礎(chǔ),決定產(chǎn)品優(yōu)秀與否還有其他關(guān)鍵因素。這就如同合適的機(jī)器學(xué)習(xí)算法之于智能運(yùn)維,它只是一個基礎(chǔ),并不意味著全部。智能運(yùn)維還需要貼合用戶需求的算法建模、功能設(shè)計和工程化落地能力,這才是產(chǎn)品用戶體驗的關(guān)鍵因素。在智能運(yùn)維建設(shè)中普遍存在三個挑戰(zhàn),都需要考慮除算法之外的數(shù)據(jù)平臺能力:
挑戰(zhàn)一,任何算法若生產(chǎn)可用必須要經(jīng)過數(shù)據(jù)訓(xùn)練和建模,在過程中數(shù)據(jù)質(zhì)量、參數(shù)調(diào)整和結(jié)果的分析比對的便利性都很重要,在運(yùn)維過程中也會有許多情況需要對既有模型做優(yōu)化調(diào)整,這就必須要構(gòu)建數(shù)據(jù)平臺和機(jī)器學(xué)習(xí)平臺的能力,否則無法使算法產(chǎn)生生產(chǎn)效能;
挑戰(zhàn)二,功能設(shè)計必須場景化,實用化,并考慮和既有運(yùn)維手段的銜接,否則算法也無用武之力;
挑戰(zhàn)三,智能運(yùn)維能力所需的數(shù)據(jù)平臺工程化水平門檻很高,包括大規(guī)模流式數(shù)據(jù)處理能力,算法的分布式運(yùn)算和遷移學(xué)習(xí)等,都不是傳統(tǒng)運(yùn)維工具所具備的數(shù)據(jù)能力,無法直接疊加。
困惑二:運(yùn)維成熟度不高不敢考慮智能運(yùn)維?
在傳統(tǒng)運(yùn)維向智能化轉(zhuǎn)型的過程中,可以從兩個維度來設(shè)計其演進(jìn)的路線。橫向看是數(shù)據(jù)類別維度,運(yùn)維數(shù)據(jù)主要分為告警、指標(biāo)和日志三類,日志的量最大。這三類數(shù)據(jù)占到運(yùn)維數(shù)據(jù)的80%以上,其他運(yùn)維數(shù)據(jù)如配置關(guān)系、工單和業(yè)務(wù)數(shù)據(jù)等,也有一定的參考價值。 而從縱向來看,則是對數(shù)據(jù)處理和分析的能力維度,智能運(yùn)維的本質(zhì)就是逐步提升對運(yùn)維數(shù)據(jù)的分析處理能力。
因此要談到最佳實踐,對于運(yùn)維成熟度度高的的企業(yè),可以按照數(shù)據(jù)處理能力的維度,統(tǒng)一規(guī)劃、分層實施,實現(xiàn)從運(yùn)維數(shù)據(jù)局部集中到跨域集中,也就是先建立運(yùn)維大數(shù)據(jù)平臺,通過加強(qiáng)數(shù)據(jù)治理、優(yōu)化數(shù)據(jù)質(zhì)量,而后再過渡到基于算法的統(tǒng)計分析乃至流式實時處理,構(gòu)建多樣化智能運(yùn)維場景,逐層實現(xiàn)智能運(yùn)維能力建設(shè)。但這種方式并非放之四海而皆準(zhǔn),對于成熟度不高的企業(yè),迫切需要解決的是實際運(yùn)維問題,而智能運(yùn)維這時應(yīng)該能成為解決實際問題的工具,它可以根據(jù)客戶當(dāng)前的運(yùn)維成熟度選擇具體應(yīng)用場景,按照不同的路線圖進(jìn)行建設(shè),這才是智能運(yùn)維的應(yīng)有的能力。
例如一家城市商業(yè)銀行,它目前最大的問題可能只是監(jiān)控效能低下,誤報漏報多,我們可以先從集中告警入手,利用算法去重降噪,再查看相關(guān)告警之間的有效告警場景,篩選出最可能影響業(yè)務(wù)問題的告警。在提高告警處理效率后,再通過分析告警的源頭,進(jìn)一步解決監(jiān)控指標(biāo)靜態(tài)閾值設(shè)定不準(zhǔn)確的問題,用智能異常檢測替代之,從而根本上提升監(jiān)控效能。這就是場景化方式導(dǎo)入智能運(yùn)維的方法。
困惑三:已經(jīng)建設(shè)了大數(shù)據(jù)平臺還需要建設(shè)專門的運(yùn)維大數(shù)據(jù)平臺嗎?
智能運(yùn)維能力依賴于運(yùn)維數(shù)據(jù)的處理分析能力,因此運(yùn)維大數(shù)據(jù)平臺的建立和通過數(shù)據(jù)治理提高數(shù)據(jù)質(zhì)量非常重要,它是構(gòu)建相應(yīng)的智能運(yùn)維場景的基礎(chǔ)。運(yùn)維數(shù)據(jù)的處理分析由于有其特殊的要求,不僅僅是數(shù)據(jù)規(guī)模大,而且數(shù)據(jù)處理的時效性要求極高,這是因為許多運(yùn)維數(shù)據(jù)需要在高速流引擎中進(jìn)行復(fù)雜的聚合、計算、判斷比較等操作以滿足機(jī)器學(xué)習(xí)算法要求,這也是運(yùn)維工作場景的特色,那就是必須“快”,否則一旦故障發(fā)生久了,一切就都失去了分析意義。
而傳統(tǒng)為業(yè)務(wù)構(gòu)建的大數(shù)據(jù)平臺,主要用于存儲和分析數(shù)據(jù),這種分析往往是離線數(shù)據(jù)的歷史分析,對時效性要求不高,因此不具備支撐智能運(yùn)維的能力。
因此運(yùn)維大數(shù)據(jù)應(yīng)該考慮獨(dú)立建設(shè),但可以將基于HDFS的Hadoop架構(gòu)大數(shù)據(jù)平臺作為歸檔的數(shù)據(jù)平臺,比如運(yùn)維數(shù)據(jù)里應(yīng)該根據(jù)分析效能分類為冷、溫、熱數(shù)據(jù),其中具備長期檢索價值但沒有短期分析意義的冷數(shù)據(jù),可以歸檔到Hadoop集群中,這就要求運(yùn)維數(shù)據(jù)平臺的架構(gòu)設(shè)計要考慮其開放性。
困惑四:建設(shè)智能運(yùn)維必須先完成運(yùn)維自動化建設(shè)?
#FormatImgID_4#
自動化的基礎(chǔ)是既有運(yùn)維事務(wù)的標(biāo)準(zhǔn)化,即按照一種標(biāo)準(zhǔn)程序批量執(zhí)行作業(yè),相當(dāng)于圖中的機(jī)械手,而智能運(yùn)維是一種判斷決策能力,它是根據(jù)對情況判斷決策用哪種機(jī)械手來操作,即便沒有機(jī)械手也并不意味著可以不做決策,二者并無依賴關(guān)系。
在運(yùn)維智能化過程中可以不斷發(fā)現(xiàn)新的規(guī)律性場景,因而可以持續(xù)做標(biāo)準(zhǔn)化和進(jìn)一步的自動化處理,而在DevOps建設(shè)中也可以融入智能化的處理能力,比如對日志異常的實時分析診斷以及對于平臺和容器指標(biāo)的實時異常檢測和根因分析,對于之后的迭代調(diào)參會十分方便。
根據(jù)著名心理學(xué)家丹尼爾康納曼的著作《快思慢想》,人類其實具備一套偉大的運(yùn)維管理機(jī)制,分為理性思考和直覺思考兩個系統(tǒng),而實際運(yùn)行中,人類會不斷通過理性思考過程,把能梳理成標(biāo)準(zhǔn)化的結(jié)果變成直覺系統(tǒng)可以直接運(yùn)行的標(biāo)準(zhǔn)操作,一旦觸發(fā)相關(guān)條件就立即執(zhí)行相應(yīng)的操作并可以不斷優(yōu)化。比如初學(xué)開車司機(jī)必須全身貫注,根據(jù)情況做出判斷,而且反應(yīng)很慢,但熟練的司機(jī)則可以隨時迅速判斷做出正確動作。實際上企業(yè)運(yùn)維的成熟度目標(biāo)與此十分相似,就是要不斷將“慢想”的流程逐步轉(zhuǎn)變?yōu)?ldquo;快思”,這就是智能運(yùn)維和自動化運(yùn)維的關(guān)系。
困惑五:智能運(yùn)維=日志大數(shù)據(jù)分析?
日志是運(yùn)維數(shù)據(jù)中很重要的一類,數(shù)量占比很大,是智能運(yùn)維中應(yīng)該分析處理的重要數(shù)據(jù)源之一,但是日志大數(shù)據(jù)分析并不等同于智能運(yùn)維。傳統(tǒng)日志的處理偏向事后分析,智能運(yùn)維對日志的處理增加了事中監(jiān)控乃至事前預(yù)判能力,這是日志分析所不具備的能力。
傳統(tǒng)運(yùn)維考慮的日志分析工具,都是偏向于事后分析,即事先必須了解日志結(jié)構(gòu),再進(jìn)行相應(yīng)操作把價值信息提煉出來。而智能運(yùn)維則是提升了它這種能力,它能夠通過算法識別日志的語義結(jié)構(gòu),優(yōu)化日志結(jié)構(gòu)化的方式,提升事后分析的能力,更重要的是還能在日志產(chǎn)生的過程中對其進(jìn)行指標(biāo)化的監(jiān)控,并且在事前發(fā)現(xiàn)出現(xiàn)異常模式的日志,從而進(jìn)行故障預(yù)判,這對于日志分析來說是一個質(zhì)的飛躍。
智能運(yùn)維考慮的是不同類別數(shù)據(jù)如指標(biāo)、告警和日志等數(shù)據(jù)的相關(guān)關(guān)系和聯(lián)動關(guān)系,并不僅僅考慮像日志這一種單獨(dú)門類的數(shù)據(jù),日志分析僅是智能運(yùn)維所具備能力的一種而已。比如在具體運(yùn)維過程中,往往需要綜合利用告警、指標(biāo)和日志間的相關(guān)關(guān)系來尋找問題根源,這就需要打通日志與其它數(shù)據(jù)的關(guān)系。
三、如何開啟智能運(yùn)維之旅的三點(diǎn)建議
綜上所述,結(jié)合自身運(yùn)維成熟度和具體運(yùn)維挑戰(zhàn)有序開啟智能運(yùn)維能力建設(shè)才是硬道理,在起航前,有三個建議可以分享:
首先,起步得穩(wěn)。充分評估當(dāng)前運(yùn)維手段的實際情況和具體痛點(diǎn),找到較快就能和既有運(yùn)維手段相融的方案,一定要考慮數(shù)據(jù)平臺建設(shè)的必須能力和開放性,不要引入多個數(shù)據(jù)孤島。
第二,目標(biāo)要準(zhǔn)。不要企圖一次性解決所有問題,要聚焦解決有選擇性的具體目標(biāo),對目標(biāo)的達(dá)成要有持續(xù)改進(jìn)計劃,要盯住不放,直到出效果為止。這里要考慮智能運(yùn)維平臺是否有反饋和迭代學(xué)習(xí)的機(jī)制,因為持續(xù)改進(jìn)往往依賴機(jī)器學(xué)習(xí)和人工經(jīng)驗的融合,達(dá)到目標(biāo)不是一蹴而就的。
最后,思謀當(dāng)遠(yuǎn)。一定要有階段路標(biāo)和走向運(yùn)維全面數(shù)據(jù)化和智能化的規(guī)劃路線圖,謀定而后動,要充分考慮引入智能運(yùn)維方案后過渡期中人員角色和職能甚至流程的變化,任何新技術(shù)手段的引入都是人員、流程、工具三者的有機(jī)結(jié)合。
寄語
智能運(yùn)維發(fā)展正如火如荼,Gartner預(yù)見其為下一代運(yùn)維,認(rèn)為到2022年將有近50%的企業(yè)用戶部署智能運(yùn)維。雖然目前不少企業(yè)已經(jīng)在積極投入建設(shè),也還有一些企業(yè)處在迷茫階段,對這種趨勢不太清晰,借用著名作家威廉吉布森的話,“未來已來,只是分布不均。”
其實我們從手機(jī)的發(fā)展史中便可窺見一二,如圖所示,從1998年Nokia5110到2007年初代iPhone(智能手機(jī))的出現(xiàn),再到目前最新款的手機(jī),其實就是一個新技術(shù)賦能的過程,一開始我們驚喜的稱呼iPhone為“智能手機(jī)”,而今天再沒有人叫它“智能手機(jī)”因為這就是手機(jī)該有的樣子。所以運(yùn)維也是如此,在企業(yè)數(shù)字化轉(zhuǎn)型大潮中,“智能”是運(yùn)維本該有的樣子。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 為什么年輕人不愛換手機(jī)了
- 柔宇科技未履行金額近億元被曝已6個月發(fā)不出工資
- 柔宇科技被曝已6個月發(fā)不出工資 公司回應(yīng)欠薪有補(bǔ)償方案
- 第六座“綠動未來”環(huán)保公益圖書館落地貴州山區(qū)小學(xué)
- 窺見“新紀(jì)元”,2021元宇宙產(chǎn)業(yè)發(fā)展高峰論壇“廣州啟幕”
- 以人為本,景悅科技解讀智慧城市發(fā)展新理念
- 紐迪瑞科技/NDT賦能黑鯊4 Pro游戲手機(jī)打造全新一代屏幕壓感
- 清潔家電新老玩家市場定位清晰,攜手共進(jìn),核心技術(shù)決定未來
- 新思科技與芯耀輝在IP產(chǎn)品領(lǐng)域達(dá)成戰(zhàn)略合作伙伴關(guān)系
- 芯耀輝加速全球化部署,任命原Intel高管出任全球總裁
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。