智能運維場景解析:高性能智能日志分析平臺需求與建設

數(shù)據(jù)是數(shù)字化轉(zhuǎn)型的基礎,缺少數(shù)據(jù)支撐的數(shù)字化藍圖如空中樓閣,難以經(jīng)受市場的考驗。無論是從信息化向數(shù)字化邁進的傳統(tǒng)企業(yè),還是IT成熟度較高的新興行業(yè),日志數(shù)據(jù)都是不可或缺的信息來源,其重要程度不亞于IT監(jiān)控數(shù)據(jù)和APM性能數(shù)據(jù)。而搭建高性能日志分析平臺,也是IT部門確保數(shù)字業(yè)務高效運轉(zhuǎn)的重要手段。

日志數(shù)據(jù)中記錄了豐富的信息,為問題定位和故障預測提供詳細的數(shù)據(jù),在運維中發(fā)揮著重要的作用。通過對日志進行分析,運維人員能夠了解服務器、軟硬件、用戶行為等詳細信息,從而快速發(fā)現(xiàn)故障原因及時告警或者對未發(fā)生的故障進行預警,提升運維的效率。

目前,企業(yè)日志數(shù)據(jù)的應用普遍面臨著統(tǒng)一管理、海量日志數(shù)據(jù)處理、安全合規(guī)、數(shù)據(jù)價值挖掘等挑戰(zhàn):

·日志統(tǒng)一管理:業(yè)務系統(tǒng)多、數(shù)據(jù)離散、日志種類多、字段定義未標準化,無法統(tǒng)一管理;同時日志分散不方便查看、日志搜索操作復雜且效率低。

·海量日志數(shù)據(jù)處理:在每天TB級以上的數(shù)據(jù)增量下,傳統(tǒng)解決方案的擴展性和穩(wěn)定性無法保證。

·安全合規(guī):對運維人員的違規(guī)操作、系統(tǒng)運行異常、設備故障等安全事件缺乏監(jiān)控能力。

·日志數(shù)據(jù)的價值挖掘:日志數(shù)據(jù)中蘊含大量有價值內(nèi)容,對數(shù)據(jù)價值利用不足,僅停留在被動排障階段,無法對業(yè)務和IT主動感知,業(yè)務異常無法及時發(fā)現(xiàn)。

以云智慧服務的某國內(nèi)500強企業(yè)為例,該企業(yè)承擔著產(chǎn)業(yè)鏈上下游數(shù)百家企業(yè)海量電子信息的實時匯聚和處理,每天新生成日志數(shù)據(jù)達到數(shù)十TB,而且分布式交易系統(tǒng)調(diào)用關系復雜,如何快速解析檢索日志、審計追溯交易、快速定位故障、及時發(fā)現(xiàn)安全隱患都是該企業(yè)IT部門亟需解決的難題。

智能運維場景解析:高性能智能日志分析平臺需求與建設

依托自研的DOLA產(chǎn)品,云智慧為該企業(yè)搭建了高性能智能日志分析平臺,其日志處理能力達到以下性能指標:

·支持5萬/秒并發(fā)數(shù)據(jù)實時分析處理,數(shù)據(jù)傳輸和平臺解析處理吞吐量:540MB/s,處理延時在300毫秒以內(nèi);

·秒級查詢?nèi)?4小時的實時日志數(shù)據(jù),實時日志搜索耗時<1s; 7日內(nèi)數(shù)據(jù)積累的基礎上的響應延時<30s;

·單點客戶端平均傳輸速度> 1萬 EPS(Event per second);

·采用高性能的分布式列式存儲數(shù)據(jù)庫,服務器數(shù)據(jù)生成能力在100MB/s以上,且數(shù)據(jù)完整性100%;

·擴展性:支持線性擴容,可視化配置/啟停處理節(jié)點,每秒處理數(shù)據(jù)量支持線性增加;

·可插拔:所有采集器均采用可插拔設計,且所有解析器均支持二次開發(fā)擴展;

DOLA,即Digital Operation Log Analytics,是云智慧的數(shù)字化運維日志分析產(chǎn)品。DOLA產(chǎn)品基于大數(shù)據(jù)技術與智能算法,能夠?qū)崿F(xiàn)離散日志數(shù)據(jù)的統(tǒng)一采集、處理、檢索、模式識別以及可視化分析,可應用于統(tǒng)一的日志管理、基于日志的運維監(jiān)控與分析、安全審計與合規(guī)、各種業(yè)務分析等運維場景。

自主研發(fā)的DOLA日志采集器以及Filebeat、 Logstash等多種開源日志采集器,能夠?qū)碜跃W(wǎng)絡設備、安全設備、操作系統(tǒng)、數(shù)據(jù)庫、中間件、業(yè)務系統(tǒng)的離散的日志數(shù)據(jù)進行全面、有效、集中的采集,適配多種數(shù)據(jù)庫,操作簡便,幫助客戶減少日志采集的時間與人力成本。

云智慧DOLA產(chǎn)品廣泛適用于以下應用場景:

·統(tǒng)一日志管理:企業(yè)日志具有跨平臺、種類繁多、數(shù)據(jù)量大等特點,為了解決日志分散不方便查看、日志搜索操作復雜效率低下、日志利用率低、無法幫助運維人員進行問題分析與定位,需要對日志進行統(tǒng)一的管理。DOLA能夠提供一站式的統(tǒng)一日志管理服務,實現(xiàn)離散日志的統(tǒng)一采集、處理、存儲、歸檔以及查詢,降低運維人員查找日志的成本,避免?為登錄服務器誤操作引發(fā)的生產(chǎn)故障。

·基于日志的調(diào)用鏈跟蹤:調(diào)用鏈中包含了從源頭請求(比如前端網(wǎng)頁請求、無線客戶端請求等)到底層系統(tǒng)(比如數(shù)據(jù)庫、分布式緩存等)的所有中間環(huán)節(jié),DOLA能夠?qū)崿F(xiàn)無侵入式的數(shù)據(jù)收集,幫助運維人員快速分析系統(tǒng)性能消耗的原因、定位異常并解決問題。

·基于日志模式的異常識別:企業(yè)日志種類繁多、數(shù)量巨大、產(chǎn)生速度快,如何快速從海量日志中獲取信息進行異常定位是日志分析中的一大痛點。DOLA基于日志模式對異常進行識別,能夠幫助運維人員快速找出自己關心的日志類型,或者發(fā)現(xiàn)異常日志,發(fā)出告警,縮短問題發(fā)現(xiàn)的時間。

·指標的異常檢測:很多業(yè)務指標的數(shù)據(jù)具有周期性和季節(jié)性,傳統(tǒng)的通過人工設置固定閾值的告警方式,不僅費時費力,且嚴重依賴運維人員的經(jīng)驗,容易產(chǎn)生誤報以及漏報。DOLA通過動態(tài)基線算法對日志中的指標數(shù)據(jù)進行智能異常檢測,直接識別異常的業(yè)務系統(tǒng)或者IT系統(tǒng),能夠大幅度減少人工閾值的配置工作,提升告警的準確率。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

2019-11-26
智能運維場景解析:高性能智能日志分析平臺需求與建設
數(shù)據(jù)是數(shù)字化轉(zhuǎn)型的基礎,缺少數(shù)據(jù)支撐的數(shù)字化藍圖如空中樓閣,難以經(jīng)受市場的考驗。

長按掃碼 閱讀全文