4月27日消息(樂思)在今日召開的首屆“全球數(shù)據(jù)系統(tǒng)穩(wěn)定性峰會”上,中國信通院云計算與大數(shù)據(jù)研究所所長何寶宏對中國信通院數(shù)據(jù)系統(tǒng)穩(wěn)定性工作體系進行了介紹。
何寶宏稱,中國信通院于2021年啟動穩(wěn)定性相關工作,依托分布式系統(tǒng)穩(wěn)定性實驗室,面向供給側(cè)機構、監(jiān)管機構及應用側(cè)機構,形成面向產(chǎn)品、工具、服務商、系統(tǒng)、災備和保障體系等對象的“STAR”評估體系,助力我國各領域系統(tǒng)穩(wěn)定性保障工作。
系統(tǒng)穩(wěn)定性保障關鍵問題凸出
在2021年全球發(fā)生了多起嚴重的信息系統(tǒng)宕機事件,其中不乏有互聯(lián)網(wǎng)基礎設施、金融核心業(yè)務系統(tǒng)等,這些關鍵系統(tǒng)的宕機事件不僅造成了大量經(jīng)濟損失,也影響了社會的平穩(wěn)運行,同時也給其他系統(tǒng)建設運營者、監(jiān)管機構敲響警鐘,系統(tǒng)的穩(wěn)定性保障成為當前熱點問題。
何寶宏指出,在我國,保障關鍵系統(tǒng)的平穩(wěn)運行受到國家層面高度重視,《關鍵信息基礎設施安全保護條例》自2021年9月1日起正式實施,明確要求關鍵基礎設施的運營者要依照條例和有關法律法規(guī)保障關鍵信息基礎設施的安全穩(wěn)定運行。
隨著數(shù)字技術的更新,信息化系統(tǒng)的重要性突顯,系統(tǒng)穩(wěn)定性面臨著新的挑戰(zhàn)。互聯(lián)網(wǎng)等數(shù)字原生企業(yè)為提升數(shù)字能力、滿足用戶需求,不斷擴大系統(tǒng)規(guī)模,引入敏捷開發(fā)流程,導致信息系統(tǒng)復雜性直線上升,穩(wěn)定性風險點增多,金融、電信等科技密集型行業(yè),系統(tǒng)在線化程度不斷提升,新技術不斷引入,信息系統(tǒng)功能范圍和復雜度不斷升級。而政務、能源等傳統(tǒng)行業(yè)也在政策推動下,將服務模式從原來的5×8的線下模式升級成7×24小時的線上模式,導致系統(tǒng)穩(wěn)定性壓力激增。
何寶宏表示,當前信息系統(tǒng)穩(wěn)定性保障領域在技術、管理等方面都存在不足,比如技術方面隨著新技術新架構應用存在異構軟硬件兼容問題,分布式架構普及集群規(guī)模擴大導致硬件故障更普遍、通信交互更不穩(wěn)定。在管理方面,由于系統(tǒng)涉及的部門機構增多,帶來大量的溝通成本,導致穩(wěn)定性保障鏈路變長,跨團隊協(xié)作更加困難。
中國信通院穩(wěn)步推進相關工作
據(jù)悉,因運營行程卡系統(tǒng),中國信通院在系統(tǒng)保障方面積累了大量的實踐經(jīng)驗,行程卡至今已經(jīng)運行了近2年,累計查詢突破458億次,近期單日查詢量維持在3億次以上,其使用量隨著全國疫情變化波動,成為了疫情防控重要工具。為保障行程卡系統(tǒng)長期平穩(wěn)運行,行程卡團隊實施很多保障穩(wěn)定性的措施:
首先,通過優(yōu)化技術架構,對不同訪問渠道的服務資源進行隔離,將三大運營商的服務通道解耦,實現(xiàn)各渠道及各運營商之間服務互不影響。
其次,對服務器負載均衡、帶寬、數(shù)據(jù)庫等資源進行多次擴容,已滿足不斷增長的訪問請求,目前系統(tǒng)峰值容量較去年已經(jīng)提升10倍以上,并通過周期性壓測隨時確認系統(tǒng)的容量情況。
第三,行程碼建立了備份容災系統(tǒng),開展了多次應急演練,可以隨時進行主備切換。團隊開發(fā)了全鏈路監(jiān)控系統(tǒng),能夠監(jiān)控各環(huán)節(jié)流量變化。為應對流量高峰,團隊建立了突發(fā)情況的限流機制,保障系統(tǒng)不中斷服務。
最后,行程卡還建立健全了運營維護的管理制度,形成了日常運維、重點保障、應急處置三位一體的運維保障體系。
何寶宏表示,基于以上背景,為助力我國各領域數(shù)據(jù)系統(tǒng)穩(wěn)定性提升,中國信通院于2020年啟動穩(wěn)定性相關工作,依托分布式系統(tǒng)穩(wěn)定性實驗室,面向供給側(cè)、監(jiān)管機構、應用側(cè)等三類角色,形成產(chǎn)品穩(wěn)定性、穩(wěn)定性支撐工具、服務商、系統(tǒng)自身、系統(tǒng)災備能力、系統(tǒng)穩(wěn)定性體系等六條工作主線,統(tǒng)一構成了STAR評估系統(tǒng)。
其中,分布式系統(tǒng)穩(wěn)定性實驗室的定位是要打造行業(yè)平臺,匯聚系統(tǒng)穩(wěn)定性相關方的智慧,共同定義、梳理、研究、推廣系統(tǒng)穩(wěn)定性相關工作和成果。由中國信通院牽頭,自2021年4月成立以來,目前共計50余家成員單位,并且已組建包括23位技術專家的專家團,形成強大的研究和服務能力。實驗室通過定期舉辦技術沙龍,集中編制穩(wěn)定性相關標準和、研究報告和實踐指南等方式,持續(xù)推動穩(wěn)定性各項工作。
詳解STAR評估六條主線
在會上,何寶宏詳細介紹了STAR評估體系的六條主線工作。其中,STAR-A為穩(wěn)定性保障體系評估,STAR-R為系統(tǒng)災備能力評估,STAR-S為系統(tǒng)壓測/撥測服務,STAR-E為服務商能力評估,STAR-T為穩(wěn)定性保障工具測評,STAR-P為軟件產(chǎn)品穩(wěn)定性測試。STAR評估體系完整涵蓋數(shù)據(jù)系統(tǒng)穩(wěn)定性相關工作中涉及的各類對象,可以全方位衡量各環(huán)節(jié)的相關能力。
1、STAR-A,穩(wěn)定性保障體系評估。當前系統(tǒng)技術迭代快,架構復雜,理論上來說,“沒有絕對穩(wěn)定的系統(tǒng),只有相對完善的保障體系”。由此,本部分工作主要是針對如何通過各類保障手段,最大限度確保系統(tǒng)穩(wěn)定性。因此,信通院聯(lián)合行業(yè)力量共同編制了一套評估體系——《分布式系統(tǒng)穩(wěn)定性保障能力分級要求》,以及兩本實踐方法論——《混沌工程實踐指南》和《系統(tǒng)穩(wěn)定性保障能力建設指南1.0》。同時,依據(jù)評估標準,開展首批數(shù)據(jù)系統(tǒng)穩(wěn)定性保障能力評估,首批共有12個信息系統(tǒng)通過。
2、STAR-R,系統(tǒng)災備能力評估。數(shù)據(jù)系統(tǒng)出現(xiàn)故障是不可避免的,災備系統(tǒng)能夠在數(shù)據(jù)盡量少丟失的情況下,保持業(yè)務系統(tǒng)盡快恢復甚至不間斷運行,是現(xiàn)代數(shù)據(jù)系統(tǒng)不可或缺的基礎設施。為衡量數(shù)據(jù)系統(tǒng)災備能力,中國信通院聯(lián)合行業(yè)編制了《數(shù)據(jù)系統(tǒng)災備能力成熟度模型》,從五大能力域、30個能力項全方位衡量系統(tǒng)的災備能力。標準的發(fā)布,一方面可以為應用方建設災備系統(tǒng)提供參考,另一方面,也可以評估已經(jīng)建成災備系統(tǒng)的實際能力。
3、STAR-S,向數(shù)據(jù)系統(tǒng)提供壓測/撥測服務。系統(tǒng)穩(wěn)定性的真實情況一定要通過合理的測試和持續(xù)的監(jiān)測才能獲得,因此,圍繞如何衡量系統(tǒng)實際的穩(wěn)定性狀況,中國信通院同相關的專業(yè)技術公司合作,開展面向各類系統(tǒng)的壓測/撥測服務。
系統(tǒng)實踐承載能力只有通過全鏈路壓測才能準確獲得,壓測結(jié)果是運營方預估系統(tǒng)容量、儲備額外資源、實施應急舉措的重要參考依據(jù)。針對各類系統(tǒng)聯(lián)合專業(yè)技術公司提供第三方全鏈路壓測服務,此外,針對小程序聯(lián)合支付寶和微信推出小程序端到端全鏈路壓測服務,準確衡量系統(tǒng)容量。同時,系統(tǒng)實際運行狀況需要持續(xù)不斷的監(jiān)測才能夠加以確認,相對人工觀察,通過技術手段更能提升監(jiān)測的及時性、準確性。信通院聯(lián)合專業(yè)技術公司,通過模擬真實用戶訪問形式,為數(shù)據(jù)系統(tǒng)提供撥測服務。
4、STAR-E,提供穩(wěn)定性保障的服務商能力評估。隨著穩(wěn)定性工作重要性的提升,業(yè)內(nèi)已經(jīng)涌現(xiàn)出眾多專業(yè)提供穩(wěn)定性保障服務的企業(yè),在這一方面,當前中國信通院正在研制《系統(tǒng)穩(wěn)定性保障服務商能力分級要求》,對服務過程、人員、技術工具等進行規(guī)范,也將依托該標準對產(chǎn)業(yè)內(nèi)提供穩(wěn)定性保障服務的服務商進行評估,引導行業(yè)規(guī)范化發(fā)展。
5、STAR-T,穩(wěn)定性保障工具測試。系統(tǒng)穩(wěn)定性提升離不開專業(yè)技術工具支撐,工具好壞顯著影響著系統(tǒng)穩(wěn)定性的保障能力。當前,中國信通院已完成《系統(tǒng)穩(wěn)定性保障平臺能力要求》這一標準,對支撐系統(tǒng)穩(wěn)定性工作的各類平臺工具應具備的能力進行了全方位梳理,并形成階梯化分級要求,后續(xù)將繼續(xù)完善各類支撐工具標準的研制,并開展相應評測工作。
6、STAR-P,數(shù)據(jù)產(chǎn)品穩(wěn)定性測試工作。各類數(shù)據(jù)產(chǎn)品尤其是分布式軟件已成為各行業(yè)數(shù)據(jù)系統(tǒng)的重要組成部分,其自身的穩(wěn)定性是系統(tǒng)整體穩(wěn)定性的重要前提。因此,中國信通院開展了面向數(shù)據(jù)產(chǎn)品自身穩(wěn)定性的測試。為了能夠?qū)Ω黝悢?shù)據(jù)產(chǎn)品進行標準化穩(wěn)定性測試,中國信通院基于Ansible和ChaosBlade自主研發(fā)了Databench-C分布式混沌測試平臺,通過Databench-C可以對被測產(chǎn)品進行穩(wěn)態(tài)確定、擾動注入、差異對比等操作。可注入的故障及擾動類別包括計算、存儲、網(wǎng)絡、線程等方面的高負載或者故障現(xiàn)象。最終通過被測產(chǎn)品在實施加擾時的功能是否正常、性能下降程度,以及擾動移除后的系統(tǒng)恢復程度,來衡量其穩(wěn)定性能力。
基于Databench-C,截止目前已完成兩批次4類數(shù)據(jù)產(chǎn)品的穩(wěn)定性測試,以下是通過測試的參測企業(yè)和對應的被測產(chǎn)品。通過測試的結(jié)果可以觀察到,當前數(shù)據(jù)類產(chǎn)品多采用分布式架構,網(wǎng)絡擾動帶來的性能影響明顯大于計算、存儲等對資源的擾動。
何寶宏表示,STAR評估體系將沿各方向持續(xù)推進,產(chǎn)出更多標準和研究報告,落地更多評測評估,持續(xù)擴大服務行業(yè)的能力。
據(jù)何寶宏透露,未來,分布式系統(tǒng)穩(wěn)定性實驗室將從以下幾個方面開展工作:一是按照主題設立工作組,聚焦重點方向開展工作。二是啟動人才培養(yǎng)計劃,聯(lián)合實驗室專家團、外部專業(yè)技術企業(yè),共同開展專題技術培訓。三是開啟全國巡演,持續(xù)在更多地區(qū)舉辦活動,為行業(yè)提供更全面、更具規(guī)模的行業(yè)交流平臺。
- 蜜度索驥:以跨模態(tài)檢索技術助力“企宣”向上生長
- 國家發(fā)改委成立低空經(jīng)濟發(fā)展司
- 什么是人工智能網(wǎng)絡? | 智能百科
- 工信部:2025年推進工業(yè)5G獨立專網(wǎng)建設
- 人工智能如何改變?nèi)蛑悄苁謾C市場
- 企業(yè)網(wǎng)絡安全挑戰(zhàn)頻出?Fortinet 給出破解之法
- 2025年生成式人工智能將如何影響眾行業(yè)
- 報告:人工智能推動數(shù)據(jù)中心系統(tǒng)支出激增25%
- 千家早報|馬斯克預測:人工智能或?qū)⒊絾蝹€人類;鴻蒙生態(tài)(武漢)創(chuàng)新中心啟用,推動鴻蒙軟硬件在武漢首試首用——2024年12月27日
- 中移建設被拉入軍采“黑名單”
- 大理移動因違規(guī)套現(xiàn)等問題,擬被列入軍采失信名單
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。