隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,系統(tǒng)架構(gòu)因此也不斷的演進(jìn)、升級、迭代。從單一應(yīng)用,到垂直拆分,到分布式服務(wù),到SOA,以及現(xiàn)在火熱的微服務(wù)架構(gòu),系統(tǒng)擴(kuò)展性和開發(fā)效率大幅提高。但同時,由于系統(tǒng)自身復(fù)雜度的激增,傳統(tǒng)的測試方法已經(jīng)不能全面理解和覆蓋系統(tǒng)所有可能的行為,測試的有效性也大打折扣,加之開發(fā)者在引入復(fù)雜性的同時對風(fēng)險的低估和忽視,成為目前系統(tǒng)可用性面臨的兩大挑戰(zhàn)。
2008年8月,某廠商由于單點(diǎn)系統(tǒng)架構(gòu)故障,導(dǎo)致了三天宕機(jī),在此期間無法觀看任何視頻。隨后該廠商開始將服務(wù)從數(shù)據(jù)中心遷移到云上,之后就開始嘗試在生產(chǎn)環(huán)境中開展一些系統(tǒng)彈性的測試。
隨著Chaos Monkey的出現(xiàn),混沌工程原理應(yīng)運(yùn)而生,它被描述為“在分布式系統(tǒng)上進(jìn)行實(shí)驗(yàn)的學(xué)科,目的是建立對系統(tǒng)承受生產(chǎn)環(huán)境中湍流條件能力的信心”。如今,谷歌,亞馬遜,IBM,耐克等公司,都采用某種形式的混沌工程來提高現(xiàn)代架構(gòu)的可靠性。
京東云在混沌工程領(lǐng)域的實(shí)踐——破壞性演練
破壞性演練,是京東云在混沌工程中的實(shí)踐。一方面,2018年京東云新增200+產(chǎn)品,實(shí)現(xiàn)爆發(fā)式增長;另一方面由于微服務(wù)化,大大增加了系統(tǒng)間依賴關(guān)系的復(fù)雜性;保障整個云的持續(xù)可用是巨大的挑戰(zhàn)。
基于混沌工程的理論依據(jù),京東云在實(shí)踐過程中用系列實(shí)驗(yàn),真實(shí)驗(yàn)證系統(tǒng)在各類故障場景下的表現(xiàn),通過頻繁地進(jìn)行大量實(shí)驗(yàn),使系統(tǒng)本身的反脆弱性持續(xù)增強(qiáng),讓云有信心抵御生產(chǎn)環(huán)境中難以預(yù)知的問題,也讓客戶對云的穩(wěn)定性放心。
開始混沌工程之前,京東云在底層架構(gòu)上,已經(jīng)實(shí)現(xiàn)支持多Region和多AZ高可用,包括物理層、IaaS層、PaaS層以及控制面。但是京東云并未持樂觀態(tài)度,而是謹(jǐn)慎的認(rèn)為:業(yè)務(wù)垂直化的質(zhì)量保證,更多關(guān)注縱向細(xì)分產(chǎn)品的質(zhì)量和高可用能力,但對云整體橫向的高可用的驗(yàn)證方面,存在天然的弱點(diǎn)。另一方面,實(shí)踐出真知,不驗(yàn)證就沒有底氣。這些情況堅(jiān)定了京東云做混沌工程的決心。
仿真環(huán)境建設(shè)。云是一套非常復(fù)雜的整體,它的資源數(shù)量、地域分布、流量體量等,都決定了無法在生產(chǎn)環(huán)境直接演練。為了確保演練不會影響到生產(chǎn),京東云建立了隔離故障區(qū)域,將云的預(yù)發(fā)環(huán)境和測試環(huán)境都遷移至此,并投入大量服務(wù)器做1:1仿真部署,包括物理層、IaaS層、PaaS層以及控制面,及安全、CDN、視頻等核心產(chǎn)品,相當(dāng)于搭建了一個縮小公有云環(huán)境。在環(huán)境建設(shè)完成后的第二天,京東云就進(jìn)行了第一次破壞性演練。
首次演練,投入近百人,兩天時間,即收獲117個改進(jìn)點(diǎn)。之后,混沌工程成為京東云每個季度的例行工作。并由此不斷推動應(yīng)急預(yù)案的升級和技術(shù)架構(gòu)的改進(jìn)。
應(yīng)急預(yù)案升級。當(dāng)前產(chǎn)品的主要故障場景,都已具備自動化預(yù)案能力。自動故障檢測以及自動故障恢復(fù)能力逐漸成熟,故障恢復(fù)耗時大大縮短。
技術(shù)架構(gòu)改進(jìn)。協(xié)同京東云架構(gòu)師委員會,從驗(yàn)證雙AZ的可靠性,到完善和發(fā)展基于3AZ的高可用架構(gòu)。如存儲產(chǎn)品,由原來的單AZ 3副本,改進(jìn)為3AZ 3副本,可用性進(jìn)一步提高;同時,排查依賴成環(huán)的問題,進(jìn)行解除依賴或完善降級能力。
演練平臺的建設(shè)。經(jīng)過不斷打磨,實(shí)現(xiàn)了演練觸發(fā)自動化、多租戶場景模擬、結(jié)果快速驗(yàn)證等能力的建設(shè),提升了演練的效率。之后,演練不斷深入,場景不斷豐富。覆蓋了服務(wù)、機(jī)器、隨機(jī)硬件等場景,并結(jié)合IDC、基礎(chǔ)網(wǎng)絡(luò),對整個云基礎(chǔ)設(shè)施進(jìn)行高可用性驗(yàn)證。
混沌工程實(shí)戰(zhàn)檢驗(yàn) 京東云為客戶保駕護(hù)航
截止目前,京東商城、物流等全部核心系統(tǒng)都已經(jīng)運(yùn)行于公有云之上。依據(jù)內(nèi)部混沌工程的經(jīng)驗(yàn),結(jié)合云高可用技術(shù)方案,京東云總結(jié)出了一套面向云上用戶的快速驗(yàn)證方案,與用戶一起,通過最佳實(shí)踐解決用戶可靠性的問題。
以某客戶為例,在服務(wù)建設(shè)完畢后正式上線前,京東云都會根據(jù)客戶的用法和要求,做抗脆弱性驗(yàn)證來保障客戶服務(wù)問題,讓客戶放心;而針對客戶用到的京東云專有云產(chǎn)品JD Cloud Stack,京東云會對每一個發(fā)布版本做完整的混沌工程驗(yàn)證,保證交付給客戶的是可靠的產(chǎn)品。
在剛剛過去的京東11.11期間,京東云全業(yè)務(wù),全場景云端監(jiān)控,流量同比增長300%,云搜索查詢每日峰值達(dá)13.3萬次/秒,云緩存每秒操作數(shù)每日峰值120萬次,負(fù)載均衡接入請求量同比去年上漲36%,CDN整體峰值流量同比去年上漲44%。在大促之下,京東云仍然保障了AI、物流、廣告等核心業(yè)務(wù)穩(wěn)定。這充分證明了京東云以混沌工程理論為指導(dǎo)的可靠性設(shè)計(jì)和實(shí)踐經(jīng)受住了嚴(yán)酷的考驗(yàn),值得信賴。
關(guān)于京東云
京東云(JD Cloud)是京東集團(tuán)旗下的全平臺云計(jì)算綜合服務(wù)提供商,擁有全球領(lǐng)先的云計(jì)算技術(shù)和豐富的云計(jì)算解決方案經(jīng)驗(yàn)。京東云提供從IaaS、PaaS到SaaS的全棧式(Full Stack)服務(wù),包含公有云、私有云、混合云、專有云在內(nèi)的全場景(Full Services)服務(wù),從IDC業(yè)務(wù)、云計(jì)算業(yè)務(wù)到綜合業(yè)務(wù)的全頻段(Full Spectrum)服務(wù),京東云還致力于為合作伙伴提供覆蓋全行業(yè)應(yīng)用、為全行業(yè)提供平臺支撐的全生態(tài)(Full Ecosystem)服務(wù)。同時,京東云依托京東集團(tuán)在云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)應(yīng)用等多方面的長期業(yè)務(wù)實(shí)踐和技術(shù)積淀,形成了從基礎(chǔ)平臺搭建、業(yè)務(wù)咨詢規(guī)劃,到業(yè)務(wù)平臺建設(shè)及運(yùn)營等全產(chǎn)業(yè)鏈的云生態(tài)格局,為用戶供一站式全方位的云計(jì)算解決方案。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 新能源車技術(shù)升級搶先看,ChatGPT崩了引熱議:未來科技如何破局?
- 自動駕駛行業(yè)大洗牌即將結(jié)束,小馬智行引領(lǐng)千臺車隊(duì)新篇章
- 微軟反壟斷風(fēng)暴:Office捆綁銷售引質(zhì)疑,云服務(wù)策略遭調(diào)查,巨頭陷困境
- 顯卡漲價風(fēng)暴來襲!NVIDIA/AMD緊急應(yīng)對,全力加速生產(chǎn)運(yùn)回本土
- 微軟新目標(biāo):用1000億美元打造實(shí)用通用AI,未來可期但需謹(jǐn)慎
- 亞馬遜云科技陳曉建預(yù)測:未來三年內(nèi),生成式AI將引發(fā)云市場新革命
- 林肯中國辟謠:財務(wù)調(diào)整非合并,業(yè)務(wù)不變穩(wěn)如泰山
- 字節(jié)跳動研發(fā)大手筆:2024年投入接近BAT之和,能否引領(lǐng)中國OpenAI新潮流?
- 跨境匯款平臺新舉措:螞蟻集團(tuán)開發(fā)者服務(wù)限每日10萬美元,助力全球交易更便捷
- 我國充電樁建設(shè)提速,50%增長背后的高速服務(wù)區(qū)充電新篇章
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。