科技云報到:有“韌性”才能更“任性”,云韌性構(gòu)筑業(yè)務(wù)最后一道防線

人們的生活里,充滿了很多看似理所當然的事情:只要網(wǎng)上下單,過幾天想要的東西就會出現(xiàn)在樓下快遞柜;飯點一到,按動幾下手機很快會有熱氣騰騰的飯菜送上門;下班了往沙發(fā)上一躺,與三五好友開黑享受片刻歡愉……假如這一切忽然消失,世界會變成怎樣?

很多時候,關(guān)鍵業(yè)務(wù)數(shù)據(jù)意外丟失,或某些內(nèi)部或外部基礎(chǔ)服務(wù)上一個小小的錯誤配置導致半個地球范圍內(nèi)的服務(wù)中斷……所有這些不確定性,不僅讓業(yè)務(wù)時刻面臨風險,還會讓企業(yè)聲譽遭受不小的影響。

有這一句話:破壞穩(wěn)態(tài)的難度越大,我們對系統(tǒng)行為的信心就越強。如果發(fā)現(xiàn)了一個弱點,那么我們就有了一個改進目標。避免在系統(tǒng)規(guī)?;蟊环糯?。

以往在本地部署和運行關(guān)鍵應用時,包括基礎(chǔ)架構(gòu)、底層硬件在內(nèi)的很多因素可由企業(yè)自行掌控,因此發(fā)現(xiàn)并解決弱點還是好處理的。但當企業(yè)開始上云,通過云平臺運行這些關(guān)鍵應用時,底層基礎(chǔ)架構(gòu)的管理和維護由云平臺承擔,這時又該如何解決弱點,打造更穩(wěn)定、更有韌性的云基礎(chǔ)設(shè)施和應用程序?

??

當不穩(wěn)定正在成為常態(tài)

今年7月19日,微軟公司旗下多個應用和服務(wù)出現(xiàn)訪問延遲、功能不全甚至無法訪問的問題。從美國到歐洲,再到亞洲多國,大量用戶的電腦突然藍屏,提示系統(tǒng)遇到問題需要重啟。此次事件波及范圍之廣、影響之大,堪稱近年來少有的全球性技術(shù)故障。

此次微軟服務(wù)中斷事件對全球多個行業(yè)造成了嚴重影響。航空公司方面,美國邊疆航空公司、Allegiant航空、SunCountry航空等多家航空公司因系統(tǒng)問題取消了數(shù)百個航班,造成旅客滯留和行程延誤。

金融領(lǐng)域,以色列、南非等國的銀行系統(tǒng)受到波及,澳大利亞超市的自動收銀機也出現(xiàn)結(jié)算異常。此外,電信、媒體、醫(yī)療等多個行業(yè)也不同程度受到影響,倫敦證券交易所的部分服務(wù)也一度中斷。

在國內(nèi),雖然三大航及北京首都機場和大興機場的國際航班運行正常,但仍有部分外企及酒店等服務(wù)業(yè)受到波及。例如,上??等R德酒店就因系統(tǒng)問題影響了客戶入住和退房流程。

面對全球范圍內(nèi)的服務(wù)中斷和藍屏問題,微軟迅速做出回應,其表示,問題的根本原因在于第三方殺毒軟件CrowdStrike的一次錯誤更新。經(jīng)過事故調(diào)查,此次事件的核心技術(shù)原因在于CrowdStrike的安全軟件更新與Windows系統(tǒng)之間的不兼容。

CrowdStrike作為全球知名的網(wǎng)絡(luò)安全公司,其安全軟件廣泛應用于企業(yè)環(huán)境。然而,在7月19日的更新中,CrowdStrike推送了一個與某些Windows系統(tǒng)特性不兼容的更新,觸發(fā)了系統(tǒng)級的錯誤,最終導致藍屏死機。

Windows作為全球最廣泛使用的桌面操作系統(tǒng)之一,其穩(wěn)定性直接關(guān)系到數(shù)億用戶的日常工作和生活。然而,隨著技術(shù)的不斷發(fā)展和應用的日益復雜,系統(tǒng)穩(wěn)定性的挑戰(zhàn)也在不斷增加。

此次事件再次提醒我們,即使是像微軟這樣的行業(yè)巨頭,也無法完全避免技術(shù)故障的發(fā)生。因此,對于操作系統(tǒng)提供商而言,持續(xù)優(yōu)化系統(tǒng)架構(gòu)、提高代碼質(zhì)量、加強兼容性測試等工作顯得尤為重要。

隨著云計算技術(shù)的普及,越來越多的企業(yè)和服務(wù)依賴于云服務(wù)提供商。然而,這也帶來了新的挑戰(zhàn)。一旦云服務(wù)提供商出現(xiàn)服務(wù)中斷或故障,將直接影響依賴其服務(wù)的企業(yè)和個人。此次微軟服務(wù)中斷事件就充分展示了云計算時代面臨的這一挑戰(zhàn)。因此,云服務(wù)提供商需要加強自身的技術(shù)實力和穩(wěn)定性保障能力,確保能夠為用戶提供持續(xù)、穩(wěn)定的服務(wù)。

為什么云中會出現(xiàn)臨時性故障?

任何環(huán)境、任何平臺或操作系統(tǒng)以及任何類型的應用程序都會發(fā)生臨時性故障。在本地基礎(chǔ)架構(gòu)上運行的解決方案中,應用程序及其組件的性能和可用性通常由昂貴且利用率不足的冗余硬件來保證。

雖然此方法使故障的可能性降低,但仍可能導致臨時性故障,甚至因外部電源、網(wǎng)絡(luò)問題或其他災難情況等不可預測的事件而中斷。

托管型云服務(wù)雖然可以跨多個計算節(jié)點使用共享資源、冗余、自動故障轉(zhuǎn)移和動態(tài)資源分配,實現(xiàn)更高的整體可用性,但是這些環(huán)境的性質(zhì)意味著更可能發(fā)生臨時性故障,導致故障的原因有很多類型。

首先,由于云環(huán)境中的許多資源是共享的,為了有效管理這些資源,云通常會嚴格管控對這些資源的訪問。例如,某些服務(wù)在負載上升到特定級別,或到達吞吐量比率上限時,會拒絕額外連接以便處理現(xiàn)有請求,并為所有現(xiàn)存用戶維持服務(wù)性能。限制有助于為共享資源的鄰居與其他租戶維持服務(wù)質(zhì)量。

其次,云環(huán)境使用大量商用硬件單元構(gòu)建而成。云環(huán)境將負載動態(tài)分散到多個計算單元和基礎(chǔ)架構(gòu)組件上以獲得更多性能,并通過自動回收或更換故障單元來提供可靠性。這種動態(tài)性意味著可能偶爾會發(fā)生臨時性故障或暫時性連接失敗。

第三,在應用程序與資源及其使用的服務(wù)之間,通常有多個硬件組件,包括網(wǎng)絡(luò)基礎(chǔ)架構(gòu),例如路由器和負載均衡器。這些附加的組件偶爾會導致額外的連接延遲或臨時性連接故障。

第四,客戶端與服務(wù)器之間的網(wǎng)絡(luò)狀況會不時改變,尤其是通過互聯(lián)網(wǎng)通信時。即使在本地位置,高流量負載也可能減慢通信速度,并造成間歇性的連接故障。

云韌性如何保障業(yè)務(wù)連續(xù)性?

韌性作為衡量應用程序抵御及快速恢復中斷能力的關(guān)鍵指標,涵蓋應對基礎(chǔ)設(shè)施故障、依賴服務(wù)中斷、錯誤配置、網(wǎng)絡(luò)問題乃至負載激增等多方面的能力。

在數(shù)智化轉(zhuǎn)型的今天,云端韌性不僅是IT系統(tǒng)穩(wěn)定性和可靠性的體現(xiàn),更是企業(yè)業(yè)務(wù)連續(xù)性和市場競爭力的關(guān)鍵所在。一旦云服務(wù)出現(xiàn)中斷,可能導致企業(yè)運營受阻、客戶體驗下降甚至數(shù)據(jù)丟失等嚴重后果。因此,構(gòu)建云端韌性已成為企業(yè)IT戰(zhàn)略不可或缺的一部分。

面對自然災害、網(wǎng)絡(luò)攻擊、系統(tǒng)故障等不確定性因素,云端韌性顯得尤為重要。作為全球領(lǐng)先的云計算服務(wù)提供商,亞馬遜云科技以其卓越的技術(shù)實力和豐富的實踐經(jīng)驗,在云端韌性領(lǐng)域樹立了標桿。

亞馬遜云科技大中華區(qū)解決方案架構(gòu)總經(jīng)理代聞表示:“亞馬遜云科技去年每天穩(wěn)定啟動的Amazon EC2實例超過1億,每秒API請求數(shù)高達100萬億。正是因為做對了很多事情,才有今天全球數(shù)百萬客戶的選擇和信任。”

亞馬遜云科技大中華區(qū)解決方案架構(gòu)總經(jīng)理代聞

亞馬遜云科技云端韌性的三大支柱涵蓋:韌性的基礎(chǔ)設(shè)施,通過全球布局與冗余設(shè)計確保服務(wù)的全球可達性和高可用性;韌性系統(tǒng)架構(gòu),通過單元架構(gòu)和數(shù)據(jù)面與控制面的分離,減少故障影響范圍,提升系統(tǒng)可用性;卓越的運營機制,通過的DevOps文化與自動化工具,促進團隊協(xié)作與持續(xù)改進,提升運維效率和響應速度。

在全球范圍內(nèi),亞馬遜云科技構(gòu)建了龐大而高效的數(shù)據(jù)中心網(wǎng)絡(luò),設(shè)計了區(qū)域、可用區(qū)、數(shù)據(jù)中心的層級設(shè)計,并覆蓋了主要的市場區(qū)域。亞馬遜云科技在全球34個地理區(qū)域部署108個可用區(qū),包括在中國大陸的北京和寧夏兩大區(qū)域,每個區(qū)域均包含三個或更多獨立電力、制冷及物理安全設(shè)施的可用區(qū),且這些可用區(qū)之間距離適中,約100公里內(nèi),確保高可用性和低延遲。

這些基礎(chǔ)設(shè)施不僅地理位置分布廣泛,而且通過高速骨干網(wǎng)絡(luò)相互連接,形成了一個強大的全球云計算網(wǎng)絡(luò)。這種全球布局不僅降低了延遲、提高了數(shù)據(jù)傳輸效率,還為跨區(qū)域的數(shù)據(jù)備份和容災提供了便利。

每個區(qū)域內(nèi),亞馬遜云科技都設(shè)有多個可用區(qū)(AZ),每個可用區(qū)下又有數(shù)個數(shù)據(jù)中心相連。三個層級內(nèi)外部均提供低延遲網(wǎng)絡(luò)互連,并配備了獨立的電力供應、冷卻系統(tǒng)和物理安全設(shè)施。這種多可用區(qū)的設(shè)計有效降低了單點故障的風險,即使某個可用區(qū)出現(xiàn)故障,其他可用區(qū)仍然能夠正常運行,確保服務(wù)的連續(xù)性。此外,亞馬遜云科技還提供了跨區(qū)域的數(shù)據(jù)復制和故障轉(zhuǎn)移解決方案,如Amazon S3的跨區(qū)域復制功能,確保用戶數(shù)據(jù)的安全性和可用性。

除了基礎(chǔ)設(shè)施的審慎選址和分散式的布局,云服務(wù)的韌性也與其使用的技術(shù)架構(gòu)有著重要的關(guān)聯(lián)。越是在技術(shù)層面事先做好對風險的分散,一旦面臨問題,所遭受的損失可能就會越小。

對此,亞馬遜云科技提出了“控制平面”和“數(shù)據(jù)平面”分離的原則。從軟件架構(gòu)層面來說,云服務(wù)的控制面往往包含更多組件,因此其在概率上發(fā)生故障的可能性更大。但是對于絕大多數(shù)的云服務(wù)來說,控制面并非是日常運行所必須。

將控制面與數(shù)據(jù)面分離帶來的一個好處是,假如控制面所在的機房、或者控制面軟件本身出現(xiàn)故障,那么由于數(shù)據(jù)面依然完好、且能正常運作,此時云服務(wù)頂多只是表現(xiàn)為無法新建任務(wù)或無法進入后臺控制UI,但正在運行的云端程序本身則完全可以不受影響。對于許多企業(yè)用戶來說,這將會使得故障變得對用戶而言幾乎“不可察覺”,甚至不會對業(yè)務(wù)本身造成顯著的負面影響。

此外,亞馬遜云科技還提出了“爆炸半徑”的概念,它指的是故障發(fā)生時、具體的軟硬件影響范圍。為了解決這一問題,亞馬遜云科技采用了“單元架構(gòu)”設(shè)計,將單個服務(wù)進一步切分為多個部署堆棧,每一個部署堆棧服務(wù)于一個或多個客戶。這樣一來,單一堆棧故障影響的范圍就會更小,不再累及整個可用區(qū)或整個服務(wù)。

在運營機制方面,亞馬遜云科技推行DevOps文化,強調(diào)開發(fā)與運維的緊密聯(lián)系。在亞馬遜云科技內(nèi)部,每個服務(wù)團隊都對其負責的服務(wù)擁有完整的所有權(quán)和運維責任,這種機制確保了服務(wù)的穩(wěn)定性和可靠性。通過打破傳統(tǒng)開發(fā)與運維之間的壁壘,亞馬遜云科技促進了團隊協(xié)作和持續(xù)改進,提高了整體運營效率。

亞馬遜云科技提供了豐富的自動化工具來支持運營機制的實施,這些工具涵蓋了資源部署、配置管理、性能監(jiān)控、故障排查等多個方面。例如,Amazon CloudFormation允許用戶通過模板化的方式來部署和管理亞馬遜云科技資源,大大簡化了資源管理的復雜性;Amazon OpsWorks則提供了一套自動化運維解決方案,幫助用戶實現(xiàn)應用的快速部署、配置和擴展;Amazon DevOps Guru利用AI和機器學習技術(shù)實現(xiàn)對系統(tǒng)的實時監(jiān)控和故障預測,進一步提升了系統(tǒng)的韌性和穩(wěn)定性。

構(gòu)建云韌性是一個持續(xù)的過程,而不是一次性的努力,需要在業(yè)務(wù)需求、可靠性、成本和系統(tǒng)復雜度之間找到平衡點。正如亞馬遜首席信息官Werner Vogels說的那樣,“Everything fails all the time”(故障總在情理之中、意料之外)。

無論是對于云計算企業(yè)、還是對于志在“上云”的企業(yè)而言,故障的概率永遠都不會是0%。在這個基礎(chǔ)上,良好的基礎(chǔ)設(shè)施、成熟的服務(wù)架構(gòu)、有經(jīng)驗的運營團隊,以及一切為客戶著想的業(yè)務(wù)機制,總能幫助企業(yè)將風險化解于無形。

免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2024-09-18
科技云報到:有“韌性”才能更“任性”,云韌性構(gòu)筑業(yè)務(wù)最后一道防線
人們的生活里,充滿了很多看似理所當然的事情:只要網(wǎng)上下單,過幾天想要的東西就會出現(xiàn)在樓下快遞柜;飯點一到,按動幾下手機很快會有熱氣...

長按掃碼 閱讀全文