原標題:京東云如何扛過618大促,新時代云架構是關鍵
“京東云提供計算服務”,當你在手機上打開京東APP的時候,總會在最下面看到這行小字。
不過我敢打賭,你在看到這篇文章之前根本沒發(fā)現(xiàn)過這行字。雖然它的確很小,也的確被放在了最下方,但它卻是安全、穩(wěn)定的保障。正如云計算所代表的無感知存在一樣——意識不到的云服務就是最好的云服務。而一旦你發(fā)現(xiàn)了它,就意味著它可能出現(xiàn)了某些故障,正如當停水停電的時候我們才意識到水電的可貴。
云服務還會出故障么?答案是一定的。其實作為全國乃至全球性的電商平臺,僅就京東商城來說每年的交易量就是天文數(shù)字,這背后用于支撐的系統(tǒng)更是經(jīng)歷了多重挑戰(zhàn)。比如大家都很熟悉的618、雙11等大促活動,特別是定點秒殺所帶來的峰值壓力是世界性的難題,而要想“扛住”這些壓力,就需要一款強壯、穩(wěn)定、安全的云平臺,這也正是京東云必須承載的使命。
高RAS特性迎來全新應用場景挑戰(zhàn)
如今京東云覆蓋各個行業(yè)領域超過2500家的合作伙伴,隨著用戶規(guī)模不斷增大,特定行業(yè)與云原生類用戶對應用開發(fā)和運營模式提出許多新的要求,傳統(tǒng)用戶也正在將更多復雜業(yè)務遷移上云, 這些持續(xù)變化的技術需求對京東云服務提出新的挑戰(zhàn)。
RAS特性首當其沖。RAS包括了Reliability(可靠性)、Availability(可用性)、Serviceability(安全性)三個詞的首字母,其作用在于確保整個系統(tǒng)盡可能長期可靠的運行而不下線,并且具備足夠強大的容錯機制。這個詞最早來自于大型主機,但是伴隨著分布式x86架構成為主流,伴隨著云應用成為行業(yè)發(fā)展的必然選擇,RAS特性的重要性再一次凸顯出來。
在以往的主機時代,某臺系統(tǒng)某個部件的損壞或故障,只會造成單一系統(tǒng)的崩潰或者宕機;但是在公有云或者混合云的環(huán)境當中,同一臺服務器上可能運行了若干不同業(yè)務、不同場景的虛擬機,一旦物理設備崩潰,將會波及眾多用戶,同時也會對運營商自身造成巨大損失。而在現(xiàn)有的故障集合中,內存錯誤是最高發(fā)同時也是最嚴重故障之一。
即便是對于個人來說,我們在日常使用中也經(jīng)常會遇到電腦內存故障的問題,更何況對于成百上千臺服務器的數(shù)據(jù)中心來說,類似的情況更是司空見慣。來自Google的一份調查報告顯示:內存錯誤率其實比想象中的要高,“所有在用設備中大約1/3每年至少遇到一次內存錯誤,平均每年發(fā)生的可修正錯誤為22000次。”
這么高的故障率并不是危言聳聽。據(jù)統(tǒng)計,京東云數(shù)據(jù)中心內存錯誤在整體硬件故障中的占比達到37%,換句話說每三次故障中就有一次是因為內存導致的。為了盡可能將內存故障率降到最低,京東云積極尋求多種方案,希望通過對內存錯誤的發(fā)現(xiàn)與預測,通過在線快速遷移恢復技術, 減少內存錯誤對云主機造成的影響,進而建立完善的云主機故障預測和恢復系統(tǒng)。
在評估了眾多解決方案之后,京東云找到了英特爾,希望從源頭上解決問題。
英特爾MCA Recovery+MFP打造內存高效穩(wěn)定
京東云通過引入英特爾MCA Recovery與Memory Failure Prediction(MFP)技術,結合京東云的故障恢復系統(tǒng),用來降低內存錯誤對京東云主機穩(wěn)定性的影響。所謂MCA的全稱叫做了Machine Check Architecture,這是一種基于底層架構的智能診斷系統(tǒng),用戶可以在系統(tǒng)的BIOS層面實現(xiàn)對于大大小小錯誤的管理——大到上次系統(tǒng)宕機的元兇到底是誰這種推理破案故事,小到內存哪個顆粒或者哪個鏈路哪跟線上出現(xiàn)了一個bit錯誤之類,都可以輕松搞定。
另一項名為英特爾MFP的技術則可以通過對內存微觀層面故障數(shù)據(jù)進行學習和數(shù)據(jù)挖掘,智能訓練和建立DIMM健康評估模型 (DHAM),并實時監(jiān)控主機內存運行狀況,分析主機不同層面的內存錯誤,包括DIMM、rank、bank、column、row和cell等, 將主機內存狀況與 DIMM 健康評估模型進行對比,以預測發(fā)生內存故障的可能。
從被動到主動,從應用到實踐,如今在英特爾MCA Recovery與MFP的“雙重加持”下,京東云主機因內存故障造成的系統(tǒng)崩潰頻率已經(jīng)大大降低。甚至當某一個節(jié)點出現(xiàn)潛在故障的可能時,英特爾MFP 技術就可以第一時間預警并提供熱遷移,避免潛在內故障導致的云主機宕機。而如果故障發(fā)生在MFP預測范圍外,京東云系統(tǒng)則可以通過MCA Recovery進行恢復,防止頁面被其它應用/進程再次使用,并將故障節(jié)點上報給服務器管理系統(tǒng)進行內存更換。
如今,已經(jīng)部署英特爾MCA Recovery+MFP的京東云將計算節(jié)點主機的宕機率減少了40%,內存故障條件下的熱遷移成功率提高了50%,保障了云主機99.975%的可用性?!巴ㄟ^這一技術將有效提升京東云服務的可靠性和穩(wěn)定性”,京東科技京東云事業(yè)群硬件研發(fā)負責人陳國峰如是說。
助力超大規(guī)模平臺云上創(chuàng)新,英特爾多管齊下保障應用安全
除了京東云如今幾乎所有的公有云都采用了英特爾至強可擴展處理器平臺,英特爾提供的解決方案也不僅僅局限于計算、存儲的單一層面,而是包括了網(wǎng)絡、安全、管理等多個領域。正如英特爾6大支柱所彰顯的那樣,英特爾也為云服務商們許多了多種解決方案,滿足不同應用場景的需求。
比如在網(wǎng)絡領域,英特爾以太網(wǎng)解決方案就可以提供高達100 Gbps的網(wǎng)絡帶寬,并支持網(wǎng)絡功能虛擬化(NFV) 在內的多種技術,搭配智能網(wǎng)絡接口卡 (SmartNIC)、支持Tofino的P4可編程交換機等平臺,可以幫助眾多超大規(guī)模云服務商和大型數(shù)據(jù)中心提供高帶寬、低延遲的快速響應能力。
人工智能也是當下應用的熱門,各大互聯(lián)網(wǎng)公司也提供了多種場景的應用服務。但你可能不知道,相對于采用加速器實現(xiàn)的智能計算來說,英特爾至強可擴展平臺自身就提供了深度學習加速技術(英特爾DL Boost),可以讓客戶不需要額外的投資就能夠獲得針對卷積神經(jīng)網(wǎng)絡的、計算密集型工作負載優(yōu)化的環(huán)境。有數(shù)據(jù)統(tǒng)計,這種技術可以幫助客戶獲得高達3.4倍的性能提升。
包括在安全領域,英特爾也借助于QuickAssist 技術為加密、散列、公鑰 加密和壓縮等計算密集型操作提供硬件加速,實現(xiàn)高達 4.3 倍的效率提升。與此同時,該技術還可以幫助保護加密私鑰。在客戶進入需使用私鑰的虛擬機之前,私鑰都處于加密狀態(tài)。只有芯片中的英特爾QAT能夠解密此私鑰,從硬件層面實現(xiàn)了底層的應用保護。
從計算到存儲,從網(wǎng)絡到安全,從硬件到軟件,英特爾所實現(xiàn)的是對云服務商的全方位防護,從底層加密到中層虛擬化再到上層智能應用都有,更重要的是這些并不需要客戶進行額外的投資或者增加設備,從而在管理效率、成本控制等多個方面實現(xiàn)了提升。
當下,云計算已經(jīng)如水、電、天然氣一樣與我們的生活息息相關,我們在手機上的每一次操作、每一筆下單都對應到了后端數(shù)據(jù)中心的相應計算操作。無論是京東云還是京東商城,抑或是其他超大規(guī)模的云服務商,英特爾都在通過一致、可預測的性能表現(xiàn);廣泛、優(yōu)化的軟件生態(tài)系統(tǒng);出色的性價比;跨云服務與多云協(xié)同等技術與生態(tài)優(yōu)勢,為用戶提供最廣泛的可用性,為客戶們提供更高效、更安全、更可靠的平臺,也幫助更多云上的各種應用加速,推動數(shù)字化快速發(fā)展。
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個大計劃瞄準AI機器人
- 微信零錢通新政策:銀行卡轉入資金提現(xiàn)免手續(xù)費引熱議
- 消息稱塔塔集團將收購和碩印度iPhone代工廠60%股份 并接管日常運營
- 蘋果揭秘自研芯片成功之道:領先技術與深度整合是關鍵
- 英偉達新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關注
- 無人機“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機器人合作
- 賽力斯觸及漲停,汽車整車股盤初強勢拉升
免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。