浪潮存儲登頂SPC-1,兼顧“性能”與“可靠”的雙料王者

浪潮存儲資深架構師 葉毓睿、明勇

對于人類社會而言,最有價值的是人才;

對于數(shù)字世界而言,最有價值的是數(shù)據(jù);

對于承載數(shù)據(jù)的存儲而言,最重要的是穩(wěn)定。

浪潮存儲在提供極致性能的同時(最新的SPC-1數(shù)據(jù),16控存儲超752萬IOPS,8控存儲超330萬IOPS,均在各領域居全球第一),讓人印象深刻的還有它的穩(wěn)定,下面我們就來解析一下浪潮存儲在SPC-1里的極致穩(wěn)定表現(xiàn)。

SPC組織是存儲行業(yè)最專業(yè)的測試機構,對于運行在線類業(yè)務的存儲,推出了SPC-1測試規(guī)范,測試內(nèi)容主要包括metrics(包含Sustain長穩(wěn)測試、Repeat壓力測試)、persistence測試,其中metrics主要關注存儲系統(tǒng)的性能和穩(wěn)定性,persistence主要關注數(shù)據(jù)一致性和系統(tǒng)可靠性。測試流程如下圖:

浪潮存儲登頂SPC-1,兼顧“性能”與“可靠”的雙料王者

SPC-1測試流程

SPC-1的負載由3個ASU(應用存儲單元組成),3個ASU模擬了不同的應用存儲區(qū)域,包括臨時存儲區(qū)域ASU1、固定存儲區(qū)域ASU2,日志存儲區(qū)域ASU3,一共對應8個IO stream,業(yè)務模型如下圖:

浪潮存儲登頂SPC-1,兼顧“性能”與“可靠”的雙料王者

整個SPC-1測試既非??茖W,又非常嚴格,涵蓋了存儲系統(tǒng)會遇到的各種壓力模型,最真實的反映了客戶在線業(yè)務的需求,除了性能這一指標外,在系統(tǒng)穩(wěn)定性和可靠性上也提出了極高的要求,比如8小時的持續(xù)烤機測試,不同負載下的穩(wěn)定性測試,靜默測試,循環(huán)壓力測試,反復掉電測試等,中間不能出現(xiàn)任何問題,浪潮存儲經(jīng)受住了嚴格考驗,交出了一份令人滿意的答卷。

為什么浪潮存儲能做到極致穩(wěn)定呢?

下面我們就從方案架構、軟件架構、硬件架構、可靠性測試等方面來逐一剖析。需要特別說明的是,我們關注存儲的穩(wěn)定性的時候,許多人只是注意到存儲方案和軟件架構,實際上存儲硬件,如架構、設計、工藝,是否能經(jīng)受嚴苛的環(huán)境和極限的考驗,也同樣重要,在本文的后面會詳細闡述浪潮存儲從架構及軟硬件方面如何確保穩(wěn)定性的。

其一,如何從存儲方案上做到極致穩(wěn)定

首先從方案架構來講,浪潮存儲提供了業(yè)界最為豐富的方案級的存儲保護策略,比如同步異步復制、雙活、兩地三中心等功能。

在短距離(<300公里)場景下,浪潮提供存儲雙活和同步復制解決方案,并且在業(yè)內(nèi)創(chuàng)新性的實現(xiàn)了免網(wǎng)關雙活(如下圖右所示),減少了IO路徑,降低了時延,更重要的是,減少了故障點,提高了系統(tǒng)穩(wěn)定性,兩種方案對比如下圖:

浪潮存儲登頂SPC-1,兼顧“性能”與“可靠”的雙料王者

浪潮存儲登頂SPC-1,兼顧“性能”與“可靠”的雙料王者

代表廠家(網(wǎng)關雙活):EMC VPLEX

代表廠家(免網(wǎng)關):浪潮存儲 等

在遠距離場景下(>300公里),浪潮提供異步遠程容災方案,利用高性能磁盤陣列的高級數(shù)據(jù)復制功能,實現(xiàn)超遠距離的數(shù)據(jù)遠程復制。

浪潮存儲登頂SPC-1,兼顧“性能”與“可靠”的雙料王者

浪潮存儲的異步遠程容災方案

針對最關鍵的業(yè)務,業(yè)務連續(xù)性和數(shù)據(jù)安全性要求非常高,浪潮提供了兩地三中心存儲解決方案,在生產(chǎn)機房做雙活高可用,同時在異地做遠程數(shù)據(jù)容災,最大程度的保障了業(yè)務連續(xù)性和數(shù)據(jù)安全性。

浪潮存儲登頂SPC-1,兼顧“性能”與“可靠”的雙料王者

兩地三中心存儲解決方案

其二,如何從軟件架構上做到極致穩(wěn)定

從軟件架構講,為了做到極致穩(wěn)定,浪潮存儲采用了統(tǒng)一、極簡的平臺,可以在一套軟件棧上實現(xiàn)SAN和NAS的統(tǒng)一,實現(xiàn)基于機箱帶內(nèi)管理和帶外管理的統(tǒng)一,實現(xiàn)獨立機頭和盤框一體架構的統(tǒng)一,實現(xiàn)本地存儲和異構存儲的統(tǒng)一,除此之外,浪潮在很多軟件特性上也做了獨有的創(chuàng)新:

浪潮存儲登頂SPC-1,兼顧“性能”與“可靠”的雙料王者

浪潮存儲采用統(tǒng)一、極簡的存儲軟件棧

1、 所有功能模塊,均采用輕量級用戶態(tài)模式,減少了用戶態(tài)與內(nèi)核態(tài)的直接交互,大大降低了對內(nèi)核的影響。一旦進程發(fā)生故障,可以在用戶態(tài)進行進程重新拉起,進行輕量級的故障恢復,不必進行控制器復位操作, 從而實現(xiàn)系統(tǒng)的IO連續(xù),不中斷,提高了系統(tǒng)的穩(wěn)定性

2、 采用分布式Raid,無單獨的熱備盤,硬盤故障時其他所有硬盤同時參與重構,大大降低了硬盤重構時間,降低了二次故障帶來數(shù)據(jù)丟失的風險

3、 所有固件可在線升級(比如BIOS、CPLD、Oses、FW、BMC等),確??蛻魳I(yè)務平穩(wěn)運行,最大程度的降低了升級操作對客戶業(yè)務的影響

4、 豐富的故障檢測手段,比如軟件版本檢測、誤碼檢測、帶寬檢測、速率檢測、慢盤檢測等,可以確保系統(tǒng)在出現(xiàn)任何故障的時候,能第一時間找到問題根因,快速更換故障部件,盡快使系統(tǒng)恢復穩(wěn)定

5、 豐富的存儲安全特性,比如本地復制、克隆、快照、鏡像等,確保存儲安全穩(wěn)定

6、 針對SSD的應用,業(yè)界一直有個難題,就是如何在SSD上實現(xiàn)數(shù)據(jù)均衡分配,浪潮存儲針對SSD進行單獨的固件優(yōu)化,會選擇較新的顆粒進行擦寫,較老的隨后擦寫,實現(xiàn)全局智能動態(tài)均衡,延長SSD壽命

7、 端到端的數(shù)據(jù)一致性保障,數(shù)據(jù)在存儲系統(tǒng)傳輸中,經(jīng)過了多個部件、多種傳輸通道和復雜的軟件處理過程,其中任意一個環(huán)節(jié)發(fā)生錯誤都可能會導致數(shù)據(jù)錯誤。浪潮存儲提供了從主機HBA卡到存儲陣列再到硬盤的T10 PI校驗,保證了數(shù)據(jù)完整性

8、 有很多客戶在做IT規(guī)劃的時候,總是會不免擔心電源不穩(wěn)的情況,而這在生產(chǎn)環(huán)境不可避免,浪潮存儲也提前考慮到這種場景,并采用業(yè)界領先的AC電源防抖技術,在市電短暫掉電時(<5s),存儲仍能對外提供業(yè)務,大大提高了系統(tǒng)的可用性

其三,如何從硬件架構上做到極致穩(wěn)定

從硬件架構講,浪潮存儲沿用和創(chuàng)新了業(yè)界先進的技術和理念,從整機部件,到硬件工程,到高速互聯(lián),到電源、固件,浪潮都有大量的專利,積淀了非常豐富的實踐經(jīng)驗,并創(chuàng)新性的應用到存儲產(chǎn)品里

浪潮存儲登頂SPC-1,兼顧“性能”與“可靠”的雙料王者

浪潮存儲具備從材料到整機,全方位硬件設計能力

1、部件在線自檢,及時發(fā)現(xiàn)隱藏故障,做好提前預防,比如針對BBU,系統(tǒng)每隔一段時間會進行一次故障模擬測試,以便隱藏的故障能及時發(fā)現(xiàn);

2、豐富全面的溫度感知能力,從芯片,到部件,到板卡,再到機箱,存儲提供了最為豐富的溫度感應系統(tǒng),可以感知到任何一個芯片,任何一個部件出現(xiàn)的任何溫度異常, 以便能第一時間找出故障點,盡快使系統(tǒng)恢復穩(wěn)定;

3、所有元器件及模塊均采用業(yè)界最嚴格的可靠性設計標準,比如電阻、電容等元器件的耐壓值大于額定工作電壓的2倍,電源模塊實際功耗不超過額定功率的70%,大大降低了超規(guī)格使用帶來的失效風險,有效提升了系統(tǒng)的穩(wěn)定性。

4、背板采用無源設計,最大程度的減小了元器件失效帶來的整體故障風險,大大降低了故障率,保障業(yè)務長期穩(wěn)定運行;

5、所有部件均提供冗余,控制器、電源、風扇、BBU等主要部件均有冗余,以確保在出現(xiàn)任何單一部件故障的時候,不會影響客戶業(yè)務;

其四,如何利用可靠性測試做到極致穩(wěn)定

除了架構及軟硬件上的設計確保存儲的穩(wěn)定可靠,浪潮在研發(fā)和生產(chǎn)中還做了很多“臟活”,正是這些“臟活”,進一步確保了浪潮存儲的極致穩(wěn)定,比如:

在研發(fā)過程中,所有產(chǎn)品都會經(jīng)過嚴格的環(huán)境測試,比如高低溫極限測試、震動極限測試、八角測試(溫度、電壓、時鐘頻率的任意拉偏組合)、溫循測試、濕度測試等業(yè)界最苛刻的應力測試,在八角測試里,會特地將相關參數(shù)拉偏,比如溫度下降到-10度或上升到50度(正常運行是20度左右),電壓拉低到3.2V或拉高到3.4V(正常運行是3.3V),頻率拉低到24.99M或拉高到25.01M(正常25M),實現(xiàn)三種參數(shù)的任意組合,進而找到系統(tǒng)的最薄弱點。

浪潮存儲登頂SPC-1,兼顧“性能”與“可靠”的雙料王者

極限震動測試

存儲和其他電子產(chǎn)品一樣,其故障模型也會遵循浴盆曲線,在產(chǎn)品剛上市時,故障出現(xiàn)概率較大,度過早期運行后,故障出現(xiàn)的概率會大大降低,因此為了讓產(chǎn)品在客戶處穩(wěn)定運行,必須把早期故障篩選出來,浪潮存儲在出貨前,會經(jīng)過老化測試、常穩(wěn)測試等烤機測試,以確保早期故障能在出貨前有效攔截,降低產(chǎn)品在客戶處的故障率,提升產(chǎn)品在現(xiàn)網(wǎng)運行的穩(wěn)定性

浪潮存儲登頂SPC-1,兼顧“性能”與“可靠”的雙料王者

電子器件故障浴盆曲線

硬盤是易故障部件,也是各存儲廠家和客戶最為困惑的難題,為了解決這一難題,浪潮在生產(chǎn)出貨前會經(jīng)過嚴格的性能和穩(wěn)定性測試,比如帶寬測試、訪問時延測試,可以確保所有出貨硬盤的質(zhì)量得到有效保證,據(jù)統(tǒng)計,浪潮存儲的硬盤平均故障率不到0.1%(即1000塊盤,一年內(nèi)最多有一塊盤故障),大大低于業(yè)內(nèi)平均水平。

浪潮存儲在SPC-1里體現(xiàn)出的極致穩(wěn)定

存儲是一個極為復雜的系統(tǒng),不僅要有成熟的方案架構和軟硬件架構,更要有匠心般的追求,在最細微處也要做到極致,才能給客戶提供最為穩(wěn)定可靠的系統(tǒng),浪潮存儲很好的踐行了這一理念!

核心技術總結

浪潮存儲:

擁有最為豐富的方案級容災,比如雙活、異地容災、兩地三中心等,保障存儲方案級的極致穩(wěn)定。

擁有極簡的軟件架構平臺,實現(xiàn)多種場景下的架構統(tǒng)一,并通過豐富的存儲高級特性(比如快照、鏡像、克隆等),提供產(chǎn)品軟件級的極致穩(wěn)定。

擁有豐富的硬件全棧解決能力,從底層部件,到硬件工程,到高速互聯(lián),到整機交付,擁有大量的設計經(jīng)驗,提供產(chǎn)品硬件級的極致穩(wěn)定。

擁有唯一落戶在企業(yè)的存儲國家重點實驗室和存儲工程技術研究中心,提供業(yè)界最嚴格的部件篩選及整機可靠性測試,保障產(chǎn)品工程級別的極致穩(wěn)定。

感謝一些同事的分享或啟發(fā)包括Rain Zou; Kenny Peng; Will Wang; Song Yang; Steven Meng; Tingmao Han等。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )