柏科數(shù)據(jù)“ISCloud分布式云存儲(chǔ)” 實(shí)力硬核| 破解HPC場(chǎng)景下混合負(fù)載性能沖突

構(gòu)建高性能計(jì)算HPC(High Performance Computing)機(jī)群可提升業(yè)務(wù)的運(yùn)算速度(使其達(dá)到每秒萬(wàn)億次級(jí)的計(jì)算速度),因此HPC被應(yīng)用于解決大規(guī)??茖W(xué)問(wèn)題的計(jì)算和海量數(shù)據(jù)的處理,其中就包括科學(xué)研究、氣象預(yù)報(bào)、計(jì)算模擬、軍事研究、CFD/CAE、生物制藥、基因測(cè)序、圖像處理等。在HPC場(chǎng)景下,使用關(guān)鍵技術(shù)優(yōu)化混合負(fù)載沖突,全方位釋放存儲(chǔ)性能成了巨大的挑戰(zhàn)。

柏科數(shù)據(jù)“ISCloud分布式云存儲(chǔ)” 實(shí)力硬核

目前HPC應(yīng)用正從過(guò)去的傳統(tǒng)科研領(lǐng)域計(jì)算密集型,逐漸向新興的大數(shù)據(jù)、人工智能以及深度學(xué)習(xí)等方向進(jìn)行融合和演進(jìn)。繼而,數(shù)字時(shí)代無(wú)論是智能制造、智慧醫(yī)療、智慧城市、智能家居,HPC都將成為核心技術(shù)。特別是近兩年備受關(guān)注的人工智能領(lǐng)域,如自動(dòng)駕駛汽車、無(wú)人機(jī)、人臉識(shí)別、醫(yī)療診斷以及金融分析和商業(yè)決策等,其核心是大數(shù)據(jù)支持,HPC成為人工智能模型訓(xùn)練的重要支撐平臺(tái)。

HPC通過(guò)極快的處理速度,獲取大量數(shù)據(jù)進(jìn)行復(fù)雜的運(yùn)算,實(shí)現(xiàn)數(shù)據(jù)即時(shí)分析,達(dá)到快速?zèng)Q策的目標(biāo)。因此,HPC機(jī)群對(duì)于存儲(chǔ)有著較高的性能要求,保證來(lái)自多個(gè)HPC服務(wù)器密集而多樣的分析行為。

同時(shí),由于未分析的原始數(shù)據(jù)會(huì)越積越多,并且未來(lái)還會(huì)有更多的數(shù)據(jù)需要研究/處理,因此容量和擴(kuò)展性也是重要的考慮因素。HPC的總體數(shù)據(jù)最終會(huì)達(dá)到PB級(jí)別,需要超大的存儲(chǔ)容量才能完成歸檔。

在HPC應(yīng)用環(huán)境下,業(yè)務(wù)軟件眾多(其中運(yùn)行的應(yīng)用算例各不相同),從而導(dǎo)致不同的業(yè)務(wù)對(duì)I/O負(fù)載要求不同,其中包括帶寬型、IPOS型、元數(shù)據(jù)OPS密集型、及基于MPI框架的應(yīng)用需要并行訪問(wèn)同一個(gè)文件的并行I/O等。例如,在新興的AI場(chǎng)景中會(huì)牽涉到預(yù)處理階段、訓(xùn)練階段和仿真等階段,都對(duì)帶寬及IOPS有著各不相同的高要求。

在傳統(tǒng)的油氣勘探典型場(chǎng)景中,假設(shè)需要同時(shí)滿足震資料處理和地震資料解釋兩種應(yīng)用場(chǎng)景對(duì)IO負(fù)載的不同要求,通常需要為其分別配置存儲(chǔ)A及存儲(chǔ)B,以滿足不同的IO負(fù)載性能。因此,在HPC應(yīng)用的場(chǎng)景下,滿足高帶寬、高IOPS及低時(shí)延的混合負(fù)載模型是HPC存儲(chǔ)面臨的巨大挑戰(zhàn)。

性能衡量標(biāo)準(zhǔn)

帶寬型業(yè)務(wù)的衡量標(biāo)準(zhǔn)(單位時(shí)間內(nèi)的數(shù)據(jù)總吞吐量),主要特點(diǎn)有每個(gè)I/O大且處理次數(shù)少,單次I/O處理時(shí)間較長(zhǎng);IOPS型業(yè)務(wù)性能衡量標(biāo)準(zhǔn)(單位時(shí)間內(nèi)處理的總I/O請(qǐng)求,及每個(gè)I/O處理的時(shí)長(zhǎng)),主要特點(diǎn)是單位時(shí)間內(nèi)I/O請(qǐng)求頻度較高,I/O請(qǐng)求量大,且處理時(shí)間較短;使用同一個(gè)存儲(chǔ)設(shè)備,在混合負(fù)載的情況下主要沖突體現(xiàn)在:CPU調(diào)度策略,帶寬型業(yè)務(wù)與IOPS型業(yè)務(wù)呈現(xiàn)為相反的調(diào)度策略,傳統(tǒng)技術(shù)無(wú)法實(shí)現(xiàn)帶寬型業(yè)務(wù)與IOPS型業(yè)務(wù)計(jì)算性能的雙重保障。

軟件棧調(diào)度策略要求

混合負(fù)載下同樣存在軟件調(diào)用棧處理的邏輯沖突,物理性能瓶頸主要存在網(wǎng)絡(luò)帶寬、硬件帶寬及內(nèi)存帶寬上。要想減少性能瓶頸就要通過(guò)減少網(wǎng)絡(luò)轉(zhuǎn)發(fā)、減少內(nèi)存訪問(wèn)實(shí)現(xiàn)、降低數(shù)據(jù)冗余。繼而與IOPS型業(yè)務(wù)產(chǎn)生沖突,在IOPS的應(yīng)用場(chǎng)景下,性能瓶頸主要集中在CPU算力及軟件調(diào)用棧深度,需要通過(guò)降低I/O請(qǐng)求的放大量,從而降低軟件調(diào)用棧的深度。因此,在同一設(shè)備中,既要保障帶寬型業(yè)務(wù)場(chǎng)景的處理性能,又要確保IOPS型業(yè)務(wù)場(chǎng)景性能,給存儲(chǔ)系統(tǒng)的處理邏輯帶來(lái)了巨大的挑戰(zhàn)。

介質(zhì)訪問(wèn)模型

另外針對(duì)不同的業(yè)務(wù)類型,最佳的訪問(wèn)模型也各不相同。要求I/O越大,通過(guò)磁頭、柱面和扇區(qū)組成的(3D參數(shù))使得磁盤LBA連續(xù)度越高,則帶寬型業(yè)務(wù)的性能越高。然而,針對(duì)IOPS場(chǎng)景,I/O的大小與磁盤管理的顆粒度越匹配,則性能越高。因此,在混合負(fù)載下,主要問(wèn)題體現(xiàn)在,數(shù)據(jù)布局如何兼顧I/O不同需求。

柏科數(shù)據(jù)ISCould分布式存儲(chǔ)可采用多維度創(chuàng)新信息技術(shù)來(lái)解決HPC場(chǎng)景下混合負(fù)載沖突帶寬機(jī)IOPS業(yè)務(wù)共存問(wèn)題,分別通過(guò)一系列關(guān)鍵技術(shù)實(shí)現(xiàn)極致帶寬性能及IOPS性能。

混合負(fù)載性能雙優(yōu)化

通過(guò)I/O直通存儲(chǔ)技術(shù)將前端應(yīng)用寫入的大I/O直通存儲(chǔ)到節(jié)點(diǎn)的存儲(chǔ)層,以減少網(wǎng)絡(luò)帶寬、硬件帶寬及內(nèi)存帶寬的帶寬放大問(wèn)題。小I/O則通過(guò)RDMA直接內(nèi)存訪問(wèn)技術(shù),將分散在其他存儲(chǔ)節(jié)點(diǎn)小I/O進(jìn)行聚合存儲(chǔ),隨即寫入到非易失性高速存儲(chǔ)介質(zhì),可進(jìn)一步降低CPU的消耗。既保證了帶寬型業(yè)務(wù)中帶寬問(wèn)題,又提升了IOPS的性能。同時(shí)采用,分布式糾刪技術(shù),對(duì)元數(shù)據(jù)節(jié)點(diǎn)進(jìn)行存儲(chǔ),可通過(guò)糾刪碼算法將原始數(shù)據(jù)進(jìn)行編碼,不僅保障了數(shù)據(jù)安全性,同時(shí)實(shí)現(xiàn)存儲(chǔ)空間高可用。

柏科數(shù)據(jù)“ISCloud分布式云存儲(chǔ)” 實(shí)力硬核

軟件棧智能調(diào)度

為了進(jìn)一步實(shí)現(xiàn)混合負(fù)載下的最佳性能,通過(guò)CPU智能分組算法及全方位QoS管理技術(shù),來(lái)實(shí)現(xiàn)自適I/O大小的軟件棧調(diào)用能力。軟件棧智能調(diào)度是通過(guò)大小I/O的特點(diǎn),通過(guò)CPU動(dòng)態(tài)分組技術(shù),實(shí)現(xiàn)CPU自動(dòng)歸屬應(yīng)用,為不同要求的I/O實(shí)行專核專用的策略,保障關(guān)鍵業(yè)務(wù)運(yùn)行及IOPS業(yè)務(wù)快速響應(yīng)。同時(shí),ISCould分布式存儲(chǔ)可智能識(shí)別IOPS優(yōu)先級(jí)別,采用全方位QoS管理技術(shù),確保前臺(tái)優(yōu)于后臺(tái)的機(jī)制。充分實(shí)現(xiàn)混合負(fù)載下的極致低時(shí)延。

智能處理策略

目前磁盤管理通常采用Write in place的管理方式,這種管理方式在長(zhǎng)時(shí)間的運(yùn)行之后,由于數(shù)據(jù)及部分文件反復(fù)創(chuàng)建、重刪,會(huì)導(dǎo)致傳統(tǒng)數(shù)據(jù)碎片化嚴(yán)重。大I/O寫入會(huì)被拆解成多個(gè)小I/O,使得磁盤LBA連續(xù)度越低。通過(guò)兩次智能處理策略,首先通過(guò)智能數(shù)據(jù)處理技術(shù),可將數(shù)據(jù)寫入連續(xù)的磁盤空間中,將無(wú)效數(shù)據(jù)在后臺(tái)進(jìn)行垃圾回收。在通過(guò)對(duì)象組智能平衡技術(shù),對(duì)磁盤進(jìn)行實(shí)時(shí)監(jiān)控 、動(dòng)態(tài)計(jì)算, 自動(dòng)調(diào)整磁盤空間。

柏科數(shù)據(jù)“ISCloud分布式云存儲(chǔ)” 實(shí)力硬核

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )