液體冷卻如何克服高性能計算基礎設施相關(guān)挑戰(zhàn)

如今,距離新冠病毒大流行開始已有兩三年時間,為了維持我們?nèi)粘I畹墓δ?,?shù)據(jù)中心各行業(yè)的數(shù)字需求出現(xiàn)了前所未有的繁榮。例如,在醫(yī)療保健領域,遠程醫(yī)療就診次數(shù)增加了63倍,從2019年的84萬次增至2020年的5270萬次。

據(jù)Gartner稱,最終用戶在公共云服務上的支出預計在2022年將達到4820億美元。在《哈佛商業(yè)評論》的一項調(diào)查中,86%的受訪者表示人工智能 (AI) 已成為其組織的主流技術(shù),67%的受訪者表示希望在2021年加速人工智能的采用。這些服務仍然像以往一樣重要,但它們只是觸及了網(wǎng)絡復雜性的表面。

隨著當今的網(wǎng)絡變得更加復雜和分散,增強現(xiàn)實和虛擬現(xiàn)實應用變得更加突出,對實時計算和決策的需求變得更加關(guān)鍵。這種實時需求對延遲很敏感,在企業(yè)、公有云、私有云、托管、邊緣日益普遍的混合模式下,專職人工管理變得越來越困難。

因此,人工智能和機器學習 (ML) 對于優(yōu)化這些網(wǎng)絡的性能并為更多遠程監(jiān)控解決方案讓路至關(guān)重要。5G的持續(xù)推出進一步增加了我們的數(shù)字需求,5G的速度有望比其前身4G快500%,并且企業(yè)競相從2022年232 億美元的預計收入中分得一杯羹。

這些進步不可避免地需要付出代價——計算和熱密度的增加。高性能計算 (HPC) 迅速加速支持AI、ML和5G,解決了眾多企業(yè)業(yè)務挑戰(zhàn)。對于許多數(shù)據(jù)中心運營商來說,這很快就會產(chǎn)生對高密度機柜和數(shù)據(jù)中心的需求,需要改變基礎設施來冷卻這些關(guān)鍵系統(tǒng)。

隨著機架密度接近并超過30千瓦 (kW),無論系統(tǒng)如何優(yōu)化,空氣冷卻系統(tǒng)都可能不夠。盡管空氣冷卻技術(shù)在有效解決不斷增加的密度方面取得了長足的進步,但在某種程度上,空氣根本不具備為高密度機架提供足夠冷卻所需的傳熱特性。忽視這些限制的組織應該預見到更高的能源成本、更低的性能以及最終的延遲實施。

空氣冷卻最可行的替代方案是將液體冷卻引入機架。液體冷卻利用水或其他流體較高的傳熱特性來支持高密度機架的高效且經(jīng)濟高效的冷卻。液體冷卻有多種使用不同技術(shù)的配置,包括后門熱交換器、直接芯片冷卻和浸入式冷卻。

雖然液體冷卻通常被認為是距離主流采用還需要數(shù)年時間的利基應用,但Open19 基金會和開放計算項目等技術(shù)智庫匯聚了行業(yè)領導者,共同應對計算密度持續(xù)增加帶來的挑戰(zhàn)。通過這些合作,行業(yè)領導者取得了巨大進步,并開發(fā)了多種產(chǎn)品,幫助使液體冷卻技術(shù)成為更廣泛受眾的可行解決方案。

簡而言之,液體冷卻的工作原理如下:冷卻液體循環(huán)到嵌入IT設備中的冷板熱交換器。這提供了高效的冷卻,因為冷卻介質(zhì)直接進入IT設備,而不是冷卻整個空間。它的效率比使用空氣高出3000 倍,使密集機架中的中央處理單元 (CPU) 和圖形處理單元 (GPU) 能夠以其最大電壓和時鐘頻率連續(xù)運行而不會過熱。

再加上減少或消除數(shù)據(jù)中心和服務器中空氣流通所需的風扇,可以為液冷數(shù)據(jù)中心帶來顯著的節(jié)能效果。此外,液體冷卻所需的泵比完成相同冷卻所需的風扇消耗更少的功率。

液體冷卻的類型

后門熱交換器是一項成熟的技術(shù),它不會將液體直接輸送到服務器,而是利用液體的高傳熱特性。在無源后門熱交換器中,充滿液體的盤管安裝在機架后門的位置,當服務器風扇將熱空氣吹過機架時,盤管會在空氣進入數(shù)據(jù)中心之前吸收熱量。在主動設計中,集成到設備中的風扇將空氣吸入線圈以增強熱性能。

在直接芯片液體冷卻中,冷板位于服務器主要發(fā)熱組件的頂部,通過單相或兩相過程排出熱量。單相冷板使用循環(huán)到冷板中的冷卻液來吸收服務器組件的熱量。在兩相過程中,低壓介電液體流入蒸發(fā)器,服務器組件產(chǎn)生的熱量使流體沸騰。熱量以蒸汽形式從蒸發(fā)器中釋放出來,并轉(zhuǎn)移到機架外部以進行排熱。

通過浸入式冷卻,機架中的服務器和其他組件浸沒在導熱介電液體或流體中。在單相浸沒系統(tǒng)中,熱量通過與服務器組件直接接觸傳遞到冷卻劑,并通過浸沒槽外部的熱交換器去除。在兩相浸沒式冷卻中,介電流體被設計為具有特定的沸點,可以保護 IT 設備,同時實現(xiàn)高效散熱。服務器發(fā)出的熱量改變了流體的相,上升的蒸汽通過位于水箱頂部的盤管冷凝回液體。

液體冷卻作為持續(xù)成功的路線圖

如果組織計劃使用液體冷卻來支持新的HPC相關(guān)基礎設施要求和挑戰(zhàn),那么除了效率和可靠性之外,還有其他一些好處。這些好處包括:

提高性能:液體冷卻系統(tǒng)不僅可以實現(xiàn)所需的可靠性,還可以帶來 IT 性能優(yōu)勢。當處理器外殼溫度接近最大安全工作溫度時(空氣冷卻可能會發(fā)生這種情況),處理器性能會降低以避免熱失控。

可持續(xù)性:液體冷卻不僅創(chuàng)造了降低數(shù)據(jù)中心能耗并將電力使用效率 (PUE) 降至接近 1.0 的機會,而且還提供了一種更有效的方法來重新利用捕獲的熱量,以減少對建筑供暖系統(tǒng)的需求。系統(tǒng)的回水溫度可以達到60 攝氏度或更高,并且液體到液體的熱傳遞比空氣系統(tǒng)更有效。

最大限度地提高空間利用率:液體冷卻帶來的密度使設施能夠更好地利用現(xiàn)有數(shù)據(jù)中心空間,從而無需擴建或新建,或建造占地面積較小的設施。它還可以在物理空間有限的情況下支持處理密集型邊緣應用程序。

降低總擁有成本 (TCO):在《數(shù)據(jù)中心液冷 IT 設備:總擁有成本》報告中,ASHRAE對風冷數(shù)據(jù)中心與混合(風冷和液冷)數(shù)據(jù)中心進行了詳細的擁有成本分析數(shù)據(jù)中心模型發(fā)現(xiàn),雖然許多變量會影響TCO,但“液體冷卻可以通過更高的密度、增加自然冷卻的使用、提高性能和提高每瓦性能來改善TCO?!?p>對于應對增加機架密度挑戰(zhàn)的組織領導者來說,可能是時候認識到空氣冷卻的局限性并考慮使用液體冷卻來幫助實現(xiàn)能源和可持續(xù)發(fā)展目標。對于那些部署極高密度機架(大于30kW)的人來說,可能沒有其他選擇。

然而,這是一個復雜的過程,因此企業(yè)組織與合適的合作伙伴合作以確保任何液體冷卻部署的成功非常重要。更多信息,可參考白皮書《了解數(shù)據(jù)中心液體冷卻選項和基礎設施要求》。

本文作者:Fred Rebarber 是 Vertiv 熱解決方案高級技術(shù)總監(jiān)

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2023-08-03
液體冷卻如何克服高性能計算基礎設施相關(guān)挑戰(zhàn)
液體冷卻有多種形式,但哪種形式更適合?Vertiv技術(shù)總監(jiān)Fred Rebarber分享了不同的選擇……

長按掃碼 閱讀全文