液冷新時(shí)代 智算大有為 浩云長(zhǎng)盛液冷數(shù)據(jù)中心最佳實(shí)踐
浩云長(zhǎng)盛廣州二號(hào)云計(jì)算基地,是華南區(qū)首家大型商用液冷數(shù)據(jù)中心,采用冷板式液冷技術(shù),助力AI算力業(yè)務(wù)降本增效:提升算力性能10%,降低GPU芯片維護(hù)成本50%,節(jié)省IB線纜投資30%。
(資料圖片僅供參考)
低碳與數(shù)字雙驅(qū)動(dòng),未來GPU資源持續(xù)火熱
數(shù)據(jù)中心是國(guó)家信息化戰(zhàn)略的重要基礎(chǔ)設(shè)施底座,發(fā)展的好壞快慢直接影響戰(zhàn)略落地。政策、經(jīng)濟(jì)、社會(huì)、技術(shù)都在為數(shù)據(jù)中心行業(yè)高質(zhì)量發(fā)展提供新動(dòng)能?!丁笆奈濉币?guī)劃》明確指出,到2025年,數(shù)字經(jīng)濟(jì)核心產(chǎn)業(yè)增加值占GDP比重達(dá)到10%,同時(shí)到2025年單位GDP能耗下降13.5%,從發(fā)展規(guī)劃中一葉知秋,中國(guó)數(shù)字經(jīng)濟(jì)既要快速發(fā)展,更要高質(zhì)量發(fā)展。
2023年3月,Open AI的ChatGPT 4.0大模型發(fā)布,將人工智能的應(yīng)用推向了新的高度,該模型在許多專業(yè)測(cè)試中的表現(xiàn)“超出了人類水平”,“比以往任何時(shí)候都更具創(chuàng)造性和協(xié)作性”,“可以更準(zhǔn)確地解決難題”,ChatGPT單月訪問量突破10億次。與此同時(shí),各個(gè)行業(yè)都在積極探索人工智能與行業(yè)結(jié)合之路,如微軟將ChatGPT接入Office 365,工作效率成倍增加。
這一股AI浪潮也沖擊了算力基礎(chǔ)設(shè)施底座。人工智能深度神經(jīng)網(wǎng)絡(luò)算法(DNL)需要處理大量且并行的卷積運(yùn)算,而GPU顯卡則能很好地匹配這種特性?;跇I(yè)務(wù)側(cè)的帶動(dòng),加上A100的禁售,用于大模型訓(xùn)練的GPU一卡難求,價(jià)格變化更是按天衡量,8卡H100服務(wù)器從60萬到150萬只用了3個(gè)月的時(shí)間。未來,GPU短缺的趨勢(shì)可能會(huì)維持,OpenAI的ChatGPT GPT 4.0在大約10000-25000張A100上進(jìn)行了訓(xùn)練,而GPT 5.0將可能需要30000-50000個(gè)H100。
低碳高密 風(fēng)退液進(jìn)
這一系列宏觀環(huán)境的變化,對(duì)數(shù)據(jù)中心行業(yè)發(fā)展方向產(chǎn)生了諸多影響,風(fēng)冷末端到底能不能適應(yīng)這一變化?在我們看來,風(fēng)冷不能很好匹配業(yè)務(wù)需求的變化。
首先,風(fēng)冷不能很好應(yīng)對(duì)PUE挑戰(zhàn),目前各省對(duì)數(shù)據(jù)中心PUE已經(jīng)有明確的指導(dǎo),以廣東省為例,廣東省工業(yè)和信息化廳印發(fā)了廣東省5G基站和數(shù)據(jù)中心(IDC)總體布局規(guī)劃(2021-2025)的通知,新建數(shù)據(jù)中心PUE不高于1.3,這對(duì)于廣東地區(qū)來說,是非常具備挑戰(zhàn)性要求。
其次,風(fēng)冷的散熱效率和制冷精度不夠高。GPU芯片的功耗一定是趨向高密的,英偉達(dá)GPU A100/H100 單卡功率接近400W,芯片熱流密度 50W/平方厘米,4U整機(jī)服務(wù)器功率接近 5.5kW/臺(tái),英偉達(dá)主推的下一代算力卡,A800/H800算力是上一代的3倍,價(jià)格只有原來的2倍,功耗接近2倍,單卡功率接近700W,熱流密度87.5W/平方厘米,4U整機(jī)接近9kW,算力硬件功率越來越高,芯片熱流密度越來越大,傳統(tǒng)風(fēng)冷難匹配:
1. 風(fēng)冷制冷效率低,不適合高功率機(jī)柜。風(fēng)冷密閉通道支持的合理功率區(qū)間4~6kW,但單個(gè)4U的H800整機(jī)已經(jīng)接近9kW,此時(shí)風(fēng)冷制冷對(duì)于如此高密設(shè)備的散熱有點(diǎn)力不從心,少量服務(wù)器場(chǎng)景下,能采用隔機(jī)柜部署方式應(yīng)急,這種非集約化部署模式在規(guī)模化的算力場(chǎng)景下,散熱效果并不佳,個(gè)別客戶會(huì)把GPU服務(wù)器外殼打開,增加散熱面積。這種部署方式?jīng)]有經(jīng)過專業(yè)的CFD仿真驗(yàn)證,既不安全,又會(huì)造成機(jī)柜資源浪費(fèi)。
2. 風(fēng)冷制冷對(duì)于熱源(GPU)的制冷不夠精準(zhǔn)。純氣流組織散熱支持的芯片熱流密度極限約10W/平方厘米,達(dá)不到H800對(duì)散熱效率的要求。芯片長(zhǎng)期工作在高溫狀態(tài),會(huì)導(dǎo)致性能降低,英偉達(dá)同樣性能服務(wù)器,液冷版本和風(fēng)冷版本性能差距在10%;同時(shí),根據(jù)“十度法則”,從室溫起,電子元器件每增加十度,失效率增加一倍,壽命也會(huì)降低,GPU備件失效率增加,繼而導(dǎo)致整個(gè)生命周下期算力成本增加。
實(shí)踐中常常會(huì)有通道溫度低,但是芯片溫度高的情況發(fā)生,長(zhǎng)時(shí)間高溫運(yùn)行,GPU的壽命短和性能低,導(dǎo)致經(jīng)濟(jì)成本和時(shí)間成本都增加,由此可見在算力場(chǎng)景,風(fēng)冷并不是最合適的。液冷是通過高比熱容的冷液直接帶走熱量,這種高效的散熱方式逐漸進(jìn)入大家的視野。
液冷解決方案,是GPU算力的最優(yōu)解
浩云長(zhǎng)盛廣州二號(hào)云計(jì)算基地,位于廣東省廣州市番禺區(qū),大灣區(qū)的中心和智能汽車產(chǎn)業(yè)中心(雙中心),本項(xiàng)目按照國(guó)標(biāo)CQC A級(jí)標(biāo)準(zhǔn)設(shè)計(jì),定位為智能制造AI算力基地,是華南區(qū)首家大規(guī)模商用液冷數(shù)據(jù)中心,支持功率密度8~19KW以上,單系統(tǒng)PUE 1.1以下,為華南區(qū)智能制造、AI超算高質(zhì)量發(fā)展提供可靠數(shù)字基礎(chǔ)設(shè)施底座。
冷板式液冷基本原理
液冷基本原理是采用液體作為傳熱工質(zhì)在冷板內(nèi)部流道流動(dòng),通過熱傳遞對(duì)熱源實(shí)現(xiàn)冷卻的非接觸液體冷卻技術(shù)。在冷板式液冷系統(tǒng)中,需要專用的液冷服務(wù)器,服務(wù)器芯片等發(fā)熱器件不直接接觸液體,而是通過裝配在需要冷卻的電子元器件上的冷板進(jìn)行散熱,達(dá)到精確制冷的目的,讓GPU運(yùn)行溫度更低。
二次側(cè)采用25%乙二醇加去離子水的混合液,保障換熱高效的同時(shí)兼顧安全穩(wěn)定。進(jìn)水溫度35-45℃范圍之間,出水溫度在45-55℃左右,進(jìn)出水溫高,系統(tǒng)通過自然冷卻為芯片降溫,降低系統(tǒng)PUE。一次側(cè)和二次側(cè)通過板換實(shí)現(xiàn)熱交換,二次側(cè)的水泵將熱量從板換中帶出到冷卻塔散掉。
整個(gè)系統(tǒng)來看,跟傳統(tǒng)的制冷方式是有區(qū)別的:
1. 換熱次數(shù)少,傳統(tǒng)冷機(jī)系統(tǒng)5次換熱,冷板液冷3次,更少的冷量損耗;
2. 精準(zhǔn)散熱,冷板式液冷能夠針對(duì)GPU芯片單點(diǎn)降溫,且冷液的比熱容是空氣的4倍,換熱效率更高,對(duì)GPU更友好;
3. 無壓縮機(jī),風(fēng)扇等部件,系統(tǒng)PUE更低,設(shè)備噪音更小。
冷板式液冷對(duì)比傳統(tǒng)氣流交換方式,在綜合性能上有質(zhì)的飛躍,更貼合算力業(yè)務(wù)的特點(diǎn),液冷系統(tǒng)單柜功率密度支持19kW以上,能提高散熱效率,降低GPU工作溫度達(dá)20℃以上。
當(dāng)然,浩云長(zhǎng)盛認(rèn)為目前最佳的方案,應(yīng)該是風(fēng)液結(jié)合的方案,通道散熱風(fēng)液結(jié)合,液冷協(xié)助GPU散熱,風(fēng)冷作為輔助散熱,帶走其余部件的熱量;液冷機(jī)柜和風(fēng)冷機(jī)柜混合部署,客戶的普通機(jī)柜和算力機(jī)柜能夠就近協(xié)作,提升配合效率,且方便維護(hù)。
液冷是算力業(yè)務(wù)的剛需
過去,對(duì)于最終用戶來說,用什么樣的制冷方式并不重要,風(fēng)冷,水冷,間接蒸發(fā),只要能達(dá)到功率需求都可以接受,但是在算力時(shí)代,思維方式可能要做一些改變了,因?yàn)樗懔Y產(chǎn)越來越難獲取,也越來越昂貴,而制冷方式的匹配與否,直接影響到業(yè)務(wù)上線速度和投資成本。
第一,相對(duì)風(fēng)冷制冷環(huán)境,液冷能夠提升GPU性能10%。根據(jù)設(shè)定,GPU長(zhǎng)期高溫運(yùn)行性能會(huì)降低,液冷能提供高效的熱散能力,提升GPU使用性能,根據(jù)OPPO算力團(tuán)隊(duì)在IDCC論壇上表示,通過驗(yàn)證,同樣的算力配置,服務(wù)器在液冷方式下運(yùn)行比風(fēng)冷效率提升約10%,意味著同樣的算力,液冷的學(xué)習(xí)周期比風(fēng)冷短10%,業(yè)務(wù)能更早搶占市場(chǎng)。
第二,液冷能夠降低IB線纜部署成本30%以上。單臺(tái)H800服務(wù)器4U即達(dá)9kW,采用傳統(tǒng)的風(fēng)冷制冷,單柜僅能放置1臺(tái),且需隔機(jī)柜部署,如果采用冷板式液冷方式,單柜可直接布置2臺(tái)H800服務(wù)器,無需隔機(jī)柜部署。以單排微模塊15個(gè)機(jī)柜為例, 7臺(tái)H800服務(wù)器需要14個(gè)機(jī)柜位,線纜總長(zhǎng)度49A(A為相鄰兩個(gè)機(jī)柜間的平均線纜連接距離),如果每柜可以放2臺(tái),則只需要4個(gè)機(jī)柜位置(如下圖),線纜總長(zhǎng)度16A,IB線纜長(zhǎng)度節(jié)省超50%以上,而IB線纜每根價(jià)格在萬元級(jí)別,長(zhǎng)度越長(zhǎng)價(jià)格越貴??紤]到價(jià)格與長(zhǎng)度的關(guān)系非線性,且與場(chǎng)景有關(guān),項(xiàng)目節(jié)省線纜金額在30%以上。
風(fēng)冷部署與液冷部署線纜使用長(zhǎng)度對(duì)比
我們相信,傳輸距離變短也會(huì)有利于算力模塊之間的數(shù)據(jù)共享速率提升。有客戶明確要求,服務(wù)器到IB交換機(jī)柜的走線距離小于30米。
第三,液冷能夠降低GPU維護(hù)成本50%,提升投資收益。液冷冷板針對(duì)GPU精準(zhǔn)、高效的散熱,降低GPU使用溫度可達(dá)20℃,根據(jù)“十度法則”,GPU故障率減少至少50%(在風(fēng)冷故障率基礎(chǔ)之上),繼而減少GPU備件購(gòu)買量,未來GPU市場(chǎng)的不確定性,也會(huì)導(dǎo)致GPU的采購(gòu)難度會(huì)加大,采購(gòu)成本增加,因此維持較低的GPU故障率能夠節(jié)省投資成本和時(shí)間成本,更不會(huì)因?yàn)镚PU卡緊缺,而影響業(yè)務(wù)連續(xù)性。
綜上,對(duì)于最終客戶來說,隨著未來技術(shù)的迭代,GPU功耗增加,液冷已經(jīng)不再是改善需求,而是智能算力的剛需。
關(guān)鍵詞:
您可能也感興趣:
今日熱點(diǎn)
為您推薦
為什么大家千萬不要領(lǐng)失業(yè)補(bǔ)助金,領(lǐng)了失業(yè)補(bǔ)助金有什么后果?
SPD概念持續(xù)走低 開開實(shí)業(yè)跌停
專家稱金價(jià)上破2000美元后會(huì)下跌,漲到6000美元不可想象!
排行
- 液冷新時(shí)代 智算大有為 浩云長(zhǎng)盛液冷數(shù)據(jù)中心最佳實(shí)踐
- 古裝劇雷同現(xiàn)實(shí)劇抬頭 "腦洞劇"走紅反映觀眾訴求
- 來不及減肥也可以瘦5斤
- 南京老舊小區(qū)增梯 已有1463部簽訂協(xié)議
- 2018型男們的選包方案!
- 新房裝好一年多墻壁脫落
- 制造行業(yè)升級(jí)大勢(shì)所趨 可加速制造強(qiáng)國(guó)建設(shè)步伐
- 我國(guó)首個(gè)海上智能氣田群——東方氣田群全面建成
- 全新智能產(chǎn)業(yè)體系建立,中國(guó)智能產(chǎn)業(yè)將邁上更高的臺(tái)階
- 上海浦東新區(qū)人工智能技能大賽舉行
最近更新
- 液冷新時(shí)代 智算大有為 浩云長(zhǎng)盛液冷數(shù)據(jù)中心最佳實(shí)踐
- 瑞馳新能源全新電動(dòng)物流車EC75曝光
- 匯聚各方資源 助力基層治理(基層治理新實(shí)踐)
- 杭州亞運(yùn)讓辦賽更智能
- 海嘉國(guó)際雙語(yǔ)學(xué)校天津校區(qū)高中能接受貫通轉(zhuǎn)學(xué)生嗎?
- 上海歡樂谷地圖游樂設(shè)施名稱_上海歡樂谷地圖
- 伊朗外長(zhǎng):希望加速加入金磚國(guó)家
- 品鑒 | 大俗大雅一柄扇
- 青島市中心醫(yī)院招聘一名早八晚五文員?醫(yī)院辟謠
- ?兵變落幕后首發(fā)影片招兵,瓦格納創(chuàng)始人普里戈任疑在非洲
- 懷柔娃的一次人生體驗(yàn)課~
- 標(biāo)普下調(diào)美國(guó)多家銀行信用評(píng)級(jí):經(jīng)營(yíng)形勢(shì)嚴(yán)峻
- 四川榮縣試點(diǎn)城市森林花園住宅:每戶設(shè)置1處外挑空中花園 不...
- 大學(xué)校園是否應(yīng)向公眾開放?上海多所學(xué)校已開放 有的還預(yù)約不上
- 哪吒汽車發(fā)布“浩智技術(shù)品牌2.0” 超算、滑板底盤等新技術(shù)亮相
- 中國(guó)印鈔造幣集團(tuán)有限公司原董事陳義清被查
- 李蓓再唱多 其他私募這么說
- 貴州省人民政府發(fā)布任免職通知
- 10萬元獎(jiǎng)金征集改造點(diǎn)子,廣州村鎮(zhèn)工業(yè)集聚區(qū)設(shè)計(jì)大賽啟動(dòng)
- 信用賦能營(yíng)商環(huán)境優(yōu)化,山東2018年以來已取消各類實(shí)體證明1560余類
- 肥城:筑牢安全防線,打好安全生產(chǎn)翻身仗
- 長(zhǎng)沙2個(gè)鎮(zhèn)入選2023鎮(zhèn)域經(jīng)濟(jì)500強(qiáng)!
- 無錫上哪家醫(yī)院割包皮好,無錫陽(yáng)痿哪家治得好
- 網(wǎng)絡(luò)安全風(fēng)險(xiǎn)管理的十大關(guān)鍵要素
- 《大仙俠》首發(fā)定檔確定通知
- 山東赫達(dá)(002810):技術(shù)指標(biāo)出現(xiàn)看漲信號(hào)-KDJ 低位金叉(08-22)
- 安徽省黃山市發(fā)布暴雨橙色預(yù)警
- 月餅不能這么賣!山西省市場(chǎng)監(jiān)督管理局提示
- 主產(chǎn)區(qū)累計(jì)收購(gòu)小麥超5000萬噸 旺季收購(gòu)進(jìn)度已超八成
- 加長(zhǎng)版“三伏天”結(jié)束, 咸寧本周天氣……
今日要聞
- 品鑒 | 大俗大雅一柄扇
- 網(wǎng)絡(luò)安全風(fēng)險(xiǎn)管理的十大關(guān)鍵要素
- 新鄉(xiāng)學(xué)院??埔嗌俜?新鄉(xiāng)學(xué)院專科
- 豬場(chǎng)五大消毒漏洞,看看自己的養(yǎng)豬場(chǎng)是不是也存在這些漏洞?
- 樓宇經(jīng)濟(jì)轉(zhuǎn)向精耕細(xì)作
- 貓頭鷹車志:法拉第未來第二季度凈虧損1.25億美元 安凱客車上半年凈虧損6617萬元
- “三張榜單”的榜樣力量——崇陽(yáng)創(chuàng)新鄉(xiāng)村治理新路徑解讀
- 環(huán)保板塊觸底反彈,啟迪環(huán)境漲停
- 4歲女童穿刺時(shí)被扎破心臟,命喪手術(shù)臺(tái)!院方回應(yīng)
- 購(gòu)買火車票請(qǐng)注意!今起12306有這些變化