人工智能 (AI) 和高性能計算 (HPC) 的爆炸式增長正以前所未有的速度重塑各行各業(yè)。從醫(yī)療保健和金融到自動駕駛汽車和先進(jìn)機(jī)器人技術(shù),人工智能驅(qū)動的應(yīng)用正在徹底改變我們的工作、生活以及與科技互動的方式。隨著人工智能模型變得越來越復(fù)雜——需要處理海量數(shù)據(jù)并每秒執(zhí)行數(shù)萬億次計算——對計算能力的需求也隨之飆升。
這場革命的核心是數(shù)據(jù)中心,它是推動人工智能和云計算發(fā)展的關(guān)鍵基礎(chǔ)設(shè)施。這些龐大的計算中心負(fù)責(zé)處理和存儲訓(xùn)練和部署人工智能模型所需的不斷增長的數(shù)據(jù)量。然而,人工智能工作負(fù)載的激增也帶來了高昂的成本:更高的功耗、更大的發(fā)熱量以及對冷卻系統(tǒng)的壓力。
傳統(tǒng)的數(shù)據(jù)中心冷卻方法(例如風(fēng)冷和液冷)正被推向極限。現(xiàn)代人工智能工作負(fù)載的密度意味著服務(wù)器的運(yùn)行溫度比以往任何時候都高,導(dǎo)致過熱、性能下降和硬件故障的風(fēng)險不斷增加。最新的人工智能服務(wù)器機(jī)架將16個燃?xì)鉄緺t的熱量塞進(jìn)一個電話亭大小的空間。為了保持峰值效率并避免代價高昂的停機(jī),數(shù)據(jù)中心運(yùn)營商必須不斷平衡能耗、制冷能力和可持續(xù)性目標(biāo)。
更為復(fù)雜的是,AI 工作負(fù)載不僅需要在服務(wù)器層面,也需要在芯片層面實現(xiàn)高效的散熱。GPU 和 TPU 等下一代 AI 處理器產(chǎn)生的熱量遠(yuǎn)超傳統(tǒng) CPU,因此需要更精準(zhǔn)的熱管理解決方案。最新 GPU 的發(fā)熱量是熨斗的十倍。隨著 AI 的加速普及,數(shù)據(jù)中心創(chuàng)新散熱策略的壓力只會越來越大。
為了跟上 AI 驅(qū)動的未來,業(yè)界必須擴(kuò)展和超越傳統(tǒng)的散熱方法,探索能夠優(yōu)化效率、可擴(kuò)展性、精度和環(huán)境影響的全新解決方案。在不影響性能的情況下有效管理熱量的能力將成為數(shù)據(jù)中心如何發(fā)展和競爭,以及 AI 如何在未來幾年持續(xù)擴(kuò)展的決定性因素。
人工智能數(shù)據(jù)中心日益嚴(yán)峻的散熱挑戰(zhàn)
人工智能和高性能計算 (HPC) 工作負(fù)載產(chǎn)生的熱量遠(yuǎn)超傳統(tǒng)計算任務(wù)。與傳統(tǒng)應(yīng)用不同,人工智能需要圖形處理單元 (GPU) 和張量處理單元 (TPU) 等專用硬件,這些硬件的運(yùn)行功率密度極高。這些芯片的高溫需要更復(fù)雜的冷卻機(jī)制,從而帶來諸多挑戰(zhàn):
能源消耗:冷卻系統(tǒng)能耗占數(shù)據(jù)中心總能耗的近 40%。隨著人工智能將計算能力推向新的高度,冷卻能源需求也隨之飆升。
基礎(chǔ)設(shè)施壓力:許多數(shù)據(jù)中心最初的設(shè)計并非針對人工智能帶來的極端熱負(fù)荷,導(dǎo)致現(xiàn)有冷卻系統(tǒng)的磨損加劇。現(xiàn)代化的人工智能數(shù)據(jù)中心產(chǎn)生的熱量足以讓底特律市在整個密歇根州的冬天保持溫暖。
可持續(xù)發(fā)展壓力:全球?qū)G色數(shù)據(jù)中心的追求意味著企業(yè)必須在性能與環(huán)境責(zé)任之間取得平衡,因此節(jié)能冷卻成為優(yōu)先事項。
可擴(kuò)展性問題:隨著人工智能的普及,數(shù)據(jù)中心必須能夠高效地擴(kuò)展其冷卻能力,而無需進(jìn)行成本高昂且破壞性的基礎(chǔ)設(shè)施檢修。
傳統(tǒng)冷卻方法的局限性
歷史上,數(shù)據(jù)中心一直依賴空氣冷卻(使用風(fēng)扇和空調(diào)機(jī)組)來管理散熱。事實上,最近的估計表明,目前多達(dá) 80% 的數(shù)據(jù)中心采用空氣冷卻。雖然空氣冷卻對于傳統(tǒng)工作負(fù)載有效,但人工智能系統(tǒng)不斷增長的熱量輸出可能會超過傳統(tǒng)空氣冷卻的設(shè)計承載能力。因此,空氣冷卻效率低下的問題可能會浮現(xiàn)出來,導(dǎo)致能源消耗過高和運(yùn)營成本上升。更復(fù)雜的是,如今許多空氣冷卻數(shù)據(jù)中心的運(yùn)營商不愿在短期內(nèi)進(jìn)行改造或進(jìn)行大規(guī)模的基礎(chǔ)設(shè)施投資,因此,提高現(xiàn)有空氣冷卻設(shè)施的效率和性能既極具吸引力,也需要新的思維和方法。
液體冷卻已成為一種替代方案,通過直接芯片冷卻或浸入式冷卻技術(shù)提供更強(qiáng)大的散熱能力。然而,液體冷卻本身也面臨挑戰(zhàn),并且肯定存在一些相對局限性:
復(fù)雜性和維護(hù):液體冷卻系統(tǒng)需要大量的管道、專用泵以及日常維護(hù),以防止泄漏或污染。
基礎(chǔ)設(shè)施檢修:改造現(xiàn)有數(shù)據(jù)中心以適應(yīng)液體冷卻可能是一個成本高昂且后勤困難的過程。
泄漏風(fēng)險:液體冷卻系統(tǒng)中的任何泄漏都可能導(dǎo)致嚴(yán)重的硬件損壞和運(yùn)行中斷。
雖然液體冷卻可以改善熱管理,但其缺點(diǎn)意味著數(shù)據(jù)中心運(yùn)營商需要充分評估液體冷卻在其特定應(yīng)用中固有的相對機(jī)會和風(fēng)險。現(xiàn)實情況是,在高峰需求期間通常響應(yīng)緩慢,這迫使許多液體冷卻設(shè)施為最壞情況的負(fù)載進(jìn)行配置,這必然會導(dǎo)致一定程度的浪費(fèi)。考慮固態(tài)高響應(yīng)動態(tài)冷卻的可能性,它可以通過提供按需冷卻來釋放降低冷卻能耗的機(jī)會。
網(wǎng)絡(luò)?需求顯而易見,但沒有萬能的解決方案。然而,我們可以通過拓展思路,最大限度地提升現(xiàn)有解決方案的性能,并構(gòu)建全新的冷卻方式,從而重新審視固態(tài)冷卻的各種可能性。
全新冷卻解決方案的需求
為了滿足人工智能和高性能計算 (HPC) 的需求,同時降低能耗并實現(xiàn)所需的功率和性能,業(yè)界必須尋求更先進(jìn)的冷卻解決方案。理想的方法應(yīng)該是:
可擴(kuò)展:能夠適應(yīng)不斷增長的人工智能工作負(fù)載,而無需大規(guī)模改造基礎(chǔ)設(shè)施。
可靠且維護(hù)成本低:消除泄漏或系統(tǒng)故障等可能影響運(yùn)營的風(fēng)險。
節(jié)能:在不犧牲性能的情況下減少冷卻能耗。
可持續(xù):有助于降低碳排放并符合企業(yè)可持續(xù)發(fā)展目標(biāo)。
新興冷卻技術(shù)(包括創(chuàng)新的固態(tài)冷卻方法)為應(yīng)對這些挑戰(zhàn)提供了有前景的解決方案。通過利用基于半導(dǎo)體的熱管理,這些先進(jìn)的系統(tǒng)可以提供精確、快速響應(yīng)的局部冷卻,從而提高效率并降低運(yùn)營復(fù)雜性。
人工智能驅(qū)動數(shù)據(jù)中心的未來
隨著人工智能不斷突破計算界限,業(yè)界必須重新思考其數(shù)據(jù)中心冷卻方案。投資新的熱管理解決方案不僅可以確保持續(xù)的性能優(yōu)化,還能幫助數(shù)據(jù)中心降低能耗、降低成本,并為全球可持續(xù)發(fā)展做出貢獻(xiàn)。
數(shù)據(jù)中心運(yùn)營商和行業(yè)領(lǐng)導(dǎo)者必須積極主動地采用創(chuàng)新的冷卻技術(shù),以確保其基礎(chǔ)設(shè)施面向未來發(fā)展。如此一來,他們才能確保人工智能的快速發(fā)展仍然是推動其進(jìn)步的動力,而不會給支持它的系統(tǒng)帶來巨大的負(fù)擔(dān)。