Liquid Cooling Technology: Takling af køleudfordringerne ved datacentre i AIGC-æraen
Aug 28, 2024
Læg en besked
Med den hurtige udvikling af Artificial Intelligence Generated Content (AIGC) er efterspørgslen efter computerkraft eksploderet, hvilket har ført til en kraftig stigning i strømforbruget og behovene for termisk styring i datacentre. De høje krav til computerressourcer under AI-modeltræning og inferens øger servervarmeproduktionen betydeligt, hvilket hæver barren for køleteknologier. Ifølge en rapport fra Colocation America var den gennemsnitlige effekt pr. kabinet i globale datacentre steget til 16,5 kW i 2020, en stigning på 175 % sammenlignet med 2008. Som følge heraf er væskekølingsteknologi blevet et nyt omdrejningspunkt for datacenterkøling løsninger.
På dette års GTC-konference fremviste NVIDIA ikke kun B200- og GB200-chippene, men fremhævede også den medfølgende væskekølingsteknologi. Derudover afslørede NVIDIAs administrerende direktør Jensen Huang på SIEPR Economic Summit i 2024, at næste generation af DGX GPU-servere fuldt ud ville anvende væskekøling. NVIDIAs beslutning har sat en trend i branchen, der injicerer nyt momentum i udviklingen af væskekølingsteknologi. Efterhånden som AI-teknologien fortsætter med at udvikle sig, bliver betydningen af væskekøling mere og mere tydelig. Væskekølingsteknologi reducerer ikke kun energiforbruget i datacentre markant, men forbedrer også serverens driftseffektivitet og forlænger udstyrets levetid. Derfor bliver væskekøling efterhånden en prioriteret overvejelse for datacenterkøleløsninger.
I Sammenligning af datacenterkølingsmetoder
I øjeblikket er datacenterkølesystemer primært opdelt i to typer: luftkøling og væskekøling. Flydende køleteknologi erstatter luft med et flydende medium for at udveksle varme med serverens varmegenererende komponenter, og dermed transportere varmen væk og sikre, at serveren fungerer stabilt inden for et optimalt temperaturområde. I modsætning hertil er luftkøling afhængig af ventilatorer og klimaanlæg til at sprede varme gennem luftens bevægelse. Væskekøling afkøler de varmegenererende komponenter direkte, hvilket opnår en termisk ledningseffektivitet, der er 25 gange større end luft, med en specifik varmekapacitet 1,000 til 3.500 gange højere, og en konvektiv varmeoverførselseffektivitet, der er 10 til 40 gange større end luft. Under de samme forhold overgår væskekølingsteknologi langt luftkøling i køleeffektivitet.

▲ Datacenter kølesystemer

▲ Væskekølingsteknologi & luftkøling
Sammenlignet med luftkøling giver væskekøling højere køleeffektivitet og lavere energiforbrug. I computermiljøer med høj densitet kæmper luftkølesystemer ofte for at imødekomme kølebehov, hvorimod væskekøling effektivt kan løse denne udfordring. Derudover tilbyder væskekøling fordele såsom lav støj og et mindre fodaftryk, hvilket gør det velegnet til højdensitetskonfigurationer og grønne energibesparende krav i moderne datacentre.
II Hvad driver udviklingen af væskekøling i AI-æraen?
1. Stigende varmeeffekt fra computerchips: Luftkøling når sin grænse
Med den hurtige udvikling af AI-teknologi fortsætter efterspørgslen efter computerkraft med at stige, hvilket fører til stigende varmegenerering og varmefluxtæthed i chips. Når chips fungerer ved høje temperaturer i længere perioder, påvirkes deres ydeevne og levetid negativt, og fejlfrekvensen stiger. Forskning viser, at når en chips driftstemperatur nærmer sig 70-80 grader, kan hver stigning på 10 grader reducere dens ydeevne med omkring 50 %.
I øjeblikket har Intels CPU'er en termisk designeffekt (TDP) på op til 350W, NVIDIAs H100 når 700W, og fremtidens B100 kan nå 1,000W, nærmer sig 800W enkeltpunktskølingsgrænsen for luftkøling. Efterhånden som computerchips strømforbrug fortsætter med at vokse, og med CPU- og GPU-strømforbruget, der tegner sig for omkring 80 % af den samlede AI-serverstrøm, vil fortsat brug af luftkøling føre til en betydelig stigning i behovet for in-row air conditioning. I scenarier med høj densitetskøling giver væskekøling betydelige omkostnings- og ydeevnefordele.
Bortset fra chipsiden er strømtætheden pr. kabinet i datacentre også stigende. Traditionel luftkøling opfylder typisk kabinetkølebehov i området 12KW til 15KW. Ifølge2022 Global Data Center Survey-rapportaf Uptime Institute er den maksimale effekt for en enkelt NVIDIA DGX A100-server 6,5KW, og et standard 42U højkabinet kan rumme omkring fem 5U høj AI-servere med en samlet effekt på over 20KW pr. kabinet. Traditionel luftkøling kan ikke opfylde kølebehovene for AI-serverskabe.
2. Drevet af datacenterets energibesparende behov: Højere PUE-krav
PUE (Power Usage Effectiveness) er en nøgleindikator til evaluering af datacenters energieffektivitet, beregnet som: PUE=Total Data Center Energy Consumption / IT-udstyr Energiforbrug. Jo tættere PUE-værdien er på 1, jo højere er datacentrets energieffektivitet; omvendt, jo højere PUE-værdien er, jo lavere er den samlede effektivitet.
Statistikken opdeler datacentrets strømforbrug i flere dele: IT-udstyr står for 45 %, kølesystemer for 43 %, strømforsyning og distributionssystemer for 10 %, og belysning og anden anvendelse for 2 %. Blandt disse er klimaanlæggets energiforbrug næst efter it-udstyr, så reduktion af klimaanlæggets energiforbrug bliver særligt vigtigt, når it-systemer ikke kan opgraderes.
I forbindelse med de nationale mål om at opnå "carbon peak" og "carbon neutrality" og strategien "Eastern Data, Western Computation" er den nyligt udgivneGrønt datacenter efterspørgselsstandarder for offentlige indkøb (forsøg)stiller strengere PUE-krav.Denne standard foreskriver, at datacenter PUE fra juni 2023 ikke må overstige 1,4, og i 2025 vil kravet være en PUE på højst 1,3. Ifølge data fra CDCC og Inspur Information har datacentre, der bruger luftkøling, typisk en PUE mellem 1,4 og 1,5, mens væskekølingsteknologi kan reducere PUE til under 1,2. Derfor er det blevet en trend at anvende mere energieffektiv og effektiv væskekølingsteknologi.
Energiforbrug i datacentre har længe været i fokus for industriens opmærksomhed, især på baggrund af globale energiressourcebegrænsninger og øget miljøbevidsthed. Forbedring af datacentrets energieffektivitet er særlig afgørende. Væskekølingsteknologi reducerer ved at levere mere effektive køleløsninger klimaanlæggets energiforbrug og sænker derved datacenterets PUE-værdier betydeligt. Denne teknologi hjælper ikke kun med at reducere driftsomkostningerne, men sænker også kulstofemissionerne, hvilket er i overensstemmelse med målene for bæredygtig udvikling.

▲ Datacenters energiforbrug
III Klassificering af Liquid Cooling Technology
Væskekølesystemer kan klassificeres i direkte væskekøling og indirekte væskekøling baseret på, hvordan væsken interagerer med hardwaren. Direkte væskekøling indebærer, at væsken kommer i direkte kontakt med hardwarekomponenterne for at overføre varme. Denne metode kan yderligere opdeles i nedsænkningskøling og spraykøling. Nedsænkningskøling nedsænker hardwarekomponenterne helt i væsken, mens spraykøling involverer at sprøjte væsken direkte på hardwaren.
Indirekte væskekøling bruger på den anden side en mellemliggende komponent (såsom en varmeveksler eller køleplade) til at lede varme væk, hvilket forhindrer væsken i at komme i direkte kontakt med hardwaren. Et almindeligt indirekte væskekølesystem er koldpladevæskekølesystemet, som yderligere kan opdeles i enfaset og tofaset koldpladekøling baseret på om kølemediet gennemgår et faseskift.

▲ Introduktion til væskekølingsmetoder
1. Fra kolde plader til nedsænkningskolde plader
Væskekøleteknologi overfører varme fra varmegenererende komponenter til en kølevæske gennem kolde plader, og kølevæsken spreder derefter varmen gennem dens køleegenskaber. I dette system kommer arbejdsvæsken ikke i direkte kontakt med de elektroniske komponenter, hvilket resulterer i minimale ændringer af computersystemet. Den originale luftkølende køleplade kan blot udskiftes med et væskekølesæt, og kølevæskerørene kan føres uden for chassiset. Denne teknologi er særligt velegnet til kølebehov med middel til høj varmefluxtæthed.
Et koldplade-væskekølesystem består primært af et køletårn, en Coolant Distribution Unit (CDU), primære og sekundære væskekølekredsløb, kølemedium og et væskekølet kabinet. Det primære kredsløb refererer til sløjfen, der afleder varme fra det sekundære kredsløb til udendørsmiljøet eller andre varmegenvindingsenheder, mens det sekundære kredsløb refererer til kredsløbet, der fjerner varme fra serverne og afleder den gennem det primære kredsløb. De to kredsløb udveksler varme gennem CDU'en eller Coolant Distribution Unit.
Arbejdsprincippet for koldpladevæskekølesystemet er relativt enkelt, men i praktiske anvendelser skal der tages hensyn til udformningen af koldpladerne, valg af kølevæsker og systemvedligeholdelse. Derudover fungerer koldplade-væskekølesystemer exceptionelt godt i miljøer med høj varmefluxtæthed, hvilket gør dem særdeles velegnede til højdensitetslayoutkravene i moderne datacentre.

▲ Skematisk diagram af Cold Plate Liquid Cooling System
Nedsænkningsvæskekølesystemer opnår effektiv varmeafledning ved direkte at nedsænke varmegenererende komponenter i ikke-ledende kølevæsker. Afhængigt af om kølevæsken undergår et faseskift under cirkulationen, kan dykvæskekøling opdeles i enfaset dykkøling og tofaset dykkøling.
Ved enfaset dykningskøling gennemgår kølevæsken kun en temperaturændring under varmevekslingsprocessen uden faseændring. Varmeoverførsel er helt afhængig af væskens fornuftige varmeændring og udnytter den egenskab, at væsken udvider sig og falder i densitet, når den opvarmes. Den varmere kølevæske stiger naturligt og afkøles af en ekstern kølekredss varmeveksler. Den afkølede væske synker derefter under tyngdekraften og fuldender afkølingscyklussen. Ved denne metode forbliver kølevæsken i flydende tilstand gennem hele processen. I modsætning hertil involverer tofaset nedsænkningskøling, at kølevæsken undergår en faseændring fra væske til gas under varmeafledning og derefter vender tilbage fra gas til væske.
Et nedsænket væskekølesystem omfatter både indendørs og udendørs komponenter. Udendørssiden omfatter et køletårn, primært rørledningsnetværk og primær kølevæske; indendørssiden inkluderer en kølemiddeldistributionsenhed (CDU), dyktank (skab), it-udstyr, sekundært rørledningsnetværk og sekundær kølevæske. Under brug er IT-udstyret helt nedsænket i kølevæsken, så valget af kølevæske skal tage hensyn til ikke-ledende væsker, såsom silikoneolie eller fluorholdige væsker.

▲ Skematisk diagram af enfaset lmmersion væskekøling
Selvom der findes spraykøling, er dens anvendelse relativt begrænset og ikke egnet til servere med høj tæthed og store datacentre. På kort sigt er koldpladevæskekøling yderst velegnet til kølebehovene i AI-æraen og overgangen af datacentre fra luftkøling til væskekøling på grund af dens modenhed, kompatibilitet med eksisterende systemer, nem vedligeholdelse og lave eftermonteringsomkostninger . I det lange løb vil nedsænkningsvæskekøling med sin fremragende termiske ledningsevne, effektive spildvarmegenvindingsevne og understøttelse af højere skabseffekt være mere egnet til fremtidige datacentres skiftende kølebehov. Især da skabsenhedens strøm fortsætter med at stige, kan nedsænkningsvæskekøling give mere effektive køleløsninger, der hjælper med at reducere den samlede strømforbrugseffektivitet (PUE) i datacentre.
2. Foretrukken valg for intelligente computercentre – væskekøling
Efterhånden som strømtætheden stiger, er flydende køleløsninger ved at blive valget for flere nybyggede GPU-computercentre. Ifølge IDC's "China Semiannual Liquid-Cooled Server Market (H1 2023) Tracker"-rapport nåede det kinesiske væskekølede servermarked 1,51 milliarder dollars i 2023. IDC forudser, at fra 2022 til 2027 vil den sammensatte årlige vækstrate på det kinesiske væskekølede servermarked vil nå op på 54,7 %, med markedsstørrelsen, der forventes at nå 8,9 milliarder dollars i 2027.
Anvendelsen af væskekølingsteknologi i intelligente computercentre forbedrer ikke kun computerydelsen, men reducerer også energiforbruget og driftsomkostningerne betydeligt. Fremme af væskekølingsteknologi vil drive datacentre mod mere effektiv, grøn og intelligent udvikling, hvilket giver et solidt grundlag for at imødekomme databehandlingsbehov i AI-æraen.

▲ Liquid Cooling Server Markedsstørrelse
IV Liquid Cooling Industry Chain
Væskekøleindustriens kæde omfatter tre hovedsegmenter: upstream-produktkomponentleverandører, midstream-væskekølede serverproducenter og downstream-computerkraftbrugere. Blandt de nuværende downstream-brugere fokuserer indenlandske virksomheder som Alibaba på udviklingen af enfaset nedsænkningsvæskekøling, mens andre, såsom Baidu, Tencent og JD.com, hovedsageligt bruger koldplade-væskekøling. I udlandet er nedsænkningskøling mere avanceret end koldpladekøling, hvor førende amerikanske virksomheder som Intel, Google og Meta driver den hurtige udvikling af nedsænkningsvæskekøling, især med AI-understøttelse.

▲ Industrikæde for væskekøling
V Potentielle problemer med Immersion Liquid Cooling Technology
1. Kølevæskevalg
Kølevæske er et af nøgleråmaterialerne i flydende køleteknologi og udgør en høj teknisk barriere. I nedsænkningsvæskekøleteknologi skal kølevæsken komme i direkte kontakt med elektroniske produkter, hvilket stiller høje krav til kølevæskens ydeevne, såsom fremragende termisk ledningsevne, god isolering og materialekompatibilitet. Derudover er miljøegenskaber som lugt, toksicitet og let nedbrydning også vigtige, og kølevæsken skal være så brugervenlig og miljøvenlig som muligt.
De mest almindeligt anvendte nedsænkningskølemidler omfatter i øjeblikket carbonhydrider og organosiliconer (almindeligvis omtalt som "olier", såsom mineralolie) og fluorerede forbindelser (såsom fluorholdige væsker). Fluorholdige væsker har en god samlet ydeevne og betragtes som ideelle flydende kølematerialer. Men den største udfordring med fluorholdige væsker er deres høje omkostninger. Med stadig strengere miljøbeskyttelseskrav er silikoneolie, som har en højere termisk ledningsevne og lavere densitet, også mere miljøvenlig. Valget af kølemedie afhænger hovedsageligt af køleprocessen.
2. Problemer med optisk vejforsegling
Kølemidler såsom fluorholdige væsker eller silikoneolier har fremragende isolerende egenskaber, der effektivt forhindrer kortslutninger. Under lavfrekvente signalforhold har disse kølemidler minimal interferens med signaltransmission. Men under højfrekvente signaler kræver kølevæskens indvirkning på signaltransmissionen omhyggelig vurdering og kontrol. Samlet set er påvirkningen af kredsløb overskuelig.
Med hensyn til optiske veje er de fleste optiske moduler i datacentre designet med ikke-hermetisk emballage, hvilket betyder, at kølevæsken uden passende modifikationer kan trænge ind i det optiske hulrum, hvilket påvirker den optiske ydeevne. Selv med hermetisk emballage forbliver nogle passive optiske veje, såsom linser, uden for det hermetiske kammer.
Designet af optiske veje er typisk baseret på luftens brydningsindeks (ca. 1.0). Når optiske komponenter er nedsænket i en kølevæske, kan kølevæskens brydningsindeks, som adskiller sig fra luft, forårsage ændringer i fokuspunkter og koblingseffektivitet. For eksempel er brydningsindekset for fluoreret olie normalt omkring 1,3, og denne ændring i brydningsindeks kan kræve justeringer af de optiske vejdesignparametre.
For at imødegå den potentielle indvirkning af nedsænkningsvæskekøling på optiske og elektriske veje, tager industrien forskellige foranstaltninger, såsom udvikling af nye optiske modulemballageteknologier tilpasset kølevæskemiljøet, optimering af kredsløbsdesign til højfrekvente signaler og forskning i optiske materialer og strukturer, der er mere egnede til nedsænkningskøling.
3. Integreret levering vs. afkoblet levering
I øjeblikket er der tre leveringsmodeller til koldplade væskekølede servere:
① IT-udstyrssiden leverer kun den væskekølede server;
② IT-siden leverer den "væskekølede server + væskekølede kabinet";
③ IT-siden leverer "væskekølet server + væskekølet kabinet + CDU + sekundært kredsløb".
Den tredje leveringsmodel, integreret levering, hvor hele skabet leveres af samme producent med en selvdefineret standard for integreret design og udvikling, er den mest udbredte. Afkoblet levering involverer at følge brugerdefinerede grænsefladedesignspecifikationer mellem det væskekølede kabinet og den væskekølede server, med kabinettet og serveren leveret af forskellige producenter. Infrastruktur- og serverproducenter skal koordinere og samarbejde. Afkoblet levering er lettere at skalere og implementere fleksibelt.

▲ Koldplade væskekølet serverleveringstilstandsdifferentiering
I øjeblikket er standardiseringsniveauet inden for væskekøleteknologi i Kina relativt lavt. Forskelligt serverudstyr, kølemidler, kølerørledninger og strømforsyningsprodukter varierer i form, og der er ingen ensartet grænsefladestandard, hvilket giver udfordringer for standardisering og anvendelse i stor skala. Hvidbøgerne udgivet af de tre store indenlandske teleoperatører skitserer en tre-årig vision for væskekølingsteknologi, der gradvist verificerer og tester teknologien, med planer om at påbegynde storstilede anvendelser af væskekøling inden 2025. Det forventes, at over 50 % af dataprojekter vil anvende denne teknologi, der fremmer standardisering og storstilet implementering af væskekøling og understøtter afkoblet levering.
