- Seiring meningkatnya kepadatan daya server AI, pendinginan menjadi hambatan utama dalam biaya pusat data dan penggunaan air, dan NVIDIA mengusung desain yang mengoperasikan cairan pendingin hingga 45°C pada generasi Rubin
- Infrastruktur AI generasi Rubin menggunakan arsitektur pendinginan cair 100% yang mendinginkan chip hingga komponen jaringan tanpa kipas, dengan loop tertutup dan dry cooler sebagai inti
- Di iklim yang menguntungkan, penggunaan air sekitar 2,6 juta galon per megawatt per tahun yang dipakai sistem berbasis menara pendingin konvensional dapat diturunkan hampir menjadi nol, dengan penghematan hingga 100%
- Cairan pendingin 45°C menyerap panas dari chip dan keluar pada sekitar 55°C, namun tetap berada dalam batas operasi yang tervalidasi, sehingga server jauh lebih sedikit bergantung pada udara dingin
- Pendinginan cair penuh mengurangi kipas, lorong dingin/panas, dan ruang infrastruktur pendinginan udara, sekaligus meningkatkan kepadatan rak untuk menurunkan beban biaya pendinginan seiring meningkatnya permintaan komputasi AI
Pendinginan cair 100% pada generasi Rubin
- Server AI terbaru NVIDIA dapat mengoperasikan cairan pendingin hingga 45°C, atau 113°F
- Infrastruktur AI NVIDIA generasi Rubin mencapai pendinginan cair 100%, yang mendinginkan semua chip dan komponen jaringan dengan cairan
- Tidak ada kipas di bagian mana pun dari sistem
- Pendinginan berlangsung di dalam loop tertutup
- Pendekatan ini termasuk dalam desain referensi AI factory NVIDIA DSX, yang memuat praktik terbaik untuk merancang, membangun, dan mengoperasikan stack infrastruktur AI factory
- Ketika tiap generasi meningkatkan performa komputasi per watt, infrastruktur komputasi AI dengan pendinginan cair penuh dapat secara signifikan mengurangi konsumsi energi pendinginan di pusat data hyperscale
Arsitektur yang mengurangi penggunaan air dan listrik
- Desain referensi AI factory NVIDIA DSX menargetkan konsumsi air nol, dengan arah mengurangi penggunaan listrik besar dan hampir seluruh penggunaan air
- Desain berbasis dry cooler adalah sistem loop tertutup sehingga tidak menggunakan pendinginan air evaporatif
- Di sebagian iklim, chiller mungkin hanya dibutuhkan sekitar 1% sepanjang tahun
- Secara historis, pendinginan menyumbang hingga 40% dari konsumsi listrik pusat data
- Menurut estimasi industri, menaikkan suhu chiller plant sebesar 1°C dapat mengurangi biaya energi pendinginan sekitar 4%
- Fasilitas hyperscale 50MW dapat menghemat biaya energi dan air terkait pendinginan lebih dari 4 juta dolar AS per tahun jika beralih ke infrastruktur pendinginan cair
- Di iklim yang menguntungkan, arsitektur pendinginan cair 45°C memungkinkan operasi tanpa chiller, dan dapat menurunkan penggunaan air sekitar 2,6 juta galon per megawatt per tahun pada sistem berbasis menara pendingin konvensional menjadi hampir nol
Pusat data yang dingin tidak selalu efisien
- Di industri, sudah lama ada anggapan bahwa pusat data yang dingin itu efisien
- Kenyataannya, chip dapat beroperasi di lingkungan yang jauh lebih hangat daripada yang dibayangkan secara intuitif
- Saat cairan pendingin 45°C masuk ke chip dengan pendinginan cair penuh, cairan menyerap panas di permukaan chip dan keluar pada sekitar 55°C
- Dalam proses ini pun performa tidak menurun
- Cold plate pendinginan cair menjaga suhu perangkat tetap berada dalam batas operasi yang tervalidasi
- Meski cairan pendingin yang masuk ke rak bersuhu 45°C, prosesor tetap berjalan pada performa maksimum
- Karena server tidak bergantung pada udara dingin, suhu udara sekitar di pusat data dapat diatur dengan lebih fleksibel
Struktur server dengan kipas dan lorong dingin/panas yang lebih sedikit
- Pusat data tradisional sangat bergantung pada kebisingan kipas dan pengelolaan lorong dingin/panas
- Kipas pendingin dapat menaikkan kebisingan keseluruhan hingga 85dB atau lebih
- Tingkat ini cukup keras hingga memerlukan pelindung telinga
- Arsitektur Rubin mengalihkan pendinginan dari aliran udara ke loop cairan
- Cairan pendingin terdiri dari 75% air dan 25% propilena glikol
- Cairan pendingin ini melewati cold plate yang ditempatkan langsung di atas prosesor dan menyerap panas dari sumbernya
- Dengan mengoperasikan cairan pendingin hingga 45°C, di banyak iklim loop fasilitas dapat membuang panas tanpa chiller mekanis dan kipas yang bising
- Di wilayah yang sesuai, unit distribusi pendinginan menangkap panas dari sumbernya dan mengirimkannya ke dry cooler, yaitu kumparan radiator besar di luar bangunan
- Loop diisi sekali lalu dioperasikan dalam kondisi tertutup sepanjang umur fasilitas
- Ruang yang ditempati di dalam AI factory jauh lebih kecil dibandingkan infrastruktur pendinginan udara tradisional
Kondisi iklim dan pemanfaatan panas buangan
- Kondisi geografis adalah batasan penting
- Pusat data di Scottish Highlands dan pusat data di Phoenix, Arizona memiliki realitas pendinginan yang berbeda
- Bahkan di iklim hangat, cairan pendingin 45°C membuat operasi lebih mendekati tanpa chiller
- Chiller mungkin hanya menyala selama beberapa hari ketika suhu udara luar menuntutnya
- Model AI factory baru juga menyediakan kemungkinan pemulihan panas buangan
- Panas berlebih dari operasi AI factory dapat digunakan kembali untuk pemanas bangunan komersial atau hunian di sekitarnya
Perubahan rekayasa untuk pendinginan cair penuh
- Server pendinginan cair sebelumnya menggunakan arsitektur hibrida
- GPU dan CPU menggunakan cold plate
- Bagian sistem lainnya bergantung pada heatsink bersirip dan pendinginan udara
- Pada server pendinginan cair penuh, metode pendinginan komponen-komponen ini harus didesain ulang berbasis cairan
- Tim rekayasa termal NVIDIA menyederhanakan cara memasok cairan ke beberapa chip berdaya tinggi
- Cairan diarahkan ke beberapa chip pada board melalui satu saluran masuk dan satu saluran keluar
- Hasilnya adalah arsitektur pendinginan tingkat tray yang lebih rapi
- Bentuk server dan kepadatan instalasinya juga berubah
- Server Rubin memiliki panel depan yang bersih dan tertutup, bukan bezel berlubang seperti pada server berpendingin udara
- Server pendinginan cair penuh memungkinkan kepadatan rak yang lebih tinggi dibandingkan server berpendingin udara
- Sistem yang sebelumnya menempati 6U kini masuk ke 2U, menyediakan lebih banyak komputasi dengan ruang dan kebisingan yang lebih sedikit
Ekspansi infrastruktur AI dan efisiensi pendinginan
- Workload AI tidak semakin ringan
- Permintaan komputasi yang mendorong pembangunan pusat data tumbuh lebih cepat daripada hampir semua kategori investasi infrastruktur
- Tanpa peningkatan efisiensi dalam cara pendinginan komputasi, biaya energi untuk operasi AI berskala besar akan meningkat seiring bertambahnya perangkat keras
- Pendinginan cair hingga 45°C menjadi alat untuk mempersempit kesenjangan antara ekspansi perangkat keras dan biaya pendinginan
1 komentar
Pendapat di Hacker News
Syarat “wilayah dengan udara luar yang stabil sejuk” itulah jebakannya
Terdengar seperti “mari bangun data center di tempat dingin untuk menghemat sumber daya pendinginan, lalu buang seluruh panas limbahnya ke lingkungan sekitar hingga mencemarinya”
Saya hampir mengira Nvidia membuat sesuatu yang bagus
Suhu rendah, lahan kosong luas, isu lingkungan alam yang besar relatif sedikit, dan kalaupun ada, tidak banyak warga yang akan protes
Kalau butuh lebih banyak air untuk pendinginan, sepertinya bisa memakai cukup banyak dari es yang mencair
Pemanas gratis, bukankah bagus
Linus juga memanaskan kolam renangnya dengan panas CPU berlebih
Intinya adalah jangan takut, gunakan dengan cerdas; AI dan data center akan tetap ada, jadi alih-alih melawannya, panas limbah bisa dimanfaatkan sebagai sumber pendapatan
Saya hanya pernah mendengar bahwa panas limbah PLTN menjadi masalah ketika air pendingin langsung dibuang ke sungai, bukan ke laut
Misalnya bisa dipakai untuk pemanas rumah
Ada sinergi menarik yang muncul: district heating
45°C memang rendah, tetapi bukan berarti tidak bisa dipakai di jaringan sirkulasi district heating; jika data center menyediakan panas secara gratis, itu bisa menjadi tawaran yang cukup bagus bagi komunitas lokal
Nilai sebuah data center di dekat permukiman bagi komunitas bisa naik dari hampir nol menjadi jutaan dolar per tahun
Musim panas tetap menjadi masalah, tetapi solusi menarik juga mungkin
Jika kondisi geologinya cocok, ruang bawah tanah bisa dipanaskan selama musim panas lalu sebagian panas itu diambil kembali pada musim dingin
Di banyak zona iklim, selama orang tidak menggunakan skylight secara bodoh, biaya pemanasan tahunan jauh lebih besar daripada biaya pendinginan tahunan [0]
[0] Dengan perhitungan kasar, beban pemanasan dan pendinginan akibat konduksi serta pertukaran udara sebanding dengan selisih suhu dalam-luar ruangan
Suhu luar ruangan musim dingin -10°F~30°F bukan hal langka, sehingga selisihnya dengan suhu dalam ruangan 70°F adalah 40~80°F
Sebaliknya, suhu luar ruangan musim panas di iklim seperti ini jarang melebihi 95°F dan umumnya lebih rendah, sehingga selisih untuk pendinginan hanya sekitar 15~25°F
Heat pump juga makin efisien ketika selisih suhu makin kecil
Pemanasan dengan panas radiasi adalah cerita yang sama sekali berbeda
Bangunan baru umumnya cenderung memakai heat pump [1]
Data center 75MW di Mäntsälä selama 10 tahun telah memasok 2/3 pemanasan kota, yaitu setara 2.500 rumah tangga [2]
Heat pump memang luar biasa
Penyimpanan panas musiman juga sudah menjadi teknologi yang digunakan; di dekat Espoo ada fasilitas penyimpanan berskala puluhan GWh, dan gudang gua baru berkapasitas 90GWh juga sedang berjalan
Saya tidak tahu apakah sistem-sistem itu saling terhubung
Menarik juga bahwa artikel itu mengatakan persoalan rekayasa ini sebelumnya belum pernah dipecahkan
Google lebih dulu merintis cara menjalankan chip pada suhu lebih panas daripada sebelumnya, dan di PC konsumen pun pendinginan cair sudah ada sejak lama
Setidaknya sudah 30 tahun
Yang tampak baru adalah semua chip dipasang ke sirkuit sirkulasi, tetapi saya tidak menemukan bagaimana PSU ditangani
Lalu strukturnya bisa saja kembali setelah turun menjadi 45°C atau lebih rendah
Kemungkinan besar juga begitu pada sebagian besar data center di belahan bumi utara yang memiliki musim dingin
Mungkin saya yang melewatkan sesuatu, tetapi saya kurang paham apa inovasi di sini
Saya mengerti mereka memakai cairan pendingin dengan suhu lebih tinggi dari biasanya, tetapi saya tidak paham kenapa dulu tidak bisa dilakukan
Perbandingan di artikel kebanyakan dengan data center berpendingin udara; bagaimana jika dibandingkan dengan data center berpendingin air lain
Dalam desain data center sebelumnya pun pasti ada yang sudah menghitung suhu operasi yang dibutuhkan, konsumsi energi, panas yang dihasilkan, dan sebagainya
Edit: Saya baru saja melihat bagian ini
“Server berpendingin air yang ada sebelumnya bersifat hibrida. GPU dan CPU dipasangi cold plate, tetapi bagian sistem lainnya tetap berpendingin udara, dan heatsink bersirip dirancang untuk membuang panas lewat udara yang bergerak. Pada server yang sepenuhnya berpendingin air, pendinginan komponen seperti ini harus didesain ulang sepenuhnya berbasis cairan.”
Sisanya lebih terasa seperti pemasaran
Superkomputer Cray sudah memakai pendinginan fluida pada 1980-an, dan cairan inert mengalir di seluruh papan
Menaikkannya sedikit lagi mungkin tidak luar biasa menarik, tetapi tetap bisa disebut inovasi
Ada kompromi antara biaya pendinginan serta tingkat kegagalan dan belanja modal
Komponen seperti ini mudah sekali menjadi panas hingga melampaui 100°C, jadi agar loop sirkulasi tetap stabil di 55°C, ada banyak pekerjaan yang harus dilakukan
Inovasinya mungkin terletak pada seberapa cepat dan seberapa banyak cairan pendingin dialirkan ke berbagai bagian data center untuk mengendalikan suhu
Tentu ini juga mencakup pendesainan ulang semua komponen agar kompatibel dengan desain tanpa kipas
Sepertinya ini dimungkinkan karena Nvidia sekarang jauh lebih terintegrasi secara vertikal dibanding dulu
Namun “cara modern” rupanya mengarah pada pemakaian lalu pembuangan air
Data center, seperti fasilitas industri lain, tampaknya mencari kota, county, atau negara bagian yang membiarkan mereka beroperasi sesuka hati, lalu orang menjadi terbiasa menganggap itu satu-satunya cara
Berbagai komunitas lokal menolak dan mengeluhkan kerusakan lingkungan tetapi diabaikan; namun jika itu berupa spesifikasi teknis, mungkin akan diterima
Disebutkan “arsitektur pendinginan cairan 45 derajat Nvidia di iklim yang menguntungkan…”, dan tentu saja saya penasaran apa yang dimaksud iklim yang menguntungkan selain Greenland
Tulisan itu terlalu minim menjelaskan korelasi antara suhu luar ruangan dengan efisiensi dan biaya
Akan bagus kalau ada penjelasan kasar sekalipun
Cuaca Jerman bisa naik sampai cukup panas, tetapi menurut staf teknis, pendinginan aktif, yaitu pendinginan ala AC, baru diperlukan ketika suhu berada di kisaran akhir 30-an derajat
Teknologinya sendiri cukup menarik
https://www.kit.edu/kit/english/pi_2024_038_kit-supercompute...
Untuk menjamin suhu air keluar 45°C, udara luar kira-kira harus 37°C atau lebih rendah
Di sebagian besar wilayah, pada sebagian waktu tetap akan dibutuhkan cooling tower atau kompresor, sehingga semua infrastruktur terkait tetap harus dibangun
Meski begitu, sekadar mengurangi penggunaannya saja bisa menghemat banyak air atau energi
Misalnya pinggiran London mungkin dianggap cukup sejuk, tetapi minggu ini saja kemungkinan tetap membutuhkan pendinginan tambahan
Untuk data center di sini, sistem pendingin dirancang agar tahan terhadap suhu luar ruangan di atas 40°C, dan sekarang angka itu bahkan bukan lagi asumsi konservatif
Selain itu, meskipun Nvidia puas dengan pasokan air 45°C, kemungkinan umur perangkat keras akan lebih panjang pada suhu yang lebih rendah seperti 35°C
GPU mahal, dan memperpanjang umurnya bisa jadi lebih bernilai daripada memakai sedikit lebih banyak air atau energi
Dalam praktiknya, di “sebelah” mesin komputasi AI kemungkinan juga ada sistem berpendingin udara seperti server penyimpanan, mesin komputasi CPU tambahan, dan switch jaringan
Jadi mungkin diperlukan ruang dan sistem pendingin terpisah
Namun tetap saja ini kemajuan besar
Setelah membaca ini pun saya masih tidak paham kenapa ini disebut terobosan
Ini terlihat seperti loop pendinginan tertutup yang sudah ada di sebagian besar aplikasi pendinginan komersial dan industri
Artikel mengatakan bahwa di iklim yang sesuai, radiator bisa diletakkan di luar untuk membuang panas dari loop air/glikol
Kalau begitu, bukankah artinya tempat selain Arktik tetap membutuhkan loop kondensasi
Apa yang saya lewatkan
Modular Supercomputing Facility di NASA Ames Research Center sangat efisien dari sisi penggunaan listrik dan air
Fasilitas ini tidak memakai AC
Chip-nya berpendingin air, dan setahu saya suhu air masuknya juga cukup tinggi. Mungkin sekitar 90 derajat Fahrenheit
https://www.nasa.gov/centers-and-facilities/ames/doing-more-...
https://www.nas.nasa.gov/assets/nas/pdf/ModularSupercomputin...
Bukankah militer AS dan NASA sekarang juga sudah memakai metrik
Ringkasnya, bagi yang kecewa dengan tulisan bergaya AI yang buruk ini, ini adalah cerita tentang desain pusat data berpendingin air sepenuhnya
Cara umum mendinginkan server adalah seperti desktop atau laptop: menempelkan heatsink pada perangkat keras yang panas lalu mendinginkannya dengan udara
Semakin padat dan kuat perangkat kerasnya, semakin besar heatsink yang dibutuhkan dan semakin dingin udara yang diperlukan
Pada titik tertentu, karena keterbatasan ruang, heatsink tidak bisa diperbesar lagi, dan karena kebisingan serta efisiensi, udara juga tidak bisa ditiupkan lebih cepat lagi
Lalu digunakanlah pendingin yang menguapkan air untuk mendinginkan udara masuk
Dari sinilah konsumsi air sangat besar yang ingin kita hindari muncul
Langkah berikutnya tentu saja pendinginan cair
Ini juga mirip dengan desktop gaming kelas atas
Di bagian dalam yang ruangnya terbatas, banyak panas dipindahkan ke medium cair melalui penukar panas kecil, sementara di bagian luar, meski selisih suhu antara cairan pendingin dan udara luar kecil, panas bisa dibuang lewat penukar panas raksasa
Artikel ini membahas sistem yang sepenuhnya berpendingin cair, mulai dari CPU, GPU, memori, sampai jaringan
Itulah bagian yang benar-benar keren
Selain itu, solusi ini dioptimalkan agar cairan pendingin bisa dijalankan pada suhu yang cukup hangat
Ini membatasi fluks panas di sisi perangkat keras, tetapi memungkinkan penukar panas eksternal dijalankan secara “kering”, sehingga tidak menyia-nyiakan kalor laten air
Dibandingkan dengan banyak penggunaan lain, pemakaian air pusat data sudah nyaris nol
Selalu terasa menyedihkan melihat banyak upaya dan promosi besar-besaran untuk “memecahkan masalah” yang sejak awal lebih mirip persoalan PR atau citra
Kenapa harus 45°C, dan kenapa pendinginan air
Rasanya pilihan yang aneh kalau semuanya dibuat untuk udara bersuhu ruang atau sedikit lebih dingin
Toh sudah sekitar 290K–300K, jadi bukankah ini berarti sekarang perangkatnya berjalan baik juga di 320K atau 330K
Saya sempat bertanya-tanya kenapa tidak didesain saja agar beroperasi di sekitar 200°C, lalu memakai pendinginan bebas dengan mendorong udara sekitar masuk
Kenapa pusat data tidak berbentuk seperti kandang ayam
Apakah ada sesuatu yang meleleh
Apakah jenis kesalahan lain jadi lebih banyak pada suhu tinggi
Ini adalah bahan yang bisa berubah dari isolator menjadi konduktor hanya dengan sedikit tambahan energi
Sebaliknya, isolator yang baik akan terbakar atau menjadi plasma sebelum mulai menghantarkan listrik
Energi tetaplah energi, jadi jika panas lingkungan cukup tinggi, karena celah pitanya kecil, elektron bisa terdorong ke orbit yang lebih tinggi
Hal ini juga terjadi pada suhu lingkungan normal, tetapi elektronnya tidak pergi jauh dan jumlahnya tidak banyak
Pada 200°C, gate yang tertutup tidak cukup mampu menghambat pergerakan elektron
Kira-kira itulah alasan teknisnya dengan penjelasan yang disederhanakan, dan di YouTube ada video dari Project in Flight yang menjelaskan dengan baik prinsip kerja semikonduktor
Karakteristik listrik semikonduktor berubah drastis bergantung pada suhu
Kemungkinan dibutuhkan chip yang sama sekali berbeda dan proses manufaktur yang sama sekali berbeda pula