1 poin oleh GN⁺ 4 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Seiring meningkatnya kepadatan daya server AI, pendinginan menjadi hambatan utama dalam biaya pusat data dan penggunaan air, dan NVIDIA mengusung desain yang mengoperasikan cairan pendingin hingga 45°C pada generasi Rubin
  • Infrastruktur AI generasi Rubin menggunakan arsitektur pendinginan cair 100% yang mendinginkan chip hingga komponen jaringan tanpa kipas, dengan loop tertutup dan dry cooler sebagai inti
  • Di iklim yang menguntungkan, penggunaan air sekitar 2,6 juta galon per megawatt per tahun yang dipakai sistem berbasis menara pendingin konvensional dapat diturunkan hampir menjadi nol, dengan penghematan hingga 100%
  • Cairan pendingin 45°C menyerap panas dari chip dan keluar pada sekitar 55°C, namun tetap berada dalam batas operasi yang tervalidasi, sehingga server jauh lebih sedikit bergantung pada udara dingin
  • Pendinginan cair penuh mengurangi kipas, lorong dingin/panas, dan ruang infrastruktur pendinginan udara, sekaligus meningkatkan kepadatan rak untuk menurunkan beban biaya pendinginan seiring meningkatnya permintaan komputasi AI

Pendinginan cair 100% pada generasi Rubin

  • Server AI terbaru NVIDIA dapat mengoperasikan cairan pendingin hingga 45°C, atau 113°F
  • Infrastruktur AI NVIDIA generasi Rubin mencapai pendinginan cair 100%, yang mendinginkan semua chip dan komponen jaringan dengan cairan
    • Tidak ada kipas di bagian mana pun dari sistem
    • Pendinginan berlangsung di dalam loop tertutup
  • Pendekatan ini termasuk dalam desain referensi AI factory NVIDIA DSX, yang memuat praktik terbaik untuk merancang, membangun, dan mengoperasikan stack infrastruktur AI factory
  • Ketika tiap generasi meningkatkan performa komputasi per watt, infrastruktur komputasi AI dengan pendinginan cair penuh dapat secara signifikan mengurangi konsumsi energi pendinginan di pusat data hyperscale

Arsitektur yang mengurangi penggunaan air dan listrik

  • Desain referensi AI factory NVIDIA DSX menargetkan konsumsi air nol, dengan arah mengurangi penggunaan listrik besar dan hampir seluruh penggunaan air
  • Desain berbasis dry cooler adalah sistem loop tertutup sehingga tidak menggunakan pendinginan air evaporatif
    • Di sebagian iklim, chiller mungkin hanya dibutuhkan sekitar 1% sepanjang tahun
  • Secara historis, pendinginan menyumbang hingga 40% dari konsumsi listrik pusat data
  • Menurut estimasi industri, menaikkan suhu chiller plant sebesar 1°C dapat mengurangi biaya energi pendinginan sekitar 4%
  • Fasilitas hyperscale 50MW dapat menghemat biaya energi dan air terkait pendinginan lebih dari 4 juta dolar AS per tahun jika beralih ke infrastruktur pendinginan cair
  • Di iklim yang menguntungkan, arsitektur pendinginan cair 45°C memungkinkan operasi tanpa chiller, dan dapat menurunkan penggunaan air sekitar 2,6 juta galon per megawatt per tahun pada sistem berbasis menara pendingin konvensional menjadi hampir nol

Pusat data yang dingin tidak selalu efisien

  • Di industri, sudah lama ada anggapan bahwa pusat data yang dingin itu efisien
  • Kenyataannya, chip dapat beroperasi di lingkungan yang jauh lebih hangat daripada yang dibayangkan secara intuitif
  • Saat cairan pendingin 45°C masuk ke chip dengan pendinginan cair penuh, cairan menyerap panas di permukaan chip dan keluar pada sekitar 55°C
  • Dalam proses ini pun performa tidak menurun
    • Cold plate pendinginan cair menjaga suhu perangkat tetap berada dalam batas operasi yang tervalidasi
    • Meski cairan pendingin yang masuk ke rak bersuhu 45°C, prosesor tetap berjalan pada performa maksimum
  • Karena server tidak bergantung pada udara dingin, suhu udara sekitar di pusat data dapat diatur dengan lebih fleksibel

Struktur server dengan kipas dan lorong dingin/panas yang lebih sedikit

  • Pusat data tradisional sangat bergantung pada kebisingan kipas dan pengelolaan lorong dingin/panas
    • Kipas pendingin dapat menaikkan kebisingan keseluruhan hingga 85dB atau lebih
    • Tingkat ini cukup keras hingga memerlukan pelindung telinga
  • Arsitektur Rubin mengalihkan pendinginan dari aliran udara ke loop cairan
  • Cairan pendingin terdiri dari 75% air dan 25% propilena glikol
  • Cairan pendingin ini melewati cold plate yang ditempatkan langsung di atas prosesor dan menyerap panas dari sumbernya
  • Dengan mengoperasikan cairan pendingin hingga 45°C, di banyak iklim loop fasilitas dapat membuang panas tanpa chiller mekanis dan kipas yang bising
  • Di wilayah yang sesuai, unit distribusi pendinginan menangkap panas dari sumbernya dan mengirimkannya ke dry cooler, yaitu kumparan radiator besar di luar bangunan
    • Loop diisi sekali lalu dioperasikan dalam kondisi tertutup sepanjang umur fasilitas
    • Ruang yang ditempati di dalam AI factory jauh lebih kecil dibandingkan infrastruktur pendinginan udara tradisional

Kondisi iklim dan pemanfaatan panas buangan

  • Kondisi geografis adalah batasan penting
    • Pusat data di Scottish Highlands dan pusat data di Phoenix, Arizona memiliki realitas pendinginan yang berbeda
  • Bahkan di iklim hangat, cairan pendingin 45°C membuat operasi lebih mendekati tanpa chiller
    • Chiller mungkin hanya menyala selama beberapa hari ketika suhu udara luar menuntutnya
  • Model AI factory baru juga menyediakan kemungkinan pemulihan panas buangan
    • Panas berlebih dari operasi AI factory dapat digunakan kembali untuk pemanas bangunan komersial atau hunian di sekitarnya

Perubahan rekayasa untuk pendinginan cair penuh

  • Server pendinginan cair sebelumnya menggunakan arsitektur hibrida
    • GPU dan CPU menggunakan cold plate
    • Bagian sistem lainnya bergantung pada heatsink bersirip dan pendinginan udara
  • Pada server pendinginan cair penuh, metode pendinginan komponen-komponen ini harus didesain ulang berbasis cairan
  • Tim rekayasa termal NVIDIA menyederhanakan cara memasok cairan ke beberapa chip berdaya tinggi
    • Cairan diarahkan ke beberapa chip pada board melalui satu saluran masuk dan satu saluran keluar
    • Hasilnya adalah arsitektur pendinginan tingkat tray yang lebih rapi
  • Bentuk server dan kepadatan instalasinya juga berubah
    • Server Rubin memiliki panel depan yang bersih dan tertutup, bukan bezel berlubang seperti pada server berpendingin udara
    • Server pendinginan cair penuh memungkinkan kepadatan rak yang lebih tinggi dibandingkan server berpendingin udara
    • Sistem yang sebelumnya menempati 6U kini masuk ke 2U, menyediakan lebih banyak komputasi dengan ruang dan kebisingan yang lebih sedikit

Ekspansi infrastruktur AI dan efisiensi pendinginan

  • Workload AI tidak semakin ringan
  • Permintaan komputasi yang mendorong pembangunan pusat data tumbuh lebih cepat daripada hampir semua kategori investasi infrastruktur
  • Tanpa peningkatan efisiensi dalam cara pendinginan komputasi, biaya energi untuk operasi AI berskala besar akan meningkat seiring bertambahnya perangkat keras
  • Pendinginan cair hingga 45°C menjadi alat untuk mempersempit kesenjangan antara ekspansi perangkat keras dan biaya pendinginan

1 komentar

 
GN⁺ 4 jam lalu
Pendapat di Hacker News
  • Syarat “wilayah dengan udara luar yang stabil sejuk” itulah jebakannya
    Terdengar seperti “mari bangun data center di tempat dingin untuk menghemat sumber daya pendinginan, lalu buang seluruh panas limbahnya ke lingkungan sekitar hingga mencemarinya”
    Saya hampir mengira Nvidia membuat sesuatu yang bagus

    • Jadi mungkin itu sebabnya mereka begitu menginginkan Greenland
      Suhu rendah, lahan kosong luas, isu lingkungan alam yang besar relatif sedikit, dan kalaupun ada, tidak banyak warga yang akan protes
      Kalau butuh lebih banyak air untuk pendinginan, sepertinya bisa memakai cukup banyak dari es yang mencair
    • Di musim dingin, panas itu mungkin benar-benar disambut
      Pemanas gratis, bukankah bagus
      Linus juga memanaskan kolam renangnya dengan panas CPU berlebih
      Intinya adalah jangan takut, gunakan dengan cerdas; AI dan data center akan tetap ada, jadi alih-alih melawannya, panas limbah bisa dimanfaatkan sebagai sumber pendapatan
    • Saya tidak yakin panas limbah data center benar-benar menjadi masalah
      Saya hanya pernah mendengar bahwa panas limbah PLTN menjadi masalah ketika air pendingin langsung dibuang ke sungai, bukan ke laut
    • Dengan latensi LLM, sepertinya tidak akan terlalu terasa
    • Di negara dingin, air hangat bisa cukup berguna
      Misalnya bisa dipakai untuk pemanas rumah
  • Ada sinergi menarik yang muncul: district heating
    45°C memang rendah, tetapi bukan berarti tidak bisa dipakai di jaringan sirkulasi district heating; jika data center menyediakan panas secara gratis, itu bisa menjadi tawaran yang cukup bagus bagi komunitas lokal
    Nilai sebuah data center di dekat permukiman bagi komunitas bisa naik dari hampir nol menjadi jutaan dolar per tahun
    Musim panas tetap menjadi masalah, tetapi solusi menarik juga mungkin
    Jika kondisi geologinya cocok, ruang bawah tanah bisa dipanaskan selama musim panas lalu sebagian panas itu diambil kembali pada musim dingin
    Di banyak zona iklim, selama orang tidak menggunakan skylight secara bodoh, biaya pemanasan tahunan jauh lebih besar daripada biaya pendinginan tahunan [0]
    [0] Dengan perhitungan kasar, beban pemanasan dan pendinginan akibat konduksi serta pertukaran udara sebanding dengan selisih suhu dalam-luar ruangan
    Suhu luar ruangan musim dingin -10°F~30°F bukan hal langka, sehingga selisihnya dengan suhu dalam ruangan 70°F adalah 40~80°F
    Sebaliknya, suhu luar ruangan musim panas di iklim seperti ini jarang melebihi 95°F dan umumnya lebih rendah, sehingga selisih untuk pendinginan hanya sekitar 15~25°F
    Heat pump juga makin efisien ketika selisih suhu makin kecil
    Pemanasan dengan panas radiasi adalah cerita yang sama sekali berbeda

    • Di Finland, panas data center dinaikkan menjadi 60~90°C dan dipakai untuk district heating
      Bangunan baru umumnya cenderung memakai heat pump [1]
      Data center 75MW di Mäntsälä selama 10 tahun telah memasok 2/3 pemanasan kota, yaitu setara 2.500 rumah tangga [2]
      1. https://www.creatingsustainablecities.org.uk/post/case-study...
      2. https://www.sustainabilitymenews.com/waste-management/how-fi...
    • Microsoft sudah membangun data center yang terhubung ke district heating di Espoo dan Kirkkonummi, Finland
      Heat pump memang luar biasa
      Penyimpanan panas musiman juga sudah menjadi teknologi yang digunakan; di dekat Espoo ada fasilitas penyimpanan berskala puluhan GWh, dan gudang gua baru berkapasitas 90GWh juga sedang berjalan
      Saya tidak tahu apakah sistem-sistem itu saling terhubung
    • Di Netherlands, energi limbah dalam bentuk panas sudah dikirim ke rumah kaca dan dipakai untuk pemanasan musim dingin
      Menarik juga bahwa artikel itu mengatakan persoalan rekayasa ini sebelumnya belum pernah dipecahkan
      Google lebih dulu merintis cara menjalankan chip pada suhu lebih panas daripada sebelumnya, dan di PC konsumen pun pendinginan cair sudah ada sejak lama
      Setidaknya sudah 30 tahun
      Yang tampak baru adalah semua chip dipasang ke sirkuit sirkulasi, tetapi saya tidak menemukan bagaimana PSU ditangani
    • Kalau 45°C adalah suhu di sisi rendah, bukankah air bersuhu lebih tinggi bisa dikirim ke heat exchanger di sisi komunitas
      Lalu strukturnya bisa saja kembali setelah turun menjadi 45°C atau lebih rendah
    • Di Eropa Utara, ini sudah digunakan
      Kemungkinan besar juga begitu pada sebagian besar data center di belahan bumi utara yang memiliki musim dingin
  • Mungkin saya yang melewatkan sesuatu, tetapi saya kurang paham apa inovasi di sini
    Saya mengerti mereka memakai cairan pendingin dengan suhu lebih tinggi dari biasanya, tetapi saya tidak paham kenapa dulu tidak bisa dilakukan
    Perbandingan di artikel kebanyakan dengan data center berpendingin udara; bagaimana jika dibandingkan dengan data center berpendingin air lain
    Dalam desain data center sebelumnya pun pasti ada yang sudah menghitung suhu operasi yang dibutuhkan, konsumsi energi, panas yang dihasilkan, dan sebagainya
    Edit: Saya baru saja melihat bagian ini
    “Server berpendingin air yang ada sebelumnya bersifat hibrida. GPU dan CPU dipasangi cold plate, tetapi bagian sistem lainnya tetap berpendingin udara, dan heatsink bersirip dirancang untuk membuang panas lewat udara yang bergerak. Pada server yang sepenuhnya berpendingin air, pendinginan komponen seperti ini harus didesain ulang sepenuhnya berbasis cairan.”

    • “Inovasinya” adalah sekarang semua komponen terpasang ke blok pendingin air
      Sisanya lebih terasa seperti pemasaran
      Superkomputer Cray sudah memakai pendinginan fluida pada 1980-an, dan cairan inert mengalir di seluruh papan
    • Sekitar 2011, ketika perusahaan-perusahaan besar mulai menjalankan data center berpendingin udara pada suhu mendekati 95°F(35°C) alih-alih 72°F(22°C) seperti sebelumnya, itu terlihat seperti perubahan yang cukup besar
      Menaikkannya sedikit lagi mungkin tidak luar biasa menarik, tetapi tetap bisa disebut inovasi
    • Perangkat keras harus dirancang agar terus beroperasi dalam kondisi yang lebih panas
      Ada kompromi antara biaya pendinginan serta tingkat kegagalan dan belanja modal
    • Ini hanya dugaan, tetapi mungkin sebelumnya belum ada yang mendinginkan CPU dan GPU “secara efektif” pada skala data center dengan cara ini
      Komponen seperti ini mudah sekali menjadi panas hingga melampaui 100°C, jadi agar loop sirkulasi tetap stabil di 55°C, ada banyak pekerjaan yang harus dilakukan
      Inovasinya mungkin terletak pada seberapa cepat dan seberapa banyak cairan pendingin dialirkan ke berbagai bagian data center untuk mengendalikan suhu
      Tentu ini juga mencakup pendesainan ulang semua komponen agar kompatibel dengan desain tanpa kipas
      Sepertinya ini dimungkinkan karena Nvidia sekarang jauh lebih terintegrasi secara vertikal dibanding dulu
    • Sejak awal, sistem pendingin air tertutup tidak punya alasan harus memakai air dalam jumlah sangat besar
      Namun “cara modern” rupanya mengarah pada pemakaian lalu pembuangan air
      Data center, seperti fasilitas industri lain, tampaknya mencari kota, county, atau negara bagian yang membiarkan mereka beroperasi sesuka hati, lalu orang menjadi terbiasa menganggap itu satu-satunya cara
      Berbagai komunitas lokal menolak dan mengeluhkan kerusakan lingkungan tetapi diabaikan; namun jika itu berupa spesifikasi teknis, mungkin akan diterima
  • Disebutkan “arsitektur pendinginan cairan 45 derajat Nvidia di iklim yang menguntungkan…”, dan tentu saja saya penasaran apa yang dimaksud iklim yang menguntungkan selain Greenland
    Tulisan itu terlalu minim menjelaskan korelasi antara suhu luar ruangan dengan efisiensi dan biaya
    Akan bagus kalau ada penjelasan kasar sekalipun

    • Universitas saya di Jerman sudah memakai pendinginan suhu tinggi sejak beberapa tahun lalu
      Cuaca Jerman bisa naik sampai cukup panas, tetapi menurut staf teknis, pendinginan aktif, yaitu pendinginan ala AC, baru diperlukan ketika suhu berada di kisaran akhir 30-an derajat
      Teknologinya sendiri cukup menarik
      https://www.kit.edu/kit/english/pi_2024_038_kit-supercompute...
    • Sejujurnya, ini bagian dari masalahnya
      Untuk menjamin suhu air keluar 45°C, udara luar kira-kira harus 37°C atau lebih rendah
      Di sebagian besar wilayah, pada sebagian waktu tetap akan dibutuhkan cooling tower atau kompresor, sehingga semua infrastruktur terkait tetap harus dibangun
      Meski begitu, sekadar mengurangi penggunaannya saja bisa menghemat banyak air atau energi
      Misalnya pinggiran London mungkin dianggap cukup sejuk, tetapi minggu ini saja kemungkinan tetap membutuhkan pendinginan tambahan
      Untuk data center di sini, sistem pendingin dirancang agar tahan terhadap suhu luar ruangan di atas 40°C, dan sekarang angka itu bahkan bukan lagi asumsi konservatif
      Selain itu, meskipun Nvidia puas dengan pasokan air 45°C, kemungkinan umur perangkat keras akan lebih panjang pada suhu yang lebih rendah seperti 35°C
      GPU mahal, dan memperpanjang umurnya bisa jadi lebih bernilai daripada memakai sedikit lebih banyak air atau energi
      Dalam praktiknya, di “sebelah” mesin komputasi AI kemungkinan juga ada sistem berpendingin udara seperti server penyimpanan, mesin komputasi CPU tambahan, dan switch jaringan
      Jadi mungkin diperlukan ruang dan sistem pendingin terpisah
      Namun tetap saja ini kemajuan besar
  • Setelah membaca ini pun saya masih tidak paham kenapa ini disebut terobosan
    Ini terlihat seperti loop pendinginan tertutup yang sudah ada di sebagian besar aplikasi pendinginan komersial dan industri
    Artikel mengatakan bahwa di iklim yang sesuai, radiator bisa diletakkan di luar untuk membuang panas dari loop air/glikol
    Kalau begitu, bukankah artinya tempat selain Arktik tetap membutuhkan loop kondensasi
    Apa yang saya lewatkan

  • Modular Supercomputing Facility di NASA Ames Research Center sangat efisien dari sisi penggunaan listrik dan air
    Fasilitas ini tidak memakai AC
    Chip-nya berpendingin air, dan setahu saya suhu air masuknya juga cukup tinggi. Mungkin sekitar 90 derajat Fahrenheit
    https://www.nasa.gov/centers-and-facilities/ames/doing-more-...
    https://www.nas.nasa.gov/assets/nas/pdf/ModularSupercomputin...

    • Untuk orang yang memakai satuan metrik/SI, 90°F adalah 32,22°C, 305,37K
      Bukankah militer AS dan NASA sekarang juga sudah memakai metrik
  • Ringkasnya, bagi yang kecewa dengan tulisan bergaya AI yang buruk ini, ini adalah cerita tentang desain pusat data berpendingin air sepenuhnya
    Cara umum mendinginkan server adalah seperti desktop atau laptop: menempelkan heatsink pada perangkat keras yang panas lalu mendinginkannya dengan udara
    Semakin padat dan kuat perangkat kerasnya, semakin besar heatsink yang dibutuhkan dan semakin dingin udara yang diperlukan
    Pada titik tertentu, karena keterbatasan ruang, heatsink tidak bisa diperbesar lagi, dan karena kebisingan serta efisiensi, udara juga tidak bisa ditiupkan lebih cepat lagi
    Lalu digunakanlah pendingin yang menguapkan air untuk mendinginkan udara masuk
    Dari sinilah konsumsi air sangat besar yang ingin kita hindari muncul
    Langkah berikutnya tentu saja pendinginan cair
    Ini juga mirip dengan desktop gaming kelas atas
    Di bagian dalam yang ruangnya terbatas, banyak panas dipindahkan ke medium cair melalui penukar panas kecil, sementara di bagian luar, meski selisih suhu antara cairan pendingin dan udara luar kecil, panas bisa dibuang lewat penukar panas raksasa
    Artikel ini membahas sistem yang sepenuhnya berpendingin cair, mulai dari CPU, GPU, memori, sampai jaringan
    Itulah bagian yang benar-benar keren
    Selain itu, solusi ini dioptimalkan agar cairan pendingin bisa dijalankan pada suhu yang cukup hangat
    Ini membatasi fluks panas di sisi perangkat keras, tetapi memungkinkan penukar panas eksternal dijalankan secara “kering”, sehingga tidak menyia-nyiakan kalor laten air

  • Dibandingkan dengan banyak penggunaan lain, pemakaian air pusat data sudah nyaris nol
    Selalu terasa menyedihkan melihat banyak upaya dan promosi besar-besaran untuk “memecahkan masalah” yang sejak awal lebih mirip persoalan PR atau citra

    • Kamu tahu bahwa ungkapan samar seperti “dibandingkan dengan banyak penggunaan lain” benar-benar melemahkan maksud yang ingin kamu sampaikan, kan
  • Kenapa harus 45°C, dan kenapa pendinginan air
    Rasanya pilihan yang aneh kalau semuanya dibuat untuk udara bersuhu ruang atau sedikit lebih dingin
    Toh sudah sekitar 290K–300K, jadi bukankah ini berarti sekarang perangkatnya berjalan baik juga di 320K atau 330K
    Saya sempat bertanya-tanya kenapa tidak didesain saja agar beroperasi di sekitar 200°C, lalu memakai pendinginan bebas dengan mendorong udara sekitar masuk
    Kenapa pusat data tidak berbentuk seperti kandang ayam
    Apakah ada sesuatu yang meleleh
    Apakah jenis kesalahan lain jadi lebih banyak pada suhu tinggi

    • Material semikonduktor memiliki celah pita yang relatif kecil
      Ini adalah bahan yang bisa berubah dari isolator menjadi konduktor hanya dengan sedikit tambahan energi
      Sebaliknya, isolator yang baik akan terbakar atau menjadi plasma sebelum mulai menghantarkan listrik
      Energi tetaplah energi, jadi jika panas lingkungan cukup tinggi, karena celah pitanya kecil, elektron bisa terdorong ke orbit yang lebih tinggi
      Hal ini juga terjadi pada suhu lingkungan normal, tetapi elektronnya tidak pergi jauh dan jumlahnya tidak banyak
      Pada 200°C, gate yang tertutup tidak cukup mampu menghambat pergerakan elektron
      Kira-kira itulah alasan teknisnya dengan penjelasan yang disederhanakan, dan di YouTube ada video dari Project in Flight yang menjelaskan dengan baik prinsip kerja semikonduktor
    • Membuat chip seperti ini beroperasi pada 200°C sangat sulit
      Karakteristik listrik semikonduktor berubah drastis bergantung pada suhu
      Kemungkinan dibutuhkan chip yang sama sekali berbeda dan proses manufaktur yang sama sekali berbeda pula