4 poin oleh GN⁺ 2025-08-26 | 1 komentar | Bagikan ke WhatsApp
  • Pendinginan cair menyebar cepat untuk mengatasi masalah panas pada chip berdaya tinggi di pusat data
  • Memiliki konduktivitas termal sekitar 4.000 kali lebih tinggi daripada udara, dan Google secara aktif mengadopsinya terutama untuk memenuhi permintaan pendinginan TPU akibat ledakan AI
  • Google mengoperasikan loop pendinginan cair tingkat rak berbasis CDU (Coolant Distribution Unit) untuk meningkatkan kemudahan pemeliharaan dan skalabilitas
  • Teknik seperti cold plate split-flow dan pendinginan bare-die (TPUv4) diterapkan dari pasar PC performa tinggi ke skala pusat data
  • Pendinginan cair efisien dengan konsumsi daya di bawah 5% dibanding kipas, dan untuk menghadapi masalah seperti kebocoran serta pertumbuhan mikroorganisme, Google menjalankan verifikasi ketat, sistem peringatan, dan pemeliharaan preventif
  • NVIDIA, Rebellions AI, dan lainnya juga mengadopsi pendinginan cair sehingga arus standardisasi pendinginan pusat data makin cepat

Kebutuhan dan latar belakang pendinginan cair

  • Pendinginan cair sudah akrab di kalangan penggemar PC dan juga memiliki sejarah panjang di lingkungan komputasi perusahaan
  • Belakangan ini, pentingnya pendinginan cair di pusat data meningkat besar karena naiknya konsumsi daya beban kerja AI dan machine learning
  • Google menyoroti bahwa konduktivitas termal air sekitar 4.000 kali lebih tinggi daripada udara, lalu mengadopsinya sebagai solusi untuk menghadapi panas tinggi pada chip terbaru
  • Di Hot Chips 2025, Google memperkenalkan metode pendinginan cair skala pusat data terkait pendinginan TPU, yaitu akselerator machine learning

Konfigurasi sistem pendinginan cair Google

  • Google mulai menerapkan pendinginan cair pada TPU sejak 2018 dan telah melalui berbagai eksperimen serta peningkatan
  • Solusi pendinginan terbaru tidak terbatas di dalam server, melainkan menerapkan loop pendinginan cair ke seluruh rak
  • Satu rak pendingin terdiri dari 6 CDU (Coolant Distribution Unit), yang berperan mirip kombinasi radiator + pompa pada PC
  • Selang fleksibel dan quick-disconnect coupling diterapkan untuk meningkatkan kemudahan pemeliharaan dan toleransi pemasangan
  • Pendinginan tetap memadai meski hanya 5 dari 6 CDU yang beroperasi, sehingga pemeliharaan satu unit tidak mengharuskan penghentian operasi keseluruhan

Pertukaran panas dan tata letak chip

  • CDU hanya menukar panas antara cairan pendingin internal dan suplai air eksternal pusat data, dan kedua cairan tidak bercampur langsung
  • Cairan pendingin yang keluar dari CDU didistribusikan ke banyak server TPU melalui manifold
  • Koneksi chip TPU menggunakan struktur berurutan (seri), dan keseluruhan anggaran pendinginan dihitung berdasarkan kebutuhan panas chip terakhir dalam loop

Optimasi teknologi pendinginan

  • Struktur cold plate split-flow diterapkan untuk memperoleh performa pendinginan yang lebih baik dibanding desain linear sebelumnya
  • Selain itu, diterapkan pendinginan bare-die (TPUv4, sementara TPUv3 sebelumnya memakai lidded), yang mirip dengan praktik ‘delidding’ yang biasa digunakan penggemar PC kelas atas untuk meningkatkan efisiensi perpindahan panas
  • TPUv4 membutuhkan metode pendinginan tambahan ini karena konsumsi dayanya 1,6 kali lebih tinggi dibanding v3

Efisiensi daya dan perpindahan panas

  • Konsumsi daya pompa pendinginan cair tercatat kurang dari 5% dibanding daya kipas pendingin udara konvensional
  • Sistem Google menggunakan metode water-to-water heat exchange, sehingga tenaga pendinginan aktual sebagian besar ditangani oleh pompa
  • Di lingkungan penggemar PC, kombinasi kipas-radiator umumnya masih dipakai, sehingga keunggulan daya tidak sebesar di pusat data

Pemeliharaan, keandalan, dan keamanan

  • Dari sudut pandang pemeliharaan, risiko umum sistem pendingin air seperti pertumbuhan mikroorganisme atau kebocoran juga ada pada skala pusat data
  • Melalui quick-disconnect fitting, CDU cadangan, dan berbagai perangkat kemudahan pemeliharaan, Google menargetkan pengelolaan skala besar tanpa downtime
  • Pemeliharaan preventif, uji kebocoran, deteksi berbagai sinyal anomali, dan protokol respons yang sistematis disiapkan untuk memastikan konsistensi dan keandalan di seluruh perusahaan
  • Hal ini kontras dengan metode pengelolaan informal para penggemar PC individual

Tren industri dan demam AI

  • NVIDIA dan Rebellions AI juga menampilkan berbagai sistem pendinginan cair eksternal di pameran Hot Chips 2025
    • Server NVIDIA GB300: menempatkan port pendinginan cair eksternal bersama kipas
    • Rebellions AI, perusahaan asal Korea, mendemonstrasikan prototipe akselerator ML baru ‘REBEL Quad’ dengan pendekatan serupa yang menggabungkan cooler dan chiller
  • Peningkatan beban kerja AI diperkirakan akan makin mempercepat permintaan dan adopsi pendinginan cair untuk pusat data ke depan

1 komentar

 
GN⁺ 2025-08-26
Opini Hacker News
  • Saya pernah menonton wawancara dengan seorang SVP yang memimpin pembangunan data center Azure; saya masih ingat ketika dia berkata bahwa pada suatu titik dia sadar dirinya bukan lagi bekerja di bisnis komputer, melainkan di bisnis pendinginan industri, dan sejak saat itu pekerjaannya terasa jauh lebih mudah. Saat membaca artikel ini, saya langsung teringat kisah itu.

  • Mainframe (S/3x0, Cray, dll.) sudah menggunakan pendinginan air secara luas selama lebih dari 50 tahun, dan data center HPC kelas superkomputer juga sudah memanfaatkan pendinginan cair setidaknya selama 20 tahun, jadi terasa agak aneh membandingkan desain data center sekelas Google dengan cooling ala penggemar PC. Ini seperti melupakan sejarah atau memakai pembanding yang benar-benar keliru.

    • Berkat poin yang disorot bri3d, saya jadi paham bahwa kasus Google kali ini tidak senovel yang saya kira pada awalnya. Titik inovasinya bukan pada “menggunakan air”, melainkan pada fakta bahwa chiller yang mendinginkan server dipasang di luar fasilitas. Kebanyakan mainframe juga memakai pendinginan air untuk memindahkan panas dari dalam ke luar, lalu heatsink atau kipas pendingin membuang panasnya, sedangkan Google memakai chiller raksasa untuk seluruh fasilitas dan langsung mensirkulasikan cairan pendingin ke tiap server, bukan menanganinya di dalam bangunan. Air panas yang kembali lalu didinginkan lagi di menara chiller. Secara praktis, pendinginan berbasis udara dihilangkan sepenuhnya kecuali pada menara chiller. Ini bukan hanya untuk beberapa server/rack, tetapi untuk seluruh data center sekaligus. Saya penasaran bagaimana mereka menangani perawatan chiller atau kegagalan pompa; sepertinya pasti ada redundansi besar untuk menjaga tanpa henti. AWS juga telah mengadopsi sistem serupa, dan foto penjelasannya cukup jelas untuk dijadikan referensi: artikel pendinginan cair data center AWS
    • Google punya sejarah memakai hardware komoditas murah, jadi perubahan seperti ini tidak terlalu mengejutkan. Mirip seperti server x86 yang membutuhkan puluhan tahun untuk menyerap fungsi-fungsi mainframe seperti virtualisasi: blog terkait
    • Di artikel disebutkan bahwa “pendinginan cair sudah akrab bagi penggemar PC dan juga merupakan konsep lama di enterprise compute”. Data center juga sempat bergerak ke tren pendinginan pasif per server dan suhu operasi yang lebih tinggi, tetapi kasus ini merupakan pembalikan besar terhadap tren itu. Mungkin pendinginan per baris (per-row cooling) adalah penyebab utamanya.
    • Tadi disebut bahwa data center HPC sudah memakai pendinginan cair selama lebih dari 20 tahun, tetapi saya penasaran apakah itu kebanyakan diterapkan pada bagian seperti pintu rack. Rasanya baru belakangan, mulai generasi server ke-2, direct liquid cooling (DLC) benar-benar masuk ke bagian dalam server. Ada unsur pemaksaan juga karena CPU Intel kelas atas. Penerapannya sulit pada data center lama dan cukup merepotkan; kami juga pernah berkali-kali mengajukan service request karena masalah kebocoran cooling bag (pabrikan dirahasiakan).
    • Data center hyperscale biasanya tidak perlu memaksimalkan densitas daya, dan ketika densitas dinaikkan akan muncul berbagai masalah sehingga para desainer justru cenderung menghindarinya. Kekhawatiran HPC cluster modern soal densitas mungkin sebenarnya sudut pandang yang keliru. Meski begitu, untuk workload ML memang ada keuntungan jika ditempatkan berdekatan secara fisik karena efisiensi interconnect menjadi lebih baik.
  • Secara teori, pendinginan data center itu sederhana. CPU beroperasi di 60~70 derajat, sedangkan suhu luar umumnya di bawah 30 derajat, jadi dengan sedikit bantuan kipas dan pompa, panas secara alami akan “mengalir turun”. Masalahnya pada pendinginan udara, staf fasilitas harus menghirup udara yang sama yang dipakai untuk mendinginkan komputer. Jika suhu pendinginan dinaikkan, itu kurang baik bagi kesehatan staf (kami menjalankan hot aisle sampai sekitar 100F bahkan di musim dingin, dan memasang heat exchanger tiap 3 rack untuk didinginkan dengan air chiller eksternal). Ketika suhu luar naik, suhu fluida pendingin juga harus lebih tinggi agar panas bisa benar-benar dibuang ke luar gedung, dan chiller menjadi wajib. Saat cuaca sangat panas, konsumsi energi juga melonjak besar. Jika seluruh data center diubah ke pendinginan cair, rasanya suhu coolant yang keluar dari rack bisa dinaikkan jauh lebih tinggi, dan mungkin pembuangan panas tetap bisa dilakukan tanpa chiller bahkan di saat paling panas. Saat ini kami hanya mendinginkan sebagian secara cair, dan suhu coolant dibatasi agar sesuai dengan suhu hot aisle; bahkan pada suhu itu pun sudah terasa cukup panas.

    • Sudut pandang “CPU 60-70 derajat, luar di bawah 30 derajat, jadi panas akan turun sendiri” kurang tepat. Dalam praktiknya, panas yang dihasilkan CPU pada daya operasinya harus dipindahkan ke luar, dan jika thermal impedance besar maka CPU bisa overheat dan rusak.
    • 15 tahun lalu IBM memasang superkomputer di ETH Zurich yang memakai air panas 60 derajat sebagai coolant, dan itu terhubung langsung ke sistem air panas gedung melalui radiator: pengantar Aquasar
    • Saya jadi penasaran apakah suatu saat nanti, demi memaksimalkan efisiensi pendinginan, pekerja data center akan masuk sambil memakai semacam heat suit.
  • Di artikel ada pembahasan bahwa chip TPU dihubungkan secara seri dan dialiri loop coolant, lalu kapasitas dianggarkan berdasarkan suhu chip terakhir. Jika ada empat chip yang masing-masing menghasilkan 250W dan pompa mendorong 1 liter air per menit, maka keluaran pasti 14 derajat lebih panas daripada masukannya. Ini sama saja baik dalam seri maupun paralel (karena kapasitas panas jenis air).

    • Pada sambungan seri, efisiensi perpindahan panas pada chip terakhir bisa lebih rendah dibanding sambungan paralel, karena air bertemu chip terakhir dalam keadaan lebih panas daripada saat awal. Karena beda suhunya lebih kecil, panas terbuang lebih lambat.
    • Dalam praktiknya, kecepatan aliran harus dihitung berbeda tergantung struktur seri atau paralel, jadi dari sudut pandang engineering memang ada perbedaan nyata.
    • Jika tekanannya cukup tinggi, laju alir bisa jauh lebih besar dari 1 liter per menit. Dibanding desktop 18W, server kira-kira berada di kisaran 10 kali lipat.
    • Jika disusun seri, sebagian chip akan “terlalu didinginkan”, dan untuk menyesuaikan dengan chip terpanas, dibutuhkan lebih banyak coolant.
  • Saya sudah tidak terlalu antusias lagi terhadap infrastruktur Google seperti dulu. Karena Google terus bergerak ke arah yang merusak kebebasan internet, simpati saya kepada mereka turun banyak. Sekarang bahkan sistem pendinginan cair yang mereka adopsi pun tidak begitu membuat saya terkesan. Tergantung detailnya mungkin memang sulit, tetapi tidak terasa sangat inovatif. Jika ada karyawan Google yang membaca ini dan tersinggung, menurut saya masalahnya bukan pada individu melainkan pada Google itu sendiri. Mungkin layak mempertimbangkan mengerjakan hal-hal keren di tempat lain.

  • Ini mengingatkan saya pada contoh menarik yang saya lihat di B1M: kolam renang Olimpiade Paris katanya dipanaskan oleh panas dari internet: video YouTube

  • Saya sering melihat komentar bahwa AI memboroskan air, jadi saya penasaran apakah kasus ini juga seperti itu. Apakah CDU menggunakan air fasilitas untuk pendinginan evaporatif, mungkin ada yang tahu?

    • CDU dipasang di dalam data center dan hanya memindahkan panas dari coolant rack ke coolant fasilitas. Di luar ruangan ada fasilitas penukar panas, dan dalam proses ini kadang air disemprotkan ke cooling tower untuk pendinginan evaporatif. Bentuknya berbeda-beda di tiap data center, tetapi pendinginan fasilitas memang selalu ada. Diskusi bahwa AI memboroskan air agak melelahkan; air hanya dipindahkan dalam sistem sirkulasi ke titik efisiensi yang lebih baik. Akan lebih bermakna jika biaya air dan eksternalitasnya benar-benar tercermin di pasar. Di AS, masalahnya adalah harga air, hak atas air, dan utilitas air yang sebenarnya tidak saling terhubung dengan baik.
    • AWS juga baru-baru ini menerbitkan artikel serupa: artikel pendinginan cair data center AWS, tetapi saya masih belum melihat penjelasan yang benar-benar jelas tentang bagaimana air panas yang dibuang itu didinginkan dan digunakan kembali; justru bagian itulah yang paling ingin saya pahami.
    • Hampir tidak ada angka konkret atau diskusi yang jelas soal penggunaan air oleh AI; yang saya lihat hanya pernyataan samar seperti mobil memakai jalan. Itu memberi kesan seolah air benar-benar diboroskan, padahal kalau ada data yang jelas mestinya tidak perlu insinuasi samar seperti itu. Jika air benar-benar dikonsumsi, berarti air itu berubah menjadi tidak layak minum, hilang sebagai uap, atau terperangkap dalam sludge dan tidak bisa dipulihkan. Saya ingin tahu apakah hal-hal seperti itu benar-benar terjadi, dan apakah ini sungguh menjadi masalah. Menjengkelkan melihat angka-angka kosong beredar tanpa data yang bermakna.
    • Ada artikel terkait: isu data center AI Texas dan pemborosan air
  • Saya penasaran soal keekonomian pendinginan air. Apakah pendinginan cair jadi menguntungkan karena chip makin mahal sehingga perlu dijalankan lebih cepat, atau karena ruang data center mahal sehingga densitas perlu ditingkatkan, atau karena mengurangi jarak transmisi sinyal (1 kaki = 1 nanodetik) meningkatkan efisiensi komputasi sebesar itu?

    • Sebagian besar daya total data center dipakai untuk pendinginan. Meningkatkan efisiensi pendinginan saja langsung menghemat biaya.
    • Dampak jarak kabel sebenarnya sangat kecil. Bahkan interconnect fabric terbaik pun punya waktu ping-pong (round trip request/response) di kisaran 1 mikrodetik, sedangkan perubahan panjang dalam satuan kaki hanya berarti perbedaan puluhan nanodetik. Bahkan jika densitas dinaikkan dua kali lipat pada cluster besar, tambahan latensi round-trip sinyal hanya sekitar 60 nanodetik (kurang dari 6% dari total 1 mikrodetik). Pada aplikasi nyata dampaknya tidak besar. Namun, densitas yang lebih tinggi memang memudahkan menghubungkan lebih banyak chip secara langsung lewat backplane atau konektor tembaga.
    • Dalam praktiknya alasannya adalah campuran nomor 2 dan 3. Chip makin kecil dan memakai daya lebih besar, sehingga juga makin panas, dan sejumlah besar kipas ikut menambah konsumsi daya. Pendinginan cair adalah pendinginan langsung chip→liquid, sehingga biaya kipas, AC, dan sirkulasi tambahan bisa ditekan. Lihat artikel terkait dari ServeTheHome: analisis dampak konsumsi daya pendinginan cair Supermicro
    • Saya kurang tahu untuk workload komputasi klasik, tetapi untuk komputasi yang berpusat pada memori seperti TPU, saya rasa perbedaan jarak kabel cukup penting.
    • Densitas penting karena chip-chip itu harus terhubung melalui jaringan berkecepatan sangat tinggi.
  • Secara teori, pengguna PC juga bisa mensirkulasikan air pembuangan panas ke tangki toilet agar bisa mendingin secara efisien setiap kali flush. Masa depan ada di sini.

  • Saya cukup sering bekerja di data center antara 2006~2012, dan sering harus datang larut malam. Data center adalah lingkungan yang lebih keras daripada bayangan orang. Andai pendinginannya bisa lebih senyap dan tidak se-ekstrem itu. Alasan port dan semacamnya ada di bagian belakang adalah karena sisi itulah jalur masuk udara. Saya pernah harus pergi ke sisi hangat hanya untuk menghangatkan tangan.