Pendinginan Cair Google: Diungkap di Hot Chips 2025
(chipsandcheese.com)- Pendinginan cair menyebar cepat untuk mengatasi masalah panas pada chip berdaya tinggi di pusat data
- Memiliki konduktivitas termal sekitar 4.000 kali lebih tinggi daripada udara, dan Google secara aktif mengadopsinya terutama untuk memenuhi permintaan pendinginan TPU akibat ledakan AI
- Google mengoperasikan loop pendinginan cair tingkat rak berbasis CDU (Coolant Distribution Unit) untuk meningkatkan kemudahan pemeliharaan dan skalabilitas
- Teknik seperti cold plate split-flow dan pendinginan bare-die (TPUv4) diterapkan dari pasar PC performa tinggi ke skala pusat data
- Pendinginan cair efisien dengan konsumsi daya di bawah 5% dibanding kipas, dan untuk menghadapi masalah seperti kebocoran serta pertumbuhan mikroorganisme, Google menjalankan verifikasi ketat, sistem peringatan, dan pemeliharaan preventif
- NVIDIA, Rebellions AI, dan lainnya juga mengadopsi pendinginan cair sehingga arus standardisasi pendinginan pusat data makin cepat
Kebutuhan dan latar belakang pendinginan cair
- Pendinginan cair sudah akrab di kalangan penggemar PC dan juga memiliki sejarah panjang di lingkungan komputasi perusahaan
- Belakangan ini, pentingnya pendinginan cair di pusat data meningkat besar karena naiknya konsumsi daya beban kerja AI dan machine learning
- Google menyoroti bahwa konduktivitas termal air sekitar 4.000 kali lebih tinggi daripada udara, lalu mengadopsinya sebagai solusi untuk menghadapi panas tinggi pada chip terbaru
- Di Hot Chips 2025, Google memperkenalkan metode pendinginan cair skala pusat data terkait pendinginan TPU, yaitu akselerator machine learning
Konfigurasi sistem pendinginan cair Google
- Google mulai menerapkan pendinginan cair pada TPU sejak 2018 dan telah melalui berbagai eksperimen serta peningkatan
- Solusi pendinginan terbaru tidak terbatas di dalam server, melainkan menerapkan loop pendinginan cair ke seluruh rak
- Satu rak pendingin terdiri dari 6 CDU (Coolant Distribution Unit), yang berperan mirip kombinasi radiator + pompa pada PC
- Selang fleksibel dan quick-disconnect coupling diterapkan untuk meningkatkan kemudahan pemeliharaan dan toleransi pemasangan
- Pendinginan tetap memadai meski hanya 5 dari 6 CDU yang beroperasi, sehingga pemeliharaan satu unit tidak mengharuskan penghentian operasi keseluruhan
Pertukaran panas dan tata letak chip
- CDU hanya menukar panas antara cairan pendingin internal dan suplai air eksternal pusat data, dan kedua cairan tidak bercampur langsung
- Cairan pendingin yang keluar dari CDU didistribusikan ke banyak server TPU melalui manifold
- Koneksi chip TPU menggunakan struktur berurutan (seri), dan keseluruhan anggaran pendinginan dihitung berdasarkan kebutuhan panas chip terakhir dalam loop
Optimasi teknologi pendinginan
- Struktur cold plate split-flow diterapkan untuk memperoleh performa pendinginan yang lebih baik dibanding desain linear sebelumnya
- Selain itu, diterapkan pendinginan bare-die (TPUv4, sementara TPUv3 sebelumnya memakai lidded), yang mirip dengan praktik ‘delidding’ yang biasa digunakan penggemar PC kelas atas untuk meningkatkan efisiensi perpindahan panas
- TPUv4 membutuhkan metode pendinginan tambahan ini karena konsumsi dayanya 1,6 kali lebih tinggi dibanding v3
Efisiensi daya dan perpindahan panas
- Konsumsi daya pompa pendinginan cair tercatat kurang dari 5% dibanding daya kipas pendingin udara konvensional
- Sistem Google menggunakan metode water-to-water heat exchange, sehingga tenaga pendinginan aktual sebagian besar ditangani oleh pompa
- Di lingkungan penggemar PC, kombinasi kipas-radiator umumnya masih dipakai, sehingga keunggulan daya tidak sebesar di pusat data
Pemeliharaan, keandalan, dan keamanan
- Dari sudut pandang pemeliharaan, risiko umum sistem pendingin air seperti pertumbuhan mikroorganisme atau kebocoran juga ada pada skala pusat data
- Melalui quick-disconnect fitting, CDU cadangan, dan berbagai perangkat kemudahan pemeliharaan, Google menargetkan pengelolaan skala besar tanpa downtime
- Pemeliharaan preventif, uji kebocoran, deteksi berbagai sinyal anomali, dan protokol respons yang sistematis disiapkan untuk memastikan konsistensi dan keandalan di seluruh perusahaan
- Hal ini kontras dengan metode pengelolaan informal para penggemar PC individual
Tren industri dan demam AI
- NVIDIA dan Rebellions AI juga menampilkan berbagai sistem pendinginan cair eksternal di pameran Hot Chips 2025
- Server NVIDIA GB300: menempatkan port pendinginan cair eksternal bersama kipas
- Rebellions AI, perusahaan asal Korea, mendemonstrasikan prototipe akselerator ML baru ‘REBEL Quad’ dengan pendekatan serupa yang menggabungkan cooler dan chiller
- Peningkatan beban kerja AI diperkirakan akan makin mempercepat permintaan dan adopsi pendinginan cair untuk pusat data ke depan
1 komentar
Opini Hacker News
Saya pernah menonton wawancara dengan seorang SVP yang memimpin pembangunan data center Azure; saya masih ingat ketika dia berkata bahwa pada suatu titik dia sadar dirinya bukan lagi bekerja di bisnis komputer, melainkan di bisnis pendinginan industri, dan sejak saat itu pekerjaannya terasa jauh lebih mudah. Saat membaca artikel ini, saya langsung teringat kisah itu.
Mainframe (S/3x0, Cray, dll.) sudah menggunakan pendinginan air secara luas selama lebih dari 50 tahun, dan data center HPC kelas superkomputer juga sudah memanfaatkan pendinginan cair setidaknya selama 20 tahun, jadi terasa agak aneh membandingkan desain data center sekelas Google dengan cooling ala penggemar PC. Ini seperti melupakan sejarah atau memakai pembanding yang benar-benar keliru.
Secara teori, pendinginan data center itu sederhana. CPU beroperasi di 60~70 derajat, sedangkan suhu luar umumnya di bawah 30 derajat, jadi dengan sedikit bantuan kipas dan pompa, panas secara alami akan “mengalir turun”. Masalahnya pada pendinginan udara, staf fasilitas harus menghirup udara yang sama yang dipakai untuk mendinginkan komputer. Jika suhu pendinginan dinaikkan, itu kurang baik bagi kesehatan staf (kami menjalankan hot aisle sampai sekitar 100F bahkan di musim dingin, dan memasang heat exchanger tiap 3 rack untuk didinginkan dengan air chiller eksternal). Ketika suhu luar naik, suhu fluida pendingin juga harus lebih tinggi agar panas bisa benar-benar dibuang ke luar gedung, dan chiller menjadi wajib. Saat cuaca sangat panas, konsumsi energi juga melonjak besar. Jika seluruh data center diubah ke pendinginan cair, rasanya suhu coolant yang keluar dari rack bisa dinaikkan jauh lebih tinggi, dan mungkin pembuangan panas tetap bisa dilakukan tanpa chiller bahkan di saat paling panas. Saat ini kami hanya mendinginkan sebagian secara cair, dan suhu coolant dibatasi agar sesuai dengan suhu hot aisle; bahkan pada suhu itu pun sudah terasa cukup panas.
Di artikel ada pembahasan bahwa chip TPU dihubungkan secara seri dan dialiri loop coolant, lalu kapasitas dianggarkan berdasarkan suhu chip terakhir. Jika ada empat chip yang masing-masing menghasilkan 250W dan pompa mendorong 1 liter air per menit, maka keluaran pasti 14 derajat lebih panas daripada masukannya. Ini sama saja baik dalam seri maupun paralel (karena kapasitas panas jenis air).
Saya sudah tidak terlalu antusias lagi terhadap infrastruktur Google seperti dulu. Karena Google terus bergerak ke arah yang merusak kebebasan internet, simpati saya kepada mereka turun banyak. Sekarang bahkan sistem pendinginan cair yang mereka adopsi pun tidak begitu membuat saya terkesan. Tergantung detailnya mungkin memang sulit, tetapi tidak terasa sangat inovatif. Jika ada karyawan Google yang membaca ini dan tersinggung, menurut saya masalahnya bukan pada individu melainkan pada Google itu sendiri. Mungkin layak mempertimbangkan mengerjakan hal-hal keren di tempat lain.
Ini mengingatkan saya pada contoh menarik yang saya lihat di B1M: kolam renang Olimpiade Paris katanya dipanaskan oleh panas dari internet: video YouTube
Saya sering melihat komentar bahwa AI memboroskan air, jadi saya penasaran apakah kasus ini juga seperti itu. Apakah CDU menggunakan air fasilitas untuk pendinginan evaporatif, mungkin ada yang tahu?
Saya penasaran soal keekonomian pendinginan air. Apakah pendinginan cair jadi menguntungkan karena chip makin mahal sehingga perlu dijalankan lebih cepat, atau karena ruang data center mahal sehingga densitas perlu ditingkatkan, atau karena mengurangi jarak transmisi sinyal (1 kaki = 1 nanodetik) meningkatkan efisiensi komputasi sebesar itu?
Secara teori, pengguna PC juga bisa mensirkulasikan air pembuangan panas ke tangki toilet agar bisa mendingin secara efisien setiap kali flush. Masa depan ada di sini.
Saya cukup sering bekerja di data center antara 2006~2012, dan sering harus datang larut malam. Data center adalah lingkungan yang lebih keras daripada bayangan orang. Andai pendinginannya bisa lebih senyap dan tidak se-ekstrem itu. Alasan port dan semacamnya ada di bagian belakang adalah karena sisi itulah jalur masuk udara. Saya pernah harus pergi ke sisi hangat hanya untuk menghangatkan tangan.