Pendinginan Cair Google: Diungkap di Hot Chips 2025

(chipsandcheese.com)

4 poin oleh GN⁺ 2025-08-26 | Belum ada komentar. | Bagikan ke WhatsApp

Pendinginan cair menyebar cepat untuk mengatasi masalah panas pada chip berdaya tinggi di pusat data
Memiliki konduktivitas termal sekitar 4.000 kali lebih tinggi daripada udara, dan Google secara aktif mengadopsinya terutama untuk memenuhi permintaan pendinginan TPU akibat ledakan AI
Google mengoperasikan loop pendinginan cair tingkat rak berbasis CDU (Coolant Distribution Unit) untuk meningkatkan kemudahan pemeliharaan dan skalabilitas
Teknik seperti cold plate split-flow dan pendinginan bare-die (TPUv4) diterapkan dari pasar PC performa tinggi ke skala pusat data
Pendinginan cair efisien dengan konsumsi daya di bawah 5% dibanding kipas, dan untuk menghadapi masalah seperti kebocoran serta pertumbuhan mikroorganisme, Google menjalankan verifikasi ketat, sistem peringatan, dan pemeliharaan preventif
NVIDIA, Rebellions AI, dan lainnya juga mengadopsi pendinginan cair sehingga arus standardisasi pendinginan pusat data makin cepat

Kebutuhan dan latar belakang pendinginan cair

Pendinginan cair sudah akrab di kalangan penggemar PC dan juga memiliki sejarah panjang di lingkungan komputasi perusahaan
Belakangan ini, pentingnya pendinginan cair di pusat data meningkat besar karena naiknya konsumsi daya beban kerja AI dan machine learning
Google menyoroti bahwa konduktivitas termal air sekitar 4.000 kali lebih tinggi daripada udara, lalu mengadopsinya sebagai solusi untuk menghadapi panas tinggi pada chip terbaru
Di Hot Chips 2025, Google memperkenalkan metode pendinginan cair skala pusat data terkait pendinginan TPU, yaitu akselerator machine learning

Google mulai menerapkan pendinginan cair pada TPU sejak 2018 dan telah melalui berbagai eksperimen serta peningkatan
Solusi pendinginan terbaru tidak terbatas di dalam server, melainkan menerapkan loop pendinginan cair ke seluruh rak
Satu rak pendingin terdiri dari 6 CDU (Coolant Distribution Unit), yang berperan mirip kombinasi radiator + pompa pada PC
Selang fleksibel dan quick-disconnect coupling diterapkan untuk meningkatkan kemudahan pemeliharaan dan toleransi pemasangan
Pendinginan tetap memadai meski hanya 5 dari 6 CDU yang beroperasi, sehingga pemeliharaan satu unit tidak mengharuskan penghentian operasi keseluruhan

CDU hanya menukar panas antara cairan pendingin internal dan suplai air eksternal pusat data, dan kedua cairan tidak bercampur langsung
Cairan pendingin yang keluar dari CDU didistribusikan ke banyak server TPU melalui manifold
Koneksi chip TPU menggunakan struktur berurutan (seri), dan keseluruhan anggaran pendinginan dihitung berdasarkan kebutuhan panas chip terakhir dalam loop

Struktur cold plate split-flow diterapkan untuk memperoleh performa pendinginan yang lebih baik dibanding desain linear sebelumnya
Selain itu, diterapkan pendinginan bare-die (TPUv4, sementara TPUv3 sebelumnya memakai lidded), yang mirip dengan praktik ‘delidding’ yang biasa digunakan penggemar PC kelas atas untuk meningkatkan efisiensi perpindahan panas
TPUv4 membutuhkan metode pendinginan tambahan ini karena konsumsi dayanya 1,6 kali lebih tinggi dibanding v3

Konsumsi daya pompa pendinginan cair tercatat kurang dari 5% dibanding daya kipas pendingin udara konvensional
Sistem Google menggunakan metode water-to-water heat exchange, sehingga tenaga pendinginan aktual sebagian besar ditangani oleh pompa
Di lingkungan penggemar PC, kombinasi kipas-radiator umumnya masih dipakai, sehingga keunggulan daya tidak sebesar di pusat data

Dari sudut pandang pemeliharaan, risiko umum sistem pendingin air seperti pertumbuhan mikroorganisme atau kebocoran juga ada pada skala pusat data
Melalui quick-disconnect fitting, CDU cadangan, dan berbagai perangkat kemudahan pemeliharaan, Google menargetkan pengelolaan skala besar tanpa downtime
Pemeliharaan preventif, uji kebocoran, deteksi berbagai sinyal anomali, dan protokol respons yang sistematis disiapkan untuk memastikan konsistensi dan keandalan di seluruh perusahaan
Hal ini kontras dengan metode pengelolaan informal para penggemar PC individual

NVIDIA dan Rebellions AI juga menampilkan berbagai sistem pendinginan cair eksternal di pameran Hot Chips 2025
- Server NVIDIA GB300: menempatkan port pendinginan cair eksternal bersama kipas
- Rebellions AI, perusahaan asal Korea, mendemonstrasikan prototipe akselerator ML baru ‘REBEL Quad’ dengan pendekatan serupa yang menggabungkan cooler dan chiller
Peningkatan beban kerja AI diperkirakan akan makin mempercepat permintaan dan adopsi pendinginan cair untuk pusat data ke depan