- Pendinginan cair menyebar cepat untuk mengatasi masalah panas pada chip berdaya tinggi di pusat data
- Memiliki konduktivitas termal sekitar 4.000 kali lebih tinggi daripada udara, dan Google secara aktif mengadopsinya terutama untuk memenuhi permintaan pendinginan TPU akibat ledakan AI
- Google mengoperasikan loop pendinginan cair tingkat rak berbasis CDU (Coolant Distribution Unit) untuk meningkatkan kemudahan pemeliharaan dan skalabilitas
- Teknik seperti cold plate split-flow dan pendinginan bare-die (TPUv4) diterapkan dari pasar PC performa tinggi ke skala pusat data
- Pendinginan cair efisien dengan konsumsi daya di bawah 5% dibanding kipas, dan untuk menghadapi masalah seperti kebocoran serta pertumbuhan mikroorganisme, Google menjalankan verifikasi ketat, sistem peringatan, dan pemeliharaan preventif
- NVIDIA, Rebellions AI, dan lainnya juga mengadopsi pendinginan cair sehingga arus standardisasi pendinginan pusat data makin cepat
Kebutuhan dan latar belakang pendinginan cair
- Pendinginan cair sudah akrab di kalangan penggemar PC dan juga memiliki sejarah panjang di lingkungan komputasi perusahaan
- Belakangan ini, pentingnya pendinginan cair di pusat data meningkat besar karena naiknya konsumsi daya beban kerja AI dan machine learning
- Google menyoroti bahwa konduktivitas termal air sekitar 4.000 kali lebih tinggi daripada udara, lalu mengadopsinya sebagai solusi untuk menghadapi panas tinggi pada chip terbaru
- Di Hot Chips 2025, Google memperkenalkan metode pendinginan cair skala pusat data terkait pendinginan TPU, yaitu akselerator machine learning
Konfigurasi sistem pendinginan cair Google
- Google mulai menerapkan pendinginan cair pada TPU sejak 2018 dan telah melalui berbagai eksperimen serta peningkatan
- Solusi pendinginan terbaru tidak terbatas di dalam server, melainkan menerapkan loop pendinginan cair ke seluruh rak
- Satu rak pendingin terdiri dari 6 CDU (Coolant Distribution Unit), yang berperan mirip kombinasi radiator + pompa pada PC
- Selang fleksibel dan quick-disconnect coupling diterapkan untuk meningkatkan kemudahan pemeliharaan dan toleransi pemasangan
- Pendinginan tetap memadai meski hanya 5 dari 6 CDU yang beroperasi, sehingga pemeliharaan satu unit tidak mengharuskan penghentian operasi keseluruhan
Pertukaran panas dan tata letak chip
- CDU hanya menukar panas antara cairan pendingin internal dan suplai air eksternal pusat data, dan kedua cairan tidak bercampur langsung
- Cairan pendingin yang keluar dari CDU didistribusikan ke banyak server TPU melalui manifold
- Koneksi chip TPU menggunakan struktur berurutan (seri), dan keseluruhan anggaran pendinginan dihitung berdasarkan kebutuhan panas chip terakhir dalam loop
Optimasi teknologi pendinginan
- Struktur cold plate split-flow diterapkan untuk memperoleh performa pendinginan yang lebih baik dibanding desain linear sebelumnya
- Selain itu, diterapkan pendinginan bare-die (TPUv4, sementara TPUv3 sebelumnya memakai lidded), yang mirip dengan praktik ‘delidding’ yang biasa digunakan penggemar PC kelas atas untuk meningkatkan efisiensi perpindahan panas
- TPUv4 membutuhkan metode pendinginan tambahan ini karena konsumsi dayanya 1,6 kali lebih tinggi dibanding v3
Efisiensi daya dan perpindahan panas
- Konsumsi daya pompa pendinginan cair tercatat kurang dari 5% dibanding daya kipas pendingin udara konvensional
- Sistem Google menggunakan metode water-to-water heat exchange, sehingga tenaga pendinginan aktual sebagian besar ditangani oleh pompa
- Di lingkungan penggemar PC, kombinasi kipas-radiator umumnya masih dipakai, sehingga keunggulan daya tidak sebesar di pusat data
Pemeliharaan, keandalan, dan keamanan
- Dari sudut pandang pemeliharaan, risiko umum sistem pendingin air seperti pertumbuhan mikroorganisme atau kebocoran juga ada pada skala pusat data
- Melalui quick-disconnect fitting, CDU cadangan, dan berbagai perangkat kemudahan pemeliharaan, Google menargetkan pengelolaan skala besar tanpa downtime
- Pemeliharaan preventif, uji kebocoran, deteksi berbagai sinyal anomali, dan protokol respons yang sistematis disiapkan untuk memastikan konsistensi dan keandalan di seluruh perusahaan
- Hal ini kontras dengan metode pengelolaan informal para penggemar PC individual
Tren industri dan demam AI
- NVIDIA dan Rebellions AI juga menampilkan berbagai sistem pendinginan cair eksternal di pameran Hot Chips 2025
- Server NVIDIA GB300: menempatkan port pendinginan cair eksternal bersama kipas
- Rebellions AI, perusahaan asal Korea, mendemonstrasikan prototipe akselerator ML baru ‘REBEL Quad’ dengan pendekatan serupa yang menggabungkan cooler dan chiller
- Peningkatan beban kerja AI diperkirakan akan makin mempercepat permintaan dan adopsi pendinginan cair untuk pusat data ke depan
Belum ada komentar.