- Google mengumumkan Ironwood, Tensor Processing Unit (TPU) generasi ke-7
- Ironwood adalah TPU pertama yang dirancang khusus untuk inferensi AI, dan merupakan model paling bertenaga serta paling hemat energi hingga saat ini
- Dirancang untuk menjalankan model AI berkinerja tinggi seperti large language model (LLM) dan Mixture of Experts (MoE)
- Dapat diskalakan hingga 9.216 chip dan menyediakan performa komputasi 42,5 exaflops
- Ini setara dengan performa lebih dari 24 kali El Capitan, superkomputer tercepat di dunia
Era inferensi yang diwujudkan dengan Ironwood
- Jika AI sebelumnya merespons permintaan pengguna, Ironwood menyediakan fondasi untuk era AI yang secara aktif menafsirkan data dan menghasilkan wawasan
- Dalam era inferensi ini, AI mengumpulkan dan menganalisis data atas nama pengguna untuk menghasilkan hasil yang lebih mendalam
- Untuk memenuhi kebutuhan AI baru ini, Ironwood dilengkapi kemampuan pemrosesan paralel skala besar dan akses data berkecepatan tinggi
Konfigurasi hardware dan performa Ironwood
- Dalam konfigurasi TPU pod yang terdiri dari 9.216 chip, tersedia performa 42,5 exaflops
- Dengan performa 4.614 TFLOPs per chip, sistem ini mendukung pelatihan dan inferensi model LLM serta MoE berskala besar
- Peningkatan fitur SparseCore mempercepat pemrosesan embedding berukuran sangat besar, sehingga dapat diterapkan di berbagai bidang seperti keuangan dan sains
- Melalui software Pathways, puluhan ribu chip Ironwood dapat dikelola secara efisien
Fitur teknis utama Ironwood
- Rasio performa terhadap efisiensi daya meningkat 2 kali dibanding generasi sebelumnya
- Efisiensi daya sekitar 30 kali lebih tinggi dibanding Trillium
- Menjaga performa tetap stabil bahkan pada beban kerja tinggi yang berkelanjutan melalui teknologi pendingin cair berkinerja tinggi
- Kapasitas high-bandwidth memory (HBM) meningkat secara signifikan
- 192GB per chip, 6 kali lebih besar dibanding Trillium
- Menguntungkan untuk pemrosesan model besar dan dataset besar
- Bandwidth memori HBM ditingkatkan
- 7,2 TBps per chip, meningkat 4,5 kali dibanding Trillium
- Bandwidth Inter-Chip Interconnect (ICI) ditingkatkan
- 1,2 Tbps dua arah, meningkat 1,5 kali dibanding Trillium
- Cocok untuk pelatihan dan inferensi terdistribusi berskala besar berkat komunikasi antarchip yang cepat
Dampak dan potensi pemanfaatan Ironwood
- Ironwood merupakan komponen inti dari arsitektur Google Cloud Hypercomputer dan dioptimalkan untuk kebutuhan AI generatif generasi berikutnya
- Model AI terbaru seperti Gemini 2.5 dan AlphaFold juga berjalan di atas TPU
- Pelanggan Google Cloud dapat menangani workload AI dengan performa tinggi, latensi rendah, dan efisiensi energi yang lebih baik melalui Ironwood
- Dijadwalkan tersedia untuk pelanggan pada 2025, dan diharapkan menjadi fondasi yang mendorong inovasi baru dalam riset AI maupun aplikasi nyata
1 komentar
Belakangan saya sempat merasa kecepatan
Time to first tokenGemini luar biasa cepat, ternyata memang ada alasan seperti ini di baliknya...