Ironwood - TPU Google pertama untuk era inferensi

(blog.google)

6 poin oleh GN⁺ 2025-04-10 | 1 komentar | Bagikan ke WhatsApp

Google mengumumkan Ironwood, Tensor Processing Unit (TPU) generasi ke-7
Ironwood adalah TPU pertama yang dirancang khusus untuk inferensi AI, dan merupakan model paling bertenaga serta paling hemat energi hingga saat ini
Dirancang untuk menjalankan model AI berkinerja tinggi seperti large language model (LLM) dan Mixture of Experts (MoE)
Dapat diskalakan hingga 9.216 chip dan menyediakan performa komputasi 42,5 exaflops
Ini setara dengan performa lebih dari 24 kali El Capitan, superkomputer tercepat di dunia

Jika AI sebelumnya merespons permintaan pengguna, Ironwood menyediakan fondasi untuk era AI yang secara aktif menafsirkan data dan menghasilkan wawasan
Dalam era inferensi ini, AI mengumpulkan dan menganalisis data atas nama pengguna untuk menghasilkan hasil yang lebih mendalam
Untuk memenuhi kebutuhan AI baru ini, Ironwood dilengkapi kemampuan pemrosesan paralel skala besar dan akses data berkecepatan tinggi

Dalam konfigurasi TPU pod yang terdiri dari 9.216 chip, tersedia performa 42,5 exaflops
Dengan performa 4.614 TFLOPs per chip, sistem ini mendukung pelatihan dan inferensi model LLM serta MoE berskala besar
Peningkatan fitur SparseCore mempercepat pemrosesan embedding berukuran sangat besar, sehingga dapat diterapkan di berbagai bidang seperti keuangan dan sains
Melalui software Pathways, puluhan ribu chip Ironwood dapat dikelola secara efisien

Rasio performa terhadap efisiensi daya meningkat 2 kali dibanding generasi sebelumnya
- Efisiensi daya sekitar 30 kali lebih tinggi dibanding Trillium
- Menjaga performa tetap stabil bahkan pada beban kerja tinggi yang berkelanjutan melalui teknologi pendingin cair berkinerja tinggi
Kapasitas high-bandwidth memory (HBM) meningkat secara signifikan
- 192GB per chip, 6 kali lebih besar dibanding Trillium
- Menguntungkan untuk pemrosesan model besar dan dataset besar
Bandwidth memori HBM ditingkatkan
- 7,2 TBps per chip, meningkat 4,5 kali dibanding Trillium
Bandwidth Inter-Chip Interconnect (ICI) ditingkatkan
- 1,2 Tbps dua arah, meningkat 1,5 kali dibanding Trillium
- Cocok untuk pelatihan dan inferensi terdistribusi berskala besar berkat komunikasi antarchip yang cepat

Ironwood merupakan komponen inti dari arsitektur Google Cloud Hypercomputer dan dioptimalkan untuk kebutuhan AI generatif generasi berikutnya
Model AI terbaru seperti Gemini 2.5 dan AlphaFold juga berjalan di atas TPU
Pelanggan Google Cloud dapat menangani workload AI dengan performa tinggi, latensi rendah, dan efisiensi energi yang lebih baik melalui Ironwood
Dijadwalkan tersedia untuk pelanggan pada 2025, dan diharapkan menjadi fondasi yang mendorong inovasi baru dalam riset AI maupun aplikasi nyata

1 komentar

iwanhae 2025-04-10

Belakangan saya sempat merasa kecepatan Time to first token Gemini luar biasa cepat, ternyata memang ada alasan seperti ini di baliknya...