Dua Chip untuk Era Agen: TPU Generasi ke-8 Google
(blog.google)- Google mengumumkan dua jenis TPU generasi ke-8 yang merangkum lebih dari 10 tahun sejarah pengembangan TPU, dengan arsitektur yang masing-masing dioptimalkan untuk TPU 8t khusus pelatihan model skala besar dan TPU 8i khusus inferensi berkecepatan tinggi
- TPU 8t dapat diskalakan hingga 9.600 chip, 121 ExaFlops dalam satu superpod, dengan peningkatan performa komputasi per pod sekitar 3 kali dibanding generasi sebelumnya
- TPU 8i didesain ulang untuk inferensi agentic dengan fokus pada optimasi bandwidth memori dan latensi, serta mencapai peningkatan performa per biaya 80% melalui perluasan SRAM on-chip, host CPU Axion, dan peningkatan jaringan untuk MoE
- Kedua chip berjalan pada host CPU berbasis ARM Axion rancangan Google sendiri, dengan peningkatan performa per watt hingga 2 kali dibanding generasi sebelumnya
- Sebagai strategi infrastruktur yang memisahkan dan mengoptimalkan pelatihan serta inferensi untuk era saat agen AI terus melakukan inferensi, perencanaan, dan eksekusi, keduanya dijadwalkan tersedia secara umum pada paruh kedua tahun ini dan dapat digunakan sebagai bagian dari Google AI Hypercomputer
Gambaran umum TPU generasi ke-8
- Google mengumumkan Tensor Processor Unit(TPU) generasi ke-8 di Google Cloud Next, terdiri dari dua arsitektur: TPU 8t untuk pelatihan dan TPU 8i untuk inferensi
- Dirancang untuk menjalankan superkomputer kustom dan mencakup pelatihan model mutakhir, pengembangan agen, serta workload inferensi skala besar
- Google telah menjalankan model fondasi utama termasuk Gemini di atas TPU selama bertahun-tahun, dan generasi ke-8 menghadirkan skala, efisiensi, dan performa sekaligus di seluruh workload pelatihan, serving, dan agentic
- Di era agen AI, model harus melakukan loop berkelanjutan untuk menalar masalah, menjalankan workflow multi-tahap, dan belajar dari tindakannya sendiri, sehingga memunculkan kebutuhan baru pada infrastruktur
- Dirancang bekerja sama dengan Google DeepMind untuk menangani workload AI paling menantang dan beradaptasi dengan arsitektur model yang terus berkembang
Filosofi desain lebih dari 10 tahun
- TPU telah menetapkan standar komponen superkomputasi ML seperti komputasi numerik kustom, pendinginan cair, dan interkoneksi kustom, dan generasi ke-8 merupakan akumulasi dari lebih dari 10 tahun pengembangan
- Prinsip desain utamanya adalah co-design silikon bersama perangkat keras, jaringan, dan perangkat lunak (termasuk arsitektur model dan kebutuhan aplikasi), sehingga menghasilkan peningkatan dramatis baik dalam efisiensi daya maupun performa absolut
- Google menyebut contoh Citadel Securities sebagai organisasi terdepan yang memilih TPU untuk workload AI mereka
Mengapa pelatihan dan inferensi dipisahkan
- Siklus pengembangan perangkat keras jauh lebih panjang daripada perangkat lunak, sehingga setiap generasi TPU perlu memprediksi lebih dulu teknologi dan permintaan pada saat peluncuran
- Google telah memperkirakan peningkatan permintaan inferensi akibat deployment produksi model AI frontier sejak beberapa tahun lalu
- Dengan munculnya agen AI, kebutuhan pelatihan dan serving berbeda satu sama lain, sehingga chip yang dioptimalkan secara terpisah dinilai lebih menguntungkan bagi komunitas
- TPU 8t dioptimalkan untuk pelatihan skala besar dengan throughput komputasi yang lebih besar dan bandwidth scale-up
- TPU 8i dioptimalkan untuk workload inferensi sensitif latensi dengan bandwidth memori lebih besar, karena interaksi antarsagen akan memperbesar bahkan inefisiensi kecil pada skala besar
- Kedua chip dapat menjalankan berbagai workload, tetapi spesialisasi ini menghasilkan peningkatan efisiensi yang signifikan
TPU 8t: pusat tenaga khusus pelatihan
- Tujuannya adalah memangkas siklus pengembangan model frontier dari berbulan-bulan menjadi berminggu-minggu
- Menggabungkan throughput komputasi kelas tertinggi, memori bersama, dan bandwidth antarchip dengan efisiensi daya optimal serta waktu komputasi produktif secara seimbang
- Performa komputasi per pod meningkat sekitar 3 kali dibanding generasi sebelumnya
-
Skala masif(Massive Scale)
- Satu superpod TPU 8t dapat diskalakan hingga 9.600 chip, HBM bersama 2 petabyte
- Bandwidth antarchip meningkat 2 kali dibanding generasi sebelumnya
- Menyediakan 121 ExaFlops performa komputasi, sehingga model paling kompleks dapat memanfaatkan satu pool memori besar
-
Utilisasi maksimum(Maximum Utilization)
- Mengintegrasikan akses storage 10 kali lebih cepat
- Dengan TPUDirect, data dapat dipool langsung ke TPU untuk menjamin utilisasi maksimum sistem end-to-end
-
Penskalaan nyaris linear(Near-Linear Scaling)
- Menggabungkan Virgo Network baru dengan perangkat lunak JAX dan Pathways untuk memungkinkan penskalaan nyaris linear hingga 1 juta chip dalam satu klaster logis
-
Keandalan dan ketersediaan
- Menargetkan goodput(waktu komputasi produktif yang benar-benar berguna) di atas 97%
- Mencakup fitur RAS(Reliability, Availability, Serviceability) yang komprehensif
- Telemetri real-time di puluhan ribu chip
- Deteksi otomatis tautan ICI yang bermasalah dan pengalihan rute tanpa menghentikan pekerjaan
- OCS(Optical Circuit Switching) untuk merekonfigurasi perangkat keras di sekitar gangguan tanpa campur tangan manusia
- Pada skala pelatihan frontier, kegagalan perangkat keras, latensi jaringan, dan restart checkpoint adalah waktu non-pelatihan, dan selisih 1 poin persentase dapat berubah menjadi beberapa hari waktu pelatihan
TPU 8i: mesin inferensi
- Di era agentic, pengguna berharap bisa mengajukan pertanyaan, mendelegasikan tugas, dan menerima hasil, sehingga chip ini dioptimalkan untuk kolaborasi banyak agen spesialis yang melakukan swarming dalam alur kompleks
- Stack didesain ulang untuk menghilangkan "efek ruang tunggu", dengan empat inovasi utama
-
Menembus dinding memori(Breaking the Memory Wall)
- Dilengkapi HBM 288GB dan SRAM on-chip 384MB (3 kali generasi sebelumnya)
- Menjaga seluruh active working set model tetap on-chip untuk mencegah prosesor menganggur
-
Efisiensi berbasis Axion
- Menggandakan jumlah host CPU fisik per server dan mengadopsi CPU berbasis ARM Axion buatan Google
- Mengoptimalkan performa seluruh sistem melalui isolasi NUMA(Non-Uniform Memory Architecture)
-
Penskalaan model MoE
- Untuk model Mixture of Expert(MoE) terbaru, bandwidth ICI digandakan menjadi 19,2 Tb/s
- Arsitektur Boardfly baru mengurangi diameter jaringan maksimum lebih dari 50%, sehingga beroperasi sebagai satu unit kohesif berlatensi rendah
-
Menghilangkan lag(Eliminating Lag)
- CAE(Collectives Acceleration Engine) on-chip baru memindahkan beban operasi global sehingga mengurangi latensi on-chip hingga 5 kali
-
Performa per biaya
- Performa per dolar meningkat 80% dibanding generasi sebelumnya, memungkinkan melayani hampir 2 kali volume pelanggan dengan biaya yang sama
Co-design dengan Gemini, terbuka untuk semua
- TPU generasi ke-8 adalah wujud terbaru dari filosofi co-design yang merancang seluruh spesifikasi untuk menyelesaikan tantangan AI terbesar
- Topologi Boardfly: dirancang sesuai kebutuhan komunikasi model inferensi terbaik saat ini
- Kapasitas SRAM TPU 8i: ditentukan agar sesuai dengan jejak KV cache model inferensi skala produksi
- Target bandwidth Virgo Network: diturunkan dari kebutuhan paralelisasi pelatihan parameter skala triliunan
- Untuk pertama kalinya, kedua chip berjalan pada host CPU berbasis ARM Axion buatan Google sendiri, memungkinkan optimasi bukan hanya pada chip tetapi pada keseluruhan sistem
-
Framework dan aksesibilitas
- Dukungan native untuk JAX, MaxText, PyTorch, SGLang, vLLM
- Menyediakan akses bare metal, sehingga perangkat keras bisa diakses langsung tanpa overhead virtualisasi
- Kontribusi open source: implementasi referensi MaxText, Tunix untuk reinforcement learning, dan lainnya guna mendukung jalur penting dari pengembangan hingga deployment produksi
Desain efisiensi daya skala besar
- Di pusat data saat ini, bukan hanya pasokan chip tetapi juga daya listrik menjadi kendala pengikat
- Google mengoptimalkan efisiensi di seluruh stack dan menerapkan manajemen daya terintegrasi yang menyesuaikan konsumsi daya secara dinamis berdasarkan permintaan real-time
- Baik TPU 8t maupun TPU 8i meningkatkan performa per watt hingga 2 kali dibanding generasi sebelumnya (Ironwood)
- Efisiensi bukan hanya metrik pada level chip, tetapi komitmen level sistem dari silikon hingga pusat data
- Konektivitas jaringan diintegrasikan ke chip yang sama dengan komputasi, sehingga sangat mengurangi biaya daya perpindahan data di dalam pod TPU
- Pusat data juga di-co-design bersama TPU, menghasilkan peningkatan 6 kali daya komputasi per unit energi dibanding 5 tahun lalu
- Kedua chip didukung oleh teknologi pendinginan cair generasi ke-4, untuk mempertahankan densitas performa yang tidak mungkin dicapai dengan pendinginan udara
- Dengan memiliki seluruh stack dari host Axion hingga accelerator, Google mewujudkan optimasi efisiensi energi level sistem yang tidak mungkin dilakukan bila host dan chip dirancang secara terpisah
Infrastruktur untuk era agentic
- Setiap transisi komputasi besar memerlukan inovasi infrastruktur, dan era agentic pun demikian
- Infrastruktur harus berevolusi untuk memenuhi kebutuhan agen otonom yang menjalankan loop berkelanjutan inferensi, perencanaan, eksekusi, dan pembelajaran
- TPU 8t dan TPU 8i adalah jawaban atas tantangan ini: dua arsitektur khusus yang mendefinisikan ulang pembangunan model AI terbaik, orkestrasi sempurna kawanan agen, dan pengelolaan tugas inferensi paling kompleks
- Kedua chip dijadwalkan tersedia secara umum pada paruh kedua tahun ini
- Dapat digunakan sebagai bagian dari AI Hypercomputer Google
- Menggabungkan hardware berorientasi tujuan (komputasi, storage, jaringan), software terbuka (framework, mesin inferensi), dan model konsumsi fleksibel (orkestrasi, manajemen klaster, model delivery) ke dalam satu stack terpadu
1 komentar
Komentar Hacker News
Saya merasa Gemini 3 sudah menunjukkan sejauh apa pembelajaran yang berfokus pada efisiensi bisa dibawa. Saya memperkirakan Pro dan Flash mungkin terlihat 5 hingga 10 kali lebih kecil dibanding model sekelas Opus atau GPT-5 Pemanggilan tool sering rusak, dan untuk pekerjaan agentic secara umum juga lemah, jadi penyempurnaan penalaran dan eksekusinya masih tampak kurang. Meski begitu, kalau hanya melihat pemecahan masalah murni tanpa tool atau pencarian, kesannya mampu menyaingi Opus dan GPT, sambil tampak jauh lebih kecil ukurannya Saya rasa suatu saat ketika Google selesai dengan prototipe tahap preview dan merilis model resmi yang benar-benar matang, mereka akan mengejutkan semua orang dengan model yang melampaui SOTA saat ini sekitar satu generasi. Model-model yang keluar sejauh ini terasa seperti prototipe yang didorong cepat ke GA untuk ditunjukkan ke investor dan dimasukkan ke lini produk sebagai pembuktian konsep
Sekarang kalau mau main di AI skala besar, rasanya pada dasarnya harus beli dari NVidia atau sewa dari Google. Dan Google bisa mendesain chip, engine, dan sistem dari sudut pandang seluruh data center, jadi mereka bisa mengoptimalkan sampai bagian yang tidak bisa disentralisasi oleh vendor chip Karena itu saya memperkirakan semakin besar skalanya, sistem Google akan selalu lebih efisien dari sisi biaya. Sebagai catatan, saya long position di GOOG, termasuk karena alasan ini
Saat perusahaan lain sibuk menarik perhatian dalam siklus berita, Google tampaknya diam-diam masuk ke arus semakin kuat sambil mengumpulkan pangsa pasar konsumen Mungkin karena sejak awal mereka sudah terintegrasi secara vertikal untuk AI, jadi masalah infrastruktur pun hampir tidak terlihat. Dulu sempat tampak seperti perusahaan yang sudah habis, tapi sekarang rasanya seperti air pasang yang membesar ke segala arah
Dari sudut pandang orang yang memakai Gemini, ChatGPT, dan Claude semuanya, Gemini secara konsisten memakai jauh lebih sedikit token daripada dua model itu Pada akhirnya, Gemini tampak bertahan di level sekarang karena thinking budget yang lebih kecil Google kemungkinan punya komputasi paling banyak dan struktur biaya paling rendah, jadi cukup aneh kenapa mereka tidak mendorong komputasi penalaran seagresif dua yang lain. Apakah karena beban layanan lain, atau strategi yang berpusat pada pelatihan, saya tidak tahu, tapi menurut saya ini titik yang cukup menarik
Penjelasan bahwa satu superpod TPU 8t bisa diskalakan sampai 9.600 chip dan 2PB shared high-bandwidth memory terasa mengesankan Saya memang tidak terlalu paham bidang ini, tapi setidaknya di mata saya ini terlihat seperti keunggulan kompetitif Google yang cukup besar
Klaim bahwa TPU 8t dan TPU 8i memberikan performa per watt hingga 2 kali lipat dibanding generasi sebelumnya terasa cukup mengesankan Terutama karena generasi sebelumnya sendiri masih sangat baru, sampai merupakan produk 2025. Hal lain yang menonjol adalah pemisahan hardware untuk pelatihan dan inferensi; saya jadi penasaran apakah perusahaan yang memakai hardware NV juga membaginya seperti ini atau justru lebih serbaguna
Saya memakai Gemini bersama Junie dari JetBrains, dan walaupun Junie sendiri tidak sebagus Claude Code, menurut saya saat ini tetap jauh lebih unggul daripada tool Google Dengan kombinasi ini saya bisa mendapatkan hasil yang konsisten dengan cukup murah
Di antara penyedia penalaran besar, menurut saya Google termasuk yang paling menyebalkan dalam hal kebijakan penghentian model Tepat setahun setelah rilis mereka menghapus model lalu memaksa pindah ke generasi berikutnya; karena memakai silikon sendiri saya justru mengira mereka akan lebih stabil, tapi ternyata kebalikannya. Rate limiting mereka juga jauh lebih ketat daripada OpenAI, jadi saya penasaran apakah ini karena TPU atau sekadar keputusan kebijakan yang aneh
Kalau nanti ada pemenang akhir di AI, saya sulit membayangkan selain Google yang memiliki seluruh stack, atau Apple yang akan menyebarkan edge site AI paling banyak
Tautan ini punya penjelasan arsitektur yang lebih rinci. https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive