- Google memperkenalkan TPU 8t dan TPU 8i yang memisahkan pelatihan dan inferensi, menyediakan infrastruktur khusus yang ditujukan untuk pelatihan model terdepan, pengembangan agen, dan beban kerja inferensi skala besar
- TPU 8t dirancang untuk memangkas siklus pengembangan model frontier dari hitungan bulan menjadi hitungan minggu berkat throughput komputasi tinggi, memori bersama berskala besar, dan skalabilitas, dengan kinerja komputasi per pod hampir 3x dibanding generasi sebelumnya
- TPU 8i didesain ulang agar cocok untuk inferensi agentic dengan fokus pada optimasi bandwidth memori dan latensi, serta mencapai peningkatan 80% pada performa per biaya melalui SRAM on-chip yang lebih besar, host CPU Axion, dan peningkatan jaringan untuk MoE
- Kedua chip dikembangkan lewat co-design dengan Google DeepMind untuk mencerminkan kebutuhan terbaru model pelatihan dan inferensi, serta menyediakan dukungan native untuk JAX, PyTorch, vLLM, dan lainnya, bersama bare metal access
- Sesuai dengan lingkungan data center yang semakin dibatasi oleh daya, efisiensi daya ditingkatkan di tingkat sistem; kedua chip dijadwalkan tersedia secara umum pada paruh akhir tahun ini dan dapat digunakan sebagai bagian dari Google AI Hypercomputer
Google memperkenalkan TPU generasi ke-8
- Google memperkenalkan TPU 8t dan TPU 8i sebagai dua arsitektur yang masing-masing dioptimalkan untuk pelatihan dan inferensi, untuk menjalankan superkomputer kustom Google
- Kedua chip mendukung pelatihan model terdepan, pengembangan agen, dan beban kerja inferensi skala besar
- Disebutkan bahwa TPU telah digunakan selama bertahun-tahun untuk menjalankan model fondasi utama termasuk Gemini
- Di era agen AI, model menjalankan loop berkelanjutan yang mencakup penalaran terhadap masalah, eksekusi workflow multi-tahap, dan pembelajaran dari tindakannya sendiri
- Ini memunculkan kebutuhan akan infrastruktur baru yang sesuai
- TPU 8t dan TPU 8i dirancang melalui kolaborasi dengan Google DeepMind untuk menghadapi beban kerja AI paling menantang dan perubahan arsitektur model skala besar
- TPU diposisikan sebagai acuan komponen superkomputasi ML yang mencakup komputasi numerik kustom, liquid cooling, dan interconnect kustom
- TPU generasi ke-8 disebut sebagai puncak dari lebih dari 10 tahun pengembangan
- Google mempertahankan prinsip desain untuk merancang silikon, hardware, jaringan, software, arsitektur model, dan kebutuhan aplikasi secara bersama agar efisiensi daya dan performa absolut meningkat signifikan
- Disebutkan pula contoh Citadel Securities yang memilih TPU untuk menjalankan beban kerja AI terdepan
Dua chip yang disesuaikan dengan kebutuhan saat ini
- Karena siklus pengembangan hardware jauh lebih panjang dibanding software, saat merancang generasi TPU Google mempertimbangkan lebih awal teknologi dan permintaan pada saat produk dirilis
- Sejak beberapa tahun lalu, Google telah memperkirakan permintaan inferensi pelanggan akan meningkat seiring penyebaran dan deployment produksi model AI terdepan
- Dengan meluasnya agen AI, dibutuhkan pemisahan chip yang masing-masing sesuai untuk kebutuhan pelatihan dan serving
- TPU 8t ditujukan untuk beban kerja pelatihan berskala besar dengan komputasi intensif berdasarkan throughput komputasi yang lebih besar dan bandwidth scale-up yang lebih tinggi
- TPU 8i ditujukan untuk beban kerja inferensi yang sensitif terhadap latensi berdasarkan bandwidth memori yang lebih besar
- Latar belakang desain TPU 8i adalah bahwa ketika interaksi antaragen meningkat dalam skala besar, inefisiensi kecil pun akan membesar dampaknya
- Kedua chip dapat menjalankan beragam workload, tetapi spesialisasi memberikan peningkatan efisiensi dan performa yang bermakna
TPU 8t: sistem berperforma tinggi untuk pelatihan
- TPU 8t dirancang sebagai sistem untuk memangkas siklus pengembangan model frontier dari hitungan bulan menjadi hitungan minggu
- Menyeimbangkan throughput komputasi tinggi, memori bersama, bandwidth antar-chip, efisiensi daya, dan waktu komputasi produktif yang benar-benar nyata
- Disebutkan bahwa kinerja komputasi per pod meningkat hampir 3x dibanding generasi sebelumnya
-
Ekspansi skala besar
- Satu TPU 8t superpod dapat diskalakan hingga 9.600 chip dan 2 petabyte memori bersama ber-bandwidth tinggi
- Bandwidth antar-chip meningkat 2x dibanding generasi sebelumnya
- Menyediakan performa komputasi 121 ExaFlops
- Bahkan model paling kompleks dapat memanfaatkan satu pool memori besar yang terpadu
-
Utilisasi maksimum
- Kecepatan akses storage ditingkatkan 10x, dan dikombinasikan dengan TPUDirect untuk mendukung pemuatan data langsung ke TPU
- Ditujukan untuk memaksimalkan utilisasi sistem end-to-end
-
Skalasi linear mendekati ideal
- Kombinasi Virgo Network, JAX, dan software Pathways memberikan skalasi linear mendekati ideal hingga 1 juta chip dalam satu logical cluster
- Selain performa mentah, TPU 8t menargetkan goodput lebih dari 97%
- goodput didefinisikan sebagai metrik waktu komputasi nyata yang berguna dan produktif
- Fitur RAS memperkuat reliability, availability, dan serviceability
- Menyediakan telemetri real-time di puluhan ribu chip
- Secara otomatis mendeteksi dan mengalihkan jalur ICI link yang rusak tanpa menghentikan pekerjaan
- Optical Circuit Switching (OCS) memungkinkan rekonfigurasi hardware berdasarkan titik gangguan tanpa intervensi manusia
- Disebutkan bahwa kegagalan hardware, kemacetan jaringan, dan restart checkpoint semuanya menyebabkan waktu henti pelatihan, dan pada skala pelatihan frontier, perbedaan 1 poin persentase saja dapat berarti beberapa hari waktu pelatihan nyata
TPU 8i: mesin untuk inferensi dan agen penalaran
- TPU 8i dirancang sebagai sistem inferensi untuk era agen, ketika dibutuhkan tanya-jawab, delegasi tugas, dan penghasilan hasil
- Ditujukan untuk pemrosesan pekerjaan kolaboratif dan iteratif di mana banyak agen spesialis bekerja bersama dalam alur yang kompleks
- Stack didesain ulang untuk menghilangkan efek "waiting room"
-
Mengatasi bottleneck memori
- Untuk mencegah prosesor menganggur, Google menggabungkan 288GB high-bandwidth memory dengan 384MB SRAM on-chip
- SRAM on-chip meningkat 3x dibanding generasi sebelumnya
- Tujuannya adalah menjaga seluruh active working set model tetap berada di on-chip
-
Efisiensi berbasis Axion
- Jumlah physical CPU host per server digandakan, dan diubah ke CPU kustom berbasis Arm Axion
- NUMA digunakan untuk isolasi guna mengoptimalkan performa seluruh sistem
-
Skala model MoE
- Untuk model Mixture of Expert (MoE) modern, bandwidth ICI digandakan menjadi 19,2 Tb/s
- Arsitektur Boardfly baru mengurangi diameter maksimum jaringan lebih dari 50%
- Sistem dirancang agar keseluruhannya beroperasi seperti satu unit koheren berlatensi rendah
-
Meminimalkan latensi
- Collectives Acceleration Engine (CAE) on-chip melakukan offload operasi global
- Mengurangi latensi on-chip hingga 5x untuk meminimalkan latensi
- Melalui inovasi tersebut, Google mencapai peningkatan performa per biaya sebesar 80% dibanding generasi sebelumnya
- Dengan biaya yang sama, hampir 2x volume pelanggan dapat dilayani
- Disebutkan bahwa topologi pod TPU 8i dimulai dari blok 4 chip yang sepenuhnya terhubung, berkembang menjadi grup 8 board yang sepenuhnya terhubung, lalu terdiri dari 36 grup semacam itu yang juga sepenuhnya terhubung
Co-design dengan Gemini, terbuka untuk semua orang
- TPU generasi ke-8 diposisikan sebagai hasil terbaru dari filosofi co-design untuk mengatasi hambatan besar AI
-
Hal-hal yang tercermin dalam desain
- Topologi Boardfly dirancang sesuai kebutuhan komunikasi model inferensi berperforma tinggi terbaru
- Kapasitas SRAM TPU 8i dihitung agar sesuai dengan ukuran KV cache model inferensi skala produksi
- Target bandwidth fabric Virgo Network diturunkan dari kebutuhan paralelisasi pelatihan dengan parameter skala triliunan
- Kedua chip untuk pertama kalinya berjalan pada CPU host berbasis ARM Axion buatan Google sendiri
- Bukan hanya chip, tetapi seluruh sistem dapat dioptimalkan untuk performa dan efisiensi
- Kedua platform mendukung JAX, MaxText, PyTorch, SGLang, dan vLLM secara native
- Menyediakan bare metal access
- Pelanggan dapat mengakses hardware secara langsung tanpa overhead virtualisasi
- Kontribusi open source yang disebut mencakup implementasi referensi MaxText dan Tunix untuk dukungan reinforcement learning
- Ditujukan untuk mendukung jalur inti antara kapabilitas dan deployment produksi
Dirancang dengan fokus pada efisiensi daya berskala besar
- Di data center saat ini, bukan hanya pasokan chip, tetapi juga daya menjadi kendala utama
- Google menerapkan manajemen daya terintegrasi yang secara dinamis menyesuaikan konsumsi daya berdasarkan permintaan real-time
- TPU 8t dan TPU 8i meningkatkan performa per watt hingga 2x dibanding generasi sebelumnya, Ironwood
- Efisiensi Google tidak berhenti pada metrik tingkat chip, melainkan merupakan komitmen di tingkat sistem dari silikon hingga data center
- Dengan mengintegrasikan konektivitas jaringan dan komputasi pada chip yang sama, biaya daya untuk perpindahan data di dalam pod TPU dapat dikurangi secara signifikan
- Data center juga menjadi bagian dari objek co-design
- Melalui inovasi di seluruh hardware dan software, Google menyediakan performa komputasi 6x lebih besar per unit daya dibanding lima tahun lalu
- Kedua chip mendukung teknologi liquid cooling generasi ke-4
- Ditujukan untuk mempertahankan densitas performa yang tidak bisa dipertahankan dengan pendinginan udara
- Dengan memiliki seluruh stack dari host Axion hingga accelerator, Google dapat mengoptimalkan efisiensi energi tingkat sistem yang tidak bisa dicapai ketika host dan chip dirancang secara terpisah
Infrastruktur untuk era agen
- Setiap transisi besar dalam komputasi membutuhkan inovasi infrastruktur, dan era agen bukan pengecualian
- Infrastruktur perlu berevolusi agar sesuai dengan kebutuhan loop berkelanjutan penalaran, perencanaan, eksekusi, dan pembelajaran milik agen otonom
- TPU 8t dan TPU 8i ditempatkan sebagai jawaban atas kebutuhan tersebut
- Membangun model AI paling kuat
- Menjalankan kumpulan agen yang diorkestrasi secara presisi
- Menangani tugas penalaran yang paling kompleks
- Kedua chip dijadwalkan tersedia secara umum pada paruh akhir tahun ini
- Dapat digunakan sebagai bagian dari Google AI Hypercomputer
- Hardware khusus tujuan untuk komputasi, storage, dan networking
- Software terbuka berupa framework dan inference engine
- Opsi konsumsi yang fleksibel termasuk orkestrasi, cluster management, dan delivery model
- Semua elemen tersebut digabungkan ke dalam satu stack terpadu
- Pelanggan yang berminat dapat meminta informasi tambahan
1 komentar
Komentar Hacker News
Saya merasa Gemini 3 sudah menunjukkan sejauh apa pembelajaran yang berfokus pada efisiensi bisa dibawa. Saya memperkirakan Pro dan Flash mungkin terlihat 5 hingga 10 kali lebih kecil dibanding model sekelas Opus atau GPT-5 Pemanggilan tool sering rusak, dan untuk pekerjaan agentic secara umum juga lemah, jadi penyempurnaan penalaran dan eksekusinya masih tampak kurang. Meski begitu, kalau hanya melihat pemecahan masalah murni tanpa tool atau pencarian, kesannya mampu menyaingi Opus dan GPT, sambil tampak jauh lebih kecil ukurannya Saya rasa suatu saat ketika Google selesai dengan prototipe tahap preview dan merilis model resmi yang benar-benar matang, mereka akan mengejutkan semua orang dengan model yang melampaui SOTA saat ini sekitar satu generasi. Model-model yang keluar sejauh ini terasa seperti prototipe yang didorong cepat ke GA untuk ditunjukkan ke investor dan dimasukkan ke lini produk sebagai pembuktian konsep
Sekarang kalau mau main di AI skala besar, rasanya pada dasarnya harus beli dari NVidia atau sewa dari Google. Dan Google bisa mendesain chip, engine, dan sistem dari sudut pandang seluruh data center, jadi mereka bisa mengoptimalkan sampai bagian yang tidak bisa disentralisasi oleh vendor chip Karena itu saya memperkirakan semakin besar skalanya, sistem Google akan selalu lebih efisien dari sisi biaya. Sebagai catatan, saya long position di GOOG, termasuk karena alasan ini
Saat perusahaan lain sibuk menarik perhatian dalam siklus berita, Google tampaknya diam-diam masuk ke arus semakin kuat sambil mengumpulkan pangsa pasar konsumen Mungkin karena sejak awal mereka sudah terintegrasi secara vertikal untuk AI, jadi masalah infrastruktur pun hampir tidak terlihat. Dulu sempat tampak seperti perusahaan yang sudah habis, tapi sekarang rasanya seperti air pasang yang membesar ke segala arah
Dari sudut pandang orang yang memakai Gemini, ChatGPT, dan Claude semuanya, Gemini secara konsisten memakai jauh lebih sedikit token daripada dua model itu Pada akhirnya, Gemini tampak bertahan di level sekarang karena thinking budget yang lebih kecil Google kemungkinan punya komputasi paling banyak dan struktur biaya paling rendah, jadi cukup aneh kenapa mereka tidak mendorong komputasi penalaran seagresif dua yang lain. Apakah karena beban layanan lain, atau strategi yang berpusat pada pelatihan, saya tidak tahu, tapi menurut saya ini titik yang cukup menarik
Penjelasan bahwa satu superpod TPU 8t bisa diskalakan sampai 9.600 chip dan 2PB shared high-bandwidth memory terasa mengesankan Saya memang tidak terlalu paham bidang ini, tapi setidaknya di mata saya ini terlihat seperti keunggulan kompetitif Google yang cukup besar
Klaim bahwa TPU 8t dan TPU 8i memberikan performa per watt hingga 2 kali lipat dibanding generasi sebelumnya terasa cukup mengesankan Terutama karena generasi sebelumnya sendiri masih sangat baru, sampai merupakan produk 2025. Hal lain yang menonjol adalah pemisahan hardware untuk pelatihan dan inferensi; saya jadi penasaran apakah perusahaan yang memakai hardware NV juga membaginya seperti ini atau justru lebih serbaguna
Saya memakai Gemini bersama Junie dari JetBrains, dan walaupun Junie sendiri tidak sebagus Claude Code, menurut saya saat ini tetap jauh lebih unggul daripada tool Google Dengan kombinasi ini saya bisa mendapatkan hasil yang konsisten dengan cukup murah
Di antara penyedia penalaran besar, menurut saya Google termasuk yang paling menyebalkan dalam hal kebijakan penghentian model Tepat setahun setelah rilis mereka menghapus model lalu memaksa pindah ke generasi berikutnya; karena memakai silikon sendiri saya justru mengira mereka akan lebih stabil, tapi ternyata kebalikannya. Rate limiting mereka juga jauh lebih ketat daripada OpenAI, jadi saya penasaran apakah ini karena TPU atau sekadar keputusan kebijakan yang aneh
Kalau nanti ada pemenang akhir di AI, saya sulit membayangkan selain Google yang memiliki seluruh stack, atau Apple yang akan menyebarkan edge site AI paling banyak
Tautan ini punya penjelasan arsitektur yang lebih rinci. https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive