Memahami Tensor Processing Unit milik Google
(considerthebulldog.com)- TPU adalah akselerator khusus domain milik Google yang menyisakan hanya komputasi yang benar-benar diperlukan untuk deep learning dan dengan berani membuang sisanya
- Dimulai pada 2013 sebagai respons atas batas ekspansi data center, lalu berkembang dalam 12 tahun hingga generasi ke-7, ‘Ironwood’
- Saat era peningkatan performa semikonduktor secara otomatis berakhir, strategi mendesain sendiri tanpa menunggu menjadi pilihan kunci
- TPU bukan sekadar satu chip, melainkan sistem co-design yang mencakup hardware, compiler, network, dan software operasi
- Seiring pergantian generasi, fokus desain bergeser dari persaingan performa ke daya, deployment, dan biaya operasional (TCO)
- Daya saing TPU tidak bertumpu pada satu teknologi, melainkan akumulasi pengalaman desain dan operasi selama lebih dari 10 tahun
Something New
- TPU bukan senjata rahasia, melainkan hasil yang dipoles lewat riset terbuka jangka panjang dan iterasi internal
- Alih-alih terus memperbesar data center, Google memilih jalur yang secara mendasar mengubah cara komputasi dilakukan
- Sekitar 2013, tekanan untuk menggandakan kapasitas data center dan keterbatasan waktu berujung pada lahirnya TPU hanya dalam 15 bulan
- Pada April 2025 di Google Cloud Next, Google mengumumkan TPU Ironwood generasi ke-7 dengan angka 9.216 chip/pod, 42.5 Exaflops, dan 10MW
- GPU pada awalnya tidak dibuat untuk deep learning, sedangkan TPU sejak awal dirancang dengan asumsi komputasi neural network
- Pilihan ini memberi keunggulan struktural bukan hanya pada performa komputasi, tetapi juga pada efisiensi daya dan stabilitas operasional
- Hasil ini bukan karena “kebetulan”, melainkan akumulasi dari pengulangan constraint, trade-off, dan co-design
Slowing Down
- Karena melemahnya Moore’s Law dan Dennard Scaling, dulu program cukup menunggu CPU baru agar menjadi lebih cepat, tetapi asumsi itu kini runtuh
- Jumlah transistor terus bertambah, tetapi batas daya dan panas menghambat peningkatan performa
- Pada saat yang sama, neural network menuntut data yang lebih besar dan model yang lebih besar, sehingga permintaan komputasi meledak
- Karena itu, yang dibutuhkan bukan lagi “chip yang cukup baik untuk segala hal”, melainkan “chip yang sangat unggul untuk satu hal”
- Fakta bahwa inti komputasi neural network adalah operasi berulang yang berpusat pada perkalian matriks memungkinkan desain yang terspesialisasi
The Inference Chip
- TPU pertama berfokus bukan pada training, melainkan inference, yaitu menjalankan model yang sudah dilatih
- TPUv1 menghapus cache, branch prediction, dan multithreading untuk meminimalkan biaya kontrol
- Sebagai gantinya, semua sumber daya dipusatkan pada Systolic Array (MXU) yang terus memproses perkalian matriks besar tanpa henti
- Alih-alih mengambil keputusan saat runtime, ia mengikuti urutan eksekusi yang sudah ditetapkan pada saat kompilasi
- Hasilnya, dengan daya yang sama, ia dapat menangani jauh lebih banyak pekerjaan inference dibanding GPU dan CPU
The Training Chip
- Training membutuhkan komputasi yang jauh lebih besar daripada inference serta rentang representasi numerik yang lebih luas
- Sejak TPUv2, arsitektur ini melampaui struktur khusus inference dan menambahkan fleksibilitas untuk training
- Perubahan intinya adalah pemisahan peran matriks (MXU), vektor (VPU), dan kontrol (Scalar Unit)
- Alur eksekusi dihitung dan ditentukan lebih dulu oleh compiler XLA, lalu chip menjalankannya apa adanya
- Agar banyak TPU dapat bekerja seperti satu perangkat, interconnect cepat khusus (ICI) juga dirancang bersama
Scaling Up
- Saat sistem membesar, pertanyaannya bergeser dari “seberapa cepat” menjadi “berapa lama dan semurah apa sistem ini bisa dijalankan”
- Untuk itu, memori on-chip besar (CMEM) ditempatkan dekat unit komputasi agar mengurangi akses ke DRAM yang lebih lambat
- Untuk pekerjaan seperti sistem rekomendasi yang memiliki banyak data sparse, unit khusus seperti SparseCore juga diperkenalkan
- Komunikasi di dalam chip dan antar-chip dipisahkan untuk meredakan kompleksitas wiring dan bottleneck secara struktural
- Bukan lagi angka performa, melainkan efisiensi operasional yang menentukan keseluruhan desain
Island Hopping
- Dalam lingkungan yang menggunakan ribuan TPU, kegagalan bukan pengecualian, melainkan asumsi dasar
- Tujuannya adalah sistem yang tidak berhenti, yakni struktur yang menyerap kegagalan parsial
- Pekerjaan dijalankan terbagi di banyak TPU, tetapi dikelola agar tampak seperti satu program
- Saat masalah terjadi, pilihannya bukan menghentikan semuanya, melainkan redeployment dan restart yang cepat
- Proses kompleks ini sebagian besar ditangani otomatis oleh software operasi
Datacenter Network perluasan
- Ketika satu kelompok TPU tidak lagi cukup, beberapa kelompok harus dihubungkan
- Karena network umum memiliki batas, switching berbasis optik (OCS) diperkenalkan
- Dengan ini, seluruh data center dapat disusun seolah-olah menjadi satu sumber daya komputasi raksasa
- Cara memperluas model eksekusi yang ada dan model eksekusi asinkron yang sepenuhnya baru (Pathways) hidup berdampingan
- Hal ini memungkinkan penanganan model yang lebih besar dan pola komunikasi yang lebih kompleks
Ceci n’est pas une TPU
- TPU terbaru terlihat sangat impresif dari sisi angka, tetapi prinsip intinya tetap sama seperti di awal
- Arahannya tetap fokus pada komputasi yang diperlukan dan menghapus kompleksitas yang tidak perlu
- Sistem ini tidak bisa direplikasi hanya dengan spesifikasi hardware
- Compiler (XLA), interconnect khusus (ICI), optical switching (OCS), dan scheduler operasi harus bekerja bersama
- TPU bukan hasil dari satu penemuan, melainkan akumulasi dari ratusan keputusan biasa
Beberapa teknologi kunci yang wajib diingat
- Systolic Array (MXU): jantung TPU yang memproses perkalian matriks dengan efisiensi tinggi
- Compiler XLA: menghitung urutan eksekusi lebih dulu untuk menghilangkan biaya kontrol
- BF16: format numerik yang menekan biaya hardware sambil mempertahankan rentang yang dibutuhkan untuk training
- ICI / OCS: struktur komunikasi khusus yang menyatukan chip, rack, dan data center
- Desain berpusat pada TCO: cara berpikir yang mengoptimalkan biaya operasional jangka panjang alih-alih performa sesaat
3 komentar
Komentar Hacker News
Saya punya harapan pribadi,
semoga TPU benar-benar diadopsi secara luas sehingga perusahaan-perusahaan tidak lagi menggunakan GPU.
Dengan begitu, semoga Nvidia bisa kembali fokus pada GPU untuk konsumen pribadi.....
Karena artikel aslinya terlalu mendalam secara teknis, jika diringkas apa adanya hasilnya hanya akan menjadi deretan istilah teknis, jadi saya menyusunnya ulang agar perkembangan ini lebih mudah dipahami. Bagi yang penasaran dengan detail teknisnya, silakan merujuk ke artikel asli yang menjelaskannya bersama gambar.