- TPU adalah akselerator khusus domain milik Google yang menyisakan hanya komputasi yang benar-benar diperlukan untuk deep learning dan dengan berani membuang sisanya
- Dimulai pada 2013 sebagai respons atas batas ekspansi data center, lalu berkembang dalam 12 tahun hingga generasi ke-7, ‘Ironwood’
- Saat era peningkatan performa semikonduktor secara otomatis berakhir, strategi mendesain sendiri tanpa menunggu menjadi pilihan kunci
- TPU bukan sekadar satu chip, melainkan sistem co-design yang mencakup hardware, compiler, network, dan software operasi
- Seiring pergantian generasi, fokus desain bergeser dari persaingan performa ke daya, deployment, dan biaya operasional (TCO)
- Daya saing TPU tidak bertumpu pada satu teknologi, melainkan akumulasi pengalaman desain dan operasi selama lebih dari 10 tahun
Something New
- TPU bukan senjata rahasia, melainkan hasil yang dipoles lewat riset terbuka jangka panjang dan iterasi internal
- Alih-alih terus memperbesar data center, Google memilih jalur yang secara mendasar mengubah cara komputasi dilakukan
- Sekitar 2013, tekanan untuk menggandakan kapasitas data center dan keterbatasan waktu berujung pada lahirnya TPU hanya dalam 15 bulan
- Pada April 2025 di Google Cloud Next, Google mengumumkan TPU Ironwood generasi ke-7 dengan angka 9.216 chip/pod, 42.5 Exaflops, dan 10MW
- GPU pada awalnya tidak dibuat untuk deep learning, sedangkan TPU sejak awal dirancang dengan asumsi komputasi neural network
- Pilihan ini memberi keunggulan struktural bukan hanya pada performa komputasi, tetapi juga pada efisiensi daya dan stabilitas operasional
- Hasil ini bukan karena “kebetulan”, melainkan akumulasi dari pengulangan constraint, trade-off, dan co-design
Slowing Down
- Karena melemahnya Moore’s Law dan Dennard Scaling, dulu program cukup menunggu CPU baru agar menjadi lebih cepat, tetapi asumsi itu kini runtuh
- Jumlah transistor terus bertambah, tetapi batas daya dan panas menghambat peningkatan performa
- Pada saat yang sama, neural network menuntut data yang lebih besar dan model yang lebih besar, sehingga permintaan komputasi meledak
- Karena itu, yang dibutuhkan bukan lagi “chip yang cukup baik untuk segala hal”, melainkan “chip yang sangat unggul untuk satu hal”
- Fakta bahwa inti komputasi neural network adalah operasi berulang yang berpusat pada perkalian matriks memungkinkan desain yang terspesialisasi
The Inference Chip
- TPU pertama berfokus bukan pada training, melainkan inference, yaitu menjalankan model yang sudah dilatih
- TPUv1 menghapus cache, branch prediction, dan multithreading untuk meminimalkan biaya kontrol
- Sebagai gantinya, semua sumber daya dipusatkan pada Systolic Array (MXU) yang terus memproses perkalian matriks besar tanpa henti
- Alih-alih mengambil keputusan saat runtime, ia mengikuti urutan eksekusi yang sudah ditetapkan pada saat kompilasi
- Hasilnya, dengan daya yang sama, ia dapat menangani jauh lebih banyak pekerjaan inference dibanding GPU dan CPU
The Training Chip
- Training membutuhkan komputasi yang jauh lebih besar daripada inference serta rentang representasi numerik yang lebih luas
- Sejak TPUv2, arsitektur ini melampaui struktur khusus inference dan menambahkan fleksibilitas untuk training
- Perubahan intinya adalah pemisahan peran matriks (MXU), vektor (VPU), dan kontrol (Scalar Unit)
- Alur eksekusi dihitung dan ditentukan lebih dulu oleh compiler XLA, lalu chip menjalankannya apa adanya
- Agar banyak TPU dapat bekerja seperti satu perangkat, interconnect cepat khusus (ICI) juga dirancang bersama
Scaling Up
- Saat sistem membesar, pertanyaannya bergeser dari “seberapa cepat” menjadi “berapa lama dan semurah apa sistem ini bisa dijalankan”
- Untuk itu, memori on-chip besar (CMEM) ditempatkan dekat unit komputasi agar mengurangi akses ke DRAM yang lebih lambat
- Untuk pekerjaan seperti sistem rekomendasi yang memiliki banyak data sparse, unit khusus seperti SparseCore juga diperkenalkan
- Komunikasi di dalam chip dan antar-chip dipisahkan untuk meredakan kompleksitas wiring dan bottleneck secara struktural
- Bukan lagi angka performa, melainkan efisiensi operasional yang menentukan keseluruhan desain
Island Hopping
- Dalam lingkungan yang menggunakan ribuan TPU, kegagalan bukan pengecualian, melainkan asumsi dasar
- Tujuannya adalah sistem yang tidak berhenti, yakni struktur yang menyerap kegagalan parsial
- Pekerjaan dijalankan terbagi di banyak TPU, tetapi dikelola agar tampak seperti satu program
- Saat masalah terjadi, pilihannya bukan menghentikan semuanya, melainkan redeployment dan restart yang cepat
- Proses kompleks ini sebagian besar ditangani otomatis oleh software operasi
Datacenter Network perluasan
- Ketika satu kelompok TPU tidak lagi cukup, beberapa kelompok harus dihubungkan
- Karena network umum memiliki batas, switching berbasis optik (OCS) diperkenalkan
- Dengan ini, seluruh data center dapat disusun seolah-olah menjadi satu sumber daya komputasi raksasa
- Cara memperluas model eksekusi yang ada dan model eksekusi asinkron yang sepenuhnya baru (Pathways) hidup berdampingan
- Hal ini memungkinkan penanganan model yang lebih besar dan pola komunikasi yang lebih kompleks
Ceci n’est pas une TPU
- TPU terbaru terlihat sangat impresif dari sisi angka, tetapi prinsip intinya tetap sama seperti di awal
- Arahannya tetap fokus pada komputasi yang diperlukan dan menghapus kompleksitas yang tidak perlu
- Sistem ini tidak bisa direplikasi hanya dengan spesifikasi hardware
- Compiler (XLA), interconnect khusus (ICI), optical switching (OCS), dan scheduler operasi harus bekerja bersama
- TPU bukan hasil dari satu penemuan, melainkan akumulasi dari ratusan keputusan biasa
Beberapa teknologi kunci yang wajib diingat
- Systolic Array (MXU): jantung TPU yang memproses perkalian matriks dengan efisiensi tinggi
- Compiler XLA: menghitung urutan eksekusi lebih dulu untuk menghilangkan biaya kontrol
- BF16: format numerik yang menekan biaya hardware sambil mempertahankan rentang yang dibutuhkan untuk training
- ICI / OCS: struktur komunikasi khusus yang menyatukan chip, rack, dan data center
- Desain berpusat pada TCO: cara berpikir yang mengoptimalkan biaya operasional jangka panjang alih-alih performa sesaat
Belum ada komentar.