Memahami Tensor Processing Unit milik Google

(considerthebulldog.com)

26 poin oleh GN⁺ 2025-12-15 | Belum ada komentar. | Bagikan ke WhatsApp

TPU adalah akselerator khusus domain milik Google yang menyisakan hanya komputasi yang benar-benar diperlukan untuk deep learning dan dengan berani membuang sisanya
Dimulai pada 2013 sebagai respons atas batas ekspansi data center, lalu berkembang dalam 12 tahun hingga generasi ke-7, ‘Ironwood’
Saat era peningkatan performa semikonduktor secara otomatis berakhir, strategi mendesain sendiri tanpa menunggu menjadi pilihan kunci
TPU bukan sekadar satu chip, melainkan sistem co-design yang mencakup hardware, compiler, network, dan software operasi
Seiring pergantian generasi, fokus desain bergeser dari persaingan performa ke daya, deployment, dan biaya operasional (TCO)
Daya saing TPU tidak bertumpu pada satu teknologi, melainkan akumulasi pengalaman desain dan operasi selama lebih dari 10 tahun

Something New

TPU bukan senjata rahasia, melainkan hasil yang dipoles lewat riset terbuka jangka panjang dan iterasi internal
Alih-alih terus memperbesar data center, Google memilih jalur yang secara mendasar mengubah cara komputasi dilakukan
Sekitar 2013, tekanan untuk menggandakan kapasitas data center dan keterbatasan waktu berujung pada lahirnya TPU hanya dalam 15 bulan
Pada April 2025 di Google Cloud Next, Google mengumumkan TPU Ironwood generasi ke-7 dengan angka 9.216 chip/pod, 42.5 Exaflops, dan 10MW
GPU pada awalnya tidak dibuat untuk deep learning, sedangkan TPU sejak awal dirancang dengan asumsi komputasi neural network
Pilihan ini memberi keunggulan struktural bukan hanya pada performa komputasi, tetapi juga pada efisiensi daya dan stabilitas operasional
Hasil ini bukan karena “kebetulan”, melainkan akumulasi dari pengulangan constraint, trade-off, dan co-design

Karena melemahnya Moore’s Law dan Dennard Scaling, dulu program cukup menunggu CPU baru agar menjadi lebih cepat, tetapi asumsi itu kini runtuh
Jumlah transistor terus bertambah, tetapi batas daya dan panas menghambat peningkatan performa
Pada saat yang sama, neural network menuntut data yang lebih besar dan model yang lebih besar, sehingga permintaan komputasi meledak
Karena itu, yang dibutuhkan bukan lagi “chip yang cukup baik untuk segala hal”, melainkan “chip yang sangat unggul untuk satu hal”
Fakta bahwa inti komputasi neural network adalah operasi berulang yang berpusat pada perkalian matriks memungkinkan desain yang terspesialisasi

TPU pertama berfokus bukan pada training, melainkan inference, yaitu menjalankan model yang sudah dilatih
TPUv1 menghapus cache, branch prediction, dan multithreading untuk meminimalkan biaya kontrol
Sebagai gantinya, semua sumber daya dipusatkan pada Systolic Array (MXU) yang terus memproses perkalian matriks besar tanpa henti
Alih-alih mengambil keputusan saat runtime, ia mengikuti urutan eksekusi yang sudah ditetapkan pada saat kompilasi
Hasilnya, dengan daya yang sama, ia dapat menangani jauh lebih banyak pekerjaan inference dibanding GPU dan CPU

Training membutuhkan komputasi yang jauh lebih besar daripada inference serta rentang representasi numerik yang lebih luas
Sejak TPUv2, arsitektur ini melampaui struktur khusus inference dan menambahkan fleksibilitas untuk training
Perubahan intinya adalah pemisahan peran matriks (MXU), vektor (VPU), dan kontrol (Scalar Unit)
Alur eksekusi dihitung dan ditentukan lebih dulu oleh compiler XLA, lalu chip menjalankannya apa adanya
Agar banyak TPU dapat bekerja seperti satu perangkat, interconnect cepat khusus (ICI) juga dirancang bersama

Saat sistem membesar, pertanyaannya bergeser dari “seberapa cepat” menjadi “berapa lama dan semurah apa sistem ini bisa dijalankan”
Untuk itu, memori on-chip besar (CMEM) ditempatkan dekat unit komputasi agar mengurangi akses ke DRAM yang lebih lambat
Untuk pekerjaan seperti sistem rekomendasi yang memiliki banyak data sparse, unit khusus seperti SparseCore juga diperkenalkan
Komunikasi di dalam chip dan antar-chip dipisahkan untuk meredakan kompleksitas wiring dan bottleneck secara struktural
Bukan lagi angka performa, melainkan efisiensi operasional yang menentukan keseluruhan desain

Dalam lingkungan yang menggunakan ribuan TPU, kegagalan bukan pengecualian, melainkan asumsi dasar
Tujuannya adalah sistem yang tidak berhenti, yakni struktur yang menyerap kegagalan parsial
Pekerjaan dijalankan terbagi di banyak TPU, tetapi dikelola agar tampak seperti satu program
Saat masalah terjadi, pilihannya bukan menghentikan semuanya, melainkan redeployment dan restart yang cepat
Proses kompleks ini sebagian besar ditangani otomatis oleh software operasi

Ketika satu kelompok TPU tidak lagi cukup, beberapa kelompok harus dihubungkan
Karena network umum memiliki batas, switching berbasis optik (OCS) diperkenalkan
Dengan ini, seluruh data center dapat disusun seolah-olah menjadi satu sumber daya komputasi raksasa
Cara memperluas model eksekusi yang ada dan model eksekusi asinkron yang sepenuhnya baru (Pathways) hidup berdampingan
Hal ini memungkinkan penanganan model yang lebih besar dan pola komunikasi yang lebih kompleks

TPU terbaru terlihat sangat impresif dari sisi angka, tetapi prinsip intinya tetap sama seperti di awal
Arahannya tetap fokus pada komputasi yang diperlukan dan menghapus kompleksitas yang tidak perlu
Sistem ini tidak bisa direplikasi hanya dengan spesifikasi hardware
Compiler (XLA), interconnect khusus (ICI), optical switching (OCS), dan scheduler operasi harus bekerja bersama
TPU bukan hasil dari satu penemuan, melainkan akumulasi dari ratusan keputusan biasa

Systolic Array (MXU): jantung TPU yang memproses perkalian matriks dengan efisiensi tinggi
Compiler XLA: menghitung urutan eksekusi lebih dulu untuk menghilangkan biaya kontrol
BF16: format numerik yang menekan biaya hardware sambil mempertahankan rentang yang dibutuhkan untuk training
ICI / OCS: struktur komunikasi khusus yang menyatukan chip, rack, dan data center
Desain berpusat pada TCO: cara berpikir yang mengoptimalkan biaya operasional jangka panjang alih-alih performa sesaat