26 poin oleh GN⁺ 2025-12-15 | Belum ada komentar. | Bagikan ke WhatsApp
  • TPU adalah akselerator khusus domain milik Google yang menyisakan hanya komputasi yang benar-benar diperlukan untuk deep learning dan dengan berani membuang sisanya
  • Dimulai pada 2013 sebagai respons atas batas ekspansi data center, lalu berkembang dalam 12 tahun hingga generasi ke-7, ‘Ironwood’
  • Saat era peningkatan performa semikonduktor secara otomatis berakhir, strategi mendesain sendiri tanpa menunggu menjadi pilihan kunci
  • TPU bukan sekadar satu chip, melainkan sistem co-design yang mencakup hardware, compiler, network, dan software operasi
  • Seiring pergantian generasi, fokus desain bergeser dari persaingan performa ke daya, deployment, dan biaya operasional (TCO)
  • Daya saing TPU tidak bertumpu pada satu teknologi, melainkan akumulasi pengalaman desain dan operasi selama lebih dari 10 tahun

Something New

  • TPU bukan senjata rahasia, melainkan hasil yang dipoles lewat riset terbuka jangka panjang dan iterasi internal
  • Alih-alih terus memperbesar data center, Google memilih jalur yang secara mendasar mengubah cara komputasi dilakukan
  • Sekitar 2013, tekanan untuk menggandakan kapasitas data center dan keterbatasan waktu berujung pada lahirnya TPU hanya dalam 15 bulan
  • Pada April 2025 di Google Cloud Next, Google mengumumkan TPU Ironwood generasi ke-7 dengan angka 9.216 chip/pod, 42.5 Exaflops, dan 10MW
  • GPU pada awalnya tidak dibuat untuk deep learning, sedangkan TPU sejak awal dirancang dengan asumsi komputasi neural network
  • Pilihan ini memberi keunggulan struktural bukan hanya pada performa komputasi, tetapi juga pada efisiensi daya dan stabilitas operasional
  • Hasil ini bukan karena “kebetulan”, melainkan akumulasi dari pengulangan constraint, trade-off, dan co-design

Slowing Down

  • Karena melemahnya Moore’s Law dan Dennard Scaling, dulu program cukup menunggu CPU baru agar menjadi lebih cepat, tetapi asumsi itu kini runtuh
  • Jumlah transistor terus bertambah, tetapi batas daya dan panas menghambat peningkatan performa
  • Pada saat yang sama, neural network menuntut data yang lebih besar dan model yang lebih besar, sehingga permintaan komputasi meledak
  • Karena itu, yang dibutuhkan bukan lagi “chip yang cukup baik untuk segala hal”, melainkan “chip yang sangat unggul untuk satu hal”
  • Fakta bahwa inti komputasi neural network adalah operasi berulang yang berpusat pada perkalian matriks memungkinkan desain yang terspesialisasi

The Inference Chip

  • TPU pertama berfokus bukan pada training, melainkan inference, yaitu menjalankan model yang sudah dilatih
  • TPUv1 menghapus cache, branch prediction, dan multithreading untuk meminimalkan biaya kontrol
  • Sebagai gantinya, semua sumber daya dipusatkan pada Systolic Array (MXU) yang terus memproses perkalian matriks besar tanpa henti
  • Alih-alih mengambil keputusan saat runtime, ia mengikuti urutan eksekusi yang sudah ditetapkan pada saat kompilasi
  • Hasilnya, dengan daya yang sama, ia dapat menangani jauh lebih banyak pekerjaan inference dibanding GPU dan CPU

The Training Chip

  • Training membutuhkan komputasi yang jauh lebih besar daripada inference serta rentang representasi numerik yang lebih luas
  • Sejak TPUv2, arsitektur ini melampaui struktur khusus inference dan menambahkan fleksibilitas untuk training
  • Perubahan intinya adalah pemisahan peran matriks (MXU), vektor (VPU), dan kontrol (Scalar Unit)
  • Alur eksekusi dihitung dan ditentukan lebih dulu oleh compiler XLA, lalu chip menjalankannya apa adanya
  • Agar banyak TPU dapat bekerja seperti satu perangkat, interconnect cepat khusus (ICI) juga dirancang bersama

Scaling Up

  • Saat sistem membesar, pertanyaannya bergeser dari “seberapa cepat” menjadi “berapa lama dan semurah apa sistem ini bisa dijalankan”
  • Untuk itu, memori on-chip besar (CMEM) ditempatkan dekat unit komputasi agar mengurangi akses ke DRAM yang lebih lambat
  • Untuk pekerjaan seperti sistem rekomendasi yang memiliki banyak data sparse, unit khusus seperti SparseCore juga diperkenalkan
  • Komunikasi di dalam chip dan antar-chip dipisahkan untuk meredakan kompleksitas wiring dan bottleneck secara struktural
  • Bukan lagi angka performa, melainkan efisiensi operasional yang menentukan keseluruhan desain

Island Hopping

  • Dalam lingkungan yang menggunakan ribuan TPU, kegagalan bukan pengecualian, melainkan asumsi dasar
  • Tujuannya adalah sistem yang tidak berhenti, yakni struktur yang menyerap kegagalan parsial
  • Pekerjaan dijalankan terbagi di banyak TPU, tetapi dikelola agar tampak seperti satu program
  • Saat masalah terjadi, pilihannya bukan menghentikan semuanya, melainkan redeployment dan restart yang cepat
  • Proses kompleks ini sebagian besar ditangani otomatis oleh software operasi

Datacenter Network perluasan

  • Ketika satu kelompok TPU tidak lagi cukup, beberapa kelompok harus dihubungkan
  • Karena network umum memiliki batas, switching berbasis optik (OCS) diperkenalkan
  • Dengan ini, seluruh data center dapat disusun seolah-olah menjadi satu sumber daya komputasi raksasa
  • Cara memperluas model eksekusi yang ada dan model eksekusi asinkron yang sepenuhnya baru (Pathways) hidup berdampingan
  • Hal ini memungkinkan penanganan model yang lebih besar dan pola komunikasi yang lebih kompleks

Ceci n’est pas une TPU

  • TPU terbaru terlihat sangat impresif dari sisi angka, tetapi prinsip intinya tetap sama seperti di awal
  • Arahannya tetap fokus pada komputasi yang diperlukan dan menghapus kompleksitas yang tidak perlu
  • Sistem ini tidak bisa direplikasi hanya dengan spesifikasi hardware
  • Compiler (XLA), interconnect khusus (ICI), optical switching (OCS), dan scheduler operasi harus bekerja bersama
  • TPU bukan hasil dari satu penemuan, melainkan akumulasi dari ratusan keputusan biasa

Beberapa teknologi kunci yang wajib diingat

  • Systolic Array (MXU): jantung TPU yang memproses perkalian matriks dengan efisiensi tinggi
  • Compiler XLA: menghitung urutan eksekusi lebih dulu untuk menghilangkan biaya kontrol
  • BF16: format numerik yang menekan biaya hardware sambil mempertahankan rentang yang dibutuhkan untuk training
  • ICI / OCS: struktur komunikasi khusus yang menyatukan chip, rack, dan data center
  • Desain berpusat pada TCO: cara berpikir yang mengoptimalkan biaya operasional jangka panjang alih-alih performa sesaat

Belum ada komentar.

Belum ada komentar.