26 poin oleh GN⁺ 2025-12-15 | 3 komentar | Bagikan ke WhatsApp
  • TPU adalah akselerator khusus domain milik Google yang menyisakan hanya komputasi yang benar-benar diperlukan untuk deep learning dan dengan berani membuang sisanya
  • Dimulai pada 2013 sebagai respons atas batas ekspansi data center, lalu berkembang dalam 12 tahun hingga generasi ke-7, ‘Ironwood’
  • Saat era peningkatan performa semikonduktor secara otomatis berakhir, strategi mendesain sendiri tanpa menunggu menjadi pilihan kunci
  • TPU bukan sekadar satu chip, melainkan sistem co-design yang mencakup hardware, compiler, network, dan software operasi
  • Seiring pergantian generasi, fokus desain bergeser dari persaingan performa ke daya, deployment, dan biaya operasional (TCO)
  • Daya saing TPU tidak bertumpu pada satu teknologi, melainkan akumulasi pengalaman desain dan operasi selama lebih dari 10 tahun

Something New

  • TPU bukan senjata rahasia, melainkan hasil yang dipoles lewat riset terbuka jangka panjang dan iterasi internal
  • Alih-alih terus memperbesar data center, Google memilih jalur yang secara mendasar mengubah cara komputasi dilakukan
  • Sekitar 2013, tekanan untuk menggandakan kapasitas data center dan keterbatasan waktu berujung pada lahirnya TPU hanya dalam 15 bulan
  • Pada April 2025 di Google Cloud Next, Google mengumumkan TPU Ironwood generasi ke-7 dengan angka 9.216 chip/pod, 42.5 Exaflops, dan 10MW
  • GPU pada awalnya tidak dibuat untuk deep learning, sedangkan TPU sejak awal dirancang dengan asumsi komputasi neural network
  • Pilihan ini memberi keunggulan struktural bukan hanya pada performa komputasi, tetapi juga pada efisiensi daya dan stabilitas operasional
  • Hasil ini bukan karena “kebetulan”, melainkan akumulasi dari pengulangan constraint, trade-off, dan co-design

Slowing Down

  • Karena melemahnya Moore’s Law dan Dennard Scaling, dulu program cukup menunggu CPU baru agar menjadi lebih cepat, tetapi asumsi itu kini runtuh
  • Jumlah transistor terus bertambah, tetapi batas daya dan panas menghambat peningkatan performa
  • Pada saat yang sama, neural network menuntut data yang lebih besar dan model yang lebih besar, sehingga permintaan komputasi meledak
  • Karena itu, yang dibutuhkan bukan lagi “chip yang cukup baik untuk segala hal”, melainkan “chip yang sangat unggul untuk satu hal”
  • Fakta bahwa inti komputasi neural network adalah operasi berulang yang berpusat pada perkalian matriks memungkinkan desain yang terspesialisasi
Iklan

The Inference Chip

  • TPU pertama berfokus bukan pada training, melainkan inference, yaitu menjalankan model yang sudah dilatih
  • TPUv1 menghapus cache, branch prediction, dan multithreading untuk meminimalkan biaya kontrol
  • Sebagai gantinya, semua sumber daya dipusatkan pada Systolic Array (MXU) yang terus memproses perkalian matriks besar tanpa henti
  • Alih-alih mengambil keputusan saat runtime, ia mengikuti urutan eksekusi yang sudah ditetapkan pada saat kompilasi
  • Hasilnya, dengan daya yang sama, ia dapat menangani jauh lebih banyak pekerjaan inference dibanding GPU dan CPU

The Training Chip

  • Training membutuhkan komputasi yang jauh lebih besar daripada inference serta rentang representasi numerik yang lebih luas
  • Sejak TPUv2, arsitektur ini melampaui struktur khusus inference dan menambahkan fleksibilitas untuk training
  • Perubahan intinya adalah pemisahan peran matriks (MXU), vektor (VPU), dan kontrol (Scalar Unit)
  • Alur eksekusi dihitung dan ditentukan lebih dulu oleh compiler XLA, lalu chip menjalankannya apa adanya
  • Agar banyak TPU dapat bekerja seperti satu perangkat, interconnect cepat khusus (ICI) juga dirancang bersama

Scaling Up

  • Saat sistem membesar, pertanyaannya bergeser dari “seberapa cepat” menjadi “berapa lama dan semurah apa sistem ini bisa dijalankan”
  • Untuk itu, memori on-chip besar (CMEM) ditempatkan dekat unit komputasi agar mengurangi akses ke DRAM yang lebih lambat
  • Untuk pekerjaan seperti sistem rekomendasi yang memiliki banyak data sparse, unit khusus seperti SparseCore juga diperkenalkan
  • Komunikasi di dalam chip dan antar-chip dipisahkan untuk meredakan kompleksitas wiring dan bottleneck secara struktural
  • Bukan lagi angka performa, melainkan efisiensi operasional yang menentukan keseluruhan desain

Island Hopping

  • Dalam lingkungan yang menggunakan ribuan TPU, kegagalan bukan pengecualian, melainkan asumsi dasar
  • Tujuannya adalah sistem yang tidak berhenti, yakni struktur yang menyerap kegagalan parsial
  • Pekerjaan dijalankan terbagi di banyak TPU, tetapi dikelola agar tampak seperti satu program
  • Saat masalah terjadi, pilihannya bukan menghentikan semuanya, melainkan redeployment dan restart yang cepat
  • Proses kompleks ini sebagian besar ditangani otomatis oleh software operasi
Iklan

Datacenter Network perluasan

  • Ketika satu kelompok TPU tidak lagi cukup, beberapa kelompok harus dihubungkan
  • Karena network umum memiliki batas, switching berbasis optik (OCS) diperkenalkan
  • Dengan ini, seluruh data center dapat disusun seolah-olah menjadi satu sumber daya komputasi raksasa
  • Cara memperluas model eksekusi yang ada dan model eksekusi asinkron yang sepenuhnya baru (Pathways) hidup berdampingan
  • Hal ini memungkinkan penanganan model yang lebih besar dan pola komunikasi yang lebih kompleks

Ceci n’est pas une TPU

  • TPU terbaru terlihat sangat impresif dari sisi angka, tetapi prinsip intinya tetap sama seperti di awal
  • Arahannya tetap fokus pada komputasi yang diperlukan dan menghapus kompleksitas yang tidak perlu
  • Sistem ini tidak bisa direplikasi hanya dengan spesifikasi hardware
  • Compiler (XLA), interconnect khusus (ICI), optical switching (OCS), dan scheduler operasi harus bekerja bersama
  • TPU bukan hasil dari satu penemuan, melainkan akumulasi dari ratusan keputusan biasa

Beberapa teknologi kunci yang wajib diingat

  • Systolic Array (MXU): jantung TPU yang memproses perkalian matriks dengan efisiensi tinggi
  • Compiler XLA: menghitung urutan eksekusi lebih dulu untuk menghilangkan biaya kontrol
  • BF16: format numerik yang menekan biaya hardware sambil mempertahankan rentang yang dibutuhkan untuk training
  • ICI / OCS: struktur komunikasi khusus yang menyatukan chip, rack, dan data center
  • Desain berpusat pada TCO: cara berpikir yang mengoptimalkan biaya operasional jangka panjang alih-alih performa sesaat

3 komentar

 
GN⁺ 2025-12-15
Komentar Hacker News
  • Bahkan di buku Scaling ML ada bagian yang sangat bagus tentang TPU - How to Think About TPUs
    • Saya juga membaca artikel ini bersama analisis mendalam TPU oleh Henry Ko dengan sangat tertarik. Pekerjaan yang dilakukan XLA dan scheduler benar-benar mengesankan. Strukturnya jauh lebih kompleks daripada Itanium, tetapi tetap menakjubkan bahwa perangkat lunak bisa benar-benar memanfaatkan chip monster ini. Saya berharap XLA diadopsi lebih luas. Meski open source, sayang sekali minat industri masih kurang. Nvidia tampaknya baru sekarang mengikuti arah serupa dengan Tiles. Namun, setahu saya XLA masih belum terlalu berguna untuk penjadwalan lintas banyak mesin
  • Saya suka penjelasan struktural dalam tulisan ini. Kebanyakan artikel tentang TPU melewatkan sisi praktisnya, tetapi tulisan ini menghubungkan konsep dengan implementasi nyata sehingga jadi jauh lebih mudah dipahami
  • Tingkat perancangan arsitektur TPU yang benar-benar sesuai tujuan bukan sesuatu yang selesai dalam satu generasi desain. Ironwood adalah TPU generasi ke-7, dan proses evolusinya sangat penting
  • Saya masih berpikir Hukum Moore belum mati. Jika dihitung dari 1965 sampai 2025, selama 60 tahun terjadi pelipatan dua setiap 2 tahun, berarti ada 30 kali pelipatan. Secara teori pada 2025 seharusnya ada sekitar 107 miliar transistor, dan kenyataannya Apple M1 Ultra memiliki 114 miliar transistor
    • Sebagian orang menafsirkan Hukum Moore dalam arti yang kuat, yaitu “kecepatan pelipatannya tetap konstan”, dan itu memang sudah lama berakhir. Tetapi jika kecepatannya dipandang sebagai konstanta yang berubah perlahan, maka hukum itu masih berlaku. Masalahnya, jika hanya melihat nilai batas dan mengambil rata-rata, tren perubahan belakangan ini tidak akan tercermin
  • Saya heran sudut pandang bahwa Tiongkok bisa memproduksi TPU dalam skala besar dalam beberapa tahun ke depan tidak menjadi berita yang lebih besar. Jika itu terjadi, dampaknya bisa besar bagi Google, NVIDIA, dan lainnya. Ada juga insiden kebocoran dokumen TPUv4 dan v6 oleh warga Tiongkok pada 2022~2023. Bahkan sekarang startup Tiongkok sudah membuat klaster TPU sendiri dan menghasilkan pendapatan
    • Namun manufaktur itu sendiri adalah bagian yang paling sulit. Tiongkok punya pengetahuan desain yang cukup, tetapi kemampuan untuk benar-benar membuat chip masih kurang. Manufaktur semikonduktor membutuhkan ‘kemampuan teknis yang nyaris seperti sihir’ yang dimiliki TSMC. Intel dan Samsung juga bisa sampai tingkat tertentu, tetapi jaraknya masih besar
    • Setengah dari artikel itu membahas ketergantungan perangkat lunak antara TPU, Borb, lilpunet, jaringan switching optik, dan sebagainya. Sistem yang serumit ini sulit ditiru hanya dengan teknologi manufaktur saja
    • Google memakai TPU untuk layanannya sendiri, jadi meskipun perusahaan lain membuat chip serupa, dampaknya tidak akan terlalu besar. Yang lebih realistis justru pecahnya dominasi pasar NVIDIA. Unit FMA/MAC desainnya sederhana, jadi Apple, Qualcomm, AMD, Amazon, Huawei, dan hampir semua perusahaan sudah memasukkan ‘TPU’ mereka sendiri. Bahkan jika AS melatih 600 ribu mahasiswa Tiongkok, inti sebenarnya tetap ada pada teknologi manufaktur dan proses
    • Saya tidak paham pembicaraan tentang “pangkalan nuklir dan tenaga kerja”. Saya tidak tahu apa hubungan pangkalan nuklir dengan manufaktur semikonduktor. Dan 600 ribu mahasiswa itu juga bukan semuanya belajar desain chip
    • Pernyataan bahwa orang takut TPU menjadi lebih murah terdengar seperti sedikit sarkasme
  • Saya penasaran apakah saat memakai TPU di GCP masih tetap terikat pada sistem bucket Google yang aneh itu. Dulu itu benar-benar merepotkan
 
crawler 2025-12-15

Saya punya harapan pribadi,
semoga TPU benar-benar diadopsi secara luas sehingga perusahaan-perusahaan tidak lagi menggunakan GPU.
Dengan begitu, semoga Nvidia bisa kembali fokus pada GPU untuk konsumen pribadi.....

 
xguru 2025-12-15

Karena artikel aslinya terlalu mendalam secara teknis, jika diringkas apa adanya hasilnya hanya akan menjadi deretan istilah teknis, jadi saya menyusunnya ulang agar perkembangan ini lebih mudah dipahami. Bagi yang penasaran dengan detail teknisnya, silakan merujuk ke artikel asli yang menjelaskannya bersama gambar.