7 poin oleh GN⁺ 2025-11-28 | 1 komentar | Bagikan ke WhatsApp
  • Google TPU adalah chip ASIC khusus yang dirancang untuk menangani beban inferensi AI skala besar, dengan efisiensi dan daya saing biaya yang lebih baik dibanding GPU
  • Pembeda utamanya adalah arsitektur Systolic Array yang meminimalkan akses memori dan memaksimalkan efisiensi komputasi (Operations per Joule)
  • TPUv7 (Ironwood) terbaru menghadirkan peningkatan besar pada performa dan bandwidth memori dibanding generasi sebelumnya, hingga mencapai performa yang sebanding dengan Nvidia Blackwell GPU
  • Keterbatasan ekosistem TPU dan struktur ketersediaan eksklusif di GCP menjadi hambatan utama adopsi, tetapi Google sedang melakukan reorganisasi dan memperkuat dukungan untuk memperluas pelanggan eksternal
  • Melalui pemulihan margin cloud dan penguatan daya saing lewat chip buatan sendiri, Google berpeluang menjadi pemenang utama pasar infrastruktur AI dalam jangka panjang

Sejarah TPU dan latar belakang pengembangannya

  • Pada 2013, Google memperoleh hasil perhitungan bahwa kapasitas data center perlu digandakan akibat meningkatnya penggunaan pencarian suara
    • CPU dan GPU yang ada saat itu sulit memproses komputasi deep learning (perkalian matriks skala besar) secara efisien
  • Karena itu, Google memutuskan mengembangkan ASIC khusus untuk jaringan saraf TensorFlow, dan dalam 15 bulan silikonnya sudah ditempatkan di data center
  • Pada 2015, TPU sudah diterapkan pada layanan utama seperti Google Maps, Photos, Translate
  • Resmi diperkenalkan pada Google I/O 2016, dan sejak itu TPU berkembang menjadi infrastruktur inti untuk menurunkan biaya inferensi AI

Perbedaan struktural TPU dan GPU

  • GPU adalah prosesor paralel serbaguna, sedangkan TPU adalah arsitektur khusus domain
    • GPU dirancang untuk pemrosesan grafis sehingga mencakup logika kontrol yang kompleks seperti cache dan branch prediction
    • TPU menghilangkan komponen tersebut dan meminimalkan perpindahan data lewat struktur Systolic Array
  • Systolic Array pada TPU memuat data sekali lalu meneruskannya dalam aliran komputasi berkelanjutan, sehingga mengatasi bottleneck Von Neumann
  • Peningkatan pada Ironwood (generasi ke-7)
    • Penguatan SparseCore meningkatkan efisiensi pemrosesan embedding skala besar
    • Kapasitas HBM 192GB, bandwidth 7.370GB/s
    • Performa Inter-Chip Interconnect (ICI) meningkat, dengan bandwidth hingga 1,2TB/s
    Iklan
  • Google membangun TPU Pod skala besar dengan Optical Circuit Switch (OCS) dan jaringan 3D torus
    • Efisiensi dayanya tinggi, tetapi fleksibilitasnya lebih rendah dibanding InfiniBand

Perbandingan performa TPU vs GPU

  • TPUv7 (BF16 4.614 TFLOPS) vs TPUv5p (459 TFLOPS), atau sekitar 10 kali peningkatan performa
  • Ringkasan wawancara industri
    • TPU unggul dalam efisiensi daya per performa dan efisiensi biaya
    • Pada aplikasi tertentu, TPU mencapai performa per dolar 1,4 kali lebih tinggi
    • TPUv6 memiliki keunggulan efisiensi 60~65% dibanding GPU, sedangkan generasi sebelumnya 40~45%
    • TPU menghasilkan panas dan konsumsi daya yang lebih rendah, serta beban lingkungan yang lebih kecil
  • Beberapa pelanggan dapat menurunkan biaya hingga 1/5 saat menggunakan TPU Pod
  • Karena struktur ASIC, disebutkan adanya efek ukuran 30% lebih kecil dan penghematan daya 50%
  • Menurut materi internal Google, TPUv7 meningkatkan performa per watt 2 kali dibanding TPUv6e
  • CEO Nvidia Jensen Huang juga menilai TPU sebagai “kasus yang khusus” dan memberi perhatian pada perkembangannya

Masalah yang menghambat adopsi TPU

  • Hambatan pertama adalah ekosistem (dominasi CUDA)
    • Di universitas maupun industri, pendidikan dan pengembangan sama-sama berpusat pada CUDA
    • TPU berfokus pada JAX dan TensorFlow, sementara dukungan PyTorch relatif belakangan diperkuat
  • Menyebarnya strategi multi-cloud juga menjadi kendala
    • Sebagian besar perusahaan menyebarkan data di AWS/Azure/GCP, sehingga workload berbasis GPU lebih fleksibel karena biaya perpindahan data (egress) sangat besar
    • TPU khusus GCP, sedangkan Nvidia tersedia di tiga cloud besar
    Iklan
  • Jika sudah memilih TPU lalu harga berubah atau lingkungan berubah, biaya penulisan ulang sangat besar
  • Google baru belakangan ini memperluas organisasinya untuk penjualan dan penyebaran eksternal, dan sejumlah mantan maupun karyawan aktif menyebut kemungkinan pasokan eksternal di masa depan melalui neo-cloud dan sejenisnya

Nilai strategis TPU bagi Google Cloud

  • Di era AI, industri cloud sedang bergeser dari struktur margin tinggi (50~70%) → margin rendah (20~35%)
    • Penyebabnya adalah tekanan biaya akibat margin 75% milik Nvidia
  • Hanya perusahaan yang memiliki ASIC sendiri, khususnya TPU, yang bisa kembali ke margin cloud tradisional (kisaran 50%)
  • Faktor keunggulan Google
    • TPU adalah ASIC cloud yang paling matang
    • Google menangani sebagian besar frontend desain chip seperti RTL secara internal
    • Broadcom hanya menangani physical design (backend), dan struktur marginnya lebih rendah daripada Nvidia sehingga memperkuat daya saing biaya TPU
    • Google memiliki seluruh stack optimasi software untuk memaksimalkan performa hardware
  • Dengan basis TPU, model utama seperti Gemini 3 menjalankan pelatihan dan inferensi
    • Pemanfaatan TPU juga diperluas di seluruh layanan AI internal
  • SemiAnalysis menilai bahwa “TPU generasi ke-7 Google setara dengan Nvidia Blackwell”
  • TPU dinilai sebagai keunggulan kompetitif jangka panjang GCP sekaligus pendorong utama ekspansi pangsa pasar infrastruktur AI

1 komentar

 
GN⁺ 2025-11-28
Komentar Hacker News
  • Senjata nyata Google bukan silikon TPU itu sendiri, melainkan skalabilitas paralel berskala besar melalui interkoneksi OCS (Optical Circuit Switch)
    Mengutip The Next Platform, 9.216 Ironwood TPU dapat dihubungkan untuk memanfaatkan memori HBM sebesar 1,77PB. Ini merupakan skala yang jauh lebih besar dibanding sistem rack-scale berbasis GPU Blackwell milik Nvidia (HBM 20,7TB)
    Nvidia unggul di tingkat chip tunggal, tetapi untuk pelatihan atau inferensi terdistribusi skala besar, tidak ada yang sebanding dengan skalabilitas optical switching milik Google

    • Google memiliki seluruh stack terintegrasi secara vertikal. Karena itu, mereka bisa menyediakan layanan AI dalam skala cloud dengan biaya jauh lebih murah sekaligus tetap menguntungkan
      Sebagian besar perusahaan tidak perlu membeli hardware sendiri atau melatih model; cukup memanfaatkan layanan ala app store AI yang disediakan Google
    • Sebenarnya kedua sistem ini memiliki struktur jaringan yang sepenuhnya berbeda. NVLink Nvidia adalah fabric switching all-to-all, sedangkan TPU memakai struktur 3D torus
      Sebagai contoh, model Mixture of Experts memiliki banyak komunikasi all-to-all sehingga jauh lebih efisien di sisi NVLink
    • Nvidia masih memposting tweet yang mengklaim teknologinya lebih baik
      Tautan tweet resmi Nvidia
    • Jika klaim Google benar, seharusnya mereka mendominasi benchmark MLPerf, tetapi kenyataannya tidak demikian
      Paralelisasi model diuntungkan oleh jaringan yang cepat dan kecil, sedangkan paralelisasi data diuntungkan oleh jaringan yang besar. Karena keseimbangan ini, Nvidia yang sedang menang
    • Untuk menyamai kapasitas memori yang sama, Google membutuhkan 100 kali lebih banyak chip
  • Gemini 3 Pro sudah mendekati usang. Google punya sumber daya jauh lebih besar daripada Anthropic, tetapi jika hardware adalah senjata rahasia, seharusnya mereka sudah menguasai pasar
    Namun kenyataannya berbeda

    1. Sulit memanfaatkan hardware secara efisien, dan saat optimasi selesai, pengembangan sudah pindah ke model berikutnya
    2. Bagi kebanyakan perusahaan, masalah ini bisa diselesaikan dengan uang. H100 pun sudah berjalan sangat baik
    3. Teknik riset baru saja dapat meningkatkan performa model secara besar
    4. Pengembangan model masih sangat bergantung pada tenaga manusia seperti kurasi dataset dan pekerjaan evaluasi
    5. Hardware kustom memunculkan masalah kustom. Masalah klaster TPU tidak bisa dicari jawabannya di Stack Overflow
  • Ada pendapat bahwa CUDA penting untuk pelatihan, tetapi kurang penting pada tahap inferensi

    • Chip NVIDIA lebih serbaguna. Saat pelatihan, dibutuhkan berbagai kemampuan seperti operasi khusus seperti sin dan cos, penyimpanan hasil perhitungan antara, serta pemrosesan gradien
      Namun inferensi adalah proses sederhana yang hanya mengulang penerapan bobot tetap, sehingga TPU bisa lebih efisien
    • Pasar chip untuk pelatihan bisa jadi gelembung, tetapi pasar inferensi jauh lebih besar. Suatu saat ketika performa model sudah cukup baik, permintaan pelatihan akan menurun, dan sistem inferensi hemat daya akan menjadi arus utama
    • Alasan CUDA penting adalah ketergantungan ekosistem. Sebagian besar software pelatihan dibangun di atas CUDA
    • Pelatihan adalah proses memecah masalah raksasa dan mengelola dependensi data, sedangkan inferensi adalah kumpulan masalah kecil yang independen
    • Pengalaman developer dengan CUDA jauh lebih baik. Saat produktivitas riset penting, ini bisa menjadi penentu
  • Tidak ada alasan Nvidia tidak bisa membuat chip khusus seperti TPU

    • Nvidia pada akhirnya juga akan melakukannya. Hanya saja Google adalah perancang chip sekaligus perusahaan AI, sehingga mereka mengambil seluruh keuntungannya
      Nvidia memproduksi lewat TSMC lalu menjualnya dengan harga mahal, sedangkan Google menghemat margin dengan memakainya sendiri
    • DeepMind bekerja langsung dengan tim TPU untuk merancang chip yang disesuaikan dengan proyek. OpenAI juga mengumumkan pengembangan chip sendiri karena alasan yang sama, tetapi ini sangat padat modal
    • TPU lebih murah daripada GPU NVidia, dan terintegrasi secara vertikal untuk penggunaan internal Google
    • Risiko bagi Nvidia bukan krisis eksistensial, melainkan penurunan margin keuntungan. Bahkan jika penjualan chip naik 100 kali, jika marginnya turun menjadi 5%, kapitalisasi pasarnya akan ikut turun
    • Sebenarnya Nvidia sudah berevolusi ke arah yang sama lewat Tensor Core
  • Ada laporan Reuters bahwa Meta sedang bernegosiasi untuk menginvestasikan miliaran dolar pada chip Google

  • ASIC untuk LLM jauh lebih kompleks daripada ASIC untuk kripto. Kripto hanya perlu menangani algoritma hash tetap, sedangkan LLM terus berevolusi
    Jadi agak membingungkan apa arti TPU dalam konteks ini

    • Pada LLM, yang penting adalah memori dan bandwidth interkoneksi. Sementara kripto 100% berpusat pada komputasi
    • Sebagian besar LLM berpusat pada perkalian matriks, dan TPU mempercepat hal ini. PyTorch juga mendukung TPU
    • Bahkan ASIC pun bisa programmable. TPU harus menjalankan berbagai model, jadi berbeda dari chip yang di-hardcode
    • Arsitektur LLM berubah, tetapi komponen umumnya (operasi matriks, tipe floating point) tetap sama. Karena itu TPU pada dasarnya adalah ASIC untuk LLM
    • Kripto juga berubah. Misalnya, Monero memakai struktur setingkat CPU untuk mencegah ASIC
  • Akan bagus jika ada lebih banyak opsi TPU mandiri untuk penggunaan pribadi. Saat ini satu-satunya pilihan hanyalah Coral keluaran 2019

  • Perdebatan ini terasa akademis seperti RISC vs CISC. GPU Nvidia pada akhirnya juga dirancang untuk melakukan hal yang sama seperti TPU
    Bahkan di internal Google, lima tahun lagi mungkin tidak akan ada perbedaan besar
    Google memang memperoleh keuntungan dari TPU, tetapi bagi developer eksternal tidak ada manfaat langsung

    • Memang benar Google tidak menjual TPU, tetapi perusahaan lain juga sedang mengembangkan chip mereka sendiri
      Maia milik Microsoft, chip data center dari AMD/NVIDIA, serta akuisisi perusahaan spesialis jaringan menunjukkan semuanya bergerak ke arah yang sama
      Google memang lebih dulu, tetapi pada akhirnya ini akan menjadi kompetisi konvergen
  • Model sparse dapat mengurangi komputasi dan ruang penyimpanan hingga 16 kali sambil mempertahankan kualitas yang sama
    TPU lemah dalam pemrosesan matriks sparse, tetapi kuat untuk pelatihan model dense

  • Pada akhirnya, pertanyaannya tetap: di mana garis finis kompetisi ini, atau di mana batas bawahnya?