TPU vs. GPU, dan mengapa Google bisa menang dalam persaingan AI dalam jangka panjang
(uncoveralpha.com)- Google TPU adalah chip ASIC khusus yang dirancang untuk menangani beban inferensi AI skala besar, dengan efisiensi dan daya saing biaya yang lebih baik dibanding GPU
- Pembeda utamanya adalah arsitektur Systolic Array yang meminimalkan akses memori dan memaksimalkan efisiensi komputasi (Operations per Joule)
- TPUv7 (Ironwood) terbaru menghadirkan peningkatan besar pada performa dan bandwidth memori dibanding generasi sebelumnya, hingga mencapai performa yang sebanding dengan Nvidia Blackwell GPU
- Keterbatasan ekosistem TPU dan struktur ketersediaan eksklusif di GCP menjadi hambatan utama adopsi, tetapi Google sedang melakukan reorganisasi dan memperkuat dukungan untuk memperluas pelanggan eksternal
- Melalui pemulihan margin cloud dan penguatan daya saing lewat chip buatan sendiri, Google berpeluang menjadi pemenang utama pasar infrastruktur AI dalam jangka panjang
Sejarah TPU dan latar belakang pengembangannya
- Pada 2013, Google memperoleh hasil perhitungan bahwa kapasitas data center perlu digandakan akibat meningkatnya penggunaan pencarian suara
- CPU dan GPU yang ada saat itu sulit memproses komputasi deep learning (perkalian matriks skala besar) secara efisien
- Karena itu, Google memutuskan mengembangkan ASIC khusus untuk jaringan saraf TensorFlow, dan dalam 15 bulan silikonnya sudah ditempatkan di data center
- Pada 2015, TPU sudah diterapkan pada layanan utama seperti Google Maps, Photos, Translate
- Resmi diperkenalkan pada Google I/O 2016, dan sejak itu TPU berkembang menjadi infrastruktur inti untuk menurunkan biaya inferensi AI
Perbedaan struktural TPU dan GPU
- GPU adalah prosesor paralel serbaguna, sedangkan TPU adalah arsitektur khusus domain
- GPU dirancang untuk pemrosesan grafis sehingga mencakup logika kontrol yang kompleks seperti cache dan branch prediction
- TPU menghilangkan komponen tersebut dan meminimalkan perpindahan data lewat struktur Systolic Array
- Systolic Array pada TPU memuat data sekali lalu meneruskannya dalam aliran komputasi berkelanjutan, sehingga mengatasi bottleneck Von Neumann
- Peningkatan pada Ironwood (generasi ke-7)
- Penguatan SparseCore meningkatkan efisiensi pemrosesan embedding skala besar
- Kapasitas HBM 192GB, bandwidth 7.370GB/s
- Performa Inter-Chip Interconnect (ICI) meningkat, dengan bandwidth hingga 1,2TB/s
- Google membangun TPU Pod skala besar dengan Optical Circuit Switch (OCS) dan jaringan 3D torus
- Efisiensi dayanya tinggi, tetapi fleksibilitasnya lebih rendah dibanding InfiniBand
Perbandingan performa TPU vs GPU
- TPUv7 (BF16 4.614 TFLOPS) vs TPUv5p (459 TFLOPS), atau sekitar 10 kali peningkatan performa
- Ringkasan wawancara industri
- TPU unggul dalam efisiensi daya per performa dan efisiensi biaya
- Pada aplikasi tertentu, TPU mencapai performa per dolar 1,4 kali lebih tinggi
- TPUv6 memiliki keunggulan efisiensi 60~65% dibanding GPU, sedangkan generasi sebelumnya 40~45%
- TPU menghasilkan panas dan konsumsi daya yang lebih rendah, serta beban lingkungan yang lebih kecil
- Beberapa pelanggan dapat menurunkan biaya hingga 1/5 saat menggunakan TPU Pod
- Karena struktur ASIC, disebutkan adanya efek ukuran 30% lebih kecil dan penghematan daya 50%
- Menurut materi internal Google, TPUv7 meningkatkan performa per watt 2 kali dibanding TPUv6e
- CEO Nvidia Jensen Huang juga menilai TPU sebagai “kasus yang khusus” dan memberi perhatian pada perkembangannya
Masalah yang menghambat adopsi TPU
- Hambatan pertama adalah ekosistem (dominasi CUDA)
- Di universitas maupun industri, pendidikan dan pengembangan sama-sama berpusat pada CUDA
- TPU berfokus pada JAX dan TensorFlow, sementara dukungan PyTorch relatif belakangan diperkuat
- Menyebarnya strategi multi-cloud juga menjadi kendala
- Sebagian besar perusahaan menyebarkan data di AWS/Azure/GCP, sehingga workload berbasis GPU lebih fleksibel karena biaya perpindahan data (egress) sangat besar
- TPU khusus GCP, sedangkan Nvidia tersedia di tiga cloud besar
- Jika sudah memilih TPU lalu harga berubah atau lingkungan berubah, biaya penulisan ulang sangat besar
- Google baru belakangan ini memperluas organisasinya untuk penjualan dan penyebaran eksternal, dan sejumlah mantan maupun karyawan aktif menyebut kemungkinan pasokan eksternal di masa depan melalui neo-cloud dan sejenisnya
Nilai strategis TPU bagi Google Cloud
- Di era AI, industri cloud sedang bergeser dari struktur margin tinggi (50~70%) → margin rendah (20~35%)
- Penyebabnya adalah tekanan biaya akibat margin 75% milik Nvidia
- Hanya perusahaan yang memiliki ASIC sendiri, khususnya TPU, yang bisa kembali ke margin cloud tradisional (kisaran 50%)
- Faktor keunggulan Google
- TPU adalah ASIC cloud yang paling matang
- Google menangani sebagian besar frontend desain chip seperti RTL secara internal
- Broadcom hanya menangani physical design (backend), dan struktur marginnya lebih rendah daripada Nvidia sehingga memperkuat daya saing biaya TPU
- Google memiliki seluruh stack optimasi software untuk memaksimalkan performa hardware
- Dengan basis TPU, model utama seperti Gemini 3 menjalankan pelatihan dan inferensi
- Pemanfaatan TPU juga diperluas di seluruh layanan AI internal
- SemiAnalysis menilai bahwa “TPU generasi ke-7 Google setara dengan Nvidia Blackwell”
- TPU dinilai sebagai keunggulan kompetitif jangka panjang GCP sekaligus pendorong utama ekspansi pangsa pasar infrastruktur AI
1 komentar
Komentar Hacker News
Senjata nyata Google bukan silikon TPU itu sendiri, melainkan skalabilitas paralel berskala besar melalui interkoneksi OCS (Optical Circuit Switch)
Mengutip The Next Platform, 9.216 Ironwood TPU dapat dihubungkan untuk memanfaatkan memori HBM sebesar 1,77PB. Ini merupakan skala yang jauh lebih besar dibanding sistem rack-scale berbasis GPU Blackwell milik Nvidia (HBM 20,7TB)
Nvidia unggul di tingkat chip tunggal, tetapi untuk pelatihan atau inferensi terdistribusi skala besar, tidak ada yang sebanding dengan skalabilitas optical switching milik Google
Sebagian besar perusahaan tidak perlu membeli hardware sendiri atau melatih model; cukup memanfaatkan layanan ala app store AI yang disediakan Google
Sebagai contoh, model Mixture of Experts memiliki banyak komunikasi all-to-all sehingga jauh lebih efisien di sisi NVLink
Tautan tweet resmi Nvidia
Paralelisasi model diuntungkan oleh jaringan yang cepat dan kecil, sedangkan paralelisasi data diuntungkan oleh jaringan yang besar. Karena keseimbangan ini, Nvidia yang sedang menang
Gemini 3 Pro sudah mendekati usang. Google punya sumber daya jauh lebih besar daripada Anthropic, tetapi jika hardware adalah senjata rahasia, seharusnya mereka sudah menguasai pasar
Namun kenyataannya berbeda
Ada pendapat bahwa CUDA penting untuk pelatihan, tetapi kurang penting pada tahap inferensi
Namun inferensi adalah proses sederhana yang hanya mengulang penerapan bobot tetap, sehingga TPU bisa lebih efisien
Tidak ada alasan Nvidia tidak bisa membuat chip khusus seperti TPU
Nvidia memproduksi lewat TSMC lalu menjualnya dengan harga mahal, sedangkan Google menghemat margin dengan memakainya sendiri
Ada laporan Reuters bahwa Meta sedang bernegosiasi untuk menginvestasikan miliaran dolar pada chip Google
ASIC untuk LLM jauh lebih kompleks daripada ASIC untuk kripto. Kripto hanya perlu menangani algoritma hash tetap, sedangkan LLM terus berevolusi
Jadi agak membingungkan apa arti TPU dalam konteks ini
Akan bagus jika ada lebih banyak opsi TPU mandiri untuk penggunaan pribadi. Saat ini satu-satunya pilihan hanyalah Coral keluaran 2019
Perdebatan ini terasa akademis seperti RISC vs CISC. GPU Nvidia pada akhirnya juga dirancang untuk melakukan hal yang sama seperti TPU
Bahkan di internal Google, lima tahun lagi mungkin tidak akan ada perbedaan besar
Google memang memperoleh keuntungan dari TPU, tetapi bagi developer eksternal tidak ada manfaat langsung
Maia milik Microsoft, chip data center dari AMD/NVIDIA, serta akuisisi perusahaan spesialis jaringan menunjukkan semuanya bergerak ke arah yang sama
Google memang lebih dulu, tetapi pada akhirnya ini akan menjadi kompetisi konvergen
Model sparse dapat mengurangi komputasi dan ruang penyimpanan hingga 16 kali sambil mempertahankan kualitas yang sama
TPU lemah dalam pemrosesan matriks sparse, tetapi kuat untuk pelatihan model dense
Dokumen arsitektur sistem TPU
Pengantar OpenXLA SparseCore
Pada akhirnya, pertanyaannya tetap: di mana garis finis kompetisi ini, atau di mana batas bawahnya?