6 poin oleh GN⁺ 2026-04-23 | 1 komentar | Bagikan ke WhatsApp
  • Google mengumumkan dua jenis TPU generasi ke-8 yang merangkum lebih dari 10 tahun sejarah pengembangan TPU, dengan arsitektur yang masing-masing dioptimalkan untuk TPU 8t khusus pelatihan model skala besar dan TPU 8i khusus inferensi berkecepatan tinggi
  • TPU 8t dapat diskalakan hingga 9.600 chip, 121 ExaFlops dalam satu superpod, dengan peningkatan performa komputasi per pod sekitar 3 kali dibanding generasi sebelumnya
  • TPU 8i didesain ulang untuk inferensi agentic dengan fokus pada optimasi bandwidth memori dan latensi, serta mencapai peningkatan performa per biaya 80% melalui perluasan SRAM on-chip, host CPU Axion, dan peningkatan jaringan untuk MoE
  • Kedua chip berjalan pada host CPU berbasis ARM Axion rancangan Google sendiri, dengan peningkatan performa per watt hingga 2 kali dibanding generasi sebelumnya
  • Sebagai strategi infrastruktur yang memisahkan dan mengoptimalkan pelatihan serta inferensi untuk era saat agen AI terus melakukan inferensi, perencanaan, dan eksekusi, keduanya dijadwalkan tersedia secara umum pada paruh kedua tahun ini dan dapat digunakan sebagai bagian dari Google AI Hypercomputer

Gambaran umum TPU generasi ke-8

  • Google mengumumkan Tensor Processor Unit(TPU) generasi ke-8 di Google Cloud Next, terdiri dari dua arsitektur: TPU 8t untuk pelatihan dan TPU 8i untuk inferensi
  • Dirancang untuk menjalankan superkomputer kustom dan mencakup pelatihan model mutakhir, pengembangan agen, serta workload inferensi skala besar
  • Google telah menjalankan model fondasi utama termasuk Gemini di atas TPU selama bertahun-tahun, dan generasi ke-8 menghadirkan skala, efisiensi, dan performa sekaligus di seluruh workload pelatihan, serving, dan agentic
  • Di era agen AI, model harus melakukan loop berkelanjutan untuk menalar masalah, menjalankan workflow multi-tahap, dan belajar dari tindakannya sendiri, sehingga memunculkan kebutuhan baru pada infrastruktur
  • Dirancang bekerja sama dengan Google DeepMind untuk menangani workload AI paling menantang dan beradaptasi dengan arsitektur model yang terus berkembang

Filosofi desain lebih dari 10 tahun

  • TPU telah menetapkan standar komponen superkomputasi ML seperti komputasi numerik kustom, pendinginan cair, dan interkoneksi kustom, dan generasi ke-8 merupakan akumulasi dari lebih dari 10 tahun pengembangan
  • Prinsip desain utamanya adalah co-design silikon bersama perangkat keras, jaringan, dan perangkat lunak (termasuk arsitektur model dan kebutuhan aplikasi), sehingga menghasilkan peningkatan dramatis baik dalam efisiensi daya maupun performa absolut
  • Google menyebut contoh Citadel Securities sebagai organisasi terdepan yang memilih TPU untuk workload AI mereka

Mengapa pelatihan dan inferensi dipisahkan

  • Siklus pengembangan perangkat keras jauh lebih panjang daripada perangkat lunak, sehingga setiap generasi TPU perlu memprediksi lebih dulu teknologi dan permintaan pada saat peluncuran
  • Google telah memperkirakan peningkatan permintaan inferensi akibat deployment produksi model AI frontier sejak beberapa tahun lalu
  • Dengan munculnya agen AI, kebutuhan pelatihan dan serving berbeda satu sama lain, sehingga chip yang dioptimalkan secara terpisah dinilai lebih menguntungkan bagi komunitas
  • TPU 8t dioptimalkan untuk pelatihan skala besar dengan throughput komputasi yang lebih besar dan bandwidth scale-up
  • TPU 8i dioptimalkan untuk workload inferensi sensitif latensi dengan bandwidth memori lebih besar, karena interaksi antarsagen akan memperbesar bahkan inefisiensi kecil pada skala besar
  • Kedua chip dapat menjalankan berbagai workload, tetapi spesialisasi ini menghasilkan peningkatan efisiensi yang signifikan

TPU 8t: pusat tenaga khusus pelatihan

  • Tujuannya adalah memangkas siklus pengembangan model frontier dari berbulan-bulan menjadi berminggu-minggu
  • Menggabungkan throughput komputasi kelas tertinggi, memori bersama, dan bandwidth antarchip dengan efisiensi daya optimal serta waktu komputasi produktif secara seimbang
  • Performa komputasi per pod meningkat sekitar 3 kali dibanding generasi sebelumnya
  • Skala masif(Massive Scale)

    • Satu superpod TPU 8t dapat diskalakan hingga 9.600 chip, HBM bersama 2 petabyte
    • Bandwidth antarchip meningkat 2 kali dibanding generasi sebelumnya
    • Menyediakan 121 ExaFlops performa komputasi, sehingga model paling kompleks dapat memanfaatkan satu pool memori besar
  • Utilisasi maksimum(Maximum Utilization)

    • Mengintegrasikan akses storage 10 kali lebih cepat
    • Dengan TPUDirect, data dapat dipool langsung ke TPU untuk menjamin utilisasi maksimum sistem end-to-end
    Iklan
  • Penskalaan nyaris linear(Near-Linear Scaling)

    • Menggabungkan Virgo Network baru dengan perangkat lunak JAX dan Pathways untuk memungkinkan penskalaan nyaris linear hingga 1 juta chip dalam satu klaster logis
  • Keandalan dan ketersediaan

    • Menargetkan goodput(waktu komputasi produktif yang benar-benar berguna) di atas 97%
    • Mencakup fitur RAS(Reliability, Availability, Serviceability) yang komprehensif
      • Telemetri real-time di puluhan ribu chip
      • Deteksi otomatis tautan ICI yang bermasalah dan pengalihan rute tanpa menghentikan pekerjaan
      • OCS(Optical Circuit Switching) untuk merekonfigurasi perangkat keras di sekitar gangguan tanpa campur tangan manusia
    • Pada skala pelatihan frontier, kegagalan perangkat keras, latensi jaringan, dan restart checkpoint adalah waktu non-pelatihan, dan selisih 1 poin persentase dapat berubah menjadi beberapa hari waktu pelatihan

TPU 8i: mesin inferensi

  • Di era agentic, pengguna berharap bisa mengajukan pertanyaan, mendelegasikan tugas, dan menerima hasil, sehingga chip ini dioptimalkan untuk kolaborasi banyak agen spesialis yang melakukan swarming dalam alur kompleks
  • Stack didesain ulang untuk menghilangkan "efek ruang tunggu", dengan empat inovasi utama
  • Menembus dinding memori(Breaking the Memory Wall)

    • Dilengkapi HBM 288GB dan SRAM on-chip 384MB (3 kali generasi sebelumnya)
    • Menjaga seluruh active working set model tetap on-chip untuk mencegah prosesor menganggur
    Iklan
  • Efisiensi berbasis Axion

    • Menggandakan jumlah host CPU fisik per server dan mengadopsi CPU berbasis ARM Axion buatan Google
    • Mengoptimalkan performa seluruh sistem melalui isolasi NUMA(Non-Uniform Memory Architecture)
  • Penskalaan model MoE

    • Untuk model Mixture of Expert(MoE) terbaru, bandwidth ICI digandakan menjadi 19,2 Tb/s
    • Arsitektur Boardfly baru mengurangi diameter jaringan maksimum lebih dari 50%, sehingga beroperasi sebagai satu unit kohesif berlatensi rendah
  • Menghilangkan lag(Eliminating Lag)

    • CAE(Collectives Acceleration Engine) on-chip baru memindahkan beban operasi global sehingga mengurangi latensi on-chip hingga 5 kali
  • Performa per biaya

    • Performa per dolar meningkat 80% dibanding generasi sebelumnya, memungkinkan melayani hampir 2 kali volume pelanggan dengan biaya yang sama

Co-design dengan Gemini, terbuka untuk semua

  • TPU generasi ke-8 adalah wujud terbaru dari filosofi co-design yang merancang seluruh spesifikasi untuk menyelesaikan tantangan AI terbesar
  • Topologi Boardfly: dirancang sesuai kebutuhan komunikasi model inferensi terbaik saat ini
  • Kapasitas SRAM TPU 8i: ditentukan agar sesuai dengan jejak KV cache model inferensi skala produksi
  • Target bandwidth Virgo Network: diturunkan dari kebutuhan paralelisasi pelatihan parameter skala triliunan
  • Untuk pertama kalinya, kedua chip berjalan pada host CPU berbasis ARM Axion buatan Google sendiri, memungkinkan optimasi bukan hanya pada chip tetapi pada keseluruhan sistem
  • Framework dan aksesibilitas

    • Dukungan native untuk JAX, MaxText, PyTorch, SGLang, vLLM
    • Menyediakan akses bare metal, sehingga perangkat keras bisa diakses langsung tanpa overhead virtualisasi
    • Kontribusi open source: implementasi referensi MaxText, Tunix untuk reinforcement learning, dan lainnya guna mendukung jalur penting dari pengembangan hingga deployment produksi
    Iklan

Desain efisiensi daya skala besar

  • Di pusat data saat ini, bukan hanya pasokan chip tetapi juga daya listrik menjadi kendala pengikat
  • Google mengoptimalkan efisiensi di seluruh stack dan menerapkan manajemen daya terintegrasi yang menyesuaikan konsumsi daya secara dinamis berdasarkan permintaan real-time
  • Baik TPU 8t maupun TPU 8i meningkatkan performa per watt hingga 2 kali dibanding generasi sebelumnya (Ironwood)
  • Efisiensi bukan hanya metrik pada level chip, tetapi komitmen level sistem dari silikon hingga pusat data
    • Konektivitas jaringan diintegrasikan ke chip yang sama dengan komputasi, sehingga sangat mengurangi biaya daya perpindahan data di dalam pod TPU
    • Pusat data juga di-co-design bersama TPU, menghasilkan peningkatan 6 kali daya komputasi per unit energi dibanding 5 tahun lalu
  • Kedua chip didukung oleh teknologi pendinginan cair generasi ke-4, untuk mempertahankan densitas performa yang tidak mungkin dicapai dengan pendinginan udara
  • Dengan memiliki seluruh stack dari host Axion hingga accelerator, Google mewujudkan optimasi efisiensi energi level sistem yang tidak mungkin dilakukan bila host dan chip dirancang secara terpisah

Infrastruktur untuk era agentic

  • Setiap transisi komputasi besar memerlukan inovasi infrastruktur, dan era agentic pun demikian
  • Infrastruktur harus berevolusi untuk memenuhi kebutuhan agen otonom yang menjalankan loop berkelanjutan inferensi, perencanaan, eksekusi, dan pembelajaran
  • TPU 8t dan TPU 8i adalah jawaban atas tantangan ini: dua arsitektur khusus yang mendefinisikan ulang pembangunan model AI terbaik, orkestrasi sempurna kawanan agen, dan pengelolaan tugas inferensi paling kompleks
  • Kedua chip dijadwalkan tersedia secara umum pada paruh kedua tahun ini
  • Dapat digunakan sebagai bagian dari AI Hypercomputer Google
    • Menggabungkan hardware berorientasi tujuan (komputasi, storage, jaringan), software terbuka (framework, mesin inferensi), dan model konsumsi fleksibel (orkestrasi, manajemen klaster, model delivery) ke dalam satu stack terpadu

1 komentar

 
GN⁺ 2026-04-23
Komentar Hacker News
  • Saya merasa Gemini 3 sudah menunjukkan sejauh apa pembelajaran yang berfokus pada efisiensi bisa dibawa. Saya memperkirakan Pro dan Flash mungkin terlihat 5 hingga 10 kali lebih kecil dibanding model sekelas Opus atau GPT-5 Pemanggilan tool sering rusak, dan untuk pekerjaan agentic secara umum juga lemah, jadi penyempurnaan penalaran dan eksekusinya masih tampak kurang. Meski begitu, kalau hanya melihat pemecahan masalah murni tanpa tool atau pencarian, kesannya mampu menyaingi Opus dan GPT, sambil tampak jauh lebih kecil ukurannya Saya rasa suatu saat ketika Google selesai dengan prototipe tahap preview dan merilis model resmi yang benar-benar matang, mereka akan mengejutkan semua orang dengan model yang melampaui SOTA saat ini sekitar satu generasi. Model-model yang keluar sejauh ini terasa seperti prototipe yang didorong cepat ke GA untuk ditunjukkan ke investor dan dimasukkan ke lini produk sebagai pembuktian konsep

    • Saya skeptis dengan estimasi 5 sampai 10 kali itu. Terutama untuk Pro; menurut saya justru mungkin Google menjalankan model yang lebih besar dengan lebih murah dan cepat berkat hardware mereka Gemini 3 Pro terasa seperti model yang secara keseluruhan paling mendekati kecerdasan manusiawi. Terutama kuat di bidang humaniora, dan dalam kemampuan menghasilkan teks yang alami di banyak bahasa manusia, menurut saya praktis nomor 1. Perbedaan seperti ini makin besar pada bahasa-bahasa nis, dan itu terasa lebih mengarah ke model yang lebih besar, bukan lebih kecil Matematika dan pekerjaan agentic memang jelas lemah, dan aplikasi Gemini sendiri juga terlihat tertinggal sampai-sampai tidak jauh berbeda dari ChatGPT awal tiga tahun lalu, yang menurut saya menurunkan performa yang dirasakan
    • Saya juga setuju di bagian ini. Gemini-cli benar-benar terasa buruk dibanding CC atau Codex Meski begitu, saya rasa prioritas Google adalah membuat AI terbaik untuk memperkuat atau menggantikan pencarian tradisional. Itu adalah bisnis inti mereka, dan posisi monetisasinya juga jauh lebih menguntungkan dibanding siapa pun. Dari sisi basis pengguna dan volume kueri, mereka sudah punya keunggulan distribusi yang sangat besar Saya berharap mereka juga menaikkan prioritas Gemini-cli dan mendorong persaingan di area ini dengan lebih serius
    • Kalau tidak salah ingat, saat Gemini 3 Pro pertama kali keluar, model itu dianggap hampir setara dengan versi Claude saat itu. Tapi Gemini 3 yang sekarang terasa cukup tua Di tengah itu, banyak model Tiongkok juga bermunculan dan Claude diperbarui beberapa kali, jadi sekarang Google terlihat agak mandek di bidang ini. Tentu saja saya juga berpikir mereka bisa saja segera mengejutkan dengan peningkatan besar
    • Saya melihat penamaan preview Google cukup arbitrer. Ini terasa seperti cara untuk menghindari komitmen atas ketersediaan atau keberlanjutan, dan seperti taktik PR agar kalau gagal mereka bisa bilang kualitasnya memang masih beta
    • Saya selalu penasaran apa yang saya lewatkan dari Gemini. Buat saya, performanya paling banter terasa seperti model kelas dua Untuk pengumpulan informasi lumayan, tapi untuk pekerjaan agentic hampir tidak berguna, dan selalu terlihat seperti sedang mabuk. Kalau kredit Claude di Antigravity habis, rasanya hari itu ya sudah selesai Klaim bahwa token yang dipakai jauh lebih sedikit terdengar lucu, karena dalam pengalaman saya model ini justru sering masuk ke loop kematian yang bahkan tidak menyelesaikan masalah
  • Sekarang kalau mau main di AI skala besar, rasanya pada dasarnya harus beli dari NVidia atau sewa dari Google. Dan Google bisa mendesain chip, engine, dan sistem dari sudut pandang seluruh data center, jadi mereka bisa mengoptimalkan sampai bagian yang tidak bisa disentralisasi oleh vendor chip Karena itu saya memperkirakan semakin besar skalanya, sistem Google akan selalu lebih efisien dari sisi biaya. Sebagai catatan, saya long position di GOOG, termasuk karena alasan ini

    • Saya juga ingin bertaruh pada Google, tapi mungkin saya baru akan melakukannya kalau pengalaman Gemini CLI setidaknya mendekati level Codex atau Claude Sehebat apa pun hardwarenya, nilainya turun drastis kalau agen coding andalan malah terjebak loop saat mencari token akhir giliran
    • Saya jadi penasaran apakah Amazon juga membuat chip mirip TPU mereka sendiri dengan cara serupa
    • Saya malah teringat pepatah untuk tidak membangun kastel di kerajaan orang lain Pada akhirnya membeli dari NVidia terasa seperti satu-satunya pilihan realistis, dan bahkan itu pun menurut saya bukan yang optimal
    • Saya justru lebih dekat ke sisi kebalikan dari hipotesis itu. Ada dua alasan: pertama, Google terlihat seperti sengaja membatasi produksi Kedua, TSMC akan lebih memilih pihak yang sanggup membayar biaya kapasitas paling besar, jadi saya rasa slot awal di node proses baru akan diambil Nvidia Selain itu, margin operasional GCP lebih tinggi daripada Hetzner atau lambdalabs, dan memang ada tempat sewa GPU yang lebih murah, jadi mahasiswa atau peneliti kecil pada akhirnya tetap bertahan di sisi GPU
    • Kalau manajemennya saja sedikit lebih menginspirasi, saya mungkin akan bertaruh pada Google Apple era Cook juga lebih jinak dibanding masa Jobs, tapi Google terasa seperti jatuh dari tebing. Kalau OpenAI tidak merilis ChatGPT, saya rasa teknologi ini mungkin masih akan mereka simpan sebagai eksperimen internal. Sekarang justru peristiwa itu tampaknya menjadi pendorong bagi seluruh R&D chip mereka
  • Saat perusahaan lain sibuk menarik perhatian dalam siklus berita, Google tampaknya diam-diam masuk ke arus semakin kuat sambil mengumpulkan pangsa pasar konsumen Mungkin karena sejak awal mereka sudah terintegrasi secara vertikal untuk AI, jadi masalah infrastruktur pun hampir tidak terlihat. Dulu sempat tampak seperti perusahaan yang sudah habis, tapi sekarang rasanya seperti air pasang yang membesar ke segala arah

    • Tapi subreddit Google Antigravity memang terlihat seperti kacau total https://www.reddit.com/r/GoogleAntigravityIDE/
    • Saya rasa dalam 1 sampai 2 tahun, akan datang saatnya Google dan Apple pada akhirnya sama-sama untung Mereka tidak sedang bermain game kejar tayang merilis produk mentah tiap bulan demi menggandakan valuasi perusahaan; saya berharap mereka punya waktu untuk mengamati, berpikir, lalu merilis produk yang benar-benar matang
    • Menurut saya model terbuka terbaru Google cukup kompetitif dibanding model terbuka lain Terutama ada terobosan di ukuran kecil seperti 2~4GB, dan terasa membantu menutup jarak menuju penalaran dengan kualitas yang realistis di ponsel atau perangkat yang lebih kecil
    • Kalau semua hiperbola disingkirkan, OpenAI dan Anthropic terlihat seperti saling menyulut api untuk menutupi diri mereka dengan uang dan membuat api unggun yang lebih besar
    • Adopsi AI bagi Google menurut saya tidak sebesar masalah eksistensial seperti bagi OpenAI atau Anthropic Selain itu, apa pun yang dikatakan Google juga lebih sulit menciptakan hype seperti dua perusahaan itu, dan pada akhirnya mudah terdengar seperti copy promosi korporat
  • Dari sudut pandang orang yang memakai Gemini, ChatGPT, dan Claude semuanya, Gemini secara konsisten memakai jauh lebih sedikit token daripada dua model itu Pada akhirnya, Gemini tampak bertahan di level sekarang karena thinking budget yang lebih kecil Google kemungkinan punya komputasi paling banyak dan struktur biaya paling rendah, jadi cukup aneh kenapa mereka tidak mendorong komputasi penalaran seagresif dua yang lain. Apakah karena beban layanan lain, atau strategi yang berpusat pada pelatihan, saya tidak tahu, tapi menurut saya ini titik yang cukup menarik

    • Selama beberapa bulan saya memakai Gemini Pro lewat langganan Google One sekitar 20 dolar, dan saya merasa frekuensinya menjalankan pencarian web untuk verifikasi informasi juga konsisten lebih rendah daripada ChatGPT 5.4 Pro Saya juga ingin membandingkan untuk coding, tapi add-in Gemini untuk VSCode tidak berfungsi jadi saya tidak bisa Di Android dan aplikasi web juga ada banyak bug, bahkan sampai ada masalah riwayat chat hilang ketika berpindah antar thread, jadi saya berencana membatalkan langganan Google One bulan ini
    • Saya kurang paham apa keunggulan kompetitif yang membuat Gemini layak dipakai menggantikan Claude atau ChatGPT Kualitas outputnya terasa nyaris tidak mencapai keduanya
    • Saya berharap platform agentic enterprise yang baru diumumkan hari ini bisa menjadi sumur gravitasi tempat Fortune 500 menaruh workload penalaran mereka
    • Saya setengah yakin salah satu alasan utama GLM-5 lebih baik daripada GLM-4.7 adalah karena model itu lebih agresif dalam memakai token Pada 4.7, terlalu sulit membuatnya membaca source code dengan cukup, tapi setelah berhasil membacanya, sebenarnya model itu cukup kompeten Hemat memang kelebihan, tapi di sisi lain juga bisa berarti kurang berefleksi, kurang mempertimbangkan elemen-elemen yang cukup, dan kurang membaca source code dengan cukup. Pada akhirnya, antara menghemat token dan memakai banyak token, rasanya ini masih wilayah yang belum benar-benar dipahami siapa pun
  • Penjelasan bahwa satu superpod TPU 8t bisa diskalakan sampai 9.600 chip dan 2PB shared high-bandwidth memory terasa mengesankan Saya memang tidak terlalu paham bidang ini, tapi setidaknya di mata saya ini terlihat seperti keunggulan kompetitif Google yang cukup besar

    • Menurut saya itu benar. Meski begitu, tanpa terobosan di sisi pemisahan instruction dan data, saya rasa AGI tidak akan tercapai
  • Klaim bahwa TPU 8t dan TPU 8i memberikan performa per watt hingga 2 kali lipat dibanding generasi sebelumnya terasa cukup mengesankan Terutama karena generasi sebelumnya sendiri masih sangat baru, sampai merupakan produk 2025. Hal lain yang menonjol adalah pemisahan hardware untuk pelatihan dan inferensi; saya jadi penasaran apakah perusahaan yang memakai hardware NV juga membaginya seperti ini atau justru lebih serbaguna

    • Sudah dikenal luas bahwa pelatihan itu compute-bound, sementara inferensi memory-bound, tapi setahu saya deployment Nvidia biasanya tidak dioptimalkan khusus untuk salah satunya Banyak cloud dan neocloud tidak memiliki workload itu sendiri, jadi fleksibilitas itu penting, dan kalau mereka sudah berinvestasi ke H200 yang mahal plus networking, mereka harus bisa menjualnya ke beragam pelanggan Namun, akselerator khusus inferensi seperti Grok LPU dari Vera Rubin atau Cerebras juga mulai muncul, jadi menurut saya tren spesialisasi memang sudah dimulai
    • Saya tidak bisa memastikan untuk sisi NVIDIA, tapi AWS memang punya chip pelatihan dan chip inferensi sendiri yang terpisah Namun saya dengar desas-desus bahwa chip inferensinya terlalu lemah, jadi beberapa perusahaan justru menjalankan inferensi di chip pelatihan
    • Hardware khusus biasanya menghasilkan performa yang lebih cepat, jadi menurut saya makin matang suatu bidang, sistem yang kompleks dan mahal cenderung turun menjadi chip murah 1 dolar yang umum ditemukan Karena itu saya merasa Google jauh lebih memahami stack-nya sendiri dibanding perusahaan-perusahaan yang menumpang di atas NVidia. Google memiliki semuanya dari keyboard sampai silikon, jadi mereka tampak sudah banyak belajar lewat iterasi tentang cara memisahkan fitur-fitur yang saling berebut sumber daya
    • Chip pelatihan pada akhirnya juga tampaknya cukup berguna untuk inferensi skala besar yang lambat tapi throughput-nya tinggi Untuk penggunaan yang tidak sensitif terhadap waktu, saya memperkirakan pendekatan seperti ini akan cukup umum
    • Fakta bahwa Vera Rubin akan memakai chip Groq cepat untuk inferensi juga menunjukkan satu tren Dalam situasi kebutuhan energi setinggi ini, terasa wajar untuk mengejar setiap optimasi yang memungkinkan
  • Saya memakai Gemini bersama Junie dari JetBrains, dan walaupun Junie sendiri tidak sebagus Claude Code, menurut saya saat ini tetap jauh lebih unggul daripada tool Google Dengan kombinasi ini saya bisa mendapatkan hasil yang konsisten dengan cukup murah

    • Bahkan dalam konteks IDE JetBrains dan tool-nya, saya jadi penasaran apakah menurut Anda Junie memang setara dengan produk pesaing
  • Di antara penyedia penalaran besar, menurut saya Google termasuk yang paling menyebalkan dalam hal kebijakan penghentian model Tepat setahun setelah rilis mereka menghapus model lalu memaksa pindah ke generasi berikutnya; karena memakai silikon sendiri saya justru mengira mereka akan lebih stabil, tapi ternyata kebalikannya. Rate limiting mereka juga jauh lebih ketat daripada OpenAI, jadi saya penasaran apakah ini karena TPU atau sekadar keputusan kebijakan yang aneh

    • Sikap Google yang terlalu enteng menghentikan rilis Gemini lama memang cukup menjengkelkan Tafsiran saya, karena kebanyakan tool hanya memakai model terbaru, model baru dengan cepat memakan lebih dari 90% volume total, lalu diterapkan analisis biaya-manfaat ala Google sehingga model lama dimatikan tanpa banyak pikir Saya malah kaget mereka baru-baru ini memperpanjang tanggal EOL Gemini 2.5; Google memang sejak awal bukan perusahaan yang obsesif pada pelanggan
    • Flash 2 bahkan belum EOL sampai Juni, tapi sepanjang akhir pekan saya mendapat 429 sampai tingkat error 90% Jadi pada akhirnya saya pindah ke GPT 5.4 nano
  • Kalau nanti ada pemenang akhir di AI, saya sulit membayangkan selain Google yang memiliki seluruh stack, atau Apple yang akan menyebarkan edge site AI paling banyak

    • Menurut saya pemenangnya juga bisa berupa wrapper model lokal yang bagus untuk tugas tertentu Pendekatan yang dirancang agar benar-benar menyelesaikan hal seperti pencarian, bukan jadi penjilat yang dipersonifikasikan demi menyenangkan manusia, tampak lebih mungkin berhasil
    • Saya juga melihat kemungkinan yang cukup besar bahwa Google akan terus salah langkah dari sisi produk Berkat kekuatan distribusinya yang luar biasa mereka mungkin tetap bertahan, tapi kalau ada produk yang lebih baik, tetap ada peluang mereka mengalami disrupsi besar seperti IE vs Chrome
  • Tautan ini punya penjelasan arsitektur yang lebih rinci. https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive