3 poin oleh GN⁺ 4 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Google memperkenalkan TPU 8t dan TPU 8i yang memisahkan pelatihan dan inferensi, menyediakan infrastruktur khusus yang ditujukan untuk pelatihan model terdepan, pengembangan agen, dan beban kerja inferensi skala besar
  • TPU 8t dirancang untuk memangkas siklus pengembangan model frontier dari hitungan bulan menjadi hitungan minggu berkat throughput komputasi tinggi, memori bersama berskala besar, dan skalabilitas, dengan kinerja komputasi per pod hampir 3x dibanding generasi sebelumnya
  • TPU 8i didesain ulang agar cocok untuk inferensi agentic dengan fokus pada optimasi bandwidth memori dan latensi, serta mencapai peningkatan 80% pada performa per biaya melalui SRAM on-chip yang lebih besar, host CPU Axion, dan peningkatan jaringan untuk MoE
  • Kedua chip dikembangkan lewat co-design dengan Google DeepMind untuk mencerminkan kebutuhan terbaru model pelatihan dan inferensi, serta menyediakan dukungan native untuk JAX, PyTorch, vLLM, dan lainnya, bersama bare metal access
  • Sesuai dengan lingkungan data center yang semakin dibatasi oleh daya, efisiensi daya ditingkatkan di tingkat sistem; kedua chip dijadwalkan tersedia secara umum pada paruh akhir tahun ini dan dapat digunakan sebagai bagian dari Google AI Hypercomputer

Google memperkenalkan TPU generasi ke-8

  • Google memperkenalkan TPU 8t dan TPU 8i sebagai dua arsitektur yang masing-masing dioptimalkan untuk pelatihan dan inferensi, untuk menjalankan superkomputer kustom Google
    • Kedua chip mendukung pelatihan model terdepan, pengembangan agen, dan beban kerja inferensi skala besar
    • Disebutkan bahwa TPU telah digunakan selama bertahun-tahun untuk menjalankan model fondasi utama termasuk Gemini
  • Di era agen AI, model menjalankan loop berkelanjutan yang mencakup penalaran terhadap masalah, eksekusi workflow multi-tahap, dan pembelajaran dari tindakannya sendiri
    • Ini memunculkan kebutuhan akan infrastruktur baru yang sesuai
    • TPU 8t dan TPU 8i dirancang melalui kolaborasi dengan Google DeepMind untuk menghadapi beban kerja AI paling menantang dan perubahan arsitektur model skala besar
  • TPU diposisikan sebagai acuan komponen superkomputasi ML yang mencakup komputasi numerik kustom, liquid cooling, dan interconnect kustom
    • TPU generasi ke-8 disebut sebagai puncak dari lebih dari 10 tahun pengembangan
    • Google mempertahankan prinsip desain untuk merancang silikon, hardware, jaringan, software, arsitektur model, dan kebutuhan aplikasi secara bersama agar efisiensi daya dan performa absolut meningkat signifikan
  • Disebutkan pula contoh Citadel Securities yang memilih TPU untuk menjalankan beban kerja AI terdepan

Dua chip yang disesuaikan dengan kebutuhan saat ini

  • Karena siklus pengembangan hardware jauh lebih panjang dibanding software, saat merancang generasi TPU Google mempertimbangkan lebih awal teknologi dan permintaan pada saat produk dirilis
    • Sejak beberapa tahun lalu, Google telah memperkirakan permintaan inferensi pelanggan akan meningkat seiring penyebaran dan deployment produksi model AI terdepan
  • Dengan meluasnya agen AI, dibutuhkan pemisahan chip yang masing-masing sesuai untuk kebutuhan pelatihan dan serving
    • TPU 8t ditujukan untuk beban kerja pelatihan berskala besar dengan komputasi intensif berdasarkan throughput komputasi yang lebih besar dan bandwidth scale-up yang lebih tinggi
    • TPU 8i ditujukan untuk beban kerja inferensi yang sensitif terhadap latensi berdasarkan bandwidth memori yang lebih besar
  • Latar belakang desain TPU 8i adalah bahwa ketika interaksi antaragen meningkat dalam skala besar, inefisiensi kecil pun akan membesar dampaknya
  • Kedua chip dapat menjalankan beragam workload, tetapi spesialisasi memberikan peningkatan efisiensi dan performa yang bermakna

TPU 8t: sistem berperforma tinggi untuk pelatihan

  • TPU 8t dirancang sebagai sistem untuk memangkas siklus pengembangan model frontier dari hitungan bulan menjadi hitungan minggu
    • Menyeimbangkan throughput komputasi tinggi, memori bersama, bandwidth antar-chip, efisiensi daya, dan waktu komputasi produktif yang benar-benar nyata
    • Disebutkan bahwa kinerja komputasi per pod meningkat hampir 3x dibanding generasi sebelumnya
  • Ekspansi skala besar

    • Satu TPU 8t superpod dapat diskalakan hingga 9.600 chip dan 2 petabyte memori bersama ber-bandwidth tinggi
    • Bandwidth antar-chip meningkat 2x dibanding generasi sebelumnya
    • Menyediakan performa komputasi 121 ExaFlops
    • Bahkan model paling kompleks dapat memanfaatkan satu pool memori besar yang terpadu
  • Utilisasi maksimum

    • Kecepatan akses storage ditingkatkan 10x, dan dikombinasikan dengan TPUDirect untuk mendukung pemuatan data langsung ke TPU
    • Ditujukan untuk memaksimalkan utilisasi sistem end-to-end
  • Skalasi linear mendekati ideal

    • Kombinasi Virgo Network, JAX, dan software Pathways memberikan skalasi linear mendekati ideal hingga 1 juta chip dalam satu logical cluster
    • Selain performa mentah, TPU 8t menargetkan goodput lebih dari 97%
    • goodput didefinisikan sebagai metrik waktu komputasi nyata yang berguna dan produktif
    • Fitur RAS memperkuat reliability, availability, dan serviceability
    • Menyediakan telemetri real-time di puluhan ribu chip
    • Secara otomatis mendeteksi dan mengalihkan jalur ICI link yang rusak tanpa menghentikan pekerjaan
    • Optical Circuit Switching (OCS) memungkinkan rekonfigurasi hardware berdasarkan titik gangguan tanpa intervensi manusia
    • Disebutkan bahwa kegagalan hardware, kemacetan jaringan, dan restart checkpoint semuanya menyebabkan waktu henti pelatihan, dan pada skala pelatihan frontier, perbedaan 1 poin persentase saja dapat berarti beberapa hari waktu pelatihan nyata

TPU 8i: mesin untuk inferensi dan agen penalaran

  • TPU 8i dirancang sebagai sistem inferensi untuk era agen, ketika dibutuhkan tanya-jawab, delegasi tugas, dan penghasilan hasil
    • Ditujukan untuk pemrosesan pekerjaan kolaboratif dan iteratif di mana banyak agen spesialis bekerja bersama dalam alur yang kompleks
  • Stack didesain ulang untuk menghilangkan efek "waiting room"
  • Mengatasi bottleneck memori

    • Untuk mencegah prosesor menganggur, Google menggabungkan 288GB high-bandwidth memory dengan 384MB SRAM on-chip
    • SRAM on-chip meningkat 3x dibanding generasi sebelumnya
    • Tujuannya adalah menjaga seluruh active working set model tetap berada di on-chip
  • Efisiensi berbasis Axion

    • Jumlah physical CPU host per server digandakan, dan diubah ke CPU kustom berbasis Arm Axion
    • NUMA digunakan untuk isolasi guna mengoptimalkan performa seluruh sistem
  • Skala model MoE

    • Untuk model Mixture of Expert (MoE) modern, bandwidth ICI digandakan menjadi 19,2 Tb/s
    • Arsitektur Boardfly baru mengurangi diameter maksimum jaringan lebih dari 50%
    • Sistem dirancang agar keseluruhannya beroperasi seperti satu unit koheren berlatensi rendah
  • Meminimalkan latensi

    • Collectives Acceleration Engine (CAE) on-chip melakukan offload operasi global
    • Mengurangi latensi on-chip hingga 5x untuk meminimalkan latensi
    • Melalui inovasi tersebut, Google mencapai peningkatan performa per biaya sebesar 80% dibanding generasi sebelumnya
    • Dengan biaya yang sama, hampir 2x volume pelanggan dapat dilayani
    • Disebutkan bahwa topologi pod TPU 8i dimulai dari blok 4 chip yang sepenuhnya terhubung, berkembang menjadi grup 8 board yang sepenuhnya terhubung, lalu terdiri dari 36 grup semacam itu yang juga sepenuhnya terhubung

Co-design dengan Gemini, terbuka untuk semua orang

  • TPU generasi ke-8 diposisikan sebagai hasil terbaru dari filosofi co-design untuk mengatasi hambatan besar AI
  • Hal-hal yang tercermin dalam desain

    • Topologi Boardfly dirancang sesuai kebutuhan komunikasi model inferensi berperforma tinggi terbaru
    • Kapasitas SRAM TPU 8i dihitung agar sesuai dengan ukuran KV cache model inferensi skala produksi
    • Target bandwidth fabric Virgo Network diturunkan dari kebutuhan paralelisasi pelatihan dengan parameter skala triliunan
    • Kedua chip untuk pertama kalinya berjalan pada CPU host berbasis ARM Axion buatan Google sendiri
    • Bukan hanya chip, tetapi seluruh sistem dapat dioptimalkan untuk performa dan efisiensi
    • Kedua platform mendukung JAX, MaxText, PyTorch, SGLang, dan vLLM secara native
    • Menyediakan bare metal access
    • Pelanggan dapat mengakses hardware secara langsung tanpa overhead virtualisasi
    • Kontribusi open source yang disebut mencakup implementasi referensi MaxText dan Tunix untuk dukungan reinforcement learning
    • Ditujukan untuk mendukung jalur inti antara kapabilitas dan deployment produksi

Dirancang dengan fokus pada efisiensi daya berskala besar

  • Di data center saat ini, bukan hanya pasokan chip, tetapi juga daya menjadi kendala utama
    • Google menerapkan manajemen daya terintegrasi yang secara dinamis menyesuaikan konsumsi daya berdasarkan permintaan real-time
  • TPU 8t dan TPU 8i meningkatkan performa per watt hingga 2x dibanding generasi sebelumnya, Ironwood
  • Efisiensi Google tidak berhenti pada metrik tingkat chip, melainkan merupakan komitmen di tingkat sistem dari silikon hingga data center
  • Dengan mengintegrasikan konektivitas jaringan dan komputasi pada chip yang sama, biaya daya untuk perpindahan data di dalam pod TPU dapat dikurangi secara signifikan
  • Data center juga menjadi bagian dari objek co-design
    • Melalui inovasi di seluruh hardware dan software, Google menyediakan performa komputasi 6x lebih besar per unit daya dibanding lima tahun lalu
  • Kedua chip mendukung teknologi liquid cooling generasi ke-4
    • Ditujukan untuk mempertahankan densitas performa yang tidak bisa dipertahankan dengan pendinginan udara
  • Dengan memiliki seluruh stack dari host Axion hingga accelerator, Google dapat mengoptimalkan efisiensi energi tingkat sistem yang tidak bisa dicapai ketika host dan chip dirancang secara terpisah

Infrastruktur untuk era agen

  • Setiap transisi besar dalam komputasi membutuhkan inovasi infrastruktur, dan era agen bukan pengecualian
  • Infrastruktur perlu berevolusi agar sesuai dengan kebutuhan loop berkelanjutan penalaran, perencanaan, eksekusi, dan pembelajaran milik agen otonom
  • TPU 8t dan TPU 8i ditempatkan sebagai jawaban atas kebutuhan tersebut
    • Membangun model AI paling kuat
    • Menjalankan kumpulan agen yang diorkestrasi secara presisi
    • Menangani tugas penalaran yang paling kompleks
  • Kedua chip dijadwalkan tersedia secara umum pada paruh akhir tahun ini
  • Dapat digunakan sebagai bagian dari Google AI Hypercomputer
    • Hardware khusus tujuan untuk komputasi, storage, dan networking
    • Software terbuka berupa framework dan inference engine
    • Opsi konsumsi yang fleksibel termasuk orkestrasi, cluster management, dan delivery model
    • Semua elemen tersebut digabungkan ke dalam satu stack terpadu
  • Pelanggan yang berminat dapat meminta informasi tambahan

1 komentar

 
GN⁺ 4 jam lalu
Komentar Hacker News
  • Saya merasa Gemini 3 sudah menunjukkan sejauh apa pembelajaran yang berfokus pada efisiensi bisa dibawa. Saya memperkirakan Pro dan Flash mungkin terlihat 5 hingga 10 kali lebih kecil dibanding model sekelas Opus atau GPT-5 Pemanggilan tool sering rusak, dan untuk pekerjaan agentic secara umum juga lemah, jadi penyempurnaan penalaran dan eksekusinya masih tampak kurang. Meski begitu, kalau hanya melihat pemecahan masalah murni tanpa tool atau pencarian, kesannya mampu menyaingi Opus dan GPT, sambil tampak jauh lebih kecil ukurannya Saya rasa suatu saat ketika Google selesai dengan prototipe tahap preview dan merilis model resmi yang benar-benar matang, mereka akan mengejutkan semua orang dengan model yang melampaui SOTA saat ini sekitar satu generasi. Model-model yang keluar sejauh ini terasa seperti prototipe yang didorong cepat ke GA untuk ditunjukkan ke investor dan dimasukkan ke lini produk sebagai pembuktian konsep

    • Saya skeptis dengan estimasi 5 sampai 10 kali itu. Terutama untuk Pro; menurut saya justru mungkin Google menjalankan model yang lebih besar dengan lebih murah dan cepat berkat hardware mereka Gemini 3 Pro terasa seperti model yang secara keseluruhan paling mendekati kecerdasan manusiawi. Terutama kuat di bidang humaniora, dan dalam kemampuan menghasilkan teks yang alami di banyak bahasa manusia, menurut saya praktis nomor 1. Perbedaan seperti ini makin besar pada bahasa-bahasa nis, dan itu terasa lebih mengarah ke model yang lebih besar, bukan lebih kecil Matematika dan pekerjaan agentic memang jelas lemah, dan aplikasi Gemini sendiri juga terlihat tertinggal sampai-sampai tidak jauh berbeda dari ChatGPT awal tiga tahun lalu, yang menurut saya menurunkan performa yang dirasakan
    • Saya juga setuju di bagian ini. Gemini-cli benar-benar terasa buruk dibanding CC atau Codex Meski begitu, saya rasa prioritas Google adalah membuat AI terbaik untuk memperkuat atau menggantikan pencarian tradisional. Itu adalah bisnis inti mereka, dan posisi monetisasinya juga jauh lebih menguntungkan dibanding siapa pun. Dari sisi basis pengguna dan volume kueri, mereka sudah punya keunggulan distribusi yang sangat besar Saya berharap mereka juga menaikkan prioritas Gemini-cli dan mendorong persaingan di area ini dengan lebih serius
    • Kalau tidak salah ingat, saat Gemini 3 Pro pertama kali keluar, model itu dianggap hampir setara dengan versi Claude saat itu. Tapi Gemini 3 yang sekarang terasa cukup tua Di tengah itu, banyak model Tiongkok juga bermunculan dan Claude diperbarui beberapa kali, jadi sekarang Google terlihat agak mandek di bidang ini. Tentu saja saya juga berpikir mereka bisa saja segera mengejutkan dengan peningkatan besar
    • Saya melihat penamaan preview Google cukup arbitrer. Ini terasa seperti cara untuk menghindari komitmen atas ketersediaan atau keberlanjutan, dan seperti taktik PR agar kalau gagal mereka bisa bilang kualitasnya memang masih beta
    • Saya selalu penasaran apa yang saya lewatkan dari Gemini. Buat saya, performanya paling banter terasa seperti model kelas dua Untuk pengumpulan informasi lumayan, tapi untuk pekerjaan agentic hampir tidak berguna, dan selalu terlihat seperti sedang mabuk. Kalau kredit Claude di Antigravity habis, rasanya hari itu ya sudah selesai Klaim bahwa token yang dipakai jauh lebih sedikit terdengar lucu, karena dalam pengalaman saya model ini justru sering masuk ke loop kematian yang bahkan tidak menyelesaikan masalah
  • Sekarang kalau mau main di AI skala besar, rasanya pada dasarnya harus beli dari NVidia atau sewa dari Google. Dan Google bisa mendesain chip, engine, dan sistem dari sudut pandang seluruh data center, jadi mereka bisa mengoptimalkan sampai bagian yang tidak bisa disentralisasi oleh vendor chip Karena itu saya memperkirakan semakin besar skalanya, sistem Google akan selalu lebih efisien dari sisi biaya. Sebagai catatan, saya long position di GOOG, termasuk karena alasan ini

    • Saya juga ingin bertaruh pada Google, tapi mungkin saya baru akan melakukannya kalau pengalaman Gemini CLI setidaknya mendekati level Codex atau Claude Sehebat apa pun hardwarenya, nilainya turun drastis kalau agen coding andalan malah terjebak loop saat mencari token akhir giliran
    • Saya jadi penasaran apakah Amazon juga membuat chip mirip TPU mereka sendiri dengan cara serupa
    • Saya malah teringat pepatah untuk tidak membangun kastel di kerajaan orang lain Pada akhirnya membeli dari NVidia terasa seperti satu-satunya pilihan realistis, dan bahkan itu pun menurut saya bukan yang optimal
    • Saya justru lebih dekat ke sisi kebalikan dari hipotesis itu. Ada dua alasan: pertama, Google terlihat seperti sengaja membatasi produksi Kedua, TSMC akan lebih memilih pihak yang sanggup membayar biaya kapasitas paling besar, jadi saya rasa slot awal di node proses baru akan diambil Nvidia Selain itu, margin operasional GCP lebih tinggi daripada Hetzner atau lambdalabs, dan memang ada tempat sewa GPU yang lebih murah, jadi mahasiswa atau peneliti kecil pada akhirnya tetap bertahan di sisi GPU
    • Kalau manajemennya saja sedikit lebih menginspirasi, saya mungkin akan bertaruh pada Google Apple era Cook juga lebih jinak dibanding masa Jobs, tapi Google terasa seperti jatuh dari tebing. Kalau OpenAI tidak merilis ChatGPT, saya rasa teknologi ini mungkin masih akan mereka simpan sebagai eksperimen internal. Sekarang justru peristiwa itu tampaknya menjadi pendorong bagi seluruh R&D chip mereka
  • Saat perusahaan lain sibuk menarik perhatian dalam siklus berita, Google tampaknya diam-diam masuk ke arus semakin kuat sambil mengumpulkan pangsa pasar konsumen Mungkin karena sejak awal mereka sudah terintegrasi secara vertikal untuk AI, jadi masalah infrastruktur pun hampir tidak terlihat. Dulu sempat tampak seperti perusahaan yang sudah habis, tapi sekarang rasanya seperti air pasang yang membesar ke segala arah

    • Tapi subreddit Google Antigravity memang terlihat seperti kacau total https://www.reddit.com/r/GoogleAntigravityIDE/
    • Saya rasa dalam 1 sampai 2 tahun, akan datang saatnya Google dan Apple pada akhirnya sama-sama untung Mereka tidak sedang bermain game kejar tayang merilis produk mentah tiap bulan demi menggandakan valuasi perusahaan; saya berharap mereka punya waktu untuk mengamati, berpikir, lalu merilis produk yang benar-benar matang
    • Menurut saya model terbuka terbaru Google cukup kompetitif dibanding model terbuka lain Terutama ada terobosan di ukuran kecil seperti 2~4GB, dan terasa membantu menutup jarak menuju penalaran dengan kualitas yang realistis di ponsel atau perangkat yang lebih kecil
    • Kalau semua hiperbola disingkirkan, OpenAI dan Anthropic terlihat seperti saling menyulut api untuk menutupi diri mereka dengan uang dan membuat api unggun yang lebih besar
    • Adopsi AI bagi Google menurut saya tidak sebesar masalah eksistensial seperti bagi OpenAI atau Anthropic Selain itu, apa pun yang dikatakan Google juga lebih sulit menciptakan hype seperti dua perusahaan itu, dan pada akhirnya mudah terdengar seperti copy promosi korporat
  • Dari sudut pandang orang yang memakai Gemini, ChatGPT, dan Claude semuanya, Gemini secara konsisten memakai jauh lebih sedikit token daripada dua model itu Pada akhirnya, Gemini tampak bertahan di level sekarang karena thinking budget yang lebih kecil Google kemungkinan punya komputasi paling banyak dan struktur biaya paling rendah, jadi cukup aneh kenapa mereka tidak mendorong komputasi penalaran seagresif dua yang lain. Apakah karena beban layanan lain, atau strategi yang berpusat pada pelatihan, saya tidak tahu, tapi menurut saya ini titik yang cukup menarik

    • Selama beberapa bulan saya memakai Gemini Pro lewat langganan Google One sekitar 20 dolar, dan saya merasa frekuensinya menjalankan pencarian web untuk verifikasi informasi juga konsisten lebih rendah daripada ChatGPT 5.4 Pro Saya juga ingin membandingkan untuk coding, tapi add-in Gemini untuk VSCode tidak berfungsi jadi saya tidak bisa Di Android dan aplikasi web juga ada banyak bug, bahkan sampai ada masalah riwayat chat hilang ketika berpindah antar thread, jadi saya berencana membatalkan langganan Google One bulan ini
    • Saya kurang paham apa keunggulan kompetitif yang membuat Gemini layak dipakai menggantikan Claude atau ChatGPT Kualitas outputnya terasa nyaris tidak mencapai keduanya
    • Saya berharap platform agentic enterprise yang baru diumumkan hari ini bisa menjadi sumur gravitasi tempat Fortune 500 menaruh workload penalaran mereka
    • Saya setengah yakin salah satu alasan utama GLM-5 lebih baik daripada GLM-4.7 adalah karena model itu lebih agresif dalam memakai token Pada 4.7, terlalu sulit membuatnya membaca source code dengan cukup, tapi setelah berhasil membacanya, sebenarnya model itu cukup kompeten Hemat memang kelebihan, tapi di sisi lain juga bisa berarti kurang berefleksi, kurang mempertimbangkan elemen-elemen yang cukup, dan kurang membaca source code dengan cukup. Pada akhirnya, antara menghemat token dan memakai banyak token, rasanya ini masih wilayah yang belum benar-benar dipahami siapa pun
  • Penjelasan bahwa satu superpod TPU 8t bisa diskalakan sampai 9.600 chip dan 2PB shared high-bandwidth memory terasa mengesankan Saya memang tidak terlalu paham bidang ini, tapi setidaknya di mata saya ini terlihat seperti keunggulan kompetitif Google yang cukup besar

    • Menurut saya itu benar. Meski begitu, tanpa terobosan di sisi pemisahan instruction dan data, saya rasa AGI tidak akan tercapai
  • Klaim bahwa TPU 8t dan TPU 8i memberikan performa per watt hingga 2 kali lipat dibanding generasi sebelumnya terasa cukup mengesankan Terutama karena generasi sebelumnya sendiri masih sangat baru, sampai merupakan produk 2025. Hal lain yang menonjol adalah pemisahan hardware untuk pelatihan dan inferensi; saya jadi penasaran apakah perusahaan yang memakai hardware NV juga membaginya seperti ini atau justru lebih serbaguna

    • Sudah dikenal luas bahwa pelatihan itu compute-bound, sementara inferensi memory-bound, tapi setahu saya deployment Nvidia biasanya tidak dioptimalkan khusus untuk salah satunya Banyak cloud dan neocloud tidak memiliki workload itu sendiri, jadi fleksibilitas itu penting, dan kalau mereka sudah berinvestasi ke H200 yang mahal plus networking, mereka harus bisa menjualnya ke beragam pelanggan Namun, akselerator khusus inferensi seperti Grok LPU dari Vera Rubin atau Cerebras juga mulai muncul, jadi menurut saya tren spesialisasi memang sudah dimulai
    • Saya tidak bisa memastikan untuk sisi NVIDIA, tapi AWS memang punya chip pelatihan dan chip inferensi sendiri yang terpisah Namun saya dengar desas-desus bahwa chip inferensinya terlalu lemah, jadi beberapa perusahaan justru menjalankan inferensi di chip pelatihan
    • Hardware khusus biasanya menghasilkan performa yang lebih cepat, jadi menurut saya makin matang suatu bidang, sistem yang kompleks dan mahal cenderung turun menjadi chip murah 1 dolar yang umum ditemukan Karena itu saya merasa Google jauh lebih memahami stack-nya sendiri dibanding perusahaan-perusahaan yang menumpang di atas NVidia. Google memiliki semuanya dari keyboard sampai silikon, jadi mereka tampak sudah banyak belajar lewat iterasi tentang cara memisahkan fitur-fitur yang saling berebut sumber daya
    • Chip pelatihan pada akhirnya juga tampaknya cukup berguna untuk inferensi skala besar yang lambat tapi throughput-nya tinggi Untuk penggunaan yang tidak sensitif terhadap waktu, saya memperkirakan pendekatan seperti ini akan cukup umum
    • Fakta bahwa Vera Rubin akan memakai chip Groq cepat untuk inferensi juga menunjukkan satu tren Dalam situasi kebutuhan energi setinggi ini, terasa wajar untuk mengejar setiap optimasi yang memungkinkan
  • Saya memakai Gemini bersama Junie dari JetBrains, dan walaupun Junie sendiri tidak sebagus Claude Code, menurut saya saat ini tetap jauh lebih unggul daripada tool Google Dengan kombinasi ini saya bisa mendapatkan hasil yang konsisten dengan cukup murah

    • Bahkan dalam konteks IDE JetBrains dan tool-nya, saya jadi penasaran apakah menurut Anda Junie memang setara dengan produk pesaing
  • Di antara penyedia penalaran besar, menurut saya Google termasuk yang paling menyebalkan dalam hal kebijakan penghentian model Tepat setahun setelah rilis mereka menghapus model lalu memaksa pindah ke generasi berikutnya; karena memakai silikon sendiri saya justru mengira mereka akan lebih stabil, tapi ternyata kebalikannya. Rate limiting mereka juga jauh lebih ketat daripada OpenAI, jadi saya penasaran apakah ini karena TPU atau sekadar keputusan kebijakan yang aneh

    • Sikap Google yang terlalu enteng menghentikan rilis Gemini lama memang cukup menjengkelkan Tafsiran saya, karena kebanyakan tool hanya memakai model terbaru, model baru dengan cepat memakan lebih dari 90% volume total, lalu diterapkan analisis biaya-manfaat ala Google sehingga model lama dimatikan tanpa banyak pikir Saya malah kaget mereka baru-baru ini memperpanjang tanggal EOL Gemini 2.5; Google memang sejak awal bukan perusahaan yang obsesif pada pelanggan
    • Flash 2 bahkan belum EOL sampai Juni, tapi sepanjang akhir pekan saya mendapat 429 sampai tingkat error 90% Jadi pada akhirnya saya pindah ke GPT 5.4 nano
  • Kalau nanti ada pemenang akhir di AI, saya sulit membayangkan selain Google yang memiliki seluruh stack, atau Apple yang akan menyebarkan edge site AI paling banyak

    • Menurut saya pemenangnya juga bisa berupa wrapper model lokal yang bagus untuk tugas tertentu Pendekatan yang dirancang agar benar-benar menyelesaikan hal seperti pencarian, bukan jadi penjilat yang dipersonifikasikan demi menyenangkan manusia, tampak lebih mungkin berhasil
    • Saya juga melihat kemungkinan yang cukup besar bahwa Google akan terus salah langkah dari sisi produk Berkat kekuatan distribusinya yang luar biasa mereka mungkin tetap bertahan, tapi kalau ada produk yang lebih baik, tetap ada peluang mereka mengalami disrupsi besar seperti IE vs Chrome
  • Tautan ini punya penjelasan arsitektur yang lebih rinci. https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive