- Sejumlah pengguna menemukan bahwa model Gemini 3.0 baru sedang disediakan dalam bentuk uji A/B di Google AI Studio
- Gemini 3.0 adalah model generasi berikutnya yang diharapkan menghadirkan peningkatan performa coding, dan pengguna nyata mengonfirmasi perbedaan kualitas melalui uji pembuatan gambar SVG
- Hasil pengujian menunjukkan bahwa hasil pembuatan SVG untuk kontroler Xbox 360 meningkat secara signifikan, memperlihatkan peningkatan besar dibanding Gemini 2.5 Pro
- Pengidentifikasi modelnya adalah
ecpt50a2y6mpgkcn, dan kemungkinan besar merupakan versi Gemini 3.0 Pro; perubahan performa yang teramati mencakup panjang output naik 40% dan TTFT bertambah 24 detik
- Ini mengindikasikan bahwa Google telah memulai distribusi eksperimental model Gemini generasi berikutnya, yang berarti peluncuran resminya kemungkinan sudah dekat
Perilisan tidak resmi Gemini 3.0 dan konteksnya
- Menurut rumor terbaru, terungkap bahwa sebagian pengguna dapat mengakses Gemini 3.0 melalui uji A/B di Google AI Studio
- Gemini 3.0 saat ini menjadi model yang sangat menarik perhatian di bidang AI karena diharapkan membawa peningkatan pada rendering gambar AI dan performa coding
- Setelah beberapa kali mencoba, penulis akhirnya mengalami sendiri tampilan uji A/B tersebut.
- Prompt yang digunakan:
Create an SVG image of an Xbox 360 controller. Output it in a Markdown multi-line code block.
- Hasilnya, SVG kontroler Xbox yang dihasilkan Gemini 3.0 jauh lebih unggul dibanding model sebelumnya dari sisi detail, akurasi, dan kerapian tata letak
- ID model Gemini 3.0 terkonfirmasi sebagai
ecpt50a2y6mpgkcn, tetapi informasi versi spesifiknya sulit dipastikan
- Karena model pilihan default adalah Gemini 2.5 Pro, perbandingan ini kemungkinan sebenarnya mengarah pada Gemini 3.0 Pro
- Dibanding Gemini 2.5 Pro
- TTFT (Time to First Token) bertambah sekitar 24 detik
- Panjang output meningkat sekitar 40%
- Ada kemungkinan mencakup reasoning tokens
Lampiran
- Daftar gambar output hasil perbandingan A/B antara Gemini 3.0 dan Gemini 2.5 Pro
1 komentar
Komentar Hacker News
Mungkin aku minoritas, tapi di kantor aku bisa memakai semua model pro, dan menurut pengalamanku Gemini selalu lebih unggul daripada ChatGPT, Claude, dan Deepseek. Mungkin karena aku banyak mengerjakan web development, terutama HTML/SCSS, dan menurutku keunggulan Google adalah mereka merayapi internet sehingga punya data lebih banyak. Tiap model memang punya bidang yang dikuasai, tapi untuk pengembangan web UI/UX, menurutku Gemini benar-benar menonjol. Aku sangat menantikan versi 3.0
Menurutku Gemini 2.5 Pro terasa lebih unggul daripada Claude dan GPT-5 terutama dalam dua kasus berikut.
Beberapa minggu lalu, skrip pihak ketiga mengganggu event klik pada tombol React milikku, jadi aku mau memperbaikinya dengan menambahkan event mousedown. Karena capek, aku berniat membuat solusi cepat dan seadanya yang mensimulasikan klik beberapa ms setelah mousedown, lalu menjelaskan rencanaku ke Gemini. Ternyata Gemini menolak mentah-mentah dan malah menyarankan solusi yang lebih rapi dengan menggabungkan mousedown dan mouseup. Aku benar-benar terkejut karena ia memahami masalahnya dengan sempurna dan merekomendasikan cara yang lebih baik daripada yang kuinginkan
Di perusahaan kami, kami sedang melakukan benchmark untuk model-model LLM utama, dan Gemini 2.5 ada di posisi nomor 1 secara telak kecuali pada beberapa bidang yang sangat spesifik. Ini cocok dengan rumor bahwa pretraining Google adalah yang terbaik, hanya tuning/alignment-nya yang agak kurang memuaskan. Itulah kenapa aku sangat menantikan Gemini 3. Walaupun 2.5 yang terbaik, tetap masih banyak ruang untuk perbaikan. (Bidang spesifik itu: 'penalaran sungguhan' (GPT-5) dan penulisan skrip Python (keluarga Claude))
Untuk akurasi pencarian atau tugas berbasis fakta, menurutku Claude maupun Gemini sama-sama jauh kalah dari ChatGPT. Gemini mulai mengarang setelah hanya beberapa kali pencarian, sementara ChatGPT bisa mengulang pencarian sampai puluhan atau ratusan kali, lalu melanjutkan pencarian tambahan berdasarkan hasil yang sudah ditemukan sebelumnya
Aku sangat suka context window Gemini yang lebih besar. Cara kerjaku adalah mengubah seluruh codebase menjadi string lalu menempelkannya ke Gemini dan mengajukan pertanyaan. Banyak orang senang karena 'agen' memilih beberapa file saja untuk dilihat, tapi bagiku jauh lebih praktis dan efektif untuk langsung melempar seluruh codebase, lalu bekerja secara interaktif untuk pembuatan kode, modifikasi file, dan seterusnya
Aku tidak terlalu paham kenapa ada perhatian berlebihan pada pembuatan SVG dengan LLM. Tugas ini sulit berhasil dalam satu kali percobaan, dan manusia pun sulit melakukannya, jadi kegunaannya tidak besar. Menurutku ini akan lebih berguna jika model bisa menerima umpan balik visual dan memperbaiki hasilnya. Karena ini telanjur menjadi tugas benchmark yang populer, perusahaan jadi menambahkan data contoh ke training set, sehingga pada akhirnya yang dibandingkan hanya siapa yang memakai dataset 'text to SVG' yang lebih baik, bukan kualitas model secara keseluruhan
Sekitar sebulan terakhir, kabar tentang Gemini 3 terus bermunculan disertai berbagai spekulasi. Sampai ada pengumuman resmi, aku akan menahan penilaian, karena tak seorang pun tahu apakah ini akan menjadi pengganti model Pro, Flash, dan Flash Lite, atau model yang benar-benar baru, apakah akan dirilis, dan sebagainya. Karena mekanisme A/B testing di AIStudio, kita hanya bisa mendapat hasil untuk satu prompt saja, dan yang bisa dipahami hanya kecepatan, latensi, dan apakah instruksi dipatuhi. Menilai performa nyata tiap model dari satu prompt seperti itu menurutku bukan evaluasi yang profesional. Kemampuan menangani banyak file atau merespons tool calling jelas tidak bisa diketahui. Daripada membesar-besarkan ekspektasi, aku berharap orang tidak terjebak pada harapan atau kekecewaan berlebihan. Itu juga alasan aku tidak terlalu suka konten spekulatif: sering kali yang ditekankan hanya hal-hal sensasional tanpa konteks dan analisis yang nyata
Gambar pelikan yang benar-benar luar biasa. Aku sangat menantikan kesempatan mencoba Gemini 3 contoh Twitter terkait
Benchmark-nya (akhirnya) jebol
Ini terasa lebih seperti karya seni daripada yang kukira
Ini dianggap bagus? Di mataku sih biasa saja
Hal yang menurutku aneh adalah Gemini 2.5 Pro berada di kelas teratas untuk sebagian besar kegunaan, tetapi hanya kalau itu pertanyaan pertama. Artinya, ia paling bagus jika semua konteks sudah dimasukkan lalu kita mengajukan satu pertanyaan dan menerima satu jawaban saja. Semakin lama percakapannya berlanjut, kualitasnya turun drastis. Ini aneh, padahal context window-nya lebih panjang daripada model-model lain. Aku memakainya dengan cara memasukkan seluruh proyek (sekitar 200 ribu token) ke jendela chat, melontarkan satu pertanyaan yang dirancang dengan baik, lalu langsung menutup jendela chat itu
Ada yang bilang "Gemini 3.0 adalah salah satu rilis AI yang paling dinanti saat ini, terutama karena peningkatan performa penulisan kode", tetapi dari cerita teman-temanku yang memakainya secara internal di Google, semua orang akan kecewa.
Edit: sebenarnya mereka belum bisa memakai Gemini 3, jadi wajar juga kalau mereka bilang itu tidak bagus
Gemini 3.0 saat ini juga belum didistribusikan luas di internal Google. "Gemini for Google" adalah versi fine-tuned dari 2.5 Pro atau 2.5 Flash. Model 3.0 sendiri belum dipakai secara luas. (Karyawan Google, bekerja di tim terkait pembayaran, ini pendapat pribadi)
Maaf kalau ini mematahkan hype, tapi bahkan di tim Vibecoding internal Google kami juga tidak menggunakan Gemini 3
Tidak mengejutkan. LLM sudah memasuki batas peningkatan performa (fase diminishing returns), dan kita perlu cara membuat GPU yang lebih murah
Contoh Gemini 3 di Twitter sedang membanjir jauh lebih banyak. Setelah melihatnya, aku langsung membeli saham Google. Dari hasilnya, terasa seperti model ini benar-benar menciptakan desain baru yang kreatif, bukan sekadar copy-paste template lama. Menghasilkan output yang sekonsisten dan seindah itu di level kode sangat sulit, jadi aku terkejut karena Gemini 3 tampaknya berhasil melakukannya. Selain itu, hanya Google yang sudah menyelesaikan integrasi vertikal sampai model dan hardware, jadi menurutku peluang suksesnya di era AI sangat besar
Twitter chetaslua mengunggah berbagai hasil eksperimen terkait Gemini 3 (web desktop, klon Vampire Survivor, model 3D vogel yang benar-benar bisa dimainkan, berbagai klon game, SVG, dan lain-lain). Khususnya dalam bentuk one-shot, hasilnya sangat unggul dan keren
Kalau menjalankan terminal Python, muncul efek menarik yang menembus dinding keempat
Jadi eksekusi print dan open langsung terhubung ke browser
Aku harap masalah looping (pengulangan) bisa diperbaiki. Ini masalah yang sangat serius. Bahkan CLI punya fitur deteksi loop, dan itu langsung terpicu dalam satu menit pemakaian. 2.5 Pro di aplikasi Gemini juga, meski sudah berkali-kali diinstruksikan untuk tidak mengulang, pada akhirnya tetap mengulang kata-kata terus-menerus sehingga nyaris tidak bisa dipakai
Aku penasaran apakah model-model ini menilai SVG “dengan mata” lalu memperbaikinya beberapa kali, atau memang diharapkan menghasilkan hasil yang sempurna dalam satu kali jalan
Aku juga pernah menguji cara memperlihatkan hasil render ke model visual lalu membiarkannya memperbaiki sampai tiga kali, tetapi anehnya hasilnya tidak menjadi lebih baik