Gemini 3.0 terdeteksi secara publik melalui uji A/B

(ricklamers.io)

5 poin oleh GN⁺ 2025-10-17 | 1 komentar | Bagikan ke WhatsApp

Sejumlah pengguna menemukan bahwa model Gemini 3.0 baru sedang disediakan dalam bentuk uji A/B di Google AI Studio
Gemini 3.0 adalah model generasi berikutnya yang diharapkan menghadirkan peningkatan performa coding, dan pengguna nyata mengonfirmasi perbedaan kualitas melalui uji pembuatan gambar SVG
Hasil pengujian menunjukkan bahwa hasil pembuatan SVG untuk kontroler Xbox 360 meningkat secara signifikan, memperlihatkan peningkatan besar dibanding Gemini 2.5 Pro
Pengidentifikasi modelnya adalah ecpt50a2y6mpgkcn, dan kemungkinan besar merupakan versi Gemini 3.0 Pro; perubahan performa yang teramati mencakup panjang output naik 40% dan TTFT bertambah 24 detik
Ini mengindikasikan bahwa Google telah memulai distribusi eksperimental model Gemini generasi berikutnya, yang berarti peluncuran resminya kemungkinan sudah dekat

Perilisan tidak resmi Gemini 3.0 dan konteksnya

Menurut rumor terbaru, terungkap bahwa sebagian pengguna dapat mengakses Gemini 3.0 melalui uji A/B di Google AI Studio
Gemini 3.0 saat ini menjadi model yang sangat menarik perhatian di bidang AI karena diharapkan membawa peningkatan pada rendering gambar AI dan performa coding
Setelah beberapa kali mencoba, penulis akhirnya mengalami sendiri tampilan uji A/B tersebut.
Prompt yang digunakan: Create an SVG image of an Xbox 360 controller. Output it in a Markdown multi-line code block.
Hasilnya, SVG kontroler Xbox yang dihasilkan Gemini 3.0 jauh lebih unggul dibanding model sebelumnya dari sisi detail, akurasi, dan kerapian tata letak
ID model Gemini 3.0 terkonfirmasi sebagai ecpt50a2y6mpgkcn, tetapi informasi versi spesifiknya sulit dipastikan
Karena model pilihan default adalah Gemini 2.5 Pro, perbandingan ini kemungkinan sebenarnya mengarah pada Gemini 3.0 Pro
Dibanding Gemini 2.5 Pro
- TTFT (Time to First Token) bertambah sekitar 24 detik
- Panjang output meningkat sekitar 40%
- Ada kemungkinan mencakup reasoning tokens

Lampiran

Daftar gambar output hasil perbandingan A/B antara Gemini 3.0 dan Gemini 2.5 Pro

1 komentar

GN⁺ 2025-10-17

Komentar Hacker News

Mungkin aku minoritas, tapi di kantor aku bisa memakai semua model pro, dan menurut pengalamanku Gemini selalu lebih unggul daripada ChatGPT, Claude, dan Deepseek. Mungkin karena aku banyak mengerjakan web development, terutama HTML/SCSS, dan menurutku keunggulan Google adalah mereka merayapi internet sehingga punya data lebih banyak. Tiap model memang punya bidang yang dikuasai, tapi untuk pengembangan web UI/UX, menurutku Gemini benar-benar menonjol. Aku sangat menantikan versi 3.0
- Menurutku Gemini 2.5 Pro terasa lebih unggul daripada Claude dan GPT-5 terutama dalam dua kasus berikut.
  - Penulisan kreatif: Gemini jauh lebih unggul dibanding model lain. Secara pribadi, Gemini 2.5 Pro adalah satu-satunya model yang masih lumayan bisa dipakai untuk penulisan kreatif (puisi, cerpen). Tingkat pemahamannya terhadap nuansa cukup hebat, jadi aku memakainya untuk mengkritisi tulisan kreatifku. Tentu saja, untuk bidang seperti menulis puisi, semua model masih belum memadai
  - Penalaran kompleks (matematika tingkat sarjana/pascasarjana): Gemini sedikit lebih akurat, jadi menurutku paling baik. Claude Opus 4.1 dan Sonnet 4.5 juga ada di level yang mirip, tetapi Gemini 2.5 memberi jawaban yang lebih konsisten dan dapat diprediksi (aku sering memakainya untuk aljabar, aljabar komutatif, teori kategori, geometri aljabar, topologi, dan sebagainya)
  - Namun, untuk peran “agen” seperti menelusuri seluruh codebase besar atau meminta refactoring pada pertanyaan yang open-ended, Gemini masih kalah dari Claude dan GPT-5. Ada sebagian masalah pada tool calling, sehingga perilakunya tidak konsisten di Copilot/Cursor
  - Secara keseluruhan, menurutku Gemini 2.5 Pro adalah yang paling pintar, tetapi memang masuk akal memakai model yang berbeda untuk tiap tugas
- Beberapa minggu lalu, skrip pihak ketiga mengganggu event klik pada tombol React milikku, jadi aku mau memperbaikinya dengan menambahkan event mousedown. Karena capek, aku berniat membuat solusi cepat dan seadanya yang mensimulasikan klik beberapa ms setelah mousedown, lalu menjelaskan rencanaku ke Gemini. Ternyata Gemini menolak mentah-mentah dan malah menyarankan solusi yang lebih rapi dengan menggabungkan mousedown dan mouseup. Aku benar-benar terkejut karena ia memahami masalahnya dengan sempurna dan merekomendasikan cara yang lebih baik daripada yang kuinginkan
- Di perusahaan kami, kami sedang melakukan benchmark untuk model-model LLM utama, dan Gemini 2.5 ada di posisi nomor 1 secara telak kecuali pada beberapa bidang yang sangat spesifik. Ini cocok dengan rumor bahwa pretraining Google adalah yang terbaik, hanya tuning/alignment-nya yang agak kurang memuaskan. Itulah kenapa aku sangat menantikan Gemini 3. Walaupun 2.5 yang terbaik, tetap masih banyak ruang untuk perbaikan. (Bidang spesifik itu: 'penalaran sungguhan' (GPT-5) dan penulisan skrip Python (keluarga Claude))
- Untuk akurasi pencarian atau tugas berbasis fakta, menurutku Claude maupun Gemini sama-sama jauh kalah dari ChatGPT. Gemini mulai mengarang setelah hanya beberapa kali pencarian, sementara ChatGPT bisa mengulang pencarian sampai puluhan atau ratusan kali, lalu melanjutkan pencarian tambahan berdasarkan hasil yang sudah ditemukan sebelumnya
- Aku sangat suka context window Gemini yang lebih besar. Cara kerjaku adalah mengubah seluruh codebase menjadi string lalu menempelkannya ke Gemini dan mengajukan pertanyaan. Banyak orang senang karena 'agen' memilih beberapa file saja untuk dilihat, tapi bagiku jauh lebih praktis dan efektif untuk langsung melempar seluruh codebase, lalu bekerja secara interaktif untuk pembuatan kode, modifikasi file, dan seterusnya
Aku tidak terlalu paham kenapa ada perhatian berlebihan pada pembuatan SVG dengan LLM. Tugas ini sulit berhasil dalam satu kali percobaan, dan manusia pun sulit melakukannya, jadi kegunaannya tidak besar. Menurutku ini akan lebih berguna jika model bisa menerima umpan balik visual dan memperbaiki hasilnya. Karena ini telanjur menjadi tugas benchmark yang populer, perusahaan jadi menambahkan data contoh ke training set, sehingga pada akhirnya yang dibandingkan hanya siapa yang memakai dataset 'text to SVG' yang lebih baik, bukan kualitas model secara keseluruhan
Sekitar sebulan terakhir, kabar tentang Gemini 3 terus bermunculan disertai berbagai spekulasi. Sampai ada pengumuman resmi, aku akan menahan penilaian, karena tak seorang pun tahu apakah ini akan menjadi pengganti model Pro, Flash, dan Flash Lite, atau model yang benar-benar baru, apakah akan dirilis, dan sebagainya. Karena mekanisme A/B testing di AIStudio, kita hanya bisa mendapat hasil untuk satu prompt saja, dan yang bisa dipahami hanya kecepatan, latensi, dan apakah instruksi dipatuhi. Menilai performa nyata tiap model dari satu prompt seperti itu menurutku bukan evaluasi yang profesional. Kemampuan menangani banyak file atau merespons tool calling jelas tidak bisa diketahui. Daripada membesar-besarkan ekspektasi, aku berharap orang tidak terjebak pada harapan atau kekecewaan berlebihan. Itu juga alasan aku tidak terlalu suka konten spekulatif: sering kali yang ditekankan hanya hal-hal sensasional tanpa konteks dan analisis yang nyata
- Belakangan ini rasanya hype itu sendiri sudah menjadi semacam profesi, tapi tiap tautan Twitter penuh dengan reaksi berlebihan seperti "GAME CHANGER!!!", "Semua orang akan terkejut!", dan sejenisnya, jadi agak menjengkelkan. Contoh nyatanya memang keren, tapi sayang sekali isinya penuh evaluasi tidak profesional seperti yang kusebut di atas
Gambar pelikan yang benar-benar luar biasa. Aku sangat menantikan kesempatan mencoba Gemini 3 contoh Twitter terkait
- Benchmark-nya (akhirnya) jebol
- Ini terasa lebih seperti karya seni daripada yang kukira
- Ini dianggap bagus? Di mataku sih biasa saja
Hal yang menurutku aneh adalah Gemini 2.5 Pro berada di kelas teratas untuk sebagian besar kegunaan, tetapi hanya kalau itu pertanyaan pertama. Artinya, ia paling bagus jika semua konteks sudah dimasukkan lalu kita mengajukan satu pertanyaan dan menerima satu jawaban saja. Semakin lama percakapannya berlanjut, kualitasnya turun drastis. Ini aneh, padahal context window-nya lebih panjang daripada model-model lain. Aku memakainya dengan cara memasukkan seluruh proyek (sekitar 200 ribu token) ke jendela chat, melontarkan satu pertanyaan yang dirancang dengan baik, lalu langsung menutup jendela chat itu
- Fenomena kualitas jawaban yang terus menurun saat percakapan berlangsung lama sama saja pada semua LLM yang pernah kupakai. Karena itu aku tidak pernah melewati dua pesan. Kalau hasil yang kuinginkan tidak keluar dari jawaban pertama, makin banyak pesan ditambahkan, makin kecil kemungkinan mendapatkan jawaban yang benar. Menurutku yang terbaik adalah selalu mulai dari chat baru dan mencoba sambil menyesuaikan prompt
Ada yang bilang "Gemini 3.0 adalah salah satu rilis AI yang paling dinanti saat ini, terutama karena peningkatan performa penulisan kode", tetapi dari cerita teman-temanku yang memakainya secara internal di Google, semua orang akan kecewa.
Edit: sebenarnya mereka belum bisa memakai Gemini 3, jadi wajar juga kalau mereka bilang itu tidak bagus
- Gemini 3.0 saat ini juga belum didistribusikan luas di internal Google. "Gemini for Google" adalah versi fine-tuned dari 2.5 Pro atau 2.5 Flash. Model 3.0 sendiri belum dipakai secara luas. (Karyawan Google, bekerja di tim terkait pembayaran, ini pendapat pribadi)
- Maaf kalau ini mematahkan hype, tapi bahkan di tim Vibecoding internal Google kami juga tidak menggunakan Gemini 3
- Tidak mengejutkan. LLM sudah memasuki batas peningkatan performa (fase diminishing returns), dan kita perlu cara membuat GPU yang lebih murah
Contoh Gemini 3 di Twitter sedang membanjir jauh lebih banyak. Setelah melihatnya, aku langsung membeli saham Google. Dari hasilnya, terasa seperti model ini benar-benar menciptakan desain baru yang kreatif, bukan sekadar copy-paste template lama. Menghasilkan output yang sekonsisten dan seindah itu di level kode sangat sulit, jadi aku terkejut karena Gemini 3 tampaknya berhasil melakukannya. Selain itu, hanya Google yang sudah menyelesaikan integrasi vertikal sampai model dan hardware, jadi menurutku peluang suksesnya di era AI sangat besar
- Aku bukan profesional keuangan, tapi aku bisa memberi saran bahwa membeli saham hanya karena postingan hype di Twitter bukanlah metode investasi yang aman. Namun, kalau itu sekadar percobaan santai dengan uang dingin, ya silakan saja
Twitter chetaslua mengunggah berbagai hasil eksperimen terkait Gemini 3 (web desktop, klon Vampire Survivor, model 3D vogel yang benar-benar bisa dimainkan, berbagai klon game, SVG, dan lain-lain). Khususnya dalam bentuk one-shot, hasilnya sangat unggul dan keren
- Contoh ini benar-benar terasa segar: demo langsung codepen
  Kalau menjalankan terminal Python, muncul efek menarik yang menembus dinding keempat
  1. Jika memakai keyword print "Python", dialog cetak browser benar-benar muncul
  2. Jika memakai keyword open "Python", browser membuka tab baru dan mencoba mengakses file tersebut
    Jadi eksekusi print dan open langsung terhubung ke browser
Aku harap masalah looping (pengulangan) bisa diperbaiki. Ini masalah yang sangat serius. Bahkan CLI punya fitur deteksi loop, dan itu langsung terpicu dalam satu menit pemakaian. 2.5 Pro di aplikasi Gemini juga, meski sudah berkali-kali diinstruksikan untuk tidak mengulang, pada akhirnya tetap mengulang kata-kata terus-menerus sehingga nyaris tidak bisa dipakai
Aku penasaran apakah model-model ini menilai SVG “dengan mata” lalu memperbaikinya beberapa kali, atau memang diharapkan menghasilkan hasil yang sempurna dalam satu kali jalan
- Dalam benchmark milikku, kesempatannya hanya satu kali.
  Aku juga pernah menguji cara memperlihatkan hasil render ke model visual lalu membiarkannya memperbaiki sampai tiga kali, tetapi anehnya hasilnya tidak menjadi lebih baik

Gemini 3.0 terdeteksi secara publik melalui uji A/B

Perilisan tidak resmi Gemini 3.0 dan konteksnya

Lampiran

Bacaan terkait

1 komentar

Komentar Hacker News