1 poin oleh GN⁺ 2 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Gemini 3.5 Flash adalah model Gemini 3.5 pertama yang menggabungkan kecerdasan dan kemampuan eksekusi kelas frontier, ditujukan untuk tugas jangka panjang dalam agen dan coding
  • Sambil mempertahankan kecepatan seri Flash, model ini melampaui Gemini 3.1 Pro pada Terminal-Bench 2.1 76.2%, GDPval-AA 1656 Elo, dan metrik lainnya
  • Berdasarkan token output, kecepatan pemrosesan per detiknya 4 kali lebih cepat daripada model frontier lain, dan biayanya dalam banyak kasus kurang dari setengahnya, sehingga unggul untuk tugas agen jangka panjang
  • Di Antigravity dan AI Studio, model ini menjalankan tugas multi-tahap seperti pengembangan aplikasi, konversi kode lawas ke Next.js, implementasi game berbasis paper, dan pembuatan draft UX
  • Tersedia sebagai model default di aplikasi Gemini dan Search AI Mode, serta diterapkan pada Gemini Spark dan workflow mitra perusahaan; 3.5 Pro dijadwalkan rilis bulan depan

Pengungkapan Gemini 3.5 dan cakupan ketersediaannya

  • Gemini 3.5 adalah keluarga model terbaru yang menggabungkan kecerdasan dan kemampuan eksekusi kelas frontier, diposisikan sebagai model untuk membangun agen yang lebih cakap
  • Model pertama yang dirilis adalah 3.5 Flash, yang menghadirkan performa kelas frontier dalam agen dan coding serta berfokus pada tugas jangka panjang yang kompleks dan benar-benar berguna di dunia nyata
  • 3.5 Flash tersedia melalui berbagai produk Google dan alat pengembang
    • Tersedia untuk pengguna umum melalui aplikasi Gemini dan AI Mode di Google Search
    • Dapat digunakan pengembang melalui Google Antigravity, Gemini API di Google AI Studio, dan Android Studio
    • Tersedia untuk perusahaan melalui Gemini Enterprise Agent Platform dan Gemini Enterprise
  • 3.5 Pro juga sedang dikembangkan, sudah digunakan secara internal, dan dijadwalkan rilis bulan depan

Performa 3.5 Flash

  • 3.5 Flash mempertahankan kecepatan seri Flash sambil memberikan kecerdasan yang mampu bersaing dengan model flagship besar di berbagai dimensi
  • Ini adalah model coding berbasis agen terkuat milik Google, melampaui Gemini 3.1 Pro pada benchmark coding dan agen yang sulit
    • Terminal-Bench 2.1: 76.2%
    • GDPval-AA: 1656 Elo
    • MCP Atlas: 83.6%
    • Pemahaman multimodal CharXiv Reasoning: 84.2%
  • Berdasarkan token output, kecepatan pemrosesan per detiknya 4 kali lebih cepat dibanding model frontier lain
  • Dalam metrik Artificial Analysis, model ini berada di kuadran kanan atas, menunjukkan model yang mengurangi trade-off antara kualitas dan latensi

Tugas agen berskala besar

  • Berkat keseimbangan antara kecepatan dan performa, 3.5 Flash cocok untuk tugas agen jangka panjang
  • Model ini membantu pengembang menyelesaikan pekerjaan yang sebelumnya memakan beberapa hari, dan auditor pekerjaan yang memakan beberapa minggu, dalam waktu yang lebih singkat, serta sering kali dengan biaya kurang dari setengah dibanding model frontier lain
  • Dalam proses pemecahan masalah nyata, model ini memungkinkan perencanaan, pembuatan, dan iterasi yang cepat
    • Pengembangan aplikasi baru
    • Pemeliharaan codebase
    • Dukungan persiapan dokumen keuangan
  • Jika dipadukan dengan harness Antigravity yang telah diperbarui, model ini menjadi mesin eksekusi yang dapat menerapkan sub-agen kolaboratif untuk menangani masalah yang menantang dalam skala besar
  • Model ini secara andal menjalankan workflow multi-tahap dan tugas coding di bawah supervisi sambil mempertahankan performa kelas frontier

Contoh penggunaan Antigravity dan AI Studio

  • 3.5 Flash menjalankan workflow multi-tahap di Antigravity untuk otomatis mengganti nama dan mengklasifikasikan aset tak terstruktur berdasarkan kriteria dinamis
  • Di Antigravity, model ini menggunakan dua agen untuk mensintesis paper AlphaZero dan menulis kode game yang sepenuhnya dapat dimainkan dalam waktu 6 jam
  • Dengan harness Antigravity, model ini mengonversi codebase lawas yang kompleks ke Next.js
  • Di Antigravity, model ini menggunakan sub-agen untuk menghasilkan lanskap kota baru dan mengembangkan game melalui loop self-improvement cepat antara dua agen builder dan player
  • Di atas fondasi multimodal kuat Gemini 3, 3.5 Flash menghasilkan web UI dan grafik yang lebih kaya serta interaktif
    • Di AI Studio, model ini membuat animasi interaktif untuk paper riset AI
    • Di AI Studio, model ini mengubah deskripsi teks biasa menjadi hardware interaktif
    • Di AI Studio, model ini menjalankan beberapa konsep secara paralel untuk membuat konsep branding lengkap bagi acara penggalangan dana sekolah
    • Di AI Studio, model ini menghasilkan pendekatan UX yang berbeda untuk alur checkout dalam 60 detik

Pemanfaatan oleh perusahaan dan pengembang

  • Kemampuan agen 3.5 Flash sudah dimanfaatkan dalam workflow pengembang dan perusahaan
  • Dalam pengembangan keluarga model Gemini 3.5, Google bekerja bersama mitra industri untuk mengidentifikasi titik-titik yang memunculkan pekerjaan berulang dan kompleksitas
  • Para mitra telah melihat dampaknya, mulai dari otomatisasi workflow berminggu-minggu di sektor perbankan dan fintech hingga membantu tim data science menemukan insight di lingkungan data yang kompleks
  • Shopify

    • Menjalankan sub-agen secara paralel untuk menganalisis data kompleks dalam jangka panjang dan membuat prediksi pertumbuhan merchant yang lebih akurat pada skala global
  • Macquarie Bank

    • Sedang menjalankan pilot untuk mempercepat onboarding pelanggan dengan menalar dokumen kompleks yang melebihi 100 halaman, mencari informasi relevan, dan menghasilkan rekomendasi tepercaya dengan latensi rendah
  • Salesforce

    • Mengintegrasikan 3.5 Flash ke Agentforce untuk mengotomatisasi tugas perusahaan yang kompleks dengan beberapa sub-agen yang mempertahankan konteks dan menjalankan pemanggilan tool multi-turn yang rumit
  • Ramp

    • Mendukung OCR yang lebih cerdas dan andal dengan menggabungkan pemahaman multimodal atas invoice kompleks dan penalaran terhadap pola historis
  • Xero

    • Membiarkan agen secara otonom mengelola workflow kompleks yang berlangsung selama beberapa minggu, seperti identifikasi pemasok dan pengumpulan informasi untuk formulir pajak 1099, sehingga memungkinkan otomatisasi tugas administrasi berulang bagi usaha kecil
  • Databricks

    • Menggunakan workflow berbasis agen untuk memantau dan mencari informasi secara real-time, serta menalar di seluruh dataset berskala besar untuk mendiagnosis masalah dan menyarankan perbaikan serta solusi

Penerapan pada agen AI pribadi dan Search

  • 3.5 Flash menjadi model default di aplikasi Gemini dan AI Mode di Search di seluruh dunia
  • Di Google I/O, fitur-fitur baru yang menerapkan kemampuan agen 3.5 Flash ke kehidupan sehari-hari telah diperkenalkan
  • Gemini Spark adalah agen AI pribadi yang menggunakan 3.5 Flash
    • Berjalan 24 jam sehari
    • Menavigasi kehidupan digital pengguna dan bertindak atas nama pengguna sesuai instruksi
    • Mulai diluncurkan hari ini kepada para tester tepercaya
    • Akan tersedia dalam versi beta minggu depan bagi pelanggan Google AI Ultra di AS
  • Kemampuan coding berbasis agen 3.5 Flash yang ditingkatkan menghadirkan pengalaman yang lebih cerdas di seluruh Search
    • Memperkenalkan agen informasi baru yang bekerja 24 jam untuk pengguna
    • Memungkinkan pengalaman UI generatif yang lebih dinamis
    • Search memanfaatkan 3.5 Flash untuk menghasilkan materi visual interaktif yang menjelaskan pola Gyroid

Pengaman

  • Gemini 3.5 dikembangkan sesuai Frontier Safety Framework
  • Pengaman siber dan CBRN telah diperkuat, sehingga menurunkan kemungkinan menghasilkan konten berbahaya dan menurunkan kemungkinan salah menolak menjawab kueri yang aman
  • Teknik pembelajaran keamanan dan mitigasi yang baru dan lebih canggih telah diterapkan
  • Termasuk alat interpretabilitas yang membantu memeriksa dan memahami penalaran internal AI sebelum memberikan respons

1 komentar

 
GN⁺ 2 jam lalu
Pendapat Hacker News
  • Pelikannya lumayan meyakinkan: https://github.com/simonw/llm-gemini/issues/133#issuecomment...
    Tapi kalau sepedanya sih kurang bagus. Batang di antara pedal dan roda belakangnya hilang, dan bagian frame lainnya juga terbelit aneh
    Biayanya juga mahal. Satu pelikan itu saja 13 sen: https://www.llm-prices.com/#it=11&ot=14403&sel=gemini-3.5-fl...

    • Pelikan itu kelihatannya seperti datang ke Miami untuk konferensi kripto
    • Ini dengan sempurna menunjukkan fenomena yang terasa dalam perkembangan model bahasa besar. Kalau diminta memperbaiki SVG seperti ini, modelnya tidak membetulkan palang yang hilang atau anggota tubuh yang terpisah, tapi malah menambahkan lebih banyak elemen
      Contoh ini jelas jauh lebih baik dan detailnya konyol banyaknya, tetapi bentuk frame dasarnya tetap salah. Kalau dicoba ke halaman web pun muncul pola yang sama, misalnya cuma menambahkan lebih banyak hal seperti tombol
      Saya juga mencoba memasukkan SVG pelikan yang rusak itu ke model gambar untuk mencari cacatnya, tetapi elemen yang rusak itu tetap tidak terdeteksi
    • Menghilangkan chainstay itu hasil yang sangat umum kalau menyuruh orang sembarang menggambar sepeda
      https://www.gianlucagimini.it/portfolio-item/velocipedia/

      most ended up drawing something that was pretty far off from a regular men’s bicycle

    • Rasanya cukup berhasil menangkap nuansa khas Google yang norak tapi terus berusaha terlihat relevan bagi anak muda
    • Matahari itu sangat mirip dengan matahari di latar posting HN teratas lain soal museum OS ini: https://news.ycombinator.com/item?id=48195009
  • Harga per sejuta token input/output:
    Gemini 2.5 Flash: $0.30/$2.50
    Gemini 3.0 Flash Preview: $0.50/$3.00
    Gemini 3.5 Flash: $1.50/$9.00
    Arah harganya menarik. Rasanya saya belum pernah melihat kenaikan harga 3x pada model generasi berikutnya dengan ukuran yang sama, dan lucu juga bahwa 3 cuma pernah ada sebagai Preview
    Biaya 3.5 Flash mirip dengan Gemini 2.5 Pro yang harganya $1.25/$10

    • Ini meremehkan kenaikan biayanya. 3.5 Flash juga memakai token lebih banyak. Menurut artificialanalysis.ai, selisih biaya untuk menjalankan evaluasi penuh tampak lebih mendekati harga nyata:
      Gemini 2.5 Flash(27 poin): $172(1.0x)
      Gemini 2.5 Pro(35 poin): $649(3.8x)
      Gemini 3.0 Flash(46 poin): $278(1.6x)
      Gemini 3.5 Flash(55 poin): $1,552(9.0x, atau 2.4x dibanding 2.5 Pro)
      Ini kenaikan harga yang gila. Dibanding Gemini 3.0 Flash, ini 5.6x
    • Bisa jadi dari awal memang tidak ada niat untuk terus menyediakan model murah. Ini cara yang alami untuk mulai menekan setelah ada orang-orang yang membangun layanan di atas API mereka
      Karena itu, menaruh lapisan abstraksi agar tidak terkunci ke satu penyedia memang sangat masuk akal. Kalau pakai Kotlin, Koog sangat bagus
    • Kita butuh momen DeepSeek lagi. Kalau tidak, AI akan makin sulit dipakai orang biasa dan jadi sesuatu yang hanya mampu ditanggung perusahaan besar
    • Kalau Google memang menjalankan inferensi lebih murah daripada yang lain berkat TPU, ini terasa seperti tanda bahaya. Mungkin ternyata memang sulit menyajikan model bahasa besar sambil tetap untung
      Atau mungkin mereka melihat benchmark-nya bagus, jadi merasa bisa menaikkan harga. Hanya saja, saya belum merasa mereka punya pangsa pasar yang cukup untuk membenarkan keputusan seperti itu
    • Bukankah 3.5 Flash ditandai sebagai Stable, bukan Preview? Atau saya salah baca?
      https://ai.google.dev/gemini-api/docs/models/gemini-3.5-flas...
  • Menarik untuk dicatat bahwa Google menandai model ini sebagai Stable, bukan Preview. Itu tidak biasa jika dibandingkan dengan pola rilis belakangan ini
    Kalau ditambah kenaikan harga 3x, harga Flash ini terasa lebih seperti batas bawah jangka panjang yang diinginkan Google, bukan langkah sementara yang nanti dibalik
    Namun, masih sulit menilai apakah ini hanya Google yang membaca situasi, atau seluruh industri diam-diam sedang menetapkan ulang baseline inferensi murah

  • Create animated SVG of a frog on a boat rowing through jungle river. Single page self contained HTML page with SVG
    3.5 Flash: Thinking Medium - 7516 tokens
    https://gistpreview.github.io/?5c9858fd2057e678b55d563d9bff0...
    3.5 Flash: Thinking High - 7280 tokens
    https://gistpreview.github.io/?1cab3d70064349d08cf5952cdc165...
    3.1 Pro - 28,258 tokens
    https://gistpreview.github.io/?6bf3da2f80487608b9525bce53018...
    3.1 berpikir selama 3 menit saat menghasilkan, tetapi itu adalah satu-satunya model yang benar-benar memasukkan gerakan animasi dengan benar

  • Apa saya memang sudah setua itu sampai kalau ada yang bilang "Flash", yang langsung terlintas di kepala adalah "coba pertimbangkan HTML5 saja"?

    • Hampir tidak ada unsur yang membuat budaya Flash begitu seru yang benar-benar ikut pindah ke HTML5
    • Flash designer itu benar-benar bagus. Salah satu hal yang agak dimundurkan web adalah hilangnya alat RAD era 90-an dan 2000-an
    • Wahai anak muda!
      Flash, ah, ah, saviour of the universe. Flash, ah, ah, he'll save every one of us!
      Sudah entah berapa tahun lamanya, setiap kali saya mendengar kata "flash", inilah yang selalu terlintas di kepala
  • Batas pengetahuan: Januari 2025
    Pembaruan terbaru: Mei 2026
    Saya punya firasat yang sangat tidak enak soal jeda ini

    • Setidaknya untuk sebagian kasus, sepertinya arahnya menuju lebih banyak data sintetis dan data yang dipilih sangat ketat untuk pelatihan. Khususnya model kecil tidak punya ruang untuk menyimpan seluruh dunia di dalam puluhan sampai ratusan GB bobot model, jadi mereka tidak bisa punya cakupan pengetahuan yang sangat luas
      Jadi untuk mendapatkan penalaran berkualitas lebih tinggi, pelatihannya harus lebih terfokus, dan datanya harus sangat berkualitas tinggi serta padat informasi
      Jika penggunaan alatnya kuat, memakai data lama oleh model mungkin sebenarnya tidak terlalu penting, karena model bisa mencari informasi terbaru. Hanya saja saat ini kebanyakan model tidak melakukannya kecuali sedikit diarahkan
      Setahu saya, seluruh keluarga Qwen 3 berangkat dari model dasar yang sama, lalu hanya di-fine-tune/post-trained untuk meningkatkan berbagai metrik. Bisa saja seluruh keluarga Gemini 3 juga sama, dan mungkin saat ini mereka sedang melatih model berbasis Gemini 4 dengan pengetahuan terbaru secara paralel
    • Jangan membuat model mengambil fakta dari bobot model. Harus diikatkan ke sumber data nyata
    • Bisa jelaskan maksudnya?
    • Saya kira itu memang pilihan Google
  • Saya memakai google ai pro plan dan mencoba 3.5 Flash di Antigravity, tetapi dalam dua prompt saja kuota saya sudah habis. Kalau ini bukan bug, levelnya benar-benar tidak bisa dipakai

    • Kemarin atau lusa Google menurunkan kuota AI Pro dari 33x penggunaan standar menjadi 4x
      Dari suasana di subreddit Gemini, kelihatannya penurunannya jauh lebih parah dari sebelumnya. Saya juga besar kemungkinan akan membatalkan AI Pro
      Pembaruan ini juga merusak aplikasinya. Setiap kali mengedit pesan, aplikasinya crash. Bahkan saya memakainya di Pixel pun tetap begitu
  • Jam 2000 token milik Gemini 3.5 Flash lumayan bagus. https://clocks.brianmoore.com/

  • Naik 3x harga untuk model yang hampir sama. Katanya AI bakal makin murah dan ada di mana-mana

    • Mungkin maksudnya akan menyebar ke mana-mana seperti tren crack
    • Kalau percaya benchmark, bisa juga dibilang harganya tiga perempat dari 3.1 Pro
  • Harganya tidak masuk akal
    Sepertinya harga Gemini 3.5 Pro juga akan ikut naik. 12 x 5 = 60?
    Google tampak seperti ingin kita memakai model China