Gemini 3.5 Flash
(deepmind.google)- Gemini 3.5 Flash dari Google DeepMind adalah model Preview yang menghadirkan penalaran tingkat lanjut untuk tugas agen dan coding sambil mempertahankan latensi rendah serta skalabilitas lini Flash
- Kemampuan utamanya adalah pemahaman multimodal yang menangani teks, audio, gambar, kode, dan video sekaligus, selain alur kerja panjang dan coding berulang
- Contoh yang dipublikasikan mencakup pembuatan UI cepat, membangun game berbasis makalah, hingga merancang kota virtual, yang menekankan cakupan pemanfaatannya dalam tugas bergaya agen
- Dalam benchmark, model ini mencatat skor tertinggi di tabel pada sejumlah kategori seperti MCP Atlas 83.6%, Toolathlon 56.5%, Finance Agent v2 57.9%, dan MMMU-Pro 83.6%
- Input mendukung teks, gambar, video, audio, dan PDF, sedangkan output berupa teks; model ini menyediakan 1M token input dan 64k token output, serta function calling, structured output, alat pencarian, dan eksekusi kode
Posisi Gemini 3.5 Flash
- Gemini 3.5 Flash adalah model yang menghadirkan penalaran tingkat lanjut pada “latensi dan skalabilitas setara Flash”
- Area penerapannya mencakup agen, coding, tugas sehari-hari, penalaran tingkat lanjut, pemahaman multimodal, dan pemahaman konteks panjang
- Status model adalah Preview
Tugas yang dibidik pada latensi Flash
- Arah utamanya adalah menghadirkan kecepatan tinggi dan kecerdasan secara bersamaan
- Model ini ingin menempatkan diri sebagai model yang mempertahankan kecepatan dan skalabilitas tanpa mengorbankan kecerdasan
- Menangani penalaran jarak jauh dan tugas coding berulang
- Mendukung pemahaman multimodal pada teks, audio, gambar, kode, dan video
Contoh pemanfaatan agen
- Ditunjukkan berbagai contoh tugas yang memperlihatkan kemampuan agen yang cepat
- Menghasilkan 6 opsi UI pembayaran dalam waktu kurang dari 60 detik
- Menghasilkan 64 variasi fraktal dengan cepat
- Menerima makalah AlphaGo sebagai input lalu secara otonom membangun game cerdas
- Mengoordinasikan beberapa workflow untuk membuat dan menyempurnakan brand acara penggalangan dana dengan input minimal
- Mengubah deskripsi teks menjadi komponen HTML interaktif yang lengkap
- Beberapa agen membuat lagu menggunakan library musik Strudel
- Mengoordinasikan tim agen spesialis untuk merancang dan membangun kota virtual
- Secara otomatis mengganti nama dan menstrukturkan dataset yang berantakan
- Menempatkan agen untuk terus menyempurnakan game secara real-time
Studi kasus pelanggan dan peningkatan performa
- Armadin menyatakan bahwa model Flash terbaru Gemini mencatat hasil 42% lebih tinggi daripada Flash 3 pada benchmark siber multiturn jarak jauh, dan efisiensi token meningkat 68%
- Dalam set evaluasi tugas enterprise milik Box, Gemini 3.5 Flash lebih tinggi 19.6% dibanding Gemini 3 Flash
- Akurasi ekstraksi data dan perhitungan untuk pelanggan Life Sciences meningkat menjadi 96.4%
- Akurasi pembuatan laporan keuangan berbasis data terstruktur untuk Financial Services meningkat 46.7%
- Junie dari JetBrains menilai bahwa Gemini 3.5 Flash memberikan kualitas coding dan penalaran yang mendekati Gemini Pro sambil mempertahankan karakteristik kecepatan dan biaya Flash
- Performa coding pada level penalaran lebih rendah meningkat 10–20% dibanding generasi Flash sebelumnya
Hasil benchmark
- Gemini 3.5 Flash sangat ditonjolkan sebagai model untuk workflow agen
- Benchmark coding
- Terminal-bench 2.1 Agentic terminal coding: 76.2%
- SWE-Bench Pro Public: 55.1%
- Benchmark agen dan penggunaan alat
- MCP Atlas: 83.6% dengan skor tertinggi di tabel
- Toolathlon: 56.5% dengan skor tertinggi di tabel
- Kontrol UI dan tugas profesional
- OSWorld-Verified: 78.4%
- Finance Agent v2: 57.9% dengan skor tertinggi di tabel
- GDPval-AA Elo: 1656
- Benchmark multimodal
- CharXiv Reasoning: 84.2% dengan skor tertinggi di tabel
- MMMU-Pro: 83.6% dengan skor tertinggi di tabel
- Blueprint-Bench 2: 33.6%
- Konteks panjang dan penalaran
- Rata-rata MRCR v2 128k: 77.3%
- MRCR v2 1M pointwise: 26.6%, lebih tinggi daripada Gemini 3 Flash dan Gemini 3.1 Pro yang dapat dibandingkan
- Humanity’s Last Exam: 40.2%
- ARC-AGI-2: 72.1%
- Detail metode evaluasi tersedia di Gemini 3.5 Flash evals methodology
Informasi model dan lingkungan yang tersedia
- Input mendukung teks, gambar, video, audio, PDF
- Output berupa teks
- Konteks dan acuan pengetahuan
- Token input: 1M
- Token output: 64k
- Knowledge cutoff: Januari 2025
- Fitur penggunaan alat
- Function calling
- Structured output
- Menggunakan pencarian sebagai alat
- Eksekusi kode
- Lingkungan yang tersedia adalah Gemini App, Gemini API, Gemini Enterprise, Gemini Enterprise Agent Platform, Google AI Mode, Google AI Studio, Google Antigravity, dan Android Studio
- Dokumentasi developer tersedia di Gemini API models documentation
- Model card tersedia di Gemini 3.5 Flash model card
1 komentar
Pendapat di Hacker News
pipx install llm # or brew install llmllm install llm-gemini --upgradellm keys set gemini# paste API key herellm -m gemini-1.5-flash-latest 'a short poem about otters'https://github.com/simonw/llm-gemini/releases/tag/0.1a4
Dibanding membangunnya sendiri, ini tidak buruk, tetapi di antara model frontier, pembeda utama Gemini adalah multimodal native. Sekarang setelah GPT-4o hadir, saya tidak yakin mengapa organisasi yang tidak terikat GCP akan memilih Gemini. Kalau tidak memproses seluruh buku atau film sekaligus, konteks 128k GPT-4o juga sudah cukup, dan saya penasaran apakah ada pihak yang benar-benar menjalankan pekerjaan berskala nyata yang tidak bisa dilakukan saat dikurangi dari 1 juta menjadi 100 ribu
Kekuatan Gemini bukan pada kemampuan memecahkan teka-teki logika, melainkan pada panjang konteksnya. Kalau sedang belajar untuk ujian, Anda bisa memasukkan seluruh buku ajar ke chat; kalau harus memakai bahasa mati untuk sistem pengujian lama yang informasinya tidak ada di internet, Anda bisa memasukkan manual referensi 1.300 halaman dan bertanya
Saya mencoba memasukkan Gemini 1.5 Pro ke beberapa alur kerja, tetapi hasilnya sangat buruk. Terutama saat memasukkan video atau audio, halusinasinya luar biasa banyak. Saya tidak tahu apakah model multimodal kecil yang banyak berhalusinasi punya use case praktis di sebagian besar perusahaan; kalau tidak andal, itu hanya mainan
Bahkan dibanding GPT-4o, model multimodal termurah OpenAI, GPT-3.5-Turbo biayanya 1/10 GPT-4o, yaitu $0.5 per 1 juta token input, $1.50 per 1 juta token output, dengan jendela konteks 16K. Gemini 1.5 Flash adalah $0.35 per 1 juta token input dan $0.53 per 1 juta token output untuk prompt di bawah 128K. Untuk pekerjaan multimodal yang tidak membutuhkan kecerdasan kelas GPT-4, terutama pemrosesan dokumen, Gemini Flash terlihat seperti penghematan biaya hampir 95%
Anda tidak perlu berpikir dua kali saat memasukkan konteks, dan tidak perlu membuat workaround untuk menangani konteks yang terlampaui. Jika sebagian besar use case menangani teks ketimbang multimodal, keunggulannya tampak cukup jelas
Saya mencoba lima atau enam kali lalu menyerah; semoga versi kali ini lebih cepat dan stabil
Secara intuitif, semakin panjang konteks, tampaknya kita akan menabrak batas seberapa banyak pemahaman yang bisa dimuat dalam satu titik ruang vektor, dan akan membutuhkan arsitektur yang lebih baik untuk memilih bagian yang relevan dari konteks
Saya tidak tahu apakah ini informasi publik, tetapi ukuran dimensi embedding adalah pilihan arsitektur. Menurut saya ini lebih merupakan masalah desain dan keterbatasan sumber daya daripada batas prinsipil
Kalau ada tulisan terkait atau bahan bacaan lebih lanjut, akan bagus jika direkomendasikan
Jumlah head atau ukuran vektor key bisa ditambah kapan saja
Namun hanya ada sebagian tokoh, anotasinya juga minim, dan biayanya sekitar $20. Kalau dicoba 10 kali, kualitasnya hanya cukup bagus untuk menipu Anda beberapa kali
Tapi kita tidak boleh membiarkan itu menjadi masa depan
Kalau menelusuri daftar model lewat API Google sendiri, tampaknya mereka menyediakan sekitar 10 model melalui jalur yang di konsol Google Cloud disebut Generative Language API dan di dokumentasi disebut Gemini API. Nama modelnya lebih dari 10, tetapi beberapa model punya beberapa alias.
Dari semuanya, hanya 3 yang punya informasi harga di halaman dokumentasi harga Gemini API, dan 2 di antaranya preview sehingga harganya berlaku di masa depan. Di Generative Language API pada konsol, hanya 1 model yang sama dan bukan preview dari 3 model di halaman dokumentasi yang menampilkan harga. Di daftar Cloud SKU tidak ada Generative Language API, dan ada Gemini API tetapi lagi-lagi hanya 1 model yang sama. Cloud Price list yang ditautkan halaman konsol sebagai “harga terbaru” sama sekali tidak memuat Generative Language API maupun Gemini API. Saya tidak mengerti mengapa ada begitu banyak entri yang berbeda-beda
Saya sangat penasaran bagaimana LLM berbasis karakter akan dibandingkan. Dengan konteks 2 juta, bottleneck komputasi jadi kabur. Namun saya tidak begitu tahu peran ukuran kosakata. Karena embedding sudah memuat sebagian besar pengetahuan, kosakata besar mungkin penting. Sebaliknya, memakai kosakata berbasis karakter tampaknya bisa menyelesaikan berbagai masalah seperti glitch token, aritmetika, dan rima. Mengimplementasikan dan melatih tokenizer subword dengan benar juga tampak cukup rumit, sementara pada level karakter seharusnya sangat sederhana
Di server inferensi, sebagian besar memori masuk ke KV cache, dan untuk menumpuk embedding melalui attention, jauh lebih banyak token harus saling dikaitkan, padahal tiap token punya “makna” yang lebih lemah. Mungkin suatu hari kita akan sampai ke titik ini. Pada akhirnya kita mungkin membutuhkan LLM multimodal yang memahami gambar dan suara hingga level piksel dan frekuensi, dan teks pun sepertinya pada akhirnya ingin diperlakukan begitu
Setidaknya secara umum saya melihatnya begitu. Pendekatan seperti ini tampaknya akan menghasilkan kualitas lebih tinggi daripada alfabet Romawi. Saya penasaran apakah ini bisa diuji hanya dengan membandingkan bagaimana LLM menangani bahasa Inggris dan bahasa Mandarin
Kedua, model-model ini, secara sangat kasar, mengubah token menjadi “makna rata-rata” di lapisan embedding, lapisan attention menggabungkan makna, dan lapisan feedforward mencocokkan kombinasi makna saat ini dengan semacam arketipe atau prototipe yang telah dipelajari. Jika turun dari potongan kata ke karakter, semua ini menjadi lebih kacau. Misalnya, makna rata-rata dari “a” saja sudah ambigu, jadi menurut saya teknik untuk melatih model berbasis karakter dengan baik masih belum cukup
Ini tebakan yang kurang saya pahami, tetapi mungkin karena transformer bukan pengenal pola serbaguna, melainkan hanya bisa menangkap pola pada tingkat granularitas tertentu
“ChatGPT” adalah nama yang cukup kaku dan rumit, dan OpenAI terasa seperti organisasi tanpa wajah. Tentu saja itu bisa berubah, tetapi pada titik ini rasanya sudah cukup terlambat. Mereka pasti punya cukup uang untuk lebih kreatif saat masuk ke pasar
“GPT4o”, serius? Bahkan “GPT4 Omni” lebih mudah dipakai dalam percakapan, dan itu juga arti dari “o”. Mereka sangat meremehkan betapa banyaknya pengguna umum
GPT-4 turbo(gpt-4-0125-preview) 31,0, GPT-4o 30,7, GPT-4 turbo(gpt-4-turbo-2024-04-09) 29,7, GPT-4 turbo(gpt-4-1106-preview) 28,8, Claude 3 Opus 27,3, GPT-4(0613) 26,1, Llama 3 Instruct 70B 24,0, Gemini Pro 1.5 19,9, Mistral Large 17,7, Gemini 1.5 Flash 15,3, Mistral Medium 15,0, Gemini Pro 1.0 14,2, Llama 3 Instruct 8B 12,3, Mixtral-8x22B Instruct 12,2
Menurut https://ai.google.dev/pricing, harganya tampaknya sedikit lebih murah daripada gpt3.5-turbo, tetapi tidak jelas bagaimana perbandingannya dalam praktik
Untuk coding praktis, arsitektur sistem, dan sesekali pertanyaan umum, saya memakai Gemini Pro dan ChatGPT 4 berdampingan selama beberapa bulan, dan ChatGPT setidaknya 80% lebih berguna. Gemini salah, atau bertele-tele tersesat sebelum sampai ke jawaban yang berguna, sehingga tidak layak dipakai. Yang saya butuhkan bukan sesuatu yang lebih cepat. Mungkin sekarang ia sudah lebih “pintar”, yaitu lebih berguna