Gemini 3.5 Flash

(deepmind.google)

2 poin oleh GN⁺ 2024-05-15 | 1 komentar | Bagikan ke WhatsApp

Gemini 3.5 Flash dari Google DeepMind adalah model Preview yang menghadirkan penalaran tingkat lanjut untuk tugas agen dan coding sambil mempertahankan latensi rendah serta skalabilitas lini Flash
Kemampuan utamanya adalah pemahaman multimodal yang menangani teks, audio, gambar, kode, dan video sekaligus, selain alur kerja panjang dan coding berulang
Contoh yang dipublikasikan mencakup pembuatan UI cepat, membangun game berbasis makalah, hingga merancang kota virtual, yang menekankan cakupan pemanfaatannya dalam tugas bergaya agen
Dalam benchmark, model ini mencatat skor tertinggi di tabel pada sejumlah kategori seperti MCP Atlas 83.6%, Toolathlon 56.5%, Finance Agent v2 57.9%, dan MMMU-Pro 83.6%
Input mendukung teks, gambar, video, audio, dan PDF, sedangkan output berupa teks; model ini menyediakan 1M token input dan 64k token output, serta function calling, structured output, alat pencarian, dan eksekusi kode

Posisi Gemini 3.5 Flash

Gemini 3.5 Flash adalah model yang menghadirkan penalaran tingkat lanjut pada “latensi dan skalabilitas setara Flash”
Area penerapannya mencakup agen, coding, tugas sehari-hari, penalaran tingkat lanjut, pemahaman multimodal, dan pemahaman konteks panjang
Status model adalah Preview

Tugas yang dibidik pada latensi Flash

Arah utamanya adalah menghadirkan kecepatan tinggi dan kecerdasan secara bersamaan
- Model ini ingin menempatkan diri sebagai model yang mempertahankan kecepatan dan skalabilitas tanpa mengorbankan kecerdasan
Menangani penalaran jarak jauh dan tugas coding berulang
Mendukung pemahaman multimodal pada teks, audio, gambar, kode, dan video

Contoh pemanfaatan agen

Ditunjukkan berbagai contoh tugas yang memperlihatkan kemampuan agen yang cepat
- Menghasilkan 6 opsi UI pembayaran dalam waktu kurang dari 60 detik
- Menghasilkan 64 variasi fraktal dengan cepat
- Menerima makalah AlphaGo sebagai input lalu secara otonom membangun game cerdas
- Mengoordinasikan beberapa workflow untuk membuat dan menyempurnakan brand acara penggalangan dana dengan input minimal
- Mengubah deskripsi teks menjadi komponen HTML interaktif yang lengkap
- Beberapa agen membuat lagu menggunakan library musik Strudel
- Mengoordinasikan tim agen spesialis untuk merancang dan membangun kota virtual
- Secara otomatis mengganti nama dan menstrukturkan dataset yang berantakan
- Menempatkan agen untuk terus menyempurnakan game secara real-time

Studi kasus pelanggan dan peningkatan performa

Armadin menyatakan bahwa model Flash terbaru Gemini mencatat hasil 42% lebih tinggi daripada Flash 3 pada benchmark siber multiturn jarak jauh, dan efisiensi token meningkat 68%
Dalam set evaluasi tugas enterprise milik Box, Gemini 3.5 Flash lebih tinggi 19.6% dibanding Gemini 3 Flash
- Akurasi ekstraksi data dan perhitungan untuk pelanggan Life Sciences meningkat menjadi 96.4%
- Akurasi pembuatan laporan keuangan berbasis data terstruktur untuk Financial Services meningkat 46.7%
Junie dari JetBrains menilai bahwa Gemini 3.5 Flash memberikan kualitas coding dan penalaran yang mendekati Gemini Pro sambil mempertahankan karakteristik kecepatan dan biaya Flash
- Performa coding pada level penalaran lebih rendah meningkat 10–20% dibanding generasi Flash sebelumnya

Hasil benchmark

Gemini 3.5 Flash sangat ditonjolkan sebagai model untuk workflow agen
Benchmark coding
- Terminal-bench 2.1 Agentic terminal coding: 76.2%
- SWE-Bench Pro Public: 55.1%
Benchmark agen dan penggunaan alat
- MCP Atlas: 83.6% dengan skor tertinggi di tabel
- Toolathlon: 56.5% dengan skor tertinggi di tabel
Kontrol UI dan tugas profesional
- OSWorld-Verified: 78.4%
- Finance Agent v2: 57.9% dengan skor tertinggi di tabel
- GDPval-AA Elo: 1656
Benchmark multimodal
- CharXiv Reasoning: 84.2% dengan skor tertinggi di tabel
- MMMU-Pro: 83.6% dengan skor tertinggi di tabel
- Blueprint-Bench 2: 33.6%
Konteks panjang dan penalaran
- Rata-rata MRCR v2 128k: 77.3%
- MRCR v2 1M pointwise: 26.6%, lebih tinggi daripada Gemini 3 Flash dan Gemini 3.1 Pro yang dapat dibandingkan
- Humanity’s Last Exam: 40.2%
- ARC-AGI-2: 72.1%
Detail metode evaluasi tersedia di Gemini 3.5 Flash evals methodology

Informasi model dan lingkungan yang tersedia

Input mendukung teks, gambar, video, audio, PDF
Output berupa teks
Konteks dan acuan pengetahuan
- Token input: 1M
- Token output: 64k
- Knowledge cutoff: Januari 2025
Fitur penggunaan alat
- Function calling
- Structured output
- Menggunakan pencarian sebagai alat
- Eksekusi kode
Lingkungan yang tersedia adalah Gemini App, Gemini API, Gemini Enterprise, Gemini Enterprise Agent Platform, Google AI Mode, Google AI Studio, Google Antigravity, dan Android Studio
Dokumentasi developer tersedia di Gemini API models documentation
Model card tersedia di Gemini 3.5 Flash model card

1 komentar

GN⁺ 2024-05-15

Pendapat di Hacker News

Saya meng-upgrade plugin llm-gemini agar menyediakan akses Gemini Flash via CLI
pipx install llm # or brew install llm
llm install llm-gemini --upgrade
llm keys set gemini
# paste API key here
llm -m gemini-1.5-flash-latest 'a short poem about otters'
https://github.com/simonw/llm-gemini/releases/tag/0.1a4
Kalau melihat benchmark seperti MMLU, ini tampaknya berarti model dengan kualitas setara Llama 3 70B dengan latensi token pertama di bawah 1 detik; bukan kelas GPT-4/Opus, tetapi punya multimodal native dan konteks 1 juta
Dibanding membangunnya sendiri, ini tidak buruk, tetapi di antara model frontier, pembeda utama Gemini adalah multimodal native. Sekarang setelah GPT-4o hadir, saya tidak yakin mengapa organisasi yang tidak terikat GCP akan memilih Gemini. Kalau tidak memproses seluruh buku atau film sekaligus, konteks 128k GPT-4o juga sudah cukup, dan saya penasaran apakah ada pihak yang benar-benar menjalankan pekerjaan berskala nyata yang tidak bisa dilakukan saat dikurangi dari 1 juta menjadi 100 ribu
- Dengan 1 juta token, sebelum mulai chat Anda bisa memasukkan dokumen 2.000 halaman ke dalam jendela konteks
  Kekuatan Gemini bukan pada kemampuan memecahkan teka-teki logika, melainkan pada panjang konteksnya. Kalau sedang belajar untuk ujian, Anda bisa memasukkan seluruh buku ajar ke chat; kalau harus memakai bahasa mati untuk sistem pengujian lama yang informasinya tidak ada di internet, Anda bisa memasukkan manual referensi 1.300 halaman dan bertanya
- Saya rasa ini mustahil punya kualitas Llama 3 70B
  Saya mencoba memasukkan Gemini 1.5 Pro ke beberapa alur kerja, tetapi hasilnya sangat buruk. Terutama saat memasukkan video atau audio, halusinasinya luar biasa banyak. Saya tidak tahu apakah model multimodal kecil yang banyak berhalusinasi punya use case praktis di sebagian besar perusahaan; kalau tidak andal, itu hanya mainan
- Alasan organisasi yang tidak terikat GCP memilih Gemini adalah harga. Terutama untuk pekerjaan multimodal yang tidak membutuhkan kualitas GPT-4
  Bahkan dibanding GPT-4o, model multimodal termurah OpenAI, GPT-3.5-Turbo biayanya 1/10 GPT-4o, yaitu $0.5 per 1 juta token input, $1.50 per 1 juta token output, dengan jendela konteks 16K. Gemini 1.5 Flash adalah $0.35 per 1 juta token input dan $0.53 per 1 juta token output untuk prompt di bawah 128K. Untuk pekerjaan multimodal yang tidak membutuhkan kecerdasan kelas GPT-4, terutama pemrosesan dokumen, Gemini Flash terlihat seperti penghematan biaya hampir 95%
- Ini mirip bertanya mengapa perlu Gmail 1GB kalau akun Yahoo 50MB tampaknya sudah cukup
  Anda tidak perlu berpikir dua kali saat memasukkan konteks, dan tidak perlu membuat workaround untuk menangani konteks yang terlampaui. Jika sebagian besar use case menangani teks ketimbang multimodal, keunggulannya tampak cukup jelas
- Beberapa bulan lalu saya mencoba memakai 1 juta token dengan Gemini, tetapi crash atau merespons sangat lambat lalu akhirnya crash
  Saya mencoba lima atau enam kali lalu menyerah; semoga versi kali ini lebih cepat dan stabil
Saya melihat konteks default 1 juta token sebagai fitur besar di sini, tetapi kita butuh benchmark yang lebih baik untuk mengukur apa arti sebenarnya
Secara intuitif, semakin panjang konteks, tampaknya kita akan menabrak batas seberapa banyak pemahaman yang bisa dimuat dalam satu titik ruang vektor, dan akan membutuhkan arsitektur yang lebih baik untuk memilih bagian yang relevan dari konteks
- Kalau berbicara penggunaan produksi, multimodal pada model dengan biaya per token 4–7% dibanding model multimodal termurah OpenAI adalah fitur penting, bukan demo yang tidak berkelanjutan secara ekonomi
- Saya tidak tahu di ruang vektor berdimensi berapa ada batas satu titik itu
  Saya tidak tahu apakah ini informasi publik, tetapi ukuran dimensi embedding adalah pilihan arsitektur. Menurut saya ini lebih merupakan masalah desain dan keterbatasan sumber daya daripada batas prinsipil
- Saya penasaran apakah bisa menjelaskan, agar orang yang kira-kira memahami vektor dan basis data vektor juga paham, apa maksudnya memuat pemahaman ke dalam satu titik di ruang vektor
  Kalau ada tulisan terkait atau bahan bacaan lebih lanjut, akan bagus jika direkomendasikan
- Kita berurusan dengan multi-head attention, jadi ada beberapa titik untuk tiap token
  Jumlah head atau ukuran vektor key bisa ditambah kapan saja
- Dalam praktiknya tidak sebagus itu. Anda bisa membuat demo yang terlihat meyakinkan seperti “memasukkan 6,5 buku Harry Potter lalu membuat peta SVG yang menghubungkan tokoh-tokoh beserta anotasi”
  Namun hanya ada sebagian tokoh, anotasinya juga minim, dan biayanya sekitar $20. Kalau dicoba 10 kali, kualitasnya hanya cukup bagus untuk menipu Anda beberapa kali
Menarik juga ada model ringan yang hanya bisa dipakai di cloud. Perusahaan teknologi raksasa seperti ini benar-benar sangat ingin memiliki sampai penggunaan AI-nya
Tapi kita tidak boleh membiarkan itu menjadi masa depan
Satu hal yang OpenAI lakukan lebih baik daripada Google adalah benar-benar mempublikasikan harga API, dan penamaannya juga relatif konsisten
Kalau menelusuri daftar model lewat API Google sendiri, tampaknya mereka menyediakan sekitar 10 model melalui jalur yang di konsol Google Cloud disebut Generative Language API dan di dokumentasi disebut Gemini API. Nama modelnya lebih dari 10, tetapi beberapa model punya beberapa alias.
Dari semuanya, hanya 3 yang punya informasi harga di halaman dokumentasi harga Gemini API, dan 2 di antaranya preview sehingga harganya berlaku di masa depan. Di Generative Language API pada konsol, hanya 1 model yang sama dan bukan preview dari 3 model di halaman dokumentasi yang menampilkan harga. Di daftar Cloud SKU tidak ada Generative Language API, dan ada Gemini API tetapi lagi-lagi hanya 1 model yang sama. Cloud Price list yang ditautkan halaman konsol sebagai “harga terbaru” sama sekali tidak memuat Generative Language API maupun Gemini API. Saya tidak mengerti mengapa ada begitu banyak entri yang berbeda-beda
Karena panjang konteks tampaknya sudah cukup longgar untuk sebagian besar pekerjaan, saya penasaran mengapa masih memakai token subword

Saya sangat penasaran bagaimana LLM berbasis karakter akan dibandingkan. Dengan konteks 2 juta, bottleneck komputasi jadi kabur. Namun saya tidak begitu tahu peran ukuran kosakata. Karena embedding sudah memuat sebagian besar pengetahuan, kosakata besar mungkin penting. Sebaliknya, memakai kosakata berbasis karakter tampaknya bisa menyelesaikan berbagai masalah seperti glitch token, aritmetika, dan rima. Mengimplementasikan dan melatih tokenizer subword dengan benar juga tampak cukup rumit, sementara pada level karakter seharusnya sangat sederhana

Mekanisme attention jauh lebih efisien dipelajari ketika bisa memberi perhatian pada token yang lebih besar dan bermakna
Di server inferensi, sebagian besar memori masuk ke KV cache, dan untuk menumpuk embedding melalui attention, jauh lebih banyak token harus saling dikaitkan, padahal tiap token punya “makna” yang lebih lemah. Mungkin suatu hari kita akan sampai ke titik ini. Pada akhirnya kita mungkin membutuhkan LLM multimodal yang memahami gambar dan suara hingga level piksel dan frekuensi, dan teks pun sepertinya pada akhirnya ingin diperlakukan begitu
Karakter bukan komponen pembentuk makna kata; umumnya suku kata yang memainkan peran itu
Setidaknya secara umum saya melihatnya begitu. Pendekatan seperti ini tampaknya akan menghasilkan kualitas lebih tinggi daripada alfabet Romawi. Saya penasaran apakah ini bisa diuji hanya dengan membandingkan bagaimana LLM menangani bahasa Inggris dan bahasa Mandarin
Menurut saya ada dua masalah besar. Pertama, karena harus menghasilkan lebih banyak output secara berurutan, latensi memburuk
Kedua, model-model ini, secara sangat kasar, mengubah token menjadi “makna rata-rata” di lapisan embedding, lapisan attention menggabungkan makna, dan lapisan feedforward mencocokkan kombinasi makna saat ini dengan semacam arketipe atau prototipe yang telah dipelajari. Jika turun dari potongan kata ke karakter, semua ini menjadi lebih kacau. Misalnya, makna rata-rata dari “a” saja sudah ambigu, jadi menurut saya teknik untuk melatih model berbasis karakter dengan baik masih belum cukup
Dalam generasi musik AI, hasilnya jauh lebih baik dengan ukuran kosakata besar di skala 10^6
Ini tebakan yang kurang saya pahami, tetapi mungkin karena transformer bukan pengenal pola serbaguna, melainkan hanya bisa menangkap pola pada tingkat granularitas tertentu
Google jelas tampaknya punya tim branding yang lebih baik. Saya suka nama seperti Gemini dan Gems
“ChatGPT” adalah nama yang cukup kaku dan rumit, dan OpenAI terasa seperti organisasi tanpa wajah. Tentu saja itu bisa berubah, tetapi pada titik ini rasanya sudah cukup terlambat. Mereka pasti punya cukup uang untuk lebih kreatif saat masuk ke pasar
- “ChatGPT” adalah nama seperti “Google”. Saya rasa “Gemini” tidak akan bisa menggantikannya
- OpenAI sangat membutuhkan penasihat marketing
  “GPT4o”, serius? Bahkan “GPT4 Omni” lebih mudah dipakai dalam percakapan, dan itu juga arti dari “o”. Mereka sangat meremehkan betapa banyaknya pengguna umum
Pada benchmark NYT Connections, Gemini 1.5 Flash mendapat 15,3 poin
GPT-4 turbo(gpt-4-0125-preview) 31,0, GPT-4o 30,7, GPT-4 turbo(gpt-4-turbo-2024-04-09) 29,7, GPT-4 turbo(gpt-4-1106-preview) 28,8, Claude 3 Opus 27,3, GPT-4(0613) 26,1, Llama 3 Instruct 70B 24,0, Gemini Pro 1.5 19,9, Mistral Large 17,7, Gemini 1.5 Flash 15,3, Mistral Medium 15,0, Gemini Pro 1.0 14,2, Llama 3 Instruct 8B 12,3, Mixtral-8x22B Instruct 12,2
- Di daftar itu ada terlalu banyak model OpenAI yang performanya tinggi tetapi namanya buruk sekali
Informasinya tidak banyak. Mereka menjualnya sebagai opsi cepat dan murah, tetapi tidak ada benchmark kecepatan inferensi dan tidak ada perbandingan dengan model non-Gemini
Menurut https://ai.google.dev/pricing, harganya tampaknya sedikit lebih murah daripada gpt3.5-turbo, tetapi tidak jelas bagaimana perbandingannya dalam praktik
Jika Gemini Flash hanya Gemini yang lebih cepat, jawaban buruk tidak menjadi lebih baik hanya karena datang lebih cepat
Untuk coding praktis, arsitektur sistem, dan sesekali pertanyaan umum, saya memakai Gemini Pro dan ChatGPT 4 berdampingan selama beberapa bulan, dan ChatGPT setidaknya 80% lebih berguna. Gemini salah, atau bertele-tele tersesat sebelum sampai ke jawaban yang berguna, sehingga tidak layak dipakai. Yang saya butuhkan bukan sesuatu yang lebih cepat. Mungkin sekarang ia sudah lebih “pintar”, yaitu lebih berguna
- Mungkin jika kepintaran didefinisikan sebagai melakukan lebih banyak hal dengan sumber daya lebih sedikit, ini bisa dilihat sebagai tanda bahwa ada sesuatu dalam ruang laten yang layak diskalakan