2 poin oleh GN⁺ 2024-05-15 | 1 komentar | Bagikan ke WhatsApp
  • Gemini 3.5 Flash dari Google DeepMind adalah model Preview yang menghadirkan penalaran tingkat lanjut untuk tugas agen dan coding sambil mempertahankan latensi rendah serta skalabilitas lini Flash
  • Kemampuan utamanya adalah pemahaman multimodal yang menangani teks, audio, gambar, kode, dan video sekaligus, selain alur kerja panjang dan coding berulang
  • Contoh yang dipublikasikan mencakup pembuatan UI cepat, membangun game berbasis makalah, hingga merancang kota virtual, yang menekankan cakupan pemanfaatannya dalam tugas bergaya agen
  • Dalam benchmark, model ini mencatat skor tertinggi di tabel pada sejumlah kategori seperti MCP Atlas 83.6%, Toolathlon 56.5%, Finance Agent v2 57.9%, dan MMMU-Pro 83.6%
  • Input mendukung teks, gambar, video, audio, dan PDF, sedangkan output berupa teks; model ini menyediakan 1M token input dan 64k token output, serta function calling, structured output, alat pencarian, dan eksekusi kode

Posisi Gemini 3.5 Flash

  • Gemini 3.5 Flash adalah model yang menghadirkan penalaran tingkat lanjut pada “latensi dan skalabilitas setara Flash”
  • Area penerapannya mencakup agen, coding, tugas sehari-hari, penalaran tingkat lanjut, pemahaman multimodal, dan pemahaman konteks panjang
  • Status model adalah Preview

Tugas yang dibidik pada latensi Flash

  • Arah utamanya adalah menghadirkan kecepatan tinggi dan kecerdasan secara bersamaan
    • Model ini ingin menempatkan diri sebagai model yang mempertahankan kecepatan dan skalabilitas tanpa mengorbankan kecerdasan
  • Menangani penalaran jarak jauh dan tugas coding berulang
  • Mendukung pemahaman multimodal pada teks, audio, gambar, kode, dan video

Contoh pemanfaatan agen

  • Ditunjukkan berbagai contoh tugas yang memperlihatkan kemampuan agen yang cepat
    • Menghasilkan 6 opsi UI pembayaran dalam waktu kurang dari 60 detik
    • Menghasilkan 64 variasi fraktal dengan cepat
    • Menerima makalah AlphaGo sebagai input lalu secara otonom membangun game cerdas
    • Mengoordinasikan beberapa workflow untuk membuat dan menyempurnakan brand acara penggalangan dana dengan input minimal
    • Mengubah deskripsi teks menjadi komponen HTML interaktif yang lengkap
    • Beberapa agen membuat lagu menggunakan library musik Strudel
    • Mengoordinasikan tim agen spesialis untuk merancang dan membangun kota virtual
    • Secara otomatis mengganti nama dan menstrukturkan dataset yang berantakan
    • Menempatkan agen untuk terus menyempurnakan game secara real-time

Studi kasus pelanggan dan peningkatan performa

  • Armadin menyatakan bahwa model Flash terbaru Gemini mencatat hasil 42% lebih tinggi daripada Flash 3 pada benchmark siber multiturn jarak jauh, dan efisiensi token meningkat 68%
  • Dalam set evaluasi tugas enterprise milik Box, Gemini 3.5 Flash lebih tinggi 19.6% dibanding Gemini 3 Flash
    • Akurasi ekstraksi data dan perhitungan untuk pelanggan Life Sciences meningkat menjadi 96.4%
    • Akurasi pembuatan laporan keuangan berbasis data terstruktur untuk Financial Services meningkat 46.7%
  • Junie dari JetBrains menilai bahwa Gemini 3.5 Flash memberikan kualitas coding dan penalaran yang mendekati Gemini Pro sambil mempertahankan karakteristik kecepatan dan biaya Flash
    • Performa coding pada level penalaran lebih rendah meningkat 10–20% dibanding generasi Flash sebelumnya

Hasil benchmark

  • Gemini 3.5 Flash sangat ditonjolkan sebagai model untuk workflow agen
  • Benchmark coding
    • Terminal-bench 2.1 Agentic terminal coding: 76.2%
    • SWE-Bench Pro Public: 55.1%
  • Benchmark agen dan penggunaan alat
    • MCP Atlas: 83.6% dengan skor tertinggi di tabel
    • Toolathlon: 56.5% dengan skor tertinggi di tabel
  • Kontrol UI dan tugas profesional
    • OSWorld-Verified: 78.4%
    • Finance Agent v2: 57.9% dengan skor tertinggi di tabel
    • GDPval-AA Elo: 1656
  • Benchmark multimodal
    • CharXiv Reasoning: 84.2% dengan skor tertinggi di tabel
    • MMMU-Pro: 83.6% dengan skor tertinggi di tabel
    • Blueprint-Bench 2: 33.6%
  • Konteks panjang dan penalaran
    • Rata-rata MRCR v2 128k: 77.3%
    • MRCR v2 1M pointwise: 26.6%, lebih tinggi daripada Gemini 3 Flash dan Gemini 3.1 Pro yang dapat dibandingkan
    • Humanity’s Last Exam: 40.2%
    • ARC-AGI-2: 72.1%
  • Detail metode evaluasi tersedia di Gemini 3.5 Flash evals methodology

Informasi model dan lingkungan yang tersedia

  • Input mendukung teks, gambar, video, audio, PDF
  • Output berupa teks
  • Konteks dan acuan pengetahuan
    • Token input: 1M
    • Token output: 64k
    • Knowledge cutoff: Januari 2025
  • Fitur penggunaan alat
    • Function calling
    • Structured output
    • Menggunakan pencarian sebagai alat
    • Eksekusi kode
  • Lingkungan yang tersedia adalah Gemini App, Gemini API, Gemini Enterprise, Gemini Enterprise Agent Platform, Google AI Mode, Google AI Studio, Google Antigravity, dan Android Studio
  • Dokumentasi developer tersedia di Gemini API models documentation
  • Model card tersedia di Gemini 3.5 Flash model card

1 komentar

 
GN⁺ 2024-05-15
Pendapat di Hacker News
  • Saya meng-upgrade plugin llm-gemini agar menyediakan akses Gemini Flash via CLI
    pipx install llm # or brew install llm
    llm install llm-gemini --upgrade
    llm keys set gemini
    # paste API key here
    llm -m gemini-1.5-flash-latest 'a short poem about otters'
    https://github.com/simonw/llm-gemini/releases/tag/0.1a4
  • Kalau melihat benchmark seperti MMLU, ini tampaknya berarti model dengan kualitas setara Llama 3 70B dengan latensi token pertama di bawah 1 detik; bukan kelas GPT-4/Opus, tetapi punya multimodal native dan konteks 1 juta
    Dibanding membangunnya sendiri, ini tidak buruk, tetapi di antara model frontier, pembeda utama Gemini adalah multimodal native. Sekarang setelah GPT-4o hadir, saya tidak yakin mengapa organisasi yang tidak terikat GCP akan memilih Gemini. Kalau tidak memproses seluruh buku atau film sekaligus, konteks 128k GPT-4o juga sudah cukup, dan saya penasaran apakah ada pihak yang benar-benar menjalankan pekerjaan berskala nyata yang tidak bisa dilakukan saat dikurangi dari 1 juta menjadi 100 ribu
    • Dengan 1 juta token, sebelum mulai chat Anda bisa memasukkan dokumen 2.000 halaman ke dalam jendela konteks
      Kekuatan Gemini bukan pada kemampuan memecahkan teka-teki logika, melainkan pada panjang konteksnya. Kalau sedang belajar untuk ujian, Anda bisa memasukkan seluruh buku ajar ke chat; kalau harus memakai bahasa mati untuk sistem pengujian lama yang informasinya tidak ada di internet, Anda bisa memasukkan manual referensi 1.300 halaman dan bertanya
    • Saya rasa ini mustahil punya kualitas Llama 3 70B
      Saya mencoba memasukkan Gemini 1.5 Pro ke beberapa alur kerja, tetapi hasilnya sangat buruk. Terutama saat memasukkan video atau audio, halusinasinya luar biasa banyak. Saya tidak tahu apakah model multimodal kecil yang banyak berhalusinasi punya use case praktis di sebagian besar perusahaan; kalau tidak andal, itu hanya mainan
    • Alasan organisasi yang tidak terikat GCP memilih Gemini adalah harga. Terutama untuk pekerjaan multimodal yang tidak membutuhkan kualitas GPT-4
      Bahkan dibanding GPT-4o, model multimodal termurah OpenAI, GPT-3.5-Turbo biayanya 1/10 GPT-4o, yaitu $0.5 per 1 juta token input, $1.50 per 1 juta token output, dengan jendela konteks 16K. Gemini 1.5 Flash adalah $0.35 per 1 juta token input dan $0.53 per 1 juta token output untuk prompt di bawah 128K. Untuk pekerjaan multimodal yang tidak membutuhkan kecerdasan kelas GPT-4, terutama pemrosesan dokumen, Gemini Flash terlihat seperti penghematan biaya hampir 95%
    • Ini mirip bertanya mengapa perlu Gmail 1GB kalau akun Yahoo 50MB tampaknya sudah cukup
      Anda tidak perlu berpikir dua kali saat memasukkan konteks, dan tidak perlu membuat workaround untuk menangani konteks yang terlampaui. Jika sebagian besar use case menangani teks ketimbang multimodal, keunggulannya tampak cukup jelas
    • Beberapa bulan lalu saya mencoba memakai 1 juta token dengan Gemini, tetapi crash atau merespons sangat lambat lalu akhirnya crash
      Saya mencoba lima atau enam kali lalu menyerah; semoga versi kali ini lebih cepat dan stabil
  • Saya melihat konteks default 1 juta token sebagai fitur besar di sini, tetapi kita butuh benchmark yang lebih baik untuk mengukur apa arti sebenarnya
    Secara intuitif, semakin panjang konteks, tampaknya kita akan menabrak batas seberapa banyak pemahaman yang bisa dimuat dalam satu titik ruang vektor, dan akan membutuhkan arsitektur yang lebih baik untuk memilih bagian yang relevan dari konteks
    • Kalau berbicara penggunaan produksi, multimodal pada model dengan biaya per token 4–7% dibanding model multimodal termurah OpenAI adalah fitur penting, bukan demo yang tidak berkelanjutan secara ekonomi
    • Saya tidak tahu di ruang vektor berdimensi berapa ada batas satu titik itu
      Saya tidak tahu apakah ini informasi publik, tetapi ukuran dimensi embedding adalah pilihan arsitektur. Menurut saya ini lebih merupakan masalah desain dan keterbatasan sumber daya daripada batas prinsipil
    • Saya penasaran apakah bisa menjelaskan, agar orang yang kira-kira memahami vektor dan basis data vektor juga paham, apa maksudnya memuat pemahaman ke dalam satu titik di ruang vektor
      Kalau ada tulisan terkait atau bahan bacaan lebih lanjut, akan bagus jika direkomendasikan
    • Kita berurusan dengan multi-head attention, jadi ada beberapa titik untuk tiap token
      Jumlah head atau ukuran vektor key bisa ditambah kapan saja
    • Dalam praktiknya tidak sebagus itu. Anda bisa membuat demo yang terlihat meyakinkan seperti “memasukkan 6,5 buku Harry Potter lalu membuat peta SVG yang menghubungkan tokoh-tokoh beserta anotasi”
      Namun hanya ada sebagian tokoh, anotasinya juga minim, dan biayanya sekitar $20. Kalau dicoba 10 kali, kualitasnya hanya cukup bagus untuk menipu Anda beberapa kali
  • Menarik juga ada model ringan yang hanya bisa dipakai di cloud. Perusahaan teknologi raksasa seperti ini benar-benar sangat ingin memiliki sampai penggunaan AI-nya
    Tapi kita tidak boleh membiarkan itu menjadi masa depan
  • Satu hal yang OpenAI lakukan lebih baik daripada Google adalah benar-benar mempublikasikan harga API, dan penamaannya juga relatif konsisten
    Kalau menelusuri daftar model lewat API Google sendiri, tampaknya mereka menyediakan sekitar 10 model melalui jalur yang di konsol Google Cloud disebut Generative Language API dan di dokumentasi disebut Gemini API. Nama modelnya lebih dari 10, tetapi beberapa model punya beberapa alias.
    Dari semuanya, hanya 3 yang punya informasi harga di halaman dokumentasi harga Gemini API, dan 2 di antaranya preview sehingga harganya berlaku di masa depan. Di Generative Language API pada konsol, hanya 1 model yang sama dan bukan preview dari 3 model di halaman dokumentasi yang menampilkan harga. Di daftar Cloud SKU tidak ada Generative Language API, dan ada Gemini API tetapi lagi-lagi hanya 1 model yang sama. Cloud Price list yang ditautkan halaman konsol sebagai “harga terbaru” sama sekali tidak memuat Generative Language API maupun Gemini API. Saya tidak mengerti mengapa ada begitu banyak entri yang berbeda-beda
  • Karena panjang konteks tampaknya sudah cukup longgar untuk sebagian besar pekerjaan, saya penasaran mengapa masih memakai token subword

Saya sangat penasaran bagaimana LLM berbasis karakter akan dibandingkan. Dengan konteks 2 juta, bottleneck komputasi jadi kabur. Namun saya tidak begitu tahu peran ukuran kosakata. Karena embedding sudah memuat sebagian besar pengetahuan, kosakata besar mungkin penting. Sebaliknya, memakai kosakata berbasis karakter tampaknya bisa menyelesaikan berbagai masalah seperti glitch token, aritmetika, dan rima. Mengimplementasikan dan melatih tokenizer subword dengan benar juga tampak cukup rumit, sementara pada level karakter seharusnya sangat sederhana

  • Mekanisme attention jauh lebih efisien dipelajari ketika bisa memberi perhatian pada token yang lebih besar dan bermakna
    Di server inferensi, sebagian besar memori masuk ke KV cache, dan untuk menumpuk embedding melalui attention, jauh lebih banyak token harus saling dikaitkan, padahal tiap token punya “makna” yang lebih lemah. Mungkin suatu hari kita akan sampai ke titik ini. Pada akhirnya kita mungkin membutuhkan LLM multimodal yang memahami gambar dan suara hingga level piksel dan frekuensi, dan teks pun sepertinya pada akhirnya ingin diperlakukan begitu
  • Karakter bukan komponen pembentuk makna kata; umumnya suku kata yang memainkan peran itu
    Setidaknya secara umum saya melihatnya begitu. Pendekatan seperti ini tampaknya akan menghasilkan kualitas lebih tinggi daripada alfabet Romawi. Saya penasaran apakah ini bisa diuji hanya dengan membandingkan bagaimana LLM menangani bahasa Inggris dan bahasa Mandarin
  • Menurut saya ada dua masalah besar. Pertama, karena harus menghasilkan lebih banyak output secara berurutan, latensi memburuk
    Kedua, model-model ini, secara sangat kasar, mengubah token menjadi “makna rata-rata” di lapisan embedding, lapisan attention menggabungkan makna, dan lapisan feedforward mencocokkan kombinasi makna saat ini dengan semacam arketipe atau prototipe yang telah dipelajari. Jika turun dari potongan kata ke karakter, semua ini menjadi lebih kacau. Misalnya, makna rata-rata dari “a” saja sudah ambigu, jadi menurut saya teknik untuk melatih model berbasis karakter dengan baik masih belum cukup
  • Dalam generasi musik AI, hasilnya jauh lebih baik dengan ukuran kosakata besar di skala 10^6
    Ini tebakan yang kurang saya pahami, tetapi mungkin karena transformer bukan pengenal pola serbaguna, melainkan hanya bisa menangkap pola pada tingkat granularitas tertentu
  • Google jelas tampaknya punya tim branding yang lebih baik. Saya suka nama seperti Gemini dan Gems
    “ChatGPT” adalah nama yang cukup kaku dan rumit, dan OpenAI terasa seperti organisasi tanpa wajah. Tentu saja itu bisa berubah, tetapi pada titik ini rasanya sudah cukup terlambat. Mereka pasti punya cukup uang untuk lebih kreatif saat masuk ke pasar
    • “ChatGPT” adalah nama seperti “Google”. Saya rasa “Gemini” tidak akan bisa menggantikannya
    • OpenAI sangat membutuhkan penasihat marketing
      “GPT4o”, serius? Bahkan “GPT4 Omni” lebih mudah dipakai dalam percakapan, dan itu juga arti dari “o”. Mereka sangat meremehkan betapa banyaknya pengguna umum
  • Pada benchmark NYT Connections, Gemini 1.5 Flash mendapat 15,3 poin
    GPT-4 turbo(gpt-4-0125-preview) 31,0, GPT-4o 30,7, GPT-4 turbo(gpt-4-turbo-2024-04-09) 29,7, GPT-4 turbo(gpt-4-1106-preview) 28,8, Claude 3 Opus 27,3, GPT-4(0613) 26,1, Llama 3 Instruct 70B 24,0, Gemini Pro 1.5 19,9, Mistral Large 17,7, Gemini 1.5 Flash 15,3, Mistral Medium 15,0, Gemini Pro 1.0 14,2, Llama 3 Instruct 8B 12,3, Mixtral-8x22B Instruct 12,2
    • Di daftar itu ada terlalu banyak model OpenAI yang performanya tinggi tetapi namanya buruk sekali
  • Informasinya tidak banyak. Mereka menjualnya sebagai opsi cepat dan murah, tetapi tidak ada benchmark kecepatan inferensi dan tidak ada perbandingan dengan model non-Gemini
    Menurut https://ai.google.dev/pricing, harganya tampaknya sedikit lebih murah daripada gpt3.5-turbo, tetapi tidak jelas bagaimana perbandingannya dalam praktik
  • Jika Gemini Flash hanya Gemini yang lebih cepat, jawaban buruk tidak menjadi lebih baik hanya karena datang lebih cepat
    Untuk coding praktis, arsitektur sistem, dan sesekali pertanyaan umum, saya memakai Gemini Pro dan ChatGPT 4 berdampingan selama beberapa bulan, dan ChatGPT setidaknya 80% lebih berguna. Gemini salah, atau bertele-tele tersesat sebelum sampai ke jawaban yang berguna, sehingga tidak layak dipakai. Yang saya butuhkan bukan sesuatu yang lebih cepat. Mungkin sekarang ia sudah lebih “pintar”, yaitu lebih berguna
    • Mungkin jika kepintaran didefinisikan sebagai melakukan lebih banyak hal dengan sumber daya lebih sedikit, ini bisa dilihat sebagai tanda bahwa ada sesuatu dalam ruang laten yang layak diskalakan