2 poin oleh GN⁺ 2024-12-12 | 1 komentar | Bagikan ke WhatsApp
  • Gemini 1.0 menghadirkan terobosan sebagai model multimodal yang dapat memproses informasi di berbagai bentuk seperti teks, video, gambar, audio, dan kode
  • Gemini 2.0 mendorong visi ini lebih jauh dengan berevolusi menjadi model agentic yang mampu memahami dunia, merencanakan beberapa langkah, dan menjalankan tugas
  • Gemini 2.0 akan diintegrasikan ke produk-produk utama seperti Google Search, memberikan kemampuan untuk menangani topik yang lebih kompleks dan pertanyaan multi-langkah

Fitur utama Gemini 2.0 Flash

  • Berdasarkan kesuksesan 1.5 Flash, menawarkan performa yang lebih baik dan waktu respons yang lebih cepat
  • Dua kali lebih cepat daripada 1.5 Pro serta menunjukkan performa yang lebih unggul pada benchmark utama
  • Mendukung input multimodal seperti gambar, video, dan audio, serta pembuatan gambar yang dipadukan dengan teks dan sintesis suara multibahasa
  • Dapat memanggil tool secara native seperti Google Search, eksekusi kode, dan fungsi kustom
  • Akan dirilis lebih dulu untuk developer dan tester tepercaya, lalu tersedia lebih luas pada awal tahun depan

Pengenalan proyek riset

  • Project Astra: asisten AI serbaguna dengan kemampuan memori yang ditingkatkan
    • Peningkatan pada fitur seperti percakapan multibahasa, pemanfaatan Google Search/Lens/Maps, dan memori sesi sekitar 10 menit
    • Terus dikembangkan sambil mengumpulkan umpan balik dari tester tepercaya melalui perangkat Android
  • Project Mariner: prototipe riset yang dapat berinteraksi dengan browser dan membantu tugas kompleks
    • Mencapai hasil tinggi 83.5% pada benchmark WebVoyager
    • Dilengkapi langkah pengamanan yang meminta konfirmasi sebelum pengguna menyetujui tindakan akhir
  • Jules: agen coding berbasis AI yang terintegrasi ke workflow GitHub
    • Membantu developer menyelesaikan issue dan menjalankan rencana

Bidang penerapan agen AI

  • Bekerja sama dengan pengembang game Supercell untuk mengeksplorasi pemanfaatan agen AI di dalam game
  • Sedang melakukan eksperimen untuk menerapkan kemampuan penalaran spasial Gemini 2.0 di bidang robotika

Keamanan dan pengembangan yang bertanggung jawab

  • Mengadopsi pendekatan bertahap dan eksploratif dalam pengembangan teknologi baru
  • Secara otomatis menghasilkan deteksi risiko dan langkah mitigasi melalui pendekatan red team berbantuan AI
  • Pada Project Mariner, diterapkan fitur yang melindungi pengguna dari upaya prompt injection yang berbahaya
  • Menyediakan kontrol perlindungan privasi pengguna dan fitur penghapusan sesi

Rencana ke depan

  • Akan memperluas kemampuan Gemini 2.0 ke aplikasi Gemini dan produk Google lainnya
  • Dalam proses menuju AGI, keselamatan dan tanggung jawab akan tetap menjadi prioritas utama

1 komentar

 
GN⁺ 2024-12-12
Komentar Hacker News
  • Plugin llm-gemini yang baru mendukung model Gemini 2.0 Flash. Dibagikan cara menggunakannya dari terminal

    • Model Gemini memiliki kemampuan menulis dan menjalankan kode Python
    • Panggilan jaringan tidak dimungkinkan, tetapi berbagai pendekatan telah dicoba
    • Menunjukkan performa yang sangat baik dalam penjelasan visual
  • Perusahaan besar lambat berbelok arah, tetapi begitu sudah menentukan arah, mereka bisa mencapai hal-hal yang tidak bisa dilakukan perusahaan kecil

    • Google memiliki banyak talenta di bidang ini dan mendapatkan hasil yang baik
    • Kemampuan untuk memproductisasi dan memasarkan model LLM masih belum pasti, tetapi performanya sangat baik
  • Melampaui Gemini 1.5 Pro di sebagian besar benchmark

    • Google DeepMind sedang beradaptasi dengan era LLM
    • Mengendalikan hardware secara langsung melalui TPU
  • SDK baru telah diumumkan. Tampaknya mengikuti praktik terbaik modern

    • Selama ini telah menyediakan endpoint yang kompatibel dengan OpenAI, tetapi belum jelas apakah akan didukung dalam jangka panjang
    • Merekomendasikan pengaturan klaster Kubernetes dan bucket GCP
  • Senang karena rilis baru Google langsung bisa digunakan

    • Gemini Flash 2.0 mengungguli Gemini Pro 1.5 pada soal Advent of Code
    • Flash 2.0 memperbaiki error kompilasi
  • Kata "agentic" terasa mengganggu

    • Kata seperti "versatile", "multifaceted", "autonomous" terasa lebih tepat
  • Model Gemini 2 mendukung kemampuan generasi audio dan gambar

    • Generasi gambar dijadwalkan tersedia secara umum pada bulan Januari
    • Tugas computer vision akan menjadi mungkin melalui LLM
  • Gemini 2 mengungguli 4o di Chatbot Arena

  • Menganggap kata "agentic" tidak tepat

    • Sebagian besar hanyalah pipeline yang terdiri dari system prompt dan tools
  • Mengakses Gemini 2.0 Flash melalui Google AI Studio di browser Safari pada iPhone

    • Mengidentifikasi dengan akurat apa yang terlihat melalui kamera
    • Dapat membaca teks bahasa Inggris dan Jepang
    • Mengenali nada piano secara visual, tetapi tidak bisa hanya dari suara