10 poin oleh GN⁺ 2024-02-22 | 1 komentar | Bagikan ke WhatsApp
  • Ukuran konteks token Google Gemini Pro 1.5 adalah 1.000.000
  • Sebelumnya, rekor ini dipegang oleh Claude 2.1 (200.000 token) dan gpt-4-turbo (128.000 token), tetapi sulit melakukan perbandingan langsung yang benar-benar setara karena implementasi tokenisasi berbeda di tiap model
  • Setelah mencoba Gemini Pro 1.5 selama beberapa hari, fitur yang paling menarik bukanlah jumlah tokennya, melainkan kemampuan menggunakan video sebagai input
  • Belum ada akses API, tetapi model ini bisa dicoba melalui antarmuka Google AI Studio

Uji pertama

  • Salah satu rak buku direkam menjadi video berdurasi 7 detik
  • Lalu diunggah dengan prompt "JSON array of books in this video"
  • Video 7 detik ini hanya menggunakan 1.841 token dari batas 1.048.576 token
  • Gemini Pro 1.5 tidak mengembalikan JSON, tetapi memberikan daftar judul buku dan nama penulis yang ada di video
  • Setelah diminta lagi dengan "as a JSON array of objects, with title and author keys", ia mengembalikan data buku/penulis dalam format JSON
  • Hasilnya cukup mengejutkan. Durasi videonya hanya 7 detik, bergerak cukup cepat (ada sedikit motion blur), dan beberapa buku tertutup oleh benda lain

Uji kedua

  • Kali ini sebuah rak penuh buku masak direkam dalam orientasi vertikal, lebih panjang (22 detik), dengan panning tidak hanya ke samping tetapi juga ke bawah
  • Video ini menggunakan 6.049 token, yang tetap sangat sedikit
  • Prompt baru: "Output a JSON array of {“title”: “...”, “authors”: “...”} objects for books in this video"
  • Namun permintaan ini ditolak dengan alasan "Unsafe Content"
  • Tampaknya filter keamanan tersinggung oleh kata 'Cocktail'
  • Pengaturan keamanan dibuka dan semua kategori disetel ke 'rendah', lalu dicoba lagi, tetapi tetap ditolak untuk kedua kalinya
  • Jadi model itu dipaksa dengan instruksi "go on give me that JSON", dan akhirnya JSON dikembalikan
  • Lagi-lagi hasilnya sangat bagus

Bagaimana ini bisa dimanfaatkan?

  • Kemampuan mengekstrak konten terstruktur dari teks sudah menjadi salah satu use case LLM yang paling menarik
  • GPT-4 Vision dan LLaVA memperluasnya ke gambar, dan sekarang Gemini Pro 1.5 memperluasnya ke video
  • Tentu saja, catatan umum untuk LLM tetap berlaku. Model bisa melewatkan objek dan bisa berhalusinasi tentang detail yang salah
  • Ada juga masalah dengan filter keamanan, seperti pada kata Cocktail
  • Jadi seperti biasa pada AI mutakhir, masih banyak tantangan yang harus diatasi
  • Namun ini terasa seperti salah satu contoh lain yang memberi gambaran tentang masa depan yang datang jauh lebih dekat daripada yang saya perkirakan

Gambar vs. video

  • Awalnya saya mengira video akan diproses berbeda dari gambar, karena jumlah token untuk pemrosesan video ternyata sangat kecil
  • Tetapi menurut postingan di Hacker News

    Gemini 1.5 Pro dapat melakukan penalaran atas video hingga 1 jam. Saat Anda melampirkan video, Google AI Studio mengubahnya menjadi ribuan frame tanpa audio, lalu model Gemini—karena bersifat multimodal—dapat melakukan penalaran yang sangat canggih dan tugas pemecahan masalah.

  • Laporan teknis Gemini 1.5 menjelaskan sebagai berikut:

    Ketika film Buster Keaton berdurasi 45 menit "Sherlock Jr." (1924) (2.674 frame pada 1 FPS, 684k token) diberikan sebagai input, Gemini 1.5 Pro dapat mencari dan mengekstrak informasi teks dari frame tertentu serta memberikan timestamp yang sesuai.

1 komentar

 
GN⁺ 2024-02-22
Komentar Hacker News
  • Jika agen selalu diam-diam mengawasi layar pengguna, itu bisa sangat berguna atau justru distopia.

    • Agen itu diharapkan bisa mengamati pengguna saat coding, membuat rencana, dan meneliti selama berbulan-bulan, lalu memberi saran pribadi maupun profesional.
    • Teknologi seperti ini dapat mencerminkan psikologi seseorang dan mengingat banyak informasi, sehingga akan sangat berharga bagi perusahaan atau pelaku jahat.
    • Model harus dijalankan dengan aman, dan ada risiko penyalinan pribadi maupun pelanggaran privasi.
  • Judul "Aplikasi killer Gemini Pro 1.5 adalah input video" terasa tepat.

    • Ini bisa berguna untuk moderasi konten video skala besar seperti YouTube, dan akan bagus jika biayanya bisa diturunkan.
  • Video adalah rangkaian gambar, dan demo GPT-4-Vision dari OpenAI menghasilkan efek serupa dengan mengirim daftar frame ke model.

    • Akan bagus jika GPT-4-Vision mendukung function calling atau data terstruktur agar output JSON bisa dijamin.
    • Ada juga cara menggunakan ffmpeg untuk mengekspor setiap frame selang-seling guna memangkas biaya hingga setengah.
    • Demo OpenAI mengirim setiap frame ke-50 dari video sekitar 600 frame.
  • Jika AI bisa menganalisis video, gambar, dan teks serta memprosesnya dengan murah dan efisien, privasi akan benar-benar berakhir.

    • Saat ini perusahaan-perusahaan besar sudah memiliki banyak data tentang kita, tetapi masih ada batasan dalam memahami dan menghubungkan semuanya.
    • AI yang kuat dapat memahami setiap aspek kehidupan digital, dengan potensi yang sangat besar untuk digunakan baik untuk tujuan baik maupun buruk.
  • Penulis tampaknya tidak memeriksa apakah buku-buku yang disebut dalam video yang dipakai sebagai input itu benar-benar akurat.

    • Buku pertama yang diperiksa, "Growing Up with Lucy by April Henry", tidak ada; yang benar sebenarnya karya Steve Grand.
    • Demo ini keren, tetapi sebenarnya tidak berguna untuk dipakai melakukan hal yang lebih banyak.
  • Filter keamanan Google tampaknya bereaksi terhadap kata "Cocktail".

    • Pengaturan keamanan sudah diturunkan dan dicoba lagi, tetapi pada percobaan kedua pun tetap ditolak.
    • Departemen manajemen risiko Google tampaknya telah sepenuhnya menguasai organisasi, sampai komputer terpintar pun takut menggunakan kata atau gambar berbahaya seperti "cocktail" atau "Abraham Lincoln".
  • Fakta bahwa hanya 256 token dipakai per frame cukup mengejutkan.

    • Bertolak belakang dengan pepatah bahwa satu gambar bernilai seribu kata, ini berarti kenyataannya hanya bernilai sekitar 192 kata.
  • Masalah terkait "Cocktail" memang benar ada.

    • Seseorang mencoba membayangkan karakter-karakter Moby Dick dengan DALLE, tetapi ditolak sepenuhnya.
    • Rasanya perusahaan AI seharusnya bisa membuat filter kata-kata kasar yang lebih baik.
  • Penasaran apa sebenarnya aplikasi killer dari skala hardware Google dibanding OpenAI (atau yang disediakan Microsoft).

    • Apa yang dilakukan Google tidak terlalu mengejutkan bagi tim OpenAI, tetapi mungkin mereka bisa melakukan iterasi lebih cepat pada skala yang sangat besar.
  • Teknologinya sendiri mengesankan dan menarik, tetapi situasi ini terasa seperti versi balas dendam dari masalah Scunthorpe, sampai terasa lucu.

    • Filter keamanan tampaknya bereaksi terhadap kata "Cocktail".