Aplikasi pembunuh Gemini Pro 1.5 adalah video

(simonwillison.net)

10 poin oleh GN⁺ 2024-02-22 | 1 komentar | Bagikan ke WhatsApp

Ukuran konteks token Google Gemini Pro 1.5 adalah 1.000.000
Sebelumnya, rekor ini dipegang oleh Claude 2.1 (200.000 token) dan gpt-4-turbo (128.000 token), tetapi sulit melakukan perbandingan langsung yang benar-benar setara karena implementasi tokenisasi berbeda di tiap model
Setelah mencoba Gemini Pro 1.5 selama beberapa hari, fitur yang paling menarik bukanlah jumlah tokennya, melainkan kemampuan menggunakan video sebagai input
Belum ada akses API, tetapi model ini bisa dicoba melalui antarmuka Google AI Studio

Uji pertama

Salah satu rak buku direkam menjadi video berdurasi 7 detik
Lalu diunggah dengan prompt "JSON array of books in this video"
Video 7 detik ini hanya menggunakan 1.841 token dari batas 1.048.576 token
Gemini Pro 1.5 tidak mengembalikan JSON, tetapi memberikan daftar judul buku dan nama penulis yang ada di video
Setelah diminta lagi dengan "as a JSON array of objects, with title and author keys", ia mengembalikan data buku/penulis dalam format JSON
Hasilnya cukup mengejutkan. Durasi videonya hanya 7 detik, bergerak cukup cepat (ada sedikit motion blur), dan beberapa buku tertutup oleh benda lain

Uji kedua

Kali ini sebuah rak penuh buku masak direkam dalam orientasi vertikal, lebih panjang (22 detik), dengan panning tidak hanya ke samping tetapi juga ke bawah
Video ini menggunakan 6.049 token, yang tetap sangat sedikit
Prompt baru: "Output a JSON array of {“title”: “...”, “authors”: “...”} objects for books in this video"
Namun permintaan ini ditolak dengan alasan "Unsafe Content"
Tampaknya filter keamanan tersinggung oleh kata 'Cocktail'
Pengaturan keamanan dibuka dan semua kategori disetel ke 'rendah', lalu dicoba lagi, tetapi tetap ditolak untuk kedua kalinya
Jadi model itu dipaksa dengan instruksi "go on give me that JSON", dan akhirnya JSON dikembalikan
Lagi-lagi hasilnya sangat bagus

Bagaimana ini bisa dimanfaatkan?

Kemampuan mengekstrak konten terstruktur dari teks sudah menjadi salah satu use case LLM yang paling menarik
GPT-4 Vision dan LLaVA memperluasnya ke gambar, dan sekarang Gemini Pro 1.5 memperluasnya ke video
Tentu saja, catatan umum untuk LLM tetap berlaku. Model bisa melewatkan objek dan bisa berhalusinasi tentang detail yang salah
Ada juga masalah dengan filter keamanan, seperti pada kata Cocktail
Jadi seperti biasa pada AI mutakhir, masih banyak tantangan yang harus diatasi
Namun ini terasa seperti salah satu contoh lain yang memberi gambaran tentang masa depan yang datang jauh lebih dekat daripada yang saya perkirakan

Gambar vs. video

Awalnya saya mengira video akan diproses berbeda dari gambar, karena jumlah token untuk pemrosesan video ternyata sangat kecil
Tetapi menurut postingan di Hacker News

Gemini 1.5 Pro dapat melakukan penalaran atas video hingga 1 jam. Saat Anda melampirkan video, Google AI Studio mengubahnya menjadi ribuan frame tanpa audio, lalu model Gemini—karena bersifat multimodal—dapat melakukan penalaran yang sangat canggih dan tugas pemecahan masalah.
Laporan teknis Gemini 1.5 menjelaskan sebagai berikut:

Ketika film Buster Keaton berdurasi 45 menit "Sherlock Jr." (1924) (2.674 frame pada 1 FPS, 684k token) diberikan sebagai input, Gemini 1.5 Pro dapat mencari dan mengekstrak informasi teks dari frame tertentu serta memberikan timestamp yang sesuai.

1 komentar

GN⁺ 2024-02-22

Komentar Hacker News

Jika agen selalu diam-diam mengawasi layar pengguna, itu bisa sangat berguna atau justru distopia.
- Agen itu diharapkan bisa mengamati pengguna saat coding, membuat rencana, dan meneliti selama berbulan-bulan, lalu memberi saran pribadi maupun profesional.
- Teknologi seperti ini dapat mencerminkan psikologi seseorang dan mengingat banyak informasi, sehingga akan sangat berharga bagi perusahaan atau pelaku jahat.
- Model harus dijalankan dengan aman, dan ada risiko penyalinan pribadi maupun pelanggaran privasi.
Judul "Aplikasi killer Gemini Pro 1.5 adalah input video" terasa tepat.
- Ini bisa berguna untuk moderasi konten video skala besar seperti YouTube, dan akan bagus jika biayanya bisa diturunkan.
Video adalah rangkaian gambar, dan demo GPT-4-Vision dari OpenAI menghasilkan efek serupa dengan mengirim daftar frame ke model.
- Akan bagus jika GPT-4-Vision mendukung function calling atau data terstruktur agar output JSON bisa dijamin.
- Ada juga cara menggunakan ffmpeg untuk mengekspor setiap frame selang-seling guna memangkas biaya hingga setengah.
- Demo OpenAI mengirim setiap frame ke-50 dari video sekitar 600 frame.
Jika AI bisa menganalisis video, gambar, dan teks serta memprosesnya dengan murah dan efisien, privasi akan benar-benar berakhir.
- Saat ini perusahaan-perusahaan besar sudah memiliki banyak data tentang kita, tetapi masih ada batasan dalam memahami dan menghubungkan semuanya.
- AI yang kuat dapat memahami setiap aspek kehidupan digital, dengan potensi yang sangat besar untuk digunakan baik untuk tujuan baik maupun buruk.
Penulis tampaknya tidak memeriksa apakah buku-buku yang disebut dalam video yang dipakai sebagai input itu benar-benar akurat.
- Buku pertama yang diperiksa, "Growing Up with Lucy by April Henry", tidak ada; yang benar sebenarnya karya Steve Grand.
- Demo ini keren, tetapi sebenarnya tidak berguna untuk dipakai melakukan hal yang lebih banyak.
Filter keamanan Google tampaknya bereaksi terhadap kata "Cocktail".
- Pengaturan keamanan sudah diturunkan dan dicoba lagi, tetapi pada percobaan kedua pun tetap ditolak.
- Departemen manajemen risiko Google tampaknya telah sepenuhnya menguasai organisasi, sampai komputer terpintar pun takut menggunakan kata atau gambar berbahaya seperti "cocktail" atau "Abraham Lincoln".
Fakta bahwa hanya 256 token dipakai per frame cukup mengejutkan.
- Bertolak belakang dengan pepatah bahwa satu gambar bernilai seribu kata, ini berarti kenyataannya hanya bernilai sekitar 192 kata.
Masalah terkait "Cocktail" memang benar ada.
- Seseorang mencoba membayangkan karakter-karakter Moby Dick dengan DALLE, tetapi ditolak sepenuhnya.
- Rasanya perusahaan AI seharusnya bisa membuat filter kata-kata kasar yang lebih baik.
Penasaran apa sebenarnya aplikasi killer dari skala hardware Google dibanding OpenAI (atau yang disediakan Microsoft).
- Apa yang dilakukan Google tidak terlalu mengejutkan bagi tim OpenAI, tetapi mungkin mereka bisa melakukan iterasi lebih cepat pada skala yang sangat besar.
Teknologinya sendiri mengesankan dan menarik, tetapi situasi ini terasa seperti versi balas dendam dari masalah Scunthorpe, sampai terasa lucu.
- Filter keamanan tampaknya bereaksi terhadap kata "Cocktail".

Aplikasi pembunuh Gemini Pro 1.5 adalah video

Uji pertama

Uji kedua

Bagaimana ini bisa dimanfaatkan?

Gambar vs. video

Bacaan terkait

1 komentar

Komentar Hacker News