Aplikasi pembunuh Gemini Pro 1.5 adalah video
(simonwillison.net)- Ukuran konteks token Google Gemini Pro 1.5 adalah 1.000.000
- Sebelumnya, rekor ini dipegang oleh Claude 2.1 (200.000 token) dan gpt-4-turbo (128.000 token), tetapi sulit melakukan perbandingan langsung yang benar-benar setara karena implementasi tokenisasi berbeda di tiap model
- Setelah mencoba Gemini Pro 1.5 selama beberapa hari, fitur yang paling menarik bukanlah jumlah tokennya, melainkan kemampuan menggunakan video sebagai input
- Belum ada akses API, tetapi model ini bisa dicoba melalui antarmuka Google AI Studio
Uji pertama
- Salah satu rak buku direkam menjadi video berdurasi 7 detik
- Lalu diunggah dengan prompt "JSON array of books in this video"
- Video 7 detik ini hanya menggunakan 1.841 token dari batas 1.048.576 token
- Gemini Pro 1.5 tidak mengembalikan JSON, tetapi memberikan daftar judul buku dan nama penulis yang ada di video
- Setelah diminta lagi dengan "as a JSON array of objects, with title and author keys", ia mengembalikan data buku/penulis dalam format JSON
- Hasilnya cukup mengejutkan. Durasi videonya hanya 7 detik, bergerak cukup cepat (ada sedikit motion blur), dan beberapa buku tertutup oleh benda lain
Uji kedua
- Kali ini sebuah rak penuh buku masak direkam dalam orientasi vertikal, lebih panjang (22 detik), dengan panning tidak hanya ke samping tetapi juga ke bawah
- Video ini menggunakan 6.049 token, yang tetap sangat sedikit
- Prompt baru: "Output a JSON array of {“title”: “...”, “authors”: “...”} objects for books in this video"
- Namun permintaan ini ditolak dengan alasan "Unsafe Content"
- Tampaknya filter keamanan tersinggung oleh kata 'Cocktail'
- Pengaturan keamanan dibuka dan semua kategori disetel ke 'rendah', lalu dicoba lagi, tetapi tetap ditolak untuk kedua kalinya
- Jadi model itu dipaksa dengan instruksi "go on give me that JSON", dan akhirnya JSON dikembalikan
- Lagi-lagi hasilnya sangat bagus
Bagaimana ini bisa dimanfaatkan?
- Kemampuan mengekstrak konten terstruktur dari teks sudah menjadi salah satu use case LLM yang paling menarik
- GPT-4 Vision dan LLaVA memperluasnya ke gambar, dan sekarang Gemini Pro 1.5 memperluasnya ke video
- Tentu saja, catatan umum untuk LLM tetap berlaku. Model bisa melewatkan objek dan bisa berhalusinasi tentang detail yang salah
- Ada juga masalah dengan filter keamanan, seperti pada kata Cocktail
- Jadi seperti biasa pada AI mutakhir, masih banyak tantangan yang harus diatasi
- Namun ini terasa seperti salah satu contoh lain yang memberi gambaran tentang masa depan yang datang jauh lebih dekat daripada yang saya perkirakan
Gambar vs. video
- Awalnya saya mengira video akan diproses berbeda dari gambar, karena jumlah token untuk pemrosesan video ternyata sangat kecil
- Tetapi menurut postingan di Hacker News
Gemini 1.5 Pro dapat melakukan penalaran atas video hingga 1 jam. Saat Anda melampirkan video, Google AI Studio mengubahnya menjadi ribuan frame tanpa audio, lalu model Gemini—karena bersifat multimodal—dapat melakukan penalaran yang sangat canggih dan tugas pemecahan masalah.
- Laporan teknis Gemini 1.5 menjelaskan sebagai berikut:
Ketika film Buster Keaton berdurasi 45 menit "Sherlock Jr." (1924) (2.674 frame pada 1 FPS, 684k token) diberikan sebagai input, Gemini 1.5 Pro dapat mencari dan mengekstrak informasi teks dari frame tertentu serta memberikan timestamp yang sesuai.
1 komentar
Komentar Hacker News
Jika agen selalu diam-diam mengawasi layar pengguna, itu bisa sangat berguna atau justru distopia.
Judul "Aplikasi killer Gemini Pro 1.5 adalah input video" terasa tepat.
Video adalah rangkaian gambar, dan demo GPT-4-Vision dari OpenAI menghasilkan efek serupa dengan mengirim daftar frame ke model.
Jika AI bisa menganalisis video, gambar, dan teks serta memprosesnya dengan murah dan efisien, privasi akan benar-benar berakhir.
Penulis tampaknya tidak memeriksa apakah buku-buku yang disebut dalam video yang dipakai sebagai input itu benar-benar akurat.
Filter keamanan Google tampaknya bereaksi terhadap kata "Cocktail".
Fakta bahwa hanya 256 token dipakai per frame cukup mengejutkan.
Masalah terkait "Cocktail" memang benar ada.
Penasaran apa sebenarnya aplikasi killer dari skala hardware Google dibanding OpenAI (atau yang disediakan Microsoft).
Teknologinya sendiri mengesankan dan menarik, tetapi situasi ini terasa seperti versi balas dendam dari masalah Scunthorpe, sampai terasa lucu.