- PaliGemma adalah model multimodal yang menunjukkan performa unggul pada tugas seperti deteksi dan segmentasi objek, berbeda dari VLM (vision-language model) lainnya
- Dapat di-fine-tune untuk meningkatkan performa pada tugas tertentu
- Diumumkan pada acara Google I/O 2024. Menggabungkan model visi bernama SigLIP dan model bahasa besar bernama Gemma.
- Terdiri dari transformer decoder dan vision transformer image encoder, menerima gambar dan teks sebagai input lalu menghasilkan teks, serta mendukung banyak bahasa
- Model ini relatif kecil dengan 3 miliar parameter gabungan, diizinkan untuk penggunaan komersial, dan dapat di-fine-tune untuk tugas seperti caption gambar/video pendek, tanya jawab visual, pembacaan teks, deteksi objek, dan segmentasi objek
- Merupakan VLM single-turn, dan bekerja paling baik saat di-fine-tune sesuai kasus penggunaan tertentu
- Cocok untuk tugas seperti pembuatan caption gambar, pembuatan caption video, tanya jawab visual, dan segmentasi detail
- Menunjukkan performa unggul pada beragam tugas computer vision seperti OCR, pemahaman dokumen, visual question answering (VQA), dan deteksi objek
- Berguna untuk membangun aplikasi kustom yang sulit diwujudkan dengan model tertutup, dan juga menunjukkan performa serta efisiensi biaya kelas atas di bidang OCR
- Namun, karena keterbatasan VLM, model ini kurang cocok untuk masalah terbuka yang kompleks dan bernuansa yang membutuhkan penalaran mendalam, serta sensitif terhadap prompt sehingga perlu kehati-hatian dalam penggunaannya
- Rilis PaliGemma diharapkan akan mendorong kemajuan besar dalam AI multimodal. Sebagai model terbuka yang ringan, siapa pun dapat melatih model vision-language besar mereka sendiri secara kustom dan mendistribusikannya untuk tujuan komersial
- LMM sebelumnya sangat mahal dan memerlukan kemampuan komputasi besar, tetapi PaliGemma mengatasi keterbatasan ini dan menjadi model revolusioner untuk membuat aplikasi AI kustom
Belum ada komentar.