8 poin oleh xguru 2024-05-20 | Belum ada komentar. | Bagikan ke WhatsApp
  • PaliGemma adalah model multimodal yang menunjukkan performa unggul pada tugas seperti deteksi dan segmentasi objek, berbeda dari VLM (vision-language model) lainnya
  • Dapat di-fine-tune untuk meningkatkan performa pada tugas tertentu
  • Diumumkan pada acara Google I/O 2024. Menggabungkan model visi bernama SigLIP dan model bahasa besar bernama Gemma.
  • Terdiri dari transformer decoder dan vision transformer image encoder, menerima gambar dan teks sebagai input lalu menghasilkan teks, serta mendukung banyak bahasa
  • Model ini relatif kecil dengan 3 miliar parameter gabungan, diizinkan untuk penggunaan komersial, dan dapat di-fine-tune untuk tugas seperti caption gambar/video pendek, tanya jawab visual, pembacaan teks, deteksi objek, dan segmentasi objek
  • Merupakan VLM single-turn, dan bekerja paling baik saat di-fine-tune sesuai kasus penggunaan tertentu
    • Cocok untuk tugas seperti pembuatan caption gambar, pembuatan caption video, tanya jawab visual, dan segmentasi detail
    • Menunjukkan performa unggul pada beragam tugas computer vision seperti OCR, pemahaman dokumen, visual question answering (VQA), dan deteksi objek
  • Berguna untuk membangun aplikasi kustom yang sulit diwujudkan dengan model tertutup, dan juga menunjukkan performa serta efisiensi biaya kelas atas di bidang OCR
  • Namun, karena keterbatasan VLM, model ini kurang cocok untuk masalah terbuka yang kompleks dan bernuansa yang membutuhkan penalaran mendalam, serta sensitif terhadap prompt sehingga perlu kehati-hatian dalam penggunaannya
  • Rilis PaliGemma diharapkan akan mendorong kemajuan besar dalam AI multimodal. Sebagai model terbuka yang ringan, siapa pun dapat melatih model vision-language besar mereka sendiri secara kustom dan mendistribusikannya untuk tujuan komersial
  • LMM sebelumnya sangat mahal dan memerlukan kemampuan komputasi besar, tetapi PaliGemma mengatasi keterbatasan ini dan menjadi model revolusioner untuk membuat aplikasi AI kustom

Belum ada komentar.

Belum ada komentar.