Perbandingan pembuatan alt-text gambar dengan memanfaatkan LLM lokal

(dri.es)

3 poin oleh GN⁺ 2025-03-13 | 1 komentar | Bagikan ke WhatsApp

Dari 10.000 foto yang tersimpan di blog, sekitar 9.000 tidak memiliki alt-text
Untuk mengatasinya, diuji 12 LLM (large language model), dengan 10 di antaranya berjalan secara lokal dan 2 lainnya merupakan model berbasis cloud (GPT-4, Claude 3.5 Sonnet)
Menulis alt-text adalah pekerjaan penting untuk meningkatkan aksesibilitas bagi penyandang tunanetra, tetapi cukup membebani jika harus dilakukan secara manual
Tujuannya adalah menguji akurasi model AI dalam menghasilkan alt-text dan melihat apakah model lokal bisa menjadi alternatif yang praktis

Model AI yang diuji

Model lokal (10)
- 9 model dijalankan di MacBook Pro (RAM 32GB)
- 1 model dijalankan di perangkat berspesifikasi tinggi milik seorang teman
Model cloud (2)
- GPT-4o(OpenAI)
- Claude 3.5 Sonnet(Anthropic)

Perbandingan kinerja utama

Model cloud (GPT-4o, Claude 3.5 Sonnet)
- Menghasilkan alt-text yang paling akurat
- Sangat baik dalam deskripsi detail dan juga mampu menangkap suasana gambar
- Nilai evaluasi: A
Model lokal dengan performa terbaik
- Llama 3.2 Vision 11B
  - Pengenalan objek akurat dan pemahaman konteks yang baik
  - Nilai evaluasi: B
- Llama 3.2 Vision 90B
  - Menunjukkan akurasi sedikit lebih tinggi daripada model 11B, tetapi membutuhkan RAM lebih besar untuk dijalankan
  - Nilai evaluasi: B
- MiniCPM-V
  - Menunjukkan performa kuat meskipun modelnya relatif ringan
  - Nilai evaluasi: B
Model dengan performa rendah
- Model awal seperti VIT-GPT2, GIT, dan BLIP cenderung tidak akurat dalam mengenali objek dan menghasilkan frasa yang berulang
- Nilai evaluasi: D~F

Cara model AI menganalisis gambar

Vision Encoding
- Gambar dibagi menjadi patch kecil lalu diubah menjadi data numerik (embedding)
- Menyaring bagian yang perlu diperhatikan (misalnya objek utama) dan menghilangkan elemen yang kurang penting (misalnya latar belakang sederhana)
Language Encoding
- Menghasilkan teks bahasa alami berdasarkan informasi yang diberikan oleh vision encoder
- Teks dihasilkan dalam bentuk penjelasan gambar atau jawaban atas pertanyaan

Gambar uji dan hasil

Penyeberangan Shibuya (Tokyo)
- GPT-4o, Claude: "Penyeberangan Shibuya yang dipenuhi neon dan kerumunan orang" → Nilai A
- LLaVA 13B: "Pemandangan orang-orang menyeberang di Penyeberangan Shibuya" → Nilai A
- Llama 3.2 Vision 11B: "Pemandangan malam Tokyo yang ramai, papan iklan dan kerumunan" → Nilai C
- VIT-GPT2: "Pemandangan malam kota dengan gedung tinggi dan lampu lalu lintas" → Nilai F (tidak akurat)
Museum Isabella Stewart Gardner (Boston)
- Claude: "Ruangan bergaya Victoria, lampu gantung, bingkai berlapis emas" → Nilai B
- Llama 3.2 Vision 11B: "Bingkai berlapis emas dan latar dekoratif" → Nilai A
- BLIP-2 OPT: "Ruangan dengan lukisan dan bingkai yang tergantung di dinding" → Nilai C
- VIT-GPT2: "Ruang tamu dengan lilin dan vas bunga di depan cermin" → Nilai F (tidak akurat)
Wakeboarding (Vermont, Amerika Serikat)
- GPT-4o: "Dua orang di atas perahu sedang mengamati wakeboarder" → Nilai A
- Llama 3.2 Vision 90B: "Dua orang di atas perahu sedang menonton wakeboarding" → Nilai A
- BLIP-2 FLAN: "Seseorang di atas perahu sedang menonton orang berselancar" → Nilai C
- VIT-GPT2: "Dua orang berdiri di atas perahu sambil memegang papan selancar" → Nilai E (tidak akurat)

Hasil evaluasi

Model cloud (GPT-4o, Claude 3.5 Sonnet): Nilai A
- Memberikan deskripsi paling akurat, bahkan menangkap suasananya
Model lokal papan atas (Llama 11B, Llama 90B, MiniCPM-V): Nilai B
- Akurasinya sedikit di bawah model cloud, tetapi tetap layak digunakan secara praktis
Model awal (VIT-GPT2, GIT, BLIP, dll.): Nilai D~F
- Ekspresi berulang, muncul halusinasi (hallucination)

Pertimbangan ke depan

Jika `alt`-text tidak sempurna, apakah tetap lebih baik daripada tidak ada sama sekali?

alt-text dengan kualitas setara B mungkin tetap lebih baik daripada tidak ada sama sekali
Namun, informasi yang tidak akurat (misalnya menambahkan objek yang sebenarnya tidak ada) dapat membingungkan pengguna tunanetra

Opsi langkah berikutnya

Menggabungkan output AI
- Mengombinasikan beberapa model untuk menghasilkan deskripsi yang paling akurat
Menunggu upgrade
- Menggunakan model lokal terbaik saat ini, lalu memperbarui ke model baru dalam 6~12 bulan
Menggunakan model cloud
- Memakai model berbasis cloud demi akurasi, tetapi biaya dan privasi data menjadi masalah
Pendekatan hybrid
- alt-text hasil AI ditinjau dan dilengkapi oleh manusia (secara realistis sulit diterapkan ke 9.000 gambar)

Saat ini, pilihan yang paling masuk akal tampaknya adalah menggunakan model lokal sambil nanti memperbaruinya ke model yang lebih maju

1 komentar

quilt8703 2025-03-14

Saya menambahkan alt-text pada gambar yang saya posting di Twitter dan sebagainya, dan saya pernah berpikir apakah akan lebih memudahkan saya mengunggah postingan jika ini dialihkan ke AI. Saya tidak yakin apakah LLM memang diperlukan, dan rasanya teknologi seperti CLIP saja sudah cukup.

Salah satu alasan saya tidak mengerjakan itu adalah karena pekerjaan seperti itu adalah fitur yang sangat mungkin terpasang pada sisi screen reader, dan saya merasa lebih tepat jika saya menambahkan sedikit saja konteks yang bisa diberikan manusia. Tentu saja, alasan terbesar adalah karena saya malas.