RAG untuk Paper PDF, Cukupkah Hanya dengan Teks? - Eksperimen Pencarian Embedding Gemini embedding 002
(brunch.co.kr/@230kimi)Ringkasan hasil eksperimen yang membandingkan embedding teks dan embedding gambar dari PDF paper akademik menggunakan Gemini embedding-2-preview (native multimodal embedding).
∙ Rata-rata cosine similarity teks↔gambar pada halaman yang sama adalah 0.642. Sekitar 36% informasi visual seperti foto SEM, kurva grafik, dan tata letak spasial tidak tercermin dalam embedding teks
∙ Saat pencarian dilakukan dengan 18 kueri teks, indeks gambar (MRR 0.719) lebih unggul daripada indeks teks (0.631). Karena istilah inti cenderung berulang di banyak halaman dalam paper, justru gambar memiliki daya pembeda halaman yang lebih tinggi
∙ Embedding Multi yang menggabungkan teks+gambar (MRR 0.650) lebih rendah daripada gambar saja. Ada efek pengenceran karakteristik dari dua modalitas tersebut
∙ Pencarian cross-modal dalam dokumen yang sama (teks→gambar) gagal dengan Hit@5 0%. Penyebabnya, kemiripan teks antarhalaman lebih tinggi daripada kemiripan teks↔gambar pada halaman yang sama
Pada dokumen yang kaya Figure, indexing gambar lebih menguntungkan, dan muncul kesimpulan bahwa default RAG berupa “ekstrak teks dulu lalu vektorkan” perlu dipertimbangkan ulang.
1 komentar
Bagaimana jika dibandingkan dengan ColPali?