RAG untuk Paper PDF, Cukupkah Hanya dengan Teks? - Eksperimen Pencarian Embedding Gemini embedding 002

(brunch.co.kr/@230kimi)

5 poin oleh 230kimi 2026-03-31 | 2 komentar | Bagikan ke WhatsApp

Ringkasan hasil eksperimen yang membandingkan embedding teks dan embedding gambar dari PDF paper akademik menggunakan Gemini embedding-2-preview (native multimodal embedding).

∙	Rata-rata cosine similarity teks↔gambar pada halaman yang sama adalah 0.642. Sekitar 36% informasi visual seperti foto SEM, kurva grafik, dan tata letak spasial tidak tercermin dalam embedding teks  
∙	Saat pencarian dilakukan dengan 18 kueri teks, indeks gambar (MRR 0.719) lebih unggul daripada indeks teks (0.631). Karena istilah inti cenderung berulang di banyak halaman dalam paper, justru gambar memiliki daya pembeda halaman yang lebih tinggi  
∙	Embedding Multi yang menggabungkan teks+gambar (MRR 0.650) lebih rendah daripada gambar saja. Ada efek pengenceran karakteristik dari dua modalitas tersebut  
∙	Pencarian cross-modal dalam dokumen yang sama (teks→gambar) gagal dengan Hit@5 0%. Penyebabnya, kemiripan teks antarhalaman lebih tinggi daripada kemiripan teks↔gambar pada halaman yang sama

Pada dokumen yang kaya Figure, indexing gambar lebih menguntungkan, dan muncul kesimpulan bahwa default RAG berupa “ekstrak teks dulu lalu vektorkan” perlu dipertimbangkan ulang.

2 komentar

mammal 2026-03-31

Bagaimana jika dibandingkan dengan ColPali?

230kimi 2026-03-31

Untuk bahasa Inggris, sepertinya colpali memang jelas lebih bagus. Namun, untuk bahasa Korea atau bahasa non-Inggris, akurasinya turun cukup drastis, sedih sekali.

RAG untuk Paper PDF, Cukupkah Hanya dengan Teks? - Eksperimen Pencarian Embedding Gemini embedding 002

Bacaan terkait

2 komentar