Memahami Algoritma Pencarian Teks Penuh BM25
(emschwartz.me)-
Memahami algoritma BM25
- BM25 adalah algoritma pencarian teks penuh yang banyak digunakan secara default di Lucene/Elasticsearch dan SQLite.
- Belakangan ini, menggabungkan pencarian teks penuh dengan pencarian kemiripan vektor untuk menerapkan "pencarian hibrida" sudah menjadi hal yang umum.
- Pembahasan ini berawal dari pertanyaan apakah skor BM25 dapat dibandingkan antar beberapa kueri.
-
Memberi peringkat dokumen
- Tujuan dasar algoritma pencarian teks penuh adalah menemukan dokumen yang paling relevan dengan kueri.
- BM25 memberi peringkat dokumen berdasarkan probabilitas bahwa dokumen tersebut relevan dengan kueri.
-
Komponen BM25
- Istilah kueri: Untuk kueri yang terdiri dari beberapa istilah, skor terpisah dihitung untuk tiap istilah lalu dijumlahkan.
- Inverse Document Frequency (IDF): Menghitung kelangkaan istilah pencarian tertentu di seluruh koleksi dokumen.
- Frekuensi istilah dalam dokumen: Menghitung seberapa sering istilah pencarian muncul dalam dokumen tertentu.
- Normalisasi panjang dokumen: Menormalkan panjang dokumen dengan membandingkannya dengan dokumen lain.
-
Representasi matematis BM25
- Algoritma BM25 mungkin tampak rumit secara matematis, tetapi akan mudah dipahami jika tiap komponennya dimengerti.
- Rumus utamanya dihitung dengan menjumlahkan skor untuk tiap istilah kueri.
-
Keunikan BM25
- Peringkat berbasis probabilitas tanpa menghitung probabilitas secara langsung: BM25 memberi peringkat dokumen berdasarkan kerangka relevansi probabilistik.
- Mengasumsikan sebagian besar dokumen tidak relevan: BM25 mengasumsikan bahwa sebagian besar dokumen tidak relevan terhadap kueri, sehingga tetap berguna bahkan tanpa menggunakan informasi relevansi.
-
Kesimpulan
- Skor BM25 dapat dibandingkan antar kueri dalam koleksi yang sama.
- BM25 tidak berfokus pada memperkirakan relevansi dokumen, melainkan pada memberi peringkat relevansi terhadap kueri.
- Skor BM25 dari dokumen yang sama dapat dibandingkan dalam koleksi yang sama.
-
Bacaan tambahan
- Jika ingin mengetahui lebih jauh teori dan sejarah BM25, direkomendasikan ceramah tahun 2016 oleh engineer Elastic Britta Weber serta "The Probabilistic Relevance Framework: BM25 and Beyond" karya Stephen Robertson dan Hugo Zaragoza.
Belum ada komentar.