1 poin oleh GN⁺ 2024-11-21 | Belum ada komentar. | Bagikan ke WhatsApp
  • Memahami algoritma BM25

    • BM25 adalah algoritma pencarian teks penuh yang banyak digunakan secara default di Lucene/Elasticsearch dan SQLite.
    • Belakangan ini, menggabungkan pencarian teks penuh dengan pencarian kemiripan vektor untuk menerapkan "pencarian hibrida" sudah menjadi hal yang umum.
    • Pembahasan ini berawal dari pertanyaan apakah skor BM25 dapat dibandingkan antar beberapa kueri.
  • Memberi peringkat dokumen

    • Tujuan dasar algoritma pencarian teks penuh adalah menemukan dokumen yang paling relevan dengan kueri.
    • BM25 memberi peringkat dokumen berdasarkan probabilitas bahwa dokumen tersebut relevan dengan kueri.
  • Komponen BM25

    • Istilah kueri: Untuk kueri yang terdiri dari beberapa istilah, skor terpisah dihitung untuk tiap istilah lalu dijumlahkan.
    • Inverse Document Frequency (IDF): Menghitung kelangkaan istilah pencarian tertentu di seluruh koleksi dokumen.
    • Frekuensi istilah dalam dokumen: Menghitung seberapa sering istilah pencarian muncul dalam dokumen tertentu.
    • Normalisasi panjang dokumen: Menormalkan panjang dokumen dengan membandingkannya dengan dokumen lain.
  • Representasi matematis BM25

    • Algoritma BM25 mungkin tampak rumit secara matematis, tetapi akan mudah dipahami jika tiap komponennya dimengerti.
    • Rumus utamanya dihitung dengan menjumlahkan skor untuk tiap istilah kueri.
  • Keunikan BM25

    • Peringkat berbasis probabilitas tanpa menghitung probabilitas secara langsung: BM25 memberi peringkat dokumen berdasarkan kerangka relevansi probabilistik.
    • Mengasumsikan sebagian besar dokumen tidak relevan: BM25 mengasumsikan bahwa sebagian besar dokumen tidak relevan terhadap kueri, sehingga tetap berguna bahkan tanpa menggunakan informasi relevansi.
  • Kesimpulan

    • Skor BM25 dapat dibandingkan antar kueri dalam koleksi yang sama.
    • BM25 tidak berfokus pada memperkirakan relevansi dokumen, melainkan pada memberi peringkat relevansi terhadap kueri.
    • Skor BM25 dari dokumen yang sama dapat dibandingkan dalam koleksi yang sama.
  • Bacaan tambahan

    • Jika ingin mengetahui lebih jauh teori dan sejarah BM25, direkomendasikan ceramah tahun 2016 oleh engineer Elastic Britta Weber serta "The Probabilistic Relevance Framework: BM25 and Beyond" karya Stephen Robertson dan Hugo Zaragoza.

Belum ada komentar.

Belum ada komentar.