30 poin oleh xguru 2021-04-05 | 1 komentar | Bagikan ke WhatsApp

Artikel yang menjelaskan dasar-dasar mesin pencari langkah demi langkah menggunakan seluruh data judul + ringkasan Wikipedia bahasa Inggris, tanpa teknik yang istimewa

  1. Menyiapkan data dengan membuat objek Abstract

  2. Membuat indeks: tokenisasi dan pemfilteran

→ huruf kecil

→ stemming

→ mengecualikan 25 kata yang paling sering digunakan dalam bahasa Inggris (the, be, to, of, a..)

  1. Membuat pencarian dasar

  2. Menambahkan fitur relevansi: Term Frequency (seberapa sering kata tersebut digunakan dalam ringkasan)

  3. Menambahkan Inverse Document Frequency: jumlah dokumen lain yang terhubung ke dokumen ini

Kode: https://github.com/bartdegoede/python-searchengine

1 komentar

 
xguru 2021-04-05

Pencarian fuzzy string yang juga mendukung pencarian konsonan awal Hangul https://id.news.hada.io/topic?id=3631

Tulisan ini sama sekali berbeda dari sisi dasar teknis maupun implementasinya, tetapi karena menjelaskan bagian-bagian dasarnya secara rinci langkah demi langkah, saya membacanya dengan cukup menarik.

Ada beberapa library Python yang mengimplementasikan fitur terkait seperti pencarian full-text/pemodelan topik/pengindeksan dokumen/kemiripan dengan lebih serius.

SQLite memiliki ekstensi Full-Text-Search tersendiri.