Metode evaluasi untuk membuat algoritma pencarian yang lebih cerdas
(shopify.engineering)- Saat Shopify mengganti algoritma yang digunakan untuk pencarian produk, mereka mengevaluasi apakah hasil pencarian benar-benar membaik
→ Vanilla PageRank lama: menghitung peringkat berdasarkan PV yang berasal dari pencarian
→ Query-specific PageRank baru: menghitung bobot berdasarkan riwayat klik untuk kata kunci pencarian
- Evaluasi dalam 3 tahap
-
Pengumpulan data: event Kafka dan dataset beranotasi
-
Evaluasi metrik offline: mengevaluasi algoritma baru menggunakan kueri pencarian yang sudah ada
→ Mean Average Precision (MAP): memberi penalti jika dokumen yang tidak relevan masuk ke dalam N hasil teratas yang dikembalikan oleh kueri
→ Normalized Discounted Cumulative Gain (NDCG): menghitung skor cutoff untuk perhitungan MAP, dan memberi penalti jika item dengan skor baik (Great/Good) muncul di urutan yang lebih rendah
- Evaluasi metrik online: mengevaluasi bagaimana pencarian benar-benar bekerja dengan menggunakan log pencarian
→ Metrik penentu keberhasilan: seberapa sering pengguna melakukan pencarian, seberapa jauh mereka menggulir untuk menemukan hasil yang diinginkan, apakah mereka menghubungi tim dukungan untuk menyelesaikan masalah, dan sebagainya
→ Click-through rate (CTR): rasio klik hasil pencarian. Semakin tinggi semakin baik
→ Average rank: peringkat rata-rata dari hasil yang diklik. Semakin rendah semakin baik
→ Abandonment: tingkat pengguna menyerah karena tidak menemukan hasil yang diinginkan; tentu ada pengaruh bot/spam dan sebagainya, tetapi secara umum lebih baik jika cukup rendah
→ Dikumpulkan menggunakan Kafka
→ Melakukan A/B test dengan metode lama
-
Hasilnya, algoritma pencarian baru melampaui metode lama sehingga akhirnya menggantikannya
-
Poin kunci
→ Dataset berlabel berkualitas tinggi dan dapat dipercaya adalah inti dari evaluasi
→ Metrik online memberikan insight yang sangat baik tentang perilaku pengguna
→ Metrik offline membantu menguji algoritma baru secara iteratif dengan cepat dan mengurangi risiko
Belum ada komentar.