19 poin oleh davespark 2026-01-11 | 1 komentar | Bagikan ke WhatsApp

Apakah pada 2026 Anda masih menganggap "semantic search = embedding + vector DB"?

Klaim inti

Semantic search bukan sekadar soal similarity saja,
melainkan pencarian yang benar-benar baik harus memenuhi tiga hal sekaligus: ① representasi (representation) + ② similarity + ③ kriteria pencocokan (match criteria).

Pencarian vektor berbasis embedding unggul di ① dan ②, tetapi dikritik sangat lemah pada ③ (memasukkan/mengecualikan hasil hanya dalam cakupan yang benar-benar diinginkan pengguna).

Contoh utama:
Kueri: "buah bulat merah yang tumbuh di pohon"
Hasil dari sistem embedding yang bagus (sering muncul di peringkat atas):

  1. apel
  2. jeruk
  3. ⚾️ bola baseball

→ pengguna sama sekali tidak menginginkan bola baseball, tetapi embedding menganggapnya cukup dekat karena "bulat dan merah", lalu tetap memasukkannya
Ini tidak bisa diselesaikan hanya dengan threshold (berbeda untuk tiap domain dan tiap kueri)

Alternatif yang diajukan: taksonomi hierarkis yang dikelola dengan baik (Managed Taxonomies)

Seperti contoh furnitur Wayfair

Baby & Kids  
└─ Toddler & Kids Playroom  
   └─ Indoor Play  
      └─ Rocking Horses  
         └─ Novelty Rocking Horses  

Jika ini diterapkan di atas BM25 dengan tokenizer hierarkis, maka

  • kategori yang lebih spesifik (turunan/child) = df lebih rendah → skor BM25 otomatis lebih tinggi
  • cakupan bisa diatur secara presisi dengan bahasa yang dipahami pengguna (naik ke parent/grandparent membuat cakupannya makin luas)
  • jika klasifikasi diotomatisasi dengan LLM, beban pemeliharaan juga jauh berkurang

Kesimpulan:
Embedding memang kuat, tetapi bukan keharusan.
Dengan kemampuan kategori/klasifikasi yang memang sudah kuat di domain tertentu + bantuan LLM,
kita bisa membangun semantic search yang jauh lebih akurat dan memberikan pengalaman pengguna yang lebih baik dibanding embedding.

Sangat direkomendasikan khususnya bagi yang mengerjakan pencarian spesifik domain seperti e-commerce, medis, hukum, perpustakaan, dan lainnya.

1 komentar

 
kaydash 2026-01-12

Sepertinya hybrid search dan multi-query RAG diperlukan.