Pencarian Semantik Tanpa Embedding (Semantic Search Without Embeddings)
(softwaredoug.com)Apakah pada 2026 Anda masih menganggap "semantic search = embedding + vector DB"?
Klaim inti
Semantic search bukan sekadar soal similarity saja,
melainkan pencarian yang benar-benar baik harus memenuhi tiga hal sekaligus: ① representasi (representation) + ② similarity + ③ kriteria pencocokan (match criteria).
Pencarian vektor berbasis embedding unggul di ① dan ②, tetapi dikritik sangat lemah pada ③ (memasukkan/mengecualikan hasil hanya dalam cakupan yang benar-benar diinginkan pengguna).
Contoh utama:
Kueri: "buah bulat merah yang tumbuh di pohon"
Hasil dari sistem embedding yang bagus (sering muncul di peringkat atas):
- apel
- jeruk
- ⚾️ bola baseball
→ pengguna sama sekali tidak menginginkan bola baseball, tetapi embedding menganggapnya cukup dekat karena "bulat dan merah", lalu tetap memasukkannya
Ini tidak bisa diselesaikan hanya dengan threshold (berbeda untuk tiap domain dan tiap kueri)
Alternatif yang diajukan: taksonomi hierarkis yang dikelola dengan baik (Managed Taxonomies)
Seperti contoh furnitur Wayfair
Baby & Kids
└─ Toddler & Kids Playroom
└─ Indoor Play
└─ Rocking Horses
└─ Novelty Rocking Horses
Jika ini diterapkan di atas BM25 dengan tokenizer hierarkis, maka
- kategori yang lebih spesifik (turunan/child) = df lebih rendah → skor BM25 otomatis lebih tinggi
- cakupan bisa diatur secara presisi dengan bahasa yang dipahami pengguna (naik ke parent/grandparent membuat cakupannya makin luas)
- jika klasifikasi diotomatisasi dengan LLM, beban pemeliharaan juga jauh berkurang
Kesimpulan:
Embedding memang kuat, tetapi bukan keharusan.
Dengan kemampuan kategori/klasifikasi yang memang sudah kuat di domain tertentu + bantuan LLM,
kita bisa membangun semantic search yang jauh lebih akurat dan memberikan pengalaman pengguna yang lebih baik dibanding embedding.
Sangat direkomendasikan khususnya bagi yang mengerjakan pencarian spesifik domain seperti e-commerce, medis, hukum, perpustakaan, dan lainnya.
1 komentar
Sepertinya hybrid search dan multi-query RAG diperlukan.