ir - mesin pencari lokal alternatif untuk qmd (mendukung prapemrosesan bahasa Korea)
(github.com/vlwkaos)Saat menggunakan qmd yang sudah ada, saya menemukan beberapa masalah, sehingga saya membuat mesin pencari lokal sebagai penggantinya.
Ketidaknyamanan karena semua collection harus diindeks/di-embedding sekaligus ke dalam satu DB sqlite
-> Dengan memisahkannya, koleksi dapat dikelola per proyek, dan pembaruan indeks juga menjadi lebih lancar saat beberapa agent bekerja secara bersamaan.
Masalah karena hanya mendukung prapemrosesan dasar berbasis bahasa Inggris
-> Mendukung penambahan preprocessor berbasis i/o command secara langsung. Di repo ini saya menyisakan lindera-ko, yang menunjukkan performa terbaik setelah berbagai benchmarking. Untuk instalasi, silakan lihat panduannya.
Masalah waktu yang lama saat melakukan cold loading model untuk pencarian hibrida ketika BM25 gap test gagal
-> Daemon berjalan dan menjaga model tetap dimuat di memori.
Dibanding qmd, dalam keadaan warm ini lebih dari 20 kali lebih cepat,
dan tidak seperti qmd yang tidak memiliki benchmark untuk skor relevansi,
saya melakukan sedikit penyesuaian skor berdasarkan corpus nyata.
Karena ini adalah rilis publik pertama, mungkin saja ada masalah. Saya akan berterima kasih jika Anda memberi tahu lewat komentar atau mendaftarkannya sebagai issue.
Panduan bahasa Korea: https://github.com/vlwkaos/ir/blob/main/README.ko.md
2 komentar
Saya sempat memikirkan ini karena keterbatasan QMD, jadi saya menantikannya!
Oh, akan saya pakai dengan baik!