12 poin oleh xguru 2021-07-21 | 1 komentar | Bagikan ke WhatsApp
  • Berbasis Rust + Tantivy (open source mirip Apache Lucene yang diimplementasikan dengan Rust, mendukung tokenizer bahasa Korea)

  • Dirancang agar cocok untuk mengindeks dataset besar

→ Memisahkan Compute dan Storage: dapat menelusuri penyimpanan seperti S3

→ Pengelolaan cluster pencarian yang mudah: instance dapat ditambah/dihapus dalam hitungan detik

  • Fitur yang didukung

→ CLI sederhana untuk pengelolaan indeks dan cluster

→ Indeks lokal/remote

→ Instance stateless

→ Dapat digunakan pada object storage apa pun yang mendukung kueri Byte Range

→ Pencarian full-text (termasuk Phrase Query)

→ Dukungan time partitioning bawaan

→ Dukungan Boolean query

→ Mendukung tipe data text, i64, f64, date, bytes, composite types object, dan array

1 komentar

 
xguru 2021-07-21

Penjelasan tentang bagaimana efisiensi biaya itu diwujudkan ada di artikel pengantar yang ditulis di blog.

Sebelumnya saat memperkenalkan " Bayard - server pencarian teks penuh & pengindeksan yang diimplementasikan dengan Rust https://id.news.hada.io/topic?id=841 ", Tantivy belum memiliki tokenizer bahasa Korea, tetapi sekarang sudah ditambahkan.

https://github.com/lindera-morphology/lindera-ko-dic-builder

tokenizer bahasa Korea