Masalah
- Untuk pencarian semantik/bahasa alami dan RAG, diperlukan embedding vektor
- Sebagian besar model embedding memiliki batas panjang input
- Menyesuaikan panjang input yang tepat berkaitan langsung dengan kualitas pencarian
- Karena batas panjang input, kebanyakan paragraf akhirnya dipisahkan dan disimpan
- Karena teks asli disimpan dalam keadaan terpisah, satu dokumen terpecah menjadi beberapa dokumen
- Sebagian besar dokumen tidak hanya terdiri dari satu data teks, tetapi juga metadata dan field lain yang panjang
- Untuk menyimpan data yang telah dipisahkan, teks asli yang terpisah dan informasi tambahan harus disimpan secara duplikat, atau koleksi (atau tabel) harus dipisahkan
- Penyimpanan duplikat menimbulkan inefisiensi karena kapasitas penyimpanan meningkat, dan koleksi yang dipisah menambah kompleksitas dalam proses pencarian seperti join, perhitungan skor, dan penghitungan jumlah dokumen
- Ini adalah masalah yang sering ditemui saat menggunakan sebagian besar vector store
Solusi
- Kami mencari cara lain agar teks asli tidak perlu dipisahkan
- Kami memodifikasi DB dan library terkait agar field tempat data embedding disimpan dapat menerima data 2 dimensi
- Dengan ini, teks asli tidak perlu dipisahkan dan data vektor dengan panjang variabel per dokumen yang terbagi menjadi satu atau lebih bagian dapat disimpan
- Dengan cara ini, teks asli dan data vektor yang terpisah dapat berdampingan tanpa perlu memisahkan koleksi, sehingga pengelolaan data dan query menjadi lebih ringkas
Belum ada komentar.