Mengapa kami akhirnya menyimpan vektor 2 dimensi untuk pencarian vektor?

finnchoi · 2024-07-19T07:21:48+09:00

Masalah Untuk pencarian semantik/bahasa alami dan RAG, diperlukan embedding vektor Sebagian besar model embedding memiliki batas panjang input Menyesuaikan panjang input yang tepat berkaitan langsung dengan kualitas pencarian Karena batas panjang input, kebanyakan paragraf akhirnya dipisahkan dan disimpan Karena teks asli disimpan dalam keadaan terpisah, satu dokumen terpecah menjadi beberapa dokumen Sebagian besar dokumen tidak hanya terdiri dari satu data teks, tetapi juga metadata dan field lain yang panjang Untuk menyimpan data yang telah dipisahkan, teks asli yang terpisah dan informasi tambahan harus disimpan secara duplikat, atau koleksi (atau tabel) harus dipisahkan Penyimpanan duplikat menimbulkan inefisiensi karena kapasitas penyimpanan meningkat, dan koleksi yang dipisah menambah kompleksitas dalam proses pencarian seperti join, perhitungan skor, dan penghitungan jumlah dokumen Ini adalah masalah yang sering ditemui saat menggunakan sebagian besar vector store Solusi Kami mencari cara lain agar teks asli tidak perlu dipisahkan Kami memodifikasi DB dan library terkait agar field tempat data embedding disimpan dapat menerima data 2 dimensi Dengan ini, teks asli tidak perlu dipisahkan dan data vektor dengan panjang variabel per dokumen yang terbagi menjadi satu atau lebih bagian dapat disimpan Dengan cara ini, teks asli dan data vektor yang terpisah dapat berdampingan tanpa perlu memisahkan koleksi, sehingga pengelolaan data dan query menjadi lebih ringkas

Masalah

Untuk pencarian semantik/bahasa alami dan RAG, diperlukan embedding vektor
Sebagian besar model embedding memiliki batas panjang input
- Menyesuaikan panjang input yang tepat berkaitan langsung dengan kualitas pencarian
- Karena batas panjang input, kebanyakan paragraf akhirnya dipisahkan dan disimpan
Karena teks asli disimpan dalam keadaan terpisah, satu dokumen terpecah menjadi beberapa dokumen
- Sebagian besar dokumen tidak hanya terdiri dari satu data teks, tetapi juga metadata dan field lain yang panjang
- Untuk menyimpan data yang telah dipisahkan, teks asli yang terpisah dan informasi tambahan harus disimpan secara duplikat, atau koleksi (atau tabel) harus dipisahkan
  - Penyimpanan duplikat menimbulkan inefisiensi karena kapasitas penyimpanan meningkat, dan koleksi yang dipisah menambah kompleksitas dalam proses pencarian seperti join, perhitungan skor, dan penghitungan jumlah dokumen
- Ini adalah masalah yang sering ditemui saat menggunakan sebagian besar vector store

Solusi

Kami mencari cara lain agar teks asli tidak perlu dipisahkan
Kami memodifikasi DB dan library terkait agar field tempat data embedding disimpan dapat menerima data 2 dimensi
- Dengan ini, teks asli tidak perlu dipisahkan dan data vektor dengan panjang variabel per dokumen yang terbagi menjadi satu atau lebih bagian dapat disimpan
- Dengan cara ini, teks asli dan data vektor yang terpisah dapat berdampingan tanpa perlu memisahkan koleksi, sehingga pengelolaan data dan query menjadi lebih ringkas

Mengapa kami akhirnya menyimpan vektor 2 dimensi untuk pencarian vektor?

Masalah

Solusi

Bacaan terkait

Belum ada komentar.