4 poin oleh finnchoi 2024-07-19 | Belum ada komentar. | Bagikan ke WhatsApp

Masalah

  • Untuk pencarian semantik/bahasa alami dan RAG, diperlukan embedding vektor
  • Sebagian besar model embedding memiliki batas panjang input
    • Menyesuaikan panjang input yang tepat berkaitan langsung dengan kualitas pencarian
    • Karena batas panjang input, kebanyakan paragraf akhirnya dipisahkan dan disimpan
  • Karena teks asli disimpan dalam keadaan terpisah, satu dokumen terpecah menjadi beberapa dokumen
    • Sebagian besar dokumen tidak hanya terdiri dari satu data teks, tetapi juga metadata dan field lain yang panjang
    • Untuk menyimpan data yang telah dipisahkan, teks asli yang terpisah dan informasi tambahan harus disimpan secara duplikat, atau koleksi (atau tabel) harus dipisahkan
      • Penyimpanan duplikat menimbulkan inefisiensi karena kapasitas penyimpanan meningkat, dan koleksi yang dipisah menambah kompleksitas dalam proses pencarian seperti join, perhitungan skor, dan penghitungan jumlah dokumen
    • Ini adalah masalah yang sering ditemui saat menggunakan sebagian besar vector store

Solusi

  • Kami mencari cara lain agar teks asli tidak perlu dipisahkan
  • Kami memodifikasi DB dan library terkait agar field tempat data embedding disimpan dapat menerima data 2 dimensi
    • Dengan ini, teks asli tidak perlu dipisahkan dan data vektor dengan panjang variabel per dokumen yang terbagi menjadi satu atau lebih bagian dapat disimpan
    • Dengan cara ini, teks asli dan data vektor yang terpisah dapat berdampingan tanpa perlu memisahkan koleksi, sehingga pengelolaan data dan query menjadi lebih ringkas

Belum ada komentar.

Belum ada komentar.