15 poin oleh xguru 2024-11-12 | Belum ada komentar. | Bagikan ke WhatsApp
  • Ukuran instalasi dasar 21MB, 80-171MB lebih kecil dibanding pustaka alternatif
  • Kecepatan chunking token 33 kali lebih cepat dibanding pustaka populer lainnya
  • Mendukung berbagai strategi chunking seperti token, kata, kalimat, semantik, SDPM, dan lainnya
  • Kompatibel dengan tokenizer utama seperti transformers, tokenizers, tiktoken, dan lainnya
  • Tidak memiliki dependensi eksternal hanya untuk fitur dasar

Optimisasi teknis

  • Menggunakan tiktoken yang mendukung multithreading untuk tokenisasi yang lebih cepat
  • Menerapkan caching agresif dan prakomputasi
  • Menggunakan Running Mean Pooling untuk chunking semantik yang efisien
  • Sistem dependensi modular sehingga Anda bisa memasang hanya yang diperlukan

Belum ada komentar.

Belum ada komentar.