- Ukuran instalasi dasar 21MB, 80-171MB lebih kecil dibanding pustaka alternatif
- Kecepatan chunking token 33 kali lebih cepat dibanding pustaka populer lainnya
- Mendukung berbagai strategi chunking seperti token, kata, kalimat, semantik, SDPM, dan lainnya
- Kompatibel dengan tokenizer utama seperti
transformers, tokenizers, tiktoken, dan lainnya
- Tidak memiliki dependensi eksternal hanya untuk fitur dasar
Optimisasi teknis
- Menggunakan
tiktoken yang mendukung multithreading untuk tokenisasi yang lebih cepat
- Menerapkan caching agresif dan prakomputasi
- Menggunakan Running Mean Pooling untuk chunking semantik yang efisien
- Sistem dependensi modular sehingga Anda bisa memasang hanya yang diperlukan
Belum ada komentar.