Chonkie - pustaka chunking teks Python untuk RAG yang cepat dan ringan

xguru · 2024-11-12T10:21:01+09:00

Ukuran instalasi dasar 21MB, 80-171MB lebih kecil dibanding pustaka alternatif Kecepatan chunking token 33 kali lebih cepat dibanding pustaka populer lainnya Mendukung berbagai strategi chunking seperti token, kata, kalimat, semantik, SDPM, dan lainnya Kompatibel dengan tokenizer utama seperti transformers, tokenizers, tiktoken, dan lainnya Tidak memiliki dependensi eksternal hanya untuk fitur dasar Optimisasi teknis Menggunakan tiktoken yang mendukung multithreading untuk tokenisasi yang lebih cepat Menerapkan caching agresif dan prakomputasi Menggunakan Running Mean Pooling untuk chunking semantik yang efisien Sistem dependensi modular sehingga Anda bisa memasang hanya yang diperlukan

(github.com/bhavnicksm)

15 poin oleh xguru 2024-11-12 | Belum ada komentar. | Bagikan ke WhatsApp

Ukuran instalasi dasar 21MB, 80-171MB lebih kecil dibanding pustaka alternatif
Kecepatan chunking token 33 kali lebih cepat dibanding pustaka populer lainnya
Mendukung berbagai strategi chunking seperti token, kata, kalimat, semantik, SDPM, dan lainnya
Kompatibel dengan tokenizer utama seperti transformers, tokenizers, tiktoken, dan lainnya
Tidak memiliki dependensi eksternal hanya untuk fitur dasar

Optimisasi teknis

Menggunakan tiktoken yang mendukung multithreading untuk tokenisasi yang lebih cepat
Menerapkan caching agresif dan prakomputasi
Menggunakan Running Mean Pooling untuk chunking semantik yang efisien
Sistem dependensi modular sehingga Anda bisa memasang hanya yang diperlukan

Chonkie - pustaka chunking teks Python untuk RAG yang cepat dan ringan

Optimisasi teknis

Bacaan terkait

Belum ada komentar.