- Tokenizer berperforma tinggi yang 100% kompatibel dengan TikToken milik OpenAI, menawarkan throughput lebih dari 2x dan kecepatan tokenisasi kode 4x lebih cepat untuk pemrosesan teks skala besar
- Melalui mesin parsing regular expression berkecepatan tinggi berbasis PCRE2, kecepatan pencocokan pola token dimaksimalkan
- Dengan algoritme BPE yang disederhanakan, penurunan performa saat menangani special token dalam jumlah besar diminimalkan
- Pada benchmark nyata, tokenisasi kode lebih dari 4x lebih cepat, dan dapat digunakan sebagai pengganti langsung untuk kode yang sebelumnya memakai TikToken
- Mendukung Python 3.8+, mudah dipasang melalui PyPI dengan
pip install tokendagger, dan memiliki dependensi pada PCRE2
1 komentar
Opini Hacker News