- Kode baru yang dirilis oleh Andrej Karpathy setelah meninggalkan OpenAI
- Kode minimalis/bersih untuk algoritme (Byte Level) Byte Pair Encoding (BPE) yang umum digunakan untuk tokenisasi LLM
- Byte Level: karena bekerja pada string yang dikodekan dengan UTF-8
- BPE dipopulerkan untuk LLM melalui paper GPT-2 dan rilis kode GPT-2 terkait dari OpenAI
- Saat ini semua LLM modern (misalnya GPT, Llama, Mistral) menggunakan algoritme ini untuk melatih tokenizer
- Repo ini memiliki 2 tokenizer. Keduanya menjalankan 3 operasi utama
-
- Melatih kosakata dan penggabungan tokenizer terhadap teks yang diberikan
-
- Mengenkode teks menjadi token
-
- Mendekode token menjadi teks
- Kelas dasar Tokenizer serta implementasi paling sederhana, BasicTokenizer, dan RegexTokenizer yang membagi string masukan dengan regex
- GPT4Tokenizer, pembungkus untuk RegexTokenizer, mereproduksi tokenisasi GPT-4 secara akurat dari library tiktoken
1 komentar
Terkait ini, video tentang membangun GPT Tokenizer juga sudah diunggah.
Membangun GPT Tokenizer by Andrej Karpathy [Video]