minbpe - Implementasi Byte Pair Encoding yang Digunakan untuk Tokenisasi LLM

xguru · 2024-02-21T11:06:01+09:00

Kode baru yang dirilis oleh Andrej Karpathy setelah meninggalkan OpenAI Kode minimalis/bersih untuk algoritme (Byte Level) Byte Pair Encoding (BPE) yang umum digunakan untuk tokenisasi LLM Byte Level: karena bekerja pada string yang dikodekan dengan UTF-8 BPE dipopulerkan untuk LLM melalui paper GPT-2 dan rilis kode GPT-2 terkait dari OpenAI Saat ini semua LLM modern (misalnya GPT, Llama, Mistral) menggunakan algoritme ini untuk melatih tokenizer Repo ini memiliki 2 tokenizer. Keduanya menjalankan 3 operasi utama Melatih kosakata dan penggabungan tokenizer terhadap teks yang diberikan Mengenkode teks menjadi token Mendekode token menjadi teks Kelas dasar Tokenizer serta implementasi paling sederhana, BasicTokenizer, dan RegexTokenizer yang membagi string masukan dengan regex GPT4Tokenizer, pembungkus untuk RegexTokenizer, mereproduksi tokenisasi GPT-4 secara akurat dari library tiktoken

Kode baru yang dirilis oleh Andrej Karpathy setelah meninggalkan OpenAI
Kode minimalis/bersih untuk algoritme (Byte Level) Byte Pair Encoding (BPE) yang umum digunakan untuk tokenisasi LLM
- Byte Level: karena bekerja pada string yang dikodekan dengan UTF-8
BPE dipopulerkan untuk LLM melalui paper GPT-2 dan rilis kode GPT-2 terkait dari OpenAI
Saat ini semua LLM modern (misalnya GPT, Llama, Mistral) menggunakan algoritme ini untuk melatih tokenizer
Repo ini memiliki 2 tokenizer. Keduanya menjalankan 3 operasi utama
- 1. Melatih kosakata dan penggabungan tokenizer terhadap teks yang diberikan
- 1. Mengenkode teks menjadi token
- 1. Mendekode token menjadi teks
Kelas dasar Tokenizer serta implementasi paling sederhana, BasicTokenizer, dan RegexTokenizer yang membagi string masukan dengan regex
GPT4Tokenizer, pembungkus untuk RegexTokenizer, mereproduksi tokenisasi GPT-4 secara akurat dari library tiktoken

1 komentar

minbpe - Implementasi Byte Pair Encoding yang Digunakan untuk Tokenisasi LLM

Bacaan terkait

1 komentar