13 poin oleh xguru 2024-02-21 | 1 komentar | Bagikan ke WhatsApp
  • Kode baru yang dirilis oleh Andrej Karpathy setelah meninggalkan OpenAI
  • Kode minimalis/bersih untuk algoritme (Byte Level) Byte Pair Encoding (BPE) yang umum digunakan untuk tokenisasi LLM
    • Byte Level: karena bekerja pada string yang dikodekan dengan UTF-8
  • BPE dipopulerkan untuk LLM melalui paper GPT-2 dan rilis kode GPT-2 terkait dari OpenAI
  • Saat ini semua LLM modern (misalnya GPT, Llama, Mistral) menggunakan algoritme ini untuk melatih tokenizer
  • Repo ini memiliki 2 tokenizer. Keduanya menjalankan 3 operasi utama
      1. Melatih kosakata dan penggabungan tokenizer terhadap teks yang diberikan
      1. Mengenkode teks menjadi token
      1. Mendekode token menjadi teks
  • Kelas dasar Tokenizer serta implementasi paling sederhana, BasicTokenizer, dan RegexTokenizer yang membagi string masukan dengan regex
  • GPT4Tokenizer, pembungkus untuk RegexTokenizer, mereproduksi tokenisasi GPT-4 secara akurat dari library tiktoken

1 komentar

 
xguru 2024-02-21

Terkait ini, video tentang membangun GPT Tokenizer juga sudah diunggah.
Membangun GPT Tokenizer by Andrej Karpathy [Video]