Memahami GPT Tokenizer
(simonwillison.net)- Model LLM seperti GPT/LLaMA/PaLM bekerja berbasis token
- Model menerima teks lalu mengubahnya menjadi token (integer), dan memprediksi token apa yang akan muncul berikutnya
- OpenAI telah merilis Tokenizer, tetapi penulis juga merilis versinya sendiri dalam bentuk Observable notebook (berbasis GPT-2 untuk tujuan edukasi)
- Mendukung teks-ke-token, token-ke-teks, dan pencarian seluruh tabel token
-
The dog eats the apples
El perro come las manzanas
片仮名 - Penjelasan diberikan berdasarkan hasil konversi kalimat-kalimat di atas menjadi token
Thedantheadalah token yang berbeda- Banyak kata memiliki token yang menyertakan spasi di depannya (jauh lebih efisien untuk pengodean seluruh kalimat)
- Kata-kata selain bahasa Inggris mengalami tokenisasi yang tidak efisien
Belum ada komentar.