- Tokenizer adalah komponen yang esensial dan sangat sering digunakan dalam model bahasa besar (LLM), yang mengubah antara string dan token (potongan teks)
- Tokenizer merupakan tahap yang sepenuhnya terpisah dalam pipeline LLM:
- memiliki set pelatihan dan algoritme pelatihannya sendiri (Byte Pair Encoding)
- setelah dilatih, tokenizer mengimplementasikan dua fungsi dasar:
- mengubah dari string menjadi token dengan
encode(),
- dan mengubah kembali dari token menjadi string dengan
decode()
- Dalam kuliah ini, kita akan membangun tokenizer yang digunakan dalam seri GPT milik OpenAI dari nol
- Dalam prosesnya, Anda akan mengetahui bahwa banyak perilaku aneh dan masalah pada LLM sebenarnya muncul karena tokenisasi
- Kita akan meninjau masalah-masalah ini, membahas mengapa tokenisasi menjadi penyebabnya, dan mengapa seseorang perlu mencari cara untuk menghapus tahap ini sepenuhnya
2 komentar
Komentar Hacker News
Video Andrej Karpathy tentang membangun GPT nano merupakan tutorial yang sangat baik dalam menjelaskan semua langkah yang diperlukan untuk mengembangkan large language model (LLM) modern.
Andrej Karpathy berbicara begitu cepat sehingga perlu memeriksa kecepatan pemutaran. Terdengar seperti berbicara pada 1,25x.
Bahkan jika membayar pun, sulit mendapatkan konten berkualitas tinggi seperti ini.
Terkait ungkapan "saat menjadi telur alam semesta, itu adalah satu token", tidak yakin para kru kapal 'Nostromo' akan setuju. (Bagian ini adalah lelucon yang merujuk pada kapal luar angkasa 'Nostromo' dalam film 'Alien', sehingga diperlukan pengetahuan latar tentang film tersebut untuk memahami konteks komentarnya sepenuhnya)
Ringkasan di atas ditulis agar dapat dipahami bahkan oleh software engineer pemula, dengan merangkum tiap komentar secara netral dalam kalimat yang berakhir dengan bentuk nomina serta menambahkan pengetahuan latar secara ringkas.
Sepertinya prompt-nya adalah "ringkas setiap komentar secara netral dalam kalimat yang berakhir dengan nomina, lalu tambahkan pengetahuan latar secara singkat agar bisa dipahami bahkan oleh insinyur perangkat lunak pemula".