Membangun Tokenizer GPT oleh Andrej Karpathy [Video]

(youtube.com)

23 poin oleh GN⁺ 2024-02-21 | 2 komentar | Bagikan ke WhatsApp

Tokenizer adalah komponen yang esensial dan sangat sering digunakan dalam model bahasa besar (LLM), yang mengubah antara string dan token (potongan teks)
Tokenizer merupakan tahap yang sepenuhnya terpisah dalam pipeline LLM:
- memiliki set pelatihan dan algoritme pelatihannya sendiri (Byte Pair Encoding)
- setelah dilatih, tokenizer mengimplementasikan dua fungsi dasar:
  - mengubah dari string menjadi token dengan encode(),
  - dan mengubah kembali dari token menjadi string dengan decode()
Dalam kuliah ini, kita akan membangun tokenizer yang digunakan dalam seri GPT milik OpenAI dari nol
Dalam prosesnya, Anda akan mengetahui bahwa banyak perilaku aneh dan masalah pada LLM sebenarnya muncul karena tokenisasi
Kita akan meninjau masalah-masalah ini, membahas mengapa tokenisasi menjadi penyebabnya, dan mengapa seseorang perlu mencari cara untuk menghapus tahap ini sepenuhnya

2 komentar

GN⁺ 2024-02-21

Komentar Hacker News

Video Andrej Karpathy tentang membangun GPT nano merupakan tutorial yang sangat baik dalam menjelaskan semua langkah yang diperlukan untuk mengembangkan large language model (LLM) modern.
- Seri 'zero to hero' tersebut membantu memahami ide dan melihat kesederhanaannya melalui implementasi nyata serta penjelasan analogi, tanpa menggunakan perumpamaan yang membuat konsep kompleks tampak menakutkan atau terlalu rumit.
- Awalnya kurva belajarnya curam, tetapi terasa memuaskan karena benar-benar memperoleh pemahaman dan kemampuan untuk membahas alasannya.
Andrej Karpathy berbicara begitu cepat sehingga perlu memeriksa kecepatan pemutaran. Terdengar seperti berbicara pada 1,25x.
Bahkan jika membayar pun, sulit mendapatkan konten berkualitas tinggi seperti ini.
Terkait ungkapan "saat menjadi telur alam semesta, itu adalah satu token", tidak yakin para kru kapal 'Nostromo' akan setuju. (Bagian ini adalah lelucon yang merujuk pada kapal luar angkasa 'Nostromo' dalam film 'Alien', sehingga diperlukan pengetahuan latar tentang film tersebut untuk memahami konteks komentarnya sepenuhnya)

Ringkasan di atas ditulis agar dapat dipahami bahkan oleh software engineer pemula, dengan merangkum tiap komentar secara netral dalam kalimat yang berakhir dengan bentuk nomina serta menambahkan pengetahuan latar secara ringkas.

wooseop 2024-02-21

Sepertinya prompt-nya adalah "ringkas setiap komentar secara netral dalam kalimat yang berakhir dengan nomina, lalu tambahkan pengetahuan latar secara singkat agar bisa dipahami bahkan oleh insinyur perangkat lunak pemula".

Membangun Tokenizer GPT oleh Andrej Karpathy [Video]

Bacaan terkait

2 komentar

Komentar Hacker News