15 poin oleh xguru 2023-06-12 | Belum ada komentar. | Bagikan ke WhatsApp
  • Model LLM seperti GPT/LLaMA/PaLM bekerja berbasis token
  • Model menerima teks lalu mengubahnya menjadi token (integer), dan memprediksi token apa yang akan muncul berikutnya
  • OpenAI telah merilis Tokenizer, tetapi penulis juga merilis versinya sendiri dalam bentuk Observable notebook (berbasis GPT-2 untuk tujuan edukasi)
    • Mendukung teks-ke-token, token-ke-teks, dan pencarian seluruh tabel token
  • The dog eats the apples
    El perro come las manzanas
    片仮名

  • Penjelasan diberikan berdasarkan hasil konversi kalimat-kalimat di atas menjadi token
    • The dan the adalah token yang berbeda
    • Banyak kata memiliki token yang menyertakan spasi di depannya (jauh lebih efisien untuk pengodean seluruh kalimat)
    • Kata-kata selain bahasa Inggris mengalami tokenisasi yang tidak efisien

Belum ada komentar.

Belum ada komentar.