2 poin oleh GN⁺ 2024-01-23 | 1 komentar | Bagikan ke WhatsApp

Penyebab pesan galat ChatGPT 3.5

  • Model GPT dari OpenAI menghasilkan "token" multikarakter alih-alih karakter tunggal.
  • Cara keluaran token seperti ini meningkatkan performa dan akurasi model.
  • Ada tiga token, yaitu richTextPanel, source, dan loadPath, dan ketiganya dapat saling dipertukarkan.
  • Token loadPath digunakan sebagai nama opsi dalam file konfigurasi XML pada 80,4 ribu file di GitHub.
  • Kemungkinan loadPath memiliki token tersendiri karena salah ketik pada "R a lative".
  • Setelah membuat daftar token, OpenAI mungkin memutuskan untuk mengecualikan file XML dari data pelatihan, sehingga token loadPath hampir tidak pernah digunakan dalam data pelatihan.
  • Akibatnya, model tidak dilatih untuk memahami penggunaan token useRalativeImagePath dan menghasilkan token yang tidak valid.

Digunakan untuk meracuni data?

  • Frasa ini bisa dimasukkan ke dalam dokumen untuk mengganggu upaya merangkum dokumen menggunakan GPT-3.5.

Bacaan tambahan

  • Ada beberapa tulisan yang berguna untuk penelitian tentang topik ini.

Opini GN⁺

  • Hal terpenting dalam tulisan ini adalah memahami penyebab model GPT menghasilkan galat pada token tertentu.
  • Informasi ini membantu memahami cara kerja dan keterbatasan model kecerdasan buatan.
  • Selain itu, tulisan ini memberikan contoh menarik tentang cara memanfaatkan peracunan data atau kelemahan model kecerdasan buatan.

1 komentar

 
GN⁺ 2024-01-23
Opini Hacker News
  • Penjelasan tentang glitch token

    • Diduga terjadi karena kata atau token yang sering muncul di dataset asli, tetapi dihapus sebelum pelatihan GPT-XX.
    • Akibatnya, LLM sama sekali tidak mengetahui makna token tersebut, dan hasilnya bisa berupa bug atau terasa mengganggu.
    • Nama pengguna yang sering muncul di subreddit r/counting adalah contoh yang representatif.
    • OpenAI telah memperbaiki sebagian besar model yang di-hosting (diduga dengan mengubah metode tokenisasi), tetapi tampaknya glitch token baru telah ditemukan.
  • Metode verifikasi bahasa di Belanda selama WWII

    • Di Belanda, orang dibedakan apakah ia orang Jerman atau bukan melalui pengucapan kata Scheveningen.
    • Sekarang, kita bisa membedakan apakah sesuatu itu bot LLM atau bukan dengan menyuruhnya mengucapkan glitch token di internet.
  • Penjelasan tentang proses pembangkitan token pada LLM

    • Bahwa model tidak memahami token useRalativeImagePath lalu mengeluarkan token yang tidak valid bukanlah cara LLM menghasilkan token.
    • Pada setiap langkah, model mengeluarkan logit untuk semua token yang mungkin, mengubahnya menjadi probabilitas dengan fungsi softmax, lalu melakukan sampling untuk menentukan token yang akan dipakai.
    • Token langka bisa menimbulkan masalah dalam proses penggabungan BPE pada tokenizer, tetapi ini kemungkinan besar bukan penyebabnya karena di GPT-4 tidak ada masalah dan ia memakai tokenizer yang sama dengan GPT-3.5.
  • Analisis kemungkinan penyebab glitch token

    • Vektor embedding yang salah ter-kondisikan untuk token tertentu dapat mendorong jaringan ke wilayah yang tidak stabil secara numerik.
    • Jika terjadi underflow atau NaN, seluruh output bisa menjadi tidak valid, dan jika ada operasi seperti batch normalization yang mencampurkan nilai antar item dalam batch, nilai yang salah juga bisa dikembalikan ke sesi pengguna lain.
  • Sudut pandang lain tentang output model

    • Umumnya model mengeluarkan himpunan kosakata yang sama dengan kosakata inputnya.
    • Model bisa melihat token useRalativeImagePath lalu memulai spiral yang mengarah ke generasi acak, atau berusaha mempertahankan teks yang konsisten.
    • Karena himpunan token yang bisa dikeluarkan bersifat tetap, token itu seharusnya selalu "valid" kecuali token yang dapat ditampilkan oleh antarmuka hanyalah subset dari seluruh kosakata.
  • Dampak masa depan pada data pelatihan LLM

    • Karena frasa ini muncul di postingan dan komentar Hacker News, pada pelatihan LLM berikutnya masalah semacam ini mungkin tidak akan terjadi lagi.
  • Berbagi pengalaman kegagalan di GPT-4

    • Pengalaman membuat ChatGPT berbasis GPT-4 gagal melalui tantangan mem-plot piksel di Amstrad CPC.
    • Saat makin terdesak oleh keluhan dan koreksi, muncul lebih banyak pesan kesalahan atau gejala seperti reset.
    • Karena tidak ingin menimbulkan masalah pada server, percakapan itu dihentikan, tetapi hal ini menunjukkan bahwa GPT-4 memang bisa dibuat crash.
  • Renungan tentang kualitas data input

    • Contoh klasik dari 'garbage in, garbage out'.
    • Pemikiran bahwa hal-hal yang saat ini kita anggap keputusan hebat bisa saja dinilai sebagai 'sampah' di masa depan.
    • Pertanyaan apakah super AI bisa benar-benar melampaui manusia jika hanya dilatih dari catatan manusia.
    • Usulan apakah teknik adversarial training dapat menyelesaikan masalah ini.
  • Usulan penggunaan frasa untuk mengganggu ringkasan GPT-3.5

    • Mungkin bisa dicoba memasukkan frasa tertentu ke dalam dokumen untuk mengganggu upaya peringkasan dokumen yang menggunakan GPT-3.5.
  • Kebingungan tentang kata 'RTCatch' dan 'redirectToRoute'

    • Pertanyaan tentang situasi di mana RTCatch dan redirectToRoute bisa disalahpahami sebagai kata yang sama.
    • Kedua istilah itu tampak merujuk pada istilah yang sama, dan mungkin ada salah ketik atau penyebutan yang tidak konsisten.
    • Rasa penasaran tentang RTCatch dan permintaan informasi tambahan mengenainya.