1 poin oleh GN⁺ 2023-08-06 | 1 komentar | Bagikan ke WhatsApp
  • Artikel tentang non-determinisme yang diamati pada GPT-4, model bahasa yang dikembangkan oleh OpenAI
  • GPT-4/GPT-3.5-turbo bersifat non-deterministik bahkan pada model decoder-only padat yang seharusnya berarti determinisme penuh saat temp=0
  • Pada awalnya, non-determinisme diduga sebagai bug potensial atau non-determinisme dari perhitungan floating-point yang dioptimalkan
  • Hipotesis baru penulis: non-determinisme GPT-4 sebagian besar berasal dari arsitektur Sparse Mixture of Experts (MoE) yang gagal memaksakan determinisme per sekuens
  • Pendekatan Sparse MoE menyebabkan non-determinisme pada level sekuens dengan merutekan token dalam grup berukuran tetap dan menjaga keseimbangan di dalam grup
  • Untuk menguji hipotesis ini, penulis meminta GPT-4 menulis skrip dan mengamati banyak completion unik dari GPT-4, yang menegaskan bahwa ada penyebab yang membuat GPT-4 jauh lebih non-deterministik dibanding model lain
  • Penulis juga berspekulasi bahwa GPT-3.5-turbo mungkin juga merupakan model MoE karena kecepatannya, non-determinismenya, dan penghapusan logprobs
  • Implikasi dari temuan ini penting: jika non-determinisme adalah fitur inheren dari inferensi batch dengan Sparse MoE, fakta ini harus dijelaskan dengan jelas kepada siapa pun yang menggunakan model-model tersebut
  • Dalam kesimpulannya, penulis berargumen bahwa non-determinisme pada model GPT OpenAI umumnya dikaitkan dengan ketidakakuratan operasi floating-point CUDA yang non-deterministik, tetapi akar penyebabnya bisa jadi adalah inferensi batch pada model Sparse MoE

1 komentar

 
GN⁺ 2023-08-06
Komentar Hacker News
  • Nondeterminisme GPT-4 berasal dari model Sparse Mixture of Experts (MoE).
  • Ketidakakuratan floating-point dalam sistem AI/ML pada umumnya bersifat deterministik, dan hasil yang berbeda-beda kemungkinan disebabkan oleh status atau sumber entropi lainnya.
  • Makalah tersebut mengusulkan bahwa inferensi GPT-4 yang efisien mungkin bergantung pada pencampuran token dari input yang terpisah, yang dapat memperkenalkan nondeterminisme dan memengaruhi kualitas respons.
  • Kualitas respons juga dapat bergantung pada jumlah permintaan serentak yang bersaing untuk alokasi "expert" yang sama.
  • Ini dapat menjelaskan penurunan kualitas yang dirasakan dari waktu ke waktu, dan penggunaan serentak yang lebih banyak dapat menghasilkan keluaran yang kurang dapat diandalkan.
  • Penggunaan model MoE dalam GPT-3.5 dapat memberi harapan bagi gerakan open source, karena ini berarti melakukan lebih banyak dengan sumber daya yang lebih sedikit.
  • Jika sequence di dalam batch dapat memengaruhi routing milik yang lain, maka kemungkinan serangan side-channel ikut diperkenalkan.
  • Pendekatan MoE memperkenalkan probabilitas atau keacakan ke dalam cara kerja model dengan memilih "expert" atau bagian model yang berbeda untuk bagian data input yang berbeda.
  • Data input yang sama yang diproses dua kali dalam konteks yang sedikit berbeda dapat berkonsultasi dengan himpunan expert yang sedikit berbeda, sehingga menghasilkan keluaran yang sedikit berbeda.
  • Di bawah beban berat, hasil dapat berubah karena token bersaing memperebutkan slot yang tersedia di buffer expert.
  • Persaingan buffer expert ini juga dapat menjelaskan mengapa ChatGPT menulis placeholder alih-alih fungsi saat diminta membuat kode yang panjang.