- Artikel tentang non-determinisme yang diamati pada GPT-4, model bahasa yang dikembangkan oleh OpenAI
- GPT-4/GPT-3.5-turbo bersifat non-deterministik bahkan pada model decoder-only padat yang seharusnya berarti determinisme penuh saat temp=0
- Pada awalnya, non-determinisme diduga sebagai bug potensial atau non-determinisme dari perhitungan floating-point yang dioptimalkan
- Hipotesis baru penulis: non-determinisme GPT-4 sebagian besar berasal dari arsitektur Sparse Mixture of Experts (MoE) yang gagal memaksakan determinisme per sekuens
- Pendekatan Sparse MoE menyebabkan non-determinisme pada level sekuens dengan merutekan token dalam grup berukuran tetap dan menjaga keseimbangan di dalam grup
- Untuk menguji hipotesis ini, penulis meminta GPT-4 menulis skrip dan mengamati banyak completion unik dari GPT-4, yang menegaskan bahwa ada penyebab yang membuat GPT-4 jauh lebih non-deterministik dibanding model lain
- Penulis juga berspekulasi bahwa GPT-3.5-turbo mungkin juga merupakan model MoE karena kecepatannya, non-determinismenya, dan penghapusan
logprobs
- Implikasi dari temuan ini penting: jika non-determinisme adalah fitur inheren dari inferensi batch dengan Sparse MoE, fakta ini harus dijelaskan dengan jelas kepada siapa pun yang menggunakan model-model tersebut
- Dalam kesimpulannya, penulis berargumen bahwa non-determinisme pada model GPT OpenAI umumnya dikaitkan dengan ketidakakuratan operasi floating-point CUDA yang non-deterministik, tetapi akar penyebabnya bisa jadi adalah inferensi batch pada model Sparse MoE
1 komentar
Komentar Hacker News