- Banyak orang sudah membicarakan hal ini, tetapi sejauh ini hanya sebatas potongan-potongan observasi
- Dalam makalah yang baru dipublikasikan, versi GPT-4 bulan Juni dan versi bulan Maret dibandingkan secara objektif menggunakan 500 soal
- Pada bulan Maret, GPT-4 menjawab 488 soal dengan benar, tetapi pada bulan Juni jumlah jawaban benar hanya 12
- Artinya, dalam 3 bulan tingkat akurasinya turun dari 97,6% menjadi 2,4%
- Namun, keadaan menjadi lebih buruk dari itu
- Model juga diuji untuk bernalar menggunakan teknik Chain-of-Thought
- Ketika diberi instruksi "Apakah 17077 bilangan prima? Think step by step.", GPT-4 bahkan tidak menghasilkan langkah-langkah perantara dan menjawab "Tidak"
- Kemampuan pembuatan kode juga memburuk
- Mereka membangun set data dari 50 soal mudah di LeetCode lalu menjalankannya
- Versi Maret berhasil 52%, tetapi versi Juni hanya berhasil 10%
- Mengapa ini bisa terjadi?
- Diasumsikan OpenAI terus melakukan perubahan, tetapi kita tidak tahu bagaimana model itu bekerja atau bagaimana mereka mengevaluasinya
- Menurut rumor, mereka menggabungkan beberapa model GPT-4 kecil yang terspesialisasi agar berperilaku seperti satu model besar, tetapi dapat dijalankan dengan biaya lebih murah
- Apakah upaya membuatnya lebih murah dan lebih cepat bisa menjadi penyebab penurunan kualitas ini?
- Ini adalah sinyal bahaya bagi semua orang yang membangun aplikasi yang bergantung pada GPT-4
- Perubahan perilaku LLM seiring waktu tidak bisa diterima
- Eksperimen tersebut dapat direproduksi oleh siapa pun di Google Colab
6 komentar
Saya sudah membatalkan langganan. Bagian-bagian yang memburuk itu benar-benar terasa.
Di komunitas pengguna chatGPT domestik juga terus ada laporan seperti ini, jadi tampaknya memang benar.
Saya sudah berlangganan dan menggunakannya setiap bulan sejak GPT berbayar, dan saya setuju dengan isi ini.
Selain itu, meskipun saya pengguna berbayar, saya sangat tidak puas karena di versi 4 masih ada batas 25 pertanyaan per 3 jam.
Hari ini, dengan penambahan fitur instruksi khusus, kabarnya batasannya juga dilonggarkan menjadi 50.
https://openai.com/blog/custom-instructions-for-chatgpt
Apakah hanya saya yang merasa kualitas GPT-4 belakangan ini menurun secara signifikan?
Makalah terkait: How Is ChatGPT’s Behavior Changing over Time?
Google Colab: LLM Drifts: How Is ChatGPT’s Behavior Changing over Time?