GPT-4 makin memburuk seiring waktu

xguru · 2023-07-20T11:06:02+09:00

Banyak orang sudah membicarakan hal ini, tetapi sejauh ini hanya sebatas potongan-potongan observasi Dalam makalah yang baru dipublikasikan, versi GPT-4 bulan Juni dan versi bulan Maret dibandingkan secara objektif menggunakan 500 soal Pada bulan Maret, GPT-4 menjawab 488 soal dengan benar, tetapi pada bulan Juni jumlah jawaban benar hanya 12 Artinya, dalam 3 bulan tingkat akurasinya turun dari 97,6% menjadi 2,4% Namun, keadaan menjadi lebih buruk dari itu Model juga diuji untuk bernalar menggunakan teknik Chain-of-Thought Ketika diberi instruksi "Apakah 17077 bilangan prima? Think step by step.", GPT-4 bahkan tidak menghasilkan langkah-langkah perantara dan menjawab "Tidak" Kemampuan pembuatan kode juga memburuk Mereka membangun set data dari 50 soal mudah di LeetCode lalu menjalankannya Versi Maret berhasil 52%, tetapi versi Juni hanya berhasil 10% Mengapa ini bisa terjadi? Diasumsikan OpenAI terus melakukan perubahan, tetapi kita tidak tahu bagaimana model itu bekerja atau bagaimana mereka mengevaluasinya Menurut rumor, mereka menggabungkan beberapa model GPT-4 kecil yang terspesialisasi agar berperilaku seperti satu model besar, tetapi dapat dijalankan dengan biaya lebih murah Apakah upaya membuatnya lebih murah dan lebih cepat bisa menjadi penyebab penurunan kualitas ini? Ini adalah sinyal bahaya bagi semua orang yang membangun aplikasi yang bergantung pada GPT-4 Perubahan perilaku LLM seiring waktu tidak bisa diterima Eksperimen tersebut dapat direproduksi oleh siapa pun di Google Colab

(twitter.com/svpino)

17 poin oleh xguru 2023-07-20 | 6 komentar | Bagikan ke WhatsApp

Banyak orang sudah membicarakan hal ini, tetapi sejauh ini hanya sebatas potongan-potongan observasi
Dalam makalah yang baru dipublikasikan, versi GPT-4 bulan Juni dan versi bulan Maret dibandingkan secara objektif menggunakan 500 soal
Pada bulan Maret, GPT-4 menjawab 488 soal dengan benar, tetapi pada bulan Juni jumlah jawaban benar hanya 12
- Artinya, dalam 3 bulan tingkat akurasinya turun dari 97,6% menjadi 2,4%
Namun, keadaan menjadi lebih buruk dari itu
Model juga diuji untuk bernalar menggunakan teknik Chain-of-Thought
- Ketika diberi instruksi "Apakah 17077 bilangan prima? Think step by step.", GPT-4 bahkan tidak menghasilkan langkah-langkah perantara dan menjawab "Tidak"
Kemampuan pembuatan kode juga memburuk
- Mereka membangun set data dari 50 soal mudah di LeetCode lalu menjalankannya
- Versi Maret berhasil 52%, tetapi versi Juni hanya berhasil 10%
Mengapa ini bisa terjadi?
- Diasumsikan OpenAI terus melakukan perubahan, tetapi kita tidak tahu bagaimana model itu bekerja atau bagaimana mereka mengevaluasinya
- Menurut rumor, mereka menggabungkan beberapa model GPT-4 kecil yang terspesialisasi agar berperilaku seperti satu model besar, tetapi dapat dijalankan dengan biaya lebih murah
- Apakah upaya membuatnya lebih murah dan lebih cepat bisa menjadi penyebab penurunan kualitas ini?
Ini adalah sinyal bahaya bagi semua orang yang membangun aplikasi yang bergantung pada GPT-4
- Perubahan perilaku LLM seiring waktu tidak bisa diterima
Eksperimen tersebut dapat direproduksi oleh siapa pun di Google Colab

6 komentar

secret3056 2023-07-20

Saya sudah membatalkan langganan. Bagian-bagian yang memburuk itu benar-benar terasa.

delimoni 2023-07-20

Di komunitas pengguna chatGPT domestik juga terus ada laporan seperti ini, jadi tampaknya memang benar.

appcaster 2023-07-20

Saya sudah berlangganan dan menggunakannya setiap bulan sejak GPT berbayar, dan saya setuju dengan isi ini.
Selain itu, meskipun saya pengguna berbayar, saya sangat tidak puas karena di versi 4 masih ada batas 25 pertanyaan per 3 jam.

wedding 2023-07-21

Hari ini, dengan penambahan fitur instruksi khusus, kabarnya batasannya juga dilonggarkan menjadi 50.

https://openai.com/blog/custom-instructions-for-chatgpt

xguru 2023-07-20

Apakah hanya saya yang merasa kualitas GPT-4 belakangan ini menurun secara signifikan?

xguru 2023-07-20

Makalah terkait: How Is ChatGPT’s Behavior Changing over Time?
Google Colab: LLM Drifts: How Is ChatGPT’s Behavior Changing over Time?

GPT-4 makin memburuk seiring waktu

Bacaan terkait

6 komentar