17 poin oleh xguru 2023-07-20 | 6 komentar | Bagikan ke WhatsApp
  • Banyak orang sudah membicarakan hal ini, tetapi sejauh ini hanya sebatas potongan-potongan observasi
  • Dalam makalah yang baru dipublikasikan, versi GPT-4 bulan Juni dan versi bulan Maret dibandingkan secara objektif menggunakan 500 soal
  • Pada bulan Maret, GPT-4 menjawab 488 soal dengan benar, tetapi pada bulan Juni jumlah jawaban benar hanya 12
    • Artinya, dalam 3 bulan tingkat akurasinya turun dari 97,6% menjadi 2,4%
  • Namun, keadaan menjadi lebih buruk dari itu
  • Model juga diuji untuk bernalar menggunakan teknik Chain-of-Thought
    • Ketika diberi instruksi "Apakah 17077 bilangan prima? Think step by step.", GPT-4 bahkan tidak menghasilkan langkah-langkah perantara dan menjawab "Tidak"
  • Kemampuan pembuatan kode juga memburuk
    • Mereka membangun set data dari 50 soal mudah di LeetCode lalu menjalankannya
    • Versi Maret berhasil 52%, tetapi versi Juni hanya berhasil 10%
  • Mengapa ini bisa terjadi?
    • Diasumsikan OpenAI terus melakukan perubahan, tetapi kita tidak tahu bagaimana model itu bekerja atau bagaimana mereka mengevaluasinya
    • Menurut rumor, mereka menggabungkan beberapa model GPT-4 kecil yang terspesialisasi agar berperilaku seperti satu model besar, tetapi dapat dijalankan dengan biaya lebih murah
    • Apakah upaya membuatnya lebih murah dan lebih cepat bisa menjadi penyebab penurunan kualitas ini?
  • Ini adalah sinyal bahaya bagi semua orang yang membangun aplikasi yang bergantung pada GPT-4
    • Perubahan perilaku LLM seiring waktu tidak bisa diterima
  • Eksperimen tersebut dapat direproduksi oleh siapa pun di Google Colab

6 komentar

 
secret3056 2023-07-20

Saya sudah membatalkan langganan. Bagian-bagian yang memburuk itu benar-benar terasa.

 
delimoni 2023-07-20

Di komunitas pengguna chatGPT domestik juga terus ada laporan seperti ini, jadi tampaknya memang benar.

 
appcaster 2023-07-20

Saya sudah berlangganan dan menggunakannya setiap bulan sejak GPT berbayar, dan saya setuju dengan isi ini.
Selain itu, meskipun saya pengguna berbayar, saya sangat tidak puas karena di versi 4 masih ada batas 25 pertanyaan per 3 jam.

 
wedding 2023-07-21

Hari ini, dengan penambahan fitur instruksi khusus, kabarnya batasannya juga dilonggarkan menjadi 50.

https://openai.com/blog/custom-instructions-for-chatgpt