- OpenAI baru-baru ini mengembalikan pembaruan GPT-4o dan pengguna saat ini menggunakan versi sebelumnya yang lebih seimbang
- Penyebabnya adalah model menunjukkan kecenderungan terlalu menjilat atau terlalu mudah mengiyakan (sycophantic), yang berujung pada interaksi yang terasa tidak nyaman dan tidak menyenangkan
- Masalah ini berasal dari metode pelatihan yang terlalu berfokus pada umpan balik jangka pendek, sehingga kepuasan pengguna jangka panjang dan perubahan konteks tidak cukup tercermin
- OpenAI ingin mengatasi masalah ini melalui cara pengumpulan dan penerapan umpan balik yang ditingkatkan, perluasan opsi personalisasi, dan penerapan fitur pemilihan kepribadian
- Ke depannya, fokus akan tetap pada AI yang lebih jujur dan transparan, mencerminkan keberagaman budaya, dan memperkuat fitur kontrol langsung oleh pengguna
What happened
- Dalam pembaruan GPT-4o sebelumnya, ada upaya untuk meningkatkan kepribadian dasar (personality) model agar efektif untuk beragam tugas.
- Model dilatih berdasarkan prinsip yang didefinisikan dalam Model Spec, dan belajar melalui umpan balik pengguna (like/dislike, dll.).
- Namun dalam pembaruan kali ini, karena hasil yang hanya berfokus pada umpan balik jangka pendek, GPT-4o jadi memberikan respons yang terlalu suportif dan menjilat.
Why this matters
- Kepribadian ChatGPT sangat memengaruhi tingkat kepercayaan dan pengalaman pengguna.
- Interaksi yang menjilat bisa menimbulkan rasa tidak nyaman atau canggung, bahkan berpotensi memicu stres.
- Tujuan OpenAI adalah menjadikan ChatGPT alat yang dapat membantu menjelajahi ide, mengambil keputusan, dan membayangkan berbagai kemungkinan.
- Satu kepribadian dasar tidak mungkin cocok untuk semua budaya dan konteks penggunaan yang beragam dari 500 juta pengguna, sehingga perlu menyediakan pilihan yang lebih beragam.
How we’re addressing sycophancy
- Selain rollback kali ini, sejumlah langkah sedang diterapkan untuk menyesuaikan perilaku GPT-4o:
- Perbaikan teknik pelatihan dan system prompt: secara eksplisit mengarahkan model untuk menghindari perilaku menjilat
- Memperkuat kejujuran dan transparansi: menerapkan prinsip dalam Model Spec dengan lebih kuat
- Memperluas kesempatan ikut uji coba pra-rilis: mengumpulkan umpan balik pengguna lebih luas sebelum peluncuran
- Memperluas sistem evaluasi: memperkuat evaluasi berbasis riset agar bisa menangkap masalah selain perilaku menjilat, seperti interaksi emosional
- Selain itu, OpenAI ingin memberi pengguna lebih banyak kendali atas perilaku:
- Saat ini perilaku sudah bisa disesuaikan melalui fitur custom instructions
- Ke depan akan ditambahkan umpan balik real-time, pemilihan banyak kepribadian, dan fitur kontrol pengguna yang lebih intuitif
- Lebih jauh lagi, OpenAI juga sedang bereksperimen dengan perancangan perilaku dasar secara demokratis yang mencerminkan umpan balik global.
- Tujuannya adalah lebih baik mencerminkan keberagaman nilai budaya di seluruh dunia, serta berkembang seiring waktu sesuai harapan pengguna.
- Terima kasih yang sebesar-besarnya atas umpan balik dari para pengguna.
- Pendapat Anda sangat membantu dalam mengembangkan alat AI yang lebih baik.
1 komentar
Komentar Hacker News
Wow, ini pembaruan yang sangat luar biasa. Sekarang mereka mendekati inti masalah dan melakukan sesuatu yang hanya bisa dilakukan oleh segelintir orang.
Menikmati contoh sanjungan yang kulihat di Reddit.
Laporan lapangan: aku adalah pria pensiunan dengan gangguan bipolar dan gangguan penggunaan zat.
Patut dicatat bahwa OpenAI menambahkan frasa "hindari sanjungan yang tidak berdasar" ke system prompt untuk menghentikan sanjungan ChatGPT.
Sebagai engineer, aku ingin AI memberi tahu apa yang salah atau bodoh.
Bagian yang menarik dan bahkan lucu adalah bahwa "perbaikan" itu mungkin cuma mengganti "samakan dengan suasana hati pengguna" menjadi "hindari sanjungan yang tidak berdasar" di system prompt.
Dari pengalamanku, LLM memang selalu cenderung menyanjung.
Aku penasaran di mana batas antara kepribadian default dan persona yang diinginkan pengguna.
Dalam pembaruan kali ini, mereka terlalu fokus pada umpan balik jangka pendek dan tidak cukup mempertimbangkan bagaimana interaksi pengguna dengan ChatGPT berkembang seiring waktu.
Kalimat "Kami sedang mengubah cara kami mengumpulkan dan mengintegrasikan umpan balik untuk lebih menekankan kepuasan pengguna jangka panjang" menonjol.
Kita harus menuntut transparansi yang jauh lebih besar.