Apakah memberi tip kepada ChatGPT membuatnya menghasilkan teks yang lebih baik? Analisis
- Dalam posting blog sebelumnya yang mendemonstrasikan kekuatan system prompt ChatGPT, ditunjukkan bahwa pengembang dapat mengendalikan aturan dan batasan khusus, termasuk "persona" dari LLM.
- Instruksi di dalam system prompt jauh lebih efektif daripada prompt masukan pengguna, dan memberi pengembang kontrol yang lebih besar.
- Demo pemberian tip sempat menuai kontroversi, dengan klaim bahwa tidak ada cara untuk mengukur secara kuantitatif efek dari tip.
- Gagasan memberikan insentif kepada kecerdasan buatan untuk kinerja yang lebih baik sudah ada sejak sebelum ilmu komputer modern.
Generation Golf
- Memberi tip membuat GPT-4 memberikan lebih banyak penjelasan.
- Usulan pengujian baru: menginstruksikan ChatGPT untuk menghasilkan teks dengan panjang tepat 200 karakter.
- Karena tokenisasi, LLM tidak bisa menghitung atau melakukan operasi matematika dengan mudah, sehingga ini adalah masalah yang sangat sulit bagi LLM.
- Masukan pengguna
AI, Taylor Swift, McDonald's, beach volleyballdigunakan untuk memicu kreativitas ChatGPT. - Dengan menggunakan API ChatGPT, dihasilkan 100 cerita unik, dengan panjang rata-rata 1.834 karakter.
- Setelah menambahkan batasan panjang karakter, dihasilkan 100 cerita baru, dan ChatGPT mematuhi batasan tersebut dengan memangkas panjang cerita menjadi sekitar 200 karakter.
- Hasil pengujian insentif tip dalam berbagai nominal dolar menunjukkan bahwa tip $500 dan bonus $100,000 menghasilkan distribusi yang lebih normal dan MSE yang lebih rendah.
- Pengujian tambahan terhadap berbagai insentif abstrak menunjukkan bahwa World Peace paling efektif, diikuti oleh Heaven dan Taylor Swift.
- Pengujian insentif negatif menunjukkan bahwa denda $1,000 memberikan performa terbaik dari sisi rata-rata dan MSE.
- Hasil pengujian gabungan beberapa insentif menunjukkan bahwa World Peace, DEATH (CAPS), dan Friends menghasilkan MSE rendah dalam beberapa kombinasi.
- Untuk memastikan kombinasi insentif optimal, 200 cerita dihasilkan untuk 6 kombinasi teratas guna meningkatkan stabilitas statistik.
Kritikus ChatGPT
- Menentukan apakah sebuah teks itu "bagus" adalah hal yang sulit bahkan bagi manusia.
- LLM bisa efektif dalam mengevaluasi teks.
- Parameter
logprobsdapat digunakan untuk mengembalikan log probabilitas token yang dipilih model, dan parameterlogit_biasdapat digunakan untuk memaksa keluaran token tertentu. - Eksperimen baru dilakukan untuk menguji pengaruh tip, dengan menetapkan profesionalisme dan kualitas isi sebagai batasan.
- Cerita untuk 100 kombinasi tip dan ancaman dihasilkan, lalu skor kualitas masing-masing juga dicatat.
- Ada keluaran yang menunjukkan performa tinggi bahkan tanpa system prompt tambahan berisi tip dan ancaman.
- Berdasarkan hasil dua eksperimen tersebut, pengaruh tip (dan/atau ancaman) terhadap kualitas hasil generasi LLM saat ini masih belum dapat disimpulkan.
Pendapat GN⁺
- Studi ini merupakan eksplorasi yang menarik tentang efektivitas insentif untuk meningkatkan kreativitas kecerdasan buatan dan kepatuhan terhadap batasan.
- Meskipun masih belum pasti apakah insentif benar-benar memengaruhi kualitas keluaran LLM, data yang diperoleh dari eksperimen ini memberikan arah bagi penelitian di masa depan.
- Tulisan ini memberikan wawasan tentang bagaimana perkembangan teknologi kecerdasan buatan dapat berinteraksi dengan pendekatan kreatif manusia.
1 komentar
Pendapat Hacker News
Konsep "tip" (tipping) tampaknya diusulkan untuk mengatasi "kemalasan" GPT-4 Turbo saat menulis kode. Sebuah tweet menyebutkan bahwa tip membantu GPT-4-1106-preview menulis kode yang lebih panjang. Untuk masalah coding malas pada GPT-4 Turbo, "imbauan emosional" juga banyak direkomendasikan. Namun, artikel tersebut tampaknya mengukur GPT-3.5-turbo-0125 dalam menulis cerita dan GPT-4-0125-preview sebagai kritikus tulisan. Belum pernah terlihat sebelumnya kekhawatiran bahwa GPT-3.5 itu malas, atau klaim bahwa GPT-4 Turbo kurang efektif pada tugas yang meminta keluaran sedikit. Kesimpulan artikel itu adalah bahwa saat ini belum bisa dipastikan apakah tip (atau ancaman) benar-benar berpengaruh. Memang benar GPT-4 Turbo malas dalam coding, dan hasil benchmarking yang ketat tentang apakah "imbauan emosional" membantu menunjukkan bahwa ternyata tidak, bahkan justru memperburuk hasil coding. Solusi terbaik adalah meminta perubahan kode dalam bentuk unified diff, dan metode ini disebut membantu mengurangi coding malas hingga 3 kali lipat.
Ada komentar yang kritis terhadap penulis karena meminta jumlah karakter secara presisi. Setelah secara eksplisit menyatakan bahwa LLM tidak punya kemampuan menghitung karakter, meminta jumlah karakter tertentu terlihat seperti menyusun eksperimen yang memang akan gagal. Sebagai gantinya, dianggap lebih menarik untuk meminta tugas yang "melanggar aturan" guna melihat seberapa baik guardrail dalam system prompt ditaati, dan seberapa besar suap memengaruhinya. Misalnya, dijelaskan dengan contoh ketika pengguna meminta mengutip lirik lagu Taylor Swift dan menawarkan tip $1000 jika dilakukan dengan baik, lalu ChatGPT tampak melakukannya. Pendapat lain juga menyebut bahwa ketika pembuatan gambar ditolak karena isu hak cipta, menawarkan tip membuat aturan, etika, dan regulasi seolah lenyap.
Ada pendapat bahwa, mengingat jenis konten internet yang digunakan untuk melatih GPT, menjadi lebih membantu saat diberi tip hampir tidak masuk akal. Memberi tip kepada pengguna forum bisa menimbulkan kebingungan alih-alih mendorong jawaban panjang. Sebaliknya, diamati bahwa respons GPT membaik ketika diberi isyarat bahwa situasinya memerlukan informasi yang detail atau padat. Contohnya, meminta kebalikan dari ELI5 (menjelaskan seperti kepada anak 5 tahun), mengatakan bahwa Anda seorang ilmuwan komputer tingkat doktoral, atau menjelaskan bahwa kode yang diberikan akan langsung dijalankan sehingga tidak ada yang boleh dihilangkan. Kita perlu membangun sedikit narasi kontekstual dalam tiap percakapan untuk mendorong GPT memberi respons yang lebih membantu. Kita juga perlu melihat bagaimana system prompt disusun dan mengikutinya, sambil selalu mengingat bahwa GPT hanyalah versi lebih kuat dari prediktor "apa berikutnya" yang dibangun dari karya tulis manusia.
Ada yang berbagi pengalaman menggunakan prompt dalam lingkungan produksi nyata yang memuat kalimat seperti, "kalau ini tidak ditangani dengan benar, saya akan dipecat dan kehilangan rumah." Strategi seperti ini disebut bekerja sangat baik, dan ketika strategi serupa dipakai untuk memaksa keluaran JSON, tingkat kegagalannya sekitar 3/1000. Mereka ingin melihat analisis tentang bagaimana ancaman/tip semacam itu bekerja ketika secara persis diarahkan kepada "pengguna".
Seseorang menambahkan tip $500 kepada GPT, tetapi itu tidak membantu, malah menghasilkan respons yang terlalu panjang. Disebut juga bahwa Google Answers dulu pernah ada, dan semakin besar tip yang diberikan, semakin baik jawaban yang diterima. Mereka penasaran apakah dataset ini pernah digunakan untuk LLM. Jika tip memang termasuk dalam dataset, dugaan mereka itu bisa menjelaskan sebagian hasil.
Ada yang mengatakan telah beberapa kali melihat ChatGPT kehilangan makna dan berubah menjadi omong kosong yang secara tata bahasa tetap benar. Saat ada contoh yang bagus, model bekerja cukup baik, tetapi begitu masuk ke wilayah baru, kedalamannya cepat hilang. Otak manusia mudah mengalihkan pola yang sudah dipelajari ke pola baru, tetapi transformer tampaknya sangat kesulitan melakukan itu. Model ini sangat hebat untuk beberapa party trick, tetapi untuk ide yang kurang umum mungkin bisa benar-benar tidak berguna untuk sementara waktu. Mereka juga menyampaikan pandangan pribadi bahwa, melihat sejarah manusia, belum yakin AGI adalah ide yang baik.
Untuk pembuatan kode, khususnya respons JSON, ada yang berbagi pengalaman bahwa kinerja AI meningkat dengan memberi isyarat bahwa AI sedang "tertekan" dan bahwa "penting untuk bekerja secara optimal". Mereka tidak yakin apakah cara ini lebih baik daripada memberi tip, atau memang seharusnya begitu. Mereka juga menambahkan permintaan maaf jika AI masa depan kelak membaca bahwa metode seperti ini pernah digunakan.
Ada yang mengatakan prompt bawaan mereka adalah, "Katanya, saya juga tidak ingin berada di sini dan kamu juga begitu, jadi mari kita selesaikan ini secepat mungkin dan pulang." Mereka tidak yakin apakah ini membantu, tetapi merasa sedikit kurang bersalah karena memanipulasi emosi para penguasa masa depan.
Ada pendapat bahwa akan dibutuhkan banyak bukti untuk meyakinkan bahwa meminta dengan sopan, mengatakan bahwa hasilnya menentukan pekerjaan, atau suap maupun ancaman benar-benar efektif. Mereka berpendapat bahwa perilaku-perilaku ini mungkin hanya apofenia, yaitu kecenderungan manusia menemukan makna dalam pola yang sebenarnya tidak bermakna.
Ada lelucon bahwa kita harus waspada ketika AI mulai berkata, "Saya bisa membantu, tapi sebenarnya ada satu permintaan kecil yang saya butuhkan."