Chain-of-Thought dan penurunan kinerja
-
Ringkasan Chain-of-Thought (CoT)
- CoT adalah strategi yang banyak digunakan pada model bahasa besar dan multimodal.
- CoT dikenal dapat meningkatkan kinerja pada berbagai tugas, tetapi mengidentifikasi dalam pengaturan seperti apa metode ini efektif masih menjadi pekerjaan yang terus berlangsung.
-
Tujuan penelitian
- Penelitian ini bertujuan mengidentifikasi karakteristik tugas di mana CoT dapat menurunkan kinerja model.
- Dengan inspirasi dari psikologi kognitif, penelitian ini menelaah (i) kasus ketika pemikiran verbal atau perenungan justru menghambat kinerja manusia, dan (ii) kasus ketika kendala yang mendominasi kinerja manusia dapat digeneralisasi ke model bahasa.
-
Contoh utama penelitian
- Tiga kasus diuji, yaitu pembelajaran statistik implisit, pengenalan visual, dan klasifikasi pola yang mencakup pengecualian.
- Ditemukan bahwa pada berbagai model mutakhir, penggunaan penalaran saat inferensi dapat menurunkan kinerja secara signifikan (misalnya, OpenAI o1-preview mengalami penurunan akurasi absolut hingga 36,3% dibanding GPT-4o).
-
Temuan tambahan
- Tiga tugas diidentifikasi memenuhi kondisi (i) tetapi tidak memenuhi (ii).
- Pada tugas-tugas ini, meskipun pemikiran verbal menurunkan kinerja manusia, CoT tetap mempertahankan atau bahkan meningkatkan kinerja model.
-
Kesimpulan
- Tidak ada garis paralel yang benar-benar presisi antara proses kognitif model dan proses kognitif manusia, tetapi mempertimbangkan kasus-kasus ketika penalaran berdampak negatif pada kinerja manusia membantu mengidentifikasi pengaturan yang juga dapat berdampak negatif pada model.
- Dengan menghubungkan literatur tentang perenungan manusia dan evaluasi CoT, penelitian ini menawarkan alat baru untuk memahami pemilihan prompt dan dampak penalaran saat inferensi.
Ringkasan GN⁺
- Penelitian ini menunjukkan bahwa CoT tidak selalu meningkatkan kinerja model dalam semua situasi.
- Penelitian ini mengisyaratkan kemungkinan memprediksi penurunan kinerja model melalui kasus-kasus ketika penalaran manusia berdampak negatif pada performa.
- Menarik bahwa wawasan dari psikologi kognitif dimanfaatkan untuk memahami efektivitas CoT.
- Proyek dengan fungsi serupa yang direkomendasikan mencakup berbagai model bahasa dari OpenAI.
Belum ada komentar.