Mencapai 50% (SoTA) di Arc-AGI dengan GPT-4o

Mencapai akurasi 50% di ARC-AGI dengan GPT-4

Apa itu ARC-AGI?

ARC-AGI adalah dataset yang dibuat untuk mengevaluasi kemampuan penalaran umum AI.
Terdiri dari masalah yang mengharuskan inferensi aturan transformasi dengan melihat contoh input-output berbentuk grid yang tersusun dari sel berwarna.
Rata-rata akurasi manusia adalah 85% pada set pelatihan, tetapi set pengujian jauh lebih sulit.

Metode saya

Menggunakan GPT-4 untuk menghasilkan sekitar 8.000 program Python per masalah, lalu memilih program yang menghasilkan output yang benar.
Beberapa pendekatan tambahan dan penyesuaian sangat meningkatkan performa:
- Few-shot prompts: menggunakan prompt untuk melakukan penalaran langkah demi langkah.
- Modifikasi kode: membiarkan GPT-4 memperbaiki sebagian implementasi berdasarkan hasil output contoh.
- Feature engineering: memberikan representasi grid yang lebih baik kepada model.
- Prompt khusus: menggunakan prompt yang berbeda tergantung apakah ukuran grid berubah atau tidak.

Efek dari sampling yang lebih banyak

Performa meningkat seiring bertambahnya jumlah sampel.
Misalnya, 1.024 sampel menghasilkan akurasi 25%, tetapi 2.048 sampel menghasilkan akurasi 34%.

Efek dari prompt yang lebih baik dan modifikasi kode

Peningkatan prompt dan tahap modifikasi kode penting untuk meningkatkan akurasi.
Pada versi akhir, akurasi mencapai 50%.

Keterbatasan dan prediksi

Kemampuan persepsi visual dan pemrograman GPT-4 terbatas.
Diperlukan lebih banyak sampling dan prompt yang lebih baik.
Generasi LLM berikutnya sangat mungkin meningkatkan performa ARC-AGI secara signifikan.

Opini GN⁺

Kemampuan persepsi visual: kemampuan persepsi visual GPT-4 terbatas, sehingga diperlukan model persepsi visual yang lebih baik.
Kemampuan coding: GPT-4 sering melakukan kesalahan sederhana saat coding. Untuk memperbaikinya, diperlukan alat debugging yang lebih baik.
Biaya sampling: karena membutuhkan banyak sampling, biayanya bisa tinggi. Diperlukan metode sampling yang efisien.
Potensi masa depan: generasi LLM berikutnya sangat mungkin meningkatkan performa ARC-AGI secara signifikan. Ini dapat menjadi tolok ukur penting untuk mengevaluasi kemampuan penalaran umum AI.
Aplikasi nyata: diperlukan penelitian tentang bagaimana kemampuan pemecahan masalah seperti ARC-AGI dapat dimanfaatkan dalam bidang aplikasi nyata.

1 komentar

GN⁺ 2024-06-19

Komentar Hacker News

Salah satu pendiri ARC Prize: Riset Ryan menarik dan merupakan riset baru tentang "penalaran LLM", yang menggunakan GPT-4o untuk menghasilkan 8.000 program Python, lalu memilih program yang benar dan menerapkannya pada input uji tambahan. Ini adalah hasil pada set evaluasi publik dan belum merupakan hasil yang tervalidasi, tetapi tetap menjanjikan. Ia menyampaikan selamat dan terima kasih atas upaya Ryan.
Kritik terhadap artikel: Artikel itu melompat ke kesimpulan bahwa "LLM saat ini dapat bekerja cukup baik di ARC-AGI" meskipun hasil tersebut diperoleh dengan memakai berbagai trik manual. Serangan terhadap Francois Chollet merugikan komunitas.
Pendapat tentang GPT-4: GPT-4 adalah AGI yang buruk, dan GPT-1 juga merupakan AGI. Seperti kecerdasan manusia berkembang secara bertahap, GPT-4 juga dapat dipandang sebagai otak kecil yang terspesialisasi untuk penalaran berbasis teks. Mengklaim bahwa ARC adalah tolok ukur absolut untuk kecerdasan umum berarti melewatkan gambaran besar tentang kecerdasan.
Upaya awal GPT-4: GPT-4 menunjukkan hasil yang "lumayan" pada teka-teki, tetapi ada kasus ketika ia gagal pada bagian yang logis. Unsur visual-spasial penting, dan model multimodal mungkin diperlukan. Menghasilkan solusi Python secara acak adalah pendekatan yang "tidak manusiawi".
Makna manipulasi LLM: Banyak orang membuat LLM lolos tes AGI dengan berbagai manipulasi, yang membuat tujuan tes AGI menjadi pudar. Namun, mencari tahu manipulasi seperti apa yang efektif tetap bermanfaat. Sebagian besar masalah pada akhirnya bermuara pada pencocokan pola.
Poin utama:
- Sebagian besar pekerjaan dilakukan melalui pencarian.
- Lebih banyak sampel meningkatkan performa.
- LLM menghasilkan program yang lebih baik daripada program acak.
- Tidak ada kepastian apakah GPT-4 benar-benar dapat menyelesaikan teka-teki ARC.
Kelemahan ARC-AGI: ARC-AGI tampak memiliki kelemahan. Apa yang dijelaskan sebagai AGI juga bisa dijelaskan sebagai sesuatu yang sudah termasuk dalam set pelatihan.
System 2 dan AGI: Menghasilkan dan mengevaluasi banyak program dapat berperan sebagai system 2 pada AGI. Ini mirip dengan cara manusia berpikir secara cerdas.
Pentingnya pemahaman fisik: Tantangan ini bergantung pada pemahaman fisik, kesadaran spasial, dan batas objek. Mengidentifikasi objek serta memetakan transformasi atau relasi adalah hal yang penting. Ini bisa dipecahkan dengan menggabungkan pencarian program dan LLM.
Kemampuan perencanaan GPT-4: GPT-4 dapat membuat rencana yang mirip dengan yang dijelaskan dalam artikel. Ini mencakup ekstraksi fitur, sintesis program, dan perbaikan iteratif. Ia memiliki kelemahan dalam coding dan input visual.

Mencapai 50% (SoTA) di Arc-AGI dengan GPT-4o

Mencapai akurasi 50% di ARC-AGI dengan GPT-4

Apa itu ARC-AGI?

Metode saya

Efek dari sampling yang lebih banyak

Efek dari prompt yang lebih baik dan modifikasi kode

Keterbatasan dan prediksi

Opini GN⁺

Bacaan terkait

1 komentar

Komentar Hacker News