- Sistem o3 dari OpenAI mencetak rekor baru pada dataset publik ARC-AGI-1
- Semi-Private Evaluation: mencapai 75.7% dalam mode efisiensi tinggi
- Mode biaya tinggi (komputasi 172 kali lebih besar): mencatat 87.5%
- Kemajuan penting yang menunjukkan kemampuan penanganan tugas baru dan adaptif, melampaui keterbatasan model keluarga GPT
- GPT-3 (2020) 0% → GPT-4o (2024) 5% → berkembang hingga 75.7% dengan o3
- Hasil ARC-AGI-1 menawarkan intuisi baru tentang peningkatan kemampuan AI
Masa depan ARC Prize dan riset AGI
- ARC Prize bertujuan menjadi penunjuk arah bagi riset AGI
- ARC-AGI-2 dijadwalkan rilis pada 2025:
- Terdiri dari masalah yang mudah bagi manusia tetapi sulit bagi AI
- Bertujuan mendorong pengembangan solusi baru yang efisien dan open-source
- Pencapaian o3 menekankan perlunya perancangan benchmark AGI baru
Hasil pengujian OpenAI o3 pada ARC-AGI
Dataset uji dan metode
- Semi-Private Eval: 100 tugas nonpublik yang digunakan untuk mencegah overfitting
- Public Eval: 400 tugas publik
- Pengujian dilakukan pada dua pengaturan komputasi: efisiensi tinggi (6 sampel) dan efisiensi rendah (1024 sampel)
Pencapaian utama (efisiensi tinggi vs efisiensi rendah)
- Semi-Private Eval:
- Efisiensi tinggi: 75.7% / biaya $20 / 1.3 menit per tugas
- Efisiensi rendah: 87.5% / 13.8 menit per tugas
- Public Eval:
- Efisiensi tinggi: 82.8% / biaya $17
- Efisiensi rendah: 91.5%
Hubungan efisiensi dan kinerja
- Skor efisiensi tinggi menempati peringkat 1 berdasarkan standar ARC-AGI-Pub (di bawah $10,000)
- Skor efisiensi rendah menunjukkan bahwa peningkatan komputasi dapat meningkatkan kinerja, tetapi dengan biaya tinggi
- o3 bukan sekadar pencapaian dari penambahan komputasi sederhana. Ini adalah peningkatan mendasar dalam kemampuan adaptasi AI
Diskusi tentang AGI
Perbedaan ARC-AGI dan AGI
- ARC-AGI adalah alat riset untuk mengevaluasi kemampuan generalisasi AI
- o3 menunjukkan performa luar biasa di ARC-AGI, tetapi belum cukup untuk dianggap sebagai AGI
- Masih ada kasus gagal pada tugas yang mudah
- Pada ARC-AGI-2 mendatang, skornya berpotensi turun hingga di bawah 30%
Pembeda utama o3
- Peningkatan kemampuan menangani tugas baru dan beradaptasi dibanding model GPT sebelumnya
- Mengadopsi metode pencarian dan eksekusi program bahasa alami:
- Menjelajahi "proses berpikir (Chain of Thought)" untuk menyelesaikan tugas selama pengujian
- Pendekatan yang mirip dengan pencarian pohon Monte-Carlo
- Diprogram dalam bentuk menghasilkan dan mengeksekusi instruksi bahasa alami
Perbandingan dengan model GPT sebelumnya
- GPT sebelumnya bekerja dengan pola "simpan → cari → terapkan"
- Keterbatasannya adalah kurang mampu beradaptasi terhadap tugas baru
- o3 memiliki kemampuan untuk mengombinasikan ulang fungsi yang ada agar dapat beradaptasi dengan tugas baru
Arah riset ke depan
Analisis open-source terhadap o3
- ARC Prize bertujuan mendorong pengembangan solusi yang efisien dan open-source
- Data uji o3 dan tugas yang belum terselesaikan dipublikasikan:
- Komunitas diundang untuk menganalisis karakteristik tugas yang belum terpecahkan
- Diskusi dapat dilakukan di kanal Discord dan GitHub
Benchmark generasi berikutnya
- Pengembangan ARC-AGI-2 sedang berlangsung:
- Dijadwalkan rilis pada akhir kuartal pertama 2025
- Desain yang sepenuhnya baru, lepas dari format ARC-AGI yang ada
- ARC Prize Foundation berencana terus mengembangkan benchmark baru untuk riset AGI
Kesimpulan
- OpenAI o3 merupakan pencapaian terobosan yang membuktikan kemampuan adaptasi AI melampaui batas keluarga GPT
- Pengenalan pencarian program bahasa alami yang dipimpin LLM membuka ranah baru
- Ke depan, diperlukan riset untuk menyeimbangkan efisiensi dan kinerja serta kolaborasi melalui open-source
1 komentar
Pendapat Hacker News
Efisiensi menjadi penting. Istilah ARC-AGI-TUNED digunakan untuk menyiratkan bahwa banyak sumber daya komputasi telah dipakai. Dibandingkan dengan biaya yang dikeluarkan manusia untuk menyelesaikan teka-teki ARC-AGI, saat ini biaya penalaran setingkat manusia dengan komputasi masih sangat tinggi.
Menguraikan pola bahasa alami lebih kompleks daripada teka-teki. Jika AI dilatih untuk memecahkan teka-teki, sulit menghasilkan data pelatihan untuk media eksternal. Mengesankan bahwa jawaban pola blok dapat diinferensikan dengan pelatihan tambahan yang minimal.
Tugas pemrograman o3-mini tidak terlalu sulit. Ketika tugas itu diberikan kepada Claude 3.5 Sonnet, ia berhasil pada percobaan pertama.
ARC karya Francois Chollet adalah benchmark LLM yang sangat menarik dan menantang. Banyak orang mengkritik bahwa ARC tidak merepresentasikan penalaran sejati, tetapi ini membuktikan bahwa apa yang diukur ARC memang penting bagi penalaran.
Performa manusia adalah 85% dan o3 high mencapai 87.5%. Ini berarti ada algoritme yang dapat mencapai performa setingkat manusia. Ini menjelaskan mengapa orang merasa AGI sudah semakin dekat.
o3 mencakup aspek-aspek esensial dari AGI. Menyelesaikan masalah ARC membutuhkan penggunaan berbagai pengetahuan inti dan tingkat abstraksi yang tepat.
Biaya menjalankan model o3 sangat tinggi. Namun, pada tingkat negara, ini bisa menjadi kemajuan penting meskipun tidak ekonomis. Jika AI dengan kecerdasan mirip manusia dapat disediakan sesuai permintaan, dampaknya mungkin akan muncul lebih cepat dari yang diperkirakan.
ARC-AGI bukan berarti AGI telah tercapai. o3 masih gagal pada tugas-tugas yang mudah. Benchmark ARC-AGI-2 kemungkinan masih akan menjadi tantangan bagi o3.
ARC maupun benchmark apa pun tidak boleh disamakan dengan kecerdasan umum sejati. Kecerdasan umum kemungkinan hanya bisa diidentifikasi dengan keuntungan retrospektif yang signifikan.