OpenAI O3 Mencapai Skor Terobosan Tinggi di ARC-AGI-PUB

(arcprize.org)

3 poin oleh GN⁺ 2024-12-21 | 1 komentar | Bagikan ke WhatsApp

Sistem o3 dari OpenAI mencetak rekor baru pada dataset publik ARC-AGI-1
- Semi-Private Evaluation: mencapai 75.7% dalam mode efisiensi tinggi
- Mode biaya tinggi (komputasi 172 kali lebih besar): mencatat 87.5%
Kemajuan penting yang menunjukkan kemampuan penanganan tugas baru dan adaptif, melampaui keterbatasan model keluarga GPT
GPT-3 (2020) 0% → GPT-4o (2024) 5% → berkembang hingga 75.7% dengan o3
Hasil ARC-AGI-1 menawarkan intuisi baru tentang peningkatan kemampuan AI

Masa depan ARC Prize dan riset AGI

ARC Prize bertujuan menjadi penunjuk arah bagi riset AGI
ARC-AGI-2 dijadwalkan rilis pada 2025:
- Terdiri dari masalah yang mudah bagi manusia tetapi sulit bagi AI
- Bertujuan mendorong pengembangan solusi baru yang efisien dan open-source
Pencapaian o3 menekankan perlunya perancangan benchmark AGI baru

Hasil pengujian OpenAI o3 pada ARC-AGI

Dataset uji dan metode

Semi-Private Eval: 100 tugas nonpublik yang digunakan untuk mencegah overfitting
Public Eval: 400 tugas publik
Pengujian dilakukan pada dua pengaturan komputasi: efisiensi tinggi (6 sampel) dan efisiensi rendah (1024 sampel)

Pencapaian utama (efisiensi tinggi vs efisiensi rendah)

Semi-Private Eval:
- Efisiensi tinggi: 75.7% / biaya $20 / 1.3 menit per tugas
- Efisiensi rendah: 87.5% / 13.8 menit per tugas
Public Eval:
- Efisiensi tinggi: 82.8% / biaya $17
- Efisiensi rendah: 91.5%

Hubungan efisiensi dan kinerja

Skor efisiensi tinggi menempati peringkat 1 berdasarkan standar ARC-AGI-Pub (di bawah $10,000)
Skor efisiensi rendah menunjukkan bahwa peningkatan komputasi dapat meningkatkan kinerja, tetapi dengan biaya tinggi
o3 bukan sekadar pencapaian dari penambahan komputasi sederhana. Ini adalah peningkatan mendasar dalam kemampuan adaptasi AI

Diskusi tentang AGI

Perbedaan ARC-AGI dan AGI

ARC-AGI adalah alat riset untuk mengevaluasi kemampuan generalisasi AI
o3 menunjukkan performa luar biasa di ARC-AGI, tetapi belum cukup untuk dianggap sebagai AGI
- Masih ada kasus gagal pada tugas yang mudah
- Pada ARC-AGI-2 mendatang, skornya berpotensi turun hingga di bawah 30%

Pembeda utama o3

Peningkatan kemampuan menangani tugas baru dan beradaptasi dibanding model GPT sebelumnya
Mengadopsi metode pencarian dan eksekusi program bahasa alami:
- Menjelajahi "proses berpikir (Chain of Thought)" untuk menyelesaikan tugas selama pengujian
- Pendekatan yang mirip dengan pencarian pohon Monte-Carlo
- Diprogram dalam bentuk menghasilkan dan mengeksekusi instruksi bahasa alami

Perbandingan dengan model GPT sebelumnya

GPT sebelumnya bekerja dengan pola "simpan → cari → terapkan"
Keterbatasannya adalah kurang mampu beradaptasi terhadap tugas baru
o3 memiliki kemampuan untuk mengombinasikan ulang fungsi yang ada agar dapat beradaptasi dengan tugas baru

Arah riset ke depan

Analisis open-source terhadap o3

ARC Prize bertujuan mendorong pengembangan solusi yang efisien dan open-source
Data uji o3 dan tugas yang belum terselesaikan dipublikasikan:
- Komunitas diundang untuk menganalisis karakteristik tugas yang belum terpecahkan
- Diskusi dapat dilakukan di kanal Discord dan GitHub

Benchmark generasi berikutnya

Pengembangan ARC-AGI-2 sedang berlangsung:
- Dijadwalkan rilis pada akhir kuartal pertama 2025
- Desain yang sepenuhnya baru, lepas dari format ARC-AGI yang ada
ARC Prize Foundation berencana terus mengembangkan benchmark baru untuk riset AGI

Kesimpulan

OpenAI o3 merupakan pencapaian terobosan yang membuktikan kemampuan adaptasi AI melampaui batas keluarga GPT
Pengenalan pencarian program bahasa alami yang dipimpin LLM membuka ranah baru
Ke depan, diperlukan riset untuk menyeimbangkan efisiensi dan kinerja serta kolaborasi melalui open-source

1 komentar

GN⁺ 2024-12-21

Pendapat Hacker News

Efisiensi menjadi penting. Istilah ARC-AGI-TUNED digunakan untuk menyiratkan bahwa banyak sumber daya komputasi telah dipakai. Dibandingkan dengan biaya yang dikeluarkan manusia untuk menyelesaikan teka-teki ARC-AGI, saat ini biaya penalaran setingkat manusia dengan komputasi masih sangat tinggi.
Menguraikan pola bahasa alami lebih kompleks daripada teka-teki. Jika AI dilatih untuk memecahkan teka-teki, sulit menghasilkan data pelatihan untuk media eksternal. Mengesankan bahwa jawaban pola blok dapat diinferensikan dengan pelatihan tambahan yang minimal.
Tugas pemrograman o3-mini tidak terlalu sulit. Ketika tugas itu diberikan kepada Claude 3.5 Sonnet, ia berhasil pada percobaan pertama.
ARC karya Francois Chollet adalah benchmark LLM yang sangat menarik dan menantang. Banyak orang mengkritik bahwa ARC tidak merepresentasikan penalaran sejati, tetapi ini membuktikan bahwa apa yang diukur ARC memang penting bagi penalaran.
Performa manusia adalah 85% dan o3 high mencapai 87.5%. Ini berarti ada algoritme yang dapat mencapai performa setingkat manusia. Ini menjelaskan mengapa orang merasa AGI sudah semakin dekat.
o3 mencakup aspek-aspek esensial dari AGI. Menyelesaikan masalah ARC membutuhkan penggunaan berbagai pengetahuan inti dan tingkat abstraksi yang tepat.
Biaya menjalankan model o3 sangat tinggi. Namun, pada tingkat negara, ini bisa menjadi kemajuan penting meskipun tidak ekonomis. Jika AI dengan kecerdasan mirip manusia dapat disediakan sesuai permintaan, dampaknya mungkin akan muncul lebih cepat dari yang diperkirakan.
ARC-AGI bukan berarti AGI telah tercapai. o3 masih gagal pada tugas-tugas yang mudah. Benchmark ARC-AGI-2 kemungkinan masih akan menjadi tantangan bagi o3.
ARC maupun benchmark apa pun tidak boleh disamakan dengan kecerdasan umum sejati. Kecerdasan umum kemungkinan hanya bisa diidentifikasi dengan keuntungan retrospektif yang signifikan.

OpenAI O3 Mencapai Skor Terobosan Tinggi di ARC-AGI-PUB

Masa depan ARC Prize dan riset AGI

Hasil pengujian OpenAI o3 pada ARC-AGI

Dataset uji dan metode

Pencapaian utama (efisiensi tinggi vs efisiensi rendah)

Hubungan efisiensi dan kinerja

Diskusi tentang AGI

Perbedaan ARC-AGI dan AGI

Pembeda utama o3

Perbandingan dengan model GPT sebelumnya

Arah riset ke depan

Analisis open-source terhadap o3

Benchmark generasi berikutnya

Kesimpulan

Bacaan terkait

1 komentar

Pendapat Hacker News