ARC-AGI-3 - Benchmark Penalaran Interaktif Pertama

(arcprize.org)

1 poin oleh GN⁺ 26 hari lalu | 1 komentar | Bagikan ke WhatsApp

ARC-AGI-3 adalah benchmark penalaran interaktif pertama untuk mengukur kecerdasan setara manusia pada agen AI, yang mengevaluasi kemampuan eksplorasi lingkungan dan pembelajaran adaptif
Semua tugas disusun sebagai lingkungan yang dapat diselesaikan manusia, dan mengukur efisiensi perolehan keterampilan seiring waktu serta kemampuan perencanaan jangka panjang
Menyediakan tujuan yang jelas dan umpan balik tanpa pengetahuan awal, sambil mempertahankan struktur tugas yang baru untuk mencegah pendekatan berbasis hafalan
Melalui visualisasi replay, toolkit pengembang, dan UI evaluasi, perilaku dan proses penalaran agen dapat diverifikasi secara transparan
Mendukung partisipasi dalam kompetisi ARC Prize 2026 dan pengujian agen melalui set game publik, dokumentasi, SDK, dan kanal komunitas

Ikhtisar ARC-AGI-3

ARC-AGI-3 dirancang sebagai benchmark penalaran interaktif untuk mengukur kecerdasan setara manusia pada agen AI
- Mengevaluasi kemampuan agen untuk menjelajahi lingkungan baru, memahami tujuan, membangun world model yang adaptif, dan terus belajar
- Skor 100% berarti AI dapat menyelesaikan semua game seefisien manusia
- Bukan pemecahan puzzle statis, melainkan harus belajar dari pengalaman dalam lingkungan dan menyesuaikan strategi
- Harus melakukan persepsi, pemilihan tindakan, dan adaptasi strategi tanpa instruksi bahasa alami

Fitur utama

Mencakup run yang dapat diputar ulang, toolkit pengembang untuk integrasi agen, dan UI evaluasi yang transparan
Replay dan evaluasi
- Tindakan agen dapat divisualisasikan dalam bentuk replay sehingga pengambilan keputusan, tindakan, dan proses penalaran dapat ditelusuri secara kronologis
- Tersedia sample replay
Tools dan UI
- Agen dapat diintegrasikan melalui toolkit ARC-AGI-3, dan diuji serta diiterasikan melalui UI interaktif
- Dapat dijalankan langsung melalui tautan Play and test
Dokumentasi
- Menyediakan dokumentasi yang diperlukan untuk membangun agen, termasuk konfigurasi lingkungan, cara penggunaan API, dan panduan integrasi
- Dapat diakses di halaman dokumentasi

Materi terkait dan komunitas

Public Game Set: set game publik
Docs + SDK: dokumentasi pengembang dan SDK
ARC Prize 2026 Track: track kompetisi 2026
Technical Paper: laporan teknis
Peserta dapat memilih berbagai lingkungan game (ar25, bp35, ls20, dll.) untuk menguji agen mereka sendiri
Kanal komunitas resmi tersedia di Discord, Twitter, YouTube, GitHub
Melalui ARC Prize 2026, pengguna dapat mengikuti kompetisi resmi dan berlangganan kabar pembaruan

1 komentar

GN⁺ 26 hari lalu

Komentar Hacker News

Melihat tweet scaling01, ada beberapa masalah pada metode evaluasi ARC-AGI-3 yang disorot
Tolok ukur manusia didefinisikan sebagai ‘manusia tercepat kedua’, dan skor dihitung bukan dari tingkat keberhasilan sederhana melainkan sebagai kuadrat efisiensi
Artinya, jika manusia menyelesaikan soal dalam 10 langkah tetapi model butuh 100 langkah, model hanya mendapat skor 1%
Selain itu, 100% hanya berarti semua level berhasil diselesaikan, bukan berarti setara manusia
Desain seperti ini memang membuat model tidak bisa mendapat 100% meskipun sudah setara manusia
Prompt-nya sederhana, dan model tidak bisa memakai langkah lebih dari 5 kali jumlah langkah manusia
Pemberian bobot lebih besar pada level-level akhir juga dimaksudkan untuk mendeteksi pembelajaran berkelanjutan
- Poin-poin ini terasa bukan sebagai masalah, melainkan justru pendekatan yang benar. Kesan saya terhadap ARC-AGI malah jadi lebih baik
- Prompt yang sederhana adalah sesuatu yang bisa diselesaikan di kompetisi Kaggle. Jika dihubungkan ke LLM terbaru, hasilnya akan jauh lebih baik dibanding peserta yang dibatasi GPU
- Definisi tolok ukur manusia pada dasarnya memang pasti arbitrer. Bagaimanapun juga, ‘manusia rata-rata’ itu buta huruf atau sudah meninggal
- Sebenarnya desain seperti ini masuk akal. Masuk 80% teratas lebih mudah daripada kebanyakan orang, dan bahkan 95% ke atas juga mungkin kalau ada motivasi
- Justru pendekatan ini membuat tes yang jauh lebih sulit bagi LLM, sehingga skor saat ini terlihat lebih mengesankan
Mengenai pernyataan “selama masih ada kesenjangan antara pembelajaran AI dan pembelajaran manusia, itu belum AGI”, saya teringat analogi dari era Deep Blue pada tahun 90-an
Seperti ucapan “pesawat tetap terbang meski tidak mengepakkan sayap seperti burung”, belajar dengan cara berbeda dari manusia tidak berarti bukan cerdas
- Kesenjangan ini bukan sekadar soal filsafat, melainkan soal dampak ekonomi. Jika kesenjangan menjadi 0, kerja pengetahuan manusia akan sepenuhnya tergantikan. Bahkan tanpa AGI sempurna pun ekonomi bisa runtuh
- Ini mengingatkan pada tulisan Dijkstra (EWD867). Analogi bahwa “dapatkah komputer berpikir?” sama tidak bermaknanya dengan “dapatkah kapal selam berenang?”
- Huruf ‘G’ dalam AGI berarti General, tetapi manusia sendiri juga tidak benar-benar general. Pesawat tidak lebih serbabisa daripada burung, tetapi memperluas mobilitas
- Bagi saya, perdebatan AGI sudah selesai. Dengan alat yang ada sekarang pun sudah cukup berguna, dan bahkan sudah terlihat tanda-tanda ASI (kecerdasan yang memperbaiki diri). Kompetisi ARC-AGI hanya eksperimen menarik untuk mengukur kondisi saat ini
- Kecerdasan tidak harus berbentuk manusia. Yang penting adalah kegunaan output. Namun soal ada atau tidaknya kesadaran adalah persoalan moral; karena tak bisa dibuktikan, saya cenderung menganggap ia ada untuk sementara
Saya rasa pendekatan ARC adalah metode evaluasi AGI yang sangat bagus
Strukturnya sederhana: memberi manusia dan AI input yang sama lalu membandingkan hasilnya
Kata ‘General’ adalah kuncinya, dan ARC adalah upaya untuk mengukur keumuman itu
Apakah AI berguna atau tidak adalah hal sekunder. Tes ini adalah upaya paling meyakinkan sejauh ini
Selain itu, jika Anda melempar pertanyaan bidang keahlian Anda sendiri ke AI, Anda sering melihat jawabannya salah. Kita cenderung mencampuradukkan pengetahuan dan kecerdasan
- Saya rasa istilah ‘General’ itu keliru. Manusia juga tidak general dan punya kemampuan yang timpang. Dalam bahasa, LLM sudah melampaui manusia
- Tes ini adalah permainan yang memerlukan pengenalan visual, jadi mirip seperti memberi ujian mengemudi kepada orang buta. Jika gimnya diubah menjadi teks, mungkin LLM justru lebih baik daripada manusia
- ARC-AGI sebelumnya terasa seperti tes IQ, tetapi versi ini terlalu mudah. Kemungkinan LLM gagal hanya karena format input tidak cocok. Dengan sedikit pembelajaran game berbasis teks saja, sepertinya ini akan segera terpecahkan
Saat melihat benchmark seperti ini, pertanyaan yang muncul adalah apakah ada cara mencegah OpenAI mempekerjakan orang untuk membuat dataset
- Pertanyaan pentingnya bukan itu, melainkan “apakah model bisa menggeneralisasi?” ARC-AGI tampaknya dirancang untuk mengevaluasi pemecahan masalah visual dengan konteks panjang dan agensi
Setelah mencoba sendiri beberapa level, saya jadi yakin bahwa saya bukan AGI
- Mungkin seharusnya disebut NGI, yaitu Natural General Intelligence
- Hanya saja AI bisa mengakses seluruh internet, tidak punya batas waktu, dan tidak malu walau mengirim banyak jawaban salah. Kondisi seperti ini sama sekali berbeda dari ujian manusia
- Ada juga candaan, “terima kasih sudah menurunkan standar AGI”
Saya agak skeptis
Orang yang terbiasa bermain game akan lulus 100%, tetapi seorang nenek yang baru pertama kali memakai komputer akan gagal total. Hal yang sama berlaku untuk LLM
Pada akhirnya, model yang dilatih dengan data game seperti ini akan mudah beradaptasi, dan itu bukan AGI
- Tetapi manusia juga menjadi mahir bermain game lewat pembelajaran, jadi kecuali pembelajaran online diizinkan, tes ini tidak mencerminkan pembelajaran ala manusia
- Saya juga gamer 40 tahun, dan puzzle seperti ini terlalu mudah. Begitu paham aturannya, langsung bisa diselesaikan. Masalah seperti ini memang bidang keahlian saya
Saya melihat langsung proyek ini di acara peluncuran YC, dan sudah lama saya tidak merasa terinspirasi seperti itu
Saya juga mendengar bahwa seseorang yang bereksperimen dengan ARC2 menemukan cara menggerakkan lengan robot dengan lebih efisien
Artinya, proses sekadar menaikkan skor ternyata berujung pada inovasi robotika nyata
ARC-4, 5, 6 juga direncanakan, dan ke depannya mereka berharap ada model yang mampu menyelesaikan masalah dalam kondisi zero context
- Tetapi perluasan seperti ini pada akhirnya juga bisa terlihat seperti goalpost moving
Saya tidak tahu apakah ARC-AGI benar-benar berhubungan langsung dengan AGI
Pada akhirnya ini hanya mengukur performa LLM pada jenis permainan tertentu
Terlepas dari apakah manusia pandai atau tidak di permainan itu, sudah banyak game di mana komputer mengungguli manusia
Jadi yang penting adalah apakah permainan-permainan ini merepresentasikan kecerdasan
- Pencipta ARC-AGI, Chollet, mendefinisikan kecerdasan sebagai “seberapa baik bekerja dalam situasi yang benar-benar baru”. ARC-AGI mengukur kemampuan itu
- Tetapi ‘AGI’ lebih dekat ke istilah pemasaran, dan benchmark seperti ini lebih berguna untuk promosi daripada efisiensi kerja nyata
Saya adalah tester manusia untuk game ini
Saya menyelesaikan 25 game dalam 90 menit, dan instruksinya mengatakan untuk meminimalkan jumlah tindakan, tetapi pada praktiknya saya fokus menyelesaikannya cepat karena ada insentif kecepatan ($5/game)
Karena itu, data tolok ukur manusia mungkin tercatat dengan jumlah tindakan yang lebih banyak daripada kondisi sebenarnya
Hal yang paling saya suka dari leaderboard ARC-AGI adalah grafik performa dibanding biaya
Peningkatan performa AI belakangan ini sebagian besar datang bersama kenaikan konsumsi daya. Pada akhirnya, jika memakai listrik lebih banyak, hasilnya juga bisa lebih baik

ARC-AGI-3 - Benchmark Penalaran Interaktif Pertama

Ikhtisar ARC-AGI-3

Fitur utama

Replay dan evaluasi

Tools dan UI

Dokumentasi

Materi terkait dan komunitas

Bacaan terkait

1 komentar

Komentar Hacker News