- ARC-AGI-3 adalah benchmark penalaran interaktif pertama untuk mengukur kecerdasan setara manusia pada agen AI, yang mengevaluasi kemampuan eksplorasi lingkungan dan pembelajaran adaptif
- Semua tugas disusun sebagai lingkungan yang dapat diselesaikan manusia, dan mengukur efisiensi perolehan keterampilan seiring waktu serta kemampuan perencanaan jangka panjang
- Menyediakan tujuan yang jelas dan umpan balik tanpa pengetahuan awal, sambil mempertahankan struktur tugas yang baru untuk mencegah pendekatan berbasis hafalan
- Melalui visualisasi replay, toolkit pengembang, dan UI evaluasi, perilaku dan proses penalaran agen dapat diverifikasi secara transparan
- Mendukung partisipasi dalam kompetisi ARC Prize 2026 dan pengujian agen melalui set game publik, dokumentasi, SDK, dan kanal komunitas
Ikhtisar ARC-AGI-3
- ARC-AGI-3 dirancang sebagai benchmark penalaran interaktif untuk mengukur kecerdasan setara manusia pada agen AI
- Mengevaluasi kemampuan agen untuk menjelajahi lingkungan baru, memahami tujuan, membangun world model yang adaptif, dan terus belajar
- Skor 100% berarti AI dapat menyelesaikan semua game seefisien manusia
- Bukan pemecahan puzzle statis, melainkan harus belajar dari pengalaman dalam lingkungan dan menyesuaikan strategi
- Harus melakukan persepsi, pemilihan tindakan, dan adaptasi strategi tanpa instruksi bahasa alami
Fitur utama
- Mencakup run yang dapat diputar ulang, toolkit pengembang untuk integrasi agen, dan UI evaluasi yang transparan
-
Replay dan evaluasi
- Tindakan agen dapat divisualisasikan dalam bentuk replay sehingga pengambilan keputusan, tindakan, dan proses penalaran dapat ditelusuri secara kronologis
- Tersedia sample replay
-
Tools dan UI
- Agen dapat diintegrasikan melalui toolkit ARC-AGI-3, dan diuji serta diiterasikan melalui UI interaktif
- Dapat dijalankan langsung melalui tautan Play and test
-
Dokumentasi
- Menyediakan dokumentasi yang diperlukan untuk membangun agen, termasuk konfigurasi lingkungan, cara penggunaan API, dan panduan integrasi
- Dapat diakses di halaman dokumentasi
Materi terkait dan komunitas
- Public Game Set: set game publik
- Docs + SDK: dokumentasi pengembang dan SDK
- ARC Prize 2026 Track: track kompetisi 2026
- Technical Paper: laporan teknis
- Peserta dapat memilih berbagai lingkungan game (ar25, bp35, ls20, dll.) untuk menguji agen mereka sendiri
- Kanal komunitas resmi tersedia di Discord, Twitter, YouTube, GitHub
- Melalui ARC Prize 2026, pengguna dapat mengikuti kompetisi resmi dan berlangganan kabar pembaruan
1 komentar
Komentar Hacker News
Melihat tweet scaling01, ada beberapa masalah pada metode evaluasi ARC-AGI-3 yang disorot
Tolok ukur manusia didefinisikan sebagai ‘manusia tercepat kedua’, dan skor dihitung bukan dari tingkat keberhasilan sederhana melainkan sebagai kuadrat efisiensi
Artinya, jika manusia menyelesaikan soal dalam 10 langkah tetapi model butuh 100 langkah, model hanya mendapat skor 1%
Selain itu, 100% hanya berarti semua level berhasil diselesaikan, bukan berarti setara manusia
Desain seperti ini memang membuat model tidak bisa mendapat 100% meskipun sudah setara manusia
Prompt-nya sederhana, dan model tidak bisa memakai langkah lebih dari 5 kali jumlah langkah manusia
Pemberian bobot lebih besar pada level-level akhir juga dimaksudkan untuk mendeteksi pembelajaran berkelanjutan
Mengenai pernyataan “selama masih ada kesenjangan antara pembelajaran AI dan pembelajaran manusia, itu belum AGI”, saya teringat analogi dari era Deep Blue pada tahun 90-an
Seperti ucapan “pesawat tetap terbang meski tidak mengepakkan sayap seperti burung”, belajar dengan cara berbeda dari manusia tidak berarti bukan cerdas
Saya rasa pendekatan ARC adalah metode evaluasi AGI yang sangat bagus
Strukturnya sederhana: memberi manusia dan AI input yang sama lalu membandingkan hasilnya
Kata ‘General’ adalah kuncinya, dan ARC adalah upaya untuk mengukur keumuman itu
Apakah AI berguna atau tidak adalah hal sekunder. Tes ini adalah upaya paling meyakinkan sejauh ini
Selain itu, jika Anda melempar pertanyaan bidang keahlian Anda sendiri ke AI, Anda sering melihat jawabannya salah. Kita cenderung mencampuradukkan pengetahuan dan kecerdasan
Saat melihat benchmark seperti ini, pertanyaan yang muncul adalah apakah ada cara mencegah OpenAI mempekerjakan orang untuk membuat dataset
Setelah mencoba sendiri beberapa level, saya jadi yakin bahwa saya bukan AGI
Saya agak skeptis
Orang yang terbiasa bermain game akan lulus 100%, tetapi seorang nenek yang baru pertama kali memakai komputer akan gagal total. Hal yang sama berlaku untuk LLM
Pada akhirnya, model yang dilatih dengan data game seperti ini akan mudah beradaptasi, dan itu bukan AGI
Saya melihat langsung proyek ini di acara peluncuran YC, dan sudah lama saya tidak merasa terinspirasi seperti itu
Saya juga mendengar bahwa seseorang yang bereksperimen dengan ARC2 menemukan cara menggerakkan lengan robot dengan lebih efisien
Artinya, proses sekadar menaikkan skor ternyata berujung pada inovasi robotika nyata
ARC-4, 5, 6 juga direncanakan, dan ke depannya mereka berharap ada model yang mampu menyelesaikan masalah dalam kondisi zero context
Saya tidak tahu apakah ARC-AGI benar-benar berhubungan langsung dengan AGI
Pada akhirnya ini hanya mengukur performa LLM pada jenis permainan tertentu
Terlepas dari apakah manusia pandai atau tidak di permainan itu, sudah banyak game di mana komputer mengungguli manusia
Jadi yang penting adalah apakah permainan-permainan ini merepresentasikan kecerdasan
Saya adalah tester manusia untuk game ini
Saya menyelesaikan 25 game dalam 90 menit, dan instruksinya mengatakan untuk meminimalkan jumlah tindakan, tetapi pada praktiknya saya fokus menyelesaikannya cepat karena ada insentif kecepatan ($5/game)
Karena itu, data tolok ukur manusia mungkin tercatat dengan jumlah tindakan yang lebih banyak daripada kondisi sebenarnya
Hal yang paling saya suka dari leaderboard ARC-AGI adalah grafik performa dibanding biaya
Peningkatan performa AI belakangan ini sebagian besar datang bersama kenaikan konsumsi daya. Pada akhirnya, jika memakai listrik lebih banyak, hasilnya juga bisa lebih baik