1 poin oleh GN⁺ 26 hari lalu | 1 komentar | Bagikan ke WhatsApp
  • ARC-AGI-3 adalah benchmark penalaran interaktif pertama untuk mengukur kecerdasan setara manusia pada agen AI, yang mengevaluasi kemampuan eksplorasi lingkungan dan pembelajaran adaptif
  • Semua tugas disusun sebagai lingkungan yang dapat diselesaikan manusia, dan mengukur efisiensi perolehan keterampilan seiring waktu serta kemampuan perencanaan jangka panjang
  • Menyediakan tujuan yang jelas dan umpan balik tanpa pengetahuan awal, sambil mempertahankan struktur tugas yang baru untuk mencegah pendekatan berbasis hafalan
  • Melalui visualisasi replay, toolkit pengembang, dan UI evaluasi, perilaku dan proses penalaran agen dapat diverifikasi secara transparan
  • Mendukung partisipasi dalam kompetisi ARC Prize 2026 dan pengujian agen melalui set game publik, dokumentasi, SDK, dan kanal komunitas

Ikhtisar ARC-AGI-3

  • ARC-AGI-3 dirancang sebagai benchmark penalaran interaktif untuk mengukur kecerdasan setara manusia pada agen AI
    • Mengevaluasi kemampuan agen untuk menjelajahi lingkungan baru, memahami tujuan, membangun world model yang adaptif, dan terus belajar
    • Skor 100% berarti AI dapat menyelesaikan semua game seefisien manusia
    • Bukan pemecahan puzzle statis, melainkan harus belajar dari pengalaman dalam lingkungan dan menyesuaikan strategi
    • Harus melakukan persepsi, pemilihan tindakan, dan adaptasi strategi tanpa instruksi bahasa alami

Fitur utama

  • Mencakup run yang dapat diputar ulang, toolkit pengembang untuk integrasi agen, dan UI evaluasi yang transparan
  • Replay dan evaluasi

    • Tindakan agen dapat divisualisasikan dalam bentuk replay sehingga pengambilan keputusan, tindakan, dan proses penalaran dapat ditelusuri secara kronologis
    • Tersedia sample replay
  • Tools dan UI

    • Agen dapat diintegrasikan melalui toolkit ARC-AGI-3, dan diuji serta diiterasikan melalui UI interaktif
    • Dapat dijalankan langsung melalui tautan Play and test
  • Dokumentasi

    • Menyediakan dokumentasi yang diperlukan untuk membangun agen, termasuk konfigurasi lingkungan, cara penggunaan API, dan panduan integrasi
    • Dapat diakses di halaman dokumentasi

Materi terkait dan komunitas

  • Public Game Set: set game publik
  • Docs + SDK: dokumentasi pengembang dan SDK
  • ARC Prize 2026 Track: track kompetisi 2026
  • Technical Paper: laporan teknis
  • Peserta dapat memilih berbagai lingkungan game (ar25, bp35, ls20, dll.) untuk menguji agen mereka sendiri
  • Kanal komunitas resmi tersedia di Discord, Twitter, YouTube, GitHub
  • Melalui ARC Prize 2026, pengguna dapat mengikuti kompetisi resmi dan berlangganan kabar pembaruan

1 komentar

 
GN⁺ 26 hari lalu
Komentar Hacker News
  • Melihat tweet scaling01, ada beberapa masalah pada metode evaluasi ARC-AGI-3 yang disorot
    Tolok ukur manusia didefinisikan sebagai ‘manusia tercepat kedua’, dan skor dihitung bukan dari tingkat keberhasilan sederhana melainkan sebagai kuadrat efisiensi
    Artinya, jika manusia menyelesaikan soal dalam 10 langkah tetapi model butuh 100 langkah, model hanya mendapat skor 1%
    Selain itu, 100% hanya berarti semua level berhasil diselesaikan, bukan berarti setara manusia
    Desain seperti ini memang membuat model tidak bisa mendapat 100% meskipun sudah setara manusia
    Prompt-nya sederhana, dan model tidak bisa memakai langkah lebih dari 5 kali jumlah langkah manusia
    Pemberian bobot lebih besar pada level-level akhir juga dimaksudkan untuk mendeteksi pembelajaran berkelanjutan

    • Poin-poin ini terasa bukan sebagai masalah, melainkan justru pendekatan yang benar. Kesan saya terhadap ARC-AGI malah jadi lebih baik
    • Prompt yang sederhana adalah sesuatu yang bisa diselesaikan di kompetisi Kaggle. Jika dihubungkan ke LLM terbaru, hasilnya akan jauh lebih baik dibanding peserta yang dibatasi GPU
    • Definisi tolok ukur manusia pada dasarnya memang pasti arbitrer. Bagaimanapun juga, ‘manusia rata-rata’ itu buta huruf atau sudah meninggal
    • Sebenarnya desain seperti ini masuk akal. Masuk 80% teratas lebih mudah daripada kebanyakan orang, dan bahkan 95% ke atas juga mungkin kalau ada motivasi
    • Justru pendekatan ini membuat tes yang jauh lebih sulit bagi LLM, sehingga skor saat ini terlihat lebih mengesankan
  • Mengenai pernyataan “selama masih ada kesenjangan antara pembelajaran AI dan pembelajaran manusia, itu belum AGI”, saya teringat analogi dari era Deep Blue pada tahun 90-an
    Seperti ucapan “pesawat tetap terbang meski tidak mengepakkan sayap seperti burung”, belajar dengan cara berbeda dari manusia tidak berarti bukan cerdas

    • Kesenjangan ini bukan sekadar soal filsafat, melainkan soal dampak ekonomi. Jika kesenjangan menjadi 0, kerja pengetahuan manusia akan sepenuhnya tergantikan. Bahkan tanpa AGI sempurna pun ekonomi bisa runtuh
    • Ini mengingatkan pada tulisan Dijkstra (EWD867). Analogi bahwa “dapatkah komputer berpikir?” sama tidak bermaknanya dengan “dapatkah kapal selam berenang?”
    • Huruf ‘G’ dalam AGI berarti General, tetapi manusia sendiri juga tidak benar-benar general. Pesawat tidak lebih serbabisa daripada burung, tetapi memperluas mobilitas
    • Bagi saya, perdebatan AGI sudah selesai. Dengan alat yang ada sekarang pun sudah cukup berguna, dan bahkan sudah terlihat tanda-tanda ASI (kecerdasan yang memperbaiki diri). Kompetisi ARC-AGI hanya eksperimen menarik untuk mengukur kondisi saat ini
    • Kecerdasan tidak harus berbentuk manusia. Yang penting adalah kegunaan output. Namun soal ada atau tidaknya kesadaran adalah persoalan moral; karena tak bisa dibuktikan, saya cenderung menganggap ia ada untuk sementara
  • Saya rasa pendekatan ARC adalah metode evaluasi AGI yang sangat bagus
    Strukturnya sederhana: memberi manusia dan AI input yang sama lalu membandingkan hasilnya
    Kata ‘General’ adalah kuncinya, dan ARC adalah upaya untuk mengukur keumuman itu
    Apakah AI berguna atau tidak adalah hal sekunder. Tes ini adalah upaya paling meyakinkan sejauh ini
    Selain itu, jika Anda melempar pertanyaan bidang keahlian Anda sendiri ke AI, Anda sering melihat jawabannya salah. Kita cenderung mencampuradukkan pengetahuan dan kecerdasan

    • Saya rasa istilah ‘General’ itu keliru. Manusia juga tidak general dan punya kemampuan yang timpang. Dalam bahasa, LLM sudah melampaui manusia
    • Tes ini adalah permainan yang memerlukan pengenalan visual, jadi mirip seperti memberi ujian mengemudi kepada orang buta. Jika gimnya diubah menjadi teks, mungkin LLM justru lebih baik daripada manusia
    • ARC-AGI sebelumnya terasa seperti tes IQ, tetapi versi ini terlalu mudah. Kemungkinan LLM gagal hanya karena format input tidak cocok. Dengan sedikit pembelajaran game berbasis teks saja, sepertinya ini akan segera terpecahkan
  • Saat melihat benchmark seperti ini, pertanyaan yang muncul adalah apakah ada cara mencegah OpenAI mempekerjakan orang untuk membuat dataset

    • Pertanyaan pentingnya bukan itu, melainkan “apakah model bisa menggeneralisasi?” ARC-AGI tampaknya dirancang untuk mengevaluasi pemecahan masalah visual dengan konteks panjang dan agensi
  • Setelah mencoba sendiri beberapa level, saya jadi yakin bahwa saya bukan AGI

    • Mungkin seharusnya disebut NGI, yaitu Natural General Intelligence
    • Hanya saja AI bisa mengakses seluruh internet, tidak punya batas waktu, dan tidak malu walau mengirim banyak jawaban salah. Kondisi seperti ini sama sekali berbeda dari ujian manusia
    • Ada juga candaan, “terima kasih sudah menurunkan standar AGI”
  • Saya agak skeptis
    Orang yang terbiasa bermain game akan lulus 100%, tetapi seorang nenek yang baru pertama kali memakai komputer akan gagal total. Hal yang sama berlaku untuk LLM
    Pada akhirnya, model yang dilatih dengan data game seperti ini akan mudah beradaptasi, dan itu bukan AGI

    • Tetapi manusia juga menjadi mahir bermain game lewat pembelajaran, jadi kecuali pembelajaran online diizinkan, tes ini tidak mencerminkan pembelajaran ala manusia
    • Saya juga gamer 40 tahun, dan puzzle seperti ini terlalu mudah. Begitu paham aturannya, langsung bisa diselesaikan. Masalah seperti ini memang bidang keahlian saya
  • Saya melihat langsung proyek ini di acara peluncuran YC, dan sudah lama saya tidak merasa terinspirasi seperti itu
    Saya juga mendengar bahwa seseorang yang bereksperimen dengan ARC2 menemukan cara menggerakkan lengan robot dengan lebih efisien
    Artinya, proses sekadar menaikkan skor ternyata berujung pada inovasi robotika nyata
    ARC-4, 5, 6 juga direncanakan, dan ke depannya mereka berharap ada model yang mampu menyelesaikan masalah dalam kondisi zero context

    • Tetapi perluasan seperti ini pada akhirnya juga bisa terlihat seperti goalpost moving
  • Saya tidak tahu apakah ARC-AGI benar-benar berhubungan langsung dengan AGI
    Pada akhirnya ini hanya mengukur performa LLM pada jenis permainan tertentu
    Terlepas dari apakah manusia pandai atau tidak di permainan itu, sudah banyak game di mana komputer mengungguli manusia
    Jadi yang penting adalah apakah permainan-permainan ini merepresentasikan kecerdasan

    • Pencipta ARC-AGI, Chollet, mendefinisikan kecerdasan sebagai “seberapa baik bekerja dalam situasi yang benar-benar baru”. ARC-AGI mengukur kemampuan itu
    • Tetapi ‘AGI’ lebih dekat ke istilah pemasaran, dan benchmark seperti ini lebih berguna untuk promosi daripada efisiensi kerja nyata
  • Saya adalah tester manusia untuk game ini
    Saya menyelesaikan 25 game dalam 90 menit, dan instruksinya mengatakan untuk meminimalkan jumlah tindakan, tetapi pada praktiknya saya fokus menyelesaikannya cepat karena ada insentif kecepatan ($5/game)
    Karena itu, data tolok ukur manusia mungkin tercatat dengan jumlah tindakan yang lebih banyak daripada kondisi sebenarnya

  • Hal yang paling saya suka dari leaderboard ARC-AGI adalah grafik performa dibanding biaya
    Peningkatan performa AI belakangan ini sebagian besar datang bersama kenaikan konsumsi daya. Pada akhirnya, jika memakai listrik lebih banyak, hasilnya juga bisa lebih baik