Memecahkan ARC-AGI Tanpa Pra-pelatihan

(iliao2345.github.io)

1 poin oleh GN⁺ 2025-03-05 | 1 komentar | Bagikan ke WhatsApp

Pada masalah seperti ARC-AGI, yang harus menemukan aturan dari sedikit contoh, CompressARC menemukan solusi hanya dengan pembelajaran pada waktu inferensi per puzzle, tanpa pra-pelatihan, dataset eksternal, atau pencarian berskala besar
Gagasan intinya adalah eksperimen bahwa perilaku cerdas bisa muncul jika mengoptimalkan tujuan kompresi informasi lossless agar representasi puzzle, termasuk jawabannya, menjadi lebih pendek
Dengan menggunakan sekitar 20 menit per puzzle di RTX 4070, metode ini mencatat 34,75% pada set pelatihan dan 20% pada set evaluasi; cirinya adalah pendekatan neural network yang hanya memakai satu puzzle target sebagai data pelatihan
Arsitekturnya dirancang terutama di sekitar ekuivarians terhadap urutan contoh, permutasi warna, serta rotasi dan refleksi, dan menggunakan representasi multitensor yang menggabungkan tensor dari beberapa rank
Kuat pada pemetaan warna-prosedur, pengisian, pemotongan, menghubungkan titik, dan pergeseran pendek, tetapi menghitung jumlah, memperluas pola jarak jauh, rotasi, penyalinan, pengubahan ukuran, dan perencanaan agen masih menjadi bottleneck

Eksperimen: apakah ARC-AGI bisa dipecahkan hanya dengan kompresi

Pertanyaan utamanya adalah apakah kompresi informasi lossless saja bisa menghasilkan perilaku cerdas
CompressARC adalah metode untuk puzzle ARC-AGI yang bekerja hanya dengan objective function berbasis kompresi
Ada tiga batasan
- Tanpa pra-pelatihan: model diinisialisasi secara acak dan dilatih pada waktu inferensi
- Tanpa dataset: satu model hanya mempelajari satu puzzle ARC-AGI target dan mengeluarkan satu jawaban
- Tanpa pencarian: dalam sebagian besar makna, hanya menggunakan gradient descent tanpa pencarian
Hasilnya adalah 34,75% pada set pelatihan dan 20% pada set evaluasi, dengan setiap puzzle memakan waktu sekitar 20 menit di RTX 4070
Dijelaskan bahwa ini adalah metode neural network pertama untuk ARC-AGI yang hanya memakai puzzle target sebagai data pelatihan

Pengaturan masalah ARC-AGI

ARC-AGI adalah benchmark AI yang diperkenalkan pada 2019, untuk menguji kemampuan menyimpulkan dan menggeneralisasi aturan abstrak dari sedikit contoh
Setiap puzzle menyediakan beberapa contoh input-output dan satu input uji, lalu sistem harus menebak grid output uji
Untuk setiap puzzle, tersedia dua percobaan, dan jika salah satunya benar, mendapat skor 1
Sistem dapat mengubah ukuran grid output dan memilih warna setiap pixel
Puzzle dirancang agar bisa dipecahkan manusia secara wajar, tetapi lebih sulit bagi mesin
- Rata-rata manusia memecahkan 76,2% dari set pelatihan
- Pakar manusia memecahkan 98,5%
400 puzzle pelatihan lebih mudah daripada sisanya, dan dimaksudkan untuk mempelajari pola berikut
- Keobjekan: objek tidak muncul atau menghilang tanpa alasan
- Berorientasi tujuan: beberapa objek bertindak seperti agen yang memiliki niat
- Angka dan penghitungan: dipakai matematika dasar seperti jumlah objek, pengurutan, perbandingan, penjumlahan, dan pengurangan
- Geometri dan topologi: mencakup refleksi, rotasi, perpindahan, deformasi, penggabungan, pengulangan, perbedaan jarak, dan lain-lain pada bentuk
Kompetisi Kaggle terbaru dari ARC Prize memiliki hadiah hingga lebih dari 1 juta dolar AS, dan hadiah utama dialokasikan untuk metode yang mencapai 85% pada 100 soal privat dengan komputasi 12 jam dalam lingkungan terbatas

Cara kerja CompressARC

Dalam CompressARC, representasi yang dapat dikompresi ke jumlah bit lebih rendah dikaitkan dengan solusi puzzle yang lebih akurat
Sistem mencari representasi terkompresi yang mengubah puzzle tidak lengkap menjadi puzzle lengkap, dan saat representasi ini didekompresi, puzzle dan jawabannya direkonstruksi
Neural network berperan sebagai decoder
- Tidak ada neural network encoder terpisah
- Encoding diimplementasikan dengan gradient descent yang melatih decoder pada waktu inferensi
- Bobot yang dioptimalkan dan pengaturan distribusi input berperan sebagai representasi bit terkompresi yang memuat puzzle dan jawaban
Dalam representasi machine learning standar, prosedurnya adalah sebagai berikut
- Menerima puzzle ARC-AGI
- Mengonstruksi neural network f sesuai jumlah contoh dan jumlah warna yang teramati dalam puzzle
- Menerima input normal acak z ~ N(μ, Σ) dan mengeluarkan logit warna per pixel untuk semua grid
- Meminimalkan jumlah cross-entropy pada grid yang diketahui, dan mengabaikan grid jawaban
- Memberi penalti divergensi KL agar N(μ, Σ) dekat dengan N(0,1)
- Menyimpan grid jawaban yang dihasilkan selama pelatihan, lalu memilih jawaban yang paling sering muncul sebagai prediksi akhir
fθ dirancang agar ekuivarian terhadap augmentasi umum seperti perubahan urutan pasangan input-output, permutasi warna, serta rotasi dan refleksi spasial

Turunan dari sudut pandang kompresi

Kompresi lossless adalah masalah merepresentasikan informasi dalam bit sesedikit mungkin, sembari memulihkan data asli secara tepat dari representasi bit tersebut
Dalam ARC-AGI, idealnya seluruh pasangan puzzle dan jawaban harus dilihat sebagai simbol dan dikompresi, tetapi dalam praktiknya jawaban tidak tersedia sebagai input encoder dan distribusi pembuat puzzle juga tidak diketahui
Diasumsikan ada sistem kompresi yang praktis diimplementasikan dan efisien secara bit untuk dataset ARC-AGI
Meski distribusi p tidak diketahui, kita bisa membayangkan compressor universal yang meminimalkan panjang program f dan input s, yaitu len(f)+len(s)
- Decoder menjalankan f(s) untuk memulihkan data asli
- Dalam teori informasi algoritmik, ini bisa jadi hanya lebih tidak efisien sebesar panjang f dibanding compressor asli
- Dalam praktiknya, encoder yang menelusuri ruang program tidak praktis
CompressARC memilih forward pass neural network sebagai program tetap, alih-alih pencarian ruang program
- s terdiri dari bobot θ, input z, dan koreksi output ε
- Panjang kode untuk θ dan z dihitung dari sudut pandang Relative Entropy Coding (REC), sedangkan ε dari sudut pandang arithmetic coding
- Panjang kode koreksi output menjadi sama dengan total cross-entropy pada grid yang diketahui
- Panjang kode z menjadi KL(pz || qz), dengan qz = N(0,I)
Panjang kode total berbentuk sama seperti loss VAE
- Error rekonstruksi
- KL untuk z
- Regularisasi decoder
Implementasi CompressARC merupakan bentuk yang mencakup beberapa modifikasi dari turunan ini terkait sebagian regularisasi, ekuivarians, dan independensi antar-puzzle

Arsitektur: multitensor dan ekuivarians

Ciri terpenting arsitekturnya adalah ekuivarians
- Jika input z ditransformasikan, puzzle ARC-AGI output juga harus ditransformasikan dengan cara yang sama
- Contohnya adalah pengurutan ulang pasangan input-output, pengacakan warna, serta pembalikan, rotasi, dan refleksi grid
Desainnya dimulai dengan membuat arsitektur dasar yang sepenuhnya simetris, lalu menambahkan layer asimetris yang memberi kemampuan non-ekuivarian yang diperlukan, sehingga simetri yang tidak dibutuhkan dipecah satu per satu
Data internal mengalir dalam format bernama multitensor
- Ini adalah kumpulan tensor dengan berbagai rank dan shape
- Dimensinya terdiri dari subset hingga [n_examples, n_colors, n_directions, height, width, n_channels]
- Dimensi channel selalu dipertahankan
- Dengan menerapkan aturan, jumlah tensor legal di dalam multitensor dikurangi menjadi 18
Puzzle dapat direpresentasikan sebagai tensor [examples, colors, height, width, channel]
- channel dipakai untuk memilih grid input atau output
- width dan height menunjukkan posisi pixel
- Dimensi color memuat representasi one-hot warna pixel
Arsitektur keseluruhan memiliki alur berikut
- Dimulai dari parameter distribusi z
- Decoding Layer
- Mengulang 4 kali Multitensor Communication, Softmax, Directional Cummax, Directional Shift, Directional Communication, Nonlinear, Normalization, dan sebagainya
- Mengeluarkan distribusi puzzle ARC-AGI melalui Linear Heads

Hasil performa

Pelatihan dilakukan dengan Adam selama 2000 iterations
- Learning rate 0.01
- β1 = 0.5, β2 = 0.9
Hasil set pelatihan
- 100 iteration: Pass@2 2,25%
- 500 iteration: Pass@2 27,5%
- 1000 iteration: Pass@2 31,75%
- 2000 iteration: Pass@2 34,75%
- Pass@1000 pada 2000 iteration adalah 52,75%
Hasil set evaluasi
- 100 iteration: Pass@2 1,25%
- 500 iteration: Pass@2 15%
- 1000 iteration: Pass@2 19,25%
- 2000 iteration: Pass@2 20%
- Pass@1000 pada 2000 iteration adalah 33,75%
Karena penilaian ARC-AGI mengizinkan dua percobaan, hasil utama dalam artikel didasarkan pada Pass@2

Puzzle yang bisa dipecahkan dan puzzle yang sulit

CompressARC memahami aturan sejauh kemampuan yang dimilikinya, tetapi terhambat pada kemampuan yang tidak dimiliki arsitekturnya
Contoh tugas yang bisa dilakukan adalah sebagai berikut
- Menetapkan warna individual ke prosedur individual
- Mengisi
- Memotong
- Menghubungkan titik, termasuk diagonal 45 derajat
- Mendeteksi warna yang sama
- Mengidentifikasi ketetanggaan pixel
- Menetapkan warna per contoh
- Mengidentifikasi bagian dari bentuk
- Perpindahan jarak pendek
Contoh tugas yang sulit juga jelas
- Memetakan dua warna satu sama lain
- Mengulang operasi yang sama beberapa kali berturut-turut
- Perpindahan, rotasi, refleksi, pengubahan ukuran, dan duplikasi gambar
- Mendeteksi properti topologis seperti keterhubungan
- Perencanaan dan simulasi perilaku agen
- Ekspansi pola jarak jauh
Pada puzzle pelatihan 28e73c20, pola harus diperluas dari tepi ke tengah; CompressARC melakukan ekspansi jarak pendek, tetapi di dekat pusat bergantung pada tebakan

Contoh: Color the Boxes

Dalam solusi manusia, dipahami bahwa input terbagi menjadi kotak-kotak, dan pada output kotak-kotak itu diberi warna
- Sudut selalu hitam
- Tengah selalu magenta
- Kotak di sisi ditentukan warnanya berdasarkan arah: atas merah, bawah biru, kanan hijau, kiri kuning
Progres pelatihan CompressARC berubah tahap demi tahap
- 50 step: mencerminkan bahwa baris dan kolom berwarna sian pada input juga berkaitan dengan output
- 150 step: menunjukkan bentuk output di mana pixel yang dekat memiliki warna mirip
- 200 step: meniru gumpalan warna lebih besar yang dipotong oleh batas sian dan gumpalan sudut hitam
- 350 step: secara umum menebak warna kotak yang sesuai dengan arah relatif terhadap pusat
- 1500 step: output hampir halus, tetapi pada sampel masih sesekali tersisa kesalahan
Analisis distribusi z yang dipelajari menunjukkan bahwa ia mengodekan tabel korespondensi warna-arah serta posisi garis pemisah baris dan kolom
Hanya empat tensor yang mempertahankan informasi
- (examples, height, channel): memuat posisi baris sian tiap contoh
- (examples, width, channel): memuat posisi kolom sian tiap contoh
- (direction, color, channel): memuat korespondensi arah dan warna
- (color, channel): membedakan peran khusus magenta dan sian

Contoh tambahan dan analisis representasi

Puzzle Bounding Box 6d75e8bb
- Solusi manusia adalah menggambar kotak sian terkecil yang mengelilingi bentuk merah
- Pada 100 step, CompressARC menunjukkan tanda-tanda memahami bounding box umum; pada 150 step, ia menemukan jawaban lalu memperhalusnya dengan pelatihan berikutnya
- Tensor utama yang bertahan adalah (examples, height, channel), (examples, width, channel), dan (color, channel)
- Tensor baris dan kolom menunjukkan baris dan kolom yang memiliki banyak pixel sian, tetapi tidak jelas bagaimana ia mengetahui posisi batas
Puzzle Center Cross 41e4d17e
- Dari pusat bubble biru pada input, perlu menggambar sinar magenta ke atas, bawah, kiri, dan kanan, sementara warna bubble harus menimpa sinar
- CompressARC menyalin input, lalu baris dan kolom magenta muncul dan perlahan stabil di posisi yang benar
- Kesalahan menggambar sinar di atas bubble, seperti pada solusi manusia, tidak terlihat
- Tensor yang bertahan adalah (examples, height, width, channel) dan (color, channel)
- (examples, height, width, channel) mengodekan pusat bubble

Ide perbaikan

Jika seluruh dataset ARC-AGI dikompresi bersama, alih-alih mengompresi per puzzle secara terpisah, komputasi dapat dibagi antar-puzzle dan inductive bias yang lebih baik bisa didapat
- Dipertimbangkan cara memakai bobot network yang sama untuk semua puzzle, dengan perturbation terbatas per puzzle
- Juga diusulkan pendekatan hypernetwork yang mempelajari embedding berdimensi tinggi per puzzle, lalu mempelajari pemetaan linear dari embedding ini ke bobot network
- Arah ini tidak dicoba karena dapat memperlambat laju iterasi riset
Untuk tugas menyalin bentuk, layer keluarga convolution bisa berguna
- Jika satu grid menyimpan bentuk dan grid lain menunjukkan posisi penyalinan, convolution dapat membuat hasil salinannya
- Convolution biasa memiliki masalah memperbesar noise lebih besar daripada sinyal
- Tropical convolution bekerja baik pada puzzle mainan, tetapi tidak cukup untuk puzzle pelatihan ARC-AGI
Metode memberi KL floor juga dipertimbangkan untuk mengurangi posterior collapse
- Diamati fenomena bahwa jika KL tensor penting turun ke 0, ia tidak bisa pulih kembali
- Jika KL dipertahankan lebih besar dari 0 untuk beberapa waktu, network bisa belajar menggunakan informasi tersebut
- Ini diimplementasikan, tetapi tidak terlihat kasus tensor pulih, dan jadwal KL floor perlu dirancang berbeda
Regularisasi tidak digunakan dalam implementasi
- Dalam formulasi masalah, ini adalah elemen yang mengukur kompleksitas f dan termasuk dalam turunan CompressARC
- Mengecualikannya dari implementasi dinilai agak nekat

Pekerjaan terkait dan posisi riset

Gagasan kesetaraan kompresi dan kecerdasan terinspirasi oleh Hutter Prize
- Hutter Prize memberi penghargaan pada sistem yang paling baik mengompresi file teks Wikipedia, dan mengaitkan kemampuan kompresi informasi dengan kecerdasan
Latar teori mencakup Solomonoff Induction, Kolmogorov Complexity, dan Minimum Description Length
Dari sisi teori informasi, Relative Entropy Coding adalah inti
- Jika divergensi KL dapat dibatasi, konstruksi algoritme kompresi dianggap memungkinkan, dan masalah implementasi kode biner sebenarnya diabstraksikan
Dari sudut pandang VAE, decoder berperan sebagai algoritme dekompresi
- Neural Turing machine dengan kemampuan lebih umum juga bisa dipertimbangkan, tetapi karena tidak cocok untuk optimisasi gradient descent, pendekatan VAE digunakan
- Reweighting loss rekonstruksi ala beta-VAE bekerja baik dalam kasus ini
Metode ARC-AGI yang ada terutama menggunakan LLM, augmentasi data, dataset alternatif, pembelajaran pada waktu uji, dan pencarian program berbasis bahasa khusus domain
CompressARC menekankan bahwa ini adalah metode yang menggunakan deep learning tanpa pra-pelatihan eksternal dan pencarian berskala besar
Kode proyek tersedia di GitHub

1 komentar

GN⁺ 2025-03-05

Pendapat Hacker News

Pra-pelatihan berskala besar terasa bertentangan dengan tujuan generalitas
Jika kita membuat mesin umum yang dapat mensintesis program yang memprediksi contoh ke-4 hanya dari 3 contoh, pada dasarnya kita telah memecahkan sintesis oracle
Sebaliknya, jika kita melatih jaringan dengan seluruh pengetahuan manusia termasuk pembuatan puzzle, melakukan fine-tuning pada 99% dataset, lalu membiarkannya mencoba berkali-kali pada 1% terakhir, itu lebih mirip membuat kompresor mahal yang mengompresi psikologi pembuat soal
- Ini menunjukkan pandangan yang cukup naif tentang pengetahuan dan pemahaman
  Ia mengasumsikan adanya ranah logika dan akal Platonik yang tinggal diakses oleh AGI, padahal tanpa konteks tidak mungkin ada makna, penalaran, maupun logika
  Untuk mencocokkan pola bentuk, diperlukan konsep bentuk; ini mengandaikan konsep relasi spasial, yang pada gilirannya mengandaikan konsep ruang 2D atau 3D
  Hal-hal seperti ini tampak jelas dan implisit karena tertanam dalam lingkungan yang selama ratusan juta tahun dievolusikan untuk ditafsirkan oleh pikiran manusia, serta lingkungan yang selama puluhan tahun kita konsumsi dan proses
  Ujian sesungguhnya bagi AGI adalah kemampuan mengasimilasi berbagai informasi berbeda menjadi pandangan dunia yang koheren, dan pra-pelatihan pada dasarnya melakukan hal itu
  Bahkan kecerdasan dengan kemampuan seperti itu kemungkinan besar perlu memiliki asumsi struktural tentang dunia tempat ia berada yang “sudah dimuat sebelumnya”. Mirip area otak yang mahir dalam relasi spasial, bahasa, dan interpretasi indrawi
- Jika mesin dapat memutuskan sendiri cara belajar ketika menghadapi jenis masalah yang belum pernah dilihatnya, yaitu cara melakukan penyesuaian bobot, menurut saya itu tidak bertentangan dengan tujuan kecerdasan umum
  Manusia juga, ketika ingin menjadi lebih baik dalam sesuatu, mencari cara melatih tugas tersebut dan benar-benar belajar dengan cara yang membuatnya meningkat
- Benar. Banyak masalah dalam paradigma saat ini juga ada di sana, dan tidak memungkinkan generalisasi sejati
  Karena itu ada juga orang yang berpendapat AGI tidak akan muncul untuk sementara waktu: https://www.lycee.ai/blog/why-no-agi-openai
- Menurut saya sebagian besar pembelajaran manusia berasal dari input sensorik selama bertahun-tahun
  Saya tidak melihat alasan mengapa kita harus berharap mesin dapat melakukan generalisasi dengan baik tanpa pengetahuan latar belakang
- ARC setara dengan distribusi atas tuple 4 gambar, dan tanpa prior distribution, gambar terakhir menjadi distribusi uniform meskipun 3 gambar sebelumnya diberikan
Saya teringat podcast Lex Fridman yang menghadirkan Marcus Hutter
Joshua Bach juga mendefinisikan kecerdasan sebagai kemampuan memodelkan realitas secara akurat, dan saya penasaran apakah kompresi lossless itu sendiri adalah kecerdasan, ataukah model dengan kecocokan optimal. Apakah ada perbedaan di antara keduanya?
https://www.youtube.com/watch?v=E1AxVXt2Gv4
- Sebagai referensi, François Chollet, pembuat ARC-AGI, berargumen dalam podcast Lex Fridman tahun 2020 bahwa kecerdasan bukanlah kompresi: https://youtu.be/-V-vOXLyKGw
- Kecerdasan adalah kemampuan menemukan model sederhana yang memprediksi realitas kompleks dengan akurasi tinggi dan latensi rendah
  Jadi kita perlu melihat empat sumbu: kesederhanaan, akurasi, latensi, dan kompleksitas realitas; kecerdasan buatan akan berada di suatu wilayah dalam ruang ini
  Sebenarnya ada tes sederhana untuk membedakan kecerdasan: apakah seseorang bisa membaca kode fungsi C dan mengatakan bagaimana perubahan input memengaruhi output
  Pada algoritme yang kompleks, kita harus membuat model internal. Kalau tidak, bagaimana mungkin menjalankan qsort untuk sejuta item di kepala?
  Dengan cara yang sama, kita juga bisa membedakan apakah seorang siswa hanya berpura-pura paham atau benar-benar paham
  Tes yang lebih sulit adalah kebalikannya: membuat algoritme hanya dari beberapa contoh input-output
- Untuk mengaitkannya secara cepat tanpa menonton seluruh podcast, posisi Hutter tampak dalam bentuk Hutter Prize[1], dan dalam beberapa hal tujuannya sangat mirip dengan ARC-AGI, tetapi ia memandang kompresi itu sendiri sebagai tolok ukur menuju kecerdasan
  [1] http://prize.hutter1.net/
Saya mencoba merangkum inti pendekatan ini, tetapi rasanya tertutupi oleh detail-detail non-esensial seperti pilihan metode kompresi tertentu atau prior distribution
Inovasi utamanya tampak ada pada penyusunan sebuah “model” yang bisa dioptimalkan dengan gradient descent, lalu membuat titik optimum itu menjadi model yang paling “sederhana” yang mengingat relasi input-output
Di sini “kesederhanaan” secara spesifik berarti “dapat dikompresi secara efisien”, tetapi secara lebih umum tampaknya lebih dekat dengan makna bahwa kompleksitas model serendah mungkin
Ini sangat kontras dengan machine learning standar. Biasanya kita terlebih dahulu memilih struktur model dan berbagai parameter kompleksitas untuk menetapkan anggaran kompleksitas, lalu melatihnya dengan data guna menemukan solusi yang mengingat relasi input-output dengan baik
Metode baru ini membalik machine learning. Pasangan input-output tetap diingat, tetapi optimisasinya dilakukan untuk meminimalkan kompleksitas model
Fakta bahwa ia bisa melakukan generalisasi hanya dengan 2 contoh pelatihan benar-benar mengejutkan, dan menurut saya sangat menunjukkan arah yang tepat untuk menangani generalisasi
Jalur yang membawa para penulis ke struktur ini adalah teori informasi, tetapi saya tidak yakin apakah itu esensinya
Intinya tampaknya lebih merupakan kesadaran bahwa alih-alih mencari model terbaik dalam anggaran kompleksitas tetap, kita bisa mencari model dengan kompleksitas minimum yang memungkinkan
- Gagasan minimisasi kompleksitas tidak sebaru kelihatannya
  Fungsi objektif loss dalam optimisasi sering ditambahi term regularisasi, dan regularisasi semacam ini sering dapat ditafsirkan sebagai penalti terhadap kompleksitas
  Berkat dualitas, fungsi objektif yang sama bisa dilihat dengan berbagai cara: meminimalkan jumlah berbobot antara error data dan kompleksitas, meminimalkan kompleksitas sambil menjaga error data di bawah batas, atau meminimalkan error data sambil menjaga kompleksitas di bawah batas
  Regularisasi klasik seperti ini belakangan tampaknya sudah kurang populer
  Saya tidak melihatnya memainkan peran besar di sebagian besar arsitektur Transformer, tetapi akan menarik jika ia kembali dalam bentuk apa pun
  Selain itu, ada terlalu banyak elemen baru dalam pendekatan ini sehingga sulit membedakan mana yang benar-benar menghasilkan performa
  Misalnya, struktur neural network-nya sendiri juga tampak disetel cukup serius untuk memaksimalkan performa pada tugas tipe ARC-AGI, dan belum jelas bagaimana ia akan melakukan generalisasi di luar itu
- Saya rasa Anda benar soal bahan intinya, tetapi hasil ini terasa cukup spesifik untuk ARC-AGI
  Tiap puzzle memiliki format yang mirip, dan data yang bervariasi di dalam puzzle hampir persis berimpit dengan informasi yang dibutuhkan untuk menyimpulkan aturan
  Jika jumlah informasi yang diperlukan untuk menjelaskan aturan dikurangi, demi meminimalkan kehilangan informasi, codec hampir mau tidak mau menyusut menjadi sesuatu yang melakukan pekerjaan aturan itu sendiri
  Jika tiap puzzle memiliki lebih banyak noise atau data arbitrer, saya rasa teknik ini tidak akan bekerja
  Tentu saja, pada titik tertentu puzzle tidak boleh berubah menjadi “mencari di mana puzzle-nya berada”, tetapi di sini pendekatan ini bekerja karena tiap contoh merupakan informasi murni tentang puzzle itu sendiri
Menarik. Saya makin berpikir bahwa masa depan machine learning mungkin justru mengarah ke lebih sedikit “machine learning” dalam arti yang sudah kita kenal
Lebih sedikit pretraining, data, dan pencarian, serta lebih banyak representasi langsung, pemrosesan simbolik, pemenuhan kendala, dan meta-learning
Hal-hal yang akan makin kurang dibutuhkan, seperti pretraining dan data, itu berantakan, indiscriminatif, dan kontingen
Jika bergantung pada hal-hal itu, kita selalu akan terikat pada kualitas data; itu baik-baik saja jika tujuannya data mining, tetapi tidak cocok jika tujuannya memodelkan penyebab mendasar dari data
Sejauh yang saya pahami, mereka lebih seperti berusaha menyingkap representasi minimum dari ruang solusi/masalah
Melalui equivariance, mereka melacak struktur nyata dari masalah, dan alih-alih berharap menangkapnya secara kebetulan dari banyak contoh solusi, mereka menurunkan sesuatu yang dekat dengan representasi dasar sebenarnya dari puzzle dan cara menyelesaikannya
Dokumentasi dan penjelasannya bagus. Saya senang karena ini juga cocok dengan introspeksi saya
Saya memandang “kecerdasan sebagai kompresi informasi menjadi representasi yang tidak dapat direduksi”
- Ungkapan tentang kecerdasan itu bagus
  https://en.wikipedia.org/wiki/Kolmogorov_complexity
  https://en.wikipedia.org/wiki/Solomonoff%27s_theory_of_induc...
  https://en.wikipedia.org/wiki/Minimum_description_length
  Konsep ini tampaknya terkait, jadi saya berencana menggali lebih jauh
- Kalau “kecerdasan adalah kompresi informasi menjadi representasi yang tidak dapat direduksi”, saya kira itu adalah fisika ;)
  https://en.wikipedia.org/wiki/Wigner%27s_classification
Jika ARC-AGI adalah benchmark yang menguji kemampuan menyimpulkan aturan abstrak dari contoh minimal dan melakukan generalisasi, pada akhirnya ia mendefinisikan kecerdasan sebagai kemampuan mengompresi informasi menjadi sekumpulan aturan
Kalau begitu, memang benar bahwa kompresi melakukan pekerjaan itu
- Ini tidak sirkular atau trivial seperti klaim tersebut
  Saya penasaran apakah Anda pernah mencoba menyelesaikan soal ARC-AGI secara langsung
  Soal-soalnya cukup halus dan menguji rentang konsep abstrak yang luas
  Sebagai referensi, o1-preview mencatat 21% pada evaluasi publik, sedangkan pendekatan di artikel asli mencatat 34%
Makalah Schmidhuber yang cukup terkait: https://arxiv.org/abs/0812.4360
Jika ungkapannya “memproses tiap puzzle sekitar 20 menit di RTX 4070”, berarti challenge 100 soal akan memakan waktu 33,3 jam
Ini melebihi target challenge 12 jam, tetapi pendekatannya sendiri cukup keren
Selain fakta bahwa strukturnya dirancang dengan sangat teliti, ini tampak hampir seperti pendekatan Bayesian deep learning standar

Memecahkan ARC-AGI Tanpa Pra-pelatihan

Eksperimen: apakah ARC-AGI bisa dipecahkan hanya dengan kompresi

Pengaturan masalah ARC-AGI

Cara kerja CompressARC

Turunan dari sudut pandang kompresi

Arsitektur: multitensor dan ekuivarians

Hasil performa

Puzzle yang bisa dipecahkan dan puzzle yang sulit

Contoh: Color the Boxes

Contoh tambahan dan analisis representasi

Puzzle Bounding Box 6d75e8bb

Puzzle Center Cross 41e4d17e

Ide perbaikan

Pekerjaan terkait dan posisi riset

Bacaan terkait

1 komentar

Pendapat Hacker News