- Platonic Representation Hypothesis (hipotesis representasi Idea) menyatakan bahwa ketika model AI makin besar dan makin cerdas, secara internal mereka akan berkumpul menuju ruang representasi yang serupa
- Melalui konsep compression pada model bahasa, kecerdasan ditafsirkan sebagai kemampuan kompresi data, dan dijelaskan bahwa saat model melakukan generalisasi, kemiripan metodenya menjadi lebih tinggi
- Dengan menganalisis masalah embedding inversion, PRH menyiratkan bahwa ruang embedding antar model yang berbeda dapat disejajarkan dengan metode seperti CycleGAN
- Eksperimen seperti Sparse Autoencoder menunjukkan bahwa jaringan yang sangat berbeda pun menemukan konsep dan sirkuit yang sama atau mirip
- Wawasan ini membuka potensi aplikasi praktis yang besar, seperti menguraikan aksara kuno yang belum terpecahkan atau bahasa hewan
Pendahuluan: permainan Mussolini atau Bread dan berbagi makna
- Penulis menggunakan permainan "Mussolini atau Bread" sebagai contoh untuk memperkenalkan cara menebak objek yang dipikirkan lawan dengan mempersempit pertanyaan secara berulang
- Alasan permainan ini bisa berjalan adalah karena adanya ruang makna bersama (semantics) di antara manusia
- Ditekankan bahwa banyak orang, bahkan tanpa aturan khusus, umumnya dapat memahami secara intuitif "kedekatan" makna
Semantik universal: kompresi dunia dan model
- Seperti permainan ini, otak manusia membangun model kompleks tentang dunia nyata dengan cara yang serupa
- Dari sudut pandang algoritmik, AI belajar dengan mengompresi data dunia semaksimal mungkin
- Tugas generasi bahasa alami dapat dipandang sebagai pekerjaan kompresi berbasis distribusi probabilitas (teori informasi Shannon)
- Ini menyiratkan bahwa semakin baik model mengompresi data, semakin dalam ia memahami dunia nyata
- Dalam praktiknya, model bahasa yang lebih besar menunjukkan kemampuan kompresi data yang lebih baik dan kecerdasan yang lebih tinggi
- Ketika dataset menjadi terlalu besar sehingga mengingat tiap titik data secara individual tidak lagi mungkin, model mulai menggabungkan data dan melakukan generalisasi
Platonic Representation Hypothesis (hipotesis representasi Idea)
- Peneliti MIT memformalkan "Platonic Representation Hypothesis" pada tahun 2024
- Menurut hipotesis ini, semakin besar skala model AI, semakin banyak feature yang dibagikan, dan ruang representasinya menjadi selaras secara serupa
- Hal ini telah diamati secara eksperimental di berbagai domain seperti bahasa dan visi
- Seiring model berkembang setiap tahun menjadi lebih besar dan lebih efisien, diperkirakan kemiripan ruang representasi antar model akan terus meningkat
Masalah embedding inversion
- Penulis menjelaskan pengalamannya meneliti masalah embedding inversion, yaitu menyimpulkan kembali teks input asli dari vektor embedding
- Sebelumnya, pada ImageNet dan lainnya, sudah ada kasus pemulihan informasi yang mendekati gambar asli hanya dari nilai probabilitas
- Embedding bahasa alami tampak kaya informasi, tetapi karena teks yang mirip memiliki embedding yang mirip, inferensi balik yang jelas menjadi sangat sulit
- Untuk itu, dikonfirmasi bahwa teknik iterative refinement yang mendekati teks makin akurat lewat pencarian dan optimasi embedding berulang sangat efektif
- Dengan metode tersebut, ditunjukkan secara empiris kemungkinan inversi dengan akurasi di atas 94% pada tingkat kalimat panjang
Generalisasi embedding inversion dengan hipotesis Idea
- Namun, metode yang ada hanya dapat diterapkan pada model embedding tertentu, dan memiliki keterbatasan pada model baru atau model privat
- Jika PRH benar, maka dimungkinkan membuat inverter embedding universal yang bekerja di antara berbagai model
- Selama beberapa tahun, penulis meneliti kemungkinan menyelaraskan ruang dengan pendekatan CycleGAN ketika diberikan dua himpunan embedding berbeda (A, B) yang pasangannya tidak diketahui
- Hasilnya, ia berhasil mengonversi antar dua ruang embedding dengan metode unsupervised matching tanpa fine-tuning tambahan (
vec2vec)
- Melalui hal ini, dibuktikan bahwa embedding basis data arbitrer dapat diterjemahkan atau diinferensikan balik bahkan tanpa informasi individual tentang tiap embedding
Kemungkinan interpretasi mesin: Universal Circuits
- Dalam riset analisis sirkuit di bidang Mechanistic Interpretability, ditemukan fungsi internal bersama meskipun struktur model berbeda
- Hasil penerapan Sparse Autoencoder (SAE) menunjukkan bahwa bahkan ketika dilatih secara independen pada model yang berbeda, terdapat redundansi yang cukup besar dalam feature yang dapat diinterpretasikan
- Dengan membandingkan feature dari dua SAE, dimungkinkan penyelarasan konsep lintas model
- Jika PRH lebih akurat dari yang diduga, fenomena ini diharapkan akan semakin menonjol pada model yang lebih kuat
Implikasi praktis dan prospek
- Hipotesis representasi Idea, selain memiliki implikasi filosofis yang mendalam, juga menawarkan kemungkinan praktis dalam interpretasi model, inversi, dekripsi sinyal, dan pemulihan bahasa
- Ke depan, jika teknik interpretasi makin berkembang, diperkirakan bahwa pada model yang lebih besar akan semakin umum menemukan penyelarasan ruang representasi dan kesamaan internal
- Ada kemungkinan bahwa penguraian aksara kuno yang selama ini mustahil dipecahkan, seperti Linear A, atau interpretasi bahasa hewan (misalnya vokalisasi paus), kelak dapat terwujud
- Metode saat ini seperti
vec2vec masih memiliki kelemahan, tetapi sudah menunjukkan keberhasilan yang cukup besar pada embedding berbasis internet serta image-text
- Ini juga menyiratkan adanya kemungkinan dekripsi di masa depan untuk konversi ruang antarbahasa maupun transformasi bahasa paus → bahasa manusia
1 komentar
Komentar Hacker News