Model Bahasa Besar yang Beradaptasi Sendiri (Self-Adapting)

(arxiv.org)

3 poin oleh GN⁺ 2025-06-15 | 1 komentar | Bagikan ke WhatsApp

LLM yang ada saat ini sering kali mempertahankan bobotnya tetap sama meskipun menerima pengetahuan atau tugas baru, sehingga SEAL mengusulkan kerangka kerja adaptasi mandiri di mana model sendiri membuat dan memperbarui data serta prosedur pembelajaran
Unit intinya, self-edit, mencakup penyusunan ulang informasi, penentuan hyperparameter optimasi, augmentasi data, hingga pemanggilan alat untuk pembaruan berbasis gradien
SEAL mempelajari kebijakan untuk menghasilkan self-edit yang lebih efektif melalui loop reinforcement learning yang menggunakan kinerja downstream model yang telah diperbarui sebagai reward
Dalam eksperimen integrasi pengetahuan, setelah fine-tuning dengan data sintetis yang dihasilkan sendiri, performa SQuAD no-passage-in-context naik dari 33.5% menjadi 47.0%, lebih tinggi daripada data sintetis yang dihasilkan GPT-4.1
Dalam pembelajaran few-shot pada subset ARC-AGI yang disederhanakan, sistem ini juga secara otomatis memilih augmentasi data, learning rate, epoch, dan perhitungan loss menurut jenis token, sehingga menghasilkan performa lebih baik daripada ICL standar dan self-editing tanpa RL

Cara memperbarui LLM statis secara mandiri

LLM yang ada saat ini sangat kuat, tetapi bersifat statis (static) dan tidak memiliki mekanisme untuk menyesuaikan bobot terhadap tugas, pengetahuan, atau contoh baru
SEAL (Self-Adapting LLMs) dirancang agar ketika menerima masukan baru, model secara langsung mengubah data pembelajaran dan prosedur belajarnya sendiri untuk melakukan adaptasi mandiri
Hasil utama yang dihasilkan adalah self-edit
- Dapat menyusun ulang informasi ke dalam format lain
- Dapat menentukan hyperparameter optimasi
- Dapat memanggil alat untuk augmentasi data dan pembaruan berbasis gradien
self-edit kemudian dilanjutkan ke pembaruan berkelanjutan pada bobot model melalui supervised fine-tuning (SFT)
Situs web dan kode tersedia di https://jyopari.github.io/posts/seal

Perbedaan dengan pendekatan adaptasi yang ada

Saat ini, ketika menerima tugas baru, LLM biasanya mengonsumsi data tugas apa adanya (as-is) melalui fine-tuning atau pembelajaran dalam konteks (in-context learning)
Data masukan mungkin bukan dalam format atau jumlah yang optimal untuk pembelajaran, tetapi pendekatan yang ada tidak membuat model mengembangkan sendiri strategi tentang bagaimana mengubah dan mempelajari data tersebut
SEAL tidak bergantung pada modul adaptasi terpisah atau jaringan bantu, melainkan memarameterisasi dan mengendalikan proses adaptasi melalui hasil generasi model itu sendiri
Ini mirip dengan cara pelajar manusia belajar dengan menafsirkan ulang dan menyusun kembali materi mentah menjadi catatan, alih-alih menghafalnya begitu saja
- Setiap orang menyerap informasi dengan cara berbeda seperti diagram visual, teks, atau penjelasan matematis
- SEAL adalah upaya untuk membawa proses penyusunan ulang dan penulisan ulang ini ke prosedur pembelajaran LLM

Mempelajari kebijakan self-edit dengan reinforcement learning

SEAL melatih LLM dengan algoritme reinforcement learning agar dapat menghasilkan self-edit yang efektif
Setiap outer loop iteration reinforcement learning berjalan dengan alur berikut
- Model menghasilkan kandidat self-edit
- Pembaruan bobot diterapkan sesuai self-edit
- Model yang telah diperbarui dievaluasi pada tugas downstream
- Kebijakan pembuatan self-edit diperbaiki menggunakan reward dari hasil evaluasi
Sinyal reward adalah kinerja downstream dari model yang telah diperbarui

Hasil eksperimen: integrasi pengetahuan

Eksperimen integrasi pengetahuan menangani tugas memasukkan pengetahuan faktual baru ke dalam LLM
Fine-tuning dilakukan bukan langsung pada teks passage, melainkan menggunakan data sintetis yang dihasilkan model SEAL
Setelah pelatihan reinforcement learning, data sintetis buatan SEAL sendiri meningkatkan performa tanya-jawab SQuAD no-passage-in-context dari 33.5% menjadi 47.0%
Data buatan SEAL sendiri mencatat performa lebih tinggi daripada data sintetis yang dibuat oleh GPT-4.1

Hasil eksperimen: generalisasi few-shot ARC-AGI

Evaluasi kedua melakukan few-shot learning pada subset benchmark ARC-AGI yang disederhanakan
Model secara mandiri memilih augmentasi data sintetis dan hyperparameter optimasi dengan memanfaatkan kumpulan alat
Target pemilihan otomatis mencakup hal-hal berikut
- Learning rate
- Training epochs
- Perhitungan loss selektif menurut jenis token
Pemilihan dan penyusunan alat secara otomatis melalui SEAL meningkatkan performa dibandingkan pembelajaran dalam konteks standar (ICL) dan self-editing tanpa RL yang tidak mempelajari penggunaan alat secara efektif
Kedua eksperimen menunjukkan bahwa SEAL dapat menjadi kerangka kerja untuk membuat model bahasa beradaptasi secara mandiri terhadap data baru

1 komentar

GN⁺ 2025-06-15

Pendapat di Hacker News

Pendekatan self-edit ini cerdas karena mengoptimalkan, melalui reinforcement learning, cara model menyusun ulang informasi agar sesuai untuk pembelajaran dirinya sendiri
Intinya, setiap jenis pengetahuan punya bentuk ekspresi yang lebih cocok; mirip seperti manusia memakai cara mencatat yang berbeda saat belajar matematika dan sejarah
Pada data GPT-4.1, hasil integrasi pengetahuan mencapai 47% berbanding 46,3%, jauh lebih tinggi daripada baseline model kecil, sehingga tampaknya bukan sekadar karena datanya lebih banyak, melainkan karena menemukan format belajar yang lebih baik
Namun catastrophic forgetting tetap belum teratasi, dan belum sepenuhnya jelas apakah keragaman data benar-benar membaik
Biaya komputasi 30–45 detik untuk setiap evaluasi reward terlalu berat untuk sebagian besar penggunaan, tetapi bisa layak untuk pemrosesan dokumen bernilai tinggi ketika preservasi optimal benar-benar penting
Keterbatasan terbesarnya adalah hanya bisa diterapkan pada tugas yang memiliki metrik evaluasi eksplisit; untuk menghitung reward diperlukan pasangan tanya-jawab dengan jawaban benar atau test case
Meski begitu, di ranah yang evaluasinya dapat dibuat, seperti dokumentasi teknis atau konten pendidikan, ini bisa sangat memperbaiki cara memproses informasi baru; walaupun belum sampai tahap “agen yang terus-menerus memperbaiki diri”, rasanya ini merupakan langkah penting menuju model yang menyesuaikan strategi belajarnya sendiri
Sejak pertengahan 2010-an, dua teman saya yang berbakat matematika dan sangat awal menekuni machine learning sering membicarakan algoritma NEAT/HyperNEAT yang terdengar mirip dengan ini
“NEAT/HyperNEAT” (Neuroevolution of Augmented Topologies) [0]
Saya bukan pakar machine learning, tetapi sejauh yang saya pahami, NEAT mengevolusikan topologi jaringan, sementara makalah ini tampaknya mengevolusikan bobot
Pada akhirnya, keduanya terlihat seperti dua pendekatan untuk memecahkan masalah yang sama: yang satu mengevolusikan struktur jaringan, yang lain mengevolusikan bobot
Dua teman itu termasuk orang terpintar yang pernah saya temui, dan mereka cukup yakin bahwa reinforcement learning dan algoritma evolusioner adalah arah masa depan machine learning
[0] https://en.wikipedia.org/wiki/Neuroevolution_of_augmenting_t...
- Manusia memang luar biasa. Kita membuat sistem komputasi imajiner untuk memahami neuron, lalu mengetahui bahwa neuron nyata tidak bekerja seperti itu, tetapi tetap saja membangun teknologi yang mengubah paradigma di atasnya
  Dan kita masih terus memperkuat teknologi dengan ide-ide yang lahir dari sistem imajiner tersebut
- Materi pengantar NEAT favorit saya adalah MarI/O - Machine Learning for Video Games dari SethBling
  https://www.youtube.com/watch?v=qv6UVOQ0F44
- Belakangan ini saya benar-benar terpikat pada ide ini. Setelah cukup berhasil melakukan voice cloning untuk Kokoro dengan algoritma genetika, saya jadi bertanya-tanya apakah arsitektur itu sendiri bisa dievolusikan
  Gagasan tentang kecerdasan yang merakit dirinya sendiri sangat menarik, tetapi saya masih bertanya-tanya bagaimana membuatnya layak diwujudkan
  Melihat perkembangan LLM sampai sejauh ini, pendekatan hibrida seperti ini mungkin saja yang terbaik
Anthropic juga beberapa hari lalu menerbitkan makalah terkait self finetuning
https://arxiv.org/html/2506.10139v1
- Ini luar biasa
  “Saat dievaluasi dengan model reward kelas produksi Claude 3.5 Sonnet, kebijakan pembantu tanpa supervisi menang 60% dalam perbandingan langsung melawan kebijakan yang dilatih dengan model reward supervisi manusia”
  Artinya, sekarang model bisa melakukan post-training model baru dengan lebih baik daripada manusia
- Ada thread terkait yang sedang berlangsung
  Unsupervised Elicitation of Language Models - https://news.ycombinator.com/item?id=44276041
Saya berharap ada orang yang benar-benar paham menjelaskan sudah sejauh mana riset untuk membuat LLM belajar “sambil bekerja”, dan apa saja faktor penghambat yang membuatnya belum menjadi sesuatu yang benar-benar bisa dideploy
Misalnya, ketika membuat model + coding agent yang benar-benar mempelajari codebase seiring waktu melalui cara seperti fine-tuning berkelanjutan, saya penasaran apakah masalahnya biaya, model collapse, atau faktor lain
Lab besar pasti sedang mencobanya, tetapi dari sudut pandang pengguna LLM, topik ini tidak banyak dibicarakan, dan saat ini rasanya fokus lebih tertuju pada pelatihan yang lebih baik, misalnya reinforcement learning
Sepertinya juga ada asumsi bahwa hal-hal yang tidak dipelajari saat training bisa dimasukkan ke konteks saat dibutuhkan
Dari sudut pandang naif, ketidakmampuan belajar dari pengalaman setelah training tampak seperti hambatan terbesar menuju AGI
- Kita sama sekali belum tahu bagaimana melakukan continual learning
  Pembahasan soal biaya komputasi, collapse, dan forgetting memang benar, tetapi satu-satunya cara yang “benar-benar” mungkin adalah melatih model, menerima data baru, melatih ulang model sepenuhnya dengan seluruh data lama plus data baru, lalu mengulanginya
  Bahkan dengan itu pun tidak ada jaminan dari sisi “waktu”
  Bidang continual learning hampir tidak punya jawaban yang sungguh-sungguh menyelesaikan ini, dan solusi-solusinya dalam banyak hal saling bertentangan sehingga sangat sulit
  Kita harus memperluas ruang representasi model sambil mempertahankan ruang representasi sebelumnya hampir apa adanya; pada akhirnya itu berarti harus mengubah tanpa mengubah
  Hal yang paling menjengkelkan adalah otak alami yang sangat kecil pun melakukan ini dengan mudah
  Ada teori panjang yang bisa dijelaskan, tetapi ringkasnya, AI kemungkinan besar juga membutuhkan semacam proses tidur atau beristirahat
- Saya bukan pakar, tetapi menurut saya privasi memainkan peran besar, atau setidaknya seharusnya begitu
  Karena biaya komputasi, pelatihan apa pun kemungkinan harus dilakukan secara teragregasi, bukan per pengguna; jika demikian, risiko kebocoran informasi antar-sesi menjadi sangat besar
  Saya sepenuhnya setuju bahwa menemukan metode continual learning yang aman tampaknya merupakan hambatan terbesar menuju AGI
- Jawaban sebenarnya adalah kita belum cukup mempercayai evaluasi otomatis
  Walaupun skor evaluasi naik, sulit untuk yakin bahwa rilis tertentu yang dilatih secara otomatis benar-benar meningkatkan performa nyata, sehingga saat ini semua orang menggabungkan pembaruan dan melakukan sanity check sebelum deployment
- Masalah yang paling jelas adalah alignment
  Sudah diketahui bahwa fine-tuning LLM saja bisa menghilangkan alignment, jadi bentuk fine-tuning berkelanjutan apa pun secara teori juga bisa menghapus alignment dengan cara yang sama
- Hambatan yang paling nyata adalah catastrophic forgetting
Sekilas ini tampaknya hanya framework untuk melakukan fine-tuning pada adapter LoRA lalu menggabungkannya ke model asli
Mereka menggunakan PeftModel dari library HuggingFace dan merge_and_unload untuk menggabungkan adapter ke model dasar, tetapi saya tidak tahu persis apa yang baru di sini
- Bagian yang tampak baru mungkin ada pada stabilitas pendekatannya, dalam menghindari biaya alignment dan runtuhnya model
  Saya ingin melihat siklus penuh hypernetwork yang terus memperbarui dua model dengan LoRA yang dihasilkan, dan hypernetwork juga diperbarui mengikuti status model baru
  Untuk menerapkan LoRA pada hypernetwork, dibutuhkan meta-hypernetwork, dan dengan begitu pada dasarnya pembelajaran berkelanjutan mungkin menjadi memungkinkan
Bagian inti adalah pernyataan bahwa “model bahasa besar memang kuat tetapi statis, dan tidak memiliki mekanisme untuk menyesuaikan bobot sebagai respons terhadap tugas baru”
Karena proses pelatihan dan inferensi sepenuhnya terpisah, ini sangat membingungkan bagi orang yang terbiasa dengan konsep tradisional tentang kecerdasan manusia
Pada manusia, mempelajari sesuatu dan menerapkan pengetahuan itu di dunia nyata adalah satu proses umpan balik yang terpadu, tetapi LLM tidak demikian
Kita melatihnya, menerapkannya, lalu menggantinya dengan model baru yang sedikit lebih “terpelajar”
Bagi LLM, inferensi adalah akhir dari pembelajaran
Mungkin kesalahpahaman terbesar tentang AI ada di sini
Jika mengira LLM sedang belajar, mudah untuk membayangkan AGI sudah di depan mata
- Seperti yang ditunjukkan DeepSeek, LLM bisa disempurnakan dengan reinforcement learning
- Bagaimana kalau setelah melihat apakah pengguna bereaksi positif atau negatif terhadap output, kita melatih LLM dengan input yang diterima model dan output yang dihasilkannya?
Situs web dengan kode dan contoh: https://jyopari.github.io/posts/seal
Di bidang ini, tampaknya melupakan dengan benar dengan cepat menjadi persoalan yang lebih penting daripada “belajar dengan benar”
Ada kemajuan besar dalam membuat model mengajari dirinya sendiri fakta baru, tetapi teknologi mutakhir untuk membuang informasi yang paling tidak relevan ketika diberi pengetahuan baru dan kapasitas yang terbatas masih jauh tertinggal
Sebagian besar otak manusia sangat baik dalam “melupakan dengan benar”, dan saya penasaran bagaimana cara kerjanya
- Saya tidak yakin manusia benar-benar mahir melupakan dengan benar
  Sejujurnya, saya juga tidak yakin otak manusia “luar biasa hebat” dalam banyak hal yang kita lakukan
  Karena kapasitas memori otak manusia begitu besar, menurut saya sebagian besar pelupaan bukanlah untuk menyediakan ruang bagi informasi baru, melainkan lebih dekat pada otak yang mengetahui dengan benar bahwa informasi buruk dari masa lalu mengganggu pembelajaran baru
- Sejauh yang saya tahu, hampir tidak ada kemajuan dalam mengidentifikasi bobot mana dalam jaringan saraf buatan yang bertanggung jawab atas output tertentu dan seberapa besar tanggung jawabnya
  Karena itu, informasi yang ditandai pengguna sebagai salah, tidak akurat, atau tidak diinginkan tidak bisa dibuang
  Sebaliknya, pikiran manusia melakukan ini dengan mudah
  Kita mengingat bahwa sesuatu telah diklasifikasikan sebagai salah, tidak berguna, dan tidak relevan, lalu tidak melakukannya lagi, dan seiring waktu mungkin bahkan melupakan jalur yang makin jarang dilalui itu sendiri
  Setidaknya dalam jaringan saraf buatan tidak ada mekanisme yang jelas seperti itu
- Pembelajaran sangat terkait dengan spaced repetition
  Biasanya ini dikaitkan dengan alat belajar seperti Anki, tetapi dunia nyata penuh dengan hal-hal yang kita temui pada frekuensi tertentu
  Siklus siang dan malam, musim, tempat yang dikunjungi, orang-orang yang ditemui, dan praktis semua hal lainnya demikian
  Saya jadi penasaran apakah mungkin ada sesuatu seperti kebalikan dari spaced repetition
- Saya melihat sebuah riset menarik: LLM juga “menyembunyikan” data internal
  Bukan sekadar melupakan; jika terus dilatih, informasi itu bisa muncul kembali nanti
  Jadi saat melatih model, kita harus memeriksa seluruh memori, bukan hanya melihat sebagian kecil saja
- Apakah ini semacam pendekatan least recently used?
  Saya sedang mencoba mengujinya di kepala saya sekarang :D
  Hal-hal seperti inilah yang membuat saya menyukai bidang ilmu komputer ini
Bagian yang mengatakan “Villalobos et al. [75] memprediksi bahwa LLM terdepan akan dilatih dengan seluruh teks buatan manusia yang tersedia secara publik pada 2028” cukup berkesan
Makalah itu berpendapat bahwa karena data wall yang akan datang, augmentasi data sintetis harus diadopsi, dan ketika korpus berskala web habis, kemajuan akan bergantung pada kemampuan model untuk menghasilkan sinyal pelatihan yang berguna bagi dirinya sendiri
Langkah alami berikutnya adalah melakukan meta-learning pada model khusus pembuat data sintetis SEAL untuk membuat korpus prapelatihan baru, sehingga model masa depan dapat meningkatkan skalabilitas dan efisiensi data tanpa bergantung pada teks manusia tambahan
Tahun 2028 pada dasarnya sudah seperti besok, dan ini wawasan yang menarik
- Itu hanya teori
  Satu otak manusia jauh lebih kompleks daripada seluruh web dari sudut pandang jumlah node dan koneksi
  Kita bahkan belum memahami otak dengan cukup baik untuk menjelaskan bagaimana pikiran terbentuk
  Kita juga belum sepenuhnya memahami proses sebelum otak menghasilkan output dan mengirimkannya ke web
  Prediksi bahwa setelah skala web habis model akan bisa membuat data pelatihan yang berguna untuk dirinya sendiri hanyalah spekulasi
  Data pelatihan semacam itu mungkin tidak akan mencapai kualitas yang sama dengan pemikiran manusia, atau mungkin hanya mengulang-ulang saja tanpa memajukan pembelajaran maupun kualitas model sama sekali
  Menyebut itu sebagai “wawasan” agak optimistis
- Itu hampir sudah menjadi kondisi saat ini
  LLM terdepan sudah dilatih dengan seluruh teks buatan manusia yang tersedia secara publik, dan sudah banyak dilatih juga dengan data sintetis untuk meningkatkan tugas-tugas yang dapat diverifikasi seperti coding

Model Bahasa Besar yang Beradaptasi Sendiri (Self-Adapting)

Cara memperbarui LLM statis secara mandiri

Perbedaan dengan pendekatan adaptasi yang ada

Mempelajari kebijakan self-edit dengan reinforcement learning

Hasil eksperimen: integrasi pengetahuan

Hasil eksperimen: generalisasi few-shot ARC-AGI

Bacaan terkait

1 komentar

Pendapat di Hacker News