- Model bahasa besar (LLM) yang ada saat ini masih kurang mampu beradaptasi secara langsung terhadap tugas atau pengetahuan baru
- Framework SEAL yang baru memungkinkan LLM memiliki kemampuan beradaptasi sendiri dengan menghasilkan data fine-tuning dan instruksi pembaruan miliknya sendiri
- Proses ini mencakup pembuatan self-edit, eksekusi instruksi, serta peningkatan performa berkelanjutan melalui loop reinforcement learning (berbasis RL)
- SEAL menunjukkan performa yang lebih baik dibanding metode yang ada dalam eksperimen integrasi pengetahuan baru dan generalisasi few-shot
- Studi ini menunjukkan langkah yang menjanjikan menuju realisasi LLM dengan kemampuan adaptasi yang dipandu dirinya sendiri
Ikhtisar
- Model bahasa besar (LLM) menunjukkan performa yang kuat, tetapi belum memiliki mekanisme untuk menyesuaikan bobotnya secara dinamis berdasarkan tugas, informasi, atau contoh baru
- Makalah ini memperkenalkan framework Self-Adapting LLM (SEAL), yang memungkinkan LLM menghasilkan sendiri data untuk fine-tuning dan membuat instruksi pembaruan
- Saat menerima input baru, SEAL menghasilkan self-edit seperti menyusun ulang informasi dalam berbagai bentuk, menentukan hyperparameter optimisasi, atau memanggil alat untuk augmentasi data dan pembaruan berbasis gradien
- Self-edit ini kemudian menghasilkan pembaruan permanen pada bobot model melalui proses supervised fine-tuning (SFT), sehingga memastikan kemampuan adaptasi yang berkelanjutan
- Untuk menghasilkan self-edit yang efektif, framework ini memanfaatkan loop reinforcement learning, dengan performa downstream setelah pembaruan model digunakan sebagai sinyal reward
Analogi dengan pembelajaran manusia
- Pendekatan ini terinspirasi dari cara siswa saat mempersiapkan ujian menulis ulang informasi dari kuliah, buku teks, internet, dan sumber lain ke dalam catatan versi mereka sendiri
- Setiap orang memiliki cara yang berbeda dalam menyusun ulang informasi; ada yang merangkumnya dalam diagram, ada yang memakai teks, dan ada pula yang menggunakan rumus
- Hal ini menunjukkan bahwa mengatur ulang atau memperkaya pengetahuan eksternal agar lebih mudah dipahami sendiri merupakan ciri umum pembelajaran manusia
- LLM yang ada saat ini, ketika diberi tugas baru, biasanya hanya melakukan fine-tuning pada dataset yang diberikan apa adanya atau memakai in-context learning
- Namun, pendekatan seperti ini memiliki keterbatasan ketika format atau jumlah data tidak optimal untuk proses pembelajaran
SEAL: Usulan framework adaptasi mandiri
- SEAL dilatih dengan algoritme reinforcement learning agar LLM dapat menghasilkan sendiri data pelatihan dan instruksi fine-tuning dalam bahasa alami
- Di sini, self-edit adalah bentuk perintah yang menetapkan data dan (secara opsional) hyperparameter optimisasi
- Ciri utama SEAL adalah, tanpa modul tambahan atau jaringan pendukung terpisah, model secara langsung mengendalikan proses adaptasinya sendiri hanya dengan kemampuan generasi bahasa alami
Cara kerja SEAL
- Pada setiap iterasi loop luar reinforcement learning (RL), model menghasilkan kandidat self-edit (SE)
- Self-edit yang dihasilkan kemudian diterapkan untuk memperbarui bobot
- Setelah itu, performa model dievaluasi pada tugas downstream, dan dari hasil tersebut diperoleh sinyal reward
- Dengan menggunakan sinyal reward, kebijakan pembangkitan self-edit diperbaiki secara berulang
Eksperimen dan hasil
- Pada tugas integrasi pengetahuan, SEAL melakukan fine-tuning menggunakan data sintetis yang dihasilkan langsung oleh model
- Pada versi no-passage-in-context dari SQuAD, performa tanya-jawab meningkat signifikan dari 33.5% sebelum pelatihan RL menjadi 47.0% setelah pelatihan RL
- Data yang dihasilkan SEAL menunjukkan performa yang bahkan lebih baik daripada data sintetis yang dibuat oleh GPT-4.1
- Dalam eksperimen pembelajaran few-shot, digunakan versi sederhana dari benchmark ARC-AGI, dan SEAL secara langsung memilih data augmentasi serta hyperparameter optimisasi
- Secara otomatis memilih berbagai kombinasi alat seperti learning rate, epoch, dan perhitungan loss selektif berdasarkan jenis token
- Penggunaan SEAL dengan reinforcement learning menghasilkan peningkatan performa, dan lebih efektif dibanding sekadar in-context learning atau penggunaan alat tanpa RL
Kesimpulan
- Framework SEAL secara eksperimental membuktikan bahwa adaptasi mandiri LLM melalui data dan instruksi yang dihasilkan sendiri memungkinkan dilakukan
- Pendekatan ini menunjukkan kemajuan penting bagi pengembangan model bahasa generasi berikutnya yang memiliki efisiensi data, kemampuan adaptasi, dan generalitas
1 komentar
Komentar Hacker News
Saat dua teman jenius matematika saya terjun sangat awal ke ML pada pertengahan 2010-an, mereka sering bercerita tentang algoritma bernama NEAT/HyperNEAT (Neuroevolution of Augmented Topologies) [tautan Wikipedia NEAT] Saya bukan ahli ML jadi tidak tahu persis, tetapi pemahaman saya adalah bahwa NEAT berevolusi pada topologi jaringan, sedangkan makalah ini berevolusi pada bobotnya. Pada dasarnya saya melihat ini sebagai dua pendekatan berbeda untuk memecahkan masalah yang sama: mengubah struktur jaringan vs mengubah bobot. Kedua teman itu tampak sangat yakin bahwa masa depan AI ada pada RL (reinforcement learning) dan algoritma evolusi.
Ada video pengantar NEAT favorit saya: MarI/O karya SethBling - Machine Learning for Video Games [tautan YouTube]
Saya rasa manusia itu luar biasa. Kita membuat sistem komputasi virtual untuk mencoba memahami neuron, lalu menyadari bahwa kenyataannya tidak bekerja seperti itu, tetapi tetap mengambil ide dari sistem imajiner tersebut dan menciptakan teknologi yang inovatif. Dan sampai sekarang pun kita terus mengembangkannya dengan inspirasi dari sistem imajiner itu.
Belakangan ini saya benar-benar terobsesi dengan konsep NEAT/berbasis evolusi ini. Setelah cukup berhasil menggunakan genetic algorithm pada proyek kloning suara Kokoro, saya jadi penasaran apakah struktur jaringan itu sendiri bisa berevolusi hingga memungkinkan “kecerdasan yang merakit dirinya sendiri”. Saya penasaran apa yang diperlukan agar ini benar-benar praktis, dan melihat bagaimana LLM muncul dengan cara seperti sekarang, saya jadi berpikir pendekatan hibrida mungkin merupakan alternatif yang realistis.
Saya pikir pendekatan
self-edit, di mana model menggunakan RL untuk merestrukturisasi informasinya sendiri demi meningkatkan efisiensi belajar, sangat cerdas. Ide intinya adalah bahwa representasi yang berbeda lebih efektif untuk jenis pengetahuan yang berbeda juga (seperti matematika dan sejarah membutuhkan gaya pencatatan yang berbeda). Ada dua pengamatan penting. Pertama, hasil integrasi pengetahuan (47% vs 46.3%, berdasarkan data GPT-4.1) menunjukkan bahwa ini bukan sekadar memasukkan lebih banyak data, melainkan model benar-benar menemukan format pembelajaran yang lebih baik. Masalah catastrophic forgetting masih belum terpecahkan, dan juga belum jelas seberapa besar keragaman data benar-benar meningkat. Kedua, satu evaluasi reward memakan waktu 30~45 detik sehingga sulit dipakai untuk kebanyakan penggunaan nyata. Tetapi untuk hal seperti pemrosesan dokumen yang sangat penting, di mana retensi informasi optimal benar-benar dibutuhkan, ini layak diinvestasikan. Keterbatasan besarnya adalah pendekatan ini hanya berlaku untuk tugas yang memiliki metrik evaluasi yang jelas (karena perlu Q&A acuan atau test case untuk menghitung reward). Meski begitu, untuk area seperti dokumentasi teknis atau materi pendidikan, di mana evaluasi bisa diotomatisasi, ada potensi besar untuk menghadirkan paradigma pemrosesan pengetahuan yang sama sekali baru. Ini memang belum sampai pada agen yang sepenuhnya memperbaiki diri, tetapi terasa seperti kemajuan penting di mana model mulai meningkatkan cara belajarnya sendiri.Beberapa hari lalu Anthropic juga merilis riset terkait self finetuning yang mirip [tautan makalah arXiv]
Ada diskusi terkait yang masih berlangsung [thread HN terkait]
Menurut saya ini benar-benar mengejutkan. Berdasarkan RM grade produksi untuk Claude 3.5 Sonnet, kebijakan unsupervised assistant dinilai mengalahkan kebijakan yang dilatih dengan RM pengawasan manusia sebesar 60% dalam perbandingan berpasangan. Sekarang kita tampaknya sudah memasuki tahap di mana model bisa menghasilkan performa yang lebih baik satu sama lain bahkan tanpa bimbingan manusia.
LLM memang kuat, tetapi masalahnya adalah ia tidak punya mekanisme untuk menyesuaikan bobot ketika diberi tugas baru. Kecerdasan manusia mengintegrasikan proses belajar dan proses penerapan ke dalam satu loop umpan balik, sedangkan pada LLM pelatihan dan inferensi sepenuhnya terpisah. Kita merilis model baru yang “mempelajari” sedikit lebih banyak, lalu membuang model sebelumnya. Pada LLM, inferensi adalah akhir dari pembelajaran. Saya rasa ini adalah kesalahpahaman paling umum tentang AI. Jika orang mengira LLM sedang belajar, mereka jadi mudah terjebak dalam ilusi bahwa AGI akan segera datang.
Seperti pada kasus Deepseek, reinforcement learning bisa digunakan untuk menyempurnakan performa LLM.
Bagaimana jika LLM bisa dilatih ulang berdasarkan respons pengguna (positif/negatif)? Saya membayangkan kita bisa memutarnya ke dalam loop umpan balik menggunakan data input dan output.
Saya ingin sekali ada pakar yang benar-benar memahami keadaan riset dan batasan dalam upaya membuat LLM terus belajar “di lapangan”, misalnya agen berbasis kode yang mempelajari codebase seiring waktu—biaya? model collapse? hal lain? Tentu lab besar pasti sedang mencoba ini, tetapi dari sudut pandang pengguna biasa, kita jarang mendengar cerita seperti ini. Saat ini tampaknya fokus masih pada metode pelatihan berbasis RL yang lebih baik, dan hal-hal yang tidak dipelajari saat training kemudian dipaksa masuk sebagai context. Tetapi saya merasa ketiadaan self-learning real-time berbasis pengalaman adalah titik percabangan menuju AGI.
Continual learning sejauh ini memang belum punya solusi yang benar-benar tajam. Benar bahwa orang menyebut banyak alasan seperti sumber daya komputasi, model collapse, forgetting, dan sebagainya. Satu-satunya cara tampaknya adalah 1) melatih model 2) menambahkan data baru 3) melatih ulang semuanya 4) mengulang. Dari sisi waktu pun tidak ada jaminan penuh untuk kasus mana pun. Di bidang CL, situasinya benar-benar seperti tidak ada jawaban yang “nyata”. Ruang representasi model harus diperluas sambil sebisa mungkin mempertahankan ruang representasi lama tetap utuh, dan meminta keduanya sekaligus terasa hampir mustahil. Makhluk biologis dengan sistem saraf tampak melakukannya dengan sangat mudah, tetapi bagi AI tugas ini sangat sulit. Menurut saya mungkin AI juga membutuhkan konsep seperti “tidur” atau “istirahat”.
Saya bukan ahli, tetapi saya rasa isu privasi juga berperan besar. Untuk continual learning, karena lalu lintas atau biaya, mau tak mau itu harus dilakukan secara agregat, bukan per pengguna, dan itu menimbulkan risiko kebocoran informasi lintas sesi. Saya sangat setuju bahwa menemukan cara melakukan continual learning dengan aman adalah hambatan terbesar bagi AGI.
Masalah reliabilitas juga besar. Karena kita tidak benar-benar yakin pada evaluasi otomatis, versi continuous training yang sepenuhnya otomatis tidak langsung diterapkan sebelum dipastikan kinerjanya memang membaik. Pada akhirnya, beberapa pembaruan dikumpulkan dulu lalu baru dilakukan pemeriksaan akhir (“vibe check”) sebelum benar-benar diterapkan.
Masalah paling jelas tampaknya adalah bahwa fine-tuning berkelanjutan pada LLM bisa dengan mudah mengacaukan alignment. Akibatnya, stabilitas dan keamanan tidak terjamin.
Menurut saya hambatan yang paling nyata adalah masalah catastrophic forgetting.
CPU saya adalah neural-net processor, learning computer. Tetapi saat Skynet mengirimnya sendiri, switch-nya diubah ke read-only. Saya jadi teringat kutipan Terminator.
Panduan situs web resmi dengan kode dan contoh [halaman proyek SEAL]
Menurut perkiraan Villalobos et al. [75], pada 2028 frontier LLM akan mencapai batas dari seluruh teks buatan manusia yang tersedia secara publik. “Dinding data” ini disebut akan memicu kebutuhan akan synthetic data augmentation. Begitu korpus berskala web habis, agar terus maju model pada akhirnya harus bisa menghasilkan sendiri sinyal pelatihan baru yang lebih efisien. Kesimpulannya, idenya adalah melakukan meta-training pada model generator synthetic-data SEAL untuk menjalankan pretraining dengan data segar dan meningkatkan efisiensi model masa depan. Mengingat 2028 sudah tidak lama lagi, saya rasa ini sangat insightful.
Rasanya sekarang “melupakan dengan benar” mulai menjadi masalah yang lebih penting daripada “belajar dengan benar”. Kita sudah membuat banyak kemajuan dalam menyerap fakta baru dengan cepat, tetapi teknik untuk membuang informasi yang kurang penting secara efisien di dalam kapasitas yang terbatas masih jauh tertinggal. “Forgetting yang benar” adalah sesuatu yang sangat dikuasai otak manusia, dan saya penasaran bagaimana sebenarnya cara kerjanya.
Saya tidak setuju bahwa manusia pandai dalam “melupakan dengan benar”. Sebenarnya saya tidak merasa manusia memiliki sistem yang begitu luar biasa. Kapasitas otak sangat besar, jadi bukan berarti kita sengaja menghapus ruang untuk informasi baru; lebih seperti kita melupakan sesuatu hanya ketika informasi lama yang buruk mengganggu pembelajaran baru.
Saya rasa pembelajaran dan spaced repetition sangat erat hubungannya. Ini memang sering dikaitkan dengan alat belajar seperti Anki, tetapi dunia nyata sendiri pada dasarnya adalah spaced repetition alami melalui hal-hal yang kita temui secara berkala (siang-malam, musim, tempat yang sering dikunjungi, orang yang sering ditemui, dll.). Saya juga penasaran apakah ada “versi terbalik” dari konsep ini.
Dalam riset yang saya lakukan, terlihat bahwa LLM “menyembunyikan” data internalnya. Jadi bukan sekadar “melupakan”; saat pelatihan tambahan dilakukan nanti, informasi itu bisa muncul lagi ke permukaan. Karena itu, jika saat training kita tidak terus memeriksa keadaan memori keseluruhan yang sebenarnya, pemeriksaan parsial punya keterbatasan besar.
Mungkin ini seperti pendekatan least-recently-used? Saya sedang mengujinya di kepala saya sendiri sebagai eksperimen. Itu sebabnya bidang ini menarik.
Sekilas ini tampak seperti framework yang melakukan fine-tuning pada adapter LoRA lalu menggabungkannya ke base model. Ia memakai fitur “merge_and_unload” dari PeftModel HuggingFace untuk mengintegrasikan adapter ke base model... saya kurang paham apa yang benar-benar baru di sini.