ML yang layak disimak minggu ini

(discuss.pytorch.kr)

11 poin oleh ninebow 2025-09-10 | Belum ada komentar. | Bagikan ke WhatsApp

[2025/09/01 ~ 07] Kumpulan makalah AI/ML yang layak disimak minggu ini

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ Keterbatasan dan kontrol model bahasa skala besar: Sejumlah makalah membahas keterbatasan model bahasa skala besar (LLM) serta cara mengendalikannya. Secara khusus, dalam "On the Fundamental Impossibility of Hallucination Control in Large Language Models", dipaparkan ketidakmungkinan teoretis bahwa LLM tidak dapat secara bersamaan mencapai representasi pengetahuan yang benar dan pelestarian informasi. Makalah ini juga menekankan kesetaraan matematis antara halusinasi dan kreativitas. Ini memberikan landasan untuk mengelola perilaku semacam itu dalam sistem AI.

2️⃣ Teknik pembelajaran dan optimisasi yang efisien: Makalah seperti "Fantastic Pretraining Optimizers and Where to Find Them" dan "Communication Efficient LLM Pre-training with SparseLoCo" mengeksplorasi teknik optimisasi baru untuk meningkatkan efisiensi dalam proses pelatihan LLM. Secara khusus, SparseLoCo menunjukkan hasil yang lebih baik baik dari sisi performa maupun biaya komunikasi dengan memanfaatkan sparsifikasi dan kuantisasi untuk meningkatkan efisiensi komunikasi.

3️⃣ Peningkatan kolaborasi dan memori pada sistem multi-agen: "Anemoi: A Semi-Centralized Multi-agent Systems Based on Agent-to-Agent Communication MCP server from Coral Protocol" dan "Memp: Exploring Agent Procedural Memory" mengusulkan pendekatan untuk meningkatkan cara kolaborasi sistem multi-agen dan memori prosedural agen. Anemoi meningkatkan performa melalui kolaborasi langsung antaragen, sementara Memp memungkinkan agen memiliki memori prosedural yang dapat dipelajari sehingga pembaruan dan peningkatan berkelanjutan menjadi mungkin.

Studi tentang Ketidakmungkinan Mendasar Kontrol Halusinasi dalam Model Bahasa Skala Besar / On the Fundamental Impossibility of Hallucination Control in Large Language Models

Pengenalan makalah

Masalah halusinasi pada model bahasa besar (LLM) merupakan topik yang sangat memengaruhi keandalan dan akurasi sistem kecerdasan buatan, dan penelitian ini berupaya menjelaskan secara matematis ketidakmungkinan mendasarnya. Para penulis menjelaskan himpunan informasi bit dengan gagasan lelang, lalu menganalisis proses ketika berbagai komponen membentuk respons dengan memanfaatkan pengetahuan parsial masing-masing. Penelitian ini menyediakan landasan matematis untuk halusinasi dan kreativitas melalui tiga ranah matematika yang independen: teori desain mekanisme, teori proper scoring rules, dan analisis langsung atas arsitektur transformer. Secara khusus, para penulis menyajikan cara untuk mengkuantifikasi penciptaan respons yang terlalu percaya diri atau intuitif, yang muncul sebagai ciri baik pada halusinasi maupun kreativitas.

Selain itu, penelitian ini memperkenalkan konsep pengukuran informasi semantik dan operator kemunculan untuk memodelkan penalaran terbatas, serta menekankan bahwa penalaran terbatas menghasilkan informasi yang dapat diakses, sementara penalaran ideal yang tak terbatas secara ketat mempertahankan kandungan semantik. Melalui analisis ini, para penulis membuktikan bahwa halusinasi dan imajinasi merupakan fenomena yang secara matematis identik, yang berasal dari penyimpangan dalam kebenaran, pelestarian informasi semantik, pengungkapan pengetahuan yang relevan, dan optimalitas dengan kendala pengetahuan. Penelitian ini memberikan landasan teoretis yang dapat berdampak penting pada desain dan evaluasi sistem AI, serta menawarkan wawasan untuk arah riset selanjutnya. Kontribusi ini diharapkan memunculkan pertanyaan baru di persimpangan teori informasi dan AI, sekaligus memperdalam pemahaman tentang hakikat informasi.

Abstrak makalah (Abstract)

Makalah ini menetapkan teorema ketidakmungkinan yang mendasar: tidak ada LLM yang mampu melakukan agregasi pengetahuan non-trivial yang dapat secara bersamaan mencapai representasi pengetahuan yang jujur, konservasi informasi semantik, pengungkapan penuh atas pengetahuan yang relevan, dan optimalitas yang dibatasi pengetahuan. Ketidakmungkinan ini bukanlah keterbatasan rekayasa, melainkan muncul dari struktur matematis agregasi informasi itu sendiri. Kami menetapkan hasil ini dengan menggambarkan proses inferensi sebagai lelang ide, di mana komponen-komponen terdistribusi bersaing sambil memanfaatkan pengetahuan parsial mereka untuk membentuk respons. Pembuktian ini mencakup tiga ranah matematika yang independen: teori desain mekanisme (Green-Laffont), teori proper scoring rules (Savage), dan analisis arsitektural langsung atas transformer (konveksitas Log-Sum-Exp). Secara khusus, kami menunjukkan cara mengukur penciptaan respons yang terlalu percaya diri atau intuitif—ciri khas dari halusinasi maupun kreativitas, atau imajinasi. Untuk mendukung analisis ini, kami memperkenalkan konsep pelengkap berupa ukuran informasi semantik dan operator kemunculan untuk memodelkan penalaran terbatas dalam pengaturan umum. Kami membuktikan bahwa meskipun penalaran terbatas menghasilkan informasi yang dapat diakses, memberikan wawasan dan inspirasi yang berharga, penalaran ideal yang tidak dibatasi justru secara ketat mempertahankan konten semantik. Dengan menunjukkan bahwa halusinasi dan imajinasi adalah fenomena yang identik secara matematis—berdasarkan penyimpangan dari kebenaran, konservasi informasi semantik, pengungkapan pengetahuan yang relevan, dan optimalitas yang dibatasi pengetahuan—kami menawarkan landasan yang berprinsip untuk mengelola perilaku ini dalam sistem AI tingkat lanjut. Terakhir, kami menyajikan beberapa gagasan spekulatif untuk mendorong evaluasi dan penyempurnaan teori yang diusulkan.
> Makalah ini menetapkan teorema ketidakmungkinan yang mendasar: tidak ada LLM yang mampu melakukan agregasi pengetahuan non-trivial yang dapat secara bersamaan mencapai representasi pengetahuan yang jujur, konservasi informasi semantik, pengungkapan penuh atas pengetahuan yang relevan, dan optimalitas yang dibatasi pengetahuan. Ketidakmungkinan ini bukanlah keterbatasan rekayasa, melainkan muncul dari struktur matematis agregasi informasi itu sendiri. Kami menetapkan hasil ini dengan menggambarkan proses inferensi sebagai lelang ide, di mana komponen-komponen terdistribusi bersaing sambil memanfaatkan pengetahuan parsial mereka untuk membentuk respons. Pembuktian ini mencakup tiga ranah matematika yang independen: teori desain mekanisme (Green-Laffont), teori proper scoring rules (Savage), dan analisis arsitektural langsung atas transformer (konveksitas Log-Sum-Exp). Secara khusus, kami menunjukkan cara mengukur penciptaan respons yang terlalu percaya diri atau intuitif—ciri khas dari halusinasi maupun kreativitas, atau imajinasi. Untuk mendukung analisis ini, kami memperkenalkan konsep pelengkap berupa ukuran informasi semantik dan operator kemunculan untuk memodelkan penalaran terbatas dalam pengaturan umum. Kami membuktikan bahwa meskipun penalaran terbatas menghasilkan informasi yang dapat diakses, memberikan wawasan dan inspirasi yang berharga, penalaran ideal yang tidak dibatasi justru secara ketat mempertahankan konten semantik. Dengan menunjukkan bahwa halusinasi dan imajinasi adalah fenomena yang identik secara matematis—berdasarkan penyimpangan dari kebenaran, konservasi informasi semantik, pengungkapan pengetahuan yang relevan, dan optimalitas yang dibatasi pengetahuan—kami menawarkan landasan yang berprinsip untuk mengelola perilaku ini dalam sistem AI tingkat lanjut. Terakhir, kami menyajikan beberapa gagasan spekulatif untuk mendorong evaluasi dan penyempurnaan teori yang diusulkan.

Tautan makalah

https://arxiv.org/abs/2506.06382

Optimizer prapelatihan yang fantastis dan cara menemukannya / Fantastic Pretraining Optimizers and Where to Find Them

Pengenalan makalah

Optimizer prapelatihan memainkan peran penting dalam pelatihan model bahasa berskala besar, dan khususnya AdamW telah lama menjadi standar. Namun, penelitian terbaru yang mengklaim bahwa optimizer alternatif menawarkan peningkatan kecepatan 1,4x hingga 2x menunjukkan bahwa klaim tersebut pada praktiknya terlalu dibesar-besarkan. Studi ini menyoroti dua masalah utama yang menopang klaim tersebut. Pertama, penyesuaian hyperparameter dapat dilakukan secara tidak seimbang, dan kedua, pengaturan evaluasi bisa terbatas atau menyesatkan. Untuk mengatasi hal ini, para penulis membandingkan secara sistematis 10 optimizer deep learning pada berbagai skala model dan rasio data-model.

Metodologi inti penelitian ini menjelaskan kerangka penyesuaian hyperparameter dalam tiga tahap. Pada tahap pertama, hyperparameter tiap optimizer disetel secara rinci untuk memperoleh performa optimal. Pada tahap kedua, optimisasi dilakukan dengan hanya memilih bagian hyperparameter yang memang perlu disetel guna mengurangi kebutuhan memori. Terakhir, pada tahap ketiga, diterapkan scaling law untuk memprediksi nilai optimal hyperparameter berdasarkan ukuran model dan anggaran data. Metodologi ini memastikan perbandingan yang adil dan dapat direproduksi antarsesama optimizer, dan hasil penelitian menekankan bahwa optimizer berbasis matriks secara konsisten menunjukkan performa yang lebih baik daripada optimizer berbasis skalar.

Studi ini menekankan pentingnya penyesuaian hyperparameter serta perlunya evaluasi pada berbagai skala model dan rasio data-model, sekaligus menunjukkan bahwa hyperparameter yang optimal untuk satu optimizer bisa jadi tidak optimal untuk optimizer lain. Temuan ini akan memberikan kontribusi penting dalam menetapkan standar bagi desain dan evaluasi optimizer di masa depan.

Abstrak makalah

AdamW telah lama menjadi optimizer yang dominan dalam prapelatihan model bahasa, meskipun banyak klaim bahwa optimizer alternatif menawarkan percepatan 1,4x hingga 2x. Kami berpendapat bahwa dua kelemahan metodologis telah mengaburkan perbandingan yang adil dan menghambat adopsi praktis: (i) penyetelan hyperparameter yang tidak seimbang dan (ii) pengaturan evaluasi yang terbatas atau menyesatkan. Untuk mengatasi dua masalah ini, kami melakukan studi sistematis terhadap sepuluh optimizer deep learning pada empat skala model (0,1B-1,2B parameter) dan rasio data terhadap model (1-8x optimum Chinchilla). Kami menemukan bahwa perbandingan yang adil dan informatif memerlukan penyetelan hyperparameter yang ketat serta evaluasi pada berbagai skala model dan rasio data terhadap model, yang dilakukan pada akhir pelatihan. Pertama, hyperparameter yang optimal untuk satu optimizer bisa jadi suboptimal untuk optimizer lain, sehingga pemindahan hyperparameter secara membabi buta tidaklah adil. Kedua, percepatan aktual dari banyak optimizer yang diusulkan dibanding baseline yang disetel dengan baik lebih rendah daripada yang diklaim, dan menurun seiring membesarnya model hingga hanya 1,1x untuk model 1,2B parameter. Ketiga, membandingkan checkpoint antara sebelum mencapai anggaran pelatihan target dapat menyesatkan, karena peringkat antara dua optimizer dapat berbalik selama pelatihan akibat penurunan learning rate. Melalui investigasi menyeluruh kami, kami menemukan bahwa semua optimizer tercepat seperti Muon dan Soap menggunakan matriks sebagai preconditioner -- mengalikan gradien dengan matriks, bukan skalar per elemen. Namun, percepatan optimizer berbasis matriks berbanding terbalik dengan skala model, menurun dari 1,4x dibanding AdamW untuk model 0,1B parameter menjadi hanya 1,1x untuk model 1,2B parameter.
> AdamW telah lama menjadi optimizer yang dominan dalam prapelatihan model bahasa, meskipun banyak klaim bahwa optimizer alternatif menawarkan percepatan 1,4x hingga 2x. Kami berpendapat bahwa dua kelemahan metodologis telah mengaburkan perbandingan yang adil dan menghambat adopsi praktis: (i) penyetelan hyperparameter yang tidak seimbang dan (ii) pengaturan evaluasi yang terbatas atau menyesatkan. Untuk mengatasi dua masalah ini, kami melakukan studi sistematis terhadap sepuluh optimizer deep learning pada empat skala model (0,1B-1,2B parameter) dan rasio data terhadap model (1-8x optimum Chinchilla). Kami menemukan bahwa perbandingan yang adil dan informatif memerlukan penyetelan hyperparameter yang ketat serta evaluasi pada berbagai skala model dan rasio data terhadap model, yang dilakukan pada akhir pelatihan. Pertama, hyperparameter yang optimal untuk satu optimizer bisa jadi suboptimal untuk optimizer lain, sehingga pemindahan hyperparameter secara membabi buta tidaklah adil. Kedua, percepatan aktual dari banyak optimizer yang diusulkan dibanding baseline yang disetel dengan baik lebih rendah daripada yang diklaim, dan menurun seiring membesarnya model hingga hanya 1,1x untuk model 1,2B parameter. Ketiga, membandingkan checkpoint antara sebelum mencapai anggaran pelatihan target dapat menyesatkan, karena peringkat antara dua optimizer dapat berbalik selama pelatihan akibat penurunan learning rate. Melalui investigasi menyeluruh kami, kami menemukan bahwa semua optimizer tercepat seperti Muon dan Soap menggunakan matriks sebagai preconditioner -- mengalikan gradien dengan matriks, bukan skalar per elemen. Namun, percepatan optimizer berbasis matriks berbanding terbalik dengan skala model, menurun dari 1,4x dibanding AdamW untuk model 0,1B parameter menjadi hanya 1,1x untuk model 1,2B parameter.

Tautan makalah

https://arxiv.org/abs/2509.02046

Baca lebih lanjut

https://wandb.ai/marin-community/optimizer-scaling

Anemoi: server MCP sistem multi-agen semi-terpusat berbasis komunikasi antar agen / Anemoi: A Semi-Centralized Multi-agent Systems Based on Agent-to-Agent Communication MCP server from Coral Protocol

Pengantar makalah

Anemoi adalah sistem multi-agen semi-terpusat (Multi-Agent System, MAS) yang dibangun berdasarkan model komunikasi A2A (Agent-to-Agent) dari Coral Protocol, yang memungkinkan koordinasi tugas yang efisien melalui kolaborasi langsung antar agen. MAS terpusat konvensional bekerja dengan agen perencana yang mengoordinasikan beberapa agen pekerja secara satu arah, yang menimbulkan masalah berupa ketergantungan pada kemampuan perencana serta kehilangan informasi dan redundansi akibat komunikasi antar agen yang terbatas. Anemoi dirancang untuk mengatasi masalah ini, dan menyediakan struktur yang memungkinkan semua agen memantau progres secara real-time, mengidentifikasi bottleneck, dan mengusulkan perbaikan.

Inti dari Anemoi adalah pemanfaatan server MCP (Multi-Agent Communication Protocol) untuk komunikasi A2A dari Coral Protocol guna mendukung aliran informasi yang mulus antar agen. Sistem ini menggabungkan agen perencana dengan beberapa agen pekerja yang terspesialisasi pada domain tertentu, sehingga dapat memberikan rencana awal sambil memungkinkan para pekerja berkoordinasi secara langsung. Dengan demikian, ketergantungan pada perencana terpusat berkurang, pembaruan rencana adaptif menjadi memungkinkan, dan pengiriman konteks yang redundan dapat diminimalkan sehingga eksekusi menjadi lebih hemat biaya.

Anemoi dievaluasi pada benchmark GAIA, dan dengan menggunakan LLM kecil (GPT-4.1-mini) sebagai perencana, sistem ini mencapai akurasi 52,73%. Hasil ini melampaui OWL, baseline open source terkuat dalam konfigurasi yang sama, sebesar 9,09% dari 43,63%. Hasil tersebut menunjukkan bahwa model komunikasi A2A semi-terpusat milik Anemoi dapat berkontribusi pada peningkatan kinerja sistem multi-agen.

Penelitian ini membuka kemungkinan baru bagi sistem multi-agen melalui peningkatan kolaborasi langsung dan aliran informasi antar agen, dan diharapkan memberikan kontribusi penting bagi perkembangan sistem AI yang lebih umum di masa depan. Implementasi Anemoi tersedia secara terbuka di GitHub, sehingga para peneliti dapat memanfaatkan sistem ini untuk mengembangkan berbagai aplikasi.

Abstrak makalah

Perkembangan terbaru dalam sistem multi-agen generalis (MAS) sebagian besar mengikuti paradigma rekayasa konteks dan terpusat, di mana agen perencana mengoordinasikan beberapa agen pekerja melalui penerusan prompt satu arah. Meski efektif dengan model perencana yang kuat, desain ini memiliki dua keterbatasan penting: (1) ketergantungan yang tinggi pada kemampuan perencana, sehingga performa menurun ketika LLM yang lebih kecil digunakan untuk mendukung perencana; (2) komunikasi antaragen yang terbatas, sehingga kolaborasi bergantung pada penggabungan prompt dan injeksi konteks yang mahal, yang menimbulkan redundansi dan kehilangan informasi. Untuk mengatasi masalah ini, kami mengusulkan Anemoi, MAS semi-terpusat yang dibangun di atas server MCP komunikasi Agent-to-Agent (A2A) dari Coral Protocol. Berbeda dari desain tradisional, Anemoi memungkinkan kolaborasi antaragen yang terstruktur dan langsung, sehingga semua agen dapat memantau progres, mengevaluasi hasil, mengidentifikasi bottleneck, dan mengusulkan perbaikan secara real-time. Paradigma ini mengurangi ketergantungan pada satu perencana, mendukung pembaruan rencana yang adaptif, dan meminimalkan penerusan konteks yang redundan, sehingga menghasilkan eksekusi yang lebih skalabel dan hemat biaya. Dalam evaluasi pada benchmark GAIA, Anemoi mencapai akurasi 52.73% dengan LLM kecil (GPT-4.1-mini) sebagai perencana, melampaui baseline open source terkuat OWL (43.63%) sebesar +9.09% pada konfigurasi LLM yang sama. Implementasi kami tersedia secara publik di https://github.com/Coral-Protocol/Anemoi.
> Recent advances in generalist multi-agent systems (MAS) have largely followed a context-engineering plus centralized paradigm, where a planner agent coordinates multiple worker agents through unidirectional prompt passing. While effective under strong planner models, this design suffers from two critical limitations: (1) strong dependency on the planner's capability, which leads to degraded performance when a smaller LLM powers the planner; and (2) limited inter-agent communication, where collaboration relies on costly prompt concatenation and context injection, introducing redundancy and information loss. To address these challenges, we propose Anemoi, a semi-centralized MAS built on the Agent-to-Agent (A2A) communication MCP server from Coral Protocol. Unlike traditional designs, Anemoi enables structured and direct inter-agent collaboration, allowing all agents to monitor progress, assess results, identify bottlenecks, and propose refinements in real time. This paradigm reduces reliance on a single planner, supports adaptive plan updates, and minimizes redundant context passing, resulting in more scalable and cost-efficient execution. Evaluated on the GAIA benchmark, Anemoi achieved 52.73% accuracy with a small LLM (GPT-4.1-mini) as the planner, surpassing the strongest open-source baseline OWL (43.63%) by +9.09% under identical LLM settings. Our implementation is publicly available at https://github.com/Coral-Protocol/Anemoi.

Tautan makalah

https://arxiv.org/abs/2508.17068

Baca selengkapnya

https://github.com/Coral-Protocol/Anemoi

SparseLoCo untuk pra-pelatihan LLM yang efisien secara komunikasi / Communication Efficient LLM Pre-training with SparseLoCo

Pengenalan makalah

Meningkatkan efisiensi komunikasi dalam proses pra-pelatihan large language model (LLM) merupakan topik riset yang sangat penting. Algoritme pembelajaran terdistribusi terbaru mendapat banyak perhatian karena berguna untuk melatih LLM di lingkungan dengan bandwidth terbatas, baik antar pusat data maupun melalui internet. Namun, metode yang ada masih harus mengirim seluruh gradient model, yang menyebabkan bottleneck komunikasi dan dapat menurunkan performa. Untuk mengatasi masalah ini, SparseLoCo diusulkan sebagai algoritme pelatihan yang efisien secara komunikasi, yang memanfaatkan sparsifikasi Top-k dan kuantisasi 2-bit untuk mencapai rasio kompresi yang sangat tinggi sekaligus meningkatkan performa.

Inovasi inti SparseLoCo adalah mengaproksimasi momentum eksternal dengan menggabungkan umpan balik kesalahan dan sparsifikasi yang agresif. Dengan cara ini, performa model dapat ditingkatkan sambil menurunkan biaya komunikasi. Hasil penelitian secara empiris menunjukkan bahwa SparseLoCo memberikan keuntungan yang signifikan baik dari sisi performa maupun biaya komunikasi di berbagai lingkungan dengan kendala komunikasi. Secara khusus, dengan sparsitas 1-3% dan kuantisasi 2-bit, metode ini menunjukkan hasil yang mempertahankan atau meningkatkan performa sekaligus secara signifikan menurunkan biaya komunikasi dibanding pendekatan DDP (Distributed Data Parallel) yang ada.

Penelitian ini mengusulkan metode baru untuk meningkatkan efisiensi komunikasi dalam pra-pelatihan LLM, serta menunjukkan potensi pengembangan SparseLoCo melalui lebih banyak eksperimen dan optimasi di masa mendatang. SparseLoCo diharapkan dapat memberikan kontribusi penting dalam meningkatkan efisiensi pelatihan model berskala besar, yang pada gilirannya membantu menghadirkan arah baru bagi riset dan pengembangan LLM.

Abstrak makalah

Algoritme pelatihan terdistribusi yang efisien dalam komunikasi belakangan ini mendapat perhatian besar karena manfaatnya untuk melatih Large Language Models (LLM) dalam lingkungan dengan keterbatasan bandwidth, seperti antar pusat data dan melalui internet. Metode-metode ini memang mengurangi frekuensi komunikasi, tetapi masih biasanya mengharuskan pengiriman satu salinan penuh gradien model, sehingga menimbulkan bottleneck komunikasi bahkan pada tautan antar pusat data. Selain itu, metode-metode ini dapat sedikit menurunkan performa dibanding baseline AdamW DDP yang naif. Walaupun kuantisasi dan error feedback sering diterapkan untuk mengurangi ukuran pseudo-gradient, dalam konteks pra-pelatihan LLM, pendekatan yang ada belum mampu memanfaatkan sparsifikasi tambahan dan hanya mencapai kuantisasi yang terbatas. Dalam penelitian ini, kami memperkenalkan SparseLoCo, algoritme pelatihan efisien komunikasi untuk LLM yang secara efektif memanfaatkan sparsifikasi Top-k dan kuantisasi untuk mencapai rasio kompresi ekstrem hingga sparsitas 1-3% dan kuantisasi 2-bit, sambil tetap mengungguli DiLoCo presisi penuh. Pengamatan utama kami adalah bahwa outer momentum dapat didekati secara lokal dengan error feedback yang dipadukan dengan sparsitas agresif, dan bahwa agregasi jarang justru dapat meningkatkan performa model. Kami menunjukkan secara empiris pada berbagai skenario pelatihan LLM dengan kendala komunikasi bahwa SparseLoCo memberikan keuntungan signifikan baik dari sisi performa maupun biaya komunikasi.
> Communication-efficient distributed training algorithms have received considerable interest recently due to their benefits for training Large Language Models (LLMs) in bandwidth-constrained settings, such as across data centers and over the internet. Despite reducing communication frequency, these methods still typically require communicating a full copy of the model's gradients-resulting in a communication bottleneck even for cross-datacenter links. Furthermore, they can slightly degrade performance compared to a naive AdamW DDP baseline. While quantization and error feedback are often applied to reduce the pseudo-gradient's size, in the context of LLM pre-training, existing approaches have been unable to additionally leverage sparsification and have obtained limited quantization. In this work, we introduce SparseLoCo, a communication-efficient training algorithm for LLMs that effectively leverages Top-k sparsification and quantization to reach extreme compression ratios of up to 1-3% sparsity and 2-bit quantization while outperforming full-precision DiLoCo. Our key observations are that outer momentum can be locally approximated by an error feedback combined with aggressive sparsity and that sparse aggregation can actually improve model performance. We empirically demonstrate in a range of communication-constrained LLM training settings that SparseLoCo provides significant benefits in both performance and communication cost.

Tautan makalah

https://arxiv.org/abs/2508.15706

Routing LLM Adaptif di Bawah Kendala Anggaran / Adaptive LLM Routing under Budget Constraints

Pengantar makalah

Kemajuan large language model (LLM) telah membawa inovasi ke bidang pemrosesan bahasa alami, tetapi tingginya biaya model-model ini dan bagaimana merespons beragam jenis kueri secara tepat masih menjadi tantangan. Dalam penelitian ini, masalah routing LLM dirumuskan ulang sebagai masalah contextual bandit, dan diusulkan algoritme baru bernama Preference-prior Informed LinUCB for Adaptive Routing (PILOT) untuk memilih LLM yang optimal di bawah kendala anggaran. Pendekatan supervised learning yang ada memiliki keterbatasan karena membutuhkan dataset berlabel dalam skala besar, dan penelitian ini mengembangkan metodologi untuk mengatasi keterbatasan tersebut dengan menyesuaikan pemilihan LLM secara dinamis melalui umpan balik pengguna.

PILOT terdiri dari dua tahap utama. Pada tahap pertama, data preferensi manusia offline dimanfaatkan untuk membangun ruang embedding bersama yang merefleksikan afinitas antara kueri dan LLM. Dalam proses ini, hubungan antara kueri dan LLM dipelajari secara efektif dengan meminimalkan triplet loss. Pada tahap kedua, umpan balik bandit online diintegrasikan untuk terus meningkatkan performa dengan memilih LLM yang sesuai untuk setiap kueri dan mengamati reward yang dihasilkan. Pendekatan ini memungkinkan alokasi sumber daya yang fleksibel dengan mempertimbangkan anggaran, serta memiliki kemampuan untuk beradaptasi dengan beragam kebutuhan pengguna.

Kontribusi utama penelitian ini adalah formulasi masalah routing LLM dengan mempertimbangkan kendala anggaran, serta usulan algoritme PILOT untuk menyelesaikannya. Hasil eksperimen menunjukkan bahwa PILOT memberikan performa yang lebih unggul dibanding berbagai baseline bandit pada beragam dataset, serta berhasil memaksimalkan efisiensi biaya. Temuan ini memberikan kontribusi penting bagi penerapan dan pemanfaatan LLM secara praktis, dan sebagai arah penelitian selanjutnya diusulkan peningkatan kemampuan adaptasi terhadap beragam kebutuhan pengguna serta penerapan pada lebih banyak dataset.

Abstrak makalah

Large Language Model (LLM) telah merevolusi pemrosesan bahasa alami, tetapi kemampuan dan biayanya yang beragam menimbulkan tantangan dalam aplikasi praktis. Routing LLM mengatasinya dengan memilih LLM yang paling sesuai secara dinamis untuk setiap kueri/tugas. Pendekatan sebelumnya memperlakukan ini sebagai masalah pembelajaran terawasi, dengan asumsi pengetahuan lengkap tentang pasangan kueri-LLM yang optimal. Namun, skenario dunia nyata tidak memiliki pemetaan selengkap itu dan harus menghadapi kueri pengguna yang terus berkembang. Karena itu, kami mengusulkan untuk meneliti routing LLM sebagai masalah contextual bandit, yang memungkinkan pengambilan keputusan adaptif menggunakan umpan balik bandit tanpa memerlukan inferensi menyeluruh pada semua LLM untuk semua kueri, berbeda dengan routing terawasi. Untuk mengatasi masalah ini, kami mengembangkan ruang embedding bersama untuk kueri dan LLM, tempat embedding kueri dan LLM disejajarkan agar mencerminkan afinitas di antara keduanya. Ruang ini awalnya dipelajari dari data preferensi manusia offline, lalu disempurnakan melalui umpan balik bandit online. Kami mewujudkan gagasan ini melalui Preference-prior Informed Linucb fOr adaptive rouTing (PILOT), sebuah ekstensi baru dari LinUCB untuk routing adaptif. Untuk menangani beragam anggaran pengguna dalam routing model, kami memperkenalkan kebijakan biaya online yang dimodelkan sebagai masalah knapsack multi-pilihan, sehingga memastikan routing yang efisien dalam penggunaan sumber daya.
> Large Language Models (LLMs) have revolutionized natural language processing, but their varying capabilities and costs pose challenges in practical applications. LLM routing addresses this by dynamically selecting the most suitable LLM for each query/task. Previous approaches treat this as a supervised learning problem, assuming complete knowledge of optimal query-LLM pairings. However, real-world scenarios lack such comprehensive mappings and face evolving user queries. We thus propose to study LLM routing as a contextual bandit problem, enabling adaptive decision-making using bandit feedback without requiring exhaustive inference across all LLMs for all queries (in contrast to supervised routing). To address this problem, we develop a shared embedding space for queries and LLMs, where query and LLM embeddings are aligned to reflect their affinity. This space is initially learned from offline human preference data and refined through online bandit feedback. We instantiate this idea through Preference-prior Informed Linucb fOr adaptive rouTing (PILOT), a novel extension of LinUCB. To handle diverse user budgets for model routing, we introduce an online cost policy modeled as a multi-choice knapsack problem, ensuring resource-efficient routing.

Tautan makalah

https://arxiv.org/abs/2508.21141

Pembuatan set gambar yang efisien melalui penggunaan ulang komputasi dalam difusi teks-ke-gambar / Reusing Computation in Text-to-Image Diffusion for Efficient Generation of Image Sets

Pengantar makalah

Model difusi teks-ke-gambar sangat efektif untuk menghasilkan gambar berkualitas tinggi, tetapi tingginya biaya komputasi yang timbul dalam proses ini menjadi tantangan besar. Penelitian sebelumnya terutama berfokus pada peningkatan efisiensi saat menghasilkan gambar individual, tetapi studi ini mengusulkan pendekatan baru untuk mengurangi redundansi antar-prompt yang saling berkorelasi. Metode yang diusulkan memanfaatkan sifat coarse-to-fine dari model difusi untuk menangkap struktur bersama di antara prompt yang serupa pada tahap awal penghilangan noise.

Penelitian ini mengadopsi pendekatan tanpa pelatihan yang mengelompokkan prompt berdasarkan kemiripan semantik dan membagikan komputasi pada tahap awal difusi. Hasil eksperimen menunjukkan bahwa, pada model yang dikondisikan pada embedding gambar, metode ini dapat mengurangi biaya komputasi setidaknya 50% sambil mempertahankan atau meningkatkan kualitas gambar. Selain itu, efisiensi makin ditingkatkan dengan mengoptimalkan alokasi tahap difusi menggunakan prior teks-ke-gambar dari UnClip.

Metode yang diusulkan dapat diintegrasikan secara mulus dengan pipeline pembuatan teks-ke-gambar yang ada, serta dapat diskalakan untuk set prompt berskala besar, sehingga berkontribusi mengurangi beban lingkungan dan finansial. Penelitian ini memberikan wawasan penting tentang dinamika generasi model difusi dan diharapkan menjadi landasan penting untuk mengeksplorasi strategi optimasi berkelanjutan di masa depan.

Abstrak makalah

Model difusi teks-ke-gambar memungkinkan pembuatan gambar berkualitas tinggi, tetapi membutuhkan biaya komputasi yang besar. Sementara penelitian sebelumnya berfokus pada pengoptimalan efisiensi per inferensi, kami mengeksplorasi pendekatan ortogonal untuk mengurangi redundansi di antara prompt yang berkorelasi. Metode kami memanfaatkan sifat coarse-to-fine dari model difusi, di mana langkah denoising awal menangkap struktur bersama di antara prompt yang serupa. Kami mengusulkan pendekatan tanpa pelatihan yang mengelompokkan prompt berdasarkan kemiripan semantik dan membagikan komputasi pada tahap awal difusi. Hasil eksperimen menunjukkan bahwa untuk model yang dilatih dengan kondisi embedding gambar, pendekatan kami secara signifikan mengurangi biaya komputasi sekaligus meningkatkan kualitas gambar. Dengan memanfaatkan prior teks-ke-gambar dari UnClip, kami menyempurnakan alokasi langkah difusi untuk efisiensi yang lebih tinggi. Metode kami terintegrasi mulus dengan pipeline yang ada, dapat diskalakan sesuai kumpulan prompt, serta mengurangi beban lingkungan dan finansial dari pembuatan teks-ke-gambar skala besar. Halaman proyek: https://ddecatur.github.io/hierarchical-diffusion/
> Text-to-image diffusion models enable high-quality image generation but are computationally expensive. While prior work optimizes per-inference efficiency, we explore an orthogonal approach: reducing redundancy across correlated prompts. Our method leverages the coarse-to-fine nature of diffusion models, where early denoising steps capture shared structures among similar prompts. We propose a training-free approach that clusters prompts based on semantic similarity and shares computation in early diffusion steps. Experiments show that for models trained conditioned on image embeddings, our approach significantly reduces compute cost while improving image quality. By leveraging UnClip's text-to-image prior, we enhance diffusion step allocation for greater efficiency. Our method seamlessly integrates with existing pipelines, scales with prompt sets, and reduces the environmental and financial burden of large-scale text-to-image generation. Project page: https://ddecatur.github.io/hierarchical-diffusion/

Tautan makalah

https://arxiv.org/abs/2508.21032

Baca lebih lanjut

https://ddecatur.github.io/hierarchical-diffusion/

Attention adalah spline kubik yang dihaluskan / Attention is a smoothed cubic spline

Pengantar makalah

Dalam arsitektur transformer, modul attention, meskipun sangat penting, masih menyisakan banyak wilayah yang belum dipahami. Penelitian ini menawarkan wawasan baru dari sudut pandang teori aproksimasi klasik dengan menafsirkan modul attention sebagai spline kubik yang halus. Para penulis menunjukkan bahwa dengan menggunakan fungsi aktivasi ReLU, attention, masked attention, dan encoder-decoder attention semuanya dapat direpresentasikan sebagai spline kubik. Pendekatan ini memiliki makna penting karena seluruh komponen transformer tersusun dari kombinasi berbagai modul attention dan feed-forward neural network.

Penelitian ini menekankan, berdasarkan konjektur Pierce-Birkhoff, bahwa semua spline dapat direpresentasikan dengan encoder beraktivasi ReLU. Melalui hal ini, sifat matematis modul attention menjadi lebih jelas, dan pemahaman struktural terhadap transformer diperdalam lewat spline kubik. Selain itu, penelitian ini menyatakan bahwa dengan mengganti ReLU dengan fungsi aktivasi halus seperti SoftMax untuk memperoleh versi halus $C^\infty$, kita dapat memulihkan model transformer yang ada.

Penelitian ini memperdalam pemahaman terhadap model machine learning yang ada melalui interpretasi matematis atas mekanisme attention, dan menjelaskan hakikat arsitektur transformer menggunakan spline, sebuah objek matematis yang telah dikenal luas. Hasil eksperimen menunjukkan bahwa model spline kubik yang diusulkan menunjukkan performa lebih baik daripada model yang ada, dan membuktikan bahwa interpretasi matematis modul attention berdampak positif pada performa nyata. Temuan ini diharapkan berkontribusi pada perkembangan mekanisme attention di masa depan. Penelitian ini mengajak kita melihat modul attention pada transformer dari perspektif baru dan akan menjadi bahan dasar penting bagi para peneliti di bidang terkait.

Abstrak makalah (Abstract)

Kami menyoroti sebuah wawasan yang mungkin penting namun sejauh ini belum diamati: modul attention dalam transformer adalah spline kubik yang dihaluskan. Jika dipandang dengan cara ini, komponen transformer yang misterius namun krusial ini menjadi perkembangan alami dari sebuah konsep lama yang berakar kuat dalam teori aproksimasi klasik. Lebih tepatnya, kami menunjukkan bahwa dengan aktivasi ReLU, attention, masked attention, dan encoder-decoder attention semuanya merupakan spline kubik. Karena setiap komponen dalam transformer dibangun dari komposisi berbagai modul attention (= spline kubik) dan feed-forward neural networks (= spline linear), maka seluruh komponennya -- encoder, decoder, dan blok encoder-decoder; encoder dan decoder berlapis banyak; transformer itu sendiri -- merupakan spline kubik atau spline orde lebih tinggi. Jika kita mengasumsikan konjektur Pierce-Birkhoff, maka kebalikannya juga berlaku, yaitu setiap spline adalah encoder beraktivasi ReLU. Karena spline pada umumnya hanya $C^2$, salah satu cara untuk memperoleh versi halus $C^\infty$ adalah dengan mengganti ReLU dengan aktivasi yang halus; dan jika aktivasi ini dipilih sebagai SoftMax, kita memulihkan transformer asli seperti yang diusulkan oleh Vaswani dkk. Wawasan ini menjelaskan hakikat transformer dengan memformulasikannya sepenuhnya dalam istilah spline, salah satu objek yang paling dikenal dan paling dipahami secara menyeluruh dalam matematika terapan.
> We highlight a perhaps important but hitherto unobserved insight: The attention module in a transformer is a smoothed cubic spline. Viewed in this manner, this mysterious but critical component of a transformer becomes a natural development of an old notion deeply entrenched in classical approximation theory. More precisely, we show that with ReLU-activation, attention, masked attention, encoder-decoder attention are all cubic splines. As every component in a transformer is constructed out of compositions of various attention modules (= cubic splines) and feed forward neural networks (= linear splines), all its components -- encoder, decoder, and encoder-decoder blocks; multilayered encoders and decoders; the transformer itself -- are cubic or higher-order splines. If we assume the Pierce-Birkhoff conjecture, then the converse also holds, i.e., every spline is a ReLU-activated encoder. Since a spline is generally just $C^2$, one way to obtain a smoothed $C^\infty$-version is by replacing ReLU with a smooth activation; and if this activation is chosen to be SoftMax, we recover the original transformer as proposed by Vaswani et al. This insight sheds light on the nature of the transformer by casting it entirely in terms of splines, one of the best known and thoroughly understood objects in applied mathematics.

Tautan makalah

https://arxiv.org/abs/2408.09624

$Mem^p$: Menjelajahi memori prosedural agen / $Mem^p$: Exploring Agent Procedural Memory

Pengantar makalah

Agen berbasis large language model (LLM) menunjukkan performa unggul di berbagai tugas, tetapi memori prosedural yang ada cenderung rapuh karena dirancang secara manual atau bergantung pada parameter statis. Penelitian ini mengusulkan $Mem^p$ sebagai metodologi inovatif untuk membekali agen dengan memori prosedural seumur hidup yang dapat dipelajari dan diperbarui. $Mem^p$ mengeksplorasi strategi pembangunan (Build), pengambilan (Retrieval), dan pembaruan (Update) memori prosedural dengan mendistilasi lintasan agen masa lalu menjadi instruksi rinci langkah demi langkah dan skrip tingkat tinggi.

Inti dari $Mem^p$ adalah rezim dinamis yang terus-menerus memperbarui, merevisi, dan membuang memori prosedural. Dengan demikian, agen dapat mengembangkan repositori memorinya sesuai pengalaman baru, dan hasil evaluasi empiris mengonfirmasi bahwa tingkat keberhasilan serta efisiensi agen meningkat secara bertahap di TravelPlanner dan ALFWorld. Secara khusus, memori prosedural yang dibangun dari model yang lebih kuat tetap mempertahankan nilainya, dan ketika ditransfer ke model yang lebih lemah, performanya juga meningkat secara signifikan.

Proses pengambilan memori prosedural sangat penting agar agen dapat secara efektif menemukan pengalaman yang paling mirip untuk tugas baru. Proses ini diimplementasikan dengan mengukur kemiripan menggunakan model vector embedding dan mengambil memori yang paling sesuai. Selain itu, mekanisme pembaruan memori prosedural dirancang agar penambahan, penghapusan, dan revisi dapat dilakukan secara dinamis seiring bertambahnya jumlah tugas yang dijalankan agen. Pendekatan yang komprehensif ini membantu memaksimalkan kemampuan belajar agen dan meningkatkan kemampuannya menyelesaikan tugas di berbagai lingkungan.

Dengan terus meningkatkan memori prosedural agen, $Mem^p$ menawarkan implikasi penting bagi pengembangan sistem agen di masa depan dan menekankan pentingnya memori prosedural yang dapat dipelajari. Hasil penelitian ini diharapkan memberi kontribusi inovatif dalam memaksimalkan performa agen.

Abstrak makalah (Abstract)

Agen berbasis Large Language Model (LLM) menunjukkan kinerja unggul pada beragam tugas, tetapi mengalami kesulitan karena memori prosedural yang rapuh, yang dirancang secara manual atau terikat pada parameter statis. Studi ini menyelidiki strategi untuk membekali agen dengan memori prosedural yang dapat dipelajari, diperbarui, dan digunakan sepanjang masa. Kami mengusulkan $Mem^p$, yang menyaring trajektori agen di masa lalu menjadi abstraksi berupa instruksi langkah demi langkah yang terperinci sekaligus skrip tingkat tinggi, serta mengeksplorasi dampak dari berbagai strategi untuk pembangunan (Build), pengambilan (Retrieval), dan pembaruan (Update) memori prosedural. Dipadukan dengan skema dinamis yang terus memperbarui, mengoreksi, dan menghentikan penggunaan isinya, repositori ini berevolusi seiring pengalaman baru. Hasil evaluasi empiris pada TravelPlanner dan ALFWorld menunjukkan bahwa seiring repositori memori semakin disempurnakan, agen secara bertahap mencapai tingkat keberhasilan yang lebih tinggi dan efisiensi yang lebih besar pada tugas-tugas serupa. Selain itu, memori prosedural yang dibangun dari model yang lebih kuat tetap mempertahankan nilainya, dan memindahkan memori prosedural tersebut ke model yang lebih lemah menghasilkan peningkatan performa yang signifikan.
> Large Language Models (LLMs) based agents excel at diverse tasks, yet they suffer from brittle procedural memory that is manually engineered or entangled in static parameters. In this work, we investigate strategies to endow agents with a learnable, updatable, and lifelong procedural memory. We propose $Mem^p$ that distills past agent trajectories into both fine-grained, step-by-step instructions and higher-level, script-like abstractions, and explore the impact of different strategies for Build, Retrieval, and Update of procedural memory. Coupled with a dynamic regimen that continuously updates, corrects, and deprecates its contents, this repository evolves in lockstep with new experience. Empirical evaluation on TravelPlanner and ALFWorld shows that as the memory repository is refined, agents achieve steadily higher success rates and greater efficiency on analogous tasks. Moreover, procedural memory built from a stronger model retains its value: migrating the procedural memory to a weaker model yields substantial performance gains.

Tautan makalah

https://arxiv.org/abs/2508.06433

Momen AlphaGo untuk Penemuan Arsitektur Model / AlphaGo Moment for Model Architecture Discovery

Pengantar makalah

ASI-Arch adalah sistem artificial superintelligence (ASI4AI) yang sepenuhnya otonom dalam menemukan arsitektur inovatif di bidang pencarian arsitektur jaringan saraf. Melampaui neural architecture search (NAS) yang selama ini terbatas pada ruang pencarian yang didefinisikan manusia, sistem ini menggeser paradigma dari optimasi otomatis ke inovasi otomatis dengan secara mandiri melakukan perumusan hipotesis, implementasi, pelatihan, hingga verifikasi atas konsep struktur baru. Melalui 1.773 eksperimen selama 20.000 jam GPU, sistem ini menemukan 106 arsitektur linear attention mutakhir, yang menghadirkan prinsip desain baru yang melampaui fondasi berbasis rancangan manusia. Selain itu, penelitian ini juga mengajukan hukum penskalaan empiris untuk penemuan ilmiah itu sendiri, dan membuktikan bahwa kemajuan riset dapat diubah dari proses yang dibatasi kemampuan kognitif manusia menjadi proses yang skalanya dapat diperluas oleh sumber daya komputasi.

Abstrak makalah

Sementara sistem AI menunjukkan kemampuan yang meningkat secara eksponensial, laju riset AI itu sendiri tetap dibatasi secara linear oleh kapasitas kognitif manusia, sehingga menciptakan bottleneck pengembangan yang kian serius. Makalah ini memperkenalkan ASI-Arch, demonstrasi pertama Artificial Superintelligence for AI research (ASI4AI) dalam domain krusial penemuan arsitektur jaringan saraf. ASI-Arch adalah sistem yang sepenuhnya otonom yang menembus batasan mendasar ini dengan memungkinkan AI melakukan inovasi arsitekturnya sendiri. Melampaui Neural Architecture Search (NAS) tradisional yang pada dasarnya terbatas pada eksplorasi ruang yang didefinisikan manusia, penelitian ini memperkenalkan pergeseran paradigma dari optimasi otomatis menuju inovasi otomatis. ASI-Arch melakukan riset ilmiah end-to-end di bidang penemuan arsitektur, secara otonom mengajukan hipotesis konsep arsitektur baru, mengimplementasikannya sebagai kode yang dapat dijalankan, lalu melatih dan memvalidasi kinerjanya secara empiris melalui eksperimen yang ketat dan pengalaman masa lalu. ASI-Arch menjalankan 1.773 eksperimen otonom selama 20.000 GPU-jam, yang menghasilkan penemuan 106 arsitektur linear attention yang inovatif dan state-of-the-art (SOTA). Seperti langkah ke-37 AlphaGo (Move 37) yang mengungkap wawasan strategis tak terduga yang tak terlihat oleh pemain manusia, arsitektur yang ditemukan AI ini menunjukkan prinsip desain emergen yang secara sistematis melampaui baseline rancangan manusia dan menerangi jalur yang sebelumnya tidak diketahui untuk inovasi arsitektur. Secara khusus, kami menetapkan hukum penskalaan empiris pertama untuk penemuan ilmiah itu sendiri, dengan menunjukkan bahwa terobosan arsitektur dapat diskalakan secara komputasional, sehingga mengubah kemajuan riset dari proses yang dibatasi manusia menjadi proses yang dapat diskalakan lewat komputasi. Makalah ini memberikan analisis komprehensif tentang pola desain emergen dan kemampuan riset otonom yang memungkinkan terobosan ini, serta menyajikan cetak biru bagi sistem AI yang mempercepat dirinya sendiri.
> While AI systems demonstrate exponentially improving capabilities, the pace of AI research itself remains linearly bounded by human cognitive capacity, creating an increasingly severe development bottleneck. We present ASI-Arch, the first demonstration of Artificial Superintelligence for AI research (ASI4AI) in the critical domain of neural architecture discovery--a fully autonomous system that shatters this fundamental constraint by enabling AI to conduct its own architectural innovation. Moving beyond traditional Neural Architecture Search (NAS), which is fundamentally limited to exploring human-defined spaces, we introduce a paradigm shift from automated optimization to automated innovation. ASI-Arch can conduct end-to-end scientific research in the domain of architecture discovery, autonomously hypothesizing novel architectural concepts, implementing them as executable code, training and empirically validating their performance through rigorous experimentation and past experience. ASI-Arch conducted 1,773 autonomous experiments over 20,000 GPU hours, culminating in the discovery of 106 innovative, state-of-the-art (SOTA) linear attention architectures. Like AlphaGo's Move 37 that revealed unexpected strategic insights invisible to human players, our AI-discovered architectures demonstrate emergent design principles that systematically surpass human-designed baselines and illuminate previously unknown pathways for architectural innovation. Crucially, we establish the first empirical scaling law for scientific discovery itself--demonstrating that architectural breakthroughs can be scaled computationally, transforming research progress from a human-limited to a computation-scalable process. We provide comprehensive analysis of the emergent design patterns and autonomous research capabilities that enabled these breakthroughs, establishing a blueprint for self-accelerating AI systems.

Tautan makalah

https://arxiv.org/abs/2507.18074

Induksi kemampuan model bahasa melalui pembelajaran tanpa supervisi / Unsupervised Elicitation of Language Models

Pengantar makalah

Saat menyesuaikan model bahasa pralatih untuk tugas tertentu, metode yang ada memerlukan supervisi manusia. Namun, untuk model dengan kemampuan melampaui manusia, supervisi manusia berkualitas tinggi menjadi sulit atau mustahil. Untuk mengatasi hal ini, makalah ini mengusulkan Internal Coherence Maximization (ICM), sebuah algoritma pembelajaran tanpa supervisi yang melakukan fine-tuning dengan memanfaatkan label yang dihasilkan model itu sendiri tanpa supervisi eksternal. ICM menunjukkan kinerja yang setara atau lebih unggul daripada pembelajaran berbasis supervisi manusia di berbagai benchmark, dan khususnya memberikan hasil yang lebih baik daripada pembelajaran dengan label manusia pada tugas-tugas dengan kemampuan superhuman. Selain itu, metode ini digunakan untuk melatih reward model dan sistem pendukung dari model bahasa mutakhir, serta membuktikan peningkatan kinerja dibandingkan model yang disupervisi manusia.

Abstrak makalah (Abstract)

Untuk mengarahkan model bahasa pralatih ke tugas hilir, paradigma post-training saat ini bergantung pada manusia untuk menentukan perilaku yang diinginkan. Namun, untuk model dengan kemampuan superhuman, memperoleh pengawasan manusia berkualitas tinggi sulit atau bahkan tidak mungkin. Untuk mengatasi tantangan ini, kami memperkenalkan algoritme unsupervised baru, Internal Coherence Maximization (ICM), untuk melakukan fine-tuning pada model bahasa pralatih menggunakan label yang dihasilkan sendiri, \emph{tanpa pengawasan eksternal}. Pada tugas GSM8k-verification, TruthfulQA, dan pemodelan reward Alpaca, metode kami menyamai kinerja pelatihan dengan golden supervision dan melampaui pelatihan dengan pengawasan manusia hasil crowdsourcing. Pada tugas-tugas di mana kemampuan LM sangat superhuman, metode kami dapat memunculkan kemampuan tersebut secara signifikan lebih baik daripada pelatihan dengan label manusia. Terakhir, kami menunjukkan bahwa metode ini dapat meningkatkan pelatihan frontier LMs: kami menggunakan metode ini untuk melatih model reward unsupervised dan menggunakan reinforcement learning untuk melatih asisten berbasis Claude 3.5 Haiku. Baik model reward maupun asistennya mengungguli padanan yang dilatih dengan pengawasan manusia.
> To steer pretrained language models for downstream tasks, today's post-training paradigm relies on humans to specify desired behaviors. However, for models with superhuman capabilities, it is difficult or impossible to get high-quality human supervision. To address this challenge, we introduce a new unsupervised algorithm, Internal Coherence Maximization (ICM), to fine-tune pretrained language models on their own generated labels, \emph{without external supervision}. On GSM8k-verification, TruthfulQA, and Alpaca reward modeling tasks, our method matches the performance of training on golden supervision and outperforms training on crowdsourced human supervision. On tasks where LMs' capabilities are strongly superhuman, our method can elicit those capabilities significantly better than training on human labels. Finally, we show that our method can improve the training of frontier LMs: we use our method to train an unsupervised reward model and use reinforcement learning to train a Claude 3.5 Haiku-based assistant. Both the reward model and the assistant outperform their human-supervised counterparts.

Tautan makalah

https://arxiv.org/abs/2506.10139

Tulisan ini disusun berdasarkan ringkasan yang dibuat dengan model GPT, sehingga mungkin ada bagian yang diringkas dengan cara yang berbeda dari isi atau maksud naskah aslinya. Jika Anda tertarik dengan topik ini, silakan rujuk juga ke naskah aslinya! Jika saat membaca Anda menemukan bagian yang janggal atau keliru, mohon beri tahu kami melalui komentar. 🤗
⚠️Iklan⚠️ Apakah tulisan yang dirangkum oleh 🔥Komunitas Pengguna PyTorch Korea🇰🇷 ini bermanfaat? Jika Anda mendaftar sebagai anggota, kami akan mengirimkan tulisan-tulisan utama melalui email💌! (Default-nya Weekly, tetapi bisa diubah ke Daily.)

[2025/09/01 ~ 07] Kumpulan makalah AI/ML yang layak disimak minggu ini