[2026/06/08 ~ 14] Kumpulan Paper AI/ML yang Layak Disimak Minggu Ini
(discuss.pytorch.kr)PyTorchKR🔥🇰🇷 🤔💭
Melihat 10 paper yang dipilih minggu ini, kita bisa melihat tiga tren yang jelas dalam riset kecerdasan buatan: bukan lagi sekadar meningkatkan performa model, tetapi menembus batas otonomi, keandalan, dan efisiensi.
1️⃣ Evolusi self-improvement otonom dan sistem multi-agent: Paper-paper minggu ini menonjolkan arus perkembangan di mana agent melampaui instruksi manusia yang eksplisit atau lintasan tetap, lalu berkembang menjadi sistem otonom yang menyusun organisasi sendiri dan memperbaiki kelemahannya sendiri. Economy of Minds dan AutoScientists mengusulkan sistem kolaborasi terdistribusi di mana para agent secara sukarela membagi peran dan melanjutkan eksplorasi jangka panjang melalui interaksi ekonomi (lelang, akumulasi modal) atau forum bersama, tanpa kendali terpusat. Selain itu, Self-Harness memperkenalkan framework yang memungkinkan agent menganalisis pola kegagalan masa lalunya sendiri lalu berulang kali merevisi system prompt dan kebijakan operasionalnya (Harness) untuk meningkatkan performa secara mandiri. Ini menunjukkan bahwa AI sedang bergerak melampaui alat pasif untuk menjalankan tugas tunggal, menuju entitas evolutif aktif yang mampu melakukan perencanaan jangka panjang dan kolaborasi.
2️⃣ Verifikasi ketat atas kapabilitas AI dan pemanfaatan komplementer (hybrid): Riset-riset reflektif yang menyoroti keterbatasan nyata di balik performa permukaan AI, lalu mencoba mengatasinya dengan menggabungkannya dengan manusia atau algoritme klasik, juga menjadi tren utama. LiveBrowseComp menyoroti titik buta bahwa search agent pada praktiknya sering kali hanya memverifikasi pengetahuan bawaan di dalam model alih-alih menemukan informasi baru, dan studi AI reviewer menunjukkan secara empiris bahwa AI unggul dalam mendeteksi kesalahan rinci tetapi lemah dalam memahami konteks jangka panjang, sehingga tidak bisa sepenuhnya menggantikan reviewer manusia dan lebih tepat sebagai 'pelengkap'. Lebih jauh, studi hyperparameter optimization (HPO) memastikan bahwa kemampuan pelacakan state LLM masih kalah dibanding algoritme klasik, dan melalui pendekatan hybrid yang membagikan state internal metode klasik (CMA-ES) ke LLM, berhasil mencapai performa terbaik. Ini adalah upaya realistis untuk mewaspadai benchmark yang terlalu menggembung sekaligus merancang struktur kolaborasi paling efektif dengan memahami kelemahan AI secara jelas.
3️⃣ Optimisasi cerdas atas data, lingkungan, dan sumber daya komputasi: Alih-alih sekadar memperbesar skala model, pendekatan infrastruktur untuk memaksimalkan efisiensi lingkungan pelatihan, data, dan komputasi hardware demi meningkatkan kepadatan performa per biaya semakin aktif berkembang. AutoForge menyelesaikan skalabilitas pembelajaran dengan secara otomatis mensintesis lingkungan simulasi kompleks untuk reinforcement learning agent tingkat lanjut, sedangkan APEX menunjukkan efisiensi data yang dimaksimalkan dengan mengklasifikasikan tingkat kesulitan data secara dinamis dan memusatkan komputasi optimasi prompt hanya pada data yang paling informatif. Selain itu, FP8 is All You Need menembus keterbatasan high-performance computing (HPC) yang mahal dan berpusat pada double precision (FP64) dengan memanfaatkan operasi tensor presisi rendah 8-bit, sementara DySIB membuktikan efisiensi matematis dengan mengekstrak hanya informasi inti dinamika dari data observasi berdimensi tinggi. Ini adalah upaya serius untuk menggunakan sumber daya terbatas dengan cara paling cerdas demi memperluas kemungkinan penerapan AI yang nyata di industri dan sains.
Ringkasan inti per paper
-
Economy of Minds mengusulkan sistem terdistribusi di mana agent, tanpa kontrol terpusat, memperoleh hak bertindak melalui lelang dan mengakumulasi kekayaan dari reward lingkungan berdasarkan aturan interaksi ekonomi, lalu berevolusi secara spontan dan membentuk kecerdasan kolektif tingkat tinggi seperti penalaran multi-langkah.
-
AutoForge menyajikan pipeline terpadu di level lingkungan yang secara otomatis mensintesis dalam jumlah besar lingkungan simulasi sulit yang dapat diverifikasi untuk reinforcement learning yang efektif bagi language agent skala besar, serta meningkatkan stabilitas pembelajaran dengan mengatasi ketidakstabilan pengguna dan heterogenitas antarlingkungan.
-
APEX merancang metode untuk memaksimalkan efisiensi data di bawah anggaran komputasi terbatas dengan memilih secara dinamis rentang campuran tempat jawaban benar dan salah saling beririsan, guna memperbaiki inefisiensi lama yang menghabiskan seluruh dataset evaluasi saat mengoptimalkan prompt untuk large language model.
-
Self-Harness memperkenalkan framework yang memungkinkan agent, tanpa campur tangan pakar manusia atau bantuan model eksternal yang lebih kuat, menganalisis pola kegagalan yang ditemukan dalam jejak eksekusi masa lalu dan secara otonom merevisi kebijakan operasional yang memediasi interaksi antara dirinya dan lingkungan melalui regression test.
-
studi autoresearch mengungkap bahwa large language model belum mampu sepenuhnya melampaui algoritme klasik dalam lingkungan hyperparameter optimization karena kesulitan melacak state secara eksplisit, lalu mengusulkan pendekatan hybrid yang membagikan state internal covariance matrix adaptation evolution strategy ke language model dan mencapai performa terbaik.
-
FP8 is All You Need membantah anggapan umum bahwa hardware floating-point double precision native itu wajib dalam high-performance computing, dan membuktikan bahwa performa eksekusi dapat dipulihkan tanpa kehilangan akurasi dengan menggabungkan Chinese Remainder Theorem dan operasi tensor presisi rendah 8-bit untuk memaksimalkan throughput tensor.
-
studi AI reviewer menganalisis secara berlapis bahwa kecerdasan buatan dapat berperan sebagai pelengkap yang sangat baik dengan menunjukkan masalah unik yang terlewat oleh manusia, tetapi juga memiliki keterbatasan struktural seperti pengelolaan konteks panjang dan kurangnya tacit knowledge di bidang tertentu, berdasarkan hasil anotasi dan verifikasi berskala besar atas paper keluarga Nature oleh 45 pakar domain.
-
LiveBrowseComp mendiagnosis fenomena bahwa search agent yang ada bergantung pada konfirmasi ulang pengetahuan bawaan alih-alih menjelajahi fakta baru dari web eksternal, lalu memperkenalkan benchmark baru untuk mengevaluasi secara ketat kemampuan deep search yang sesungguhnya terhadap fakta-fakta terbaru di luar batas pengetahuan model.
-
DySIB mengusulkan metodologi untuk mempelajari secara akurat dan dapat diinterpretasikan koordinat geometris ruang fase berdimensi rendah yang mengendalikan dinamika sistem, dengan memaksimalkan predictive mutual information antara jendela observasi masa lalu dan masa depan pada data observasi deret waktu berdimensi tinggi tanpa harus merekonstruksi citra mentah secara langsung.
-
AutoScientists membangun sistem riset otonom dengan membiarkan tim agent terdistribusi mendiskusikan, mengorganisasi, dan menangani sendiri siklus berulang penetapan hipotesis, pelaksanaan eksperimen, analisis hasil, dan revisi yang dibutuhkan dalam eksperimen sains komputasional jangka panjang, sehingga pengetahuan dari eksplorasi yang gagal tetap terjaga dan kolaborasi dapat diarahkan ke jalur yang menjanjikan.
Ekonomi Pikiran: Kecerdasan Multi-Agent Emergen melalui Interaksi Ekonomi / Economy of Minds: Emerging Multi-Agent Intelligence with Economic Interactions
Pengantar paper
Riset ini, yang membahas bagaimana banyak agent dapat berevolusi secara spontan menjadi kecerdasan kolektif yang lebih kuat tanpa kontrol terpusat, patut diperhatikan karena merupakan upaya memindahkan teori koordinasi pasar terdistribusi Friedrich Hayek ke dalam kecerdasan buatan multi-agent. Untuk itu, para penulis mengusulkan kerangka yang disebut agent economy, di mana setiap agent tidak hanya sekadar bekerja sama, tetapi juga dirancang untuk memperoleh hak bertindak melalui lelang (auction), saling melakukan pembayaran, dan mengakumulasi kekayaan dari reward yang diperoleh di lingkungan. Sinyal ekonomi semacam ini memungkinkan decentralized credit assignment di antara para agent tanpa orkestrasi global terpisah atau protokol komunikasi eksplisit, sekaligus membuat nilai dari tiap tindakan terungkap secara alami. Hasilnya, perencanaan tidak dipaksakan dari luar, melainkan terbentuk secara internal ketika tiap agent mengikuti insentif ekonominya sendiri. Dengan kata lain, ini adalah pendekatan yang menumbuhkan pemikiran kolektif lewat penetapan aturan interaksi yang tepat, alih-alih merancang mekanisme kolaborasi yang rumit secara sangat detail.
Inti penting lain dari paper ini adalah bahwa sistem tidak berhenti pada struktur tetap, melainkan terus berevolusi melalui economic selection. Agent yang efisien mengakumulasi lebih banyak kekayaan dan memperoleh peluang peningkatan yang berfokus pada exploitation, sedangkan agent yang berkinerja rendah kehilangan sumber daya dan digantikan oleh agent baru sehingga membuka jalur exploration. Desain yang menjadikan wealth sebagai state variable ini melampaui optimasi parameter sederhana dan membentuk mekanisme evolusi terdistribusi yang menghubungkan local incentives tiap agent dengan long-term global performance. Yang terutama penting, bahkan jika sistem dimulai dari agent awal yang lemah, melalui dinamika ekonomi ini strategi perilaku yang lebih canggih dapat secara bertahap terakumulasi dan dikombinasikan. Para penulis menunjukkan bahwa dalam proses tersebut perilaku tingkat tinggi seperti multi-step reasoning dapat muncul secara spontan, dan berargumen bahwa agent berkembang melampaui kebijakan reaktif sederhana menuju strategi yang mencakup perencanaan dan verifikasi.
Secara eksperimental, efektivitas sistem ekonomi ini divalidasi pada lima tugas agentik: penalaran matematis, riset keuangan, riset ilmiah, desain akselerator (accelerator design), dan optimisasi sistem terdistribusi (distributed-system optimization). Hasilnya, metode yang diusulkan dilaporkan menunjukkan performa yang lebih unggul daripada model tunggal besar yang lebih kuat (monolithic baseline), yang mengindikasikan bahwa perluasan kecerdasan multiagen tidak harus bergantung pada koordinasi terpusat. Pesan utama yang disampaikan riset ini adalah bahwa alih-alih merancang koordinasi secara langsung, yang perlu dirancang adalah struktur insentif yang memungkinkan koordinasi muncul secara alami. Mekanisme ekonomi sederhana seperti lelang, pembayaran, kekayaan, kebangkrutan, dan substitusi diklaim dapat mengorganisasi kompetisi dan kerja sama secara bersamaan, serta secara emergen menghasilkan penalaran dan strategi pemecahan masalah yang lebih baik dalam prosesnya. Lebih jauh lagi, para penulis juga menyajikan wawasan teoretis tentang bagaimana dinamika ekonomi membentuk perilaku agen, menunjukkan bahwa fenomena ini bukan sekadar hasil empiris yang kebetulan, melainkan sebuah ruang desain yang memungkinkan berdasarkan prinsip. Pada akhirnya, paper ini menjelaskan bagaimana struktur insentif terdistribusi dapat mendorong pertumbuhan kecerdasan kolektif, sekaligus mengusulkan paradigma baru untuk merancang kecerdasan buatan multiagen di masa depan.
Abstrak(Abstract)
Bagaimana sekelompok agen dapat mengorkestrasi diri dan beradaptasi sendiri menjadi kecerdasan kolektif yang lebih kuat tanpa kontrol terpusat? Terinspirasi oleh teori ekonomi Friedrich Hayek tentang koordinasi terdesentralisasi dalam pasar, kami meneliti pertanyaan ini melalui sebuah ekonomi agen, di mana agen bersaing melalui lelang untuk mendapatkan hak bertindak, saling menukar pembayaran, dan mengakumulasi kekayaan dari imbalan lingkungan. Sinyal ekonomi sederhana ini mendorong alokasi kredit terdesentralisasi, sehingga perencanaan dapat berjalan tanpa orkestrasi global maupun protokol komunikasi eksplisit. Populasi berevolusi melalui seleksi ekonomi. Agen yang efektif mengakumulasi kekayaan dan dimutasi melalui exploitation, sementara agen yang tidak efektif bangkrut dan digantikan melalui exploration. Kami menunjukkan bahwa, bahkan ketika diinisialisasi dengan agen yang lemah, ekonomi ini menghasilkan strategi penalaran multi-langkah yang emergen dan mengungguli baseline monolitik yang lebih kuat pada lima tugas agentik, termasuk penalaran matematis, riset keuangan, riset ilmiah, desain akselerator, dan optimisasi sistem terdistribusi. Kami juga memberikan wawasan teoretis tentang bagaimana dinamika ekonomi membentuk perilaku agen, menjelaskan bagaimana insentif lokal terhubung dengan performa global jangka panjang. Hasil kami menunjukkan jalur baru untuk kecerdasan multiagen. Artinya, alih-alih merekayasa koordinasi secara langsung, kita dapat merancang struktur insentif terdesentralisasi yang membuat koordinasi tersebut muncul secara otomatis.
How can a population of agents self-orchestrate and self-adapt into stronger collective intelligence without centralized control? Inspired by Friedrich Hayek's economic theory of decentralized coordination in markets, we study this question through an agent economy in which agents compete via auctions for the right to act, exchange payments, and accumulate wealth from environmental rewards. These simple economic signals induce decentralized credit assignment, driving planning without global orchestration or explicit communication protocols. The population evolves through economic selection: effective agents accumulate wealth and are mutated via exploitation, while ineffective ones go bankrupt and are replaced via exploration. We show that, initialized with weak agents, the economy produces emergent multi-step reasoning strategies and outperforms stronger monolithic baselines across five agentic tasks, including mathematical reasoning, financial research, scientific research, accelerator design, and distributed-system optimization. We further provide theoretical insights into how economic dynamics shape agent behaviors, linking local incentives to long-term global performance. Our results suggest a new path to multi-agent intelligence: rather than engineering coordination, we can design decentralized incentive structures under which it automatically emerges.
Tautan paper
https://arxiv.org/abs/2606.02859
Bacaan lanjutan
https://zhentingqi.github.io/internal/projects/EoM/
https://github.com/zhentingqi/EoM
AutoForge: Sintesis Lingkungan Otomatis untuk Reinforcement Learning Agentik / AutoForge: Automated Environment Synthesis for Agentic Reinforcement Learning
Pengenalan paper
Untuk melatih agen berbasis bahasa skala besar agar lebih mendekati kondisi nyata, diperlukan dua hal sekaligus: cara memproduksi lingkungan simulasi dalam jumlah besar secara stabil dengan biaya rendah namun tetap cukup kompleks, serta prosedur pelatihan yang mampu menahan noise interaksi yang muncul di lingkungan tersebut. Untuk mengatasi masalah ini, AutoForge mengusulkan sebuah pipeline terpadu yang secara otomatis mensintesis lingkungan simulasi yang terhubung ke tugas-tugas yang sulit namun mudah diverifikasi (high-difficulty but easily verifiable tasks), serta algoritma reinforcement learning (RL) tingkat lingkungan yang dirancang sesuai karakteristik lingkungan tersebut. Ide utamanya adalah memandang lingkungan bukan sebagai sekadar kumpulan prompt, melainkan sebagai sistem yang dapat dijalankan dan terdiri dari struktur status serta kumpulan fungsi operasi, lalu menghasilkan lingkungan semacam ini dalam skala besar berdasarkan dokumentasi deskripsi tool. Secara khusus, pada pembuatan struktur status, nama atribut dan nilai aktual dipisahkan, dan pada pembuatan kumpulan fungsi, kode Python yang bergantung pada struktur status disintesis secara otomatis, sehingga beragam tugas dapat secara konsisten ditempatkan di atas skema lingkungan yang dapat digunakan ulang.
Setelah itu, pada tahap pembuatan sekuens tool, yang disusun bukan sekadar daftar tool sederhana, melainkan graf asiklik berarah (directed acyclic graph, DAG) yang menggabungkan pemanggilan tool dan penalaran tingkat tinggi melalui random walk berbasis graf, penggabungan sekuens, penyisipan node penalaran, dan penyisipan edge penalaran. Prosedur ini dimaksudkan untuk menciptakan tugas yang menuntut dependensi yang jauh lebih kompleks dibanding tugas pencarian tunggal, sehingga memberikan tingkat kesulitan yang lebih mirip dengan proses agen nyata saat memanggil tool, menafsirkan hasil, lalu menentukan tindakan berikutnya. Graf yang dihasilkan kemudian diteruskan kembali ke tahap pembuatan tugas untuk dimurnikan ulang menjadi sampel pelatihan yang dapat diverifikasi, dengan keadaan awal dan keadaan akhir sekaligus, sementara kebenaran dinilai bukan dari kecocokan jalur tool tertentu, melainkan dari apakah keadaan akhir cocok atau tidak. Poin ini mencerminkan karakteristik lingkungan agen, di mana tujuan yang sama dapat dicapai melalui banyak jalur berbeda, dan pentingnya terletak pada penyelarasan pembuatan data serta kriteria evaluasi dengan pendekatan yang berpusat pada status.
Algoritme pembelajaran ERPO memperluas GRPO yang ada agar dapat secara bersamaan menangani ketidakstabilan simulated user dan heterogenitas antar lingkungan. Agen menjalankan rollout dengan bergantian antara pemanggilan alat dan permintaan informasi kepada pengguna, dan dalam proses ini melanjutkan perencanaan serta perencanaan ulang jangka panjang sambil mempertahankan isi penalaran sebelumnya melalui interleaved thinking. Selain itu, dengan menerapkan strategi masking erroneous user behaviors (MEU), yang mengidentifikasi perilaku pengguna yang salah terlebih dahulu lalu mengecualikannya dari sinyal pelatihan, pendekatan ini mengurangi masalah ketika kesalahan pengguna sintetis mencemari estimasi reward dan pembaruan kebijakan. Kontribusi yang paling penting adalah environment-level advantage estimation; alih-alih menghitung advantage dengan menormalisasi reward pada kumpulan pertanyaan yang sama, metode ini menormalisasi reward di dalam lingkungan yang sama, sehingga lebih tidak sensitif terhadap perbedaan tingkat kesulitan dan outlier antar lingkungan serta meningkatkan stabilitas pelatihan.
Pada akhirnya, rancangan ini dapat dipandang sebagai upaya untuk menyatukan tiga lapisan—pembuatan lingkungan, prosedur interaksi, dan estimasi reward—ke dalam satu kerangka yang konsisten, demi sekaligus mengamankan skalabilitas, stabilitas, dan kemampuan generalisasi yang dibutuhkan oleh agentic reinforcement learning. Validasi pada tau-bench, tau2-Bench, dan VitaBench, serta analisis generalisasi di luar domain, menunjukkan bahwa AutoForge dapat berfungsi sebagai infrastruktur dasar untuk pelatihan agen nyata, melampaui sekadar teknik pembuatan data sintetis.
Abstrak(Abstract)
Melakukan reinforcement learning (RL) di lingkungan simulasi memberikan cara yang hemat biaya dan sangat skalabel untuk meningkatkan agen berbasis bahasa. Namun, penelitian sebelumnya terbatas pada sintesis lingkungan semi-otomatis atau tugas yang tidak cukup sulit, sehingga kurang memiliki keluasan maupun kedalaman. Selain itu, ketidakstabilan simulated user yang terintegrasi ke dalam lingkungan ini, bersama dengan heterogenitas antar lingkungan simulasi, menimbulkan tantangan tambahan bagi agentic RL. Dalam penelitian ini, kami mengusulkan: (1) pipeline terpadu untuk sintesis otomatis dan skalabel dari lingkungan simulasi yang terkait dengan tugas berkesulitan tinggi tetapi mudah diverifikasi; dan (2) algoritme RL tingkat lingkungan yang tidak hanya secara efektif mengurangi ketidakstabilan pengguna, tetapi juga melakukan advantage estimation pada tingkat lingkungan, sehingga meningkatkan efisiensi dan stabilitas pelatihan. Evaluasi komprehensif pada benchmark agen, termasuk tau-bench, tau2-Bench, dan VitaBench, memvalidasi efektivitas metode yang kami usulkan. Analisis mendalam tambahan menegaskan kemampuan generalisasinya di luar domain.
Conducting reinforcement learning (RL) in simulated environments offers a cost-effective and highly scalable way to enhance language-based agents. However, previous work has been limited to semi-automated environment synthesis or tasks lacking sufficient difficulty, offering little breadth or depth. In addition, the instability of simulated users integrated into these environments, along with the heterogeneity across simulated environments, poses further challenges for agentic RL. In this work, we propose: (1) a unified pipeline for automated and scalable synthesis of simulated environments associated with high-difficulty but easily verifiable tasks; and (2) an environment level RL algorithm that not only effectively mitigates user instability but also performs advantage estimation at the environment level, thereby improving training efficiency and stability. Comprehensive evaluations on agentic benchmarks, including tau-bench, tau2-Bench, and VitaBench, validate the effectiveness of our proposed method. Further in-depth analyses underscore its out-of-domain generalization.
Tautan paper
https://arxiv.org/abs/2512.22857
APEX: Pakar Rekayasa Prompt Otomatis dengan Pemilihan Data Dinamis / APEX: Automated Prompt Engineering eXpert with Dynamic Data Selection
Pengenalan paper
Karena Large Language Models (LLMs) sangat sensitif terhadap cara prompt diekspresikan, automatic prompt optimization menjadi tugas kunci untuk sepenuhnya mengeluarkan potensinya. Pendekatan berbasis evolutionary algorithms yang ada menunjukkan kekuatan dalam memodifikasi prompt secara bertahap, tetapi juga memperlihatkan keterbatasan karena terus-menerus menggunakan dataset pengembangan sebagai sumber daya evaluasi yang tetap, sehingga menghabiskan anggaran komputasi secara tidak efisien. APEX (Automatic Prompt Engineering eXpert) mengusulkan kerangka baru yang secara bersamaan mengoptimalkan eksplorasi prompt dan pemanfaatan data untuk mengatasi bottleneck ini. Inti dari metode ini adalah strategi yang secara dinamis merekonstruksi dataset ke dalam tiga lapisan—Easy, Hard, dan Mixed—sepanjang optimization lineage, dan khususnya menganggap lapisan Mixed, tempat jawaban benar dan salah model muncul bersamaan, sebagai bagian dengan kandungan informasi tertinggi. Perspektif ini dengan jelas menunjukkan bahwa, alih-alih sekadar melihat lebih banyak contoh, yang lebih penting adalah mengidentifikasi contoh mana yang benar-benar memberikan sinyal untuk perbaikan prompt.
APEX mengekstrak dua frontier bernilai tinggi dari lapisan Mixed. Salah satunya adalah addressable frontier, yang menguntungkan untuk menghasilkan variasi yang informatif, dan yang lainnya adalah rank-sensitive frontier, yang peka untuk membedakan keunggulan relatif prompt kandidat. Yang pertama memberikan arah bagi modifikasi prompt, sedangkan yang kedua membantu menentukan apakah suatu perubahan benar-benar menghasilkan performa yang lebih baik, sehingga kedua frontier ini saling melengkapi peran eksplorasi dan evaluasi. Secara khusus, struktur ini secara signifikan meningkatkan efisiensi data karena, tidak seperti pendekatan lama yang memperlakukan seluruh dataset secara seragam, ia memusatkan komputasi pada sampel yang paling bermakna pada tahap optimisasi saat ini. Dengan kata lain, alih-alih mengubah prompt sebanyak-banyaknya secara membabi buta, APEX secara strategis menyerang titik-titik ketika perilaku model paling tidak stabil dan karena itu menyimpan informasi paling banyak. Desain ini mendefinisikan ulang optimisasi prompt bukan sebagai masalah generasi semata, melainkan sebagai masalah eksplorasi adaptif yang menggabungkan pemilihan data dan perbandingan kandidat.
Secara eksperimental, APEX divalidasi pada tiga benchmark dengan karakter yang berbeda—IFBench, SimpleQA Verified, dan FACTS Grounding—dan menunjukkan peningkatan yang stabil bahkan di bawah kondisi anggaran tetap sebesar 5.000 evaluation calls. Hasilnya, dibandingkan prompt awal, metode ini mencapai peningkatan performa rata-rata 11,2% pada Gemini 2.5 Flash dan rata-rata 6,8% pada Gemma 3 27B, membuktikan betapa pentingnya pendekatan yang berpusat pada data untuk optimisasi prompt yang efisien sekaligus kuat. Pencapaian ini bermakna karena menunjukkan bahwa APEX tidak sekadar meningkatkan algoritme eksplorasi, tetapi juga secara empiris memperlihatkan bahwa keberhasilan prompt engineering bergantung pada data apa yang dipilih, kapan dipilih, dan bagaimana data itu digunakan. Pada akhirnya, penelitian ini menggeser inti automatic prompt optimization dari “lebih banyak evaluasi” menjadi “penggunaan data yang lebih cerdas”, serta menyajikan metodologi yang praktis dan dapat digeneralisasi untuk mencapai performa yang lebih tinggi dalam sumber daya komputasi yang terbatas.
Abstrak(Abstract)
Large Language Model (LLM) sangat sensitif terhadap perumusan prompt, sehingga diperlukan optimasi prompt otomatis untuk membuka potensi penuhnya. Meskipun algoritma evolusioner telah muncul sebagai paradigma yang dominan, pendekatan ini memiliki bottleneck kritis: efisiensi data. Metode yang ada saat ini memperlakukan dataset pengembangan sebagai benchmark statis, sehingga menghabiskan anggaran komputasi yang besar pada data yang kurang informatif. Dalam penelitian ini, kami memperkenalkan APEX (Automatic Prompt Engineering eXpert), sebuah framework baru yang mengoptimalkan penggunaan data sekaligus pencarian prompt. APEX secara dinamis membagi dataset ke dalam tier Easy, Hard, dan Mixed berdasarkan lineage optimasi. Dengan memprioritaskan tier Mixed, yang mengidentifikasi data ketika kinerja LLM bercampur, kami menemukan dua subset dengan leverage tinggi. Salah satunya adalah addressable frontier untuk menghasilkan mutasi yang informatif, dan yang lainnya adalah rank-sensitive frontier untuk membedakan kualitas kandidat. Kami mengevaluasi APEX pada tiga benchmark yang beragam: IFBench, SimpleQA Verified, dan FACTS Grounding. Dengan anggaran tetap sebesar 5.000 evaluation call, APEX menunjukkan efisiensi data yang unggul dan mengungguli prompt awal dengan rata-rata 11,2% pada Gemini 2.5 Flash dan 6,8% pada Gemma 3 27B, yang menunjukkan bahwa pendekatan berpusat pada data adalah kunci untuk optimasi prompt yang efisien dan efektif.
Large Language Models are highly sensitive to prompt formulation, necessitating automatic prompt optimization to unlock their full potential. While evolutionary algorithms have emerged as the dominant paradigm, they suffer from a critical bottleneck: data efficiency. Current methods treat the development dataset as a static benchmark, wasting significant compute budget on uninformative data. In this work, we introduce APEX (Automatic Prompt Engineering eXpert), a novel framework that optimizes the data usage alongside the prompt search. APEX dynamically stratifies the dataset into Easy, Hard, and Mixed tiers based on the optimization lineage. By prioritizing the Mixed tier, which identifies the data where the LLM has mixed performance, we identify two high-leverage subsets: the addressable frontier for generating informative mutations and the rank-sensitive frontier for distinguishing candidate quality. We evaluate APEX across three diverse benchmarks: IFBench, SimpleQA Verified, and FACTS Grounding. Under a fixed budget of 5,000 evaluation calls, due to its data efficiency, APEX outperforms the initial prompt by an average of 11.2% on Gemini 2.5 Flash and 6.8% on Gemma 3 27B, demonstrating that a data-centric approach is key to efficient and effective prompt optimization.
Tautan paper
https://arxiv.org/abs/2606.11459
Self-Harness: Harness yang Meningkatkan Diri Sendiri / Self-Harness: Harnesses That Improve Themselves
Pengantar paper
Kinerja agen berbasis Large Language Model (LLM) tidak hanya ditentukan oleh kemampuan penalaran model dasarnya, tetapi juga sangat dipengaruhi oleh desain harness yang memediasi interaksi dengan lingkungan. Harness adalah lapisan operasional yang mencakup system prompt, cara penggunaan alat, prosedur verifikasi, hingga kebijakan pemulihan kegagalan; sehingga model yang sama pun dapat menunjukkan pola perilaku yang sepenuhnya berbeda tergantung harness apa yang diterapkan. Para penulis menyoroti titik ini dan mengajukan gagasan bahwa harness seharusnya tidak lagi menjadi aset tetap yang hanya dirancang secara manual oleh pakar manusia, melainkan harus dapat memperbaiki dirinya sendiri berdasarkan pola kegagalan nyata model. Dari sudut pandang ini, Self-Harness yang diusulkan menunjukkan paradigma baru di mana agen berbasis LLM secara iteratif memperbaiki harness operasionalnya sendiri tanpa bergantung pada agen eksternal yang lebih kuat atau insinyur manusia.
Metodologi inti Self-Harness terletak pada loop berulang yang terdiri dari Weakness Mining, Harness Proposal, dan Proposal Validation. Pertama, pola kegagalan spesifik model dicari dari execution traces untuk mendiagnosis secara terstruktur perilaku apa yang berulang kali menghambat kinerja. Selanjutnya, berbagai usulan revisi harness minimal yang terhubung langsung dengan kelemahan tersebut dihasilkan, dengan tujuan berupa edit lokal yang menyempurnakan kebijakan operasional nyata alih-alih perubahan yang terlalu besar. Terakhir, melalui regression testing, revisi kandidat hanya diadopsi setelah diverifikasi tidak merusak kinerja yang sudah ada, sehingga terbentuk sistem peningkatan yang aman dan dapat diakumulasi, bukan sekadar prompt tuning sederhana. Desain ini secara teknis mewujudkan gagasan bahwa harness tidak hanya mengarahkan perilaku model, tetapi juga dapat dipelajari kembali dari kegagalan model.
Paper ini memvalidasi framework tersebut di lingkungan Terminal-Bench-2.0, dan pada awalnya menerapkannya dengan harness yang sangat sederhana pada tiga model dasar dari keluarga berbeda, yaitu MiniMax M2.5, Qwen3.5-35B-A3B, dan GLM-5. Hasil eksperimen menunjukkan bahwa holdout pass rate meningkat masing-masing dari 40,5% menjadi 61,9%, dari 23,8% menjadi 38,1%, dan dari 42,9% menjadi 57,1%, yang menunjukkan bahwa Self-Harness dapat memberikan efek peningkatan yang konsisten terlepas dari jenis modelnya. Secara khusus, analisis kualitatif memperlihatkan bahwa peningkatan tersebut bukan sekadar menambahkan instruksi yang bersifat umum, melainkan proses mengubah kelemahan tiap model menjadi perubahan harness yang konkret dan dapat dijalankan. Hal ini dengan kuat mengisyaratkan bahwa bottleneck peningkatan kinerja agen tidak hanya berada di dalam parameter model, dan bahwa perbaikan kinerja yang nyata juga dimungkinkan hanya dengan mempelajari kebijakan operasional secara lebih presisi. Pada akhirnya, Self-Harness mengusulkan arah penelitian baru: agen berbasis LLM tidak hanya dibentuk oleh harness, tetapi juga dapat membentuk kembali harness itu sendiri.
Abstrak(Abstract)
Performa agen berbasis LLM dibentuk secara bersama oleh model dasarnya dan harness yang memediasi interaksinya dengan lingkungan. Karena model yang berbeda menunjukkan perilaku yang berbeda pula, desain harness yang efektif pada dasarnya bersifat spesifik untuk tiap model. Namun, harness agen hingga kini sebagian besar masih dirancang oleh pakar manusia, sebuah paradigma yang sulit diskalakan seiring LLM modern menjadi makin beragam dan berkembang dengan cepat. Dalam paper ini, kami memperkenalkan Self-Harness, paradigma baru di mana agen berbasis LLM memperbaiki harness operasionalnya sendiri tanpa bergantung pada insinyur manusia atau agen eksternal yang lebih kuat. Kami mewujudkan Self-Harness sebagai loop iteratif dengan tiga tahap. Weakness Mining mengidentifikasi pola kegagalan yang spesifik terhadap model dari jejak eksekusi, Harness Proposal menghasilkan modifikasi harness yang beragam namun minimal yang terkait dengan kegagalan tersebut, dan Proposal Validation menerima edit kandidat hanya setelah lolos pengujian regresi. Kami menerapkan Self-Harness pada Terminal-Bench-2.0 menggunakan harness awal yang minimal dan tiga model dasar dari keluarga yang berbeda: MiniMax M2.5, Qwen3.5-35B-A3B, dan GLM-5. Pada ketiga model tersebut, Self-Harness secara konsisten meningkatkan performa, dengan held-out pass rate masing-masing naik dari 40.5% ke 61.9%, dari 23.8% ke 38.1%, dan dari 42.9% ke 57.1%. Analisis kualitatif juga menunjukkan bahwa Self-Harness tidak sekadar menambahkan instruksi umum, tetapi secara efektif mengubah kelemahan spesifik model menjadi perubahan harness yang konkret dan dapat dijalankan. Hasil ini menunjukkan arah menuju agen berbasis LLM yang tidak hanya dibentuk oleh harness-nya, tetapi juga dapat berpartisipasi dalam membentuk ulang harness tersebut.
The performance of LLM-based agents is jointly shaped by their base models and the harnesses that mediate their interaction with the environment. Because different models exhibit distinct behaviors, effective harness design is inherently model-specific. Yet agent harnesses are still largely engineered by human experts, a paradigm that scales poorly as modern LLMs become increasingly diverse and rapidly evolving. In this paper, we introduce Self-Harness, a new paradigm in which an LLM-based agent improves its own operating harness, without relying on human engineers or stronger external agents. We operationalize Self-Harness as an iterative loop with three stages: Weakness Mining, which identifies model-specific failure patterns from execution traces; Harness Proposal, which generates diverse yet minimal harness modifications tied to these failures; and Proposal Validation, which accepts candidate edits only after regression testing. We instantiate Self-Harness on Terminal-Bench-2.0 using a minimal initial harness and three base models from diverse families: MiniMax M2.5, Qwen3.5-35B-A3B, and GLM-5. Across all three models, Self-Harness consistently improves performance, with held-out pass rates increasing from 40.5% to 61.9%, 23.8% to 38.1%, and 42.9% to 57.1%, respectively. Qualitative analyses further show that Self-Harness does not simply add generic instructions, but effectively turns model-specific weaknesses into concrete, executable harness changes. These results suggest a path toward LLM-based agents that are not merely shaped by their harnesses, but can also participate in reshaping them.
Tautan paper
https://arxiv.org/abs/2606.09498
Dapatkah model bahasa besar (LLM) mengalahkan algoritma optimasi hiperparameter klasik? Studi tentang autoresearch / Can LLMs Beat Classical Hyperparameter Optimization Algorithms? A Study on autoresearch
Pengenalan paper
Studi ini menguji apakah agen model bahasa besar (LLM) dapat melampaui algoritma klasik dalam lingkungan optimasi hiperparameter (HPO) nyata, dengan menggunakan repositori autoresearch sebagai medan eksperimen untuk menelaah secara langsung kemungkinan dan batasan optimasi berbasis pengeditan kode. Di sini, agen tidak hanya memilih hiperparameter numerik, tetapi juga harus langsung memodifikasi kode pelatihan itu sendiri untuk meningkatkan performa model bahasa kecil, dengan tujuan meminimalkan validation bits-per-byte (val_bpb) dalam anggaran komputasi yang tetap. Secara khusus, masalah ini jauh lebih menantang daripada optimasi black-box biasa karena mencakup ruang kode yang luas, termasuk arsitektur, optimizer, loop pelatihan, hingga ukuran model, sehingga menuntut kemampuan pemahaman bahasa sekaligus pelacakan status optimasi. Para penulis membandingkan secara langsung teknik klasik seperti Covariance Matrix Adaptation Evolution Strategy (CMA-ES) dan Tree-structured Parzen Estimator (TPE) dengan pendekatan berbasis LLM dalam lingkungan ini, sambil menganalisis secara sistematis faktor apa yang benar-benar menentukan performa. Hasilnya, pada ruang pencarian yang tetap, metode klasik secara konsisten lebih unggul, dan khususnya terungkap bahwa stabilitas dalam mengurangi kegagalan eksekusi lebih penting daripada keragaman kandidat yang dihasilkan.
Yang menarik, ketika LLM diizinkan mengedit source code secara langsung, kesenjangan tersebut memang sedikit menyempit, tetapi bahkan dengan model mutakhir saat itu seperti Claude Opus 4.6 dan Gemini 3.1 Pro Preview, pendekatan ini tetap belum sepenuhnya menyamai metode klasik. Temuan ini mengarah pada pengamatan bahwa meskipun LLM dapat mengusulkan modifikasi yang berguna pada trial individual, mereka masih lemah dalam mempertahankan status optimasi secara konsisten di sepanjang keseluruhan eksperimen berulang. Sebaliknya, algoritma klasik memang kekurangan pengetahuan domain, tetapi unggul dalam memperbarui status eksplisit seperti mean vector, step size, dan covariance matrix secara stabil. Berdasarkan sifat saling melengkapi ini, para penulis mengusulkan metode hibrida bernama Centaur, yang membagikan status internal CMA-ES yang dapat diinterpretasikan kepada LLM agar model bahasa dapat lebih baik mencerminkan konteks eksplorasi. Centaur menunjukkan performa terbaik di seluruh eksperimen, dan yang mengejutkan, bahkan hanya dengan LLM kecil berukuran 0.8B, metode ini mampu mengungguli baik metode klasik murni maupun metode LLM murni. Sebaliknya, pendekatan pengeditan kode tanpa batas memerlukan model yang lebih besar, yang menunjukkan bahwa antarmuka optimasi dan representasi status memiliki pengaruh lebih besar terhadap performa daripada sekadar skala model. Selain itu, dengan menganalisis secara rinci keragaman pencarian, scaling model, dan proporsi trial yang diusulkan LLM dalam Centaur, para penulis memperlihatkan dengan presisi kapan LLM menjadi keunggulan dan kapan menjadi kelemahan. Secara keseluruhan, studi ini dengan meyakinkan menunjukkan bahwa LLM paling efektif bukan sebagai pengganti optimizer klasik, melainkan sebagai komponen kolaboratif yang melengkapi status eksplorasi eksplisit.
Abstrak(Abstract)
Repositori autoresearch memungkinkan agen LLM mengoptimalkan hyperparameter dengan langsung mengedit kode pelatihan. Kami menggunakannya sebagai testbed untuk membandingkan algoritme HPO klasik dengan metode berbasis LLM dalam penalaan hyperparameter model bahasa kecil di bawah anggaran komputasi yang tetap. Saat mendefinisikan ruang pencarian tetap di seluruh autoresearch, metode klasik seperti CMA-ES dan TPE secara konsisten menunjukkan kinerja lebih baik daripada agen berbasis LLM, dan dalam konteks ini menghindari kegagalan out-of-memory (OOM) lebih penting daripada keberagaman pencarian. Mengizinkan LLM mengedit kode sumber secara langsung memang memperkecil kesenjangan dengan metode klasik, tetapi belum mampu menutupnya sepenuhnya, bahkan ketika menggunakan model terdepan pada saat tulisan ini dibuat seperti Claude Opus 4.6 dan Gemini 3.1 Pro Preview. Kami mengamati bahwa LLM kesulitan melacak status optimisasi di berbagai percobaan. Sebaliknya, metode klasik tidak memiliki pengetahuan domain yang dimiliki LLM. Untuk menggabungkan kekuatan keduanya, kami mengusulkan Centaur, metode hibrida yang membagikan status internal CMA-ES yang dapat diinterpretasikan—termasuk mean vector, step-size, dan covariance matrix—kepada LLM. Centaur mencapai hasil terbaik dalam eksperimen kami, dan LLM 0.8B saja sudah cukup untuk melampaui semua metode klasik maupun metode LLM murni. Pengeditan kode tanpa batasan memerlukan model yang lebih besar agar bisa bersaing dengan metode klasik. Kami juga menganalisis lebih lanjut keberagaman pencarian, penskalaan model dari 0.8B ke model terdepan, serta studi ablasi atas proporsi percobaan yang diusulkan LLM dalam Centaur. Secara keseluruhan, hasil kami menunjukkan bahwa LLM paling efektif sebagai pelengkap optimizer klasik, bukan sebagai penggantinya. Kode tersedia di https://github.com/ferreirafabio/autoresearch-automl dan demo interaktif tersedia di https://ferreirafabio.github.io/autoresearch-automl.
Repositori autoresearch memungkinkan agen LLM mengoptimalkan hyperparameter dengan langsung mengedit kode pelatihan. Kami menggunakannya sebagai testbed untuk membandingkan algoritme HPO klasik dengan metode berbasis LLM dalam penalaan hyperparameter model bahasa kecil di bawah anggaran komputasi yang tetap. Saat mendefinisikan ruang pencarian tetap di seluruh autoresearch, metode klasik seperti CMA-ES dan TPE secara konsisten mengungguli agen berbasis LLM, dan dalam konteks ini menghindari kegagalan out-of-memory lebih penting daripada keberagaman pencarian. Mengizinkan LLM mengedit kode sumber secara langsung memperkecil kesenjangan dengan metode klasik tetapi tidak menutupnya, bahkan dengan model terdepan yang tersedia saat tulisan ini dibuat seperti Claude Opus 4.6 dan Gemini 3.1 Pro Preview. Kami mengamati bahwa LLM kesulitan melacak status optimisasi di berbagai percobaan. Sebaliknya, metode klasik tidak memiliki pengetahuan domain yang dimiliki LLM. Untuk menggabungkan kekuatan keduanya, kami memperkenalkan Centaur, sebuah hibrida yang membagikan status internal CMA-ES yang dapat diinterpretasikan, termasuk mean vector, step-size, dan covariance matrix, kepada LLM. Centaur mencapai hasil terbaik dalam eksperimen kami, dan LLM 0.8B sudah cukup untuk mengungguli semua metode klasik dan metode LLM murni. Pengeditan kode tanpa batasan memerlukan model yang lebih besar agar kompetitif terhadap metode klasik. Kami juga menganalisis lebih lanjut keberagaman pencarian, penskalaan model dari 0.8B ke model terdepan, dan mengablasikan proporsi percobaan yang diusulkan LLM dalam Centaur. Secara keseluruhan, hasil kami menunjukkan bahwa LLM paling efektif sebagai pelengkap optimizer klasik, bukan sebagai pengganti. Kode tersedia di https://github.com/ferreirafabio/autoresearch-automl & demo interaktif di https://ferreirafabio.github.io/autoresearch-automl.
Tautan paper
https://arxiv.org/abs/2603.24647
Baca lebih lanjut
https://github.com/ferreirafabio/autoresearch-automl
https://ferreirafabio.github.io/autoresearch-automl
FP8 saja sudah cukup (Bagian 1): Membantah FP64 hardware sebagai cawan suci HPC / FP8 is All You Need (Part 1): Debunking Hardware FP64 as the HPC Holy Grail
Pengantar paper
Di bidang high-performance computing (HPC), operasi floating point presisi ganda (FP64, double-precision floating point) yang disediakan langsung oleh hardware telah lama dianggap sebagai syarat mutlak untuk komputasi ilmiah, tetapi paper ini berargumen bahwa anggapan tersebut mungkin tidak lagi berlaku pada generasi GPU modern yang dioptimalkan untuk AI. Secara khusus, paper ini berangkat dari fakta bahwa throughput FP64 native pada NVIDIA Blackwell Ultra (B300) turun secara signifikan, lalu menunjukkan bahwa jalur yang memanfaatkan throughput tensor FP8 (8-bit floating point) yang melimpah untuk memulihkan akurasi FP64 justru bisa lebih praktis. Untuk itu, penulis menggabungkan Chinese Remainder Theorem (CRT) dengan Ozaki Scheme II untuk memecah nilai ke beberapa kanal residu modular lalu merekonstruksinya kembali secara akurat, dan proses ini dirancang agar tetap mempertahankan akurasi numerik setingkat FP64 sambil tetap memanfaatkan throughput tinggi dari operasi tensor presisi rendah. Metodologi intinya bukan sekadar percepatan aproksimasi, melainkan memindahkan jalur komputasi itu sendiri ke tensor core presisi rendah sementara hasil akhirnya dikembalikan secara ketat melalui rekonstruksi berbasis bilangan bulat, sehingga jelas berbeda dari pendekatan konvensional yang berpusat pada presisi ganda.
Kontribusi penting lain dari paper ini adalah model Tensor-Memory Equilibrium (TME), yang merupakan perluasan dari model Roofline tradisional. TME tidak hanya melihat keseimbangan antara performa komputasi dan bandwidth memori, tetapi juga merefleksikan pengali komputasi, pengali bandwidth, dan latensi rekonstruksi yang muncul saat emulasi berbasis FP8 diubah menjadi workload FP64, sehingga kinerja eksekusi nyata bisa dijelaskan dengan lebih baik. Melalui kerangka ini, penulis menjelaskan bahwa register-level fusion dapat mencegah hasil antara terlalu sering dikirim ke memori, sehingga bandwidth multiplier pada praktiknya dapat mendekati 1. Akibatnya, mereka menunjukkan struktur di mana overhead rekonstruksi bisa tersembunyi di balik memory wall. Dengan kata lain, meskipun ada tahap transformasi dan rekonstruksi tambahan, performa keseluruhan dapat dipertahankan hampir tanpa kehilangan pada bagian yang didominasi perpindahan memori.
Kernel Ozaki Scheme II yang dijelaskan dari sudut pandang implementasi menunjukkan dengan jelas bagaimana ide ini benar-benar bekerja dalam praktik. Struktur yang memecah matriks dan vektor masukan ke beberapa channel residue, mengakumulasikannya pada tiap channel dengan operasi tensor berbasis wmma, lalu memulihkannya menjadi satu nilai double melalui rekonstruksi Garner di tahap akhir, mengungkap filosofi desain yang memisahkan akurasi dan kecepatan lalu menempatkan masing-masing pada jalur hardware yang paling sesuai. Dalam hal ini, fakta bahwa kernel HPC representatif seperti SpMV(sparse matrix-vector multiplication), GEMV(general matrix-vector multiplication), dan stencil semuanya dapat diproses dengan logika yang sama menunjukkan bahwa pendekatan ini bukan optimisasi yang terbatas pada tugas tertentu saja. Hasil performanya juga mendukung klaim tersebut: para penulis menjelaskan bahwa sementara native FP64 pada B300 sangat dilemahkan, jalur Ozaki II dapat mencapai batas memori dengan throughput efektif yang jauh lebih tinggi, dan bahkan ditunjukkan memiliki performa yang setara atau lebih baik dibanding H100.
Pada akhirnya, pesan utama yang disampaikan riset ini adalah bahwa anggapan lama bahwa untuk mempertahankan akurasi double-precision kita harus bergantung pada hardware native FP64 tidak lagi bersifat mutlak. Dengan menggabungkan throughput tensor FP8, rekonstruksi berbasis CRT, dan fusi tingkat register, HPC di lingkungan produksi dapat sekaligus memperoleh akurasi FP64 dan efisiensi bandwidth memori, bahkan berpotensi meraih performa yang lebih tinggi daripada desain generasi lama yang berpusat pada FP64. Klaim ini mendorong peninjauan ulang terhadap prioritas desain hardware, dan dengan kuat mengisyaratkan bahwa komputasi ilmiah di masa depan tidak lagi harus bergantung pada unit operasi presisi tunggal tertentu.
Abstrak(Abstract)
Pandangan konvensional di HPC menganggap native hardware FP64 silicon sebagai fondasi ilmiah yang tidak dapat direduksi dari komputasi ilmiah, yaitu “cawan suci” simulasi double-precision. Namun, makalah ini berargumen bahwa pandangan tersebut salah. Pada GPU yang dioptimalkan untuk AI dari generasi B300 dan seterusnya, dengan menggabungkan throughput tensor FP8 yang melimpah dan Ozaki Scheme II berbasis Chinese Remainder Theorem, eksekusi setingkat memory roof dengan akurasi FP64 penuh dapat dipulihkan di seluruh spektrum kernel HPC yang baku. NVIDIA Blackwell Ultra(B300) menurunkan native FP64 hingga sekitar 1.3 TFLOPS, sebuah kemunduran 31x dibanding B200, sehingga bahkan kernel yang dibatasi memori(SpMV, GEMV, stencil) pun berubah menjadi dibatasi komputasi. Kami menyajikan empat kontribusi. Pertama, kami mengusulkan model analitis terpadu, Tensor-Memory Equilibrium(TME), yang menambahkan pengali komputasi α, pengali bandwidth β, dan latensi rekonstruksi γ ke Roofline. Kedua, kami mengungkap bahwa fusi tingkat register adalah mekanisme yang mendorong β → 1, sehingga emulasi pada dasarnya menjadi gratis di balik memory wall. Ketiga, kami memproyeksikan bahwa Ozaki II mengangkat FP64 emulasi dari batas bawah native sekitar 1 TFLOPS menjadi sekitar 500 TFLOPS pada B300 dan sekitar 400 TFLOPS pada Rubin R200; di rezim yang dibatasi komputasi, ini melampaui batas atas native FP64 milik B200 lebih dari satu orde magnitudo, dan di rezim yang dibatasi bandwidth, ia menyamai memory roof. Keempat, dengan H100 sebagai baseline, Ozaki II menunjukkan performa yang setara atau lebih baik daripada H100 pada semua workload yang diteliti, sementara native FP64 pada B300 menyebabkan kemunduran hingga 50x. Jika digabungkan dengan analisis FFT pada makalah pendamping Part(2) yang dilaporkan bersama (rekonstruksi fixed-point Kulisch pada pipe INT32 yang masih tersisa) dan reduksi FP32+Kahan, semua kelas kernel yang disurvei pada B300 mencapai memory roof dengan FP64 penuh. Bukti ini mendukung klaim pada judul. Artinya, FP8 saja, dengan jalur pelarian Ozaki II dan Kulisch, sudah cukup untuk HPC produksi; native FP64 silicon tidak lagi menjadi cawan suci seperti yang selama ini diyakini.
Conventional HPC dogma holds that native hardware FP64 silicon is the irreducible foundation of scientific computing -- the "holy grail" of double-precision simulation. This paper argues the dogma is wrong: on AI-optimised GPUs of the B300 generation and beyond, abundant FP8 tensor throughput combined with the Chinese Remainder Theorem-based Ozaki Scheme II recovers memory-roof execution at full FP64 accuracy across the canonical HPC kernel spectrum. NVIDIA's Blackwell Ultra (B300) collapses native FP64 to ~1.3 TFLOPS -- a 31x regression from the B200 -- rendering even memory-bound kernels (SpMV, GEMV, stencils) compute-bound. We make four contributions. First, a unified analytic model, the Tensor-Memory Equilibrium (TME) model, augmenting the Roofline with a compute multiplier alpha, a bandwidth multiplier beta, and a reconstruction latency gamma. Second, we identify register-level fusion as the mechanism driving beta -> 1, making emulation essentially free behind the memory wall. Third, we project that Ozaki II vaults emulated FP64 from the ~1 TFLOPS native floor to ~500 TFLOPS (B300) and ~400 TFLOPS (Rubin R200), exceeding even B200's native FP64 ceiling by over an order of magnitude in the compute-bound regime while matching the memory roof in the bandwidth-bound regime. Fourth, against an H100 baseline, Ozaki II matches or exceeds H100 on every workload studied, versus the up-to-50x regression that B300 native FP64 imposes. Combined with a companion FFT analysis (Kulisch fixed-point reconstruction on the surviving INT32 pipe) and FP32+Kahan reductions reported in the companion Part(2) paper, every surveyed kernel class on B300 reaches the memory roof at full FP64. The evidence supports the title's claim: FP8, with Ozaki II and Kulisch escape routes, is all one needs for production HPC; native FP64 silicon is no longer the holy grail it has been taken to be.
Tautan makalah
https://arxiv.org/abs/2606.06510
Batasan dan peluang AI reviewer: studi yang meninjau review makalah keluarga Nature oleh 45 ilmuwan ahli / On the limits and opportunities of AI reviewers: Reviewing the reviews of Nature-family papers with 45 expert scientists
Pengantar makalah
Seiring reviewer kecerdasan buatan (AI) makin banyak diperkenalkan ke dalam proses telaah paper ilmiah, keterbatasan pendekatan yang menilai kinerjanya hanya dari kesesuaian keputusan akhir menjadi semakin jelas. Pada praktiknya, kualitas penilaian sangat dipengaruhi oleh seberapa akurat kritik individual yang ditinggalkan reviewer, seberapa penting masalah yang ditunjuk, dan apakah bukti yang mendukung klaim tersebut memadai, sehingga para penulis berupaya menyingkap secara presisi kemampuan nyata dan keterbatasan reviewer AI melalui evaluasi pada level mikro semacam ini. Untuk itu, mereka merancang studi anotasi skala besar yang melibatkan 45 ilmuwan ahli dari bidang fisika, biologi, dan ilmu kesehatan, lalu meminta mereka menilai masing-masing 2.960 kritik individual yang ditulis manusia dan AI terhadap 82 paper keluarga Nature. Setiap kritik dievaluasi berdasarkan tiga sumbu: correctness (akurasi), significance (kepentingan), dan sufficiency of evidence (kecukupan bukti), dan melalui total 469 jam peninjauan, mereka dapat menganalisis secara berlapis apa yang benar-benar dikerjakan dengan baik oleh reviewer AI dan di mana ia gagal. Metodologi ini bermakna besar karena melampaui sekadar pertanyaan “apakah AI mencapai kesimpulan yang mirip dengan manusia”, dan menunjukkan secara konkret jenis masalah apa yang lebih baik ditangkap, serta dalam konteks apa ia justru membuat penilaian yang berlebihan atau tidak akurat. Hasil kuantitatif menunjukkan bahwa reviewer AI saat ini sama sekali tidak sekadar menjadi alat bantu yang dangkal. Sebagai contoh, agen review berbasis GPT-5.2 mencatat skor lebih tinggi dibanding reviewer manusia dengan penilaian tertinggi untuk tiap paper pada metrik gabungan tiga sumbu evaluasi, sementara reviewer AI lain termasuk Gemini 3.0 Pro dan Claude Opus 4.5 juga melampaui reviewer manusia dengan penilaian terendah di semua sumbu. Lebih jauh lagi, kritik akurat yang diajukan reviewer AI lebih sering dinilai penting dan didukung bukti yang memadai, dan karena berhasil menangkap secara baru 26% isu yang tidak ditunjuk manusia, skalabilitas cakupan deteksinya juga terkonfirmasi. Namun pada saat yang sama, reviewer AI menunjukkan kecenderungan kuat untuk mengulang kritik yang sangat mirip satu sama lain, sehingga tingkat duplikasinya jauh lebih tinggi daripada manusia, dan juga menampakkan kelemahan berulang seperti kurangnya pengetahuan tacit pada subbidang tertentu, keterbatasan dalam mengelola konteks panjang, serta kecenderungan terlalu kritis terhadap persoalan kecil. Contoh kualitatif dalam lampiran menunjukkan bahwa kelemahan ini bukan sekadar jawaban salah, melainkan terkait dengan masalah struktural seperti salah membaca praktik spesifik bidang, kesalahan konteks temporal, tuntutan berlebihan tanpa mempertimbangkan kemungkinan perbaikan, dan luput melihat ketidaksesuaian antara kode dan isi naskah. Pada akhirnya, studi ini dengan meyakinkan menunjukkan bahwa reviewer AI lebih menjanjikan sebagai pelengkap yang dapat dengan cepat mendeteksi masalah dalam cakupan lebih luas dan melakukan pemeriksaan terperinci, alih-alih sebagai pengganti penelaah manusia, serta memberikan dasar penting untuk mendefinisikan ulang pembagian peran antara manusia dan AI dalam telaah ilmiah ke depan.
Abstrak(Abstract)
Seiring peningkatan kemampuan AI, reviewer AI mulai diterapkan dalam peer review ilmiah, tetapi kemampuan dan kredibilitasnya masih dipertanyakan. Banyak ilmuwan melihatnya hanya sebagai sistem probabilistik tanpa keahlian untuk mengevaluasi riset, sementara peneliti lain menilai kesiapan mereka secara lebih optimistis tanpa bukti konkret. Memahami apa yang dikerjakan dengan baik oleh reviewer AI, di mana kekurangannya, dan tantangan apa yang masih tersisa adalah hal yang esensial. Namun, evaluasi reviewer AI yang ada sejauh ini terutama berfokus pada apakah putusan mereka selaras dengan putusan manusia (misalnya: keselarasan skor, prediksi penerimaan), dan itu tidak cukup untuk mengungkap kemampuan serta batasannya. Dalam paper ini, kami menutup kesenjangan tersebut melalui studi anotasi ahli berskala besar. Sebanyak 45 ilmuwan domain di bidang ilmu fisika, ilmu hayati, dan ilmu kesehatan menghabiskan 469 jam untuk menilai 2.960 kritik—masing-masing menargetkan satu aspek spesifik dari sebuah paper—dari review yang ditulis manusia dan dihasilkan AI atas 82 paper keluarga Nature, dari sisi akurasi, kepentingan, dan kecukupan bukti. Pada metrik gabungan tiga dimensi, agen review yang ditenagai GPT-5.2 melampaui reviewer manusia dengan penilaian tertinggi pada tiap paper (60.0% berbanding 48.2%, p = 0.009), sementara semua reviewer AI, termasuk Gemini 3.0 Pro dan Claude Opus 4.5, menunjukkan kinerja lebih tinggi daripada manusia dengan penilaian terendah di setiap dimensi. Selain itu, kritik akurat dari reviewer AI lebih sering dinilai penting dan memiliki bukti yang cukup, serta mengungkap tambahan 26% isu unik yang tidak diajukan manusia. Namun, tumpang tindih antarreviewer AI jauh lebih besar dibanding manusia (21% vs. 3% untuk pasangan lintas-reviewer), dan mereka juga menunjukkan 16 kelemahan berulang yang tidak dimiliki manusia, seperti keterbatasan pengetahuan subbidang, kurangnya kemampuan mengelola konteks panjang di beberapa file, dan sikap yang terlalu kritis terhadap masalah kecil. Secara keseluruhan, hasil kami menempatkan reviewer AI saat ini sebagai pelengkap, bukan pengganti, reviewer manusia.
With the advancement of AI capabilities, AI reviewers are beginning to be deployed in scientific peer review, yet their capability and credibility remain in question: many scientists simply view them as probabilistic systems without the expertise to evaluate research, while other researchers are more optimistic about their readiness without concrete evidence. Understanding what AI reviewers do well, where they fall short, and what challenges remain is essential. However, existing evaluations of AI reviewers have focused on whether their verdicts match human verdicts (e.g., score alignment, acceptance prediction), which is insufficient to characterize their capabilities and limits. In this paper, we close this gap through a large-scale expert annotation study, in which 45 domain scientists in Physical, Biological, and Health Sciences spent 469 hours rating 2,960 individual criticisms (each targeting one specific aspect of a paper) from human-written and AI-generated reviews of 82 Nature-family papers on correctness, significance, and sufficiency of evidence. On a composite of all three dimensions, a reviewing agent powered by GPT-5.2 scores above each paper's top-rated human reviewer (60.0% vs. 48.2%, p = 0.009), while all three AI reviewers (including Gemini 3.0 Pro and Claude Opus 4.5) exceed the lowest-rated human across every dimension. AI reviewers' accurate criticisms are also more often rated significant and well-evidenced, and surface a distinct 26% of issues no human raises. However, AI reviewers overlap far more than humans do (21% vs. 3% for cross-reviewer pairs), and exhibit 16 recurring weaknesses humans do not share, such as limited subfield knowledge, lack of long context management over multiple files, and overly critical stance on minor issues. Overall, our results position current AI reviewers as complements to, not substitutes for, human reviewers.
Tautan paper
https://arxiv.org/abs/2605.20668
Bacaan lanjutan
https://prometheus-eval.github.io/cmu-paper-reviewer/
https://github.com/prometheus-eval/cmu-paper-reviewer
https://huggingface.co/datasets/prometheus-eval/peerreview-bench
LiveBrowseComp: Apakah agen pencarian benar-benar mencari, atau hanya memverifikasi apa yang sudah mereka ketahui? / LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?
Pengenalan paper
Agen pencarian berbasis model bahasa besar (Large Language Model, LLM) menarik perhatian karena kemampuannya menjelajahi web eksternal untuk menemukan fakta terbaru, tetapi penelitian ini berangkat dari kesadaran bahwa dalam praktiknya mereka sering kali tidak menemukan informasi baru, melainkan sekadar mengonfirmasi pengetahuan intrinsik yang sudah tertanam dengan bantuan web. Para penulis mendefinisikan fenomena ini sebagai ketergantungan pada pengetahuan intrinsik (Intrinsic Knowledge Dependence, IKD), dan merancang analisis dari tiga sudut pandang untuk mendiagnosis secara presisi sejauh mana alat pencarian benar-benar memperluas penalaran agen. Pertama, mereka mengukur seberapa banyak model dapat menjawab dalam pengaturan closed-book ketika alat dihapus sepenuhnya, untuk memeriksa sejauh mana benchmark yang ada sejak awal sudah tercakup dalam pengetahuan internal model. Kedua, mereka mengizinkan pencarian tetapi menghapus dokumen bukti yang mendukung jawaban benar, guna melihat apakah agen benar-benar memanfaatkan bukti eksternal atau hanya bergantung pada konfirmasi hipotesis yang sudah lebih dulu muncul. Ketiga, mereka melacak lintasan pencarian dan mengklasifikasikan apakah kueri berawal dari hipotesis yang dihasilkan di dalam model atau dari petunjuk yang diperoleh dari hasil pencarian, sehingga dapat membedakan apakah pencarian merupakan proses penemuan (discovery) atau verifikasi (verification). Metodologi ini bermakna karena melampaui sekadar perbandingan akurasi jawaban dan membedah mekanisme kerja nyata agen pencarian.
Hasil analisis dengan jelas menunjukkan bahwa benchmark pencarian yang ada dapat mencampuradukkan kemampuan mencari dengan konfirmasi ulang berbasis memori. Beberapa model mampu menjawab hingga 44,5% pertanyaan BrowseComp tanpa alat sama sekali, lebih dari setengah kueri pencarian dimulai dari hipotesis yang dihasilkan secara internal oleh model alih-alih dari hasil pencarian, dan ketika bukti yang mendukung jawaban benar dihapus, performanya justru lebih rendah daripada acuan closed-book. Ini menunjukkan bahwa agen pencarian memiliki kecenderungan kuat untuk memverifikasi apa yang sudah mereka ketahui melalui pencarian, alih-alih menemukan fakta baru dari web. Untuk mengatasi masalah ini, para penulis mengusulkan benchmark deep-search baru bernama LiveBrowseComp. LiveBrowseComp terdiri dari 335 pertanyaan yang ditulis manusia dan bergantung pada fakta yang dipublikasikan dalam 90 hari terakhir pada saat benchmark dibangun. Benchmark ini dibuat berdasarkan enam sumber yang terus diperbarui, yaitu GDELT, TMDB, RAWG, CVE/NVD, SportsDB, dan USGS, sehingga dirancang agar tidak mudah dipecahkan oleh pengetahuan awal model yang sudah ada. Selain itu, peristiwa yang dikenal luas secara global dikecualikan untuk mengurangi kemungkinan bahwa sekadar ingatan atau tebakan berbasis pengetahuan umum dapat menghasilkan jawaban benar. Hasilnya, semua agen yang dievaluasi mencatat akurasi closed-book di bawah 2%, skor dengan pencarian juga turun 25–40 poin dibanding BrowseComp, dan peringkat model sebelumnya tidak lagi dapat memprediksi performa secara stabil. Pada akhirnya, penelitian ini secara meyakinkan menegaskan bahwa saat menilai performa agen pencarian, yang harus dilihat bukanlah “seberapa baik mereka mengonfirmasi hal yang sudah diketahui”, melainkan “seberapa jauh mereka benar-benar dapat menemukan fakta yang belum diketahui melampaui batas pengetahuan saat ini”.
Abstrak(Abstract)
Apakah agen pencarian berbasis model bahasa besar (LLM) benar-benar melakukan pencarian, atau menggunakan web untuk memverifikasi apa yang sudah mereka ketahui? Kami menelaah pertanyaan ini pada BrowseComp melalui tiga metrik diagnostik. Analisis kami mengungkap ketergantungan pada pengetahuan intrinsik (Intrinsic Knowledge Dependence, IKD). Artinya, bahkan ketika memiliki akses ke alat, agen sering kali bergantung pada pengetahuan intrinsik—informasi yang sudah terenkode dalam model sebelum retrieval—alih-alih pada bukti eksternal yang diperoleh melalui pencarian. Agen menjawab hingga 44,5% pertanyaan BrowseComp tanpa alat, menghasilkan lebih dari setengah kueri pencarian dari hipotesis yang diproduksi secara internal alih-alih dari petunjuk yang diperoleh lewat pencarian, dan menunjukkan performa yang lebih buruk daripada baseline closed-book ketika bukti pendukung jawaban dihapus. Hasil ini menunjukkan bahwa benchmark pencarian statis dapat memberi penghargaan pada verifikasi berbasis memori alih-alih penemuan yang digerakkan bukti, sehingga mencampuradukkan apa yang sudah diketahui agen dengan apa yang benar-benar dapat mereka temukan.
Selanjutnya, kami memperkenalkan LiveBrowseComp, benchmark deep-search yang dirancang untuk mengevaluasi agen melampaui cakupan pengetahuan intrinsik. Benchmark ini terdiri dari 335 pertanyaan yang ditulis manusia, dengan jawaban yang bergantung pada fakta yang dipublikasikan dalam 90 hari sebelum benchmark dibangun. Pertanyaan diambil dari 6 sumber yang diperbarui, dan difilter untuk mengecualikan peristiwa yang dikenal luas secara global. Di LiveBrowseComp, semua agen yang dievaluasi mencatat akurasi closed-book di bawah 2%, skor dengan augmentasi pencarian turun 25–40 poin dibanding BrowseComp, dan peringkat model sebelumnya tidak lagi dapat memprediksi performa secara andal. LiveBrowseComp tersedia di https://huggingface.co/datasets/Forival/LiveBrowseComp.
Are LLM-based search agents genuinely searching, or using the web to verify what they already know? We study this question on BrowseComp with three diagnostics. Our analysis reveals Intrinsic Knowledge Dependence (IKD): even with tool access, agents often rely on intrinsic knowledge -- information encoded in the model before retrieval -- rather than on external evidence. Agents answer up to 44.5% of BrowseComp questions without tools, generate more than half of their search queries from internally produced hypotheses rather than retrieved leads, and perform worse than closed-book baselines when answer-supporting evidence is removed. These results suggest that static search benchmarks can reward memory-backed verification rather than evidence-driven discovery, conflating what agents already know with what they can find. We then introduce LiveBrowseComp, a deep-search benchmark designed to evaluate agents beyond intrinsic coverage. It contains 335 human-authored questions whose answers depend on facts published within the 90 days preceding benchmark construction, drawn from six updated sources and filtered to exclude globally salient events. On LiveBrowseComp, all evaluated agents fall below 2% closed-book accuracy, search-augmented scores drop by 25-40 points relative to BrowseComp, and prior model rankings no longer reliably predict performance. LiveBrowseComp is available at https://huggingface.co/datasets/Forival/LiveBrowseComp.
Tautan paper
https://arxiv.org/abs/2605.28721
Baca lebih lanjut
https://huggingface.co/datasets/Forival/LiveBrowseComp
Information bottleneck untuk mempelajari phase space dinamika dari data eksperimen berdimensi tinggi / Information bottleneck for learning the phase space of dynamics from high-dimensional experimental data
Pengenalan paper
Masalah menemukan variabel keadaan yang mengendalikan dinamika sebenarnya dari suatu sistem dari observasi video berdimensi tinggi atau deret waktu telah lama dianggap sebagai tantangan yang sangat penting di fisika, biologi, dan riset sistem kompleks secara luas. Nilai observasi itu sendiri sering kali mengandung banyak noise dan informasi redundan, tetapi di baliknya kerap terdapat struktur ruang fase (phase space) berdimensi relatif rendah, sehingga kuncinya bukan merekonstruksi observasi apa adanya, melainkan menemukan koordinat laten yang paling baik menjelaskan dinamika tersebut. Berdasarkan sudut pandang ini, para penulis mengusulkan DySIB (Dynamical Symmetric Information Bottleneck), yang mempelajari representasi berdimensi rendah dengan cara memaksimalkan predictive mutual information antara jendela observasi masa lalu dan masa depan sekaligus menekan kompleksitas representasi laten. Ciri penting pendekatan ini adalah, berbeda dari autoencoder yang secara langsung meminimalkan galat rekonstruksi, pembelajaran dilakukan hanya di ruang laten tanpa memulihkan video masukan, sehingga detail variasi yang tidak relevan dengan prediksi dinamika dapat dibuang secara tegas.
Metodologi DySIB memperluas prinsip Information Bottleneck ke masalah pembelajaran dinamika, dengan rancangan agar representasi laten tidak sekadar menjadi vektor terkompresi, melainkan berperan mendekati sufficient statistic yang mampu memprediksi masa depan dengan baik. Untuk itu, metode ini mengambil struktur yang memperlakukan masa lalu dan masa depan secara simetris, memperkirakan informasi prediktif menggunakan batas bawah InfoNCE, dan mengendalikan kompleksitas representasi melalui prior Gaussian. Selain itu, dengan memakai time-delay embedding dan shared encoder untuk memetakan jendela masa lalu dan masa depan ke acuan geometris yang sama, keterbandingan dan keterjelasan interpretasi di ruang laten menjadi lebih tinggi. Desain ini berbeda dari model prediktif konvensional karena fokusnya bukan pada pembuatan frame masa depan semata, melainkan pada pembelajaran sistem koordinat yang memuat struktur esensial dari dinamika.
Validasi empiris dilakukan pada data video eksperimen physical pendulum, yang merupakan medan uji ideal karena sistem ini sudah memiliki ruang keadaan nyata yang diketahui sehingga kesesuaian koordinat laten yang dipelajari dapat dievaluasi secara ketat. Hasilnya, DySIB secara konsisten memilih dimensi laten dan panjang jendela waktu yang sesuai dengan data, lalu memulihkan representasi 2 dimensi yang sejalan dengan derajat kebebasan nyata pendulum, dan koordinat yang dipelajari berkorespondensi secara mulus dengan sudut dan kecepatan sudut. Lebih jauh, representasi ini juga mereproduksi struktur topologi berbentuk cincin yang membedakan titik kesetimbangan stabil, saddle yang tidak stabil, separatrix, serta rotasi dan osilasi, menunjukkan bahwa metode ini menangkap dimensi, topologi, dan struktur geometris sekaligus, bukan sekadar kemiripan visual. Fakta bahwa pemulihan seperti ini tetap dimungkinkan bahkan dari video beresolusi kecil mendukung efektivitas DySIB dalam membuang detail observasi yang tidak perlu dan hanya mengekstrak informasi yang penting secara dinamis.
Makna penting riset ini terletak pada penunjukannya bahwa koordinat dinamika yang dapat diinterpretasikan dapat ditemukan langsung dari observasi berdimensi tinggi. Khususnya, karena konsep variabel keadaan, variabel efektif, dan order parameter yang telah lama digunakan di fisika dapat direkonstruksi kembali secara berbasis data, DySIB dapat dipandang sebagai jembatan metodologis yang menghubungkan fisika teoretis tradisional dan pembelajaran representasi modern. Pada saat yang sama, studi ini juga dengan jelas menampakkan keterbatasan seperti nonkeunikan representasi laten, gauge freedom, dan kemungkinan perluasan ke sistem nonlinier yang lebih kompleks, serta menyisakan ruang untuk generalisasi di masa depan terhadap noise kuat, sistem chaos, dan sistem multiskala. Meski demikian, paper ini secara eksperimental membuktikan bahwa hanya dengan informasi prediktif pun koordinat ruang fase nyata dapat dipulihkan, sehingga membuka jalur riset baru yang menghubungkan observasi mentah dengan persamaan gerak yang dapat diinterpretasikan.
Abstrak(Abstract)
Mengidentifikasi variabel keadaan dinamis suatu sistem dari observasi berdimensi tinggi merupakan masalah inti di seluruh ilmu fisika. Tantangannya adalah bahwa variabel keadaan tidak dapat diamati secara langsung dan harus diinferensikan dari data mentah berdimensi tinggi tanpa supervisi. Di sini, kami memperkenalkan DySIB (Dynamical Symmetric Information Bottleneck) sebagai metode untuk mempelajari representasi berdimensi rendah dari data deret waktu dengan memaksimalkan predictive mutual information antara jendela observasi masa lalu dan masa depan sambil memberi penalti pada kompleksitas representasi. Fungsi objektif ini sepenuhnya bekerja di ruang laten dan tidak memerlukan rekonstruksi observasi. Kami menerapkan DySIB pada dataset video eksperimental physical pendulum, di mana ruang keadaan dasarnya diketahui. Metode ini, dengan hiperparameter arsitektur pembelajaran yang ditetapkan secara self-consistent oleh data, memulihkan representasi 2 dimensi yang sesuai dengan dimensi, topologi, dan geometri ruang fase pendulum, dengan koordinat yang dipelajari selaras secara mulus dengan sudut kanonik dan kecepatan sudut. Hasil ini menunjukkan bahwa, pada sistem eksperimen yang telah terkarakterisasi dengan baik, informasi prediktif di ruang laten dapat digunakan untuk memulihkan koordinat dinamis yang dapat diinterpretasikan secara langsung dari data berdimensi tinggi.
Identifying the dynamical state variables of a system from high-dimensional observations is a central problem across physical sciences. The challenge is that the state variables are not directly observable and must be inferred from raw high-dimensional data without supervision. Here we introduce DySIB (Dynamical Symmetric Information Bottleneck) as a method to learn low-dimensional representations of time-series data by maximizing predictive mutual information between past and future observation windows while penalizing representation complexity. This objective operates entirely in latent space and avoids reconstruction of the observations. We apply DySIB to an experimental video dataset of a physical pendulum, where the underlying state space is known. The method, with hyperparameters of the learning architecture set self-consistently by the data, recovers a two-dimensional representation that matches the dimensionality, topology, and geometry of the pendulum phase space, with the learned coordinates aligning smoothly with the canonical angle and angular velocity. These results demonstrate, on a well-characterized experimental system, that predictive information in latent space can be used to recover interpretable dynamical coordinates directly from high-dimensional data.
Tautan paper
https://arxiv.org/abs/2604.24662
AutoScientists: Tim Agen yang Mengorganisasi Diri untuk Eksperimen Ilmiah Jangka Panjang / AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation
Pengenalan paper
Dalam eksperimen ilmiah jangka panjang, siklus menetapkan hipotesis, merancang eksperimen, menjalankannya, lalu menyesuaikan arah kembali berdasarkan hasil akan terus berulang. AutoScientists memformalkan proses ini sebagai satu masalah eksplorasi iteratif dan mengusulkan sistem agen terdistribusi untuk menjalankannya. Berbeda dengan agen kecerdasan buatan yang ada, yang umumnya mengikuti satu lintasan riset tunggal atau hanya menjalankan tujuan tetap yang ditentukan perencana pusat, metode ini dirancang agar banyak agen membaca dan menulis shared state bersama sambil membentuk dan menyusun ulang tim secara mandiri. Ide utamanya adalah, alih-alih memberi instruksi secara terpusat, agen-agen secara otonom berkumpul di sekitar hipotesis yang menjanjikan sesuai cara bukti terakumulasi, meninjau usulan satu sama lain secara kritis sebelum menggunakan sumber daya eksperimen, serta membagikan keberhasilan dan kegagalan sekaligus untuk mengurangi eksplorasi berulang yang tidak perlu. Untuk itu, paper ini mendefinisikan masalah optimisasi untuk menemukan program yang memaksimalkan kinerja evaluasi dalam ruang eksplorasi berdasarkan deskripsi tugas, program awal, dataset pelatihan, dan metrik evaluasi, serta memperjelas kriteria evaluasi eksperimen jangka panjang dengan membedakan data pelatihan, data validasi, dan bila perlu cross-validation (CV). Formulasi masalah seperti ini penting karena memandang penemuan ilmiah bukan sebagai prediksi sekali jadi, melainkan sebagai proses riset di mana modifikasi dan verifikasi pada tingkat program terus terakumulasi.
Cara kerja AutoScientists terutama terdiri dari siklus antara tahap diskusi dan tahap eksekusi. Pada tahap diskusi, agen membahas hipotesis mana yang menjanjikan berdasarkan model champion yang saat ini menjadi kandidat terbaik, catatan eksperimen terdahulu, dan isi forum bersama; pada awalnya mereka mengusulkan beragam arah eksplorasi secara luas, lalu mengkritik ide satu sama lain untuk menemukan titik buta dalam ruang eksplorasi. Setelah itu, pada tahap eksekusi, tim yang terbentuk menjalankan eksperimen secara paralel, dan hasil tiap eksperimen dicatat dalam log eksperimen serta forum bersama agar tim lain bisa langsung merujuknya. Secara khusus, sistem ini memisahkan fungsi sehingga agen yang berperan sebagai analis menggali dan mengusulkan arah yang belum pernah dicoba, sementara agen yang berperan sebagai eksperimenter melakukan perubahan kode dan pelatihan yang sebenarnya, sehingga mengurangi bottleneck yang umum muncul dalam eksperimen panjang. Selain itu, eksperimen yang gagal disimpan dalam daftar terpisah agar arah yang sama tidak diulang, dan bila peningkatan kinerja mungkin hanya merupakan noise statistik, sistem akan memvalidasinya ulang dengan seed tambahan sebelum dipromosikan, sehingga peningkatan yang kebetulan tidak keliru dianggap sebagai kemajuan nyata.
Kekuatan terbesar pendekatan ini bukan sekadar menghasilkan lebih banyak ide, melainkan membangun secara sistematis struktur tempat pengetahuan eksperimen terakumulasi. Agen mempertahankan state internal dan memori sambil belajar dalam jangka panjang, menganalisis mekanisme dari modifikasi yang berhasil untuk menghubungkannya ke hipotesis lanjutan, dan bahkan menyimpan arah yang gagal sebagai aset pembelajaran bagi seluruh sistem. Hasilnya, AutoScientists tidak hanya menghasilkan program dengan kinerja terbaik sebagai keluaran riset, tetapi juga meninggalkan model card dan laporan hasil penelitian, sehingga reproduksibilitas dan interpretabilitas dapat terjamin sekaligus. Desain ini jelas membedakan dirinya dari pendekatan agen sebelumnya karena menyatukan adaptabilitas, paralelisme, dan pembelajaran dari kegagalan—semua yang penting dalam eksperimen ilmiah jangka panjang—ke dalam satu sistem. Dalam praktiknya, metode ini menunjukkan hasil yang lebih baik daripada agen sebelumnya pada machine learning biomedis, optimisasi pelatihan language model, dan prediksi fitness protein. Di BioML-Bench, metode ini mencapai persentil leaderboard rata-rata 74,4% berdasarkan 24 tugas dan hasil yang 8,33% lebih baik daripada agen tunggal terkuat. Selain itu, pada optimisasi pelatihan GPT, metode ini mencapai target validasi bits-per-byte 1,9 kali lebih cepat daripada Autoresearch, dan di ProteinGym menunjukkan peningkatan yang melampaui performa terbaik sebelumnya baik pada masalah pengikatan ACE2-Spike maupun pada keseluruhan 217 assay, sehingga membuktikan bahwa agen terdistribusi yang mengorganisasi diri dapat memberikan efek nyata pada eksplorasi ilmiah jangka panjang.
Abstrak(Abstract)
Riset ilmiah berlangsung melalui siklus iteratif pembentukan hipotesis, perancangan eksperimen, eksekusi, dan revisi. Agen AI dapat mengotomatiskan sebagian proses ini, tetapi pendekatan yang ada biasanya mengikuti satu lintasan riset atau dikoordinasikan melalui perencana terpusat dengan tujuan tetap. Akibatnya, pendekatan tersebut kesulitan mempertahankan eksplorasi paralel, beradaptasi saat bukti eksperimental berubah, atau mempertahankan pengetahuan tentang arah yang gagal dalam eksperimen jangka panjang. Kami memperkenalkan AutoScientists, tim agen AI terdesentralisasi untuk eksperimen ilmiah komputasional jangka panjang. Para agen menafsirkan status eksperimen bersama, mengatur diri menjadi tim di sekitar hipotesis yang menjanjikan, mengkritik proposal sebelum menggunakan sumber daya komputasi eksperimen, dan berbagi keberhasilan serta kegagalan untuk mengurangi eksplorasi yang redundan. Dengan anggaran eksperimen yang setara, AutoScientists menunjukkan peningkatan dibanding agen AI sebelumnya di machine learning biomedis, optimasi pelatihan language model, dan prediksi fitness protein. Pada BioML-Bench, yang mencakup pencitraan biomedis, rekayasa protein, single-cell omics, dan penemuan obat, AutoScientists mencapai persentil leaderboard rata-rata 74.4% di 24 tugas, meningkat +8.33% dibanding agen AI terkuat. Pada optimasi pelatihan GPT, AutoScientists mencapai target validation bits-per-byte 1.9x lebih cepat daripada Autoresearch dan terus menemukan peningkatan dari titik awal champion ketika pendekatan agen tunggal tidak menemukan apa pun (7 peningkatan yang diterima vs. 0). Pada prediksi fitness ProteinGym, AutoScientists menemukan metode untuk pengikatan ACE2-Spike yang meningkatkan Spearman correlation sebesar +12.5% dibanding model state-of-the-art saat ini. Ketika metode yang sama diterapkan tanpa modifikasi ke seluruh 217 assay ProteinGym, hasilnya meningkat +6.5% dalam Spearman correlation dibanding state of the art sebelumnya.
Riset ilmiah berlangsung melalui siklus iteratif pembentukan hipotesis, perancangan eksperimen, eksekusi, dan revisi. Agen AI dapat mengotomatiskan sebagian proses ini, tetapi pendekatan yang ada biasanya mengikuti satu lintasan riset atau dikoordinasikan melalui perencana terpusat dengan tujuan tetap. Akibatnya, pendekatan tersebut kesulitan mempertahankan eksplorasi paralel, beradaptasi saat bukti eksperimental berubah, atau mempertahankan pengetahuan tentang arah yang gagal dalam eksperimen jangka panjang. Kami memperkenalkan AutoScientists, tim agen AI terdesentralisasi untuk eksperimen ilmiah komputasional jangka panjang. Para agen menafsirkan status eksperimen bersama, mengatur diri menjadi tim di sekitar hipotesis yang menjanjikan, mengkritik proposal sebelum menggunakan sumber daya komputasi eksperimen, dan berbagi keberhasilan serta kegagalan untuk mengurangi eksplorasi yang redundan. Dengan anggaran eksperimen yang setara, AutoScientists meningkatkan hasil dibanding agen AI sebelumnya di machine learning biomedis, optimasi pelatihan language model, dan prediksi fitness protein. Pada BioML-Bench, yang mencakup pencitraan biomedis, rekayasa protein, single-cell omics, dan penemuan obat, AutoScientists mencapai persentil leaderboard rata-rata 74.4% di 24 tugas, meningkat +8.33% dibanding agen AI terkuat. Pada optimasi pelatihan GPT, AutoScientists mencapai target validation bits-per-byte 1.9x lebih cepat daripada Autoresearch dan terus menemukan peningkatan dari titik awal champion ketika pendekatan agen tunggal tidak menemukan apa pun (7 peningkatan yang diterima vs. 0). Pada prediksi fitness ProteinGym, AutoScientists menemukan metode untuk pengikatan ACE2-Spike yang meningkatkan Spearman correlation sebesar +12.5% dibanding model state-of-the-art saat ini. Ketika metode yang sama diterapkan tanpa modifikasi ke seluruh 217 assay ProteinGym, hasilnya meningkat +6.5% dalam Spearman correlation dibanding state of the art sebelumnya.
Tautan paper
https://arxiv.org/abs/2605.28655
Baca selengkapnya
https://autoscientists.openscientist.ai/
https://github.com/mims-harvard/AutoScientists
⚠️Iklan⚠️: 🔥Komunitas Pengguna PyTorch Korea🇰🇷 yang merangkum tulisan ini, apakah artikel ini bermanfaat bagi Anda? Jika Anda bergabung sebagai anggota, kami akan mengirimkan artikel-artikel utama lewat email💌! Anda juga bisa menerima notifikasi artikel baru melalui Telegram atau Slack/Discord/Teams/Dooray/GoogleChat dll.. :D
Belum ada komentar.