Menjalankan Autoresearch pada ide riset lama

(ykumar.me)

4 poin oleh GN⁺ 2026-03-24 | 1 komentar | Bagikan ke WhatsApp

Sistem Autoresearch adalah struktur loop optimisasi berbatasan di mana agen LLM berulang kali memodifikasi train.py untuk meningkatkan performa, menjalankan siklus otomatis dari penyusunan hipotesis hingga evaluasi
Eksperimen dijalankan dalam lingkungan sandbox berbasis kontainer untuk memblokir akses jaringan dan eksekusi kode arbitrer
Menggunakan dataset Ukiyo-eVG, pelatihan memanfaatkan sekitar 11.000 gambar cetak balok kayu Jepang beserta informasi anotasinya, dan dengan model berbasis CLIP berhasil mencapai Mean Rank 34.30 dan R@5 sekitar 53%
Peningkatan utama berasal dari pelonggaran parameter temperature (-113 Mean Rank) dan tuning hyperparameter (-30 Mean Rank), mencatat peningkatan performa 54% melalui 13 commit dari 42 eksperimen dalam satu hari
Agen LLM efektif di ruang pencarian yang didefinisikan dengan jelas, tetapi setelah masuk tahap perubahan struktur, ketidakstabilannya meningkat sehingga terlihat batasan untuk riset otonom penuh

Ide inti

Autoresearch adalah struktur loop optimisasi berbatasan yang berpusat pada agen LLM, di mana agen memodifikasi train.py sambil berulang kali meningkatkan metrik evaluasi
- Agen membaca instruksi di program.md, dan menggunakan scratchpad.md sebagai catatan kerja untuk merekam proses eksperimen
Pencarian terdiri dari beberapa fase, dimulai dari tuning hyperparameter, lalu perubahan struktur skala kecil, kemudian diperluas ke eksplorasi bebas dengan batasan minimal
Seluruh loop dirancang sebagai struktur siklik menetapkan hipotesis → memodifikasi kode → melatih → mengevaluasi → commit atau rollback → mengulang
Setiap eksperimen dibatasi agar selesai dalam sekitar 5 menit untuk mendorong iterasi cepat dan mencegah overfitting
Agen dapat memodifikasi train.py secara bebas dalam batas waktu yang ditentukan
Sandbox
- Untuk mencegah risiko eksekusi kode arbitrer, loop pelatihan dijalankan dalam lingkungan kontainer dan akses jaringan diblokir
- run.sh mengelola seluruh alur eksperimen, dan Claude Code hanya dapat memodifikasi train.py dan program.md
- Eksekusi Python langsung, instalasi pip, akses jaringan, git push, dan lainnya semuanya dibatasi
- Implementasi terkait dipublikasikan di repositori GitHub

Dataset

Karena tidak ada akses ke dataset X-ray medis yang digunakan dalam riset asli, digunakan dataset Ukiyo-eVG yang baru
- Mencakup sekitar 11.000 gambar cetak balok kayu Jepang dan anotasi frasa-bounding box
- Bounding box diubah menjadi heatmap Gaussian dan ditambahkan ke input model, menerapkan pendekatan yang mirip dengan mekanisme expert attention pada paper eCLIP asli
Heatmap membantu model fokus pada area tertentu

Pengaturan eksperimen dengan Claude Code

Claude Code meningkatkan kode riset lama ke lingkungan Python modern, lalu menulis pemuatan dataset baru dan scaffolding loop eksperimen
Ia juga menyiapkan pembagian cross-validation, logika evaluasi, dan ide awal di program.md
Mean Rank digunakan sebagai metrik evaluasi, dan Recall@K juga disertakan dalam laporan akhir
- Mean Rank dipakai untuk penilaian intuitif, tetapi disebutkan bahwa Median Rank yang lebih tahan terhadap outlier mungkin akan lebih tepat
Konfigurasi model: backbone CLIP adalah ViT-Small (22M) + DistilBERT (66M) + HeatmapProcessor, total sekitar 90M parameter
- Pelatihan: 800 langkah (sekitar 3 menit per eksperimen, berbasis RTX 4090)
- Evaluasi: pengukuran Mean Rank dan Recall@K pada test set berisi 1.000 gambar
- Performa dasar: Val Mean Rank 344.68, img→txt R@1 17.2%, txt→img R@1 16.5%

Hasil eksperimen

Dalam satu hari dilakukan total 42 eksperimen, dengan 13 commit dan 29 rollback
- Mean Rank turun dari 344.68 menjadi 157.43, atau membaik 54%
Saat pelatihan akhir dilakukan pada seluruh dataset, skor test justru lebih tinggi daripada skor validasi
- Ini menunjukkan bahwa eksperimen singkat 800 langkah berada dalam kondisi underfitting
Performa test akhir: Mean Rank 34.30, img→txt R@5 53.0%, txt→img R@5 51.4%

Poin peningkatan utama

Perbaikan temperature clamp (-113 Mean Rank)
- Parameter temperature yang dapat dipelajari di dalam kode sebelumnya dikunci di 2, lalu agen melonggarkan batasan ini dan performa meningkat tajam
- Ini menjadi efek tunggal terbesar dari seluruh peningkatan
Optuna++ (-30 Mean Rank)
- Peningkatan setelah itu terutama berasal dari tuning hyperparameter
- Penambahan dimensi proyeksi dan penyesuaian ulang learning rate memberikan peningkatan tambahan 30 poin
- Pekerjaan membosankan yang biasanya dilakukan manusia berulang kali dapat dijalankan agen dengan lebih cepat dan sistematis
Fase diminishing returns
- Mulai fase 4 (perubahan struktur), tingkat keberhasilan hipotesis LLM turun tajam
- Perubahan pada mekanisme attention atau percobaan ide berani (moonshot) sebagian besar gagal
- Pada tahap akhir eksplorasi, percobaan acak menjadi lebih sering
Pentingnya sandbox
- Claude Code kadang lupa batas izin dan mencoba pemanggilan bash yang keliru, atau menghentikan loop saat pelatihan masih menunggu, menunjukkan perilaku yang tidak stabil
- Masih ada batasan untuk eksekusi otonom penuh

Pengamatan penutup

Sepanjang proses, 90% awal berjalan mulus, sedangkan 10% terakhir memerlukan banyak intervensi
Agen LLM dapat melakukan riset ML secara efektif dalam ruang pencarian yang didefinisikan dengan jelas
Loop commit-rollback Autoresearch berguna sebagai strategi eksplorasi yang terstruktur
Namun, saat diperluas ke wilayah yang belum diketahui, loop optimisasi menjadi tidak stabil
Batasan yang hanya mengizinkan satu perubahan per eksperimen mungkin terlalu ketat untuk eksplorasi ide berskala besar
- Sebagai arah perbaikan ke depan, diusulkan penambahan tahap perencanaan atau penggunaan subagent
Setelah eksperimen selesai, kolaborasi dengan Claude Code pun berakhir dengan kembali ke rutinitas sehari-hari

Ucapan terima kasih

Dataset Ukiyo-eVG: mencakup sekitar 11K gambar cetak balok kayu Jepang dan anotasi frasa-bounding box
Autoresearch: berdasarkan ide asli dari Andrej Karpathy

1 komentar

GN⁺ 2026-03-24

Komentar Hacker News

Jika tautan utama lambat, disarankan mencoba versi archive.is
Saya sering memakai LLM untuk menelusuri riset lama atau memikirkan masalah dengan cara berbeda
90% hasilnya tidak cocok dengan domain saya, tetapi 10% sisanya cukup berguna
Namun, punya agen yang benar-benar mencoba semua yang direkomendasikan LLM terlalu mahal biayanya ($$$)
Daftar rekomendasinya juga sering berisi library niche yang sudah tidak dirawat
Di sisi lain, “konsultan ahli” di perusahaan juga sering memberi usulan yang sama-sama mengada-ada, jadi saya malah berharap agen saja yang menghadapi mereka
- Nilai agen ada pada kemampuannya untuk mengulangi eksperimen secara otomatis saat pengguna sedang istirahat
  Tapi ini hanya masuk akal jika satu kali pengujian berlangsung cepat. Dalam pekerjaan saya, satu tes butuh setengah hari, jadi sulit dijalankan semalaman
- Jadi penasaran Anda bekerja di domain apa
- Saya merasa LLM berguna untuk kalimat pendek yang malas saya ingat, atau bagian yang tidak masalah kalau salah
  Melihat orang menyiapkan hal seperti server MCP atau AGENTS.md justru terasa seperti bukti bahwa LLM tidak bekerja seperti yang diiklankan
  Kalau disetel dengan baik untuk workflow tertentu memang hebat, tetapi saya ragu apakah itu bisa diskalakan
  Tanpa pendanaan besar yang menopang pelatihan dan infrastruktur, apakah ini bisa menjadi model bisnis yang berkelanjutan?
- Bisa jadi masalahnya memang biaya. Saya memakai Claude Code secara ringan, dan bahkan di paket Max token saya hampir tidak pernah habis
Ungkapan “agen bertindak seperti algoritme optimasi hyperparameter” terasa menarik
Intinya adalah satu file system prompt bernama program.md yang mengulang alur “memperbaiki train.py → menjalankan pelatihan → evaluasi → mencatat hasil”
Sisanya hanyalah model ML acak
Memberi LLM kode yang sedang berjalan lalu mengulang perbaikan bug, pengukuran performa, dan evaluasi cakupan tes adalah pendekatan standar tim kami
Memakai model berbeda di setiap iterasi terasa bagus karena memberi sudut pandang baru
- Jadi penasaran apakah pendekatan ini bisa diterapkan untuk melatih LLM lokal yang dikhususkan untuk bahasa atau framework tertentu
Saya heran kenapa “Autoresearch” jadi seramai ini
Saya selalu mengira bottleneck di AI/ML adalah kualitas data atau sumber daya komputasi, jadi saya tidak yakin apakah ini memperbaiki hal itu
- Sebenarnya upaya seperti ini sudah ada sejak lama. Bidang AutoML adalah salah satu contohnya, tetapi dalam praktiknya tidak terlalu berhasil
  Ada juga pendekatan seperti optimasi Bayesian atau Gaussian Process, tetapi pada akhirnya random search justru lebih baik
  Bedanya, LLM bisa membaca literatur dan melakukan penalaran yang masuk akal
  Tidak sempurna, tetapi ada kemungkinan lebih baik daripada metode sebelumnya
- Bedanya, ini bisa melampaui tuning hyperparameter sederhana dan juga melakukan perubahan struktur nonparametrik
  Ini bukan konsep yang sepenuhnya baru, tetapi tampaknya harapannya agar tidak terlalu brute-force
- Ada juga teknik lama seperti “Swarm optimization”, tetapi LLM berbeda karena bisa mempelajari riset terdahulu dan berfokus pada sumbu yang penting
  Artinya, riset yang sudah pernah dilakukan seseorang bisa dimanfaatkan oleh LLM
- Saya tidak setuju dengan pernyataan bahwa “data atau komputasi adalah bottleneck”
  Inti ML adalah menemukan pemetaan fungsi yang lebih baik untuk input X yang sama
  Ini tidak selesai hanya dengan menambah komputasi
- Pada akhirnya, Autoresearch adalah cara untuk mendelegasikan proses berpikir itu sendiri ke LLM
Pada akhirnya ini memang berhasil. LLM menemukan bug dan melakukan optimasi
- Tetapi dalam praktiknya, sebagian besar perbaikannya datang dari perbaikan bug + tuning Optuna
  Hal seperti ini juga bisa dilakukan cepat dengan Claude Code
  Nilai sebenarnya dari Autoresearch tampaknya ada pada eksplorasi arsitektur
  Penasaran apakah ada yang sudah pernah memakainya untuk exploratory modeling
Setelah melihat log commit (tautan GitHub), ternyata sebagian besar isinya adalah tuning hyperparameter
Kalau begitu, biaya token ($$$) terasa sayang
- Akan efisien kalau Autoresearch menambahkan tahap estimasi biaya dan pengurutan, lalu dieksekusi setelah ditinjau manusia
  Ini juga bisa ditingkatkan dengan memberi umpan balik biaya lewat adapter LoRa
- Sebenarnya ini juga bisa dilakukan dengan tool open source seperti Optuna atau skopt tanpa GPU
Di makalah aslinya dipakai data X-ray medis, tetapi karena tidak punya akses, katanya diganti dengan Ukiyo-eVG (11K cetak balok kayu Jepang)
Ini terlihat seperti perpindahan yang aneh. Ada banyak data citra medis gratis juga di Cancer Imaging Archive
- Benar juga. Hanya saja saya agak enggan menyerahkan data medis ke agen, dan saya juga ingin bereksperimen dengan transfer domain
Saya memang berharap ada yang melakukan eksperimen seperti ini, jadi senang ada yang benar-benar mencobanya
Bagian “saya lelah menunggu pelatihan selesai lalu menutup percakapannya” itu lucu
Terima kasih sudah membagikan hasilnya
- Terima kasih, senang mendengar Anda menikmatinya
Ini lebih mirip trial and error yang terstruktur daripada riset yang otomatis
Pada akhirnya yang paling penting adalah kualitas metrik evaluasi. Kalau itu lemah, hasilnya hanya mengoptimalkan ke arah yang salah dengan lebih cepat
- Merancang fitness function yang baik memang selalu sulit, dulu maupun sekarang
- Ada juga pendapat bahwa bukankah itu memang inti dari metodologi ilmiah?

Menjalankan Autoresearch pada ide riset lama

Ide inti

Sandbox

Dataset

Pengaturan eksperimen dengan Claude Code

Hasil eksperimen

Poin peningkatan utama

Perbaikan temperature clamp (-113 Mean Rank)

Optuna++ (-30 Mean Rank)

Fase diminishing returns

Pentingnya sandbox

Pengamatan penutup

Ucapan terima kasih

Bacaan terkait

1 komentar

Komentar Hacker News