4 poin oleh GN⁺ 28 hari lalu | 1 komentar | Bagikan ke WhatsApp
  • Sistem Autoresearch adalah struktur loop optimisasi berbatasan di mana agen LLM berulang kali memodifikasi train.py untuk meningkatkan performa, menjalankan siklus otomatis dari penyusunan hipotesis hingga evaluasi
  • Eksperimen dijalankan dalam lingkungan sandbox berbasis kontainer untuk memblokir akses jaringan dan eksekusi kode arbitrer
  • Menggunakan dataset Ukiyo-eVG, pelatihan memanfaatkan sekitar 11.000 gambar cetak balok kayu Jepang beserta informasi anotasinya, dan dengan model berbasis CLIP berhasil mencapai Mean Rank 34.30 dan R@5 sekitar 53%
  • Peningkatan utama berasal dari pelonggaran parameter temperature (-113 Mean Rank) dan tuning hyperparameter (-30 Mean Rank), mencatat peningkatan performa 54% melalui 13 commit dari 42 eksperimen dalam satu hari
  • Agen LLM efektif di ruang pencarian yang didefinisikan dengan jelas, tetapi setelah masuk tahap perubahan struktur, ketidakstabilannya meningkat sehingga terlihat batasan untuk riset otonom penuh

Ide inti

  • Autoresearch adalah struktur loop optimisasi berbatasan yang berpusat pada agen LLM, di mana agen memodifikasi train.py sambil berulang kali meningkatkan metrik evaluasi
    • Agen membaca instruksi di program.md, dan menggunakan scratchpad.md sebagai catatan kerja untuk merekam proses eksperimen
  • Pencarian terdiri dari beberapa fase, dimulai dari tuning hyperparameter, lalu perubahan struktur skala kecil, kemudian diperluas ke eksplorasi bebas dengan batasan minimal
  • Seluruh loop dirancang sebagai struktur siklik menetapkan hipotesis → memodifikasi kode → melatih → mengevaluasi → commit atau rollback → mengulang
  • Setiap eksperimen dibatasi agar selesai dalam sekitar 5 menit untuk mendorong iterasi cepat dan mencegah overfitting
  • Agen dapat memodifikasi train.py secara bebas dalam batas waktu yang ditentukan
  • Sandbox

    • Untuk mencegah risiko eksekusi kode arbitrer, loop pelatihan dijalankan dalam lingkungan kontainer dan akses jaringan diblokir
    • run.sh mengelola seluruh alur eksperimen, dan Claude Code hanya dapat memodifikasi train.py dan program.md
    • Eksekusi Python langsung, instalasi pip, akses jaringan, git push, dan lainnya semuanya dibatasi
    • Implementasi terkait dipublikasikan di repositori GitHub

Dataset

  • Karena tidak ada akses ke dataset X-ray medis yang digunakan dalam riset asli, digunakan dataset Ukiyo-eVG yang baru
    • Mencakup sekitar 11.000 gambar cetak balok kayu Jepang dan anotasi frasa-bounding box
    • Bounding box diubah menjadi heatmap Gaussian dan ditambahkan ke input model, menerapkan pendekatan yang mirip dengan mekanisme expert attention pada paper eCLIP asli
  • Heatmap membantu model fokus pada area tertentu

Pengaturan eksperimen dengan Claude Code

  • Claude Code meningkatkan kode riset lama ke lingkungan Python modern, lalu menulis pemuatan dataset baru dan scaffolding loop eksperimen
  • Ia juga menyiapkan pembagian cross-validation, logika evaluasi, dan ide awal di program.md
  • Mean Rank digunakan sebagai metrik evaluasi, dan Recall@K juga disertakan dalam laporan akhir
    • Mean Rank dipakai untuk penilaian intuitif, tetapi disebutkan bahwa Median Rank yang lebih tahan terhadap outlier mungkin akan lebih tepat
  • Konfigurasi model: backbone CLIP adalah ViT-Small (22M) + DistilBERT (66M) + HeatmapProcessor, total sekitar 90M parameter
    • Pelatihan: 800 langkah (sekitar 3 menit per eksperimen, berbasis RTX 4090)
    • Evaluasi: pengukuran Mean Rank dan Recall@K pada test set berisi 1.000 gambar
    • Performa dasar: Val Mean Rank 344.68, img→txt R@1 17.2%, txt→img R@1 16.5%

Hasil eksperimen

  • Dalam satu hari dilakukan total 42 eksperimen, dengan 13 commit dan 29 rollback
    • Mean Rank turun dari 344.68 menjadi 157.43, atau membaik 54%
  • Saat pelatihan akhir dilakukan pada seluruh dataset, skor test justru lebih tinggi daripada skor validasi
    • Ini menunjukkan bahwa eksperimen singkat 800 langkah berada dalam kondisi underfitting
  • Performa test akhir: Mean Rank 34.30, img→txt R@5 53.0%, txt→img R@5 51.4%

Poin peningkatan utama

  • Perbaikan temperature clamp (-113 Mean Rank)

    • Parameter temperature yang dapat dipelajari di dalam kode sebelumnya dikunci di 2, lalu agen melonggarkan batasan ini dan performa meningkat tajam
    • Ini menjadi efek tunggal terbesar dari seluruh peningkatan
  • Optuna++ (-30 Mean Rank)

    • Peningkatan setelah itu terutama berasal dari tuning hyperparameter
    • Penambahan dimensi proyeksi dan penyesuaian ulang learning rate memberikan peningkatan tambahan 30 poin
    • Pekerjaan membosankan yang biasanya dilakukan manusia berulang kali dapat dijalankan agen dengan lebih cepat dan sistematis
  • Fase diminishing returns

    • Mulai fase 4 (perubahan struktur), tingkat keberhasilan hipotesis LLM turun tajam
    • Perubahan pada mekanisme attention atau percobaan ide berani (moonshot) sebagian besar gagal
    • Pada tahap akhir eksplorasi, percobaan acak menjadi lebih sering
  • Pentingnya sandbox

    • Claude Code kadang lupa batas izin dan mencoba pemanggilan bash yang keliru, atau menghentikan loop saat pelatihan masih menunggu, menunjukkan perilaku yang tidak stabil
    • Masih ada batasan untuk eksekusi otonom penuh

Pengamatan penutup

  • Sepanjang proses, 90% awal berjalan mulus, sedangkan 10% terakhir memerlukan banyak intervensi
  • Agen LLM dapat melakukan riset ML secara efektif dalam ruang pencarian yang didefinisikan dengan jelas
  • Loop commit-rollback Autoresearch berguna sebagai strategi eksplorasi yang terstruktur
  • Namun, saat diperluas ke wilayah yang belum diketahui, loop optimisasi menjadi tidak stabil
  • Batasan yang hanya mengizinkan satu perubahan per eksperimen mungkin terlalu ketat untuk eksplorasi ide berskala besar
    • Sebagai arah perbaikan ke depan, diusulkan penambahan tahap perencanaan atau penggunaan subagent
  • Setelah eksperimen selesai, kolaborasi dengan Claude Code pun berakhir dengan kembali ke rutinitas sehari-hari

Ucapan terima kasih

  • Dataset Ukiyo-eVG: mencakup sekitar 11K gambar cetak balok kayu Jepang dan anotasi frasa-bounding box
  • Autoresearch: berdasarkan ide asli dari Andrej Karpathy

1 komentar

 
GN⁺ 28 hari lalu
Komentar Hacker News
  • Jika tautan utama lambat, disarankan mencoba versi archive.is

  • Saya sering memakai LLM untuk menelusuri riset lama atau memikirkan masalah dengan cara berbeda
    90% hasilnya tidak cocok dengan domain saya, tetapi 10% sisanya cukup berguna
    Namun, punya agen yang benar-benar mencoba semua yang direkomendasikan LLM terlalu mahal biayanya ($$$)
    Daftar rekomendasinya juga sering berisi library niche yang sudah tidak dirawat
    Di sisi lain, “konsultan ahli” di perusahaan juga sering memberi usulan yang sama-sama mengada-ada, jadi saya malah berharap agen saja yang menghadapi mereka

    • Nilai agen ada pada kemampuannya untuk mengulangi eksperimen secara otomatis saat pengguna sedang istirahat
      Tapi ini hanya masuk akal jika satu kali pengujian berlangsung cepat. Dalam pekerjaan saya, satu tes butuh setengah hari, jadi sulit dijalankan semalaman
    • Jadi penasaran Anda bekerja di domain apa
    • Saya merasa LLM berguna untuk kalimat pendek yang malas saya ingat, atau bagian yang tidak masalah kalau salah
      Melihat orang menyiapkan hal seperti server MCP atau AGENTS.md justru terasa seperti bukti bahwa LLM tidak bekerja seperti yang diiklankan
      Kalau disetel dengan baik untuk workflow tertentu memang hebat, tetapi saya ragu apakah itu bisa diskalakan
      Tanpa pendanaan besar yang menopang pelatihan dan infrastruktur, apakah ini bisa menjadi model bisnis yang berkelanjutan?
    • Bisa jadi masalahnya memang biaya. Saya memakai Claude Code secara ringan, dan bahkan di paket Max token saya hampir tidak pernah habis
  • Ungkapan “agen bertindak seperti algoritme optimasi hyperparameter” terasa menarik
    Intinya adalah satu file system prompt bernama program.md yang mengulang alur “memperbaiki train.py → menjalankan pelatihan → evaluasi → mencatat hasil”
    Sisanya hanyalah model ML acak

  • Memberi LLM kode yang sedang berjalan lalu mengulang perbaikan bug, pengukuran performa, dan evaluasi cakupan tes adalah pendekatan standar tim kami
    Memakai model berbeda di setiap iterasi terasa bagus karena memberi sudut pandang baru

    • Jadi penasaran apakah pendekatan ini bisa diterapkan untuk melatih LLM lokal yang dikhususkan untuk bahasa atau framework tertentu
  • Saya heran kenapa “Autoresearch” jadi seramai ini
    Saya selalu mengira bottleneck di AI/ML adalah kualitas data atau sumber daya komputasi, jadi saya tidak yakin apakah ini memperbaiki hal itu

    • Sebenarnya upaya seperti ini sudah ada sejak lama. Bidang AutoML adalah salah satu contohnya, tetapi dalam praktiknya tidak terlalu berhasil
      Ada juga pendekatan seperti optimasi Bayesian atau Gaussian Process, tetapi pada akhirnya random search justru lebih baik
      Bedanya, LLM bisa membaca literatur dan melakukan penalaran yang masuk akal
      Tidak sempurna, tetapi ada kemungkinan lebih baik daripada metode sebelumnya
    • Bedanya, ini bisa melampaui tuning hyperparameter sederhana dan juga melakukan perubahan struktur nonparametrik
      Ini bukan konsep yang sepenuhnya baru, tetapi tampaknya harapannya agar tidak terlalu brute-force
    • Ada juga teknik lama seperti “Swarm optimization”, tetapi LLM berbeda karena bisa mempelajari riset terdahulu dan berfokus pada sumbu yang penting
      Artinya, riset yang sudah pernah dilakukan seseorang bisa dimanfaatkan oleh LLM
    • Saya tidak setuju dengan pernyataan bahwa “data atau komputasi adalah bottleneck”
      Inti ML adalah menemukan pemetaan fungsi yang lebih baik untuk input X yang sama
      Ini tidak selesai hanya dengan menambah komputasi
    • Pada akhirnya, Autoresearch adalah cara untuk mendelegasikan proses berpikir itu sendiri ke LLM
  • Pada akhirnya ini memang berhasil. LLM menemukan bug dan melakukan optimasi

    • Tetapi dalam praktiknya, sebagian besar perbaikannya datang dari perbaikan bug + tuning Optuna
      Hal seperti ini juga bisa dilakukan cepat dengan Claude Code
      Nilai sebenarnya dari Autoresearch tampaknya ada pada eksplorasi arsitektur
      Penasaran apakah ada yang sudah pernah memakainya untuk exploratory modeling
  • Setelah melihat log commit (tautan GitHub), ternyata sebagian besar isinya adalah tuning hyperparameter
    Kalau begitu, biaya token ($$$) terasa sayang

    • Akan efisien kalau Autoresearch menambahkan tahap estimasi biaya dan pengurutan, lalu dieksekusi setelah ditinjau manusia
      Ini juga bisa ditingkatkan dengan memberi umpan balik biaya lewat adapter LoRa
    • Sebenarnya ini juga bisa dilakukan dengan tool open source seperti Optuna atau skopt tanpa GPU
  • Di makalah aslinya dipakai data X-ray medis, tetapi karena tidak punya akses, katanya diganti dengan Ukiyo-eVG (11K cetak balok kayu Jepang)
    Ini terlihat seperti perpindahan yang aneh. Ada banyak data citra medis gratis juga di Cancer Imaging Archive

    • Benar juga. Hanya saja saya agak enggan menyerahkan data medis ke agen, dan saya juga ingin bereksperimen dengan transfer domain
  • Saya memang berharap ada yang melakukan eksperimen seperti ini, jadi senang ada yang benar-benar mencobanya
    Bagian “saya lelah menunggu pelatihan selesai lalu menutup percakapannya” itu lucu
    Terima kasih sudah membagikan hasilnya

    • Terima kasih, senang mendengar Anda menikmatinya
  • Ini lebih mirip trial and error yang terstruktur daripada riset yang otomatis
    Pada akhirnya yang paling penting adalah kualitas metrik evaluasi. Kalau itu lemah, hasilnya hanya mengoptimalkan ke arah yang salah dengan lebih cepat

    • Merancang fitness function yang baik memang selalu sulit, dulu maupun sekarang
    • Ada juga pendapat bahwa bukankah itu memang inti dari metodologi ilmiah?