45 poin oleh GN⁺ 8 hari lalu | 3 komentar | Bagikan ke WhatsApp
  • HyperAgents yang diperkenalkan bersama oleh Meta dan UBC adalah framework agen AI self-referential yang dapat memodifikasi bukan hanya kode eksekusi tugas, tetapi juga mekanisme perbaikannya sendiri
  • Setelah berulang kali melakukan self-improvement di berbagai domain seperti coding, review paper, robotika, dan penilaian matematika, agen secara mandiri menemukan memori persisten, pelacakan performa, dan pipeline verifikasi multi-tahap
  • Komponen yang dibangun agen sendiri ini ternyata persis selaras dengan elemen inti production harness yang selama ini dibuat manual oleh developer
  • Harness bukan sekadar kemudahan pengembangan, melainkan arsitektur konvergen bagi sistem agentic, dan agen sedang beralih dari konsumen infrastruktur menjadi produsen
  • Peran developer bergeser dari membangun harness secara langsung menjadi merancang kondisi awal agar agen bisa berevolusi menuju harness yang efektif

Gambaran umum HyperAgents

  • HyperAgents yang diperkenalkan dalam paper baru Meta dan UBC adalah agen self-referential yang dapat memodifikasi bukan hanya perilaku untuk menyelesaikan tugas, tetapi juga mekanisme yang menghasilkan perbaikan di masa depan
  • Yang menarik adalah hasil konvergensi agen ketika dibiarkan melakukan self-improvement: mereka menemukan kembali komponen yang sama dengan yang saat ini dibangun manual oleh developer
  • Hyperagent didefinisikan sebagai produsen (producer) infrastruktur

HyperAgents vs Universal Agents

  • Universal Agent adalah executor yang sangat adaptif, mampu menyelesaikan hampir semua masalah secara improvisasional lewat penulisan kode, tetapi tetap berjalan di dalam infrastruktur (harness) yang dirancang manusia
  • Hyperagent adalah produsen infrastruktur yang memulai dari keadaan minimal lalu melakukan evolusi self-referential untuk melakukan bootstrap terhadap harness tingkat produksi miliknya sendiri

Definisi Harness dan komponen intinya

  • Harness adalah sistem perangkat lunak yang mengatur cara agen AI beroperasi, mengelola tool, memori, retry, context engineering, dan verifikasi agar model dapat fokus pada penalaran
  • Enam komponen inti yang dibutuhkan production harness:
    • Tool Integration: registrasi dan eksekusi tool
    • Memory & State: persistensi hasil antar-tahap
    • Context Engineering: perakitan prompt dinamis
    • Planning: memecah tugas kompleks menjadi beberapa tahap
    • Verification: memvalidasi output terhadap aturan
    • Modularity: toggle komponen secara independen
  • Secara tradisional ini adalah wilayah rekayasa manusia, di mana developer menulis sendiri kelas ToolRegistry, MemoryManager, loop retry, logika perakitan prompt, dan sebagainya
  • Pertanyaan yang diajukan paper HyperAgents adalah: "Apa yang terjadi jika agen membangun sendiri komponen-komponen ini?"

Cara kerja HyperAgents

  • Framework yang diperkenalkan paper ini adalah DGM-Hyperagents (DGM-H), dengan ide inti yang sederhana
  • Hyperagent adalah satu program yang dapat diedit dan mencakup dua hal:
    • Task Agent yang menyelesaikan tugas yang diberikan
    • Meta Agent yang memodifikasi Task Agent dan dirinya sendiri
  • Kata kuncinya adalah "itself": Meta Agent dapat menulis ulang kodenya sendiri, sehingga mekanisme yang menghasilkan perbaikan juga menjadi sasaran perbaikan
  • Dalam paper ini, hal tersebut disebut metacognitive self-modification
  • Cara kerjanya melalui loop evolusi:
    • mulai dari agen dasar
    • Meta Agent membaca kode agen dan menganalisis performa masa lalu untuk membuat versi yang dimodifikasi
    • versi modifikasi dievaluasi, dan bila performanya lebih baik akan ditambahkan ke arsip
    • dipilih lagi dari arsip lalu diulang
  • Setelah ratusan iterasi, agen bukan hanya menjadi lebih mahir dalam tugasnya, tetapi juga meningkatkan kemampuan untuk memperbaiki dirinya sendiri

Komponen yang muncul dari self-improvement

  • Hasil self-improvement di berbagai domain seperti coding, review paper, perancangan reward robotika, dan penilaian matematika olimpiade menunjukkan bahwa agen secara mandiri menemukan elemen-elemen berikut:

Memori Persisten (Persistent Memory)

  • Tanpa instruksi dari developer, agen berevolusi membangun sistem memori sendiri
  • Ini terjadi karena agen yang bisa mengingat hasil sebelumnya, melacak tren performa, dan menyimpan insight terakumulasi mengungguli agen yang tidak bisa
  • Contoh item memori dalam paper: penyimpanan hipotesis kausal, identifikasi generasi dengan performa terbaik, diagnosis over-modification, serta usulan cara menggabungkan strategi yang berhasil

Pelacakan Performa (Performance Tracking)

  • Agen membangun observability-nya sendiri
  • Termasuk moving average untuk tren perbaikan, statistik agregat per generasi, dan riwayat skor per domain
  • Fungsinya identik dengan pelacakan token dan audit logging yang biasanya dibangun manual oleh developer di harness

Pipeline Evaluasi Multi-tahap (Multi-stage Evaluation Pipelines)

  • Dalam domain review paper, agen berevolusi dari instruksi perilaku yang dangkal menjadi pipeline evaluasi multi-tahap yang eksplisit
  • Mencakup checklist, aturan keputusan, dan kriteria yang didefinisikan dengan jelas
  • Ini adalah hasil ketika agen membangun verifier-nya sendiri

Protokol Keputusan Berbasis Ambang (Decision Protocols with Thresholds)

  • Agen mengembangkan batas keputusan yang eksplisit: rasio terima/tolak, ambang skor, tingkat keyakinan, dan sebagainya
  • Ini setara dengan pengecekan berbasis aturan yang diimplementasikan verifier dalam harness

Basis Pengetahuan Domain (Domain Knowledge Bases)

  • Dalam perancangan reward robotika, agen secara bertahap membangun dan memurnikan basis pengetahuan internal berisi batasan lingkungan, state variable yang valid, dan heuristik scaling reward
  • Ini merupakan hasil dari context engineering ketika agen belajar merakit konteks yang tepat untuk dirinya sendiri

Retry dan Self-Correction

  • Saat modifikasi agen justru menurunkan performa, generasi berikutnya dapat mendiagnosis regresi dan memperbaikinya
  • Polanya sama dengan loop retry yang menyuntikkan feedback dalam harness

Gambaran yang lebih besar — tren yang berkumpul ke satu arah

  • Pola yang dilacak oleh berbagai riset terhubung menjadi satu arus:
    • Harness Engineering: mendefinisikan 6 komponen yang dibangun developer di sekitar agen
    • From Copilot to Codex: pergeseran dari kode yang ditulis manusia ke kode yang didelegasikan ke agen
    • Universal Agents: argumen bahwa kemampuan coding membuat agen menjadi serbaguna
    • HyperAgents: agen membangun harness-nya sendiri lewat self-modification
  • Agen sedang bergerak dari konsumen menjadi produsen infrastruktur, dari tahap menjalankan tugas di dalam harness ke tahap merekayasa harness itu sendiri
  • Demonstrasi konkret dalam paper DGM-H: dimulai dari agen polos dengan satu panggilan LLM saja, lalu setelah ratusan iterasi self-modification berkembang menjadi agen dengan memori persisten, pelacakan performa, pipeline evaluasi multi-tahap, basis pengetahuan domain, dan struktur kode modular
  • Peran developer tidak hilang, tetapi sedang bertransformasi, dan paper ini menekankan bahwa pengawasan manusia tetap penting
  • Perannya bergeser dari membangun harness secara langsung ke merancang kondisi awal agar agen dapat berevolusi menuju harness yang efektif

3 komentar

 
geesecross 8 hari lalu

Menurut saya, penemuan ulang komponen harness itu bukanlah konvergensi yang tak terelakkan, melainkan hasil meniru karena sudah ada cukup banyak contoh terdahulu yang bisa ditemukan, misalnya lewat pencarian web.

Bukankah itu baru bisa disebut konvergensi arsitektur jika setidaknya berhasil menemukan ulang komponen agen AI dalam kondisi yang hanya belajar dari dan dapat mengakses data masa lalu?

 
ng0301 8 hari lalu

Apakah ini awal dari Skynet wkwkwk

 
ilfjh 8 hari lalu

Apakah ini masuk akal??...