HyperAgents dari Meta — Saat agen merancang harness-nya sendiri

(cobusgreyling.medium.com)

45 poin oleh GN⁺ 8 hari lalu | 3 komentar | Bagikan ke WhatsApp

HyperAgents yang diperkenalkan bersama oleh Meta dan UBC adalah framework agen AI self-referential yang dapat memodifikasi bukan hanya kode eksekusi tugas, tetapi juga mekanisme perbaikannya sendiri
Setelah berulang kali melakukan self-improvement di berbagai domain seperti coding, review paper, robotika, dan penilaian matematika, agen secara mandiri menemukan memori persisten, pelacakan performa, dan pipeline verifikasi multi-tahap
Komponen yang dibangun agen sendiri ini ternyata persis selaras dengan elemen inti production harness yang selama ini dibuat manual oleh developer
Harness bukan sekadar kemudahan pengembangan, melainkan arsitektur konvergen bagi sistem agentic, dan agen sedang beralih dari konsumen infrastruktur menjadi produsen
Peran developer bergeser dari membangun harness secara langsung menjadi merancang kondisi awal agar agen bisa berevolusi menuju harness yang efektif

Gambaran umum HyperAgents

HyperAgents yang diperkenalkan dalam paper baru Meta dan UBC adalah agen self-referential yang dapat memodifikasi bukan hanya perilaku untuk menyelesaikan tugas, tetapi juga mekanisme yang menghasilkan perbaikan di masa depan
Yang menarik adalah hasil konvergensi agen ketika dibiarkan melakukan self-improvement: mereka menemukan kembali komponen yang sama dengan yang saat ini dibangun manual oleh developer
Hyperagent didefinisikan sebagai produsen (producer) infrastruktur

HyperAgents vs Universal Agents

Universal Agent adalah executor yang sangat adaptif, mampu menyelesaikan hampir semua masalah secara improvisasional lewat penulisan kode, tetapi tetap berjalan di dalam infrastruktur (harness) yang dirancang manusia
Hyperagent adalah produsen infrastruktur yang memulai dari keadaan minimal lalu melakukan evolusi self-referential untuk melakukan bootstrap terhadap harness tingkat produksi miliknya sendiri

Definisi Harness dan komponen intinya

Harness adalah sistem perangkat lunak yang mengatur cara agen AI beroperasi, mengelola tool, memori, retry, context engineering, dan verifikasi agar model dapat fokus pada penalaran
Enam komponen inti yang dibutuhkan production harness:
- Tool Integration: registrasi dan eksekusi tool
- Memory & State: persistensi hasil antar-tahap
- Context Engineering: perakitan prompt dinamis
- Planning: memecah tugas kompleks menjadi beberapa tahap
- Verification: memvalidasi output terhadap aturan
- Modularity: toggle komponen secara independen
Secara tradisional ini adalah wilayah rekayasa manusia, di mana developer menulis sendiri kelas ToolRegistry, MemoryManager, loop retry, logika perakitan prompt, dan sebagainya
Pertanyaan yang diajukan paper HyperAgents adalah: "Apa yang terjadi jika agen membangun sendiri komponen-komponen ini?"

Cara kerja HyperAgents

Framework yang diperkenalkan paper ini adalah DGM-Hyperagents (DGM-H), dengan ide inti yang sederhana
Hyperagent adalah satu program yang dapat diedit dan mencakup dua hal:
- Task Agent yang menyelesaikan tugas yang diberikan
- Meta Agent yang memodifikasi Task Agent dan dirinya sendiri
Kata kuncinya adalah "itself": Meta Agent dapat menulis ulang kodenya sendiri, sehingga mekanisme yang menghasilkan perbaikan juga menjadi sasaran perbaikan
Dalam paper ini, hal tersebut disebut metacognitive self-modification
Cara kerjanya melalui loop evolusi:
- mulai dari agen dasar
- Meta Agent membaca kode agen dan menganalisis performa masa lalu untuk membuat versi yang dimodifikasi
- versi modifikasi dievaluasi, dan bila performanya lebih baik akan ditambahkan ke arsip
- dipilih lagi dari arsip lalu diulang
Setelah ratusan iterasi, agen bukan hanya menjadi lebih mahir dalam tugasnya, tetapi juga meningkatkan kemampuan untuk memperbaiki dirinya sendiri

Komponen yang muncul dari self-improvement

Hasil self-improvement di berbagai domain seperti coding, review paper, perancangan reward robotika, dan penilaian matematika olimpiade menunjukkan bahwa agen secara mandiri menemukan elemen-elemen berikut:

Memori Persisten (Persistent Memory)

Tanpa instruksi dari developer, agen berevolusi membangun sistem memori sendiri
Ini terjadi karena agen yang bisa mengingat hasil sebelumnya, melacak tren performa, dan menyimpan insight terakumulasi mengungguli agen yang tidak bisa
Contoh item memori dalam paper: penyimpanan hipotesis kausal, identifikasi generasi dengan performa terbaik, diagnosis over-modification, serta usulan cara menggabungkan strategi yang berhasil

Pelacakan Performa (Performance Tracking)

Agen membangun observability-nya sendiri
Termasuk moving average untuk tren perbaikan, statistik agregat per generasi, dan riwayat skor per domain
Fungsinya identik dengan pelacakan token dan audit logging yang biasanya dibangun manual oleh developer di harness

Pipeline Evaluasi Multi-tahap (Multi-stage Evaluation Pipelines)

Dalam domain review paper, agen berevolusi dari instruksi perilaku yang dangkal menjadi pipeline evaluasi multi-tahap yang eksplisit
Mencakup checklist, aturan keputusan, dan kriteria yang didefinisikan dengan jelas
Ini adalah hasil ketika agen membangun verifier-nya sendiri

Protokol Keputusan Berbasis Ambang (Decision Protocols with Thresholds)

Agen mengembangkan batas keputusan yang eksplisit: rasio terima/tolak, ambang skor, tingkat keyakinan, dan sebagainya
Ini setara dengan pengecekan berbasis aturan yang diimplementasikan verifier dalam harness

Basis Pengetahuan Domain (Domain Knowledge Bases)

Dalam perancangan reward robotika, agen secara bertahap membangun dan memurnikan basis pengetahuan internal berisi batasan lingkungan, state variable yang valid, dan heuristik scaling reward
Ini merupakan hasil dari context engineering ketika agen belajar merakit konteks yang tepat untuk dirinya sendiri

Retry dan Self-Correction

Saat modifikasi agen justru menurunkan performa, generasi berikutnya dapat mendiagnosis regresi dan memperbaikinya
Polanya sama dengan loop retry yang menyuntikkan feedback dalam harness

Gambaran yang lebih besar — tren yang berkumpul ke satu arah

Pola yang dilacak oleh berbagai riset terhubung menjadi satu arus:
- Harness Engineering: mendefinisikan 6 komponen yang dibangun developer di sekitar agen
- From Copilot to Codex: pergeseran dari kode yang ditulis manusia ke kode yang didelegasikan ke agen
- Universal Agents: argumen bahwa kemampuan coding membuat agen menjadi serbaguna
- HyperAgents: agen membangun harness-nya sendiri lewat self-modification
Agen sedang bergerak dari konsumen menjadi produsen infrastruktur, dari tahap menjalankan tugas di dalam harness ke tahap merekayasa harness itu sendiri
Demonstrasi konkret dalam paper DGM-H: dimulai dari agen polos dengan satu panggilan LLM saja, lalu setelah ratusan iterasi self-modification berkembang menjadi agen dengan memori persisten, pelacakan performa, pipeline evaluasi multi-tahap, basis pengetahuan domain, dan struktur kode modular
Peran developer tidak hilang, tetapi sedang bertransformasi, dan paper ini menekankan bahwa pengawasan manusia tetap penting
Perannya bergeser dari membangun harness secara langsung ke merancang kondisi awal agar agen dapat berevolusi menuju harness yang efektif

3 komentar

geesecross 8 hari lalu

Menurut saya, penemuan ulang komponen harness itu bukanlah konvergensi yang tak terelakkan, melainkan hasil meniru karena sudah ada cukup banyak contoh terdahulu yang bisa ditemukan, misalnya lewat pencarian web.

Bukankah itu baru bisa disebut konvergensi arsitektur jika setidaknya berhasil menemukan ulang komponen agen AI dalam kondisi yang hanya belajar dari dan dapat mengakses data masa lalu?

ng0301 8 hari lalu

Apakah ini awal dari Skynet wkwkwk

ilfjh 8 hari lalu

Apakah ini masuk akal??...