Estetika Rekayasa Loop (The Art of Loop Engineering)

(langchain.com)

5 poin oleh GN⁺ 4 jam lalu | Belum ada komentar. | Bagikan ke WhatsApp

Untuk memanfaatkan agen secara stabil pada pekerjaan yang berguna, model yang baik saja tidak cukup; diperlukan harness yang dirancang sesuai dengan himpunan tugas
Loop agen yang paling mendasar adalah struktur yang memberi konteks ke LLM dan berulang kali memanggil alat hingga tugas selesai
Di atasnya, agen yang lebih efektif disusun dengan cara menumpuk (stacking) loop validasi, loop berbasis peristiwa, dan loop hill-climbing
Setiap lapisan loop dapat diinstrumentasi dengan primitif LangChain, dan dijelaskan melalui contoh agen penulisan dokumentasi internal
Potensi yang sesungguhnya tidak terletak pada model itu sendiri, melainkan pada loop yang dibangun di sekeliling agen

Loop 1: Loop agen

Agen pada dasarnya adalah model yang berulang kali memanggil alat hingga pekerjaan selesai
create_agent dari LangChain menyediakan loop ini; cukup pilih model dan hubungkan alat (tools) untuk membentuk loop agen yang berfungsi
- Alat adalah elemen yang memungkinkan agen mengambil tindakan di dunia nyata
Dalam contoh agen dokumentasi internal, tahap loop pertama menerima permintaan perbaikan dokumentasi, lalu model merencanakan dan menyusun perubahan, serta menggunakan alat untuk mengkloning repo, membaca file, menulis dokumentasi, dan membuka pull request

Level 2: Loop validasi

Loop agen memang menangani tugas, tetapi tidak selalu menghasilkan keluaran yang akurat atau konsisten pada percobaan pertama; saat konsistensi penting, keluaran diperiksa dan jika kurang memadai dibungkus dengan loop validasi yang mengembalikan umpan balik ke model
Loop validasi menambahkan grader untuk membandingkan keluaran agen dengan rubric, lalu mengembalikan hasil beserta umpan balik jika gagal
- Grader bisa bersifat deterministik atau berbentuk agen, dan contoh yang umum adalah LLM as a judge
- RubricMiddleware menangani pola ini, atau bisa dihubungkan melalui hook after_agent milik create_agent
Dalam contoh penulisan dokumentasi, grader menjalankan pengujian setelah tiap percobaan untuk memastikan semua tautan berfungsi, semua pemeriksaan CI lolos, dan diff terbatas pada cakupan permintaan, sehingga jenis kesalahan dapat ditangkap tanpa review manual
Menambahkan validasi memang meningkatkan latensi dan biaya per eksekusi, tetapi untuk sebagian besar penggunaan produksi yang lebih mementingkan kualitas daripada kecepatan, ini sepadan

Level 3: Loop berbasis peristiwa

Salah satu bagian terpenting dalam pengembangan agen adalah lapisan integrasi (integrations layer), yang menghubungkan agen ke ekosistem agar bisa berjalan di latar belakang
Loop berbasis peristiwa menjalankan agen saat peristiwa seperti dokumen baru datang, jadwal terpicu, atau webhook diterima
- Agen bukanlah sesuatu yang dipanggil secara manual, melainkan komponen yang terus beroperasi di dalam sistem yang lebih besar
LangSmith Deployment mendukung infrastruktur trigger, termasuk cron schedule dan webhook
- Contoh populer penggunaan cron adalah heartbeats dari openclaw, yang mengubah agen menjadi asisten proaktif yang selalu aktif
Agen dokumentasi dijalankan dengan pembuat agen no-code Fleet, dan channels serta schedules di Fleet menangani trigger berbasis peristiwa dan cron
- Saat ada pesan masuk ke kanal Slack #docs-plz, kanal tersebut menjalankan agen dokumentasi

Level 4: Loop hill-climbing

Jika tiga loop sebelumnya mengotomatisasi pekerjaan, loop keempat mengotomatisasi perbaikan (improvement) itu sendiri
Setiap eksekusi agen menghasilkan trace yang merekam perilaku model, alat yang dipanggil, umpan balik grader, dan sebagainya; trace ini memuat sinyal bernilai tinggi tentang apa yang berhasil dan apa yang tidak
Loop hill-climbing menjalankan agen analisis terhadap trace, lalu menggunakan hasilnya untuk menulis ulang konfigurasi harness menjadi pengaturan yang lebih baik
- Ini mencakup penyesuaian prompt/alat maupun penyesuaian grader
- Di LangSmith, loop keempat ini diinstrumentasi dengan agen analisis trace Engine
Dalam contoh agen dokumentasi, engine dijalankan terhadap trace untuk mendeteksi masalah, dan bila beberapa trace menandakan potensi masalah, akan dibuat issue yang meminta perubahan pada prompt atau alat yang bermasalah
Intinya, panah kembali tidak sekadar kembali ke bagian paling atas, melainkan masuk ke dalam dan langsung memperbarui loop agen, sehingga setiap siklus loop luar membuat loop dalam semakin efektif
Prospek ke depan
- Konfigurasi prompt dan alat memang yang paling mudah diperbaiki, tetapi bukan satu-satunya pilihan; tim yang menjalankan model open-weight dapat menghubungkan loop hill-climbing ke RL fine-tuning, menggunakan trace atau hasil evaluasi sebagai sinyal pembelajaran untuk memperbaiki model itu sendiri
- Konteks tambahan seperti memori atau skill yang diambil melalui retrieval juga bisa diperbaiki dengan cara yang sama; loop adalah pola, dan apa yang dioptimalkan bergantung pada pengguna

Pengawasan dan keahlian manusia

Otomatisasi tidak berarti mengeluarkan manusia dari loop; di setiap lapisan ada titik di mana pengawasan manusia memberi nilai tambah
- Grader otomatis bisa memeriksa apakah tautan berfungsi, tetapi mengenali bahwa framing tidak tepat untuk audiens sasaran tetap menjadi tugas manusia; keputusan yang lahir dari konteks, pengalaman, dan penilaian adalah titik di mana review manusia dibutuhkan
Sebagian keahlian memang harus dikodekan ke dalam prompt/alat itu sendiri, tetapi untuk tindakan sensitif seperti transaksi keuangan atau pekerjaan basis data, review manusia secara real-time tetap wajib
LangChain mendukung kemudahan instrumentasi titik temu ini di semua loop
- Loop agen: meminta input manusia sebelum tindakan sensitif/pemanggilan alat
- Loop validasi: manusia berperan sebagai grader dalam workflow sensitif
- Loop aplikasi: manusia menyetujui keluaran sebelum dikembalikan ke pengguna akhir
- Loop hill-climbing: perbaikan harness lolos melalui review manusia sebelum deployment
Semua framework open-source LangChain menyediakan human in the loop sebagai primitif kelas satu

Ringkasan keseluruhan

Ringkasan cara empat loop ditumpuk
- Loop agen: model berulang kali memanggil alat hingga tugas selesai → otomatisasi tugas, primitifnya adalah create_agent dan model yang didukung LangChain
- Loop validasi: keluaran dinilai dengan rubric dan dicoba ulang dengan umpan balik jika gagal → menjamin kualitas dan akurasi tugas, primitifnya adalah RubricMiddleware
- Loop berbasis peristiwa: peristiwa memicu eksekusi agen yang memperbarui sistem nyata → otomatisasi pekerjaan dalam skala besar, primitifnya adalah LangSmith Deployment berbasis trigger cron/webhook atau Fleet channels
- Loop hill-climbing: trace eksekusi produksi memperbaiki konfigurasi harness melalui agen analisis → perbaikan harness, primitifnya adalah LangSmith Engine
Inilah yang disebut swyx sebagai loopcraft, yaitu wujud nyata dari rekayasa loop; para pemimpin seperti Steipete, Boris, dan Andrej juga sampai pada kesimpulan yang sama bahwa potensi agen terletak pada loop yang dibangun di sekitarnya
Loop 1 dan 2 sudah lama dibahas, tetapi sekarang fokus harus bergeser ke loop 3 dan 4, yaitu menanamkan agen ke dalam ekosistem agar terus membaik menurut tolok ukur dan menciptakan nilai yang bertumbuh secara majemuk
Satya menyoroti kepentingan di tingkat organisasi, dengan mengatakan bahwa perusahaan yang lebih awal membangun learning loop tempat penilaian manusia dan modal token sama-sama terakumulasi secara majemuk akan memperoleh keunggulan yang sulit ditiru

Estetika Rekayasa Loop (The Art of Loop Engineering)

Loop 1: Loop agen

Level 2: Loop validasi

Level 3: Loop berbasis peristiwa

Level 4: Loop hill-climbing

Prospek ke depan

Pengawasan dan keahlian manusia

Ringkasan keseluruhan

Bacaan terkait

Belum ada komentar.