5 poin oleh GN⁺ 4 jam lalu | Belum ada komentar. | Bagikan ke WhatsApp
  • Untuk memanfaatkan agen secara stabil pada pekerjaan yang berguna, model yang baik saja tidak cukup; diperlukan harness yang dirancang sesuai dengan himpunan tugas
  • Loop agen yang paling mendasar adalah struktur yang memberi konteks ke LLM dan berulang kali memanggil alat hingga tugas selesai
  • Di atasnya, agen yang lebih efektif disusun dengan cara menumpuk (stacking) loop validasi, loop berbasis peristiwa, dan loop hill-climbing
  • Setiap lapisan loop dapat diinstrumentasi dengan primitif LangChain, dan dijelaskan melalui contoh agen penulisan dokumentasi internal
  • Potensi yang sesungguhnya tidak terletak pada model itu sendiri, melainkan pada loop yang dibangun di sekeliling agen

Loop 1: Loop agen

  • Agen pada dasarnya adalah model yang berulang kali memanggil alat hingga pekerjaan selesai
  • create_agent dari LangChain menyediakan loop ini; cukup pilih model dan hubungkan alat (tools) untuk membentuk loop agen yang berfungsi
    • Alat adalah elemen yang memungkinkan agen mengambil tindakan di dunia nyata
  • Dalam contoh agen dokumentasi internal, tahap loop pertama menerima permintaan perbaikan dokumentasi, lalu model merencanakan dan menyusun perubahan, serta menggunakan alat untuk mengkloning repo, membaca file, menulis dokumentasi, dan membuka pull request

Level 2: Loop validasi

  • Loop agen memang menangani tugas, tetapi tidak selalu menghasilkan keluaran yang akurat atau konsisten pada percobaan pertama; saat konsistensi penting, keluaran diperiksa dan jika kurang memadai dibungkus dengan loop validasi yang mengembalikan umpan balik ke model
  • Loop validasi menambahkan grader untuk membandingkan keluaran agen dengan rubric, lalu mengembalikan hasil beserta umpan balik jika gagal
    • Grader bisa bersifat deterministik atau berbentuk agen, dan contoh yang umum adalah LLM as a judge
    • RubricMiddleware menangani pola ini, atau bisa dihubungkan melalui hook after_agent milik create_agent
  • Dalam contoh penulisan dokumentasi, grader menjalankan pengujian setelah tiap percobaan untuk memastikan semua tautan berfungsi, semua pemeriksaan CI lolos, dan diff terbatas pada cakupan permintaan, sehingga jenis kesalahan dapat ditangkap tanpa review manual
  • Menambahkan validasi memang meningkatkan latensi dan biaya per eksekusi, tetapi untuk sebagian besar penggunaan produksi yang lebih mementingkan kualitas daripada kecepatan, ini sepadan

Level 3: Loop berbasis peristiwa

  • Salah satu bagian terpenting dalam pengembangan agen adalah lapisan integrasi (integrations layer), yang menghubungkan agen ke ekosistem agar bisa berjalan di latar belakang
  • Loop berbasis peristiwa menjalankan agen saat peristiwa seperti dokumen baru datang, jadwal terpicu, atau webhook diterima
    • Agen bukanlah sesuatu yang dipanggil secara manual, melainkan komponen yang terus beroperasi di dalam sistem yang lebih besar
  • LangSmith Deployment mendukung infrastruktur trigger, termasuk cron schedule dan webhook
    • Contoh populer penggunaan cron adalah heartbeats dari openclaw, yang mengubah agen menjadi asisten proaktif yang selalu aktif
  • Agen dokumentasi dijalankan dengan pembuat agen no-code Fleet, dan channels serta schedules di Fleet menangani trigger berbasis peristiwa dan cron
    • Saat ada pesan masuk ke kanal Slack #docs-plz, kanal tersebut menjalankan agen dokumentasi

Level 4: Loop hill-climbing

  • Jika tiga loop sebelumnya mengotomatisasi pekerjaan, loop keempat mengotomatisasi perbaikan (improvement) itu sendiri
  • Setiap eksekusi agen menghasilkan trace yang merekam perilaku model, alat yang dipanggil, umpan balik grader, dan sebagainya; trace ini memuat sinyal bernilai tinggi tentang apa yang berhasil dan apa yang tidak
  • Loop hill-climbing menjalankan agen analisis terhadap trace, lalu menggunakan hasilnya untuk menulis ulang konfigurasi harness menjadi pengaturan yang lebih baik
    • Ini mencakup penyesuaian prompt/alat maupun penyesuaian grader
    • Di LangSmith, loop keempat ini diinstrumentasi dengan agen analisis trace Engine
  • Dalam contoh agen dokumentasi, engine dijalankan terhadap trace untuk mendeteksi masalah, dan bila beberapa trace menandakan potensi masalah, akan dibuat issue yang meminta perubahan pada prompt atau alat yang bermasalah
  • Intinya, panah kembali tidak sekadar kembali ke bagian paling atas, melainkan masuk ke dalam dan langsung memperbarui loop agen, sehingga setiap siklus loop luar membuat loop dalam semakin efektif
  • Prospek ke depan

    • Konfigurasi prompt dan alat memang yang paling mudah diperbaiki, tetapi bukan satu-satunya pilihan; tim yang menjalankan model open-weight dapat menghubungkan loop hill-climbing ke RL fine-tuning, menggunakan trace atau hasil evaluasi sebagai sinyal pembelajaran untuk memperbaiki model itu sendiri
    • Konteks tambahan seperti memori atau skill yang diambil melalui retrieval juga bisa diperbaiki dengan cara yang sama; loop adalah pola, dan apa yang dioptimalkan bergantung pada pengguna

Pengawasan dan keahlian manusia

  • Otomatisasi tidak berarti mengeluarkan manusia dari loop; di setiap lapisan ada titik di mana pengawasan manusia memberi nilai tambah
    • Grader otomatis bisa memeriksa apakah tautan berfungsi, tetapi mengenali bahwa framing tidak tepat untuk audiens sasaran tetap menjadi tugas manusia; keputusan yang lahir dari konteks, pengalaman, dan penilaian adalah titik di mana review manusia dibutuhkan
  • Sebagian keahlian memang harus dikodekan ke dalam prompt/alat itu sendiri, tetapi untuk tindakan sensitif seperti transaksi keuangan atau pekerjaan basis data, review manusia secara real-time tetap wajib
  • LangChain mendukung kemudahan instrumentasi titik temu ini di semua loop
    • Loop agen: meminta input manusia sebelum tindakan sensitif/pemanggilan alat
    • Loop validasi: manusia berperan sebagai grader dalam workflow sensitif
    • Loop aplikasi: manusia menyetujui keluaran sebelum dikembalikan ke pengguna akhir
    • Loop hill-climbing: perbaikan harness lolos melalui review manusia sebelum deployment
  • Semua framework open-source LangChain menyediakan human in the loop sebagai primitif kelas satu

Ringkasan keseluruhan

  • Ringkasan cara empat loop ditumpuk
    • Loop agen: model berulang kali memanggil alat hingga tugas selesai → otomatisasi tugas, primitifnya adalah create_agent dan model yang didukung LangChain
    • Loop validasi: keluaran dinilai dengan rubric dan dicoba ulang dengan umpan balik jika gagal → menjamin kualitas dan akurasi tugas, primitifnya adalah RubricMiddleware
    • Loop berbasis peristiwa: peristiwa memicu eksekusi agen yang memperbarui sistem nyata → otomatisasi pekerjaan dalam skala besar, primitifnya adalah LangSmith Deployment berbasis trigger cron/webhook atau Fleet channels
    • Loop hill-climbing: trace eksekusi produksi memperbaiki konfigurasi harness melalui agen analisis → perbaikan harness, primitifnya adalah LangSmith Engine
  • Inilah yang disebut swyx sebagai loopcraft, yaitu wujud nyata dari rekayasa loop; para pemimpin seperti Steipete, Boris, dan Andrej juga sampai pada kesimpulan yang sama bahwa potensi agen terletak pada loop yang dibangun di sekitarnya
  • Loop 1 dan 2 sudah lama dibahas, tetapi sekarang fokus harus bergeser ke loop 3 dan 4, yaitu menanamkan agen ke dalam ekosistem agar terus membaik menurut tolok ukur dan menciptakan nilai yang bertumbuh secara majemuk
  • Satya menyoroti kepentingan di tingkat organisasi, dengan mengatakan bahwa perusahaan yang lebih awal membangun learning loop tempat penilaian manusia dan modal token sama-sama terakumulasi secara majemuk akan memperoleh keunggulan yang sulit ditiru

Belum ada komentar.

Belum ada komentar.