Membangun Agen AI yang Efektif

(anthropic.com)

8 poin oleh GN⁺ 2025-06-18 | 1 komentar | Bagikan ke WhatsApp

Berdasarkan pengalaman lapangan Anthropic, agen LLM yang sukses sering kali berawal dari pola yang sederhana dan dapat dikomposisikan, bukan dari framework yang kompleks
Sistem agentic terbagi menjadi workflow, yang mengikuti jalur kode yang sudah ditentukan, dan agen, di mana LLM secara dinamis menentukan prosedur dan penggunaan alat
Banyak aplikasi LLM sudah cukup dengan satu panggilan LLM yang ditambah pencarian dan contoh in-context; kompleksitas sebaiknya hanya ditingkatkan ketika efektivitasnya terbukti melalui evaluasi
Framework dapat mempercepat awal pengembangan, tetapi dapat membuat debugging lebih sulit karena lapisan abstraksi yang menyembunyikan prompt dan respons
Agen otonom kuat untuk masalah terbuka, tetapi memiliki risiko kenaikan biaya dan akumulasi kesalahan, sehingga memerlukan pengujian sandbox, guardrail, dan desain alat yang jelas

Pembagian dasar sistem agentic

Sistem agentic adalah istilah yang digunakan secara luas, dari sistem sepenuhnya otonom yang beroperasi mandiri dalam jangka panjang hingga implementasi yang mengikuti workflow yang sudah ditentukan sebelumnya
Anthropic memandang semua variasi ini sebagai sistem agentic, tetapi membaginya secara arsitektural menjadi dua jenis
- Workflow: LLM dan alat diorkestrasi mengikuti jalur kode yang telah ditentukan sebelumnya
- Agen: LLM secara dinamis mengarahkan dan mengendalikan cara menjalankan tugas, prosedur, serta penggunaan alat

Kriteria untuk menentukan kapan menggunakan agen

Aplikasi LLM disarankan dimulai dari solusi paling sederhana yang memungkinkan, lalu meningkatkan kompleksitas hanya saat diperlukan
Sistem agentic adalah struktur yang menerima latensi dan biaya lebih tinggi demi kinerja tugas yang lebih baik, sehingga perlu dipastikan terlebih dahulu apakah kompromi ini benar-benar diperlukan
Ketika kompleksitas diperlukan, kriteria pemilihannya juga berbeda
- Untuk tugas yang terdefinisi dengan baik, workflow memberikan prediktabilitas dan konsistensi
- Untuk tugas yang membutuhkan fleksibilitas berskala besar dan pengambilan keputusan yang dipimpin model, agen lebih cocok
Banyak aplikasi sudah cukup hanya dengan mengoptimalkan satu panggilan LLM menggunakan pencarian dan contoh in-context

Kriteria penggunaan framework

Sebagai alat implementasi sistem agentic, diperkenalkan Claude Agent SDK, Strands Agents SDK by AWS, Rivet, dan Vellum
Framework seperti ini menyederhanakan pekerjaan standar tingkat rendah seperti panggilan LLM, definisi dan parsing alat, serta penyambungan panggilan, sehingga mempercepat awal pengembangan
Namun, lapisan abstraksi tambahan dapat menyembunyikan prompt dan respons sebenarnya, sehingga debugging menjadi lebih sulit
- Bahkan dalam situasi yang cukup dengan konfigurasi sederhana, framework dapat mendorong penambahan kompleksitas yang tidak perlu
Pengembang sebaiknya mulai dengan menggunakan LLM API secara langsung
- Banyak pola dapat diimplementasikan hanya dengan beberapa baris kode
- Bahkan saat memakai framework, pengembang harus memahami cara kerja kode internalnya
- Asumsi yang salah tentang perilaku internal adalah penyebab umum kesalahan pelanggan
Contoh implementasi dapat dilihat di cookbook

Building block dasar: LLM yang diperkuat

Building block dasar sistem agentic adalah LLM yang diperkuat dengan fungsi seperti pencarian, alat, dan memori
Model saat ini dapat menggunakan fungsi-fungsi ini secara aktif dengan membuat kueri pencarian sendiri, memilih alat yang sesuai, dan menentukan informasi apa yang perlu dipertahankan
Saat mengimplementasikannya, fokuslah pada dua hal
- Menyesuaikan fungsi dengan use case
- Menyediakan antarmuka terdokumentasi yang mudah digunakan LLM
Sebagai salah satu pendekatan implementasi, diperkenalkan Model Context Protocol
- Pengembang dapat berintegrasi dengan ekosistem alat pihak ketiga melalui client implementation sederhana

Pola workflow

Prompt chaining
- Prompt chaining adalah pendekatan yang memecah tugas menjadi tahap berurutan, di mana setiap panggilan LLM memproses keluaran dari panggilan sebelumnya
- Pada setiap tahap perantara, pemeriksaan secara programatik dapat ditambahkan untuk memastikan proses tetap berada di jalur yang benar
- Cocok ketika tugas dapat dipecah dengan rapi menjadi subtugas tetap
- Kompromi utamanya adalah menerima latensi lebih tinggi demi menurunkan tingkat kesulitan tiap panggilan LLM sehingga meningkatkan akurasi
- Contoh
  - Membuat copy pemasaran lalu menerjemahkannya ke bahasa lain
  - Menyusun outline dokumen, memeriksa apakah kriteria terpenuhi, lalu menulis dokumen berdasarkan outline tersebut
Routing
- Routing adalah pendekatan yang mengklasifikasikan input lalu mengirimkannya ke pekerjaan lanjutan yang terspesialisasi
- Pendekatan ini memungkinkan pemisahan concern dan pembuatan prompt yang lebih terspesialisasi
- Tanpa struktur ini, optimasi untuk satu jenis input dapat merusak kinerja pada input lain
- Cocok ketika kategori yang berbeda memang sesuai untuk diproses secara terpisah, dan LLM atau model/algoritme klasifikasi tradisional dapat mengklasifikasikannya secara akurat
- Contoh
  - Meneruskan kueri layanan pelanggan seperti pertanyaan umum, permintaan refund, dan dukungan teknis ke proses, prompt, dan alat yang berbeda
  - Merutekan pertanyaan mudah atau umum ke model yang lebih kecil dan hemat biaya seperti Claude Haiku 4.5, sementara pertanyaan sulit atau tidak biasa ke model yang lebih kuat seperti Claude Sonnet 4.5
Paralelisasi
- Paralelisasi adalah pendekatan di mana LLM menangani satu tugas secara bersamaan dan keluarannya diagregasi secara programatik
- Ada dua varian utama
  - Sectioning: membagi tugas menjadi subtugas independen dan menjalankannya secara paralel
  - Voting: menjalankan tugas yang sama beberapa kali untuk mendapatkan keluaran yang beragam
- Efektif ketika subtugas dapat dibagi untuk meningkatkan kecepatan, atau ketika beberapa perspektif atau percobaan diperlukan demi reliabilitas yang lebih tinggi
- Dalam tugas kompleks, ketika setiap aspek pertimbangan ditangani oleh panggilan LLM terpisah, masing-masing dapat lebih berfokus pada aspek tertentu
- Contoh
  - Guardrail di mana satu instans model memproses kueri pengguna dan instans lain memeriksa konten atau permintaan yang tidak pantas
  - Dalam evaluasi kinerja LLM, setiap panggilan mengevaluasi aspek berbeda dari kinerja model
  - Beberapa prompt meninjau kerentanan kode dan memberi flag jika masalah ditemukan
  - Dalam evaluasi ketidaksesuaian konten, menggunakan beberapa prompt dan ambang voting untuk menyeimbangkan false positive dan false negative
Orchestrator-worker
- Orchestrator-worker adalah pendekatan di mana LLM pusat memecah tugas secara dinamis, mendelegasikannya ke LLM worker, lalu mensintesis hasilnya
- Cocok untuk tugas kompleks ketika subtugas yang diperlukan tidak dapat diprediksi sebelumnya
- Sekilas mirip dengan paralelisasi, tetapi perbedaan utamanya adalah fleksibilitas
  - Dalam paralelisasi, subtugas ditentukan sebelumnya
  - Dalam orchestrator-worker, orchestrator menentukan subtugas berdasarkan input
- Contoh
  - Produk coding yang setiap kali melakukan perubahan kompleks pada banyak file
  - Tugas pencarian yang mengumpulkan dan menganalisis informasi yang mungkin relevan dari berbagai sumber
Evaluator-optimizer
- Evaluator-optimizer adalah struktur loop di mana satu panggilan LLM membuat respons, sementara panggilan LLM lain memberikan evaluasi dan feedback
- Sangat efektif ketika ada kriteria evaluasi yang jelas dan perbaikan iteratif memberikan nilai yang terukur
- Ada dua sinyal yang cocok
  - Ketika manusia menyampaikan feedback dengan jelas, respons LLM benar-benar membaik
  - LLM dapat memberikan feedback seperti itu
- Pendekatan ini mirip dengan proses penulisan iteratif yang dilalui penulis manusia untuk menghasilkan dokumen yang matang
- Contoh
  - Terjemahan sastra, di mana LLM evaluator mengkritik nuansa yang mungkin terlewat oleh LLM penerjemah pada awalnya
  - Tugas pencarian kompleks, di mana evaluator menentukan apakah pencarian tambahan diperlukan

Agen otonom

Agen mulai digunakan di produksi seiring LLM memiliki kemampuan memahami input kompleks, bernalar dan merencanakan, menggunakan alat secara stabil, serta memulihkan diri dari kesalahan
Tugas dimulai dari perintah atau percakapan manusia
- Setelah tugas menjadi jelas, agen membuat rencana dan beroperasi secara mandiri
- Jika memerlukan informasi atau penilaian tambahan, agen dapat kembali bertanya kepada manusia
Selama eksekusi, penting untuk memperoleh sinyal verifikasi nyata dari lingkungan pada setiap tahap
- Contoh: hasil panggilan alat, hasil eksekusi kode
- Sinyal ini digunakan untuk mengevaluasi progres
Agen dapat berhenti pada checkpoint atau saat terhambat untuk meminta feedback manusia
Tugas sering berakhir ketika selesai, tetapi untuk mempertahankan kontrol, umum juga menetapkan kondisi berhenti seperti jumlah iterasi maksimum
Implementasinya sendiri sering kali sederhana
- Agen biasanya adalah LLM yang menggunakan alat dalam sebuah loop berdasarkan feedback lingkungan
- Karena itu, toolset dan dokumentasinya harus dirancang dengan jelas dan hati-hati
Kondisi penggunaan
- Masalah terbuka yang jumlah langkah yang diperlukan sulit atau mustahil diprediksi
- Tugas yang tidak dapat di-hardcode dengan jalur tetap
- Situasi di mana LLM dapat beroperasi selama beberapa turn dan membutuhkan tingkat kepercayaan tertentu dalam pengambilan keputusan
Batasan
- Otonomi disertai biaya yang lebih tinggi dan kemungkinan akumulasi kesalahan
- Pengujian ekstensif di lingkungan sandbox dan guardrail yang sesuai direkomendasikan
Contoh
- Agen coding yang menyelesaikan SWE-bench tasks yang memerlukan pengeditan banyak file
- Implementasi referensi “computer use”, di mana Claude menggunakan komputer untuk menjalankan tugas

Kombinasi pola dan kustomisasi

Building block yang dipaparkan bukanlah resep tetap, melainkan pola umum yang dapat disesuaikan dan digabungkan oleh pengembang sesuai use case
Kunci keberhasilan, seperti pada kapabilitas LLM secara umum, adalah mengukur kinerja dan memperbaiki implementasi secara iteratif
Kompleksitas hanya boleh ditambahkan ketika hasilnya benar-benar membaik

Prinsip implementasi

Keberhasilan di ranah LLM bukanlah membuat sistem paling canggih, melainkan membuat sistem yang tepat sesuai kebutuhan
Urutan yang direkomendasikan adalah sebagai berikut
- Mulai dari prompt sederhana
- Optimalkan prompt dengan evaluasi menyeluruh
- Tambahkan sistem agentic multi-tahap hanya ketika solusi sederhana tidak memadai
Saat mengimplementasikan agen, tiga prinsip penting
- Menjaga kesederhanaan desain
- Mengutamakan transparansi dengan menampilkan secara eksplisit tahap perencanaan agen
- Merancang agent-computer interface, yaitu ACI, secara hati-hati melalui dokumentasi dan pengujian alat yang menyeluruh
Framework membantu untuk memulai dengan cepat, tetapi ketika bergerak ke produksi, mungkin perlu mengurangi lapisan abstraksi dan membangun dari komponen dasar

Area penerapan nyata

Dukungan pelanggan
- Dukungan pelanggan menggabungkan antarmuka chatbot yang familiar dengan perluasan kapabilitas melalui integrasi alat
- Ada alasan mengapa bidang ini secara alami cocok dengan agen yang lebih terbuka
  - Interaksi dukungan mengikuti alur percakapan sekaligus membutuhkan akses ke informasi dan tindakan eksternal
  - Alat dapat diintegrasikan untuk mengambil data pelanggan, riwayat pesanan, dan dokumen knowledge base
  - Tindakan seperti memproses refund atau memperbarui tiket dapat ditangani secara programatik
  - Keberhasilan dapat diukur dengan jelas melalui resolusi yang didefinisikan pengguna
- Beberapa perusahaan telah menunjukkan kelayakan pendekatan ini dengan model harga berbasis penggunaan yang hanya mengenakan biaya untuk kasus yang berhasil diselesaikan
Agen coding
- Ranah pengembangan software menunjukkan potensi besar seiring kemampuan LLM berevolusi dari penyelesaian kode hingga pemecahan masalah otonom
- Ada alasan mengapa agen efektif
  - Solusi kode dapat diverifikasi dengan pengujian otomatis
  - Agen dapat menggunakan hasil pengujian sebagai feedback untuk memperbaiki solusi secara iteratif
  - Ruang masalahnya terdefinisi dan terstruktur dengan baik
  - Kualitas keluaran dapat diukur secara objektif
- Dalam implementasi Anthropic, agen dapat menyelesaikan issue GitHub nyata pada benchmark SWE-bench Verified hanya dari deskripsi pull request
- Meskipun pengujian otomatis membantu verifikasi fungsional, review manusia tetap penting untuk memastikan solusi sesuai dengan kebutuhan sistem yang lebih luas

Prompt engineering untuk alat

Dalam sistem agentic apa pun, alat kemungkinan besar menjadi komponen penting
Tools memungkinkan Claude berinteraksi dengan layanan eksternal dan API
- Struktur dan definisi yang tepat ditentukan dalam API
- Ketika Claude merencanakan pemanggilan alat, respons API menyertakan tool use block
Definisi dan spesifikasi alat harus mendapat perhatian prompt engineering yang sama besarnya dengan keseluruhan prompt
Memilih format alat
- Tugas yang sama dapat dispesifikasikan dengan berbagai cara
  - Pengeditan file dapat ditulis sebagai diff atau dispesifikasikan sebagai penulisan ulang seluruh file
  - Structured output dapat dikembalikan sebagai kode di dalam Markdown atau kode di dalam JSON
- Dari perspektif software engineering, perbedaan format ini mungkin dapat dikonversi tanpa kehilangan informasi, tetapi bagi LLM, beberapa format jauh lebih sulit digunakan
  - Menulis diff mengharuskan model mengetahui berapa baris yang berubah pada chunk header sebelum menulis kode baru
  - Menulis kode di dalam JSON memerlukan escape tambahan untuk newline dan tanda kutip
- Saat memilih format alat, pastikan model tidak terjebak dalam beban format yang tidak perlu
  - Berikan cukup token untuk berpikir sebelum masuk ke format buntu
  - Pertahankan format sedekat mungkin dengan format yang secara alami pernah dilihat model di teks internet
  - Hilangkan overhead format seperti menghitung jumlah baris persis dari ribuan baris kode atau melakukan escape pada string kode
Desain ACI
- Upaya yang sama seperti pada desain human-computer interface (HCI) juga harus diinvestasikan pada desain agent-computer interface (ACI)
- Definisi alat yang baik sering kali mencakup contoh penggunaan, edge case, persyaratan format input, dan batas yang jelas dengan alat lain
- Nama dan deskripsi parameter harus disesuaikan agar lebih mudah dipahami model
  - Mirip dengan menulis docstring yang bagus untuk developer junior di tim
  - Terutama penting ketika ada banyak alat yang mirip
- Penggunaan alat oleh model harus diuji
  - Jalankan banyak contoh input di workbench untuk menemukan kesalahan model dan memperbaikinya secara iteratif
  - Direkomendasikan merancang alat dengan pendekatan Poka-yoke, yakni mengubah argumen agar sulit membuat kesalahan
- Saat membuat agen untuk SWE-bench, waktu yang dihabiskan untuk optimasi alat lebih banyak daripada untuk keseluruhan prompt
  - Ada masalah ketika agen berpindah ke luar direktori root lalu membuat kesalahan pada alat yang menggunakan path file relatif
  - Setelah alat diubah agar selalu mewajibkan path file absolut, model dapat menggunakan pendekatan ini tanpa kesalahan

1 komentar

GN⁺ 2025-06-18

Komentar Hacker News

Menurut saya tulisan ini masih salah satu tulisan bagus tentang topik ini. Saya terutama menyukai bagaimana di awal tulisan ini mendefinisikan dengan jelas apa yang dimaksud dengan AI agent
Di sini didefinisikan sebagai “sistem tempat LLM secara dinamis mengarahkan proses pemrosesannya sendiri dan penggunaan tool, sambil tetap memegang kendali atas cara menyelesaikan tugas”
Saya juga menyukai cara tulisan ini membedakan “agent” dan “workflow”, serta menjelaskan beberapa pola workflow yang berguna
Saat pertama kali terbit, saya menulis catatan tentang tulisan ini: https://simonwillison.net/2024/Dec/20/building-effective-age...
Tulisan Anthropic yang lebih baru adalah https://www.anthropic.com/engineering/built-multi-agent-rese... — “How we built our multi-agent research system”, dan ini juga sangat menarik sehingga saya merangkum catatannya: https://simonwillison.net/2025/Jun/14/multi-agent-research-s...
- Salah satu penulis Building Effective Agents datang ke AIE dan memberikan presentasi berdasarkan tulisan ini, dan responsnya bagus: https://www.youtube.com/watch?v=D7_ipDqhtwk
- Tulisan sistem riset multi-agent itu luar biasa. Namun, saya tidak setuju dengan saran dalam tulisan Building Effective AI Agents untuk membangun sistem awal tanpa framework
  Untuk tujuan belajar, itu terdengar bagus, tetapi keunggulan pertama dari framework yang baik adalah memudahkan kita mencoba LLM dari berbagai provider
- Menurut saya definisi workflow dalam tulisan ini tidak akurat. Workflow engine modern tidak hanya mengikuti jalur kode yang sudah ditentukan sebelumnya, dan dalam kasus seperti ini pada dasarnya sama dengan agent
  Ini terlihat seperti upaya mendefinisikan ulang workflow agar bisa dibedakan, tetapi sebagian besar agent hanyalah workflow berulang yang memanggil sesuatu secara dinamis berdasarkan respons LLM. Workflow engine modern sangat dinamis
- Ada yang tahu framework AI agent apa yang dipakai Anthropic? Sepertinya mereka belum membuka framework buatan sendiri
Menurut saya saran “framework menyederhanakan pekerjaan low-level standar seperti pemanggilan LLM, definisi dan parsing tool, serta penghubungan panggilan sehingga memudahkan untuk memulai, tetapi sering kali menciptakan lapisan abstraksi tambahan yang menyembunyikan prompt dan respons dasar sehingga menyulitkan debugging. Framework juga menggoda kita untuk menambah kompleksitas ketika konfigurasi yang lebih sederhana sebenarnya sudah cukup. Kami menyarankan developer memulai dengan menggunakan LLM API secara langsung” adalah bagian terbaik dari seluruh tulisan ini
Pada dasarnya, tidak masuk akal memakai framework raksasa hanya untuk mengirim array string ke web service
Di proyek perusahaan, kami juga menghapus LangChain dan LangGraph; dalam praktiknya tidak ada nilai tambah dan hanya menambah kompleksitas. Karena harus menangani boilerplate dari framework, kami justru menulis lebih banyak kode dibandingkan jika tidak menggunakannya
- langflow sepertinya juga termasuk kategori ini. Meski begitu, saya pikir jelas ada gunanya untuk merapikan berbagai flow ke dalam format umum
  Kita memang bisa menjalankan semua tahap pembuatan gambar dengan Stable Diffusion atau menulis kode shader sendiri, tetapi jika flow atau pekerjaannya lebih dari satu dan masih dalam eksperimen, memakai comfy-UI atau shader graph jauh lebih rapi
Sudah setengah tahun berlalu, dan di bidang AI itu terasa seperti waktu yang cukup lama. Beberapa bulan lalu saya membaca tulisan ini berulang kali, tetapi sekarang pengembangan agent tampaknya jelas sudah mencapai bottleneck
Bahkan Gemini terbaru pun terlihat seperti mengalami kemunduran
- Menjalankan banyak agent membuat biaya menjadi mahal sehingga return on investment menjadi rendah. Agent DeepSearch untuk saham memakai 6 agent dan biayanya sekitar 2 dolar per kueri
  Orkestrasi multi-agent sulit dikendalikan, dan semakin baik performa model, semakin rendah kebutuhan akan multi-agent. Sebaliknya, semakin rendah performa model, AI dengan cakupan sempit menjadi lebih masuk akal secara bisnis
- Tepatnya apa yang membuatnya mundur? Saya penasaran mengapa ia tidak bisa mem-fork dirinya sendiri menjadi sekelompok salinan, bekerja paralel 24 jam, memverifikasi hasil, dan terus berkembang
- Mereka kesulitan menyelesaikan masalah prompt injection, dan itu salah satu bottleneck-nya
Apakah ada contoh agen yang di lingkungan produksi nyata menghemat biaya perusahaan dan melakukan pekerjaan yang benar-benar bernilai? Maksudnya bukan kasus seperti menulis teks untuk mengisi ruang kosong di kantong keripik kentang
- ChatIPT bagus. Ia menyelesaikan masalah nyata pada data keanekaragaman hayati. Tidak memakai istilah “agentic”, tetapi jelas menulis dan menjalankan kode Python
  https://www.gbif.org/news/6aw2VFiEHYlqb48w86uKSf/chatipt-sys...
  Masih beta
  Menurut siaran pers, chatbot buatan Rukaya Johaadien menyediakan bantuan interaktif bagi mahasiswa dan peneliti yang memiliki data keanekaragaman hayati, tetapi baru pertama kali atau jarang memublikasikan data. Ia merapikan dan menstandarkan spreadsheet, membuat metadata dasar, serta memandu mereka menerbitkan dataset yang terstruktur baik ke GBIF.org sebagai Darwin Core Archive
  Sampai sekarang, menerbitkan data berkualitas tinggi dari riset doktoral, magister, atau studi kecil keanekaragaman hayati dalam skala besar masih sulit. Sebab standardisasi data biasanya membutuhkan pengetahuan tentang bahasa pemrograman, teknik manajemen data, dan perangkat lunak khusus
  Proses mengakses Integrated Publishing Toolkit (IPT), aplikasi inti untuk berbagi data di jaringan GBIF, juga sulit bagi pemula. Karena waktu dan sumber daya para pengelola node terbatas, dan pengguna sesekali mudah melupakan prosedur serta detail yang tepat dari tahun ke tahun, pelatihan saja sulit mengatasi hambatan logistik dan bahasa
  Ia menjelaskan, “Standardisasi data itu sulit, dan biolog tidak menjadi biolog karena suka coding atau Excel, sehingga banyak data yang berpotensi bernilai akhirnya terbuang. Melihat model bahasa besar sudah sangat baik dalam pembuatan kode dan pekerjaan data, kami membuat alat yang memandu pengguna nonteknis lewat pertanyaan sehari-hari, memproses data berantakan sejauh mungkin, lalu menerbitkannya ke GBIF dengan cepat dan otomatis”
- Di louie.ai, mereka menggunakan agen dan penalaran agentic untuk mengotomatiskan pekerjaan investigasi yang dilakukan pengguna setiap hari
  Untuk setiap alert atau tiket yang masuk, agen melakukan investigasi awal terhadap API, database, dan lain-lain yang relevan untuk mengidentifikasi false positive dan memberikan lebih banyak konteks pada isu yang nyata. Ini mengurangi waktu manusia dan mempercepat penanganan
  Penalaran agentic yang sama juga dipakai untuk tugas eksplorasi; melampaui text-to-SQL sederhana, LLM menyelidiki Splunk, Databricks, dan lain-lain selama 2–10 menit mewakili pengguna
  Secara internal, mereka memiliki alat seperti lapisan semantik di atas database serta penganalisis log, teks, dan dataframe berskala besar
Saya pernah mencoba workflow n8n yang saya buat sendiri dengan susunan yang hampir sama seperti di tulisan ini. Untuk mendapat jawaban atas pertanyaan sederhana, biayanya 3 dolar dan butuh setidaknya 3 menit
Untuk sementara saya akan tetap memakai pencarian biasa
Tulisan ini mengingatkan dengan baik untuk memulai dari hal paling sederhana yang berfungsi, dan menambahkan kompleksitas hanya ketika benar-benar diperlukan
Dengan beberapa panggilan LLM yang terdefinisi jelas dan sedikit logic perekat ringan saja, biasanya sistemnya lebih andal, lebih mudah di-debug, dan jauh lebih murah dijalankan. Agen yang mewah dan kaya fitur sering kali menciptakan lebih banyak masalah daripada masalah yang diselesaikannya
Sebagai orang yang bekerja di perusahaan yang punya agen nyata di lingkungan produksi, bukan workflow, saya sama sekali tidak setuju dengan kalimat pertama di sini yang mengatakan “gunakan framework agen seperti LangGraph”
Kami juga melakukan persis seperti itu, lalu dalam sebulan harus membuang semuanya, kemudian membangunnya ulang dari nol dan sekarang sistemnya bisa diskalakan dengan cukup baik
Secara adil, mungkin ada ruang untuk memakai framework agen. Tapi bidang agen masih terlalu dini untuk menghasilkan framework yang cukup baik
Sampai batas tertentu saya juga punya pemikiran yang berlawanan: bidang agen bergerak begitu cepat sehingga framework yang cukup baik mungkin bahkan tidak akan pernah muncul sama sekali
- Justru terdengar seperti setuju dengan tulisannya. Di teks aslinya juga disebutkan bahwa setelah bekerja dengan berbagai tim agen LLM di banyak industri selama setahun terakhir, implementasi paling sukses dibuat bukan dengan framework kompleks atau library khusus, melainkan dengan pola yang sederhana dan dapat dikomposisikan
  Framework memang memudahkan untuk memulai, tetapi lapisan abstraksi tambahan bisa menyembunyikan prompt dan respons sehingga debugging lebih sulit, dan bisa menambahkan kompleksitas bahkan ketika susunan yang lebih sederhana sudah cukup. Karena itu banyak pola dapat diimplementasikan hanya dengan beberapa baris kode, sehingga disarankan memulai dengan memakai LLM API secara langsung
- Saat ini saya sedang memindahkan prototipe yang dibuat dengan tool agen N8N ke sistem nyata yang bisa di-host sendiri
  Saya sering melihat komentar bahwa sebagian besar tim yang pragmatis membuang LangChain, LangGraph, Haystack, Crew, dan semacamnya lalu beralih ke kode internal yang lebih sederhana, tetapi saya masih belum benar-benar menangkap bagaimana bagian seperti tool calling diimplementasikan dalam praktik nyata
  Kalau ada tautan atau dokumentasi yang dijadikan dasar pekerjaan, bisakah dibagikan?
- Agen itu melakukan pekerjaan apa?
Ini tulisan Desember 2024, tetapi anehnya terasa seperti sudah sangat lama
- Meski begitu, secara pribadi saya merasa tulisan ini masih sangat bertahan sampai sekarang. Saya terus memakainya sebagai referensi, dan tidak terasa usang
  Tulisan ini membuat saya melihat kembali Anthropic sebagai “mitra praktis” dalam pengembangan tool AI
- “Tidak, masa harus berpikir lagi dan menulis 100% kode sendiri seperti manusia gua Desember 2024”
  https://news.ycombinator.com/item?id=44260988
Sepertinya sekarang hype agen sudah agak mereda
Ungkapan “pakailah pola yang sederhana dan dapat dikomposisikan” terasa anehnya menenangkan
Saya suka bahwa pepatah “lakukan satu hal dengan baik” tetap relevan setelah puluhan tahun. Komposabilitas adalah yang terbaik

Membangun Agen AI yang Efektif

Pembagian dasar sistem agentic

Kriteria untuk menentukan kapan menggunakan agen

Kriteria penggunaan framework

Building block dasar: LLM yang diperkuat

Pola workflow

Prompt chaining

Routing

Paralelisasi

Orchestrator-worker

Evaluator-optimizer

Agen otonom

Kombinasi pola dan kustomisasi

Prinsip implementasi

Area penerapan nyata

Dukungan pelanggan

Agen coding

Prompt engineering untuk alat

Memilih format alat

Desain ACI

Bacaan terkait

1 komentar

Komentar Hacker News