62 poin oleh GN⁺ 2025-08-25 | 4 komentar | Bagikan ke WhatsApp
  • Pada tahun 2025, membuat agen coding sendiri adalah salah satu proyek terbaik yang bisa dicoba oleh developer individu
  • Agen dapat berjalan hanya dengan 300 baris kode dan loop token LLM, dan dengan membangunnya sendiri Anda mendapat kesempatan untuk beralih dari konsumen menjadi produsen AI
  • Komponen dasarnya adalah tool seperti membaca file, daftar file, menjalankan Bash, mengedit file, dan pencarian kode, yang memungkinkan implementasi otomatisasi nyata
  • Untuk pemilihan model, Claude Sonnet, Kimi K2 dan model agentic serupa cocok digunakan, dan bila perlu model oracle seperti GPT dapat dihubungkan sebagai tool untuk melakukan verifikasi tingkat tinggi
  • Dalam praktiknya, produk komersial seperti Amp, Cursor, Claude Code, dan GitHub Copilot juga memiliki struktur yang serupa

Gambaran workshop

  • Workshop gratis yang dipandu Geoffrey Huntley ini memberikan panduan praktik langsung tentang cara membuat agen coding sendiri dan memahami prinsip kerjanya
  • Dengan membandingkan struktur dan prinsip tool AI komersial yang sudah ada seperti Roo code, Cline, Amp, Cursor, Windsurf, dan OpenCode, workshop ini memberi kesempatan untuk mengimplementasikannya sendiri
  • Melalui pengalaman membuatnya, Anda bisa berkembang dari sekadar pengguna AI menjadi developer yang secara langsung memanfaatkan AI untuk membuat tool otomatisasi
  • Struktur intinya adalah membangun fungsi agen dengan memanfaatkan loop token LLM dalam sekitar 300 baris kode
  • Sambil menambahkan fungsi primitif untuk tiap tool (membaca, daftar file, eksekusi, edit, pencarian kode), contoh kerja nyata dan kodenya dipublikasikan di repositori GitHub

Apa itu agen

  • Belakangan ini istilah "agen" digunakan secara luas, tetapi makna praktis dan prinsip kerja internalnya sering kali tidak jelas
  • Karena hambatan masuk untuk membuat agen semakin rendah, kini dimungkinkan untuk melampaui peran sebagai konsumen AI dan tumbuh menjadi produsen yang dapat memimpin otomatisasi kerja
  • Per 2025, seperti konsep dasar database seperti primary key, prinsip pembuatan agen telah menjadi pengetahuan esensial
  • Perusahaan seperti Canva sudah mendorong penggunaan AI dalam proses wawancara, dan kemampuan otomatisasi berbasis AI menjadi faktor utama dalam perekrutan
  • Kini alasan tertinggal bukanlah karena AI, melainkan karena tidak mempelajari tool baru melalui pengembangan diri

Prinsip inti agen coding

  • Agen coding terdiri hanya dari 300 baris kode dan loop token LLM, dan menjalankan fungsinya melalui input token yang berulang
  • Konsep pekerjaan serentak (concurrent work) itu penting
    • Contoh: bahkan saat sedang rapat Zoom, agen dapat bekerja secara paralel sehingga efisiensi kerja meningkat drastis
  • Tidak semua LLM bersifat agentic
    • 'Keamanan tinggi' (misalnya: Anthropic, OpenAI)
    • 'Keamanan rendah' (misalnya: Grok)
    • 'Oracle' (unggul untuk ringkasan dan penalaran tingkat tinggi)
    • 'Agentic' (berorientasi tindakan, iterasi cepat, dan pemanggilan tool)
  • Developer perlu memahami karakteristik tiap model dan memilih model yang akan digunakan sesuai tujuan
  • Mengalokasikan context window secara berlebihan justru menurunkan performa, dan perlu diingat bahwa "semakin sedikit yang dialokasikan, semakin baik hasilnya"
    • Pendaftaran tool MCP yang berlebihan juga menyebabkan penurunan performa
  • Aturan: "Less is more" → performa optimal dicapai bila hanya menempatkan tool dan data yang diperlukan ke dalam konteks

Alur proses membangun agen coding

  • 1. Registrasi tool dan function calling

    • Misalnya, daftarkan tool pengecekan cuaca ke LLM agar LLM dapat merespons dalam format function calling saat menghadapi situasi yang sesuai
    • MCP (Model Context Protocol) mirip dengan "banner informasi tentang fungsi"; cukup daftarkan deskripsi fungsinya maka pemanggilan otomatis bisa dilakukan
  • 2. Fungsi inti per tool primitif

    • Membaca file (ReadFile): saat path diberikan, isi file dibaca ke dalam konteks
    • Daftar file (ListFiles): menyediakan daftar file dan folder di dalam direktori
    • Menjalankan perintah (Bash): LLM menjalankan perintah shell sistem dan mengembalikan hasilnya
    • Mengedit file (Edit): mengotomatiskan tindakan membuat atau memodifikasi file tertentu
    • Pencarian kode (CodeSearch): mencari seluruh codebase dengan cepat berdasarkan pola, kata kunci, atau nama fungsi (menggunakan ripgrep)
  • 3. Contoh dan alur hasil

    • Dengan mengintegrasikan tiap tool ke LLM, pekerjaan berurutan dapat diotomatisasi hanya dengan prompt bahasa alami (misalnya: membuat kode FizzBuzz → memverifikasi eksekusi, menjelajahi direktori → menganalisis isi, dll.)
    • Fungsi tool dipanggil secara berurutan sesuai input pengguna atau skenario, dan pengembalian hasilnya diulang di dalam loop
    • Urutan operasi utama agen: input pengguna → menentukan apakah perlu memanggil tool → menjalankan tool → menempatkan hasil ke konteks → ulangi

Potensi ekspansi dan open source

  • Saat ini sebagian besar agen coding bekerja di atas tool open source yang sudah ada seperti ripgrep
  • Di GitHub ada proyek agen yang sederhana namun kuat seperti SST Open Code dan mini-swe-agent, yang diimplementasikan hanya dalam 100 baris, sehingga bisa dijadikan referensi untuk performa dan struktur
  • Developer disarankan untuk memahami prinsip dan pemanfaatannya dengan membuatnya sendiri alih-alih hanya membandingkan produk yang ada
  • Saat diterapkan pada pekerjaan nyata dan otomatisasi, membuat agen sendiri lalu menyebarkannya di dalam organisasi dapat menjadi keunggulan kompetitif

Kesimpulan dan implikasi

  • Agen coding bukanlah teknologi yang rumit, melainkan tersusun dari struktur loop sederhana dan kombinasi tool
  • Kunci pembuatan agen coding adalah memahami struktur dan kemampuan mengeksekusi dengan cepat, dan melalui pengalaman membuatnya sendiri, Anda dapat merespons perubahan teknologi AI secara proaktif
  • Yang terpenting saat ini bukan AI itu sendiri, melainkan pengembangan diri yang konsisten dan investasi pribadi dalam kemampuan membuat tool sebagai strategi pertumbuhan individu yang paling penting
  • "Ancaman sebenarnya bukan AI yang merebut pekerjaan Anda, tetapi rekan kerja Anda yang dipersenjatai dengan agen, mengotomatiskan pekerjaan, dan bekerja lebih cepat"

4 komentar

 
GN⁺ 2025-08-25
Komentar Hacker News
  • Tim Princeton SWE-bench kami membuat agen sekitar 100 baris kode yang meraih hasil bagus di SWE-bench; kalau tertarik, layak dilihat: mini-swe-agent

    • Kaget karena strukturnya benar-benar cukup sederhana; terima kasih sudah membagikan ini
      Seluruh kodenya pada dasarnya berjalan dengan prompt-prompt ini: kode sumber prompt dasar agen

      Your task: {{task}}. Please reply
      with a single shell command in
      triple backticks.
      
      To finish, the first line of the
      output of the shell command must be
      'COMPLETE_TASK_AND_SUBMIT_FINAL_OUTPUT'.
      
    • Bagian pada contoh prompt agen yang berbunyi “1. temukan dan baca file terkait di codebase 2. buat skrip reproduksi isu 3. perbaiki isu 4. verifikasi perbaikan dengan skrip 5. uji edge case” itu berguna
      Saya juga menggunakan prompt serupa dalam loop debugging saya
      Pendekatan “setelah menganalisis codebase, buat daftar kandidat penyebab, urutkan berdasarkan kemungkinan tertinggi, lalu verifikasi hipotesis dengan skrip atau debug logging” sangat membantu rutinitas pemecahan masalah saya

    • Saat masalahnya bersifat self-contained dalam satu file, memperbaikinya dengan LLM itu sangat mudah
      Namun di codebase pada umumnya, file dan konteks tersebar di sana-sini, jadi tidak mudah memahaminya sesuai niat desain terstruktur dan pengorganisasian dari pengembang

    • Salut untuk percobaannya, tapi yang disayangkan adalah alatnya tidak banyak
      Sebagian besar kode termasuk ke framework agen, dan kode yang benar-benar spesifik untuk SWE ternyata tidak sebanyak dugaan
      Saya juga pernah membuat agen SWE untuk iseng, jadi mungkin autocode juga layak dilihat

    • Saya menambahkannya ke referensi sebagai bentuk terima kasih

  • Ada juga “panduan cara membangun agen” yang sangat mirip dari Thorsten Ball di AmpCode How To Guide
    Secara keseluruhan, Amp juga cukup menarik
    Sekarang ini sudah bukan layanan yang serba rahasia lagi, tetapi menyenangkan melihat alat terkait agent coding terus dibuka ke publik
    Saya rasa ke depannya model agen seperti ini akan disertakan secara bawaan di berbagai software

    • Ini jauh lebih enak dilihat, jadi saya berterima kasih untuk itu

    • Disebutkan juga bahwa penulisnya sendiri bekerja di Amp

    • Ghuntley juga bekerja di Amp

  • Katanya satu gambar bernilai 1000 kata, tapi di materi ini rasanya nilai gambar-gambarnya didiskon 99,6%
    Saya penasaran ini sebenarnya apa

    • Ini adalah slide untuk workshop konferensi
      Teksnya merupakan dikte dari ucapan saat presentasi sebenarnya
  • Saya penasaran apakah ada yang bisa mengonfirmasi cara pemanfaatan tool ini
    Saya paham bahwa Claude, ChatGPT, dan sebagainya menyediakan “tool” lewat API, dan ketika ada permintaan pemanggilan tool, pihak yang merespons benar-benar menjalankan tool tersebut lalu mengirim balik hasilnya
    Tapi karena model pada dasarnya berbasis karakter, saya penasaran bagaimana API mengubah respons model ke beberapa struktur berbeda
    Saya menduga pada proses fine-tuning pasti ada contoh yang memasukkan pemanggilan tool tertentu dalam bentuk blok khusus agar model memahaminya, lalu server Claude/ChatGPT menafsirkannya
    Saya ingin tahu apakah ada dokumentasi terkait ini atau informasi tentang token khusus yang dipakai secara internal, dan juga bagaimana mereka mencegah input pengguna menyalahgunakan token “pembawa makna” ini

    • Ada dokumentasi implementasi yang dipublikasikan oleh Anthropic
      Anthropic Tool Use Documentation
      Dari sini terlihat jelas bahwa model sebenarnya bekerja bukan dengan “teks” melainkan pada tingkat token
      Ini mirip dengan compiler yang mem-parsing source code menjadi urutan “token” seperti keyword, tanda kurung, dan struktur
      Output-nya juga bisa memuat metadata bersama kata-kata biasa

    • Secara konsep, pemahaman itu benar
      Satu-satunya antarmuka yang benar-benar nyata dengan LLM hanyalah “token”, dan kanal kontrol serta data tidak dipisahkan
      Di lapisan API model, instruksi untuk pemanggilan tool dan daftar tool yang tersedia disisipkan ke dalam prompt, lengkap dengan penjelasan masing-masing
      Saat perlu memanggil tool, model menyisipkan blok khusus di responsnya (termasuk token khusus, nama tool, dan parameter), lalu lapisan API mengekstraknya dan mengubahnya ke bentuk JSON
      Hasil eksekusi tool juga disisipkan setelah dienkode dengan token khusus
      Lapisan API mencegah pengguna menyuntikkan token semacam ini dari input mereka sendiri
      Model-model terbaru (SoTA) telah melalui fine-tuning yang cukup besar untuk pemanggilan tool, mencakup fine-tuning untuk pemanggilan tool umum maupun kasus tool tertentu (misalnya model Claude Sonnet yang dioptimalkan untuk tool Claude Code)
      Sampai terasa menakjubkan bahwa semuanya bisa berjalan dengan baik; dalam pemanggilan tool, fine-tuning benar-benar memegang peran penting
      Tanpa fine-tuning pun ini tetap bisa bekerja, tetapi tingkat keberhasilannya turun drastis

    • Saya rasa dugaan “di-fine-tune agar mengembalikan contoh yang membutuhkan pemanggilan tool dalam blok khusus” itu benar
      Model dilatih untuk merespons dalam format pemanggilan tool saat tidak tahu jawabannya dengan baik atau saat mendapat instruksi
      Mereka melakukan pelatihan baik pada contoh pemanggilan tool yang mengikuti formatnya maupun pada beberapa tool spesifik
      Misalnya, gpt-oss cenderung ingin memakai tool pencarian bahkan tanpa disebutkan sekalipun
      Di dokumentasi Anthropic juga ada daftar tool yang familier (misalnya text_editor, bash), dan kemungkinan besar tool-tool ini juga dipelajari secara terpisah sampai ke pemahaman mendalam tentang cara memakainya
      Dalam praktiknya, strukturnya sebenarnya cukup mudah rusak, dan semuanya terjadi lewat sinyal tingkat rendah berupa “token khusus atau urutan token”

  • Ungkapan “kalau terus melempar token ke dalam loop, maka agen akan muncul” terasa seperti satire yang realistis kalau kata “token” diganti menjadi “uang”
    Pada akhirnya, itu berarti kalau terus membakar uang, agen akan muncul

    • Saya rasa tidak tepat mengatakan bahwa token itu sepenuhnya adalah uang
      Model lokal juga terus membaik
      Untuk saat ini, memang masih dibutuhkan token (=uang) untuk mendapatkan hasil terbaik, tetapi besar kemungkinan di masa depan situasinya akan berubah
  • Kalau isinya sudah penuh gambar seperti ini, jadi terlalu sulit dibaca
    Rasanya seperti melihat simulator scroll

  • Saya penasaran kenapa perlu tool lain selain tool bash
    Hal-hal seperti melihat daftar file, mencari dan menjelajahi repo, atau mengedit isi file bukannya semua bisa dilakukan hanya dengan bash
    Atau ini memang kasus yang ditunjukkan pada contoh mini-swe-agent di atas?

    • Secara teknis, hanya dengan bash pun sudah cukup untuk melakukan berbagai macam pekerjaan, dan saya sendiri pernah berhasil dengan cara itu
      Yang menarik, makin dibatasi tool-nya, makin kreatif pula pendekatan agennya
      Namun jika menyediakan beragam tool yang sudah dilatih, model biasanya sudah paham cara menggunakan masing-masing, sehingga pemakaian token lebih efisien dan tingkat keberhasilan secara keseluruhan juga lebih tinggi
      Kalau hanya memakai bash, model juga sering tersandung pada hal-hal seperti bashism, penanganan argumen, atau penanganan spasi

    • Menggunakan tool terpisah jauh lebih sederhana daripada memusatkan semuanya ke satu bash
      Jika semua ditangani lewat bash, Anda harus membangun sistem terpisah yang langsung menjalankan perintah yang pasti aman (misalnya daftar file), lalu meminta persetujuan pengguna untuk perintah lain yang berisiko
      Dengan menyediakan daftar file sebagai tool terpisah, Anda juga bisa mencegah terbukanya file di luar direktori proyek

    • Pada dasarnya, tool bash dan tool Edit saja sudah cukup untuk menjalankan coding agent (Edit tidak wajib, tetapi tanpa itu efisiensinya turun banyak)
      Hanya saja, bagian seperti pencarian kode bisa menjadi sulit
      Misalnya, mungkin bisa ditangani dengan menyesuaikan prompt agar memakai ripgrep lewat bash

    • Kenapa IDE diperlukan? Padahal semua bisa dilakukan di shell
      UI (antarmuka) itu fungsinya menyediakan informasi dan aksi yang dibutuhkan tepat pada saat itu

    • Untuk pertanyaan kenapa ada hal lain selain tool bash, mungkin karena awalnya memang mulai dari tool yang seminimal mungkin, lalu nanti bash bisa ditambahkan belakangan

  • Daripada menjelaskan panjang lebar “cara membuat agen”, saya ingin melihat proyek yang benar-benar dibuat oleh agen itu sendiri

    • Akan sangat bagus kalau ada yang benar-benar membuat agen lalu membagikannya di HN sebagai “Show HN”
  • Ada yang bisa menjelaskan apa arti sumbu Oracle, Agent, high safety, dan low safety?

  • Saya langsung mencobanya dengan model on-device milik Edge dan Chrome (phi4-mini, gemini nano), dan cukup terkejut karena hasilnya bekerja lumayan baik untuk ukuran modelnya
    contoh eksperimen how to build an agent on device

 
crawler 2025-08-25

Katanya satu gambar biasanya bernilai 1000 kata, tapi di materi ini rasanya nilai gambar-gambarnya didiskon 99,6%. Jadi penasaran ini sebenarnya apa.

Kocak banget wkwkwk, awalnya aku bingung maksudnya apa, tapi begitu buka tautannya langsung paham.

 
savvykang 2025-08-25

Thumbnail postingan blog lainnya juga buruk; tampilannya benar-benar membuat orang tidak ingin mengkliknya.

 
nemorize 2025-08-25

wwwwwwwwwwwwwwwwwwwwwwwwwww