Claude mengungkap fitur penggunaan alat tingkat lanjut

(anthropic.com)

24 poin oleh GN⁺ 2025-11-25 | 5 komentar | Bagikan ke WhatsApp

Tiga fitur baru ditambahkan ke Claude Developer Platform, menghadirkan arsitektur penggunaan alat tingkat lanjut yang memungkinkan model menelusuri, memanggil, dan mempelajari ribuan alat eksternal secara efisien
Tool Search Tool memuat definisi alat hanya saat dibutuhkan sehingga menghemat penggunaan token hingga 85% dan meningkatkan akurasi ke kisaran 74~88% di lingkungan MCP berskala besar
Programmatic Tool Calling memungkinkan pemanggilan alat secara paralel di lingkungan eksekusi kode untuk mencapai penghematan token (37%), pengurangan latensi, dan peningkatan akurasi
Tool Use Examples membuat model mempelajari pola penggunaan alat dan hubungan antar-parameter yang tidak dapat direpresentasikan dengan JSON Schema melalui contoh pemanggilan nyata
Ketiga fitur ini menyediakan fondasi orkestrasi yang efisien untuk agen AI skala besar dan menjadi komponen inti dalam otomatisasi workflow yang kompleks

Perluasan penggunaan alat oleh agen AI

Agen AI di masa depan perlu memanfaatkan ratusan hingga ribuan alat secara terpadu
- Contohnya mencakup alat bantu IDE, koordinator operasional, serta integrasi dengan Slack, GitHub, Jira, Google Drive, dan lainnya
Pendekatan lama mengharuskan semua definisi alat dimuat terlebih dahulu sehingga cepat menghabiskan context window
Pendekatan baru menelusuri dan memuat alat saat diperlukan, lalu meningkatkan efisiensi melalui pemanggilan berbasis kode dan pembelajaran dari contoh

Tool Search Tool

Di lingkungan MCP yang ada, saat banyak server terhubung, definisi alat dapat memakan lebih dari 100 ribu token
- Contoh: GitHub (26K), Slack (21K), Jira (17K), dan saat diakumulasi bisa melampaui 134K token
Tool Search Tool menelusuri dan memuat alat secara on-demand
- Saat pemuatan awal hanya menggunakan sekitar 500 token, lalu memuat tambahan hanya untuk alat yang diperlukan
- Total penggunaan token turun menjadi sekitar 8.7K, menghasilkan penghematan konteks sebesar 95%
Hasil pengujian internal menunjukkan peningkatan akurasi evaluasi MCP: Opus 4: 49%→74%, Opus 4.5: 79.5%→88.1%
Alat dapat dimuat secara tertunda melalui pengaturan defer_loading: true
- Hanya alat yang sering dipakai yang selalu dimuat, sisanya dipanggil saat pencarian dilakukan
Disediakan alat pencarian berbasis regex dan BM25 secara bawaan, serta mendukung pencarian kustom berbasis embedding
Kondisi yang direkomendasikan untuk penerapan: lebih dari 10 alat, definisi di atas 10K token, atau lingkungan dengan kesalahan pemilihan alat yang sering terjadi

Programmatic Tool Calling

Pemanggilan berbasis bahasa alami sebelumnya tidak efisien karena akumulasi hasil antara dan multi-pass reasoning
- Contoh: saat menganalisis log 10MB, seluruh data masuk ke konteks dan memboroskan token
Programmatic Tool Calling (PTC) memungkinkan pemanggilan alat paralel di lingkungan eksekusi kode
- Claude dapat menjalankan loop, kondisi, dan transformasi data dengan kode Python
- Hasil antara tidak dimasukkan ke konteks model, dan hanya hasil akhir yang dikembalikan
Contoh: pada tugas mencari pihak yang melebihi anggaran per kuartal, hanya hasil 1KB yang masuk ke konteks alih-alih 2.000 item
Dampak
- Penggunaan token 43,588→27,297 (turun 37%)
- Latensi berkurang (19 langkah inferensi dihilangkan pada 20 kali pemanggilan)
- Akurasi meningkat: pencarian internal 25.6→28.5%, benchmark GIA 46.5→51.2%
Kondisi yang direkomendasikan untuk penerapan
- Ringkasan data skala besar, pemanggilan berantai dengan ketergantungan lebih dari 3 tahap, atau tugas yang memerlukan eksekusi paralel
- Tidak efisien untuk pemanggilan tunggal atau respons yang kecil

Tool Use Examples

JSON Schema hanya mendefinisikan struktur, tetapi tidak dapat merepresentasikan pola penggunaan, aturan format, dan hubungan antar-parameter
- Contoh: format tanggal, aturan ID, atau kapan objek bertingkat digunakan bisa menjadi tidak jelas
Tool Use Examples menambahkan contoh input nyata (input_examples) ke definisi alat
- Melalui contoh, Claude mempelajari format tanggal (YYYY-MM-DD), aturan ID (USR-XXXXX), dan kombinasi parameter opsional
Dalam pengujian internal, akurasi pemrosesan parameter kompleks meningkat dari 72% menjadi 90%
Kondisi yang direkomendasikan untuk penerapan
- Alat dengan banyak struktur bertingkat dan parameter opsional
- API yang memiliki aturan spesifik domain yang tidak dapat dinyatakan lewat Schema
- Kasus yang memerlukan pembedaan antar alat yang serupa

Pemanfaatan terintegrasi ketiga fitur dan best practice

Ketiga fitur bekerja saling melengkapi
- Tool Search Tool → menelusuri alat yang dibutuhkan
- Programmatic Tool Calling → menjalankan secara efisien
- Tool Use Examples → memastikan pemanggilan yang akurat
Prioritas penerapan
- Konteks terlampaui → Tool Search Tool
- Hasil antara terlalu banyak → Programmatic Tool Calling
- Kesalahan parameter → Tool Use Examples
Tips konfigurasi
- Tulis nama dan deskripsi alat dengan jelas untuk meningkatkan akurasi pencarian
- Selalu muat 3~5 alat yang paling sering digunakan, dan tunda pemuatan sisanya
- Tentukan format output untuk alat eksekusi kode
- Tulis data contoh secara realistis dan ringkas (1~5 contoh)

Memulai

Ketiga fitur tersedia dalam versi beta
- Dapat digunakan setelah menambahkan header betas=["advanced-tool-use-2025-11-20"]
- Alat yang disertakan: tool_search_tool_regex_20251119, code_execution_20250825, dan lainnya
Dokumentasi resmi dan cookbook GitHub menyediakan contoh API serta panduan implementasi
Fitur-fitur ini diposisikan sebagai teknologi dasar yang berkembang melampaui function calling sederhana menuju orkestrasi cerdas
Ditekankan sebagai komponen inti yang mewujudkan penelusuran dinamis, eksekusi efisien, dan pemanggilan akurat dalam workflow kompleks dan lingkungan data berskala besar

5 komentar

kaydash 2025-11-27

Tapi sampai sekarang rasanya ini masih karena kekuatan model. Ini bekerja sebagus ini karena model yang dilayani Claude memang seperti itu, jadi untuk model lain apakah bakal begitu juga... saya jadi ragu.

beoks 2025-11-26

Di antara perusahaan seperti Anthropic, Google, dan OpenAI, saya merasa Anthropic paling mendekati Agentic AI.

kimjoin2 2025-11-25

Saya pikir Sonnet 4.5 juga sudah cukup bagus.
Opus 4.5 sepertinya lebih bagus. Wow.

shakespeares 2025-11-25

Begitukah? Bagian mana yang terutama seperti itu?

GN⁺ 2025-11-25

Opini Hacker News

Sedang mencari cara untuk mengurangi penggunaan context saat melakukan streaming beberapa tool call
Sebagian pemrosesan dialihkan ke tool itu sendiri agar markdown 200k token dikembalikan dalam struktur ringkasan, tetapi pendekatan seperti ini pun kadang tetap cepat memenuhi context model utama
Menurut saya Programmatic Tool Calling adalah langkah berikutnya yang alami
LLM bergerak ke arah memperlakukan kode seperti bahasa, jadi definisi bahasanya menjadi penting
Namun saya menganggap pencarian tool sebagai overhead yang tidak perlu. Lebih efisien jika tool yang dibutuhkan dimasukkan lebih dulu ke dalam context
Pada akhirnya dibutuhkan tool definition language yang ringkas seperti definisi fungsi; saya ingin bisa memasukkan objek ke context dan membuatnya mengenali tipe serta metode yang dapat dipanggil
- Daripada struktur serumit itu, cukup berikan file deklarasi seperti .d.ts
  Pemeliharaan dan pengujian juga lebih mudah, dan jika perlu bisa diimpor dengan gaya seperti export * as Foo from '@foo/foo'
  Karena LLM juga pandai menulis kode, jika diberi izin menulis, ia bisa membuat atau mengimpor tool sendiri
  Ke depannya, platform kolaborasi AI↔manusia yang interaktif seperti Jupyter/Pluto/Mathematica tampaknya akan lebih cocok
  Jika ditambah input suara dan kolaborasi lintas sesi, sistemnya akan hampir setara Skynet
- Saya tidak mengerti kenapa harus ada bahasa baru
  Agen yang saya buat berjalan cukup baik hanya dengan sebagian kemampuan Python SDK dan fungsi kustom
  Struktur pseudo-RPC seperti ini terasa seperti ritual yang tidak perlu
- Spesifikasi MCP terbaru (2025-06-18+) mendukung Structured Content dan Output Schema
  Smolagents memanfaatkannya untuk menangani output tool sebagai objek (dict)
  Saya penasaran apakah pendekatan ini mirip dengan arah yang saya maksud
  Detailnya ada di postingan blog Hugging Face
Saya penasaran apakah server MCP akan menyertakan contoh penggunaan di definisi tool
Jika iya, mereka juga bisa memasukkan contoh kode sehingga tahap pembuatan kode bisa dilewati, tetapi mungkin hal ini diblokir karena masalah keamanan
Menjalankan kode yang disediakan pihak ketiga itu berbahaya, jadi desain seperti ini bisa dimengerti
Sayang sekali mereka memakai Python sebagai wrapper
Jika memakai Bash, kompatibilitas antarbahasa akan lebih tinggi dan akan cocok juga untuk workflow yang tidak menggunakan Python
- Saya justru merasa Python lebih baik
  Kemampuan menjalankan tool eksternalnya juga tidak kalah dari Bash
- Mereka tampaknya tahu bahwa bahasa yang benar-benar dipakai orang adalah Python, jadi bergerak ke arah itu
Arah “masa depan di mana model dengan mulus menangani ratusan hingga ribuan tool” tampaknya keliru
Menurut saya arah yang benar justru lebih sedikit tool + kemampuan pemanfaatan yang lebih baik
Secara ekstrem, satu ShellTool saja mungkin sudah cukup
- Tentu model bisa saja melakukan semuanya dari nol, tetapi jika sudah ada tool yang teruji, saya rasa lebih baik menggunakannya
  Cara idealnya adalah model belajar membuat dan menguji tool sendiri sampai bisa dipercaya
- Saya juga berpikir mirip
  Ekosistem konektor mudah dipahami dan enak dipasarkan, tetapi secara mendasar terasa seperti paradigma yang keliru
Saya rasa akan bagus jika ada model orkestrator lokal yang kecil
Dalam banyak kasus, mengorkestrasi seluruh workflow secara programatik itu tidak efisien
Untuk mengurangi polusi context dan meningkatkan kecepatan, struktur programmatic > tiny local LLM > frontier LLM tampaknya ideal
Model kecil bisa sering menginisialisasi ulang context, lalu hanya meneruskan hasil yang diperlukan ke model besar
Saat memakai asisten AI, ada pola yang terus berulang
Ketika saya sendiri memperbaiki cara yang tidak efisien, beberapa bulan kemudian muncul tool baru dan pekerjaan saya jadi sia-sia
Saya menganggap itu sebagai harga mengejar teknologi terbaru
Suatu hari nanti, sepertinya seluruh web akan tersusun dari miliaran tool
Google akan mengindeksnya, dan Gemini akan memilihnya secara dinamis untuk bertindak di dunia
Sejujurnya saya mengharapkan hal seperti ini di Gemini 3
Fitur #2 yang dibahas di sini adalah implementasi dari konsep yang belakangan ramai dibicarakan: “tidak memanggil tool secara langsung, tetapi menulis kode untuk memanggilnya”
Ini berjalan di Python sandbox, bisa diakses lewat API juga, dan mengekspos pemanggilan tool seperti pemanggilan API biasa
Batch tool calling sudah sangat meningkatkan kecepatan asisten AI di produk kami, dan fitur kali ini terlihat seperti evolusinya
Agentic builder kami hanya memakai satu tool — yaitu GraphQL
Agen menulis query lalu menjalankannya, dan mendapatkan informasi yang diperlukan lewat introspection
Karena hanya menerima data minimal, penghematan token pun dimungkinkan
Tidak perlu memuat lebih dari 50 tool, dan masalah N+1 pada REST API juga teratasi
Berkat typed schema GraphQL, agen menulis kode yang lebih baik
Dulu saya tidak menyukai GraphQL, tetapi melihat kondisi MCP saat ini, saya rasa ini salah satu teknologi yang paling cocok untuk agen AI
Rinciannya saya tulis di artikel ini
- Saya juga memakai pendekatan yang mirip
  Agen saya hanya menjalankan satu query SPARQL, dan state-nya hanyalah graph DB
  Sebagian besar ontologi bersifat publik, jadi hampir tidak perlu schema introspection
  Berkat output terstruktur, kita bisa membatasi agar hanya RDF yang valid yang dihasilkan
  Sepertinya pendekatan serupa juga mungkin di GraphQL
- Namun ini tidak cocok untuk semua use case
  Saya harus melakukan berbagai tugas seperti pencarian web, pemanggilan API lokal, integrasi Slack, dan lain-lain, jadi GraphQL saja tidak cukup
- Introspection GraphQL bisa membuat definisinya terlalu panjang sehingga membuang token, atau menimbulkan masalah karena harus dipanggil berkali-kali
- Meski begitu, ini benar-benar contoh pemanfaatan GraphQL yang sangat bagus
  Ada isu izin, caching, dan mutation, tetapi itu tidak terlalu memengaruhi pemuatan context selektif
- Kami juga mengambil pendekatan yang sama di Exograph (exograph.dev)
  LLM cukup pandai menulis query GraphQL yang sesuai schema
  Bahkan jika melakukan kesalahan, selama diberi pesan error yang baik, ia cepat memperbaikinya
  Reasoning terkait ada di postingan blog ini