24 poin oleh GN⁺ 2025-11-25 | Belum ada komentar. | Bagikan ke WhatsApp
  • Tiga fitur baru ditambahkan ke Claude Developer Platform, menghadirkan arsitektur penggunaan alat tingkat lanjut yang memungkinkan model menelusuri, memanggil, dan mempelajari ribuan alat eksternal secara efisien
  • Tool Search Tool memuat definisi alat hanya saat dibutuhkan sehingga menghemat penggunaan token hingga 85% dan meningkatkan akurasi ke kisaran 74~88% di lingkungan MCP berskala besar
  • Programmatic Tool Calling memungkinkan pemanggilan alat secara paralel di lingkungan eksekusi kode untuk mencapai penghematan token (37%), pengurangan latensi, dan peningkatan akurasi
  • Tool Use Examples membuat model mempelajari pola penggunaan alat dan hubungan antar-parameter yang tidak dapat direpresentasikan dengan JSON Schema melalui contoh pemanggilan nyata
  • Ketiga fitur ini menyediakan fondasi orkestrasi yang efisien untuk agen AI skala besar dan menjadi komponen inti dalam otomatisasi workflow yang kompleks

Perluasan penggunaan alat oleh agen AI

  • Agen AI di masa depan perlu memanfaatkan ratusan hingga ribuan alat secara terpadu
    • Contohnya mencakup alat bantu IDE, koordinator operasional, serta integrasi dengan Slack, GitHub, Jira, Google Drive, dan lainnya
  • Pendekatan lama mengharuskan semua definisi alat dimuat terlebih dahulu sehingga cepat menghabiskan context window
  • Pendekatan baru menelusuri dan memuat alat saat diperlukan, lalu meningkatkan efisiensi melalui pemanggilan berbasis kode dan pembelajaran dari contoh

Tool Search Tool

  • Di lingkungan MCP yang ada, saat banyak server terhubung, definisi alat dapat memakan lebih dari 100 ribu token
    • Contoh: GitHub (26K), Slack (21K), Jira (17K), dan saat diakumulasi bisa melampaui 134K token
  • Tool Search Tool menelusuri dan memuat alat secara on-demand
    • Saat pemuatan awal hanya menggunakan sekitar 500 token, lalu memuat tambahan hanya untuk alat yang diperlukan
    • Total penggunaan token turun menjadi sekitar 8.7K, menghasilkan penghematan konteks sebesar 95%
  • Hasil pengujian internal menunjukkan peningkatan akurasi evaluasi MCP: Opus 4: 49%→74%, Opus 4.5: 79.5%→88.1%
  • Alat dapat dimuat secara tertunda melalui pengaturan defer_loading: true
    • Hanya alat yang sering dipakai yang selalu dimuat, sisanya dipanggil saat pencarian dilakukan
  • Disediakan alat pencarian berbasis regex dan BM25 secara bawaan, serta mendukung pencarian kustom berbasis embedding
  • Kondisi yang direkomendasikan untuk penerapan: lebih dari 10 alat, definisi di atas 10K token, atau lingkungan dengan kesalahan pemilihan alat yang sering terjadi

Programmatic Tool Calling

  • Pemanggilan berbasis bahasa alami sebelumnya tidak efisien karena akumulasi hasil antara dan multi-pass reasoning
    • Contoh: saat menganalisis log 10MB, seluruh data masuk ke konteks dan memboroskan token
  • Programmatic Tool Calling (PTC) memungkinkan pemanggilan alat paralel di lingkungan eksekusi kode
    • Claude dapat menjalankan loop, kondisi, dan transformasi data dengan kode Python
    • Hasil antara tidak dimasukkan ke konteks model, dan hanya hasil akhir yang dikembalikan
  • Contoh: pada tugas mencari pihak yang melebihi anggaran per kuartal, hanya hasil 1KB yang masuk ke konteks alih-alih 2.000 item
  • Dampak
    • Penggunaan token 43,588→27,297 (turun 37%)
    • Latensi berkurang (19 langkah inferensi dihilangkan pada 20 kali pemanggilan)
    • Akurasi meningkat: pencarian internal 25.6→28.5%, benchmark GIA 46.5→51.2%
  • Kondisi yang direkomendasikan untuk penerapan
    • Ringkasan data skala besar, pemanggilan berantai dengan ketergantungan lebih dari 3 tahap, atau tugas yang memerlukan eksekusi paralel
    • Tidak efisien untuk pemanggilan tunggal atau respons yang kecil

Tool Use Examples

  • JSON Schema hanya mendefinisikan struktur, tetapi tidak dapat merepresentasikan pola penggunaan, aturan format, dan hubungan antar-parameter
    • Contoh: format tanggal, aturan ID, atau kapan objek bertingkat digunakan bisa menjadi tidak jelas
  • Tool Use Examples menambahkan contoh input nyata (input_examples) ke definisi alat
    • Melalui contoh, Claude mempelajari format tanggal (YYYY-MM-DD), aturan ID (USR-XXXXX), dan kombinasi parameter opsional
  • Dalam pengujian internal, akurasi pemrosesan parameter kompleks meningkat dari 72% menjadi 90%
  • Kondisi yang direkomendasikan untuk penerapan
    • Alat dengan banyak struktur bertingkat dan parameter opsional
    • API yang memiliki aturan spesifik domain yang tidak dapat dinyatakan lewat Schema
    • Kasus yang memerlukan pembedaan antar alat yang serupa

Pemanfaatan terintegrasi ketiga fitur dan best practice

  • Ketiga fitur bekerja saling melengkapi
    • Tool Search Tool → menelusuri alat yang dibutuhkan
    • Programmatic Tool Calling → menjalankan secara efisien
    • Tool Use Examples → memastikan pemanggilan yang akurat
  • Prioritas penerapan
    • Konteks terlampaui → Tool Search Tool
    • Hasil antara terlalu banyak → Programmatic Tool Calling
    • Kesalahan parameter → Tool Use Examples
  • Tips konfigurasi
    • Tulis nama dan deskripsi alat dengan jelas untuk meningkatkan akurasi pencarian
    • Selalu muat 3~5 alat yang paling sering digunakan, dan tunda pemuatan sisanya
    • Tentukan format output untuk alat eksekusi kode
    • Tulis data contoh secara realistis dan ringkas (1~5 contoh)

Memulai

  • Ketiga fitur tersedia dalam versi beta
    • Dapat digunakan setelah menambahkan header betas=["advanced-tool-use-2025-11-20"]
    • Alat yang disertakan: tool_search_tool_regex_20251119, code_execution_20250825, dan lainnya
  • Dokumentasi resmi dan cookbook GitHub menyediakan contoh API serta panduan implementasi
  • Fitur-fitur ini diposisikan sebagai teknologi dasar yang berkembang melampaui function calling sederhana menuju orkestrasi cerdas
  • Ditekankan sebagai komponen inti yang mewujudkan penelusuran dinamis, eksekusi efisien, dan pemanggilan akurat dalam workflow kompleks dan lingkungan data berskala besar

Belum ada komentar.

Belum ada komentar.