Semua yang diumumkan di Code w/ Claude

xguru · 2026-05-14T11:50:02+09:00

Konferensi pengembang Anthropic: diselenggarakan secara online dan offline, dengan acara offline berlangsung di San Francisco 5/6, London 5/19, Tokyo 6/10. Di acara San Francisco, video dari 19 sesi telah dipublikasikan Claude berkembang ke arah menangani tugas yang lebih panjang, memori jangka panjang, penggunaan lebih banyak alat, dan verifikasi yang lebih baik Perubahan utamanya adalah eksekusi berulang, pemilihan alat, verifikasi, memori, dan pengelolaan konteks yang sebelumnya dibuat langsung oleh pengembang kini masuk ke dalam produk dan platform Claude Diferensiasi produk dan organisasi bergeser dari bagaimana memanggil model menjadi bagaimana membuka alat, data, izin, dan konteks kepada model Lebih dari sekadar menulis kode, verifikasi, keamanan, manajemen izin, observabilitas, kerangka evaluasi, dan operasi organisasi menjadi bottleneck baru yang semakin besar Area penting ke depan adalah alat kustom, memori yang dapat dipercaya, evaluasi, batas keamanan, context engineering, dan agent experience Sesi 1 - Keynote Fokusnya ada pada peningkatan produk agar Claude Code dan Claude Platform bekerja lebih baik untuk pengembang Sebagian besar pengguna memakai Claude di dalam produk yang dibuat pengembang, bukan langsung melalui Claude API atau terminal Penggunaan API Claude Platform meningkat hampir 17 kali lipat dibanding tahun sebelumnya Pengembang Claude Code rata-rata menjalankan Claude selama 20 jam per minggu Batas penggunaan 5 jam di Claude Code diperluas menjadi dua kali lipat untuk Pro, Max, Team, dan seat-based Enterprise plans Batas API Claude Opus juga naik secara signifikan Anthropic ingin menyediakan lebih banyak sumber daya komputasi untuk pengembang individu dan tim kecil dengan memanfaatkan kapasitas pusat data Colossus One milik SpaceX Opus 4.7 meningkatkan performa coding agent, kualitas perencanaan, dan tingkat penyelesaian tugas engineering nyata di Amp, Rakuten, dan Intuit Claude ke depan bergerak menuju penilaian yang lebih baik, konteks dan memori yang lebih besar, serta kolaborasi banyak agen Sesi 2 - What's new in Claude Code Fitur baru Claude Code dikelompokkan ke dalam dua sumbu: kemudahan penggunaan bagi pengembang dan penguatan otonomi Remote Control memungkinkan sesi yang dimulai di terminal dilanjutkan di web atau mobile Full screen terminal UI menggunakan virtual scrollback untuk menghadirkan rendering tanpa kedipan dan layar pemanggilan alat yang bisa diklik GUI Claude Code kini memungkinkan pengelolaan beberapa sesi dengan pin, filter, pengelompokan, dan split screen Di plan view, diff view, dan files view, pengguna bisa meninggalkan komentar per baris dan Claude dapat mengumpulkannya lalu memprosesnya nanti Auto Mode mengklasifikasikan apakah pemanggilan alat bersifat destruktif atau tampak seperti prompt injection, lalu mengeksekusinya tanpa konfirmasi izin jika dinilai aman Worktree memungkinkan beberapa sesi Claude bekerja paralel di branch dan salinan file yang terisolasi masing-masing Auto memory membuat Claude mengelola memory.md dan file terkait per proyek, lalu menggunakan kembali perintah build, petunjuk debugging, dan preferensi proyek pada sesi berikutnya Routines dan /loop membuat sesi Claude Code dapat dijalankan otomatis melalui cron, GitHub webhook, dan API trigger Sesi 3 - Memory and dreaming for self-learning agents Memory diposisikan sebagai elemen dasar tahap berikutnya setelah MCP, Claude Code, Agent SDK, dan Skills Memori pada Claude Managed Agents disusun seperti file system, sehingga Claude dapat menata dan memperbaruinya langsung dengan Bash dan Grep Opus 4.7 lebih baik dalam menilai apa yang perlu disimpan, bagaimana membagi file, dan bagaimana menjaga struktur memori Untuk memungkinkan banyak agen membaca dan menulis ke repositori memori yang sama, memori dapat dipisahkan menjadi memori organisasi read-only dan memori kerja read-write Agar ratusan agen atau lebih dapat mengubah memori secara bersamaan tanpa saling menimpa, digunakan optimistic concurrency control berbasis content hash Riwayat perubahan, pihak pembuat, sesi, dan waktu disimpan agar memori dapat dikelola sebagai memori yang bisa diaudit di lingkungan enterprise Dreaming menganalisis sesi agen terbaru dan transcript secara asinkron untuk menemukan kesalahan berulang, strategi yang berhasil, memori duplikat, dan memori usang lalu merapikannya Harvey menerapkan Dreaming pada benchmark hukum dan meningkatkan tingkat penyelesaian tugas 6 kali lipat untuk satu skenario hukum Dalam demo SRE, Dreaming menemukan pola retry 60 detik yang terlewat ketika dilihat secara terpisah oleh beberapa agen, lalu mencerminkannya ke memori Tujuannya adalah struktur pembelajaran berkelanjutan di mana pekerjaan agen hari ini otomatis membuat agen besok menjadi lebih baik Sesi 4 - Caching, harnesses, and advisors: Building on Claude at GitHub scale Pada skala GitHub Copilot, prompt caching menjadi cara utama untuk menurunkan biaya dan latensi Tingkat cache hit yang ditargetkan adalah 94-96%, dan sekitar 70% dipandang sebagai sinyal adanya masalah pada perakitan prompt atau desain caching Bagian depan dari system prompt dan daftar alat harus dijaga sestatis mungkin Jika UUID, waktu, atau dynamic tool loading masuk di bagian depan, cache akan mudah rusak Bahkan dalam harness yang berpindah-pindah antar model, cache friendliness perlu dijaga agar pemanggilan Opus dapat memakai kembali cache sebelumnya GitHub menjalankan model baru dengan urutan offline benchmark, penggunaan internal, A/B test, evaluasi online (eval), lalu optimasi pasca-rilis Strategi Advisor adalah struktur di mana model eksekusi murah menangani sebagian besar pekerjaan, dan Opus hanya dipanggil sebagai penasihat saat dibutuhkan penilaian penting Bukan model itu sendiri, melainkan lapisan operasional yang menggabungkan prompt, alat, cache, pemilihan model, evaluasi, dan feedback online yang menentukan kualitas dan biaya Sesi 5 - The expanding toolkit Kode pendukung yang tahun lalu harus dibuat sendiri kini mulai dimasukkan ke dalam model dan API Dalam penggunaan alat, nilai dari router manual atau retry decorator makin berkurang Claude kini bisa menemukan alat sendiri, memulihkan diri setelah melihat pemanggilan alat yang gagal, lalu memanggilnya lagi Dalam panduan alat, sebaiknya bukan hanya input tetapi juga skema output dituliskan Jika struktur output sudah diketahui sebelumnya, Claude dapat memanfaatkan hasil dengan lebih baik tanpa pemanggilan bolak-balik yang tidak perlu Hook alat pre/post di Claude Code dapat digunakan untuk memblokir pemanggilan tertentu atau otomatis mencatat dan menganalisis hasil Konteks 1 juta token, kompresi sisi server, dan context editing menyederhanakan pengelolaan konteks untuk tugas panjang Screenshot lama, hasil pencarian, dan hasil pembacaan file dapat dihapus secara berkala, sementara penilaian yang dihasilkan dari sana tetap dipertahankan Opus 4.7 dapat mengembalikan koordinat piksel 1:1 dari screenshot resolusi asli hingga 1440p, sehingga mengurangi beban koreksi koordinat dalam otomasi layar Kode yang menambal keterbatasan model berumur pendek, sementara kode yang menghubungkan alat, data, autentikasi, dan konteks domain yang tidak bisa dilihat Claude akan bertahan lebih lama Sesi 6 - How to get to production faster with Claude Managed Agents Claude Managed Agents mengemas manajemen konteks, manajemen kredensial, keamanan, kontrol akses, tinjauan manusia, dan observabilitas yang dibutuhkan agen operasional yang berjalan dalam waktu lama ke dalam satu platform Konfigurasi dasarnya terdiri dari agent configuration, environment, dan session Melalui session events, pengguna dapat melihat event pengguna, event agen, event sesi, dan event segmen Console mengumpulkan pengaturan, environment, jejak eksekusi (trace) penuh, bottleneck, dan tindakan yang direkomendasikan dalam satu layar outcomes adalah fitur yang membuat Claude mengulang hingga memenuhi kriteria penghentian dan kriteria penilaian yang telah ditentukan sebelumnya Koordinasi beberapa agen, memori, dan Dreaming juga dibahas bersama sebagai fitur lanjutan Dalam demo dashboard, agen menemukan paralelisasi, fast mode, dan optimasi prompt sehingga waktu rendering berkurang dari sekitar 37 detik menjadi 10 detik Agen operasional tidak cukup hanya dengan loop pemanggilan model, tetapi juga harus memiliki pelacakan, analisis bottleneck, perizinan, dan verifikasi Sesi 7 - A conversation with Dario Amodei & Daniela Amodei Anthropic mengalami kekurangan sumber daya komputasi karena pertumbuhan penggunaan dan pendapatan yang lebih cepat dari perkiraan Mereka ingin mengamankan kapasitas komputasi tambahan agar bisa memberikan lebih banyak kepada pengembang dan pengguna Pengembang diposisikan sebagai pengguna inti Claude sekaligus kelompok yang paling dulu menunjukkan bagaimana AI menyebar ke seluruh ekonomi Perubahan berikutnya pada Claude Code bergeser dari produktivitas pribadi ke produktivitas tim dan organisasi Semakin cepat penulisan kode, keamanan, verifikasi, keandalan, dan pemeliharaan menjadi bottleneck baru Karena kemampuan model berubah dengan cepat, produk yang beberapa bulan lalu mustahil tiba-tiba menjadi memungkinkan Pasar API akan tetap penting Ke depan, Claude akan bergerak melampaui membantu pekerjaan satu orang menuju memperbesar pekerjaan banyak orang dan banyak agen di seluruh organisasi Sesi 8 - Live coding session with Boris Cherny and Jarred Sumner Robobun milik Bun secara otomatis mereproduksi GitHub issue dan membuat PR yang mencakup pengujian Kondisi gagal di versi sebelumnya dan lolos di branch perbaikan dijadikan syarat pengajuan PR CLAUDE.md menjadi dokumen operasional agen yang memuat perintah build, perintah test, lokasi test, pola kegagalan masa lalu, struktur folder, dan cara membaca log CI CodeRabbit, Claude Code Review, dan Robobun digunakan bersama untuk mengotomatiskan gaya, kepatuhan terhadap CLAUDE.md, dan peninjauan edge case di luar diff Claude Code dan Opus 4.7 cocok untuk pekerjaan yang secara bertahap meningkatkan performa saat tujuan, cara pengukuran, dan iterasi verifikasi jelas Bottleneck bergeser dari penulisan kode ke perencanaan dan verifikasi PR yang dibuat agen tidak harus diperlakukan sebagai hasil yang wajib di-merge, tetapi dapat diperlakukan sebagai usulan yang bisa ditinjau Meski PR dari agen bertambah, standar merge manusia tidak menurun dan justru bisa menjadi lebih tinggi Sesi 9 - Building with Claude Managed Agents and Asana AI teammates AI teammates milik Asana menargetkan agen yang bekerja seperti rekan kerja sungguhan di dalam perusahaan Agen menjadi actor yang menangani persetujuan, workflow, dan pekerjaan multi-tahap bersama manusia Penggunaan agen di banyak perusahaan masih bertahan pada alur pengguna tunggal, di mana satu orang menerima hasil lalu meneruskannya ke orang berikutnya Asana mengarah pada alur kerja kolaboratif, di mana beberapa orang berinteraksi dengan agen yang sama dan pengetahuan serta memori terus terakumulasi Asana work graph menghubungkan tujuan, portofolio, proyek, tugas, persetujuan, dan keputusan masa lalu untuk digunakan sebagai konteks agen AI teammate masuk ke sistem seperti rekan manusia dengan pengaturan bersama, kontrol akses berbasis peran, dan auditabilitas Claude Managed Agents menangani pekerjaan multi-tahap seperti menulis campaign brief dan membuat mockup landing page HTML Asana berfokus pada antarmuka manusia, konteks perusahaan, keamanan, dan auditabilitas, sementara Claude Managed Agents menangani iterasi verifikasi, grader, outcomes, dan eksekusi beberapa agen Lebih dari 21 AI teammates bawaan disediakan untuk pekerjaan PMO, pemasaran, TI, HR, dan R&D Umpan balik disimpan dalam memori agen agar pengguna berikutnya tidak mengalami kesalahan yang sama lagi Sesi 10 - Running an AI-native engineering org Dalam organisasi engineering AI-native, throughput penulisan kode tidak lagi menjadi bottleneck paling mahal Verifikasi, review, keamanan, pemeliharaan, dan koordinasi lintas peran tumbuh menjadi bottleneck baru Dibanding roadmap 6 bulan atau dokumen desain sebelum semua pekerjaan dimulai, alur yang lebih cocok untuk tim Claude Code adalah merencanakan pada saat yang tepat dan cepat membuat prototipe Perdebatan teknis bergeser dari diskusi panjang di whiteboard menjadi membuat beberapa PR implementasi untuk membandingkan dampak nyata dan bentuk API Karena pembuatan kode menjadi lebih mudah, pengujian, otomatisasi, dan verifikasi yang lebih awal menjadi semakin penting Daripada “siapa yang menulis kode ini”, yang lebih penting adalah membedakan penyebab regresi, apakah jawaban ahli dibutuhkan, dan tujuan pengamanan konteks Tim Claude Code menyerahkan gaya, lint, umpan balik PR, beberapa perbaikan bug, dan penambahan test kepada Claude Tinjauan hukum, kode yang sensitif terhadap keamanan, batas kepercayaan, dan product sense tetap ditangani oleh ahli manusia Dalam perekrutan, mereka lebih menekankan builder kreatif dengan product sense dan keahlian sistem yang mendalam daripada throughput sederhana Metrik keberhasilan dapat dilihat dari waktu onboarding yang lebih singkat, siklus PR yang lebih pendek, dan meningkatnya commit yang dibantu Claude Sesi 11 - Building AI-native: Inside the stacks powering Cognition, Gamma, and Harvey Gamma dengan cepat mencerminkan peningkatan tool calling dan koordinasi agen ke dalam produk untuk memperkuat alur editing berbasis agen Gamma memanfaatkan MCP connector bukan hanya sebagai fitur integrasi, tetapi juga sebagai titik masuk akuisisi pelanggan dan alur kerja Cognition mengurangi sebagian sistem perencanaan dan memorinya sendiri karena model menjadi lebih baik dalam pengeditan kode, penggunaan file system, dan perencanaan jangka panjang Harvey mendesain ulang struktur produknya pada setiap titik belok foundation model, model penalaran, dan coding agent Kemampuan platform Harvey saat ini akan sulit diperoleh jika bukan dengan struktur agent-native Produk AI-native harus berasumsi bahwa struktur yang ada bisa menjadi usang dalam 6–12 bulan Pencatatan, observabilitas, replay, dan evaluasi menjadi perangkat wajib untuk menghadapi perubahan struktur yang cepat Di bidang sensitif seperti hukum, dibutuhkan batas data yang kuat antara data publik, data privat, memori, dan alur agen Daripada struktur yang disesuaikan dengan keterbatasan model tertentu, yang menjadi lebih penting adalah struktur yang dapat dengan cepat menyerap lompatan kemampuan berikutnya Sesi 12 - Architecting for model step-changes: A fireside with Vercel's Guillermo Rauch Vercel memandang infrastruktur agentik sebagai arah inti Cloud dapat berkembang menjadi infrastruktur yang memulihkan diri sendiri, mengoptimalkan diri, dan mengubah konfigurasinya sendiri AI Gateway diperlakukan seperti CDN untuk token Ini menjadi lapisan yang menangani banyak penyedia dan model, sekaligus mengurus routing, respons gangguan, dan kontrol biaya Token Opus memiliki porsi pengeluaran yang jauh lebih besar daripada porsi penggunaannya, sehingga saat memasukkan model berinteligensi tinggi ke produk, struktur biayanya perlu dilihat dengan jelas Setelah mengadopsi Opus 4.5, V0 dapat menyederhanakan pemeriksaan tata bahasa, perbaikan otomatis, dan sebagian alur pemrosesan yang sebelumnya dipakai untuk mengoreksi model lama Lompatan kemampuan model tidak hanya menambah fitur baru, tetapi juga memicu perubahan berupa penghapusan kode koreksi yang sudah ada Setelah memperluas penggunaan Opus di V0, pengeluaran kredit produk meningkat 2x lipat Ke depan, selain pengembangan berbasis CLI dan UI, agen yang bersifat asinkron dan membutuhkan lebih sedikit pengawasan manusia bisa tumbuh lebih besar Sesi 13 - The thinking lever Test-time compute adalah sumbu di mana Claude memecahkan masalah sulit dengan menggunakan lebih banyak token dan waktu selama penalaran Opus 4.7 yang sama pun dapat menghasilkan kualitas simulasi lalu lintas yang sangat berbeda tergantung effort low, high, atau max Semakin banyak waktu dan token yang digunakan, grafik, aliran lalu lintas, dan pergerakan kendaraan menjadi lebih realistis Token yang digunakan Claude dibagi menjadi token penalaran, token pemanggilan alat, dan token teks Token penalaran dipakai untuk penalaran internal, token pemanggilan alat untuk interaksi dengan dunia luar, dan token teks untuk berkomunikasi dengan pengguna effort adalah pengatur yang merepresentasikan keseimbangan antara waktu, biaya, dan kualitas Task Budgets memungkinkan Claude menetapkan batas atas token, waktu, dan biaya yang bisa dipakai untuk tugas tertentu Adaptive thinking memungkinkan Claude secara bebas memilih urutan kapan perlu berpikir, menggunakan alat, dan menjawab pengguna Dalam coding dan use case agentik, extra high dianggap sebagai nilai default yang baik Untuk klasifikasi atau ekstraksi sederhana dalam jumlah besar, model kecil lebih menguntungkan, sementara untuk menyelesaikan pekerjaan yang memerlukan kecerdasan dengan cepat, effort rendah pada model besar bisa menjadi pilihan yang lebih baik Sesi 14 - How Datadog built a universal machine tool for Claude Code Sekitar 90% engineer Datadog menggunakan alat coding AI pada kode produksi Di antaranya, setidaknya 2/3 menggunakan Claude Code Cakupan penggunaan alat coding AI meluas dari fungsi individual, test, dan glue code ke pekerjaan tingkat sistem Bottleneck berpindah dari penulisan kode ke iterasi umpan balik dan verifikasi produksi Dalam eksperimen Helix, Claude Code dapat membuat layanan streaming mirip Kafka hanya dalam beberapa hari Untuk membawanya ke lingkungan produksi, diperlukan shadowing, tangga validasi, dan mileage sistem Tempor membuat agen lebih dulu menyusun blueprint yang memuat state, transisi, efek, dan invariant, alih-alih membuat alat secara improvisasi Tabel transisi, dokumen kebijakan, efek bertipe, validator, dan property test membuat software yang dibuat agen menjadi dapat diperiksa Untuk memberi kebebasan kepada agent, invariant dan prosedur verifikasi pada sistem produksi harus dibuat agar bisa dibaca mesin Sesi 15 - Building with Claude on Google Cloud Cara termudah menyiapkan Claude Code di Google Cloud menggunakan wizard konfigurasi berbasis Application Default Credentials Wizard konfigurasi dapat mendeteksi dan menetapkan project, region, serta model yang tersedia Saat menggunakan model Claude di Google Cloud, Anda bisa memanfaatkan penagihan berbasis token, provisioned throughput, berkurangnya beban rotasi API key, penerapan kebijakan project, data tetap berada di dalam project, serta endpoint regional/global Demo dijalankan sebagai alur lima peran—PM, UI/UX designer, software engineer, security engineer, dan data/growth marketer—yang menyelesaikan satu aplikasi feedback dari awal sampai akhir PM memasukkan wireframe gambar tangan ke Claude Code untuk membuat prototipe dengan cepat Pada tahap UI/UX, plan mode digunakan agar Claude mengeluarkan rencana terlebih dahulu sebelum implementasi Google Cloud developer knowledge API dan MCP server menghubungkan Claude Code dengan dokumentasi terbaru dan panduan arsitektur Google Cloud Skills digunakan untuk membantu implementasi blok individual seperti deployment API Cloud Run, atau menghubungkan Cloud Run dan Firestore Dengan sub-agent, implementasi API, pipeline pengumpulan, dan dashboard dijalankan secara paralel Security review prompt memeriksa masalah OWASP atau izin service account, memperbaiki masalah yang ditemukan, lalu melakukan deployment ke Cloud Run Sesi 16 - Getting more out of the Claude Platform Prioritas optimasi agent produksi adalah prompt caching, context engineering, dan strategi Advisor Prompt caching mengurangi biaya token input, mempercepat time to first token, dan menurunkan beban batas penggunaan token yang di-cache Target hit rate cache diposisikan di kisaran 90%+ Stabilitas prompt bagian awal, posisi definisi alat, dan posisi penyisipan nilai dinamis semuanya memengaruhi cache Tool search tool memanggil hanya definisi alat yang diperlukan pada saat yang tepat untuk menghemat context Jika semua alat dimasukkan sejak awal, beban pada context dan cache akan sama-sama membesar Programmatic tool calling tidak langsung memasukkan banyak hasil alat apa adanya, melainkan hanya memilih potongan yang diperlukan untuk dimasukkan ke context Compaction mengurangi percakapan lama dan hasil alat agar pekerjaan panjang bisa terus dilanjutkan Strategi Advisor membuat Sonnet atau Haiku menangani sebagian besar pekerjaan, lalu memanggil Opus sebagai penasihat hanya saat dibutuhkan penilaian penting Intinya bukan memanggil model lebih banyak, melainkan merancang context, alat, dan struktur cache seperti apa yang akan dipakai model untuk bekerja Sesi 17 - Evaluating and improving Replit Agent at scale Pengguna Replit Agent mengharapkan aplikasi yang bekerja hanya dari bahasa alami tanpa menentukan framework atau test Seperti pada benchmark coding umum yang hanya melihat apakah patch lolos test, kualitas Replit Agent sulit diukur dengan cara itu Evaluasi harus melihat apakah aplikasi berfungsi sesuai yang diminta pengguna Replit menggunakan evaluasi offline dan evaluasi online secara bersamaan Evaluasi offline berperan sebagai gerbang sebelum agent release baru, sementara evaluasi online dipakai untuk merespons cepat setelah penggunaan nyata VibeBench adalah benchmark terbuka yang menggunakan 20 PRD nyata sebagai input untuk membuat aplikasi dari repositori kosong, lalu evaluator otomatis menguji aplikasi itu di browser Sebagian besar model lebih kesulitan saat harus kembali memperluas kode yang mereka buat sendiri Langkah test dan verifikasi perlu ditempatkan di antara fitur agar pekerjaan tidak terus ditumpuk di atas fondasi yang goyah Telescope adalah sistem internal yang mengelompokkan jejak eksekusi produksi secara semantik untuk menemukan kegagalan long-tail, mengklasifikasikan masalah, membuat agent menyusun PR, lalu memverifikasinya dengan VibeBench atau A/B test Evaluasi bukan daftar periksa akhir sebelum rilis, melainkan mesin untuk meningkatkan agen setiap hari Sesi 18 - The capability curve Pengguna Claude Code melakukan deployment lebih cepat dengan kepercayaan yang lebih besar dibanding tahun lalu Dalam voting peserta saat presentasi, banyak peserta menjawab bahwa mereka merasakan peningkatan kecepatan 10x, 5x, dan 2x dengan Claude Di SWE-bench Verified, Sonnet 3.7 mencatat sekitar 62%, dan Opus 4.7 mencatat 87% Opus 4.7 memiliki kemungkinan lebih dari 3 kali lipat untuk berhasil menyelesaikan PR sulit yang sebelumnya gagal ditangani Sonnet 3.7 Dalam demo yang mereproduksi Claude.ai dengan prompt yang sama, model sebelumnya menghasilkan UI chat umum dan error, sementara Opus 4.7 mengimplementasikan warna Claude, respons API, riwayat chat, grafik inline, dan dark mode Area yang meningkat adalah perencanaan, pemulihan error, dan menjaga perhatian selama eksekusi panjang Model baru merencanakan lebih dulu, kembali mundur saat gagal, dan lebih baik mempertahankan system prompt serta tujuan bahkan dalam konteks panjang Untuk melihat peningkatan nyata, perlu dibuat evaluasi dengan distribusi yang lebih dekat ke produk Semakin baik modelnya, evaluasi yang ada akan semakin mudah jenuh, jadi evaluasi juga harus terus dibuat lebih sulit Saat frontier model baru muncul, prosedur kalibrasi dan prompt yang ada perlu dicoba dipangkas lagi Sesi 19 - Giving coding agents their own computers: How Cursor built cloud agents Cursor memandang bottleneck-nya bukan pada kecerdasan model, melainkan pada manusia yang tidak mampu memberi model cukup alat, konteks, dan tujuan besar Seperti saat melakukan onboarding developer manusia, agent juga perlu diberi komputer, lingkungan pengembangan, dan dokumentasi Onboarding agent milik Cursor menjelajahi repositori dan memahami cara menjalankan aplikasi, layanan, environment variable, serta izin AnyDev CLI adalah alat yang membantu agent menjalankan layanan, menunggu kesiapan, memeriksa status, hingga menangani pembuatan akun uji atau login Semakin baik lingkungan pengembangan agent, semakin banyak cloud agent yang dijalankan developer dan semakin besar tugas yang dipercayakan Prinsip dasar otonomi adalah memberi agent mata, alat, dan konteks yang baik Agent harus bisa melihat status aplikasi, percakapan agent lain, dan status layanan seperti manusia Cursor memandang computer use sebagai elemen dasar penting berikutnya setelah coding Claude 4.7 memungkinkan agent merekam demo end-to-end secara langsung untuk memverifikasi fitur, dan membantu manusia memahami hasil dengan cepat sebelum code review Cursor memandang agent experience sebagai objek desain tersendiri, dan bila agent menemui alur yang menjengkelkan, rusak, atau membingungkan, hal itu dicatat sebagai isu work on the factory Tujuan akhirnya bukan manusia membimbing secara manual dari A ke D, melainkan membangun sistem yang bisa menyelesaikan dari A sampai Z

(claude.com)

22 poin oleh xguru 2026-05-14 | Belum ada komentar. | Bagikan ke WhatsApp

Konferensi pengembang Anthropic: diselenggarakan secara online dan offline, dengan acara offline berlangsung di San Francisco 5/6, London 5/19, Tokyo 6/10. Di acara San Francisco, video dari 19 sesi telah dipublikasikan
Claude berkembang ke arah menangani tugas yang lebih panjang, memori jangka panjang, penggunaan lebih banyak alat, dan verifikasi yang lebih baik
Perubahan utamanya adalah eksekusi berulang, pemilihan alat, verifikasi, memori, dan pengelolaan konteks yang sebelumnya dibuat langsung oleh pengembang kini masuk ke dalam produk dan platform Claude
Diferensiasi produk dan organisasi bergeser dari bagaimana memanggil model menjadi bagaimana membuka alat, data, izin, dan konteks kepada model
Lebih dari sekadar menulis kode, verifikasi, keamanan, manajemen izin, observabilitas, kerangka evaluasi, dan operasi organisasi menjadi bottleneck baru yang semakin besar
Area penting ke depan adalah alat kustom, memori yang dapat dipercaya, evaluasi, batas keamanan, context engineering, dan agent experience

Sesi 1 - Keynote

Fokusnya ada pada peningkatan produk agar Claude Code dan Claude Platform bekerja lebih baik untuk pengembang
Sebagian besar pengguna memakai Claude di dalam produk yang dibuat pengembang, bukan langsung melalui Claude API atau terminal
Penggunaan API Claude Platform meningkat hampir 17 kali lipat dibanding tahun sebelumnya
Pengembang Claude Code rata-rata menjalankan Claude selama 20 jam per minggu
Batas penggunaan 5 jam di Claude Code diperluas menjadi dua kali lipat untuk Pro, Max, Team, dan seat-based Enterprise plans
Batas API Claude Opus juga naik secara signifikan
Anthropic ingin menyediakan lebih banyak sumber daya komputasi untuk pengembang individu dan tim kecil dengan memanfaatkan kapasitas pusat data Colossus One milik SpaceX
Opus 4.7 meningkatkan performa coding agent, kualitas perencanaan, dan tingkat penyelesaian tugas engineering nyata di Amp, Rakuten, dan Intuit
Claude ke depan bergerak menuju penilaian yang lebih baik, konteks dan memori yang lebih besar, serta kolaborasi banyak agen

Sesi 2 - What's new in Claude Code

Fitur baru Claude Code dikelompokkan ke dalam dua sumbu: kemudahan penggunaan bagi pengembang dan penguatan otonomi
Remote Control memungkinkan sesi yang dimulai di terminal dilanjutkan di web atau mobile
Full screen terminal UI menggunakan virtual scrollback untuk menghadirkan rendering tanpa kedipan dan layar pemanggilan alat yang bisa diklik
GUI Claude Code kini memungkinkan pengelolaan beberapa sesi dengan pin, filter, pengelompokan, dan split screen
Di plan view, diff view, dan files view, pengguna bisa meninggalkan komentar per baris dan Claude dapat mengumpulkannya lalu memprosesnya nanti
Auto Mode mengklasifikasikan apakah pemanggilan alat bersifat destruktif atau tampak seperti prompt injection, lalu mengeksekusinya tanpa konfirmasi izin jika dinilai aman
Worktree memungkinkan beberapa sesi Claude bekerja paralel di branch dan salinan file yang terisolasi masing-masing
Auto memory membuat Claude mengelola memory.md dan file terkait per proyek, lalu menggunakan kembali perintah build, petunjuk debugging, dan preferensi proyek pada sesi berikutnya
Routines dan /loop membuat sesi Claude Code dapat dijalankan otomatis melalui cron, GitHub webhook, dan API trigger

Sesi 3 - Memory and dreaming for self-learning agents

Memory diposisikan sebagai elemen dasar tahap berikutnya setelah MCP, Claude Code, Agent SDK, dan Skills
Memori pada Claude Managed Agents disusun seperti file system, sehingga Claude dapat menata dan memperbaruinya langsung dengan Bash dan Grep
Opus 4.7 lebih baik dalam menilai apa yang perlu disimpan, bagaimana membagi file, dan bagaimana menjaga struktur memori
Untuk memungkinkan banyak agen membaca dan menulis ke repositori memori yang sama, memori dapat dipisahkan menjadi memori organisasi read-only dan memori kerja read-write
Agar ratusan agen atau lebih dapat mengubah memori secara bersamaan tanpa saling menimpa, digunakan optimistic concurrency control berbasis content hash
Riwayat perubahan, pihak pembuat, sesi, dan waktu disimpan agar memori dapat dikelola sebagai memori yang bisa diaudit di lingkungan enterprise
Dreaming menganalisis sesi agen terbaru dan transcript secara asinkron untuk menemukan kesalahan berulang, strategi yang berhasil, memori duplikat, dan memori usang lalu merapikannya
Harvey menerapkan Dreaming pada benchmark hukum dan meningkatkan tingkat penyelesaian tugas 6 kali lipat untuk satu skenario hukum
Dalam demo SRE, Dreaming menemukan pola retry 60 detik yang terlewat ketika dilihat secara terpisah oleh beberapa agen, lalu mencerminkannya ke memori
Tujuannya adalah struktur pembelajaran berkelanjutan di mana pekerjaan agen hari ini otomatis membuat agen besok menjadi lebih baik

Sesi 4 - Caching, harnesses, and advisors: Building on Claude at GitHub scale

Pada skala GitHub Copilot, prompt caching menjadi cara utama untuk menurunkan biaya dan latensi
Tingkat cache hit yang ditargetkan adalah 94-96%, dan sekitar 70% dipandang sebagai sinyal adanya masalah pada perakitan prompt atau desain caching
Bagian depan dari system prompt dan daftar alat harus dijaga sestatis mungkin
Jika UUID, waktu, atau dynamic tool loading masuk di bagian depan, cache akan mudah rusak
Bahkan dalam harness yang berpindah-pindah antar model, cache friendliness perlu dijaga agar pemanggilan Opus dapat memakai kembali cache sebelumnya
GitHub menjalankan model baru dengan urutan offline benchmark, penggunaan internal, A/B test, evaluasi online (eval), lalu optimasi pasca-rilis
Strategi Advisor adalah struktur di mana model eksekusi murah menangani sebagian besar pekerjaan, dan Opus hanya dipanggil sebagai penasihat saat dibutuhkan penilaian penting
Bukan model itu sendiri, melainkan lapisan operasional yang menggabungkan prompt, alat, cache, pemilihan model, evaluasi, dan feedback online yang menentukan kualitas dan biaya

Sesi 5 - The expanding toolkit

Kode pendukung yang tahun lalu harus dibuat sendiri kini mulai dimasukkan ke dalam model dan API
Dalam penggunaan alat, nilai dari router manual atau retry decorator makin berkurang
Claude kini bisa menemukan alat sendiri, memulihkan diri setelah melihat pemanggilan alat yang gagal, lalu memanggilnya lagi
Dalam panduan alat, sebaiknya bukan hanya input tetapi juga skema output dituliskan
Jika struktur output sudah diketahui sebelumnya, Claude dapat memanfaatkan hasil dengan lebih baik tanpa pemanggilan bolak-balik yang tidak perlu
Hook alat pre/post di Claude Code dapat digunakan untuk memblokir pemanggilan tertentu atau otomatis mencatat dan menganalisis hasil
Konteks 1 juta token, kompresi sisi server, dan context editing menyederhanakan pengelolaan konteks untuk tugas panjang
Screenshot lama, hasil pencarian, dan hasil pembacaan file dapat dihapus secara berkala, sementara penilaian yang dihasilkan dari sana tetap dipertahankan
Opus 4.7 dapat mengembalikan koordinat piksel 1:1 dari screenshot resolusi asli hingga 1440p, sehingga mengurangi beban koreksi koordinat dalam otomasi layar
Kode yang menambal keterbatasan model berumur pendek, sementara kode yang menghubungkan alat, data, autentikasi, dan konteks domain yang tidak bisa dilihat Claude akan bertahan lebih lama

Sesi 6 - How to get to production faster with Claude Managed Agents

Claude Managed Agents mengemas manajemen konteks, manajemen kredensial, keamanan, kontrol akses, tinjauan manusia, dan observabilitas yang dibutuhkan agen operasional yang berjalan dalam waktu lama ke dalam satu platform
Konfigurasi dasarnya terdiri dari agent configuration, environment, dan session
Melalui session events, pengguna dapat melihat event pengguna, event agen, event sesi, dan event segmen
Console mengumpulkan pengaturan, environment, jejak eksekusi (trace) penuh, bottleneck, dan tindakan yang direkomendasikan dalam satu layar
outcomes adalah fitur yang membuat Claude mengulang hingga memenuhi kriteria penghentian dan kriteria penilaian yang telah ditentukan sebelumnya
Koordinasi beberapa agen, memori, dan Dreaming juga dibahas bersama sebagai fitur lanjutan
Dalam demo dashboard, agen menemukan paralelisasi, fast mode, dan optimasi prompt sehingga waktu rendering berkurang dari sekitar 37 detik menjadi 10 detik
Agen operasional tidak cukup hanya dengan loop pemanggilan model, tetapi juga harus memiliki pelacakan, analisis bottleneck, perizinan, dan verifikasi

Sesi 7 - A conversation with Dario Amodei & Daniela Amodei

Anthropic mengalami kekurangan sumber daya komputasi karena pertumbuhan penggunaan dan pendapatan yang lebih cepat dari perkiraan
Mereka ingin mengamankan kapasitas komputasi tambahan agar bisa memberikan lebih banyak kepada pengembang dan pengguna
Pengembang diposisikan sebagai pengguna inti Claude sekaligus kelompok yang paling dulu menunjukkan bagaimana AI menyebar ke seluruh ekonomi
Perubahan berikutnya pada Claude Code bergeser dari produktivitas pribadi ke produktivitas tim dan organisasi
Semakin cepat penulisan kode, keamanan, verifikasi, keandalan, dan pemeliharaan menjadi bottleneck baru
Karena kemampuan model berubah dengan cepat, produk yang beberapa bulan lalu mustahil tiba-tiba menjadi memungkinkan
Pasar API akan tetap penting
Ke depan, Claude akan bergerak melampaui membantu pekerjaan satu orang menuju memperbesar pekerjaan banyak orang dan banyak agen di seluruh organisasi

Sesi 8 - Live coding session with Boris Cherny and Jarred Sumner

Robobun milik Bun secara otomatis mereproduksi GitHub issue dan membuat PR yang mencakup pengujian
Kondisi gagal di versi sebelumnya dan lolos di branch perbaikan dijadikan syarat pengajuan PR
CLAUDE.md menjadi dokumen operasional agen yang memuat perintah build, perintah test, lokasi test, pola kegagalan masa lalu, struktur folder, dan cara membaca log CI
CodeRabbit, Claude Code Review, dan Robobun digunakan bersama untuk mengotomatiskan gaya, kepatuhan terhadap CLAUDE.md, dan peninjauan edge case di luar diff
Claude Code dan Opus 4.7 cocok untuk pekerjaan yang secara bertahap meningkatkan performa saat tujuan, cara pengukuran, dan iterasi verifikasi jelas
Bottleneck bergeser dari penulisan kode ke perencanaan dan verifikasi
PR yang dibuat agen tidak harus diperlakukan sebagai hasil yang wajib di-merge, tetapi dapat diperlakukan sebagai usulan yang bisa ditinjau
Meski PR dari agen bertambah, standar merge manusia tidak menurun dan justru bisa menjadi lebih tinggi

Sesi 9 - Building with Claude Managed Agents and Asana AI teammates

AI teammates milik Asana menargetkan agen yang bekerja seperti rekan kerja sungguhan di dalam perusahaan
Agen menjadi actor yang menangani persetujuan, workflow, dan pekerjaan multi-tahap bersama manusia
Penggunaan agen di banyak perusahaan masih bertahan pada alur pengguna tunggal, di mana satu orang menerima hasil lalu meneruskannya ke orang berikutnya
Asana mengarah pada alur kerja kolaboratif, di mana beberapa orang berinteraksi dengan agen yang sama dan pengetahuan serta memori terus terakumulasi
Asana work graph menghubungkan tujuan, portofolio, proyek, tugas, persetujuan, dan keputusan masa lalu untuk digunakan sebagai konteks agen
AI teammate masuk ke sistem seperti rekan manusia dengan pengaturan bersama, kontrol akses berbasis peran, dan auditabilitas
Claude Managed Agents menangani pekerjaan multi-tahap seperti menulis campaign brief dan membuat mockup landing page HTML
Asana berfokus pada antarmuka manusia, konteks perusahaan, keamanan, dan auditabilitas, sementara Claude Managed Agents menangani iterasi verifikasi, grader, outcomes, dan eksekusi beberapa agen
Lebih dari 21 AI teammates bawaan disediakan untuk pekerjaan PMO, pemasaran, TI, HR, dan R&D
Umpan balik disimpan dalam memori agen agar pengguna berikutnya tidak mengalami kesalahan yang sama lagi

Sesi 10 - Running an AI-native engineering org

Dalam organisasi engineering AI-native, throughput penulisan kode tidak lagi menjadi bottleneck paling mahal
Verifikasi, review, keamanan, pemeliharaan, dan koordinasi lintas peran tumbuh menjadi bottleneck baru
Dibanding roadmap 6 bulan atau dokumen desain sebelum semua pekerjaan dimulai, alur yang lebih cocok untuk tim Claude Code adalah merencanakan pada saat yang tepat dan cepat membuat prototipe
Perdebatan teknis bergeser dari diskusi panjang di whiteboard menjadi membuat beberapa PR implementasi untuk membandingkan dampak nyata dan bentuk API
Karena pembuatan kode menjadi lebih mudah, pengujian, otomatisasi, dan verifikasi yang lebih awal menjadi semakin penting
Daripada “siapa yang menulis kode ini”, yang lebih penting adalah membedakan penyebab regresi, apakah jawaban ahli dibutuhkan, dan tujuan pengamanan konteks
Tim Claude Code menyerahkan gaya, lint, umpan balik PR, beberapa perbaikan bug, dan penambahan test kepada Claude
Tinjauan hukum, kode yang sensitif terhadap keamanan, batas kepercayaan, dan product sense tetap ditangani oleh ahli manusia
Dalam perekrutan, mereka lebih menekankan builder kreatif dengan product sense dan keahlian sistem yang mendalam daripada throughput sederhana
Metrik keberhasilan dapat dilihat dari waktu onboarding yang lebih singkat, siklus PR yang lebih pendek, dan meningkatnya commit yang dibantu Claude

Sesi 11 - Building AI-native: Inside the stacks powering Cognition, Gamma, and Harvey

Gamma dengan cepat mencerminkan peningkatan tool calling dan koordinasi agen ke dalam produk untuk memperkuat alur editing berbasis agen
Gamma memanfaatkan MCP connector bukan hanya sebagai fitur integrasi, tetapi juga sebagai titik masuk akuisisi pelanggan dan alur kerja
Cognition mengurangi sebagian sistem perencanaan dan memorinya sendiri karena model menjadi lebih baik dalam pengeditan kode, penggunaan file system, dan perencanaan jangka panjang
Harvey mendesain ulang struktur produknya pada setiap titik belok foundation model, model penalaran, dan coding agent
Kemampuan platform Harvey saat ini akan sulit diperoleh jika bukan dengan struktur agent-native
Produk AI-native harus berasumsi bahwa struktur yang ada bisa menjadi usang dalam 6–12 bulan
Pencatatan, observabilitas, replay, dan evaluasi menjadi perangkat wajib untuk menghadapi perubahan struktur yang cepat
Di bidang sensitif seperti hukum, dibutuhkan batas data yang kuat antara data publik, data privat, memori, dan alur agen
Daripada struktur yang disesuaikan dengan keterbatasan model tertentu, yang menjadi lebih penting adalah struktur yang dapat dengan cepat menyerap lompatan kemampuan berikutnya

Sesi 12 - Architecting for model step-changes: A fireside with Vercel's Guillermo Rauch

Vercel memandang infrastruktur agentik sebagai arah inti
Cloud dapat berkembang menjadi infrastruktur yang memulihkan diri sendiri, mengoptimalkan diri, dan mengubah konfigurasinya sendiri
AI Gateway diperlakukan seperti CDN untuk token
Ini menjadi lapisan yang menangani banyak penyedia dan model, sekaligus mengurus routing, respons gangguan, dan kontrol biaya
Token Opus memiliki porsi pengeluaran yang jauh lebih besar daripada porsi penggunaannya, sehingga saat memasukkan model berinteligensi tinggi ke produk, struktur biayanya perlu dilihat dengan jelas
Setelah mengadopsi Opus 4.5, V0 dapat menyederhanakan pemeriksaan tata bahasa, perbaikan otomatis, dan sebagian alur pemrosesan yang sebelumnya dipakai untuk mengoreksi model lama
Lompatan kemampuan model tidak hanya menambah fitur baru, tetapi juga memicu perubahan berupa penghapusan kode koreksi yang sudah ada
Setelah memperluas penggunaan Opus di V0, pengeluaran kredit produk meningkat 2x lipat
Ke depan, selain pengembangan berbasis CLI dan UI, agen yang bersifat asinkron dan membutuhkan lebih sedikit pengawasan manusia bisa tumbuh lebih besar

Sesi 13 - The thinking lever

Test-time compute adalah sumbu di mana Claude memecahkan masalah sulit dengan menggunakan lebih banyak token dan waktu selama penalaran
Opus 4.7 yang sama pun dapat menghasilkan kualitas simulasi lalu lintas yang sangat berbeda tergantung effort low, high, atau max
Semakin banyak waktu dan token yang digunakan, grafik, aliran lalu lintas, dan pergerakan kendaraan menjadi lebih realistis
Token yang digunakan Claude dibagi menjadi token penalaran, token pemanggilan alat, dan token teks
Token penalaran dipakai untuk penalaran internal, token pemanggilan alat untuk interaksi dengan dunia luar, dan token teks untuk berkomunikasi dengan pengguna
effort adalah pengatur yang merepresentasikan keseimbangan antara waktu, biaya, dan kualitas
Task Budgets memungkinkan Claude menetapkan batas atas token, waktu, dan biaya yang bisa dipakai untuk tugas tertentu
Adaptive thinking memungkinkan Claude secara bebas memilih urutan kapan perlu berpikir, menggunakan alat, dan menjawab pengguna
Dalam coding dan use case agentik, extra high dianggap sebagai nilai default yang baik
Untuk klasifikasi atau ekstraksi sederhana dalam jumlah besar, model kecil lebih menguntungkan, sementara untuk menyelesaikan pekerjaan yang memerlukan kecerdasan dengan cepat, effort rendah pada model besar bisa menjadi pilihan yang lebih baik

Sesi 14 - How Datadog built a universal machine tool for Claude Code

Sekitar 90% engineer Datadog menggunakan alat coding AI pada kode produksi
Di antaranya, setidaknya 2/3 menggunakan Claude Code
Cakupan penggunaan alat coding AI meluas dari fungsi individual, test, dan glue code ke pekerjaan tingkat sistem
Bottleneck berpindah dari penulisan kode ke iterasi umpan balik dan verifikasi produksi
Dalam eksperimen Helix, Claude Code dapat membuat layanan streaming mirip Kafka hanya dalam beberapa hari
Untuk membawanya ke lingkungan produksi, diperlukan shadowing, tangga validasi, dan mileage sistem
Tempor membuat agen lebih dulu menyusun blueprint yang memuat state, transisi, efek, dan invariant, alih-alih membuat alat secara improvisasi
Tabel transisi, dokumen kebijakan, efek bertipe, validator, dan property test membuat software yang dibuat agen menjadi dapat diperiksa
Untuk memberi kebebasan kepada agent, invariant dan prosedur verifikasi pada sistem produksi harus dibuat agar bisa dibaca mesin

Sesi 15 - Building with Claude on Google Cloud

Cara termudah menyiapkan Claude Code di Google Cloud menggunakan wizard konfigurasi berbasis Application Default Credentials
Wizard konfigurasi dapat mendeteksi dan menetapkan project, region, serta model yang tersedia
Saat menggunakan model Claude di Google Cloud, Anda bisa memanfaatkan penagihan berbasis token, provisioned throughput, berkurangnya beban rotasi API key, penerapan kebijakan project, data tetap berada di dalam project, serta endpoint regional/global
Demo dijalankan sebagai alur lima peran—PM, UI/UX designer, software engineer, security engineer, dan data/growth marketer—yang menyelesaikan satu aplikasi feedback dari awal sampai akhir
PM memasukkan wireframe gambar tangan ke Claude Code untuk membuat prototipe dengan cepat
Pada tahap UI/UX, plan mode digunakan agar Claude mengeluarkan rencana terlebih dahulu sebelum implementasi
Google Cloud developer knowledge API dan MCP server menghubungkan Claude Code dengan dokumentasi terbaru dan panduan arsitektur
Google Cloud Skills digunakan untuk membantu implementasi blok individual seperti deployment API Cloud Run, atau menghubungkan Cloud Run dan Firestore
Dengan sub-agent, implementasi API, pipeline pengumpulan, dan dashboard dijalankan secara paralel
Security review prompt memeriksa masalah OWASP atau izin service account, memperbaiki masalah yang ditemukan, lalu melakukan deployment ke Cloud Run

Sesi 16 - Getting more out of the Claude Platform

Prioritas optimasi agent produksi adalah prompt caching, context engineering, dan strategi Advisor
Prompt caching mengurangi biaya token input, mempercepat time to first token, dan menurunkan beban batas penggunaan token yang di-cache
Target hit rate cache diposisikan di kisaran 90%+
Stabilitas prompt bagian awal, posisi definisi alat, dan posisi penyisipan nilai dinamis semuanya memengaruhi cache
Tool search tool memanggil hanya definisi alat yang diperlukan pada saat yang tepat untuk menghemat context
Jika semua alat dimasukkan sejak awal, beban pada context dan cache akan sama-sama membesar
Programmatic tool calling tidak langsung memasukkan banyak hasil alat apa adanya, melainkan hanya memilih potongan yang diperlukan untuk dimasukkan ke context
Compaction mengurangi percakapan lama dan hasil alat agar pekerjaan panjang bisa terus dilanjutkan
Strategi Advisor membuat Sonnet atau Haiku menangani sebagian besar pekerjaan, lalu memanggil Opus sebagai penasihat hanya saat dibutuhkan penilaian penting
Intinya bukan memanggil model lebih banyak, melainkan merancang context, alat, dan struktur cache seperti apa yang akan dipakai model untuk bekerja

Sesi 17 - Evaluating and improving Replit Agent at scale

Pengguna Replit Agent mengharapkan aplikasi yang bekerja hanya dari bahasa alami tanpa menentukan framework atau test
Seperti pada benchmark coding umum yang hanya melihat apakah patch lolos test, kualitas Replit Agent sulit diukur dengan cara itu
Evaluasi harus melihat apakah aplikasi berfungsi sesuai yang diminta pengguna
Replit menggunakan evaluasi offline dan evaluasi online secara bersamaan
Evaluasi offline berperan sebagai gerbang sebelum agent release baru, sementara evaluasi online dipakai untuk merespons cepat setelah penggunaan nyata
VibeBench adalah benchmark terbuka yang menggunakan 20 PRD nyata sebagai input untuk membuat aplikasi dari repositori kosong, lalu evaluator otomatis menguji aplikasi itu di browser
Sebagian besar model lebih kesulitan saat harus kembali memperluas kode yang mereka buat sendiri
Langkah test dan verifikasi perlu ditempatkan di antara fitur agar pekerjaan tidak terus ditumpuk di atas fondasi yang goyah
Telescope adalah sistem internal yang mengelompokkan jejak eksekusi produksi secara semantik untuk menemukan kegagalan long-tail, mengklasifikasikan masalah, membuat agent menyusun PR, lalu memverifikasinya dengan VibeBench atau A/B test
Evaluasi bukan daftar periksa akhir sebelum rilis, melainkan mesin untuk meningkatkan agen setiap hari

Sesi 18 - The capability curve

Pengguna Claude Code melakukan deployment lebih cepat dengan kepercayaan yang lebih besar dibanding tahun lalu
Dalam voting peserta saat presentasi, banyak peserta menjawab bahwa mereka merasakan peningkatan kecepatan 10x, 5x, dan 2x dengan Claude
Di SWE-bench Verified, Sonnet 3.7 mencatat sekitar 62%, dan Opus 4.7 mencatat 87%
Opus 4.7 memiliki kemungkinan lebih dari 3 kali lipat untuk berhasil menyelesaikan PR sulit yang sebelumnya gagal ditangani Sonnet 3.7
Dalam demo yang mereproduksi Claude.ai dengan prompt yang sama, model sebelumnya menghasilkan UI chat umum dan error, sementara Opus 4.7 mengimplementasikan warna Claude, respons API, riwayat chat, grafik inline, dan dark mode
Area yang meningkat adalah perencanaan, pemulihan error, dan menjaga perhatian selama eksekusi panjang
Model baru merencanakan lebih dulu, kembali mundur saat gagal, dan lebih baik mempertahankan system prompt serta tujuan bahkan dalam konteks panjang
Untuk melihat peningkatan nyata, perlu dibuat evaluasi dengan distribusi yang lebih dekat ke produk
Semakin baik modelnya, evaluasi yang ada akan semakin mudah jenuh, jadi evaluasi juga harus terus dibuat lebih sulit
Saat frontier model baru muncul, prosedur kalibrasi dan prompt yang ada perlu dicoba dipangkas lagi

Sesi 19 - Giving coding agents their own computers: How Cursor built cloud agents

Cursor memandang bottleneck-nya bukan pada kecerdasan model, melainkan pada manusia yang tidak mampu memberi model cukup alat, konteks, dan tujuan besar
Seperti saat melakukan onboarding developer manusia, agent juga perlu diberi komputer, lingkungan pengembangan, dan dokumentasi
Onboarding agent milik Cursor menjelajahi repositori dan memahami cara menjalankan aplikasi, layanan, environment variable, serta izin
AnyDev CLI adalah alat yang membantu agent menjalankan layanan, menunggu kesiapan, memeriksa status, hingga menangani pembuatan akun uji atau login
Semakin baik lingkungan pengembangan agent, semakin banyak cloud agent yang dijalankan developer dan semakin besar tugas yang dipercayakan
Prinsip dasar otonomi adalah memberi agent mata, alat, dan konteks yang baik
Agent harus bisa melihat status aplikasi, percakapan agent lain, dan status layanan seperti manusia
Cursor memandang computer use sebagai elemen dasar penting berikutnya setelah coding
Claude 4.7 memungkinkan agent merekam demo end-to-end secara langsung untuk memverifikasi fitur, dan membantu manusia memahami hasil dengan cepat sebelum code review
Cursor memandang agent experience sebagai objek desain tersendiri, dan bila agent menemui alur yang menjengkelkan, rusak, atau membingungkan, hal itu dicatat sebagai isu work on the factory
Tujuan akhirnya bukan manusia membimbing secara manual dari A ke D, melainkan membangun sistem yang bisa menyelesaikan dari A sampai Z