- Konferensi pengembang Anthropic: diselenggarakan secara online dan offline, dengan acara offline berlangsung di San Francisco 5/6, London 5/19, Tokyo 6/10. Di acara San Francisco, video dari 19 sesi telah dipublikasikan
- Claude berkembang ke arah menangani tugas yang lebih panjang, memori jangka panjang, penggunaan lebih banyak alat, dan verifikasi yang lebih baik
- Perubahan utamanya adalah eksekusi berulang, pemilihan alat, verifikasi, memori, dan pengelolaan konteks yang sebelumnya dibuat langsung oleh pengembang kini masuk ke dalam produk dan platform Claude
- Diferensiasi produk dan organisasi bergeser dari bagaimana memanggil model menjadi bagaimana membuka alat, data, izin, dan konteks kepada model
- Lebih dari sekadar menulis kode, verifikasi, keamanan, manajemen izin, observabilitas, kerangka evaluasi, dan operasi organisasi menjadi bottleneck baru yang semakin besar
- Area penting ke depan adalah alat kustom, memori yang dapat dipercaya, evaluasi, batas keamanan, context engineering, dan agent experience
- Fokusnya ada pada peningkatan produk agar Claude Code dan Claude Platform bekerja lebih baik untuk pengembang
- Sebagian besar pengguna memakai Claude di dalam produk yang dibuat pengembang, bukan langsung melalui Claude API atau terminal
- Penggunaan API Claude Platform meningkat hampir 17 kali lipat dibanding tahun sebelumnya
- Pengembang Claude Code rata-rata menjalankan Claude selama 20 jam per minggu
- Batas penggunaan 5 jam di Claude Code diperluas menjadi dua kali lipat untuk Pro, Max, Team, dan seat-based Enterprise plans
- Batas API Claude Opus juga naik secara signifikan
- Anthropic ingin menyediakan lebih banyak sumber daya komputasi untuk pengembang individu dan tim kecil dengan memanfaatkan kapasitas pusat data Colossus One milik SpaceX
- Opus 4.7 meningkatkan performa coding agent, kualitas perencanaan, dan tingkat penyelesaian tugas engineering nyata di Amp, Rakuten, dan Intuit
- Claude ke depan bergerak menuju penilaian yang lebih baik, konteks dan memori yang lebih besar, serta kolaborasi banyak agen
- Fitur baru Claude Code dikelompokkan ke dalam dua sumbu: kemudahan penggunaan bagi pengembang dan penguatan otonomi
- Remote Control memungkinkan sesi yang dimulai di terminal dilanjutkan di web atau mobile
- Full screen terminal UI menggunakan virtual scrollback untuk menghadirkan rendering tanpa kedipan dan layar pemanggilan alat yang bisa diklik
- GUI Claude Code kini memungkinkan pengelolaan beberapa sesi dengan pin, filter, pengelompokan, dan split screen
- Di plan view, diff view, dan files view, pengguna bisa meninggalkan komentar per baris dan Claude dapat mengumpulkannya lalu memprosesnya nanti
- Auto Mode mengklasifikasikan apakah pemanggilan alat bersifat destruktif atau tampak seperti prompt injection, lalu mengeksekusinya tanpa konfirmasi izin jika dinilai aman
- Worktree memungkinkan beberapa sesi Claude bekerja paralel di branch dan salinan file yang terisolasi masing-masing
- Auto memory membuat Claude mengelola
memory.md dan file terkait per proyek, lalu menggunakan kembali perintah build, petunjuk debugging, dan preferensi proyek pada sesi berikutnya
- Routines dan
/loop membuat sesi Claude Code dapat dijalankan otomatis melalui cron, GitHub webhook, dan API trigger
- Memory diposisikan sebagai elemen dasar tahap berikutnya setelah MCP, Claude Code, Agent SDK, dan Skills
- Memori pada Claude Managed Agents disusun seperti file system, sehingga Claude dapat menata dan memperbaruinya langsung dengan Bash dan Grep
- Opus 4.7 lebih baik dalam menilai apa yang perlu disimpan, bagaimana membagi file, dan bagaimana menjaga struktur memori
- Untuk memungkinkan banyak agen membaca dan menulis ke repositori memori yang sama, memori dapat dipisahkan menjadi memori organisasi read-only dan memori kerja read-write
- Agar ratusan agen atau lebih dapat mengubah memori secara bersamaan tanpa saling menimpa, digunakan optimistic concurrency control berbasis content hash
- Riwayat perubahan, pihak pembuat, sesi, dan waktu disimpan agar memori dapat dikelola sebagai memori yang bisa diaudit di lingkungan enterprise
- Dreaming menganalisis sesi agen terbaru dan transcript secara asinkron untuk menemukan kesalahan berulang, strategi yang berhasil, memori duplikat, dan memori usang lalu merapikannya
- Harvey menerapkan Dreaming pada benchmark hukum dan meningkatkan tingkat penyelesaian tugas 6 kali lipat untuk satu skenario hukum
- Dalam demo SRE, Dreaming menemukan pola retry 60 detik yang terlewat ketika dilihat secara terpisah oleh beberapa agen, lalu mencerminkannya ke memori
- Tujuannya adalah struktur pembelajaran berkelanjutan di mana pekerjaan agen hari ini otomatis membuat agen besok menjadi lebih baik
- Pada skala GitHub Copilot, prompt caching menjadi cara utama untuk menurunkan biaya dan latensi
- Tingkat cache hit yang ditargetkan adalah 94-96%, dan sekitar 70% dipandang sebagai sinyal adanya masalah pada perakitan prompt atau desain caching
- Bagian depan dari system prompt dan daftar alat harus dijaga sestatis mungkin
- Jika UUID, waktu, atau dynamic tool loading masuk di bagian depan, cache akan mudah rusak
- Bahkan dalam harness yang berpindah-pindah antar model, cache friendliness perlu dijaga agar pemanggilan Opus dapat memakai kembali cache sebelumnya
- GitHub menjalankan model baru dengan urutan offline benchmark, penggunaan internal, A/B test, evaluasi online (eval), lalu optimasi pasca-rilis
- Strategi Advisor adalah struktur di mana model eksekusi murah menangani sebagian besar pekerjaan, dan Opus hanya dipanggil sebagai penasihat saat dibutuhkan penilaian penting
- Bukan model itu sendiri, melainkan lapisan operasional yang menggabungkan prompt, alat, cache, pemilihan model, evaluasi, dan feedback online yang menentukan kualitas dan biaya
- Kode pendukung yang tahun lalu harus dibuat sendiri kini mulai dimasukkan ke dalam model dan API
- Dalam penggunaan alat, nilai dari router manual atau retry decorator makin berkurang
- Claude kini bisa menemukan alat sendiri, memulihkan diri setelah melihat pemanggilan alat yang gagal, lalu memanggilnya lagi
- Dalam panduan alat, sebaiknya bukan hanya input tetapi juga skema output dituliskan
- Jika struktur output sudah diketahui sebelumnya, Claude dapat memanfaatkan hasil dengan lebih baik tanpa pemanggilan bolak-balik yang tidak perlu
- Hook alat pre/post di Claude Code dapat digunakan untuk memblokir pemanggilan tertentu atau otomatis mencatat dan menganalisis hasil
- Konteks 1 juta token, kompresi sisi server, dan context editing menyederhanakan pengelolaan konteks untuk tugas panjang
- Screenshot lama, hasil pencarian, dan hasil pembacaan file dapat dihapus secara berkala, sementara penilaian yang dihasilkan dari sana tetap dipertahankan
- Opus 4.7 dapat mengembalikan koordinat piksel 1:1 dari screenshot resolusi asli hingga 1440p, sehingga mengurangi beban koreksi koordinat dalam otomasi layar
- Kode yang menambal keterbatasan model berumur pendek, sementara kode yang menghubungkan alat, data, autentikasi, dan konteks domain yang tidak bisa dilihat Claude akan bertahan lebih lama
- Claude Managed Agents mengemas manajemen konteks, manajemen kredensial, keamanan, kontrol akses, tinjauan manusia, dan observabilitas yang dibutuhkan agen operasional yang berjalan dalam waktu lama ke dalam satu platform
- Konfigurasi dasarnya terdiri dari agent configuration, environment, dan session
- Melalui session events, pengguna dapat melihat event pengguna, event agen, event sesi, dan event segmen
- Console mengumpulkan pengaturan, environment, jejak eksekusi (trace) penuh, bottleneck, dan tindakan yang direkomendasikan dalam satu layar
- outcomes adalah fitur yang membuat Claude mengulang hingga memenuhi kriteria penghentian dan kriteria penilaian yang telah ditentukan sebelumnya
- Koordinasi beberapa agen, memori, dan Dreaming juga dibahas bersama sebagai fitur lanjutan
- Dalam demo dashboard, agen menemukan paralelisasi, fast mode, dan optimasi prompt sehingga waktu rendering berkurang dari sekitar 37 detik menjadi 10 detik
- Agen operasional tidak cukup hanya dengan loop pemanggilan model, tetapi juga harus memiliki pelacakan, analisis bottleneck, perizinan, dan verifikasi
- Anthropic mengalami kekurangan sumber daya komputasi karena pertumbuhan penggunaan dan pendapatan yang lebih cepat dari perkiraan
- Mereka ingin mengamankan kapasitas komputasi tambahan agar bisa memberikan lebih banyak kepada pengembang dan pengguna
- Pengembang diposisikan sebagai pengguna inti Claude sekaligus kelompok yang paling dulu menunjukkan bagaimana AI menyebar ke seluruh ekonomi
- Perubahan berikutnya pada Claude Code bergeser dari produktivitas pribadi ke produktivitas tim dan organisasi
- Semakin cepat penulisan kode, keamanan, verifikasi, keandalan, dan pemeliharaan menjadi bottleneck baru
- Karena kemampuan model berubah dengan cepat, produk yang beberapa bulan lalu mustahil tiba-tiba menjadi memungkinkan
- Pasar API akan tetap penting
- Ke depan, Claude akan bergerak melampaui membantu pekerjaan satu orang menuju memperbesar pekerjaan banyak orang dan banyak agen di seluruh organisasi
- Robobun milik Bun secara otomatis mereproduksi GitHub issue dan membuat PR yang mencakup pengujian
- Kondisi gagal di versi sebelumnya dan lolos di branch perbaikan dijadikan syarat pengajuan PR
CLAUDE.md menjadi dokumen operasional agen yang memuat perintah build, perintah test, lokasi test, pola kegagalan masa lalu, struktur folder, dan cara membaca log CI
- CodeRabbit, Claude Code Review, dan Robobun digunakan bersama untuk mengotomatiskan gaya, kepatuhan terhadap
CLAUDE.md, dan peninjauan edge case di luar diff
- Claude Code dan Opus 4.7 cocok untuk pekerjaan yang secara bertahap meningkatkan performa saat tujuan, cara pengukuran, dan iterasi verifikasi jelas
- Bottleneck bergeser dari penulisan kode ke perencanaan dan verifikasi
- PR yang dibuat agen tidak harus diperlakukan sebagai hasil yang wajib di-merge, tetapi dapat diperlakukan sebagai usulan yang bisa ditinjau
- Meski PR dari agen bertambah, standar merge manusia tidak menurun dan justru bisa menjadi lebih tinggi
- AI teammates milik Asana menargetkan agen yang bekerja seperti rekan kerja sungguhan di dalam perusahaan
- Agen menjadi actor yang menangani persetujuan, workflow, dan pekerjaan multi-tahap bersama manusia
- Penggunaan agen di banyak perusahaan masih bertahan pada alur pengguna tunggal, di mana satu orang menerima hasil lalu meneruskannya ke orang berikutnya
- Asana mengarah pada alur kerja kolaboratif, di mana beberapa orang berinteraksi dengan agen yang sama dan pengetahuan serta memori terus terakumulasi
- Asana work graph menghubungkan tujuan, portofolio, proyek, tugas, persetujuan, dan keputusan masa lalu untuk digunakan sebagai konteks agen
- AI teammate masuk ke sistem seperti rekan manusia dengan pengaturan bersama, kontrol akses berbasis peran, dan auditabilitas
- Claude Managed Agents menangani pekerjaan multi-tahap seperti menulis campaign brief dan membuat mockup landing page HTML
- Asana berfokus pada antarmuka manusia, konteks perusahaan, keamanan, dan auditabilitas, sementara Claude Managed Agents menangani iterasi verifikasi, grader, outcomes, dan eksekusi beberapa agen
- Lebih dari 21 AI teammates bawaan disediakan untuk pekerjaan PMO, pemasaran, TI, HR, dan R&D
- Umpan balik disimpan dalam memori agen agar pengguna berikutnya tidak mengalami kesalahan yang sama lagi
- Dalam organisasi engineering AI-native, throughput penulisan kode tidak lagi menjadi bottleneck paling mahal
- Verifikasi, review, keamanan, pemeliharaan, dan koordinasi lintas peran tumbuh menjadi bottleneck baru
- Dibanding roadmap 6 bulan atau dokumen desain sebelum semua pekerjaan dimulai, alur yang lebih cocok untuk tim Claude Code adalah merencanakan pada saat yang tepat dan cepat membuat prototipe
- Perdebatan teknis bergeser dari diskusi panjang di whiteboard menjadi membuat beberapa PR implementasi untuk membandingkan dampak nyata dan bentuk API
- Karena pembuatan kode menjadi lebih mudah, pengujian, otomatisasi, dan verifikasi yang lebih awal menjadi semakin penting
- Daripada “siapa yang menulis kode ini”, yang lebih penting adalah membedakan penyebab regresi, apakah jawaban ahli dibutuhkan, dan tujuan pengamanan konteks
- Tim Claude Code menyerahkan gaya, lint, umpan balik PR, beberapa perbaikan bug, dan penambahan test kepada Claude
- Tinjauan hukum, kode yang sensitif terhadap keamanan, batas kepercayaan, dan product sense tetap ditangani oleh ahli manusia
- Dalam perekrutan, mereka lebih menekankan builder kreatif dengan product sense dan keahlian sistem yang mendalam daripada throughput sederhana
- Metrik keberhasilan dapat dilihat dari waktu onboarding yang lebih singkat, siklus PR yang lebih pendek, dan meningkatnya commit yang dibantu Claude
- Gamma dengan cepat mencerminkan peningkatan tool calling dan koordinasi agen ke dalam produk untuk memperkuat alur editing berbasis agen
- Gamma memanfaatkan MCP connector bukan hanya sebagai fitur integrasi, tetapi juga sebagai titik masuk akuisisi pelanggan dan alur kerja
- Cognition mengurangi sebagian sistem perencanaan dan memorinya sendiri karena model menjadi lebih baik dalam pengeditan kode, penggunaan file system, dan perencanaan jangka panjang
- Harvey mendesain ulang struktur produknya pada setiap titik belok foundation model, model penalaran, dan coding agent
- Kemampuan platform Harvey saat ini akan sulit diperoleh jika bukan dengan struktur agent-native
- Produk AI-native harus berasumsi bahwa struktur yang ada bisa menjadi usang dalam 6–12 bulan
- Pencatatan, observabilitas, replay, dan evaluasi menjadi perangkat wajib untuk menghadapi perubahan struktur yang cepat
- Di bidang sensitif seperti hukum, dibutuhkan batas data yang kuat antara data publik, data privat, memori, dan alur agen
- Daripada struktur yang disesuaikan dengan keterbatasan model tertentu, yang menjadi lebih penting adalah struktur yang dapat dengan cepat menyerap lompatan kemampuan berikutnya
- Vercel memandang infrastruktur agentik sebagai arah inti
- Cloud dapat berkembang menjadi infrastruktur yang memulihkan diri sendiri, mengoptimalkan diri, dan mengubah konfigurasinya sendiri
- AI Gateway diperlakukan seperti CDN untuk token
- Ini menjadi lapisan yang menangani banyak penyedia dan model, sekaligus mengurus routing, respons gangguan, dan kontrol biaya
- Token Opus memiliki porsi pengeluaran yang jauh lebih besar daripada porsi penggunaannya, sehingga saat memasukkan model berinteligensi tinggi ke produk, struktur biayanya perlu dilihat dengan jelas
- Setelah mengadopsi Opus 4.5, V0 dapat menyederhanakan pemeriksaan tata bahasa, perbaikan otomatis, dan sebagian alur pemrosesan yang sebelumnya dipakai untuk mengoreksi model lama
- Lompatan kemampuan model tidak hanya menambah fitur baru, tetapi juga memicu perubahan berupa penghapusan kode koreksi yang sudah ada
- Setelah memperluas penggunaan Opus di V0, pengeluaran kredit produk meningkat 2x lipat
- Ke depan, selain pengembangan berbasis CLI dan UI, agen yang bersifat asinkron dan membutuhkan lebih sedikit pengawasan manusia bisa tumbuh lebih besar
- Test-time compute adalah sumbu di mana Claude memecahkan masalah sulit dengan menggunakan lebih banyak token dan waktu selama penalaran
- Opus 4.7 yang sama pun dapat menghasilkan kualitas simulasi lalu lintas yang sangat berbeda tergantung effort low, high, atau max
- Semakin banyak waktu dan token yang digunakan, grafik, aliran lalu lintas, dan pergerakan kendaraan menjadi lebih realistis
- Token yang digunakan Claude dibagi menjadi token penalaran, token pemanggilan alat, dan token teks
- Token penalaran dipakai untuk penalaran internal, token pemanggilan alat untuk interaksi dengan dunia luar, dan token teks untuk berkomunikasi dengan pengguna
- effort adalah pengatur yang merepresentasikan keseimbangan antara waktu, biaya, dan kualitas
- Task Budgets memungkinkan Claude menetapkan batas atas token, waktu, dan biaya yang bisa dipakai untuk tugas tertentu
- Adaptive thinking memungkinkan Claude secara bebas memilih urutan kapan perlu berpikir, menggunakan alat, dan menjawab pengguna
- Dalam coding dan use case agentik, extra high dianggap sebagai nilai default yang baik
- Untuk klasifikasi atau ekstraksi sederhana dalam jumlah besar, model kecil lebih menguntungkan, sementara untuk menyelesaikan pekerjaan yang memerlukan kecerdasan dengan cepat, effort rendah pada model besar bisa menjadi pilihan yang lebih baik
- Sekitar 90% engineer Datadog menggunakan alat coding AI pada kode produksi
- Di antaranya, setidaknya 2/3 menggunakan Claude Code
- Cakupan penggunaan alat coding AI meluas dari fungsi individual, test, dan glue code ke pekerjaan tingkat sistem
- Bottleneck berpindah dari penulisan kode ke iterasi umpan balik dan verifikasi produksi
- Dalam eksperimen Helix, Claude Code dapat membuat layanan streaming mirip Kafka hanya dalam beberapa hari
- Untuk membawanya ke lingkungan produksi, diperlukan shadowing, tangga validasi, dan mileage sistem
- Tempor membuat agen lebih dulu menyusun blueprint yang memuat state, transisi, efek, dan invariant, alih-alih membuat alat secara improvisasi
- Tabel transisi, dokumen kebijakan, efek bertipe, validator, dan property test membuat software yang dibuat agen menjadi dapat diperiksa
- Untuk memberi kebebasan kepada agent, invariant dan prosedur verifikasi pada sistem produksi harus dibuat agar bisa dibaca mesin
- Cara termudah menyiapkan Claude Code di Google Cloud menggunakan wizard konfigurasi berbasis Application Default Credentials
- Wizard konfigurasi dapat mendeteksi dan menetapkan project, region, serta model yang tersedia
- Saat menggunakan model Claude di Google Cloud, Anda bisa memanfaatkan penagihan berbasis token, provisioned throughput, berkurangnya beban rotasi API key, penerapan kebijakan project, data tetap berada di dalam project, serta endpoint regional/global
- Demo dijalankan sebagai alur lima peran—PM, UI/UX designer, software engineer, security engineer, dan data/growth marketer—yang menyelesaikan satu aplikasi feedback dari awal sampai akhir
- PM memasukkan wireframe gambar tangan ke Claude Code untuk membuat prototipe dengan cepat
- Pada tahap UI/UX, plan mode digunakan agar Claude mengeluarkan rencana terlebih dahulu sebelum implementasi
- Google Cloud developer knowledge API dan MCP server menghubungkan Claude Code dengan dokumentasi terbaru dan panduan arsitektur
- Google Cloud Skills digunakan untuk membantu implementasi blok individual seperti deployment API Cloud Run, atau menghubungkan Cloud Run dan Firestore
- Dengan sub-agent, implementasi API, pipeline pengumpulan, dan dashboard dijalankan secara paralel
- Security review prompt memeriksa masalah OWASP atau izin service account, memperbaiki masalah yang ditemukan, lalu melakukan deployment ke Cloud Run
- Prioritas optimasi agent produksi adalah prompt caching, context engineering, dan strategi Advisor
- Prompt caching mengurangi biaya token input, mempercepat time to first token, dan menurunkan beban batas penggunaan token yang di-cache
- Target hit rate cache diposisikan di kisaran 90%+
- Stabilitas prompt bagian awal, posisi definisi alat, dan posisi penyisipan nilai dinamis semuanya memengaruhi cache
- Tool search tool memanggil hanya definisi alat yang diperlukan pada saat yang tepat untuk menghemat context
- Jika semua alat dimasukkan sejak awal, beban pada context dan cache akan sama-sama membesar
- Programmatic tool calling tidak langsung memasukkan banyak hasil alat apa adanya, melainkan hanya memilih potongan yang diperlukan untuk dimasukkan ke context
- Compaction mengurangi percakapan lama dan hasil alat agar pekerjaan panjang bisa terus dilanjutkan
- Strategi Advisor membuat Sonnet atau Haiku menangani sebagian besar pekerjaan, lalu memanggil Opus sebagai penasihat hanya saat dibutuhkan penilaian penting
- Intinya bukan memanggil model lebih banyak, melainkan merancang context, alat, dan struktur cache seperti apa yang akan dipakai model untuk bekerja
- Pengguna Replit Agent mengharapkan aplikasi yang bekerja hanya dari bahasa alami tanpa menentukan framework atau test
- Seperti pada benchmark coding umum yang hanya melihat apakah patch lolos test, kualitas Replit Agent sulit diukur dengan cara itu
- Evaluasi harus melihat apakah aplikasi berfungsi sesuai yang diminta pengguna
- Replit menggunakan evaluasi offline dan evaluasi online secara bersamaan
- Evaluasi offline berperan sebagai gerbang sebelum agent release baru, sementara evaluasi online dipakai untuk merespons cepat setelah penggunaan nyata
- VibeBench adalah benchmark terbuka yang menggunakan 20 PRD nyata sebagai input untuk membuat aplikasi dari repositori kosong, lalu evaluator otomatis menguji aplikasi itu di browser
- Sebagian besar model lebih kesulitan saat harus kembali memperluas kode yang mereka buat sendiri
- Langkah test dan verifikasi perlu ditempatkan di antara fitur agar pekerjaan tidak terus ditumpuk di atas fondasi yang goyah
- Telescope adalah sistem internal yang mengelompokkan jejak eksekusi produksi secara semantik untuk menemukan kegagalan long-tail, mengklasifikasikan masalah, membuat agent menyusun PR, lalu memverifikasinya dengan VibeBench atau A/B test
- Evaluasi bukan daftar periksa akhir sebelum rilis, melainkan mesin untuk meningkatkan agen setiap hari
- Pengguna Claude Code melakukan deployment lebih cepat dengan kepercayaan yang lebih besar dibanding tahun lalu
- Dalam voting peserta saat presentasi, banyak peserta menjawab bahwa mereka merasakan peningkatan kecepatan 10x, 5x, dan 2x dengan Claude
- Di SWE-bench Verified, Sonnet 3.7 mencatat sekitar 62%, dan Opus 4.7 mencatat 87%
- Opus 4.7 memiliki kemungkinan lebih dari 3 kali lipat untuk berhasil menyelesaikan PR sulit yang sebelumnya gagal ditangani Sonnet 3.7
- Dalam demo yang mereproduksi Claude.ai dengan prompt yang sama, model sebelumnya menghasilkan UI chat umum dan error, sementara Opus 4.7 mengimplementasikan warna Claude, respons API, riwayat chat, grafik inline, dan dark mode
- Area yang meningkat adalah perencanaan, pemulihan error, dan menjaga perhatian selama eksekusi panjang
- Model baru merencanakan lebih dulu, kembali mundur saat gagal, dan lebih baik mempertahankan system prompt serta tujuan bahkan dalam konteks panjang
- Untuk melihat peningkatan nyata, perlu dibuat evaluasi dengan distribusi yang lebih dekat ke produk
- Semakin baik modelnya, evaluasi yang ada akan semakin mudah jenuh, jadi evaluasi juga harus terus dibuat lebih sulit
- Saat frontier model baru muncul, prosedur kalibrasi dan prompt yang ada perlu dicoba dipangkas lagi
- Cursor memandang bottleneck-nya bukan pada kecerdasan model, melainkan pada manusia yang tidak mampu memberi model cukup alat, konteks, dan tujuan besar
- Seperti saat melakukan onboarding developer manusia, agent juga perlu diberi komputer, lingkungan pengembangan, dan dokumentasi
- Onboarding agent milik Cursor menjelajahi repositori dan memahami cara menjalankan aplikasi, layanan, environment variable, serta izin
- AnyDev CLI adalah alat yang membantu agent menjalankan layanan, menunggu kesiapan, memeriksa status, hingga menangani pembuatan akun uji atau login
- Semakin baik lingkungan pengembangan agent, semakin banyak cloud agent yang dijalankan developer dan semakin besar tugas yang dipercayakan
- Prinsip dasar otonomi adalah memberi agent mata, alat, dan konteks yang baik
- Agent harus bisa melihat status aplikasi, percakapan agent lain, dan status layanan seperti manusia
- Cursor memandang computer use sebagai elemen dasar penting berikutnya setelah coding
- Claude 4.7 memungkinkan agent merekam demo end-to-end secara langsung untuk memverifikasi fitur, dan membantu manusia memahami hasil dengan cepat sebelum code review
- Cursor memandang agent experience sebagai objek desain tersendiri, dan bila agent menemui alur yang menjengkelkan, rusak, atau membingungkan, hal itu dicatat sebagai isu
work on the factory
- Tujuan akhirnya bukan manusia membimbing secara manual dari A ke D, melainkan membangun sistem yang bisa menyelesaikan dari A sampai Z
Belum ada komentar.