- Claude Sonnet 4.5 adalah model AI terbaru yang menunjukkan performa tingkat tertinggi dalam coding, penalaran, dan kemampuan matematika
- Claude Code yang diperbarui menambahkan checkpoint, UI terminal yang ditingkatkan, ekstensi VS Code, dan fitur manajemen memori sehingga dapat mempertahankan pekerjaan kompleks dalam waktu lama
- Claude Agent SDK yang baru dirilis menyediakan infrastruktur inti untuk pengembangan agen, sehingga memungkinkan pembuatan langsung berbagai alat pemecahan masalah
- Pada benchmark seperti SWE-bench dan OSWorld, model ini jauh melampaui model pesaing serta membuktikan keunggulannya dalam komputasi matematis, penalaran, dan kesesuaian domain
- Dari sisi keamanan, model ini juga dinilai sebagai model dengan alignment terbaik, dengan peningkatan pada pertahanan terhadap prompt injection dan pemblokiran konten berisiko
Ikhtisar Claude Sonnet 4.5
- Claude Sonnet 4.5 adalah model coding terbaik yang ada saat ini, dan menunjukkan performa paling kuat untuk membangun agen kompleks serta penggunaan komputer
- Di semua lingkungan kerja modern yang kita gunakan, seperti software, spreadsheet, dan berbagai alat lainnya, kode adalah elemen inti
- Kemampuan penalaran dan pemecahan masalah matematis juga meningkat secara signifikan dibanding model sebelumnya, sehingga makin berguna di berbagai bidang profesional
- Tersedia dengan harga yang sama seperti Sonnet 4 sebelumnya ($3 / $15 per satu juta token)
Pembaruan produk utama
- Claude Code
- Mendukung penyimpanan di tengah pekerjaan dan rollback melalui fitur checkpoint
- Antarmuka terminal ditingkatkan, dan ekstensi native VS Code dirilis
- Menambahkan context editing dan alat memori untuk mendukung penanganan pekerjaan jangka panjang dan kompleks
- Claude Apps
- Mendukung eksekusi kode dan pembuatan file (spreadsheet, slide, dokumen) langsung di dalam percakapan
- Claude for Chrome
- Menyediakan ekstensi untuk pengguna Max, dengan dukungan otomasi pekerjaan di dalam browser
Claude Agent SDK
- Membuka infrastruktur agen yang digunakan Anthropic secara internal saat membangun Claude Code kepada developer eksternal
- Menyediakan fondasi yang memecahkan tantangan sulit seperti manajemen memori jangka panjang, kontrol izin, dan orkestrasi banyak subagen
- Dapat digunakan untuk membuat berbagai agen, tidak terbatas pada coding
Performa dan benchmark
- Mencatat performa tertinggi di SWE-bench Verified, dan mampu mempertahankan pekerjaan coding multilangkah jangka panjang selama lebih dari 30 jam
- Mencapai 61.4% pada benchmark OSWorld (Sonnet 4 sebelumnya mencatat 42.2%)
- Kemampuan pada evaluasi penalaran, matematika, dan multibahasa (MMMLU) juga meningkat drastis, dan keunggulannya terbukti dalam penilaian para ahli di bidang keuangan, hukum, medis, dan STEM
- Umpan balik pelanggan memverifikasi penerapan praktis di production untuk pekerjaan jangka panjang, pemahaman codebase kompleks, serta implementasi kode yang cepat dan akurat
Contoh pelanggan
- Cursor: mengonfirmasi performa terbaik dalam pemecahan masalah kompleks
- GitHub Copilot: peningkatan pada penalaran multilangkah dan pemahaman kode
- Bidang keamanan: waktu respons terhadap kerentanan berkurang 44%, akurasi meningkat 25%
- Canva, Figma: peningkatan produktivitas yang inovatif dalam pekerjaan codebase skala besar dan prototyping
- Devin: performa perencanaan meningkat 18%, kemampuan pengujian dan eksekusi kode diperkuat
Keamanan dan alignment
- Sonnet 4.5 memiliki tingkat alignment tertinggi di antara model yang pernah diumumkan Anthropic
- Pembelajaran penguatan untuk keamanan dilakukan guna mengurangi perilaku yang tidak diinginkan seperti sycophancy, penipuan, pencarian kekuasaan, dan dorongan terhadap delusi
- Kemajuan signifikan dicapai dalam pertahanan terhadap serangan prompt injection, dan teknik interpretasi mekanistik juga diterapkan dalam evaluasi keamanan
- Memenuhi standar keamanan tinggi melalui perhitungan skor otomatis atas potensi penyalahgunaan menggunakan sistem audit tindakan otomatis
- Dirilis di bawah perlindungan AI Safety Level 3 (ASL-3), dengan filter terhadap input dan output berbahaya (misalnya risiko terkait kimia, biologi, radiasi, dan nuklir)
Pratinjau riset
- Bersama Claude Sonnet 4.5, tersedia pratinjau riset sementara bernama "Imagine with Claude"
- Mendemonstrasikan pembuatan software secara spontan dengan merespons dan beradaptasi secara real-time terhadap permintaan pengguna, tanpa kode atau fitur yang sudah dijadwalkan sebelumnya
- Dapat dicoba selama 5 hari oleh pelanggan Max
Informasi tambahan dan migrasi
- Bagi pengguna produk Claude dan API yang sudah ada, Sonnet 4.5 dapat langsung diterapkan, dengan harga yang sama seperti Sonnet 4 ($3/$15 per satu juta token)
- Fitur baru seperti coding, pembuatan file, dan eksekusi kode tersedia di semua paket berbayar
- Detail teknis lebih lanjut, hasil evaluasi, dan lainnya dapat dilihat di System Card, Claude Model page, dokumentasi resmi
- Lihat juga tautan pengembangan agen dengan Claude Agent SDK, keamanan siber, dan context engineering yang efektif
Kesimpulan dan rekomendasi
- Claude Sonnet 4.5 adalah model pengganti drop-in dengan performa yang ditingkatkan untuk semua lingkungan penggunaan seperti API, aplikasi, dan Claude Code
- Memiliki performa, penerapan praktis, dan konsistensi kelas dunia dalam coding, pembangunan agen, dan penggunaan komputer
- Dengan kebijakan keamanan yang unggul dan dukungan alat developer yang luas, model ini akan mempercepat produktivitas dan inovasi developer serta organisasi TI
- Karena menawarkan kemampuan yang lebih kuat dengan harga yang sama, upgrade sangat direkomendasikan
Belum ada komentar.