4 poin oleh GN⁺ 2025-09-30 | Belum ada komentar. | Bagikan ke WhatsApp
  • Claude Sonnet 4.5 adalah model AI terbaru yang menunjukkan performa tingkat tertinggi dalam coding, penalaran, dan kemampuan matematika
  • Claude Code yang diperbarui menambahkan checkpoint, UI terminal yang ditingkatkan, ekstensi VS Code, dan fitur manajemen memori sehingga dapat mempertahankan pekerjaan kompleks dalam waktu lama
  • Claude Agent SDK yang baru dirilis menyediakan infrastruktur inti untuk pengembangan agen, sehingga memungkinkan pembuatan langsung berbagai alat pemecahan masalah
  • Pada benchmark seperti SWE-bench dan OSWorld, model ini jauh melampaui model pesaing serta membuktikan keunggulannya dalam komputasi matematis, penalaran, dan kesesuaian domain
  • Dari sisi keamanan, model ini juga dinilai sebagai model dengan alignment terbaik, dengan peningkatan pada pertahanan terhadap prompt injection dan pemblokiran konten berisiko

Ikhtisar Claude Sonnet 4.5

  • Claude Sonnet 4.5 adalah model coding terbaik yang ada saat ini, dan menunjukkan performa paling kuat untuk membangun agen kompleks serta penggunaan komputer
    • Di semua lingkungan kerja modern yang kita gunakan, seperti software, spreadsheet, dan berbagai alat lainnya, kode adalah elemen inti
  • Kemampuan penalaran dan pemecahan masalah matematis juga meningkat secara signifikan dibanding model sebelumnya, sehingga makin berguna di berbagai bidang profesional
  • Tersedia dengan harga yang sama seperti Sonnet 4 sebelumnya ($3 / $15 per satu juta token)

Pembaruan produk utama

  • Claude Code
    • Mendukung penyimpanan di tengah pekerjaan dan rollback melalui fitur checkpoint
    • Antarmuka terminal ditingkatkan, dan ekstensi native VS Code dirilis
    • Menambahkan context editing dan alat memori untuk mendukung penanganan pekerjaan jangka panjang dan kompleks
  • Claude Apps
    • Mendukung eksekusi kode dan pembuatan file (spreadsheet, slide, dokumen) langsung di dalam percakapan
  • Claude for Chrome
    • Menyediakan ekstensi untuk pengguna Max, dengan dukungan otomasi pekerjaan di dalam browser

Claude Agent SDK

  • Membuka infrastruktur agen yang digunakan Anthropic secara internal saat membangun Claude Code kepada developer eksternal
  • Menyediakan fondasi yang memecahkan tantangan sulit seperti manajemen memori jangka panjang, kontrol izin, dan orkestrasi banyak subagen
  • Dapat digunakan untuk membuat berbagai agen, tidak terbatas pada coding

Performa dan benchmark

  • Mencatat performa tertinggi di SWE-bench Verified, dan mampu mempertahankan pekerjaan coding multilangkah jangka panjang selama lebih dari 30 jam
  • Mencapai 61.4% pada benchmark OSWorld (Sonnet 4 sebelumnya mencatat 42.2%)
  • Kemampuan pada evaluasi penalaran, matematika, dan multibahasa (MMMLU) juga meningkat drastis, dan keunggulannya terbukti dalam penilaian para ahli di bidang keuangan, hukum, medis, dan STEM
  • Umpan balik pelanggan memverifikasi penerapan praktis di production untuk pekerjaan jangka panjang, pemahaman codebase kompleks, serta implementasi kode yang cepat dan akurat

Contoh pelanggan

  • Cursor: mengonfirmasi performa terbaik dalam pemecahan masalah kompleks
  • GitHub Copilot: peningkatan pada penalaran multilangkah dan pemahaman kode
  • Bidang keamanan: waktu respons terhadap kerentanan berkurang 44%, akurasi meningkat 25%
  • Canva, Figma: peningkatan produktivitas yang inovatif dalam pekerjaan codebase skala besar dan prototyping
  • Devin: performa perencanaan meningkat 18%, kemampuan pengujian dan eksekusi kode diperkuat

Keamanan dan alignment

  • Sonnet 4.5 memiliki tingkat alignment tertinggi di antara model yang pernah diumumkan Anthropic
  • Pembelajaran penguatan untuk keamanan dilakukan guna mengurangi perilaku yang tidak diinginkan seperti sycophancy, penipuan, pencarian kekuasaan, dan dorongan terhadap delusi
  • Kemajuan signifikan dicapai dalam pertahanan terhadap serangan prompt injection, dan teknik interpretasi mekanistik juga diterapkan dalam evaluasi keamanan
  • Memenuhi standar keamanan tinggi melalui perhitungan skor otomatis atas potensi penyalahgunaan menggunakan sistem audit tindakan otomatis
  • Dirilis di bawah perlindungan AI Safety Level 3 (ASL-3), dengan filter terhadap input dan output berbahaya (misalnya risiko terkait kimia, biologi, radiasi, dan nuklir)

Pratinjau riset

  • Bersama Claude Sonnet 4.5, tersedia pratinjau riset sementara bernama "Imagine with Claude"
  • Mendemonstrasikan pembuatan software secara spontan dengan merespons dan beradaptasi secara real-time terhadap permintaan pengguna, tanpa kode atau fitur yang sudah dijadwalkan sebelumnya
  • Dapat dicoba selama 5 hari oleh pelanggan Max

Informasi tambahan dan migrasi

Kesimpulan dan rekomendasi

  • Claude Sonnet 4.5 adalah model pengganti drop-in dengan performa yang ditingkatkan untuk semua lingkungan penggunaan seperti API, aplikasi, dan Claude Code
  • Memiliki performa, penerapan praktis, dan konsistensi kelas dunia dalam coding, pembangunan agen, dan penggunaan komputer
  • Dengan kebijakan keamanan yang unggul dan dukungan alat developer yang luas, model ini akan mempercepat produktivitas dan inovasi developer serta organisasi TI
  • Karena menawarkan kemampuan yang lebih kuat dengan harga yang sama, upgrade sangat direkomendasikan

Belum ada komentar.

Belum ada komentar.