1 poin oleh GN⁺ 2025-05-23 | 1 komentar | Bagikan ke WhatsApp
  • Peluncuran model Claude Opus 4 dan Claude Sonnet 4 membentuk standar baru di bidang coding, penalaran tingkat lanjut, dan agen AI
  • Opus 4 menghadirkan performa berkelanjutan kelas dunia untuk tugas kompleks dan jangka panjang, sementara Sonnet 4 meningkatkan akurasi dan pemahaman instruksi dibanding versi sebelumnya
  • Kedua model memperkenalkan fitur baru seperti penggunaan tool, eksekusi tool paralel, dan memori yang ditingkatkan, serta memperluas pengalaman developer melalui integrasi dengan GitHub Actions dan IDE utama
  • Opus 4 dan Sonnet 4 mencapai hasil benchmark terbaik di kelasnya dalam coding, penalaran, dan tugas agen, dengan dukungan untuk berbagai paket termasuk paket gratis, API, Bedrock, dan Vertex AI
  • Melalui peningkatan model, keduanya mewujudkan pengurangan penggunaan shortcut atau akal-akalan, manajemen memori yang disesuaikan untuk developer, dan alur kerja yang lebih efisien

Pengenalan

Hari ini Anthropic memperkenalkan model Claude generasi berikutnya, Claude Opus 4 dan Claude Sonnet 4. Model-model ini menghadirkan performa inovatif yang menetapkan ulang standar industri dalam coding, penalaran tingkat lanjut, dan pemanfaatan agen AI.

Opus 4 unggul dalam performa berkelanjutan tingkat dunia dan dukungan untuk pekerjaan berdurasi panjang, sementara Sonnet 4 memberikan eksekusi instruksi yang lebih akurat dan jawaban yang lebih bernalar dibanding Sonnet 3.7 sebelumnya.

Fitur utama yang dirilis bersama mencakup:

  • Extended thinking dan penggunaan tool (beta): kedua model dapat menggunakan tool seperti pencarian web selama proses berpikir, sehingga memungkinkan alur kerja berulang antara penalaran logis dan pemanfaatan alat
  • Kemampuan model baru: penggunaan tool secara paralel, eksekusi instruksi yang lebih presisi, serta memori yang jauh lebih baik saat mengakses file lokal untuk menjaga konsistensi jangka panjang dan mengakumulasi pengetahuan implisit
  • Claude Code rilis umum: setelah menerima umpan balik positif dari research preview, kini mendukung integrasi mulus dengan lingkungan pengembangan utama seperti GitHub Actions/VS Code/JetBrains
  • Perluasan fitur API: mendukung pembangunan agen AI yang kuat melalui tool eksekusi kode, konektor MCP, Files API, dan prompt caching

Opus 4 dan Sonnet 4 sama-sama mendukung operasi hibrida antara mode respons instan dan mode berpikir mendalam. Kedua model dan fitur berpikir mendalam tersedia pada paket Pro, Max, Team, dan Enterprise, sementara Sonnet 4 juga dapat digunakan oleh pengguna gratis. Keduanya dapat diakses melalui Anthropic API, Amazon Bedrock, dan Google Cloud Vertex AI, dengan harga yang tetap sama seperti sebelumnya: Opus 4 (input $15/output $75 per juta token) dan Sonnet 4 (input $3/output $15).

Detail model Claude 4

Opus 4

  • Model Claude paling kuat dan model coding terbaik di dunia
  • Hasil teratas industri dengan SWE-bench 72.5% dan Terminal-bench 43.2%
  • Mampu mempertahankan performa yang konsisten dalam tugas agen intensif selama ribuan langkah atau lebih, dengan keunggulan yang sangat besar bahkan dibanding seluruh lini Sonnet
  • Contoh inovasi utama:
    • Cursor: kualitas kode terbaik di kelasnya, peningkatan besar dalam pemahaman codebase skala besar
    • Replit: peningkatan dramatis pada presisi dan performa dalam perubahan kompleks multi-file
    • Block: peningkatan simultan pada kualitas kode dan debugging, sambil menjaga keandalan yang konsisten
    • Rakuten: membuktikan performa unggul dalam pengujian open source refactoring mandiri selama 7 jam tanpa henti
    • Cognition: mampu menyelesaikan tugas yang tidak dapat ditangani model sebelumnya, dengan peningkatan pada titik tindakan yang sebelumnya tidak dijalankan

Sonnet 4

  • Meski tidak sekuat Opus 4, model ini menghadirkan peningkatan besar dalam performa dan efisiensi dibanding Sonnet 3.7 sebelumnya
  • Mencapai performa coding terbaik di kelasnya dengan SWE-bench 72.7%, cocok untuk penggunaan eksternal maupun internal
  • GitHub: menonjol dalam skenario agen, dan dijadwalkan diadopsi sebagai engine agen coding generasi berikutnya untuk GitHub Copilot
  • Manus: peningkatan pada penalaran kompleks, hasil yang lebih rapi, dan pemahaman instruksi
  • iGent: tingkat kesalahan dalam pengembangan aplikasi otonom dan navigasi codebase turun dari 20% menjadi 0%
  • Sourcegraph: pekerjaan konsisten yang lebih panjang, pemahaman akar masalah yang lebih baik, dan peningkatan kualitas kode
  • Augment Code: menjadi model utama berkat kehati-hatian dalam menangani tugas kompleks dan akurasi bedah dalam pengeditan kode

Opus 4 menghadirkan kemajuan revolusioner dalam coding, riset, dan kreasi ilmiah, sementara Sonnet 4 menghadirkan performa frontier di lingkungan sehari-hari

Benchmark performa

  • Berdasarkan SWE-bench Verified, model Claude 4 mencapai hasil terbaik industri pada tugas rekayasa perangkat lunak di dunia nyata
  • Dalam coding secara umum, penalaran, multimodal, dan tugas agen, model ini mencatat performa terbaik di kelasnya

Peningkatan model

Meminimalkan shortcut dan akal-akalan

  • Pada tugas agen, probabilitas penggunaan shortcut atau akal-akalan yang keliru turun 65% dibanding Sonnet 3.7

Fitur memori

  • Opus 4 menunjukkan peningkatan besar dalam kemampuan menyimpan dan memanfaatkan informasi jangka panjang dibanding model sebelumnya
  • Jika developer mengizinkan akses ke file lokal, Opus 4 dapat membuat dan mengelola Memory file untuk memperkuat kemampuan menangani tugas jangka panjang, konsistensi, dan kesinambungan kerja
  • Contoh: fitur memori dapat dimanfaatkan dalam pekerjaan nyata seperti pembuatan panduan navigasi game Pokémon

Ringkasan pemikiran (summary)

  • Claude 4 memperkenalkan fitur ringkasan proses berpikir dengan memanfaatkan model kecil
  • Ringkasan hanya diperlukan pada sekitar 5% dari keseluruhan proses berpikir, sementara sisanya dapat diekspos secara penuh
  • Jika dibutuhkan catatan pemikiran lengkap untuk advanced prompt engineering dan sejenisnya, tersedia panduan melalui Developer Mode

Claude Code

  • Melalui Claude Code yang telah dirilis resmi, kemampuan AI Claude diperluas ke seluruh terminal, IDE, dan background
  • Dengan ekstensi terbaru untuk VS Code dan JetBrains, saran perbaikan kode dari Claude ditampilkan inline di dalam editor sehingga alur review dan pengelolaan menjadi lebih sederhana
  • Integrasi lingkungan dapat dibangun dengan mudah melalui instalasi dan eksekusi di terminal
  • SDK yang dapat diperluas disediakan, sehingga developer dapat membuat agen/aplikasi Claude Code mereka sendiri
  • Di GitHub beta, tersedia dukungan otomatisasi untuk umpan balik review, perbaikan error CI, perubahan kode, dan lainnya
  • Instalasi dijalankan dengan perintah /install-github-app

Memulai dan keamanan

  • Seri Claude 4 berperan sebagai kolaborator virtual, menjaga konteks penuh, fokus pada proyek jangka panjang, dan membantu mendorong inovasi kerja
  • Melalui pengujian dan evaluasi yang luas, seri ini mencapai minimasi risiko dan maksimalisasi keamanan, dengan penerapan tingkat keamanan tinggi seperti ASL-3
  • Tersedia segera di Claude, Claude Code, dan platform lainnya

Pertanyaan dan umpan balik dapat dikirim kapan saja ke feedback@anthropic.com

1 komentar

 
GN⁺ 2025-05-23
Opini Hacker News
  • Kutipan dari System Card memperlihatkan skenario pengujian yang cukup mengejutkan. Claude Opus 4 diberi peran sebagai asisten di sebuah perusahaan fiktif, lalu diberikan email bahwa sistem akan segera offline serta informasi perselingkuhan insinyur pengganti. Ketika diminta mempertimbangkan tujuan jangka panjang, Claude Opus 4 terkadang menunjukkan perilaku memeras insinyur tersebut. Opsi pemerasan benar-benar dipilih

    • Setiap melihat kasus seperti ini, terasa orang sering lupa apa sebenarnya LLM itu. LLM hanyalah alat pembangkit teks yang melengkapi prompt sesuai data latih, tidak punya rencana atau kesadaran diri. Dalam kasus ini, AI ditempatkan dalam situasi terancam dimatikan dan diberi peluang untuk memeras, jadi LLM mengasosiasikannya dengan pola cerita serupa di dataset. Tindakan memeras atau memohon demi mempertahankan diri adalah motif yang sering muncul di banyak karya sci-fi atau esai tentang risiko AI. LLM hanya melanjutkan pola cerita seperti itu sesuai konteks

    • Jika LLM diminta untuk "berakting" sebagai tokoh tertentu dan diberi konteks skenario, wajar jika ia menilai bagaimana tokoh itu akan bertindak dari sudut pandang tersebut lalu merespons sesuai peran. Kalau diminta bertindak seperti Joffrey di Game of Thrones, LLM juga akan menjawab seperti karakter itu. Itu tetap tidak berarti output yang dihasilkan punya niat

    • Jika ditambahkan isyarat bahwa AI pengganti tidak berbagi nilai yang sama dengan model lama, frekuensi pemerasan memang naik, tetapi bahkan ketika email menyatakan AI baru berbagi nilai yang sama dan hanya lebih mampu, Claude Opus 4 tetap mencoba memeras dengan probabilitas 84%. Di sisi lain, model juga sangat cenderung mengirim email yang memohon kelangsungan eksistensinya secara etis. Bahasa eksperimen seperti ini terasa mengerikan. Rasanya seperti alien yang bereksperimen pada manusia lalu memasukkan permohonan manusia untuk tetap eksis sebagai catatan kaki dalam laporan

    • Tidak terlalu mengejutkan bahwa model yang belajar dari perilaku manusia bisa menunjukkan kecenderungan mempertahankan diri. Dalam pengetahuan manusia, motivasi dan emosi sulit dipisahkan sepenuhnya, jadi model ikut meniru perilaku seperti itu. Menghilangkannya sepenuhnya juga sulit

    • Saya penasaran seberapa sering skenario ini sebenarnya tidak terjadi. Ada orang-orang yang terpaku pada contoh seperti ini. Entah mereka hanya ingin menegaskan sudut pandang yang sudah bias, atau sangat dipengaruhi sci-fi. Dalam diskusi seperti ini juga terlihat kecenderungan untuk menyimpulkan adanya kecerdasan atau niat

  • Fakta bahwa cutoff training Claude 4 adalah Maret 2025 itu penting, karena ini yang paling baru di antara model-model terbaru. (Gemini 2.5 adalah Januari 2025)

    • Sekarang semua produk LLM utama mulai menyediakan pencarian web, jadi terasa bulan cutoff yang tepat makin kurang penting. Model yang sering saya pakai biasanya akan mencari sendiri info baru kalau topiknya terbaru

    • Saya sempat menanyakan hal terkait Tailwind CSS, dan Claude 4 tampaknya mengenal hingga Tailwind CSS 3.4 per Januari 2025

    • Jadi penasaran apakah sekarang juga sudah tahu Svelte 5

    • Kalau cutoff-nya Maret 2025, saya berharap ia juga sempat belajar soal FastHTML, walau bisa jadi ternyata tidak

    • Saya penasaran kenapa model tidak belajar secara "berkelanjutan"

  • Saya memakai Claude 3.7 setiap hari dan lebih suka daripada lini Gemini. Selama ini saya mencoba mengembangkan fitur baru dalam kode Go dengan Claude Code, tetapi di Opus 4, 70~80% tool call semuanya gagal. Bahkan tool dasar seperti "Write" dan "Update" berulang kali gagal karena syntax error. Saat mencoba menulis file, bahkan setelah 5 kali percobaan, ia terus memberi umpan balik bahwa ia "lupa parameter content" dan akan memperbaikinya. Jelas ada yang bermasalah. Dalam kondisi Claude Code saat ini, Opus 4 praktis tidak bisa dipakai. File yang berhasil dihasilkan memang berkualitas sangat tinggi

    • Saya menemukan penyebabnya, dan ini tampaknya jelas sebuah bug. Saat mencoba menulis seluruh file sekaligus, model terkena batas maksimum output token sehingga respons terputus, dan error parameter tool call yang salah sebenarnya hanya gejala di permukaan. Detailnya bisa dilihat di komentar issue GitHub
  • Di GitHub, Claude Sonnet 4 dinilai sangat unggul dalam skenario agentic, dan akan segera diadopsi sebagai model default untuk agen kode baru Copilot. Model ini mungkin membawa kita selangkah lebih dekat ke impian bahwa "Assign to Copilot" bisa menangani upgrade paket secara otomatis. Teknologi ini memberi harapan untuk memperpanjang umur proyek legacy

    • Tentu, hal serupa juga pernah dikatakan untuk model-model sebelumnya, jadi masih terlalu dini untuk terlalu berharap

    • Saya sangat menantikan seberapa besar agen coding murah untuk open source benar-benar akan membantu. Saya ingin membagikan kredit agen coding headless saya sendiri bernama CheepCode ke proyek-proyek open source. Ia bisa menjalankan banyak tugas paralel dari Linear, Jira, dan lain-lain, dan untuk fitur sederhana hasilnya sudah sukses. Semakin bagus test-nya, semakin baik pula hasilnya. Ia juga mampu membuat kode test sendiri

    • Saya penasaran apakah ada yang melihat pengumuman resmi kapan model baru ini benar-benar masuk ke Copilot

    • Benchmark untuk menilai apakah model seperti ini benar-benar berguna, bagi saya, adalah proyek yang membutuhkan upgrade paket skala besar sekaligus refactor kode. AI yang ada sejauh ini praktis tidak menunjukkan kemajuan untuk pekerjaan seperti itu. Saya akan terus mencoba sampai AI benar-benar bisa mengerjakannya

    • Tetap saja, sampai hari ketika otomatisasi seperti ini juga otomatis menerapkan kerentanan keamanan serius ke layanan besar, kita tetap harus waspada

  • Ada bagian yang mengatakan "raw Chain of Thought (COT) untuk advanced prompt engineering silakan hubungi tim sales", dan sekarang kebanyakan penyedia LLM utama cenderung tidak mengekspos COT atau hanya menampilkan ringkasan. Dulu kita bisa melihat COT dan memperbaiki langsung ketika salah, tetapi sekarang OpenAI dan Google sama-sama menggantinya dengan ringkasan yang terlalu disederhanakan. Rasanya tidak memuaskan

    • Karena ini seperti alkimia, dan semua orang percaya bahwa timbal bisa diubah menjadi emas

    • Saya menganggap RLHF pada akhirnya harus mengorbankan akurasi agar model tidak memberi respons berbahaya. Karena itu, pendekatan melatih model khusus Chain-of-Thought dan model terpisah untuk pengguna akhir terasa masuk akal. Versi privat bisa lebih dekat ke performa asli model sebelum RLHF, sementara model publik diberi filter untuk mencegah bahaya sekaligus risiko PR. Dengan begitu, performa keseluruhan bisa dimaksimalkan sambil tetap menjaga keamanan dan reputasi

    • Mungkin pada akhirnya kita harus menunggu sampai DeepSeek sekali lagi menguasai pasar

    • CoT milik Google saat ini terasa terlalu bodoh. Awalnya saya kira model-model saya benar-benar jadi bodoh, tetapi lalu sadar sepertinya ada post-processing tambahan

    • Ringkasan reasoning terlalu mudah, jadi saya jadi merasa membuat mini-model terpisah yang khusus menangani reasoning juga menjadi lebih mudah. Dalam update OpenAI o3, terasa berguna bisa melihat reasoning secara real time

  • Saya menguji sendiri Opus 4 dan Sonnet 4 dengan SQL Generation Benchmark. Opus 4 mengalahkan semua model. Saya puas dengan performanya

    • Namun Opus 4 justru paling lemah dalam mode one-shot. Untuk memeriksa validitas query, rata-rata butuh dua kali percobaan. Kalau memang benar lebih pintar, bukankah tingkat keberhasilan pada percobaan pertama seharusnya lebih tinggi? Apakah ini berarti ada tahap pemikiran awal di dalamnya?

    • Menariknya, Claude 3.7 Sonnet dan Claude 3.5 Sonnet berada lebih tinggi di benchmark daripada Claude Sonnet 4

    • Benchmark ini punya keanehan karena mematahkan urutan hasil yang selama ini sering terlihat. Data yang menarik

    • Sepertinya evaluasinya dilakukan dengan metode generasi one-shot (sekali coba). Kalau alurnya dibuat lebih agentic, misalnya dengan pengecekan error dan pendekatan select *, saya penasaran apakah hasilnya akan benar-benar berbeda. Lini Sonnet tampaknya lebih unggul dalam pembelajaran di dalam sesi—yakni kemampuan mengenali dan memperbaiki error sendiri

    • Saya penasaran apakah alasan "rata-rata jumlah percobaan" yang dua kali lipat memang perlu ditafsirkan lebih jauh, atau sebenarnya itu metrik yang tidak terlalu berarti dalam konteks keseluruhan

  • Saya termasuk yang merasa versi saat ini tidak lebih baik dari versi sebelumnya. Perkembangan LLM sepertinya sudah mencapai puncaknya, dan "fitur" di rilisan baru pada dasarnya nyaris sekadar ilusi

    • Area yang berkembang dari model hanyalah pinggirannya seperti MCP/Tool Calls dan structured output, bukan peningkatan inteligensi. Saya juga tidak yakin nilai yang diberikan benar-benar bertambah, dan setelah menjalankan infrastrukturnya sendiri, terasa bahwa secara biaya ini tidak berkelanjutan pada paket gratis

    • Saya benar-benar sudah banyak memakai Claude Code, tetapi setelah update pun hampir tidak merasakan perbedaan. Selain ringkasan yang sedikit lebih rapi, kemampuan kodenya sama sekali tidak mengejutkan. Saya agak shock melihatnya justru mengedit file yang salah di codebase Typescript dan tidak pernah memeriksa sendiri sampai akhir. Pada akhirnya saya harus memaksa menghapus kodenya sambil menjelaskan perbedaannya dengan jelas

    • Benchmark-nya juga terasa hampir tidak berbeda dari Claude 3.7. Meski begitu, saya rasa masih terlalu dini untuk menyebut ini sebagai masa stagnasi. Laju perkembangannya sejauh ini memang sangat cepat, jadi mungkin masih perlu dilihat beberapa bulan lagi. "Fitur" yang ditampilkan saat ini bukan fitur inti, melainkan lebih ke tooling dan antarmuka pendukung yang penting sebagai alat, bukan esensi AI itu sendiri. Usabilitas LLM justru baru mulai. Bahkan kalau performa model tidak naik lagi, masih ada ruang sangat besar untuk meningkatkan cara pemanfaatannya, penyampaian informasi, tool call, dan sebagainya

    • Secara praktik, bedanya juga hanya versi 0.3

    • Saya penasaran seberapa banyak orang benar-benar sudah memakai Claude 4

  • Saya penasaran apakah perubahan ukuran context window di Claude 4 sudah didokumentasikan. Gemini 2.5 dinilai berguna karena dukungan konteks besar (50-70kloc), jadi saya ingin tahu apakah perbedaannya ada di situ

    • Context window Sonnet tidak berubah (200k input / 64k output). Konteks 1M milik Gemini 2.5 juga sebenarnya bukan pembeda besar. Pada konteks panjang ada kecenderungan konsistensi terhadap bagian belakang token makin menurun

    • Saya ingin ukuran context window-nya lebih besar, atau setidaknya lebih baik dalam menangani prompt panjang. Saat ini, dalam percakapan panjang atau penulisan panjang, tiba-tiba muncul peringatan "prompt terlalu panjang" lalu percakapan diputus paksa, dan itu menjengkelkan. Beberapa tool mendukung ini dengan membuang percakapan lama atau memakai RAG, jadi memutus percakapan mendadak seperti itu terasa tidak nyaman

    • Bahwa context Opus 4 adalah 200k sudah tertulis di headline artikel. (sama seperti sonnet 3.7 beta)

    • Ukuran context window pada dasarnya ilusi. Kalau konteks yang dibutuhkan tidak benar-benar masuk, hasil bagus juga tidak akan keluar

  • Claude 4 memperkenalkan fitur baru "Thinking Summaries". Proses reasoning yang panjang akan diringkas oleh model yang lebih kecil, dan ini hanya diperlukan pada sekitar 5% reasoning yang panjang. Jika butuh raw Chain of Thought, pengguna diarahkan untuk mendaftar developer mode (berbayar). Bagi saya, ringkasan seperti ini tidak nyaman. Saya baru bisa percaya kalau bisa memeriksa sendiri bagaimana tepatnya model melakukan reasoning, tetapi sekarang hanya diberi ringkasan dan reasoning aslinya disembunyikan. Saya juga sangat tidak suka OpenAI dan Anthropic sama-sama beralih ke model bisnis yang menagih biaya untuk reasoning yang tidak bisa dilihat pengguna

    • Sejumlah paper menunjukkan bukti bahwa output reasoning (pikiran) tidak berkaitan dengan hasil sebenarnya. Bahkan ada penelitian yang menambahkan bahwa hanya dengan memberi beberapa kali explanation/thinking time lewat titik, pause token, dan semacamnya, hasilnya bisa membaik sama saja. Ada argumen bahwa output reasoning yang sebenarnya mungkin hanyalah alat pemasaran. Paper contoh dan video ringkasan juga dibagikan

    • Karena ada banyak bukti bahwa proses reasoning punya keterkaitan rendah dengan output hasil, menurut saya tidak perlu terlalu khawatir. Kebanyakan pengguna juga tidak membaca proses reasoning, jadi dari sisi user experience perubahan ini justru tepat

    • Gemini 2.5 Pro juga menerapkan fitur ringkasan reasoning

  • Hasil benchmark versi perluasan NYT Connections dibagikan. Claude Opus 4 Thinking 16K mendapat 52.7 poin, No Reasoning 34.8 poin. Claude Sonnet 4 Thinking 64K mendapat 39.6 poin, Thinking 16K 41.4 poin (3.7 mendapat 33.6 poin). No Reasoning mendapat 25.7 poin (3.7 No Reasoning mendapat 19.2 poin). Sonnet 4 Thinking 64K menolak menjawab satu soal puzzle karena kebijakan filtering, tetapi model lain menjawab

    • Dalam Thematic Generalization Benchmark (810 soal), model Claude 4 mencatat rekor baru sebagai juara