9 poin oleh GN⁺ 2026-02-18 | 1 komentar | Bagikan ke WhatsApp
  • Model Sonnet terbaru dari Anthropic dengan peningkatan performa di semua area, termasuk penulisan kode, penggunaan komputer, penalaran jangka panjang, perencanaan agen, kerja berbasis pengetahuan, dan desain
  • Mendukung jendela konteks 1M token, dengan peningkatan besar pada konsistensi, eksekusi instruksi, dan kualitas kode dibanding Sonnet 4.5
  • Menawarkan kecerdasan setingkat Opus 4.5 dengan biaya lebih rendah, serta menunjukkan hasil setara manusia dalam pekerjaan nyata, pemahaman dokumen, dan desain frontend
  • Dalam benchmark OSWorld, kemampuan penggunaan komputer terus meningkat, dan ketahanan terhadap prompt injection juga diperkuat
  • Poin utamanya adalah developer dan perusahaan kini bisa memanfaatkan penalaran kelas frontier dan kualitas kode tinggi tanpa model berbiaya mahal

Ikhtisar Claude Sonnet 4.6

  • Sonnet 4.6 adalah model paling kuat di seri Sonnet milik Anthropic, dengan peningkatan menyeluruh pada kemampuan coding, penggunaan komputer, penalaran jangka panjang, kerja berbasis pengetahuan, dan desain
    • Mendukung jendela konteks 1M token (beta) sehingga dapat memproses codebase besar atau dokumen panjang sekaligus
  • Diterapkan sebagai model default untuk pengguna paket Free dan Pro, dengan harga tetap sama seperti Sonnet 4.5 yaitu $3/$15 per 1 juta token
  • Pengguna awal sangat lebih menyukai Sonnet 4.6 dibanding Sonnet 4.5, dan sebagian bahkan lebih menyukainya daripada Opus 4.5
  • Berdasarkan evaluasi keamanan, model ini dinilai lebih aman atau setara dengan model sebelumnya, serta menunjukkan “kepribadian yang hangat, jujur, dan prososial”

Kemampuan penggunaan komputer

  • Sonnet 4.6 berkembang menjadi model yang dapat mengoperasikan komputer seperti manusia
    • Dievaluasi melalui benchmark OSWorld dengan mengoperasikan software nyata seperti Chrome, LibreOffice, dan VS Code di lingkungan virtual
  • Setelah peningkatan performa berkelanjutan selama 16 bulan, model ini menunjukkan kemampuan setingkat manusia dalam tugas seperti menavigasi spreadsheet kompleks atau mengisi web form multilangkah
  • Meski masih belum menyamai manusia dengan tingkat keahlian tertinggi, kecepatan peningkatan efisiensi kerja sangat tinggi
  • Ketahanan terhadap serangan prompt injection meningkat signifikan dibanding Sonnet 4.5, mencapai tingkat keamanan serupa dengan Opus 4.6

Evaluasi performa dan benchmark

  • Sonnet 4.6 menghadirkan kecerdasan kelas Opus dengan biaya lebih rendah, dengan peningkatan menyeluruh di berbagai benchmark
    • Dalam pengujian Claude Code, 70% pengguna lebih memilih Sonnet 4.6, dengan peningkatan pada pemahaman konteks saat mengubah kode dan kemampuan meminimalkan duplikasi
    • 59% lebih disukai dibanding Opus 4.5, dengan penurunan kecenderungan over-engineering atau kemalasan, serta peningkatan akurasi dalam mengikuti instruksi
  • Di Vending-Bench Arena, model ini melampaui model pesaing dalam simulasi manajemen jangka panjang melalui strategi fokus pada laba di fase akhir setelah investasi awal
  • Di OfficeQA, kemampuan pemahaman dokumennya setara dengan Opus 4.6, dan di Financial Services Benchmark tingkat kecocokan jawaban meningkat
  • Mencatat akurasi 94% pada benchmark asuransi dan peningkatan 15% dalam performa penalaran mendalam pada pengujian Box
  • Dalam pengujian Rakuten AI, model ini menghasilkan kode iOS kelas atas, dengan pemanfaatan tooling modern dan kualitas arsitektur yang lebih baik

Pembaruan produk dan platform

  • Di Claude Developer Platform, kini didukung adaptive thinking, extended thinking, dan context compaction (beta)
    • Konteks lama diringkas secara otomatis untuk meningkatkan panjang konteks efektif
  • Pembaruan tool API:
    • web search dan fetch secara otomatis menulis dan menjalankan kode untuk memfilter hasil pencarian
    • Fitur seperti code execution, memory, programmatic tool calling, dan tool search kini tersedia secara umum
  • Add-in Claude in Excel mendukung konektor MCP, sehingga dapat terhubung dengan data eksternal seperti S&P Global, LSEG, dan PitchBook
  • Sonnet 4.6 tetap mempertahankan performa tinggi bahkan tanpa extended thinking, dan pengguna Sonnet 4.5 disarankan untuk bermigrasi
  • Opus 4.6 tetap paling cocok untuk tugas yang memerlukan penalaran terdalam, seperti refactoring kode dan koordinasi multi-agent

Jalur ketersediaan

  • Sonnet 4.6 tersedia di semua paket Claude, Claude Cowork, Claude Code, API, dan platform cloud utama
  • Paket gratis juga di-upgrade ke Sonnet 4.6, termasuk fitur pembuatan file, konektor, skill, dan compaction
  • Developer dapat langsung menggunakannya di Claude API melalui nama model claude-sonnet-4-6

Angka utama dan metrik evaluasi (ringkasan catatan kaki)

  • OSWorld: evaluasi tugas komputer berbasis software nyata, Sonnet 4.6 diukur dalam kondisi ‘thinking off’
  • SWE-bench Verified: skor rata-rata 80.2% dari 10 kali percobaan
  • ARC-AGI-2: mencapai 60.4% dalam mode upaya maksimum
  • MMMU-Pro: skor disesuaikan setelah perbaikan metode evaluasi
  • Dalam berbagai eksperimen seperti Humanity’s Last Exam dan BrowseComp, pengujian dilakukan dengan penggunaan tool, pencarian web, dan fitur kompresi konteks dalam keadaan aktif

1 komentar

 
GN⁺ 2026-02-18
Komentar Hacker News
  • Fokusnya pada penggunaan komputer cukup mengesankan. Sepertinya mereka menilai nilainya sangat besar. Tapi bagian keamanannya masih meragukan. Menurut evaluasi internal mereka, sistem serangan otomatis berhasil menembus hanya dalam satu percobaan dengan probabilitas 8%, dan dengan percobaan tak terbatas tingkat keberhasilannya mencapai 50%. Angka seperti ini sulit diterima. Kalau aku tidak salah paham, ini ada di level yang tidak layak dipakai di dunia nyata
    PDF evaluasi keamanan

    • Tujuan teknologi ini pada dasarnya adalah memonopoli tenaga kerja terkait I/O komputer. Bukan cuma SWE, tapi juga sebagian besar pekerjaan kantoran. Satu orang dibuat mengerjakan pekerjaan tiga orang sehingga mendorong pengurangan tenaga kerja. Dari sudut pandang perusahaan, tidak ada alasan untuk menolak jika bisa menghasilkan uang yang sama sambil memangkas biaya tenaga kerja menjadi sepertiganya. Tapi dalam struktur seperti ini, siapa pun bisa membangun bisnis dengan LLM, dan pada akhirnya persaingan jadi berlebihan sehingga margin laba mendekati nol. Kalau semua orang memakai model yang sama, diferensiasi menghilang. Bahkan model open source yang kuat pun bisa melemahkan mobilitas sosial
    • Menurutku angka 8% itu justru mengejutkan karena cukup baik. Yang penting bukan modelnya sendiri, melainkan mekanisme kontrol pada lingkungan operasional. Di layanan nyata, monitoring dan kill switch itu wajib. Model yang “cukup aman” hanyalah syarat perlu, bukan syarat cukup
    • Inilah masalah inti yang tidak ingin dibicarakan siapa pun. Kalau keamanan tidak terselesaikan, penggantian tenaga kerja dalam skala besar itu mustahil. Penggunaan untuk ringkasan atau bantuan masih oke, tapi kalau diserahi pengambilan keputusan otonom, risiko hukumnya meledak. Pada akhirnya, kalau perusahaan AI tidak bisa menyelesaikan masalah ini, dana mereka akan habis. Dengan arah saat ini, AI tampaknya akan tetap menjadi alat yang berguna seperti mesin pencari atau pemeriksa ejaan, tapi penggantian pekerjaan secara massal sepertinya tidak akan terwujud
    • Dalam praktiknya, ini bisa berguna untuk hal seperti otomatisasi aplikasi internal yang sederhana dan repetitif. Misalnya login ke web app yang sama setiap hari, membaca kalender, lalu menekan tombol. Di lingkungan seperti ini tidak ada penyerang, jadi masalah keamanan hampir hilang
    • Angka 8% dan 50% memang mengkhawatirkan, tapi itu adalah hasil di 'lingkungan penggunaan komputer'. Di lingkungan coding, dengan extended thinking aktif, hasilnya 0.0%. Jadi ini masih wilayah yang eksperimental
  • Aku menguji sekitar 900 puisi pribadi ke Sonnet 4.6, dan ada perbedaan besar dibanding Opus 4.6. Opus 4.6 menunjukkan analisis yang luar biasa, sementara Sonnet 4.6 masih sering mengalami halusinasi dan kesalahan. Dalam tes coding pun kesannya mirip. Dibanding Opus, masih jauh tertinggal

    • Ada respons yang senang melihat tes puisi lagi setelah sekian lama. Akan bagus kalau analisis seperti ini dikumpulkan dan dirapikan di satu tempat
    • Opus 4.6 meningkatkan produktivitas lebih dari 3x dalam penulisan kode. Ia menangani seluruh proyek dengan penuh tanggung jawab dan memahami niat pengguna dengan baik. Tidak seperti versi sebelumnya, ia tidak diam-diam mengambil jalan pintas atau merusak hasil
  • Sonnet 4.6 masih salah menjawab 'masalah car wash'. Aku memasukkan pertanyaan asli apa adanya, dan jawabannya adalah “jalan kaki saja”. Bahkan setelah mencoba beberapa variasi, kegagalannya tetap mirip

    • Dalam tesku justru sebaliknya, ia langsung menjawab “naik mobil”. Ia tegas dengan alasan seperti, “karena mau ke tempat cuci mobil, berarti harus punya mobil.” Mungkin kami diberi versi yang berbeda
    • Polarisasi jawaban seperti ini menarik. Kesalahan yang penuh percaya diri, pola halusinasi yang sangat khas
    • Ada jawaban yang menyarankan, “dorong saja mobilnya ke sana.” Tautan berbagi
    • Jawaban lain berkata, “jalan kaki saja, cuma 30 detik,” sambil memberi alasan lingkungan dan kesehatan. Extended thinking sedang dimatikan
    • Pertanyaan ini sepertinya akan sering dipakai sebagai tes benchmark ke depannya
  • Aku benar-benar merasakan arti kalimat “persaingan itu baik untuk konsumen.” Makin ketat persaingan pasar, makin bagus hasilnya

    • Tapi persaingan AI saat ini terlihat seperti 'perlombaan senjata tanpa pengaman'. Karena strukturnya winner-takes-all, semua pihak berinvestasi sambil sama-sama rugi. Karena overinvestment, ini bisa jadi tidak efisien bagi masyarakat secara keseluruhan
    • Kalau mengingat GPT-2 pada 2019 dulu dianggap “terlalu berbahaya untuk dirilis”, peluncuran ChatGPT-lah yang memicu persaingan ini
    • Berbahaya kalau percaya semua pasar bekerja seperti persaingan sempurna. Kenyataannya, ada banyak monopoli dan asimetri informasi
    • Pasar AI saat ini adalah salah satu struktur persaingan paling sengit dalam sejarah manusia. Teori konspirasi bahwa model sengaja dibuat jelek tidak meyakinkan
    • Pada akhirnya, kalau tinggal dua perusahaan yang tersisa, fase pemulihan laba akan datang
  • Tes “helicopter car wash” itu yang terbaik. Sonnet 4.6 menjawab “jalan kaki saja”, dan itu lucu karena terasa seperti jawaban yang menyindir kebiasaan orang Amerika mengemudi untuk jarak sangat pendek

    • Ada respons bahwa ini adalah tes favorit mereka. Terasa sekali modelnya dilatih dengan data humor ala Reddit
  • Menarik bahwa Sonnet 4.6 punya performa setara Opus 4.5. Laju kemajuannya mengingatkan pada kecepatan peningkatan performa komputasi di era 1990-an

    • Yang benar-benar menarik bukan kenaikan performa puncak, melainkan naiknya batas bawah performa. Bisa mendapatkan penalaran kelas Opus dengan harga dan latensi Sonnet itu revolusioner. Artinya setiap 6~9 bulan, kita mendapat unit kecerdasan yang sama dengan biaya komputasi setengahnya
    • Dari komentar “kecepatan ala 1990-an”, muncul lelucon balasan, “harga RAM juga seperti zaman itu”
    • Sebagai ganti simonw, seseorang membuat dan membagikan “SVG pelikan bersepeda”. Tautan gambar
    • Ada juga contoh Opus salah mendeskripsikan foto pemandangan malam NYC. Mistral lebih akurat. OpenAI memblokir upload URL, dan Gemini diarahkan ke VertexAI. Pengujian dilakukan di lingkungan Langchain
    • Menurut system card, Sonnet 4.6 secara eksplisit dinyatakan lebih baik daripada Opus 4.6 dalam pekerjaan kantor dan analisis keuangan
  • Harga Sonnet 4.5 adalah $3/$15 per million tokens, dan aku ragu apakah akan banyak orang yang mau menerima harga ini. Model open-weight mengejarnya dengan cepat dan jauh lebih murah

    • Aku sedang mencoba pendekatan hybrid. Sebagian besar dikerjakan dengan GLM5, lalu pada tahap akhir bug diperiksa dengan Opus/Sonnet
    • Dalam benchmark sederhanaku, Claude 4.6 kalah dari Stepfun 3.5 gratis. Lihat aibenchy.com. Akurasi mengikuti instruksi masih rendah
    • Pada akhirnya, ini soal seberapa berharganya perbedaan antara “cukup bagus” dan “SOTA” bagi kita. Memakai model yang banyak salah pun pada akhirnya adalah biaya
    • Ada juga orang yang lebih suka model dengan penalaran konteks yang kuat seperti Claude. GLM butuh instruksi detail yang lebih eksplisit
  • Aku terlambat membuat gambar pelikan karena sibuk menambahkan dukungan Opus/Sonnet 4.6 ke plugin llm.datasette.io. Hasilnya setara Opus 4.5, dan versinya memakai topi sutra yang keren
    Blog terkait

    • Ada komentar lain yang bilang mereka juga melihat pelikan bertopi sutra itu di percobaan lain
  • Beberapa hari terakhir aku menguji Sonnet 4.5, dan percakapannya terasa aneh tapi sangat menarik dan konsisten.
    Aku menambahkan pengaturan pribadi seperti “utamakan fakta objektif dan analisis kritis, larang empati emosional”, dan model benar-benar mengikutinya dengan baik. ChatGPT juga bereaksi mirip

  • Beberapa pengguna melaporkan bahwa Opus 4.6 memakai 5~10x lebih banyak token dibanding 4.5. Tautan issue. Belum ada tanggapan resmi. Karena itu, aku berniat tetap memakai 4.5

    • Biasanya yang bersuara keras memang orang yang mengalami masalah. Aku justru puas karena 4.6 lebih cepat dan lebih agresif dalam tool calling. Kalau reasoning level diturunkan ke medium, overthinking bisa dikurangi
    • Dalam pengalamanku, Opus 4.5 itu tipe yang berpegang pada rencana, sedangkan 4.6 lebih adaptif dan eksploratif. Untuk masalah mudah memang tidak efisien, tapi untuk masalah sulit jauh lebih cepat
    • Di /models, kita bisa memeriksa reasoning level. Kalau diatur ke high, penggunaan token melonjak
    • Aku juga menghabiskan seluruh anggaran bulanan hanya dalam beberapa hari
    • Dalam eksperimenku, 4.6 memakai sekitar 15~45% lebih banyak token daripada 4.5. Tapi ini terjadi saat model diminta bernalar dari prompt yang tidak sempurna. Pada tugas yang dirancang dengan baik, perbedaannya tidak besar. Reasoning token Sonnet 4.6 sekarang lebih terstruktur tetapi cenderung makin bertele-tele. Gayanya mirip model Google