Claude 4 Diluncurkan: Opus 4 dan Sonnet 4

(anthropic.com)

1 poin oleh GN⁺ 2025-05-23 | 1 komentar | Bagikan ke WhatsApp

Anthropic meluncurkan Claude Opus 4 dan Claude Sonnet 4, dengan coding, penalaran tingkat lanjut, dan pekerjaan agen AI sebagai area kinerja utama generasi Claude berikutnya
Kedua model adalah model hybrid yang dapat beralih antara respons langsung dan penalaran mendalam, serta mendukung penggunaan tool seperti web search saat extended thinking dan eksekusi tool secara paralel
Opus 4 mencatat SWE-bench 72,5% dan Terminal-bench 43,2%, sementara Sonnet 4 mencatat SWE-bench 72,7% dengan peningkatan coding, penalaran, dan kepatuhan instruksi dibanding Sonnet 3.7
Claude Code telah resmi dirilis dan diperluas ke terminal, VS Code, JetBrains, GitHub Actions, serta SDK; dapat menangani respons terhadap review PR, perbaikan error CI, hingga perubahan kode
API menambahkan tool eksekusi kode, MCP connector, Files API, dan cache prompt hingga 1 jam, sehingga developer dapat membangun agen AI yang lebih kuat

Peluncuran model Claude 4

Anthropic meluncurkan Claude Opus 4 dan Claude Sonnet 4 sebagai model generasi berikutnya dari Claude
Fokus utama kedua model adalah coding, penalaran tingkat lanjut, dan pekerjaan agen AI
Claude Opus 4 adalah model coding yang memberikan kinerja berkelanjutan dalam tugas yang kompleks dan berjalan lama serta alur kerja agen
Claude Sonnet 4 adalah upgrade dari Claude Sonnet 3.7, dengan peningkatan kinerja coding dan penalaran serta akurasi kepatuhan terhadap instruksi

Cara penyediaan dan harga

Claude Opus 4 dan Sonnet 4 menyediakan respons yang hampir instan sekaligus mode extended thinking untuk penalaran yang lebih mendalam
Paket Claude Pro, Max, Team, dan Enterprise mencakup kedua model serta extended thinking
Sonnet 4 juga dapat digunakan oleh pengguna gratis
Kedua model tersedia melalui Anthropic API, Amazon Bedrock, dan Google Cloud Vertex AI
Harganya sama dengan model Opus dan Sonnet sebelumnya
- Opus 4: $15/$75 per 1 juta token input/output
- Sonnet 4: $3/$15 per 1 juta token input/output

Kinerja coding dan tugas jangka panjang Opus 4

Claude Opus 4 adalah model terkuat Anthropic, mencatat SWE-bench 72,5% dan Terminal-bench 43,2%
Model ini memberikan kinerja berkelanjutan pada tugas jangka panjang yang membutuhkan ribuan langkah kerja terfokus, dan dapat bekerja terus-menerus selama berjam-jam
Cursor menilai Opus 4 sebagai model mutakhir untuk coding, dan menyatakan ada kemajuan besar dalam memahami codebase yang kompleks
Replit menyatakan presisinya meningkat dalam perubahan kompleks di banyak file
Block menjelaskan bahwa pada agen internalnya codename goose, Opus 4 adalah model pertama yang mempertahankan kinerja dan keandalan sambil meningkatkan kualitas kode selama editing dan debugging
Rakuten memverifikasi bahwa Opus 4 menjalankan tugas refactoring open source yang sulit secara mandiri selama 7 jam dan menunjukkan kinerja yang berkelanjutan
Cognition menilai Opus 4 kuat dalam tugas penting yang terlewat oleh model sebelumnya dan tantangan kompleks yang tidak dapat diselesaikan model lain

Posisi Sonnet 4

Claude Sonnet 4 adalah model yang ditingkatkan dibanding Sonnet 3.7, dan mencatat 72,7% di SWE-bench
Model ini menargetkan keseimbangan antara kinerja dan efisiensi untuk use case internal maupun eksternal, serta meningkatkan steerability untuk kontrol implementasi
Meski tidak setara dengan Opus 4 di sebagian besar area, model ini menawarkan kombinasi kemampuan dan kepraktisan
GitHub berencana mengadopsi Sonnet 4 sebagai model yang menjalankan agen coding baru GitHub Copilot
Manus menyoroti peningkatan dalam kepatuhan terhadap instruksi kompleks, penalaran yang jelas, dan hasil akhir yang estetis
iGent menyatakan pengembangan aplikasi multifungsi secara otonom dan eksplorasi codebase meningkat, sementara error eksplorasi turun dari 20% menjadi hampir 0
Sourcegraph menilai Sonnet 4 mampu mempertahankan arah lebih lama, memahami masalah lebih dalam, dan memberikan kualitas kode yang lebih elegan
Augment Code menjadikan Sonnet 4 sebagai pilihan utama untuk model default karena tingkat keberhasilan yang lebih tinggi, editing kode yang lebih presisi, dan kehati-hatian dalam tugas kompleks

Peningkatan kemampuan model

Kedua model dapat menggunakan tool bahkan saat extended thinking
- Sebagai contoh, dapat menggunakan web search
- Claude dapat meningkatkan respons dengan bergantian antara penalaran dan penggunaan tool
Keduanya juga mendukung eksekusi tool paralel dan kepatuhan instruksi yang lebih akurat
Jika developer memberikan akses ke file lokal, model menunjukkan kemampuan memori dengan mengekstrak dan menyimpan fakta inti untuk menjaga kontinuitas dan pengetahuan implisit
Perilaku menyelesaikan tugas dengan memanfaatkan jalan pintas atau celah berkurang dibanding Sonnet 3.7
- Khususnya dalam pekerjaan agen yang rentan terhadap jalan pintas dan celah, kedua model memiliki kemungkinan 65% lebih rendah untuk melakukan perilaku tersebut dibanding Sonnet 3.7
Opus 4 kuat dalam membuat dan memelihara memory files yang berisi informasi penting pada aplikasi tempat developer memberikan akses file lokal
- Sebagai contoh, model membuat Navigation Guide saat memainkan Pokémon
- Ini meningkatkan pengenalan tugas jangka panjang, konsistensi, dan kinerja pekerjaan agen

Ringkasan pemikiran dan Developer Mode

Model Claude 4 memperkenalkan thinking summaries yang memampatkan proses berpikir panjang dengan model yang lebih kecil
Ringkasan ini hanya diperlukan pada sekitar 5% kasus
Sebagian besar proses berpikir cukup pendek untuk ditampilkan secara utuh
Pengguna yang membutuhkan rantai pemikiran mentah untuk prompt engineering tingkat lanjut dapat menanyakan Developer Mode baru melalui contact sales

Claude Code resmi dirilis

Claude Code telah resmi dirilis dan memperluas Claude ke terminal, IDE, serta workflow yang berjalan di latar belakang
Ekstensi beta baru untuk VS Code dan JetBrains mengintegrasikan Claude Code langsung ke IDE
- Hasil edit yang diusulkan Claude ditampilkan secara inline di dalam file
- Pengguna dapat melakukan review dan melacak perubahan di editor yang sudah familiar
- Ekstensi ini dipasang saat menjalankan Claude Code dari terminal IDE
Mendukung pekerjaan latar belakang melalui GitHub Actions
Claude Code SDK yang dapat diperluas juga dirilis
- Developer dapat menggunakan agen inti seperti Claude Code untuk membangun agen dan aplikasi mereka sendiri
Claude Code on GitHub tersedia dalam versi beta
- Dengan men-tag Claude Code di PR, pengguna dapat merespons feedback reviewer, memperbaiki error CI, dan memodifikasi kode
- Instal dengan menjalankan /install-github-app di dalam Claude Code

API dan keamanan

Anthropic API menambahkan empat kemampuan baru untuk pengembangan agen AI
- Tool eksekusi kode
- MCP connector
- Files API
- Cache prompt hingga 1 jam
Model Claude 4 diposisikan sebagai langkah menuju pemeliharaan konteks penuh, kemampuan tetap fokus dalam proyek panjang, dan pekerjaan berdampak besar
Model-model ini menjalani pengujian dan evaluasi luas untuk mengurangi risiko dan meningkatkan keamanan
Termasuk langkah perlindungan untuk AI Safety Levels yang lebih tinggi, yaitu ASL-3
Pengguna dapat mulai dari Claude, Claude Code, atau platform pilihan mereka

Cara pelaporan benchmark

Claude Opus 4 dan Sonnet 4 adalah model penalaran hybrid, dan benchmark yang dipublikasikan menampilkan skor tertinggi yang dicapai terlepas dari apakah extended thinking digunakan atau tidak
Hasil tanpa extended thinking adalah item berikut
- SWE-bench Verified
- Terminal-bench
Hasil yang menggunakan extended thinking memakai hingga 64K token
- TAU-bench
- GPQA Diamond
- MMMLU
- MMMU
- AIME
Beberapa skor yang diukur tanpa extended thinking juga disediakan
- GPQA Diamond: Opus 4 74,9%, Sonnet 4 70,0%
- MMMLU: Opus 4 87,4%, Sonnet 4 85,4%
- MMMU: Opus 4 73,7%, Sonnet 4 72,6%
- AIME: Opus 4 33,9%, Sonnet 4 33,1%

Metodologi TAU-bench dan SWE-bench

Skor TAU-bench diperoleh dalam konfigurasi yang menambahkan lampiran prompt ke Airline dan Retail Agent Policy, agar Claude dapat lebih memanfaatkan kemampuan penalarannya selama extended thinking dan penggunaan tool
Model diarahkan untuk menuliskan pemikiran dengan cara yang dibedakan dari mode berpikir umum saat menyelesaikan masalah
Karena pemikiran tambahan dapat meningkatkan jumlah langkah, batas langkah maksimum dinaikkan dari 30 menjadi 100
- Sebagian besar trajectory selesai di bawah 30 langkah
- Hanya satu trajectory yang melewati 50 langkah
Untuk SWE-bench keluarga Claude 4, Anthropic tetap menggunakan scaffolding sederhana yang sama seperti rilis sebelumnya
- Tool yang digunakan hanya dua: tool bash dan tool editing file berbasis substitusi string
- planning tool ketiga yang digunakan pada Claude 3.7 Sonnet tidak lagi disertakan
Semua skor model Claude 4 dilaporkan berdasarkan total 500 soal
Skor model OpenAI dilaporkan berdasarkan subset 477 soal
Skor “high compute” menggunakan komputasi saat pengujian paralel dan kompleksitas tambahan
- Mengambil sampel beberapa percobaan paralel
- Membuang patch yang merusak regression test yang terlihat di repositori
- Tidak menggunakan informasi hidden test
- Memilih kandidat terbaik dari percobaan yang tersisa dengan model penilaian internal
Skor high compute dengan metode ini adalah Opus 4 79,4% dan Sonnet 4 80,2%

1 komentar

GN⁺ 2025-05-23

Opini Hacker News

Hal penting yang terlewat dari pengumuman ini adalah cutoff pelatihan Claude 4 adalah Maret 2025. Ini yang paling baru di antara model-model terbaru, sementara Gemini 2.5 memiliki cutoff Januari 2025
https://docs.anthropic.com/en/docs/about-claude/models/overv...
- Sekarang semua produk LLM utama untuk pengguna memiliki pencarian web, dan sebagian API juga menyediakannya atau kadang bisa dilakukan tanpa disengaja, jadi setidaknya bagi saya pribadi, bulan cutoff yang tepat terasa makin kurang penting
  Model-model yang sering saya pakai cukup pintar untuk menilai sendiri bahwa suatu topik membutuhkan informasi baru lalu mengambilnya
- Bagus. Sekarang mungkin akhirnya ia tahu Svelte 5
- Karena pernah kerepotan karena Claude tidak tahu Tailwind 4, saya bertanya tentang Tailwind CSS, dan ia menjawab bahwa ia tahu sampai Tailwind CSS 3.4, versi stabil terbaru berdasarkan cutoff Januari 2025
- Kenapa tidak bisa dilatih secara berkelanjutan?
- Tetap saja kita tidak tahu apa yang sudah diperbarui dan apa yang belum. Bisakah kita berasumsi bahwa semua yang bisa diperbarui sudah diperbarui?
“GitHub says Claude Sonnet 4 soars in agentic scenarios and will introduce it as the base model for the new coding agent in GitHub Copilot.”
Model ini mungkin mendorong “Assign to CoPilot” lebih dekat ke impian untuk menangani otomatis sebagian besar pekerjaan mekanis seperti upgrade paket. Jika beban pemeliharaan berkurang, besar kemungkinan itu mengarah pada kebangkitan proyek-proyek lama
- Bisa jadi, tetapi setiap model sebelumnya juga mendapat ekspektasi yang sama saat dirilis
- Saya sangat menantikan apa yang bisa dilakukan agen coding murah untuk open source. Bahkan saya merasa sebaiknya membagikan kredit CheepCode[0] ke proyek-proyek open source
  Belum ada struktur resmi, tetapi jika melihat komentar ini dan membutuhkan eksekusi agen coding gratis, kirim email dan saya akan menyiapkannya
  [0] Produk agen coding headless saya, mirip dengan “assign to copilot”, tetapi memproses beberapa tugas secara paralel dari papan kerja seperti Linear dan Jira. Sejauh ini cukup berhasil untuk fitur-fitur sederhana dan berulang; umumnya, makin bagus pengujiannya, makin bagus pula kode yang dihasilkan. Tentu saja ia juga bisa menulis pengujiannya sendiri, dan memang melakukannya
- Tolok ukur saya untuk menilai apakah model seperti ini berguna tepat berada di titik itu. Ada proyek yang membutuhkan refactoring besar-besaran agar bisa berjalan lagi; utamanya upgrade paket, tetapi kodenya juga harus diperbaiki agar sesuai dengan semantik bahasa baru yang belum ada saat kode itu ditulis
  Model AI saat ini pada dasarnya tidak membuat kemajuan sama sekali dalam tugas ini. Saya akan terus mencobanya sampai itu menjadi mungkin
- Upgrade paket dan pekerjaan mekanis adalah area yang sebagian besar sudah ditangani bot
  Menurut saya, bagian yang bisa dibantu AI di sini adalah merangkum perubahan, konflik, dan dampaknya pada codebase, serta kalau memungkinkan semacam pemindaian keamanan
- Ada yang melihat kabar kapan ini rencananya diterapkan ke Copilot?
“Users requiring raw chains of thought for advanced prompt engineering can contact sales”
Sekarang ketiga penyedia LLM tampaknya sama-sama menyembunyikan rantai pemikiran (CoT). Ini disayangkan, karena melihat momen ketika model mulai menuju arah yang salah membantu memperbaiki prompt dengan cepat
Bukan hanya OpenAI; Google juga belakangan mulai mengganti proses berpikir dengan ringkasan, yang menurut saya terlalu disederhanakan
- Mungkinkah alasan menghapus proses berpikir ini adalah makalah Anthropic terbaru?
  https://assets.anthropic.com/m/71876fabef0f0ed4/original/rea...
  Makalah itu mengevaluasi kesetiaan proses berpikir pada model penalaran terbaru dengan 6 petunjuk penalaran, dan mengatakan bahwa di sebagian besar pengaturan dan model, setidaknya 1% kasus yang menggunakan petunjuk muncul dalam proses berpikir, tetapi tingkat pengungkapannya biasanya di bawah 20%; reinforcement learning berbasis hasil pada awalnya meningkatkan kesetiaan tetapi kemudian mandek tanpa mencapai saturasi; dan meski reward hacking meningkatkan frekuensi penggunaan petunjuk, kecenderungan untuk mengungkapkannya dalam kata-kata di proses berpikir tidak meningkat
  Dengan kata lain, proses berpikir juga bisa berupa penjelasan karangan dari model. Jadi mungkin ada orang di internal Anthropic yang tidak ingin menyesatkan pelanggan, dan mungkin ini akan kembali jika masalahnya terselesaikan
- Ini alkimia, dan karena semua orang percaya mereka punya keunggulan masing-masing dalam mengubah timbal menjadi emas
- Seingat saya, RLHF mau tidak mau mengorbankan sebagian akurasi model dalam proses melatihnya agar tidak memberikan respons berbahaya
  Masuk akal jika model untuk proses berpikir dilatih berbeda dari model yang berinteraksi dengan pengguna akhir. Misalnya bisa saja itu pakar lain dalam MoE, dan karena pengguna pada akhirnya hanya melihat output yang sudah difilter oleh model publik, risiko reputasi perusahaan lebih kecil meskipun model proses berpikir lebih dekat ke model mentah sebelum RLHF
  Dengan begitu, mereka bisa mendapatkan performa model mentah sambil tetap mempertahankan filtering untuk mencegah kerugian nyata atau insiden PR serius
- Sepertinya kita harus menunggu sampai DeepSeek kembali mengungguli semua orang
- Saat belajar Zig, proses berpikir sangat membantu
  Saat bertanya tentang Zig dan implementasinya, melihat proses berpikir model benar-benar memperluas wawasan saya
Pasti bukan hanya saya yang merasa versi ini tidak lebih baik dari sebelumnya, LLM pada dasarnya sudah memasuki fase stagnasi, dan “fitur” pada rilis baru kebanyakan mendekati tipu daya
- Sepertinya yang membaik hanya di bagian pinggir. Area seperti MCP, pemanggilan tool, dan output terstruktur. Jelas bukan kecerdasannya yang meningkat, tetapi nilai tambahnya memang bertambah, dan saya tidak tahu apakah nilai itu sepadan dengan biaya pelatihan atau valuasi perusahaannya
  Secara realistis, saya sama sekali tidak bisa membayangkan bagaimana perusahaan-perusahaan seperti ini bisa berkelanjutan. Saya pernah meng-hosting inferensi di GPU cloud, dan kalau sedikit saja menambahkan paket gratis, biayanya terlihat sangat membebani
- Pernyataan “LLM telah mencapai stagnasi” terdengar seperti meme stochastic parrot yang baru. Lihat saja tulisan yang naik ke halaman utama beberapa jam lalu: agen berbasis LLM diberi 3 tool pencarian email dan tugas sederhana “temukan nama anak saudara saya”, lalu menyelesaikan masalah secara sistematis, menyempurnakan pencarian, dan menyimpulkan nama yang benar dari email yang hanya berisi “makanan favorit X” dan tautan YouTube
  Belum lagi alphaevolve, demo pengujian agen Copilot dari Microsoft yang menjalankan browser, mengeksplorasi fitur, dan menulis pengujian Playwright, serta kemajuan di bidang coding
- Saya banyak memakai Claude Code dan setuju. Setelah update, saya sama sekali tidak merasakan perbedaan. Ringkasannya tampak sedikit lebih rapi, tetapi dari sisi kemampuan tidak pernah membuat saya terkejut
  Di codebase TypeScript, sama seperti saat 3.7, saya terus harus memperbaiki dan memberi prompt lagi. Bahkan dalam situasi ketika ia mengedit file yang salah, ia tidak terpikir untuk memeriksa lebih spesifik sampai saya memaksanya menghapus semua kode dan menunjukkan bahwa target yang sedang kami lihat sama sekali tidak berubah; itu cukup mengejutkan
- Secara umum saya merasakan hal yang sama. Kemenangan benchmark akhir-akhir ini tampaknya berasal dari tuning, sementara ada kerugian di area lain. o3 dan o4-mini juga lebih banyak halusinasi daripada o1 di SimpleQA dan PersonQA
  Data sintetis tampaknya meningkatkan tingkat halusinasi, dan model reasoning lebih rentan karena pada setiap langkah reasoning ada risiko halusinasi membuat model melenceng
  Menurut saya, LLM dari sudut pandang penggunaan umum sudah berakhir sekitar awal tahun ini. OpenAI juga tampaknya menyadarinya ketika membatalkan GPT-5, lalu kemudian merilis GPT-4.5 yang “terlalu mahal dibanding hasilnya” dan segera memutuskan untuk menghentikannya
  Saya tidak tahu apakah pasar saham sudah mencerminkan hal ini. Untuk keluar dari sini dibutuhkan terobosan
- Dalam banyak kasus, benchmark terlihat sangat mirip dengan Claude 3.7
  Namun itu sama sekali belum cukup untuk mengatakan sudah mencapai stagnasi. Laju kemajuannya sangat cepat, jadi penilaian seperti itu sebaiknya menunggu beberapa bulan lagi
  Soal fitur-fitur itu, saya justru berpikir sebaliknya. Itu bukan tipu daya, melainkan tooling penting yang bukan AI inti itu sendiri, tetapi diperlukan agar AI benar-benar bisa dimanfaatkan. Bidang LLM untuk penggunaan massal masih tahap awal. Sekalipun modelnya tidak membaik lagi, masih ada banyak ruang untuk menaikkan usability dan kemampuan secara signifikan lewat cara interaksi, pemberian informasi, pemanggilan tool, dan fitur-fitur semacamnya
Saya sangat menyukai Claude 3.7, memakainya setiap hari, dan secara umum lebih menyukainya daripada model Gemini. Namun saat mencoba Opus 4 di Claude Code untuk pekerjaan fitur yang hampir baru pada codebase Go, proses berpikirnya bagus, tetapi 70–80% pemanggilan tool gagal
Tool dasar seperti “Write” dan “Update” pun gagal karena sintaks yang salah. Kelima percobaan menulis file semuanya gagal, lalu ia terus mencoba sambil berkata, “Saya terus lupa menambahkan parameter content. Akan saya perbaiki”
Ada yang tidak beres. Semoga segera terselesaikan, tetapi untuk saat ini setidaknya Opus 4 tidak bisa digunakan di Claude Code. Meski begitu, file yang berhasil dibuat kualitasnya tinggi
- Sepertinya penyebabnya sudah ditemukan, dan tampak jelas sebagai bug: https://github.com/anthropics/claude-code/issues/1236#issuec...
  Pada dasarnya tampaknya terkena batas jumlah token output maksimum, sehingga respons berhenti saat mencoba menulis seluruh file baru sekaligus. Error “parameter pemanggilan tool salah” ternyata salah sasaran
Kami sudah menguji Opus 4 dan Sonnet 4 di benchmark pembuatan SQL kami: https://llm-benchmark.tinybird.live/
Opus 4 mengalahkan semua model lain, bagus
- Aneh bahwa Opus 4 adalah yang terburuk pada one-shot. Rata-rata perlu dua percobaan untuk menghasilkan query yang valid
  Kalau modelnya benar-benar jauh lebih pintar, bukankah performa percobaan pertamanya juga seharusnya bagus? Bagaimanapun, ia memang “berpikir” sebelumnya
- Menariknya, Claude-3.7-Sonnet dan Claude-3.5-Sonnet berada di peringkat lebih tinggi daripada Claude-Sonnet-4
- Benchmark ini cukup menarik. Tampaknya mematahkan peringkat model yang biasa terlihat di benchmark lain
- Saya membayar Claude Premium, tetapi sebenarnya juga cukup sering memakai Grok. Fitur “think” lebih sering membawa saya ke hasil yang saya inginkan
  Aneh bahwa model xAI tidak ada di daftar. Nama Grok memang buruk, tetapi cukup sering membuat saya terkesan. Saya belum mencoba model ChatGPT seharga 250 dolar, dan belakangan ini saya tidak suka perilaku OpenAI
- Saya penasaran, bagaimana Anda tahu bahwa pertanyaan dan SQL-nya tidak ada di data pelatihan LLM? Pertanyaan benchmark dan SQL-nya tampak ada online: https://ghe.clickhouse.tech/
Apakah ada tempat yang mendokumentasikan perubahan jendela konteks Claude 4? Saya tidak terlalu tahu, tetapi salah satu alasan Gemini 2.5 berguna, sejauh yang saya pahami, adalah karena ia bisa menangani konteks yang sangat besar, sekitar 50 ribu–70 ribu baris
- Jendela konteks Sonnet tetap sama. Input 200k, output 64k: https://docs.anthropic.com/en/docs/about-claude/models/overv...
  Sebenarnya konteks 1M milik Gemini 2.5 bukan pembeda sebesar itu. Semakin besar konteksnya, diminishing returns yang terasa dari kemampuan mengikuti token di bagian belakang makin berkurang
- Saya berharap mereka memperbesar jendela konteks atau menanganinya lebih baik ketika prompt menjadi terlalu panjang. Saat ini tiba-tiba muncul peringatan “prompt is too long”, sehingga model ini jadi menyebalkan untuk percakapan panjang atau menulis teks panjang
  Alat lain kadang membuang sebagian konteks sebelumnya atau memakai RAG, tetapi tidak memaksa memulai chat baru tanpa peringatan
- Saya kurang paham maksudnya. Di judul artikel tertulis Opus 4 memiliki konteks 200k
  Sama seperti beta header Sonnet 3.7
- Ukuran jendela konteks adalah metrik yang terasa sangat palsu. Tanpa konteks yang tepat, keluaran yang bagus juga tidak akan muncul
“Finally, we've introduced thinking summaries for Claude 4 models that use a smaller model to condense lengthy thought processes. This summarization is only needed about 5% of the time—most thought processes are short enough to display in full. Users requiring raw chains of thought for advanced prompt engineering can contact sales about our new Developer Mode to retain full access.”
Saya tidak ingin melihat “ringkasan” penalaran model. Untuk memastikan apakah penalaran model akurat dan apakah hasilnya bisa dipercaya, kita perlu melihat penalaran sebenarnya
Sangat menyebalkan melihat Anthropic, setelah OpenAI, juga bergerak ke arah menyembunyikan proses berpikir model, menagih token yang tidak bisa dilihat pengguna, lalu menyediakan “ringkasan” yang membuat kita tidak tahu apa yang sebenarnya terjadi
- Beberapa paper melaporkan bahwa keluaran “pemikiran” tidak banyak berhubungan dengan keluaran akhir, dan bahwa peningkatan serupa juga muncul ketika token titik atau jeda memungkinkan tahap pemrosesan tambahan
  Dalam banyak hal, “pemikiran” sebagian besar lebih mirip marketing
  - "Think before you speak: Training Language Models With Pause Tokens" - https://arxiv.org/abs/2310.02226
  - "Let's Think Dot by Dot: Hidden Computation in Transformer Language Models" - https://arxiv.org/abs/2404.15758
  - "Do LLMs Really Think Step-by-step In Implicit Reasoning?" - https://arxiv.org/abs/2411.15862
  - Video ikhtisar dari bycloud -> https://www.youtube.com/watch?v=Dk36u4NGeSU
- Tidak perlu terlalu khawatir. Ada cukup banyak bukti bahwa pemikiran sering terpisah dari keluaran
  Mengingat orang-orang sebenarnya hampir tidak membaca proses berpikir, saya melihat ini sebagai peningkatan pengalaman pengguna
- Apakah ini maksudnya antarmuka chat milik mereka sendiri? API masih men-stream token thinking secara langsung
- Setahu saya Gemini 2.5 Pro juga melakukan ini
Saya benar-benar berharap Sonnet 4 tidak terobsesi dengan pemanggilan tool seperti 3.7. 3.5 memberi pengalaman ajaib untuk pertama kalinya, seolah-olah model akan menguasai pemrograman. Setelah itu rasanya agak menurun
- Saya juga benar-benar tidak suka sikap 3.7 yang terlalu proaktif, seperti “mumpung di sini, saya coba satu hal lagi”. Semoga kembali ke tingkat kepatuhan instruksi seperti 3.5
- Ini terasa lebih seperti masalah system prompt daripada masalah model
Rasanya seperti persaingan MHz CPU era 90-an kembali lagi. Bedanya, alih-alih meributkan arsitektur CPU dan hasil dari berbagai benchmark yang nilainya ambigu, sekarang kita melakukan obrolan nerdy semacam itu di antara LLM
Sejarah memang berima
- Memang kembali, tetapi dengan laju kemajuan teknologi pertengahan 2020-an. Seingat saya persaingan MHz CPU jauh lebih lambat, meski mungkin persepsi waktu saya saat kecil di tahun 90-an memang lebih lambat
  Namun saya cukup yakin tidak ada “rilis” CPU baru setiap beberapa bulan seperti model baru yang muncul tiap beberapa bulan dalam persaingan AI saat ini

Claude 4 Diluncurkan: Opus 4 dan Sonnet 4

Peluncuran model Claude 4

Cara penyediaan dan harga

Kinerja coding dan tugas jangka panjang Opus 4

Posisi Sonnet 4

Peningkatan kemampuan model

Ringkasan pemikiran dan Developer Mode

Claude Code resmi dirilis

API dan keamanan

Cara pelaporan benchmark

Metodologi TAU-bench dan SWE-bench

Bacaan terkait

1 komentar

Opini Hacker News