Anthropic merilis Claude 3.7 Sonnet
(anthropic.com)Anthropic telah merilis Claude 3.7 Sonnet, model paling cerdas yang mereka buat sejauh ini. Model ini adalah model penalaran hibrida pertama di pasar, yang dapat memberikan respons instan sekaligus proses berpikir langkah demi langkah yang ditampilkan kepada pengguna.
Fitur utama:
- Menunjukkan peningkatan performa besar dalam coding dan pengembangan web frontend
- Memperkenalkan alat baris perintah baru, 'Claude Code' - memungkinkan developer mendelegasikan tugas engineering langsung ke Claude dari terminal
- Tersedia di semua paket Claude (Free, Pro, Team, Enterprise), Anthropic API, AWS Bedrock, dan Google Cloud Vertex AI
- Mode berpikir yang diperluas tersedia di semua platform kecuali tier gratis
- Harga tetap sama seperti model sebelumnya: $3 per satu juta token input, $15 per satu juta token output (termasuk token berpikir)
Peningkatan performa:
- Mencapai performa terbaik di SWE-bench Verified dan TAU-bench
- Dalam pengujian awal oleh Cursor, Cognition, Vercel, Replit, dan Canva, model ini membuktikan kemampuan unggul dalam menangani codebase kompleks, penggunaan tool tingkat lanjut, perencanaan dan perubahan kode, serta pembaruan full-stack
- Menunjukkan kemampuan menghasilkan kode tingkat produksi dan mengurangi error
- Peningkatan dalam matematika, fisika, dan kemampuan mengikuti instruksi
Claude Code:
- Dapat mencari dan membaca kode, mengedit file, menulis dan menjalankan test, commit dan push kode ke GitHub, serta menggunakan alat baris perintah
- Sangat berguna untuk test-driven development, debugging masalah kompleks, dan refactoring skala besar
- Menyelesaikan sekaligus tugas yang biasanya memakan waktu lebih dari 45 menit, sehingga sangat memangkas waktu pengembangan
- Saat ini tersedia sebagai research preview terbatas
Integrasi GitHub:
- Kini fitur integrasi GitHub tersedia di semua paket Claude
- Dibangun di atas pemahaman yang lebih mendalam terhadap proyek pribadi, pekerjaan, dan open source
- Berperan sebagai partner yang kuat untuk perbaikan bug, pengembangan fitur, penulisan dokumentasi, dan lainnya
- Memberikan dukungan di berbagai proyek GitHub penting milik pengguna
Dalam peningkatan keamanan, respons penolakan yang tidak perlu berkurang 45% dibanding model sebelumnya, dan model ini kini lebih mampu membedakan secara lebih halus antara permintaan berbahaya dan tidak berbahaya.
5 komentar
CEO Anthropic Dario Amodei: model DeepSeek tidak terlalu mengejutkan
Ternyata sudah ditambahkan juga ke Perplexity.
Tapi sepertinya penalarannya masih belum bisa dipakai..
Saya sudah memasang dan mencoba menggunakan Claude Code, lalu menanyakan ringkasan dua proyek seperti di video.
Total cost: $0.1151
Total cost: $0.0855
Jadi terpakai sekitar 0.2 dolar ya..?
Kalau contoh di video itu adalah pekerjaan yang memakan waktu lebih dari 45 menit, sepertinya jadi pekerjaan yang cukup mahal.
Sangat mahal, value for money-nya kurang. Untuk penggunaan nyata, sepertinya o3-mini malah lebih baik, tetapi kalau dipakai untuk coding, karena tahap penalarannya pendek dan token antara perlu diatasi, untuk tujuan itu sepertinya yang terbaik. Harganya juga..
Mode berpikir yang diperluas (Thinking Mode - Extended)
Tampaknya mereka memilih pendekatan yang berbeda dari model penalaran terpisah seperti o1 milik OpenAI atau R1 milik DeepSeek. Sepertinya dua mode diintegrasikan dalam satu model tunggal.
Selain itu, saat tanggal cutoff data pelatihan ditanyakan langsung ke model, model tersebut menjawab akhir Oktober 2024~!