18 poin oleh humblebee 2025-02-25 | 5 komentar | Bagikan ke WhatsApp

Anthropic telah merilis Claude 3.7 Sonnet, model paling cerdas yang mereka buat sejauh ini. Model ini adalah model penalaran hibrida pertama di pasar, yang dapat memberikan respons instan sekaligus proses berpikir langkah demi langkah yang ditampilkan kepada pengguna.

Fitur utama:

  • Menunjukkan peningkatan performa besar dalam coding dan pengembangan web frontend
  • Memperkenalkan alat baris perintah baru, 'Claude Code' - memungkinkan developer mendelegasikan tugas engineering langsung ke Claude dari terminal
  • Tersedia di semua paket Claude (Free, Pro, Team, Enterprise), Anthropic API, AWS Bedrock, dan Google Cloud Vertex AI
  • Mode berpikir yang diperluas tersedia di semua platform kecuali tier gratis
  • Harga tetap sama seperti model sebelumnya: $3 per satu juta token input, $15 per satu juta token output (termasuk token berpikir)

Peningkatan performa:

  • Mencapai performa terbaik di SWE-bench Verified dan TAU-bench
  • Dalam pengujian awal oleh Cursor, Cognition, Vercel, Replit, dan Canva, model ini membuktikan kemampuan unggul dalam menangani codebase kompleks, penggunaan tool tingkat lanjut, perencanaan dan perubahan kode, serta pembaruan full-stack
  • Menunjukkan kemampuan menghasilkan kode tingkat produksi dan mengurangi error
  • Peningkatan dalam matematika, fisika, dan kemampuan mengikuti instruksi

Claude Code:

  • Dapat mencari dan membaca kode, mengedit file, menulis dan menjalankan test, commit dan push kode ke GitHub, serta menggunakan alat baris perintah
  • Sangat berguna untuk test-driven development, debugging masalah kompleks, dan refactoring skala besar
  • Menyelesaikan sekaligus tugas yang biasanya memakan waktu lebih dari 45 menit, sehingga sangat memangkas waktu pengembangan
  • Saat ini tersedia sebagai research preview terbatas

Integrasi GitHub:

  • Kini fitur integrasi GitHub tersedia di semua paket Claude
  • Dibangun di atas pemahaman yang lebih mendalam terhadap proyek pribadi, pekerjaan, dan open source
  • Berperan sebagai partner yang kuat untuk perbaikan bug, pengembangan fitur, penulisan dokumentasi, dan lainnya
  • Memberikan dukungan di berbagai proyek GitHub penting milik pengguna

Dalam peningkatan keamanan, respons penolakan yang tidak perlu berkurang 45% dibanding model sebelumnya, dan model ini kini lebih mampu membedakan secara lebih halus antara permintaan berbahaya dan tidak berbahaya.

5 komentar

 
yeorinhieut 2025-02-25

Ternyata sudah ditambahkan juga ke Perplexity.
Tapi sepertinya penalarannya masih belum bisa dipakai..

 
bearmett 2025-02-25

Saya sudah memasang dan mencoba menggunakan Claude Code, lalu menanyakan ringkasan dua proyek seperti di video.

Total cost: $0.1151
Total cost: $0.0855

Jadi terpakai sekitar 0.2 dolar ya..?

Kalau contoh di video itu adalah pekerjaan yang memakan waktu lebih dari 45 menit, sepertinya jadi pekerjaan yang cukup mahal.

 
riskatcher 2025-02-25

Sangat mahal, value for money-nya kurang. Untuk penggunaan nyata, sepertinya o3-mini malah lebih baik, tetapi kalau dipakai untuk coding, karena tahap penalarannya pendek dan token antara perlu diatasi, untuk tujuan itu sepertinya yang terbaik. Harganya juga..

 
humblebee 2025-02-25

Mode berpikir yang diperluas (Thinking Mode - Extended)

  • Fitur yang memungkinkan model berpikir lebih mendalam melalui refleksi diri sebelum menjawab
  • Peningkatan performa pada berbagai tugas seperti matematika, fisika, mengikuti instruksi, dan coding
  • Pengguna API dapat mengontrol waktu berpikir model hingga maksimum 128K token
  • Menawarkan fleksibilitas untuk menyesuaikan keseimbangan antara kecepatan (biaya) dan kualitas jawaban
  • Seperti manusia yang memproses respons cepat dan pemikiran mendalam dengan otak yang sama, dua mode disediakan dalam satu model tanpa model terpisah

Tampaknya mereka memilih pendekatan yang berbeda dari model penalaran terpisah seperti o1 milik OpenAI atau R1 milik DeepSeek. Sepertinya dua mode diintegrasikan dalam satu model tunggal.

Selain itu, saat tanggal cutoff data pelatihan ditanyakan langsung ke model, model tersebut menjawab akhir Oktober 2024~!