1 poin oleh GN⁺ 2025-02-25 | 2 komentar | Bagikan ke WhatsApp

Pengumuman

  • Claude 3.7 Sonnet dan Claude Code diumumkan. Claude 3.7 Sonnet adalah model penalaran hibrida pertama di pasar, yang menawarkan respons cepat dan pemikiran langkah demi langkah. Pengguna API dapat mengatur secara rinci waktu berpikir model.
  • Claude 3.7 Sonnet menunjukkan performa yang sangat kuat terutama dalam coding dan pengembangan web frontend. Claude Code adalah alat baris perintah yang memungkinkan pendelegasian tugas engineering langsung dari terminal, dan tersedia sebagai pratinjau riset terbatas.
  • Claude 3.7 Sonnet tersedia di semua paket Claude serta melalui Anthropic API, Amazon Bedrock, dan Vertex AI dari Google Cloud. Mode extended thinking tersedia di semua platform kecuali tingkat gratis Claude.

Claude 3.7 Sonnet: Penalaran mutakhir yang praktis

  • Claude 3.7 Sonnet dikembangkan dengan filosofi yang berbeda dari model penalaran sebelumnya. Seperti manusia yang menggunakan satu otak untuk respons cepat dan refleksi mendalam, penalaran diyakini harus menjadi kemampuan yang terintegrasi.
  • Claude 3.7 Sonnet menggabungkan LLM umum dan model penalaran menjadi satu, sehingga pengguna dapat memilih antara respons biasa dan pemikiran mendalam. Dalam mode extended thinking, performa meningkat dalam matematika, fisika, coding, dan bidang lainnya.
  • Saat menggunakan Claude 3.7 Sonnet melalui API, pengguna dapat menyesuaikan anggaran untuk proses berpikir. Ini memungkinkan pengaturan kecepatan dan kualitas respons.
  • Claude 3.7 Sonnet berfokus pada kasus penggunaan bisnis dunia nyata, bukan pada soal matematika dan ilmu komputer semata. Dalam pengujian awal, model ini menunjukkan hasil yang sangat baik dalam kemampuan coding.

Claude Code

  • Claude Code adalah alat yang membantu developer mencari kode, mengedit file, menjalankan pengujian, serta melakukan commit dan push kode ke GitHub.
  • Claude Code sangat berguna untuk test-driven development, debugging masalah kompleks, dan refactoring skala besar. Dalam pengujian awal, alat ini secara signifikan mengurangi waktu pengembangan.
  • Tujuan Claude Code adalah memahami bagaimana developer menggunakan Claude agar dapat diterapkan pada peningkatan model di masa mendatang.

Bekerja dengan codebase bersama Claude

  • Pengalaman coding di Claude.ai telah ditingkatkan. Integrasi GitHub kini tersedia di semua paket Claude, sehingga developer dapat menghubungkan repositori kode mereka langsung ke Claude.
  • Claude 3.7 Sonnet menjadi mitra yang kuat dalam perbaikan bug, pengembangan fitur, dan penulisan dokumentasi melalui pemahaman mendalam terhadap proyek pribadi, pekerjaan, dan open source.

Membangun dengan bertanggung jawab

  • Claude 3.7 Sonnet telah melalui pengujian dan evaluasi yang luas dengan bekerja sama dengan para ahli eksternal untuk memastikan keamanan, keselamatan, dan keandalan.
  • Tersedia system card yang membahas hasil keamanan baru. Ini mencakup evaluasi kebijakan penskalaan yang bertanggung jawab yang dapat diterapkan oleh lab AI dan peneliti lain.

Menuju masa depan

  • Claude 3.7 Sonnet dan Claude Code merupakan langkah penting menuju sistem AI yang dapat meningkatkan kemampuan manusia. Keduanya memperluas pencapaian manusia melalui penalaran mendalam, pekerjaan otonom, dan kolaborasi yang efektif.
  • Mereka menantikan eksplorasi dan kreasi dengan fitur-fitur baru ini, serta menyambut umpan balik untuk perbaikan berkelanjutan.

2 komentar

 
GN⁺ 2025-02-25
Komentar Hacker News
  • Claude 3.7 Sonnet mencatat 60,4% di papan peringkat multibahasa Aider

    • Mencapai skor tinggi tanpa mode berpikir, dan melampaui rekor Sonnet 3.5
    • Aider 0.75.0 mendukung 3.7 Sonnet
    • Dukungan mode berpikir dan hasil benchmark akan segera dirilis
  • Boris dari tim Claude Code akan menjawab pertanyaan tentang produk tersebut

  • Benchmark LLM Kagi telah diperbarui dengan mode tujuan umum dan mode berpikir Sonnet 3.7

    • Dinilai sebagai LLM tujuan umum terkuat kedua setelah Gemini 2.0 pro
    • Dalam mode berpikir, levelnya mirip dengan o1-mini dan o3-mini
    • Secara keseluruhan menawarkan kualitas dan kecepatan tinggi dengan harga yang sama
    • Akan diaktifkan di Kagi Assistant dalam 24 jam
  • Ada fitur menarik yang bisa menganalisis profil HN

    • Sedang digunakan untuk menguji selera humor model baru
  • OpenAI berfokus pada cara penggunaan LLM dalam bisnis nyata

    • Menargetkan "model paling cerdas", tetapi dalam praktiknya lebih banyak digunakan untuk bantuan belajar, transformasi data, dan penulisan kode
    • Keseimbangan antara "kecerdasan" dan "kepraktisan" itu penting
  • Masuk akal jika Anthropic berfokus pada kode

    • Menarik untuk melihat bagaimana pesaing Devin akan berkembang
  • Cursor telah diperbarui ke versi terbaru dan "claude-3.7-sonnet" ditambahkan ke daftar model

    • "claude-3.7-sonnet-thinking" juga berfungsi
    • Fitur kontrol waktu berpikir akan segera ditambahkan
  • Kesan pertama saat berinteraksi dengan Claude 3.7 Sonnet sangat mendalam

    • Mendapat bantuan untuk menyelesaikan masalah pada fungsi halaman CloudFlare
    • Claude 3.7 menemukan masalahnya dengan tepat dan memberikan solusinya
  • Claude menulis ulang setengah dari skripsi sarjana hanya dalam 30 detik

    • Gemini Flash 2 gagal melakukannya
  • o1 pro beberapa kali menunjukkan hasil yang mengesankan

    • Mendapat bantuan untuk meninjau kode MCU yang kompleks
    • o1 pro memahami kode yang menggunakan SPI dan menunjukkan masalahnya
    • Mode berpikir Claude 3.7 tidak terlalu berguna
    • o1 pro membantu menyelesaikan masalah IPsec VPN
    • Sedang digunakan sambil membandingkan ChatGPT dan Claude
 
riskatcher 2025-02-25

Sulit membandingkannya dengan flash 2 karena perbedaan harganya terlalu besar.. Pas berada di kelas menengah antara o1pro dan o3-mini