6 poin oleh GN⁺ 2024-06-28 | 1 komentar | Bagikan ke WhatsApp
  • Claude 3.5 Sonnet saat ini merupakan model terbaik di bidang AI percakapan
  • Claude 3.5 Sonnet dapat digunakan secara gratis di Claude.ai dan aplikasi iOS Claude. Jika menginginkan batas penggunaan yang lebih tinggi, tersedia juga opsi berlangganan
  • Isi diringkas dengan tetap mempertahankan struktur dokumen semaksimal mungkin, dan dirapikan dengan penggunaan Markdown
  • Kecepatannya 2 kali lebih cepat dibanding Claude Opus dan biayanya juga lebih murah
  • Fitur Artifacts yang baru diperkenalkan memungkinkan kode, dokumen, desain situs web, dan lainnya ditampilkan serta diedit secara real-time di jendela terpisah
  • OpenAI, Google DeepMind, dan Anthropic semuanya mengembangkan model besar berkinerja tinggi, tetapi saat ini trennya adalah berfokus pada model yang cepat, murah, dan tetap memberikan performa unggul

Hasil benchmark dan evaluasi

  • Menunjukkan performa yang melampaui model sebelumnya di banyak benchmark. Khususnya menempati posisi pertama secara dominan di GPQA
  • Dalam evaluasi coding fungsional menggunakan Artifacts, berhasil menyelesaikan 64% masalah, jauh melampaui model sebelumnya (38%)
  • Dalam evaluasi para ahli di berbagai bidang seperti hukum, keuangan, dan filsafat, mencatat tingkat kemenangan tinggi antara 82% hingga 73%
  • Kemampuan pengenalan visual juga ditingkatkan, dan dirancang agar fungsi pengenalan wajah dibatasi melalui prompt tambahan

Fitur Artifacts baru

  • Melalui fitur Artifacts, kode, dokumen, desain web, dan lainnya dapat dibuat serta diedit secara real-time di jendela samping percakapan
  • Dinilai sebagai langkah pertama dalam evolusi dari AI percakapan menuju lingkungan kerja kolaboratif
  • Ke depannya diharapkan dapat mendukung kolaborasi tim dan berkembang menjadi alat manajemen pengetahuan tingkat organisasi

Tinjauan keamanan dan etika

  • Claude 3.5 Sonnet tetap berada pada tingkat ASL-2, sehingga belum memiliki kemampuan yang cukup mengkhawatirkan
  • UK AISI melakukan evaluasi keamanan sebelum peluncuran
  • Dari sisi tingkat penolakan, model ini juga menunjukkan perbaikan dibanding model sebelumnya
  • Tetap berpegang pada prinsip tidak menggunakan data pengguna untuk melatih model
  • Mengambil sikap yang cenderung hati-hati terhadap pengembangan frontier technology, tetapi tidak memberikan komitmen yang jelas

Dampak terhadap rekayasa perangkat lunak

  • Claude 3.5 Sonnet sangat meningkatkan pekerjaan coding para engineer. Model ini membantu menyelesaikan hambatan secara otomatis dan bahkan menangani dokumentasi
  • Tingkat kelulusan pengujian pull request meningkat besar dari Opus 38% menjadi Sonnet 64%
  • Di internal Anthropic, baik non-spesialis maupun engineer berpengalaman sama-sama memanfaatkan Claude untuk menghemat banyak waktu
  • Diperkirakan akan sangat mempersingkat waktu kerja engineer dan memungkinkan siapa pun melakukan coding dengan lebih mudah
  • Peningkatan produktivitas engineering dengan memanfaatkan teknologi AI diperkirakan akan semakin cepat

Keterbatasan model

  • Masih melakukan kesalahan pada beberapa puzzle atau game terkenal. Namun, kadang dapat menyelesaikannya jika diberi informasi konteks
  • Ada kemungkinan tetap rentan terhadap tipu daya atau serangan yang canggih
  • Tampaknya berfokus pada peningkatan kemampuan penalaran secara menyeluruh, bukan terpaku pada masalah tertentu
  • Masih berada pada tingkat memanfaatkan pengetahuan yang dihasilkan manusia, sehingga keterbatasan mendasarnya tetap ada

Respons pengguna

  • Menunjukkan performa yang mengagumkan di bidang-bidang spesialis seperti fisika, kimia, dan teknik mesin
  • Berbagai contoh pemanfaatan Artifacts terus bermunculan, seperti pembuatan gambar SVG, pengembangan web app, dan simulasi 3D
  • Di sisi lain, ada juga pendapat bahwa model ini masih belum melampaui kreativitas manusia

Pendapat GN⁺

  • Kehadiran Claude 3.5 Sonnet menjadi titik balik besar dalam kemajuan teknologi AI percakapan.
  • Dari sisi kecepatan dan biaya, peningkatannya sangat signifikan sehingga diperkirakan pemanfaatannya akan meluas di berbagai bidang. Terutama, model ini diperkirakan akan sangat berkontribusi pada peningkatan produktivitas di bidang software engineering
  • Melalui fitur Artifacts, terlihat potensi untuk berkembang dari sekadar percakapan menjadi alat kolaborasi yang bisa digunakan dalam pekerjaan nyata. Dalam jangka panjang, fitur ini juga dapat berkembang menjadi sistem manajemen pengetahuan perusahaan
  • Upaya Anthropic dalam aspek keamanan dan etika layak mendapat apresiasi tinggi. Namun, model ini masih belum sempurna dan tetap memerlukan riset serta pengawasan berkelanjutan
  • Seiring persaingan dengan model besar lain seperti GPT-4 semakin cepat, perkembangan teknologi AI diperkirakan akan makin pesat. Dalam jangka panjang, kemungkinan pengembangan AGI setingkat manusia juga tidak dapat sepenuhnya dikesampingkan
  • Secara keseluruhan, Claude 3.5 Sonnet layak dinilai sebagai AI percakapan terbaik saat ini. Model ini akan banyak berkontribusi pada inovasi produktivitas individu maupun perusahaan, tetapi pada saat yang sama perlu ada kesiapan menghadapi dampak sosialnya

1 komentar

 
GN⁺ 2024-06-28
Pendapat Hacker News
  • Fitur proyek: Fitur proyek Anthropic berguna, dan kemampuan untuk menjalankan beberapa proyek secara bersamaan terasa bagus. Namun, jendela konteks tiap proyek bisa terasa kecil. Ke depannya, diharapkan ada jendela konteks yang lebih besar.

  • Claude 3.5 Sonnet: Kemampuan coding Claude 3.5 Sonnet sangat mengesankan. Ini membantu programmer profesional bekerja lebih cepat. Untuk menghasilkan kode berkualitas tinggi, tetap diperlukan instruksi yang rinci dan evaluasi terhadap hasilnya.

  • Eksperimen coding: Eksperimen coding dilakukan bersama API Anthropic, dan lebih dari 95% proyek ditulis oleh Claude. Hasilnya menunjukkan kualitas yang tinggi.

  • Konsistensi Sonnet 3.5: Sonnet 3.5 sangat konsisten dan memberikan respons yang lebih stabil dibanding model-model sebelumnya. Ini merupakan kemajuan besar.

  • Evaluasi kemampuan coding: Kemampuan coding GPT-4 dirasa kurang memuaskan. Karena kecepatan responsnya melambat, opsi lain sedang dieksplorasi.

  • Perbandingan AI: Claude terdengar seperti manusia dan kuat untuk pertanyaan terkait data. GPT-4 lebih unggul dalam penalaran logis. Harga dan kecepatan output keduanya mirip.

  • Grafik benchmark: Tidak setuju dengan klaim bahwa grafik benchmark sedang mengalami percepatan. Diperlukan grafik yang lebih rinci.

  • Pemblokiran akun: Akun di Anthropic Sonnet diblokir setelah peninjauan otomatis. Ini membuat langganan OpenAI jadi lebih disukai.

  • Teknologi mutakhir: Lingkungan pengembangan AI yang kompetitif saat ini terasa menarik. Menyenangkan bisa mengalami era seperti ini secara langsung.

  • Fungsi ringkasan AI: Kemampuan AI untuk merangkum berbagai opsi desain dan stack teknologi baru sangat berguna. Biaya percakapan dengan contoh kode juga murah.

  • Penyetaraan naik model ML: Jika menggunakan dataset yang sama, model dengan performa serupa akan muncul. Data dapat menjadi pembeda performa model. Teknologi ML pada dasarnya masih serupa.