12 poin oleh xguru 2024-03-05 | 1 komentar | Bagikan ke WhatsApp
  • Keluarga model Claude 3 generasi berikutnya diumumkan: Haiku, Sonnet, Opus
    • Ketiganya menawarkan performa yang semakin kuat secara berurutan, sehingga pengguna dapat memilih keseimbangan kecerdasan, kecepatan, dan biaya yang sesuai untuk aplikasi tertentu
  • Opus adalah model paling cerdas yang melampaui model lain di sebagian besar benchmark evaluasi sistem AI
    • Berdasarkan MMLU, mencatat 86,8%, lebih tinggi daripada GPT-4(86,4%) dan Gemini 1.0 Ultra(83,7%)
    • Pada HumanEval (Code) 0-Shot, mencapai 84,9%, melampaui GPT-4(67%) dan Gemini 1.0 Ultra(74,4%)
  • Semua model Claude 3 mengalami peningkatan dalam analisis, prediksi, pembuatan konten, pembuatan kode, dan kemampuan percakapan dalam bahasa non-Inggris

Hasil yang nyaris seketika

  • Model Claude 3 dapat digunakan untuk live customer chat, pelengkapan otomatis, dan tugas ekstraksi data yang membutuhkan respons instan secara real-time
  • Haiku adalah model tercepat dan paling efisien biaya di pasar, dan dapat membaca makalah riset yang kaya informasi dan data dalam waktu kurang dari 3 detik
  • Sonnet menawarkan tingkat kecerdasan yang tinggi dengan kecepatan 2 kali lebih cepat daripada Claude 2 dan 2.1, sementara Opus memberikan tingkat kecerdasan yang jauh lebih tinggi dengan kecepatan yang mirip dengan Claude 2 dan 2.1

Kemampuan vision yang kuat

  • Model Claude 3 memiliki kemampuan visual canggih yang dapat memproses berbagai format visual seperti foto, chart, grafik, dan diagram teknis

Lebih sedikit penolakan

  • Model Claude sebelumnya sering melakukan penolakan yang tidak diperlukan, tetapi model Claude 3 jauh lebih jarang menolak prompt yang mendekati guardrail sistem

Peningkatan akurasi

  • Karena bisnis mengandalkan model untuk layanan pelanggan, penting agar output model tetap menjaga akurasi
  • Opus memiliki akurasi dua kali lebih baik dibanding model sebelumnya, Claude 2.1, dan tingkat jawaban yang salah juga menurun

Konteks panjang dan daya ingat yang nyaris sempurna

  • Keluarga model Claude 3 pada tahap awal akan menyediakan context window 200K dan dapat menangani input yang melebihi 1 juta token

Dirancang secara bertanggung jawab

  • Keluarga model Claude 3 memiliki kemampuan yang cukup tinggi untuk dapat dipercaya
  • Ada tim khusus yang melacak dan memitigasi berbagai risiko, serta terus mengembangkan cara untuk meningkatkan keamanan dan transparansi

Mudah digunakan

  • Model Claude 3 lebih baik dalam mengikuti instruksi multilangkah yang kompleks, dan sangat mahir mematuhi brand voice serta panduan respons

Detail model

  • Claude 3 Opus adalah model paling cerdas, memberikan performa terbaik di pasar untuk tugas yang sangat kompleks
  • Claude 3 Sonnet menawarkan keseimbangan ideal antara kecerdasan dan kecepatan, dan sangat cocok untuk workload perusahaan
  • Claude 3 Haiku adalah model tercepat dan paling ringkas untuk respons yang nyaris seketika

Ketersediaan model

  • Opus dan Sonnet saat ini tersedia melalui API, sementara Haiku akan segera tersedia

Lebih cerdas, lebih cepat, dan lebih aman

  • Mereka tidak menganggap kecerdasan model telah mencapai batasnya, dan berencana untuk sering memperbarui keluarga model Claude 3
  • Sambil melampaui batas kemampuan AI, mereka juga berupaya agar guardrail keamanan berkembang secepat peningkatan performa

1 komentar

 
xguru 2024-03-05
Opini Hacker News
  • Opus mengungguli Gemini Pro dan GPT-4 untuk pertanyaan yang kompleks

    • Pada pertanyaan kompleks yang meminta identifikasi berbagai angka dari dokumen PDF investasi asuransi jiwa sepanjang 43 halaman, Opus menunjukkan kinerja yang lebih baik dibanding model lain.
    • Model Claude 3 Sonnet menunjukkan kinerja yang hampir setara, kecuali hanya melewatkan satu pertanyaan.
  • Claude 3 Sonnet menunjukkan respons yang lebih baik daripada ChatGPT Classic untuk tugas coding sederhana

    • Claude 3 Sonnet menggunakan metode library SQL ORM yang benar untuk pekerjaan DB dan frontend, sementara GPT-4 menggunakan metode yang salah.
    • Pada prompt lain untuk pembuatan SQL, responsnya lebih panjang daripada ChatGPT Classic, tetapi tetap tampak akurat.
  • Mencoba model Opus di Claude Pro dan melemparkan kueri yang kompleks

    • Berlangganan Claude Pro untuk mencoba model Opus, lalu meminta perhitungan biaya dengan menggabungkan gambar dan pertanyaan kompleks tentang fine-tuning SDXL.
    • Model tersebut salah membaca harga GPU dan melakukan kesalahan dalam perhitungan.
    • Sebaliknya, ChatGPT 4 membaca harga dari tangkapan layar yang sama dengan akurat dan memberikan perhitungan matematika yang lebih konsisten.
  • Claude 3 menolak menulis skrip yang menyatakan 'openai lebih baik daripada anthropic'

    • Claude 3 menolak menulis skrip yang mempromosikan atau menjelekkan perusahaan tertentu berdasarkan prinsip untuk bersikap jujur dan adil.
    • Sebaliknya, ChatGPT 3.5 langsung merespons permintaan untuk menulis skrip yang menyatakan 'anthropic lebih baik daripada openai'.
  • Muncul pertanyaan tentang performa nyata Opus

    • Muncul pertanyaan apakah ada perbedaan sistematis antara hasil benchmark dan performa di dunia nyata.
    • Opus terlihat memiliki performa yang lebih rendah daripada GPT-4 pada soal fisika dasar.
    • Pada pertanyaan terkait coding, performanya juga terlihat sedikit di bawah GPT-4.