Model Claude 3 diumumkan

xguru · 2024-03-05T09:12:01+09:00

Keluarga model Claude 3 generasi berikutnya diumumkan: Haiku, Sonnet, Opus Ketiganya menawarkan performa yang semakin kuat secara berurutan, sehingga pengguna dapat memilih keseimbangan kecerdasan, kecepatan, dan biaya yang sesuai untuk aplikasi tertentu Opus adalah model paling cerdas yang melampaui model lain di sebagian besar benchmark evaluasi sistem AI Berdasarkan MMLU, mencatat 86,8%, lebih tinggi daripada GPT-4(86,4%) dan Gemini 1.0 Ultra(83,7%) Pada HumanEval (Code) 0-Shot, mencapai 84,9%, melampaui GPT-4(67%) dan Gemini 1.0 Ultra(74,4%) Semua model Claude 3 mengalami peningkatan dalam analisis, prediksi, pembuatan konten, pembuatan kode, dan kemampuan percakapan dalam bahasa non-Inggris Hasil yang nyaris seketika Model Claude 3 dapat digunakan untuk live customer chat, pelengkapan otomatis, dan tugas ekstraksi data yang membutuhkan respons instan secara real-time Haiku adalah model tercepat dan paling efisien biaya di pasar, dan dapat membaca makalah riset yang kaya informasi dan data dalam waktu kurang dari 3 detik Sonnet menawarkan tingkat kecerdasan yang tinggi dengan kecepatan 2 kali lebih cepat daripada Claude 2 dan 2.1, sementara Opus memberikan tingkat kecerdasan yang jauh lebih tinggi dengan kecepatan yang mirip dengan Claude 2 dan 2.1 Kemampuan vision yang kuat Model Claude 3 memiliki kemampuan visual canggih yang dapat memproses berbagai format visual seperti foto, chart, grafik, dan diagram teknis Lebih sedikit penolakan Model Claude sebelumnya sering melakukan penolakan yang tidak diperlukan, tetapi model Claude 3 jauh lebih jarang menolak prompt yang mendekati guardrail sistem Peningkatan akurasi Karena bisnis mengandalkan model untuk layanan pelanggan, penting agar output model tetap menjaga akurasi Opus memiliki akurasi dua kali lebih baik dibanding model sebelumnya, Claude 2.1, dan tingkat jawaban yang salah juga menurun Konteks panjang dan daya ingat yang nyaris sempurna Keluarga model Claude 3 pada tahap awal akan menyediakan context window 200K dan dapat menangani input yang melebihi 1 juta token Dirancang secara bertanggung jawab Keluarga model Claude 3 memiliki kemampuan yang cukup tinggi untuk dapat dipercaya Ada tim khusus yang melacak dan memitigasi berbagai risiko, serta terus mengembangkan cara untuk meningkatkan keamanan dan transparansi Mudah digunakan Model Claude 3 lebih baik dalam mengikuti instruksi multilangkah yang kompleks, dan sangat mahir mematuhi brand voice serta panduan respons Detail model Claude 3 Opus adalah model paling cerdas, memberikan performa terbaik di pasar untuk tugas yang sangat kompleks Claude 3 Sonnet menawarkan keseimbangan ideal antara kecerdasan dan kecepatan, dan sangat cocok untuk workload perusahaan Claude 3 Haiku adalah model tercepat dan paling ringkas untuk respons yang nyaris seketika Ketersediaan model Opus dan Sonnet saat ini tersedia melalui API, sementara Haiku akan segera tersedia Lebih cerdas, lebih cepat, dan lebih aman Mereka tidak menganggap kecerdasan model telah mencapai batasnya, dan berencana untuk sering memperbarui keluarga model Claude 3 Sambil melampaui batas kemampuan AI, mereka juga berupaya agar guardrail keamanan berkembang secepat peningkatan performa

(anthropic.com)

12 poin oleh xguru 2024-03-05 | 1 komentar | Bagikan ke WhatsApp

Keluarga model Claude 3 generasi berikutnya diumumkan: Haiku, Sonnet, Opus
- Ketiganya menawarkan performa yang semakin kuat secara berurutan, sehingga pengguna dapat memilih keseimbangan kecerdasan, kecepatan, dan biaya yang sesuai untuk aplikasi tertentu
Opus adalah model paling cerdas yang melampaui model lain di sebagian besar benchmark evaluasi sistem AI
- Berdasarkan MMLU, mencatat 86,8%, lebih tinggi daripada GPT-4(86,4%) dan Gemini 1.0 Ultra(83,7%)
- Pada HumanEval (Code) 0-Shot, mencapai 84,9%, melampaui GPT-4(67%) dan Gemini 1.0 Ultra(74,4%)
Semua model Claude 3 mengalami peningkatan dalam analisis, prediksi, pembuatan konten, pembuatan kode, dan kemampuan percakapan dalam bahasa non-Inggris

Hasil yang nyaris seketika

Model Claude 3 dapat digunakan untuk live customer chat, pelengkapan otomatis, dan tugas ekstraksi data yang membutuhkan respons instan secara real-time
Haiku adalah model tercepat dan paling efisien biaya di pasar, dan dapat membaca makalah riset yang kaya informasi dan data dalam waktu kurang dari 3 detik
Sonnet menawarkan tingkat kecerdasan yang tinggi dengan kecepatan 2 kali lebih cepat daripada Claude 2 dan 2.1, sementara Opus memberikan tingkat kecerdasan yang jauh lebih tinggi dengan kecepatan yang mirip dengan Claude 2 dan 2.1

Kemampuan vision yang kuat

Model Claude 3 memiliki kemampuan visual canggih yang dapat memproses berbagai format visual seperti foto, chart, grafik, dan diagram teknis

Lebih sedikit penolakan

Model Claude sebelumnya sering melakukan penolakan yang tidak diperlukan, tetapi model Claude 3 jauh lebih jarang menolak prompt yang mendekati guardrail sistem

Peningkatan akurasi

Karena bisnis mengandalkan model untuk layanan pelanggan, penting agar output model tetap menjaga akurasi
Opus memiliki akurasi dua kali lebih baik dibanding model sebelumnya, Claude 2.1, dan tingkat jawaban yang salah juga menurun

Konteks panjang dan daya ingat yang nyaris sempurna

Keluarga model Claude 3 pada tahap awal akan menyediakan context window 200K dan dapat menangani input yang melebihi 1 juta token

Dirancang secara bertanggung jawab

Keluarga model Claude 3 memiliki kemampuan yang cukup tinggi untuk dapat dipercaya
Ada tim khusus yang melacak dan memitigasi berbagai risiko, serta terus mengembangkan cara untuk meningkatkan keamanan dan transparansi

Mudah digunakan

Model Claude 3 lebih baik dalam mengikuti instruksi multilangkah yang kompleks, dan sangat mahir mematuhi brand voice serta panduan respons

Detail model

Claude 3 Opus adalah model paling cerdas, memberikan performa terbaik di pasar untuk tugas yang sangat kompleks
Claude 3 Sonnet menawarkan keseimbangan ideal antara kecerdasan dan kecepatan, dan sangat cocok untuk workload perusahaan
Claude 3 Haiku adalah model tercepat dan paling ringkas untuk respons yang nyaris seketika

Ketersediaan model

Opus dan Sonnet saat ini tersedia melalui API, sementara Haiku akan segera tersedia

Lebih cerdas, lebih cepat, dan lebih aman

Mereka tidak menganggap kecerdasan model telah mencapai batasnya, dan berencana untuk sering memperbarui keluarga model Claude 3
Sambil melampaui batas kemampuan AI, mereka juga berupaya agar guardrail keamanan berkembang secepat peningkatan performa

1 komentar

xguru 2024-03-05

Opini Hacker News

Opus mengungguli Gemini Pro dan GPT-4 untuk pertanyaan yang kompleks
- Pada pertanyaan kompleks yang meminta identifikasi berbagai angka dari dokumen PDF investasi asuransi jiwa sepanjang 43 halaman, Opus menunjukkan kinerja yang lebih baik dibanding model lain.
- Model Claude 3 Sonnet menunjukkan kinerja yang hampir setara, kecuali hanya melewatkan satu pertanyaan.
Claude 3 Sonnet menunjukkan respons yang lebih baik daripada ChatGPT Classic untuk tugas coding sederhana
- Claude 3 Sonnet menggunakan metode library SQL ORM yang benar untuk pekerjaan DB dan frontend, sementara GPT-4 menggunakan metode yang salah.
- Pada prompt lain untuk pembuatan SQL, responsnya lebih panjang daripada ChatGPT Classic, tetapi tetap tampak akurat.
Mencoba model Opus di Claude Pro dan melemparkan kueri yang kompleks
- Berlangganan Claude Pro untuk mencoba model Opus, lalu meminta perhitungan biaya dengan menggabungkan gambar dan pertanyaan kompleks tentang fine-tuning SDXL.
- Model tersebut salah membaca harga GPU dan melakukan kesalahan dalam perhitungan.
- Sebaliknya, ChatGPT 4 membaca harga dari tangkapan layar yang sama dengan akurat dan memberikan perhitungan matematika yang lebih konsisten.
Claude 3 menolak menulis skrip yang menyatakan 'openai lebih baik daripada anthropic'
- Claude 3 menolak menulis skrip yang mempromosikan atau menjelekkan perusahaan tertentu berdasarkan prinsip untuk bersikap jujur dan adil.
- Sebaliknya, ChatGPT 3.5 langsung merespons permintaan untuk menulis skrip yang menyatakan 'anthropic lebih baik daripada openai'.
Muncul pertanyaan tentang performa nyata Opus
- Muncul pertanyaan apakah ada perbedaan sistematis antara hasil benchmark dan performa di dunia nyata.
- Opus terlihat memiliki performa yang lebih rendah daripada GPT-4 pada soal fisika dasar.
- Pada pertanyaan terkait coding, performanya juga terlihat sedikit di bawah GPT-4.