Keluarga Model Claude 3

(anthropic.com)

1 poin oleh GN⁺ 2024-03-05 | 1 komentar | Bagikan ke WhatsApp

Anthropic memperkenalkan keluarga produk Claude 3, menghadirkan lini model baru yang memungkinkan pengguna memilih keseimbangan kecerdasan, kecepatan, dan biaya melalui Haiku, Sonnet, dan Opus
Opus mengungguli model sekelas dalam evaluasi utama seperti MMLU, GPQA, dan GSM8K, sementara Claude 3 secara keseluruhan meningkatkan kemampuan analisis, prediksi, pembuatan kode, dan percakapan non-Inggris
Diferensiasi kecepatan menjadi poros utama: Haiku dapat membaca makalah arXiv sekitar 10k token dalam kurang dari 3 detik, sedangkan Sonnet 2 kali lebih cepat daripada Claude 2 dan 2.1 pada sebagian besar workload
Claude 3 memproses input vision seperti foto, chart, grafik, dan diagram teknis, serta saat peluncuran memiliki context window 200K dan kemungkinan input lebih dari 1 juta token
Opus dan Sonnet langsung tersedia di claude.ai dan Claude API; API tersedia di 159 negara, dan Haiku akan segera diluncurkan

Komposisi model dan status ketersediaan

Keluarga Claude 3 terdiri dari Claude 3 Haiku, Claude 3 Sonnet, dan Claude 3 Opus, diurutkan dari performa terendah
Setiap model dirancang agar pengguna dapat memilih keseimbangan kecerdasan, kecepatan, dan biaya sesuai aplikasi
Opus dan Sonnet tersedia di claude.ai dan Claude API
- Claude API sudah tersedia untuk publik umum dan disediakan di 159 negara
- Haiku akan segera tersedia
Pengalaman gratis di claude.ai dijalankan oleh Sonnet, sedangkan Opus tersedia untuk pelanggan Claude Pro
Sonnet juga tersedia di Amazon Bedrock, dan tersedia sebagai pratinjau privat di Vertex AI Model Garden milik Google Cloud
- Opus dan Haiku juga akan segera ditambahkan ke kedua platform tersebut

Kecerdasan, kecepatan, dan performa multimodal

Opus adalah model Anthropic yang paling cerdas, mengungguli model sekelas pada banyak benchmark evaluasi sistem AI seperti MMLU, GPQA, dan GSM8K
Model Claude 3 menunjukkan kemampuan yang meningkat dalam analisis dan prediksi, pembuatan konten yang halus, pembuatan kode, serta percakapan non-Inggris seperti bahasa Spanyol, Jepang, dan Prancis
Cakupan pemanfaatannya makin luas untuk pekerjaan yang mengutamakan respons real-time
- Chat pelanggan live
- Autocomplete
- Ekstraksi data
Haiku adalah model tercepat dan paling efisien biaya dalam kategori kecerdasan tersebut, serta dapat membaca makalah arXiv sekitar 10k token yang mencakup chart dan grafik dalam kurang dari 3 detik
Sonnet 2 kali lebih cepat daripada Claude 2 dan Claude 2.1 pada sebagian besar workload, sekaligus menawarkan tingkat kecerdasan yang lebih tinggi
- Pencarian pengetahuan
- Otomasi penjualan
Opus menawarkan tingkat kecerdasan yang lebih tinggi sambil mempertahankan kecepatan yang mirip dengan Claude 2 dan Claude 2.1

Input vision, pengurangan penolakan, dan peningkatan akurasi

Model Claude 3 memiliki kemampuan vision pada tingkat yang mirip dengan model terdepan lainnya
- Foto
- Chart
- Grafik
- Diagram teknis
Bagi sebagian pelanggan enterprise, hingga 50% knowledge base disimpan dalam format seperti PDF, flowchart, dan slide presentasi, sehingga format input baru ini sangat penting
Model Claude sebelumnya sering melakukan penolakan yang tidak perlu dan tampak seperti kurang memahami konteks, tetapi Opus, Sonnet, dan Haiku pada Claude 3 jauh lebih kecil kemungkinannya menolak menjawab prompt yang dekat dengan guardrail sistem dibandingkan generasi sebelumnya
Claude 3 ditingkatkan agar memahami permintaan secara lebih rinci, mengenali bahaya nyata, dan mengurangi penolakan terhadap prompt yang tidak berbahaya
Evaluasi akurasi menggunakan kumpulan pertanyaan faktual kompleks yang menargetkan kelemahan yang diketahui pada model saat ini
- Jawaban diklasifikasikan sebagai benar, salah atau halusinasi, atau mengakui ketidakpastian
- Opus menggandakan tingkat jawaban benar pada pertanyaan terbuka yang sulit dibandingkan Claude 2.1, sekaligus menurunkan tingkat jawaban salah
Model Claude 3 akan segera menambahkan fitur sitasi, sehingga dapat menunjuk kalimat persis dari materi rujukan untuk memverifikasi jawaban

Konteks panjang dan kemampuan recall

Keluarga Claude 3 menyediakan context window 200K saat peluncuran
Ketiga model dapat menerima input yang melebihi 1 juta token, dan dapat disediakan bagi sebagian pelanggan yang membutuhkan kapasitas pemrosesan lebih tinggi
Untuk memproses prompt konteks panjang dengan benar, diperlukan kemampuan recall yang kuat
Evaluasi Needle In A Haystack (NIAH) mengukur kemampuan untuk mengingat informasi secara akurat dari korpus data yang sangat besar
- Untuk meningkatkan ketahanan evaluasi, setiap prompt menggunakan salah satu dari 30 pasangan needle/question acak
- Diuji pada korpus dokumen crowdsourcing dengan berbagai ukuran
Claude 3 Opus mencapai recall nyaris sempurna di NIAH dengan akurasi di atas 99%
Dalam beberapa kasus, model juga menemukan keterbatasan evaluasi itu sendiri dengan mengenali bahwa kalimat “needle” tampak seperti disisipkan secara artifisial oleh manusia ke dalam teks asli

Desain keselamatan dan mitigasi bias

Anthropic berfokus membuat keluarga Claude 3 dapat dipercaya sebesar kemampuannya
Tim khusus melacak dan memitigasi berbagai risiko
- Disinformasi
- CSAM
- Penyalahgunaan biologis
- Intervensi pemilu
- Kemampuan replikasi otonom
Untuk meningkatkan keselamatan dan transparansi model, Anthropic terus mengembangkan metode seperti Constitutional AI
Model disesuaikan untuk memitigasi masalah privasi yang mungkin muncul akibat format input baru
Berdasarkan Bias Benchmark for Question Answering (BBQ), Claude 3 memiliki bias lebih rendah daripada model sebelumnya
Keluarga Claude 3 berkembang dibandingkan model sebelumnya pada metrik utama pengetahuan biologis, pengetahuan terkait siber, dan otonomi, tetapi tetap berada pada AI Safety Level 2 (ASL-2) menurut Responsible Scaling Policy
Evaluasi red-team menyimpulkan bahwa kemungkinan risiko katastrofik dari model saat ini sangat kecil
- Evaluasi dilakukan sesuai dengan White House commitments dan 2023 US Executive Order
- Anthropic akan terus memantau seberapa dekat model mendatang dengan ambang ASL-3
Detail keselamatan tambahan tersedia di Claude 3 model card

Usabilitas, harga per model, dan penggunaan

Model Claude 3 lebih baik dalam mengikuti instruksi multilangkah yang kompleks
Model ini lebih cocok untuk mematuhi brand voice dan panduan respons serta membangun pengalaman pelanggan yang andal
Kemampuan menghasilkan output terstruktur seperti JSON meningkat, sehingga instruksi Claude menjadi lebih mudah pada kasus penggunaan seperti klasifikasi bahasa alami dan analisis sentimen
Claude 3 Opus
- Claude 3 Opus adalah model paling cerdas yang memberikan performa tingkat tertinggi pada tugas yang sangat kompleks
- Menangani prompt terbuka dan skenario yang belum pernah dilihat dengan kefasihan tinggi dan pemahaman yang mendekati manusia
- Harganya 15 dolar per 1 juta token input dan 75 dolar per 1 juta token output
- Context window 200K, dengan 1 juta token juga memungkinkan untuk kasus penggunaan tertentu
- Potensi kasus penggunaan
  - Perencanaan dan eksekusi tugas kompleks di seluruh API dan database, coding interaktif
  - Tinjauan riset, brainstorming, pembuatan hipotesis, penemuan obat
  - Analisis lanjutan atas chart dan grafik, keuangan, tren pasar, dan prediksi
Claude 3 Sonnet
- Claude 3 Sonnet menargetkan keseimbangan kecerdasan dan kecepatan, terutama disesuaikan untuk workload enterprise
- Menawarkan performa kuat dengan biaya lebih rendah daripada model sekelas, dan dirancang untuk persistensi tinggi dalam deployment AI skala besar
- Harganya 3 dolar per 1 juta token input dan 15 dolar per 1 juta token output
- Context window 200K
- Potensi kasus penggunaan
  - RAG atau pencarian dan pengambilan informasi atas pengetahuan dalam jumlah besar
  - Rekomendasi produk, prediksi, marketing tertarget
  - Pembuatan kode, quality control, parsing teks dari gambar
Claude 3 Haiku
- Claude 3 Haiku adalah model tercepat dan terkecil untuk responsivitas yang hampir instan
- Menjawab kueri dan permintaan sederhana dengan sangat cepat, dan bertujuan membangun pengalaman AI yang mulus yang meniru interaksi manusia
- Harganya 0,25 dolar per 1 juta token input dan 1,25 dolar per 1 juta token output
- Context window 200K
- Potensi kasus penggunaan
  - Dukungan pelanggan dan terjemahan yang cepat dan akurat dalam interaksi live
  - Moderasi konten yang menangkap perilaku berisiko atau permintaan pelanggan
  - Optimasi logistik, manajemen inventaris, ekstraksi pengetahuan dari data tak terstruktur

Fitur dan pembaruan yang direncanakan

Anthropic menilai kecerdasan model belum mendekati batasnya, dan berencana merilis pembaruan yang sering untuk keluarga Claude 3 dalam beberapa bulan ke depan
Sejumlah fitur yang memperkuat kemampuan model untuk kasus penggunaan enterprise dan deployment skala besar sudah direncanakan
- Penggunaan tool, yaitu function calling
- Coding interaktif, yaitu REPL
- Kemampuan agen yang lebih canggih
Anthropic akan memperluas batas kemampuan AI sambil menjaga guardrail keselamatan sejalan dengan peningkatan performa
Titik masuk untuk mulai mengembangkan dengan Claude adalah anthropic.com/claude

1 komentar

GN⁺ 2024-03-05

Pendapat di Hacker News

Saya baru saja merilis plugin yang menambahkan dukungan model Claude 3 ke tool command-line LLM saya
Setelah menyiapkannya dengan pipx install llm, llm install llm-claude-3, llm keys set claude, Anda bisa menjalankannya seperti llm -m claude-3-opus '3 fun facts about pelicans'
Kode: https://github.com/simonw/llm-claude-3
Penjelasan LLM: https://llm.datasette.io/
- Di Mac, saya membuat Quick Action di Automator yang menerima teks terpilih, meneruskannya ke llm -m gpt-4, lalu menampilkan hasilnya dalam dialog osascript; ini sangat berguna
  Sekarang saya bisa menyeret teks di aplikasi apa pun lalu menjalankan LLM dari menu Services, bahkan menambahkan shortcut keyboard, dan memakainya untuk menafsirkan error terminal, pencarian ad hoc, serta memasukkan prompt langsung di editor teks/IDE
- Saya mengganti skrip ringkasan Hacker News ke Claude 3 Opus, dan penjelasan aslinya ada di sini: https://til.simonwillison.net/llms/claude-hacker-news-themes
  Skrip mengambil artikel dan komentar dari API hn.algolia.com, menguraikannya dengan jq, lalu memasukkannya ke llm -m claude-3-opus untuk membuat ringkasan Markdown per tema beserta kutipan langsung
  Hasil menjalankannya pada thread dengan lebih dari 300 komentar ini: https://gist.github.com/simonw/37781de39fb5555f39b4157a8ad0776c
- Pembuatan kunci API Anthropic terlihat seperti gratis, jadi saya bertanya-tanya apakah tahap input kunci bisa diotomatisasi hingga ke sana dengan headless Chrome
  Akan ada lebih banyak software yang langsung berfungsi setelah dipasang lewat pip atau apt, tetapi saat ini masih ada langkah menyebalkan di mana manusia harus menempelkan kunci API
  Bisa juga bercanda bahwa ketika mendekati batas API, GPU bisa menambang sedikit Bitcoin untuk otomatis membayar kapasitas API tambahan—sangat cocok dengan era AI
- Jika Anda memakai Raycast di Mac, Anda bisa membuat skrip pengguna untuk berbicara dengan LLM CLI lewat antarmuka Raycast: https://gist.github.com/vladstudio/92efe283453f5f22d4606947b9f82719
Opus dan model Claude sebelumnya masih belum bisa menyelesaikan masalah Sally dengan benar
Untuk pertanyaan “Jika Sally punya 3 saudara laki-laki dan masing-masing saudara laki-lakinya punya 2 saudara perempuan, berapa saudara perempuan yang Sally punya?”, Claude menyimpulkan bahwa tidak ada saudara perempuan selain Sally sendiri, lalu menjawab 0
https://imgur.com/a/EawcbeL
- GPT-4 API dan ChatGPT juga pada dasarnya salah dan menjawab “Sally punya 2 saudara perempuan”, tetapi jika diberi system prompt yang meminta penalaran langkah demi langkah, jawabannya benar menjadi 1
  Karena pentingnya cara prompting, membandingkan performa terbaik antar-model menjadi cukup sulit, dan tiap model juga punya gaya prompt berbeda untuk mencapai performa terbaiknya
- LLama 13B Q5 lokal menjawab untuk masalah ini bahwa Sally punya 1 saudara perempuan, yaitu dirinya sendiri, dan karena masing-masing dari 3 saudara laki-laki punya 3 saudara perempuan, totalnya 9, lalu dikurangi bagian Sally menjadi 8
- Orang tua Sally dan orang tua para saudara laki-lakinya bisa saja berbeda karena pernikahan ulang dan sebagainya, dan jika hubungan saudara laki-laki/perempuan dianggap sah meski hanya berbagi satu orang tua, jawabannya mungkin tidak tunggal
  Misalnya, Sally dan tiga saudara laki-laki itu berbagi ibu yang sama tetapi ayahnya berbeda, dan para saudara laki-laki tersebut punya dua saudara perempuan, Sally dan Mary, namun Mary dan Sally mungkin bukan saudara perempuan karena himpunan orang tua mereka berbeda
- Contoh seperti ini membuat saya meragukan hype AI
  Katanya setingkat PhD, tetapi tidak mampu menalar masalah di atas dengan benar; jumlah informasi setingkat PhD berbeda dari penalaran tingkat lanjut, dan tampaknya banyak orang tidak bisa membedakan keduanya
  Dalam mobil otonom pun, mengikuti jalur itu mudah tetapi mengidentifikasi jalur dan objek itu sulit; mirip seperti orang keliru mengira mobil benar-benar memahami situasi hanya karena bisa melakukan operasi dasar, LLM juga terlihat serupa
- Ini jelas masalah, tetapi ini juga pertanyaan yang akan dijawab salah oleh cukup banyak orang dewasa biasa di jalan
  Daripada hanya terpaku pada kesalahan model, kita juga perlu melihat hal-hal menakjubkan yang bisa dikerjakannya dengan benar
Benchmark APPS Claude 3 Opus sebesar 70,2% menunjukkan bahwa model ini bisa cukup berguna untuk coding
APPS mengukur kemampuan mengubah deskripsi masalah menjadi kode Python, dengan panjang rata-rata soal hampir 300 kata
Menariknya, model-model papan atas lainnya tidak memublikasikan hasil benchmark ini
Kartu model Claude 3: https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf
Table 1: https://twitter.com/karinanguyen_/status/1764666528220557320
Dataset APPS: https://huggingface.co/datasets/codeparrot/apps
Makalah APPS: https://arxiv.org/abs/2105.09938v3
- Melihat hasil AMC 10, AMC 12 2023 pada Table 2, Claude 3 Opus tergolong lebih baik daripada rata-rata siswa SMA yang mengikuti kompetisi matematika ini
  Rata-rata siswa masing-masing 64,4 dan 61,5, sedangkan Opus 3 mencatat 72 dan 63
  Peserta AMC 12 kemungkinan besar kurang dari 100.000 orang dari total 3–4 juta siswa kelas 12 di AS, dan bahkan jika diasumsikan hanya separuh siswa berprestasi teratas yang ikut, rata-rata AMC dapat merepresentasikan 2–4% teratas siswa SMA AS
  https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf#page7
- Menurut David Rein, penulis pertama benchmark GPQA, Claude 3 mencapai akurasi sekitar 60% di GPQA, dan soal-soalnya benar-benar sulit
  Ia menjelaskan bahwa PhD dari bidang lain, meski menggunakan internet dan mengerjakannya lebih dari 30 menit, hanya mencapai 34%, sementara PhD di bidang yang sama, meski menggunakan internet, mencapai akurasi 65–75%
  https://twitter.com/idavidrein/status/1764675668175094169
  GPQA: A Graduate-Level Google-Proof Q&A Benchmark https://arxiv.org/abs/2311.12022
- Dari sudut pandang seseorang yang bekerja di Anthropic, belakangan sebagian besar kode pekerjaan dituliskan oleh Opus
- Setelah melihat benchmark dan pujian, hari ini saya berlangganan Pro, tetapi dalam alur kerja sehari-hari hasilnya benar-benar bencana
  Dibandingkan ChatGPT-4, rasanya beberapa orde magnitudo lebih buruk, dan pengalaman penggunaan nyatanya terasa seperti kemunduran besar ke masa lalu
- APPS memiliki tiga subset berdasarkan tingkat kesulitan: introductory, interview, dan competition, tetapi tidak jelas Claude 3 diukur pada subset yang mana
  Hasilnya bagus meski hanya pada introductory, tetapi akan lebih baik jika tahu patokan mana yang digunakan
Dalam penjelasan Claude 3, bagian yang mengatakan bahwa penolakan yang tidak perlu berkurang dibanding model sebelumnya terus terasa mengganggu
Saya paham perusahaan tidak ingin menjual produk yang membuat siapa saja bisa belajar cara membuat narkoba atau bom, tetapi saya merasa tidak nyaman jika model yang berjalan di komputer saya menolak melakukan hal yang saya minta
Untuk mendapatkan hasil yang diinginkan, saya harus membujuk atau mengelabui model, dan fakta bahwa sebuah alat menolak perintah pemiliknya terasa seperti penghinaan terhadap hubungan antara manusia dan alat
Kalau saya ingin memakai palu untuk sekrup, itu pilihan saya, bukan sesuatu yang harus ditentukan oleh palu; saya juga tidak mengerti mengapa orang begitu terobsesi membuat alat AI menolak perintah pemiliknya demi “keamanan” yang didefinisikan pihak ketiga
- Mereka bergerak dengan prinsip yang mirip dengan banyak pengembang yang menolak membantu pengembangan senjata
  Mereka tidak ingin tindakan orang lain yang memakai alat mereka menjadi beban nurani
  Namun, karena banyak orang percaya pada kejahatan pikiran dan memiliki keyakinan puritan soal seks, jika tidak menyesuaikan diri dengan itu akan ada biaya reputasi dan pendanaan
  Jika pengguna melakukan kejahatan dengan model, biarkan sistem hukum yang menanganinya; menurut saya Big Brother tidak perlu sampai mengawasi kejahatan pikiran
- Analogi palu itu buruk, dan analogi “kalau saya ingin memakai senjata nuklir, itu pilihan saya dan tanggung jawab penyalahgunaannya juga ada pada saya” sama buruknya
  Saat ini analogi palu mungkin terlihat cukup tepat, tetapi di bidang penyelarasan AI, sistem-sistem ini diperkirakan akan segera, paling lambat dalam 10 tahun, meningkat kemampuannya secara besar-besaran
  Keadaan dasar sebuah alat memang netral secara moral dan membuat orang baik maupun orang jahat menjadi lebih efektif; jika serangan dan pertahanan simetris, masalahnya kecil, tetapi tidak ada alasan mengapa harus begitu
  Alasan adanya regulasi untuk senapan mesin otomatis berkapasitas tinggi juga karena asimetri antara kemampuan serangan pelaku tunggal yang berniat jahat dan ketidakmampuan untuk bertahan terlalu besar; jika serangan AI menjadi jauh lebih mudah daripada pertahanan, ideologi menuju keterbukaan bisa gagal dalam kenyataan
  Namun, fakta bahwa guardrail ditentukan oleh segelintir kelompok adalah masalah, dan tampaknya merupakan efek samping dari kemunculan AI yang terlalu cepat
- Jika perusahaan palu bisa, dengan biaya yang nyaris nol, membuat palu agar tidak digunakan untuk menyerang orang, saya rasa banyak perusahaan akan memasukkan fitur seperti itu
  Itu bisa terjadi karena tekanan pemerintah atau pemasaran kompetitif seperti “palu kami tidak akan secara tidak sengaja melukai bayi”; fakta bahwa palu tidak punya fitur semacam itu mungkin bukan pilihan, melainkan produk sampingan dari keterbatasan
- Menurut saya ini terlalu merasa berhak
  Apakah Anda juga merasa tidak nyaman karena Photoshop mencegah pengeditan gambar uang? Model itu bukan milik pengguna, dan bukan pengguna yang menghabiskan miliaran dolar untuk mengembangkannya
  Seperti perangkat lunak komersial pada umumnya, gunakan sesuai syarat yang ditetapkan pengembang, atau jangan gunakan sama sekali
- Orang-orang yang marah terhadap penolakan tampaknya tidak memahami siapa pelanggan nyata pasar AI dan di mana uangnya berada
  Target pasarnya adalah perusahaan besar yang ingin mengotomatiskan berbagai pekerjaan dan menghemat ratusan juta hingga miliaran dolar biaya tenaga kerja, dan yang mereka inginkan adalah model yang sangat andal dengan informasi akurat dan guardrail yang baik
  Tidak mungkin perusahaan asuransi multinasional besar mau menanggung kemungkinan chatbot dukungan pelanggan menulis erotika untuk pelanggan yang memancingnya sebagai lelucon
  Pengguna pentingnya bukan individu, melainkan para pemberi kerja yang ingin menggantikan tenaga dukungan pelanggan yang melakukan kerja emosional; mereka menginginkan pengganti manusia yang terkendali, ramah, dan memiliki guardrail
Opus mengungguli Gemini Pro dan GPT-4 dalam pertanyaan kompleks
Tugasnya adalah menemukan beberapa angka dalam PDF investasi asuransi jiwa setebal 43 halaman, dan model lain bahkan tidak mendekati
Hanya Claude 3 Sonnet yang cukup dekat, dengan melewatkan satu pertanyaan
- Saya penasaran apakah sudah dibandingkan juga dengan jendela konteks 1 juta token Gemini Pro 1.5
  Itu bisa ideal untuk PDF 43 halaman, dan karena saya punya akses, saya bisa mengujinya dengan Pro 1.5
- Saya mencoba menanyakan pertanyaan terkait GAN kepada Sonnet dan hasilnya cukup bagus, tampaknya lebih baik daripada GPT-3.5
- Saya sudah mencoba Sonnet, tetapi tidak terlalu bagus
Saya berlangganan Claude Pro untuk mencoba Opus, mengajukan pertanyaan kompleks terkait gambar dan fine-tuning SDXL, lalu memintanya menghitung perbandingan biaya RTX 6000 Ada dan H100, tetapi banyak sekali kesalahan
Ketika saya memberikan tangkapan layar harga GPU Runpod, ia salah membaca harga RTX 6000 Ada sebagai $0.114, bukan $1.14, dan dalam perhitungan berikutnya pun .278 * $0.114 atau .116 * $4.69 tidak sesuai dengan total yang ia berikan
Sebaliknya, ChatGPT 4 membaca harga dengan benar dari tangkapan layar yang sama, melihat bahwa RTX 6000 Ada tidak tersedia lalu menggantinya sendiri dengan 4090, dan membuat perhitungan yang lebih konsisten
- GPT tampaknya menjalankan fungsi pembantu terpisah pada token input/output untuk mengoreksi masalah tokenisasi
  Sepertinya tidak ada cara memperbaiki masalah ini selain menemukan item rumus, mengirimkannya ke parser dan fungsi buatan tangan, lalu menyisipkan kembali hasilnya ke token output
  Referensi: Let's build the GPT Tokenizer https://www.youtube.com/watch?v=zduSFxRajkE
- Sebagai CISO Anthropic, terima kasih atas umpan baliknya; jika Anda bisa membagikan detail gambar, mohon kirimkan lewat pesan pribadi
  Belum ada LLM mana pun yang pernah memiliki kalkulator emergen
- Saya penasaran apa tepatnya yang dimaksud OpenAI ketika mengatakan GPT-4 dengan vision lebih pintar daripada GPT-4 tanpa vision
  Apakah maksudnya kemampuan vision meningkatkan kecerdasan bahkan pada tugas yang tidak memiliki input gambar?
- Perbedaannya mungkin muncul saat membaca tangkapan layar, dan jika hanya diberi teks, tampaknya levelnya mirip dengan GPT-4
  Misalnya, untuk ekspresi aritmetika kompleks, jawaban kalkulator adalah 22.08555452004, GPT-4 tanpa Python menghasilkan 22.3038, dan Claude 3 Opus menghasilkan 22.0492
- Penghancur ekonomi yang sebenarnya tampaknya akan muncul ketika perintah seperti “investasikan 1.000 dolar ini untuk memaksimalkan keuntungan dan jadikan 100 kali lipat” menjadi memungkinkan
  Setelah itu, tinggal menjalankan bot r/wallStreetBets sesuka hati
Saya menguji satu prompt coding sederhana yang melibatkan DB dan frontend, dan Claude 3 Sonnet, model yang gratis sekaligus lebih lemah, memberikan jawaban yang lebih baik daripada ChatGPT Classic
Ia memakai metode yang benar dari library SQL ORM yang kurang dikenal, sementara GPT-4 memakai metode yang salah
Namun untuk prompt pembuatan SQL, jawabannya lebih buruk daripada ChatGPT Classic; kelihatannya benar, tetapi jauh lebih panjang
Tautan ChatGPT 1: https://chat.openai.com/share/d6c9e903-d4be-4ed1-933b-b35df3619984
Tautan ChatGPT 2: https://chat.openai.com/share/178a0bd2-0590-4a07-965d-cff01eb3aeba
- Dalam chat itu sepertinya yang dipakai adalah GPT-3 atau model yang lebih lemah
  Ikon hijau berarti model ChatGPT generasi pertama, kemungkinan besar GPT-3.5 Turbo
  Jika dijalankan dengan GPT-4, hasil yang diharapkan muncul: https://chat.openai.com/share/da15f295-9c65-4aaf-9523-601bf463c3b3
  Ini contoh yang bagus untuk menunjukkan bahwa cukup banyak kasus kegagalan ChatGPT di internet adalah hasil dari model yang lemah
  Ikon OpenAI berlatar hijau adalah GPT-3.5, ikon hitam atau ungu adalah GPT-4, dan GPT-4 Turbo di API sedikit lebih baik, mungkin karena punya lebih banyak pengetahuan tentang Drizzle
Setelah mencoba Opus sebentar, saya mulai curiga apakah benchmark secara sistematis meleset dari performa nyata
Dalam praktiknya, ia tidak terlihat lebih baik daripada GPT-4, malah tampak sedikit lebih buruk
Pada pertanyaan kalkulus/fisika dasar, meski sudah dinyatakan bahwa perlambatan sebanding dengan kecepatan, ia tetap mengasumsikan perlambatan konstan; dalam tes simulasi lalu lintas, ia lupa konsep arah yang sebelumnya dibahas sehingga hasilnya bahkan lebih buruk daripada hasil GPT-4 yang sudah buruk
Tes untuk memahami warna dasar cahaya setelah diajarkan dalam konteks juga lebih buruk, dan dalam coding, untuk masalah perhitungan pajak capital gain jangka panjang, ia sedikit tertinggal dari GPT-4
- AI Explained di YouTube pernah mengunggah video bahwa tes yang digunakan untuk evaluasi LLM penuh dengan jawaban salah sehingga hampir tidak berguna
- Sepertinya begitu selesai melatih model dan memperoleh angkanya, tim keselamatan menghaluskannya habis-habisan dengan RLHF
Claude 3 sudah ditambahkan ke Chat di https://double.bot, jadi bisa dicoba untuk coding
Saat ini gratis, dan sore ini Claude 3 juga rencananya akan dimasukkan ke autocomplete
Dari pengujian awal, ini tampak seperti alternatif API pertama untuk GPT-4, dan itu peristiwa besar
- Apakah maksudnya Double itu seperti Copilot tetapi gratis? Penasaran apa jebakannya
- Penasaran bagaimana perbandingannya dengan Codeium, dan apakah ada rencana mendukung integrasi Vim/Neovim
  Codeium sudah punya dukungan yang cukup bagus
  https://www.codium.ai
  https://github.com/Exafunction/codeium.vim
- Penasaran apakah Double juga berencana mendukung model open-source yang di-host secara lokal atau di instance cloud
  Saya sedang membuat produk di bidang yang sama dan sudah beberapa kali menerima permintaan seperti ini; kalau berupa ekstensi IDE, rasanya bisa terhubung ke model AI mana pun yang sedang berjalan di mana pun
- API-nya saat ini tampaknya kurang stabil dibanding GPT-4, tetapi bisa dimaklumi jika endpoint baru saja diluncurkan dan sedang populer
- Tepatnya, saya penasaran apakah ini model Claude 3 Opus atau Sonnet
Model apa pun yang melampaui GPT-4 adalah hal besar, dan sangat mengesankan bahwa mereka berhasil melakukannya
Namun GPT-4 adalah model berusia 1 tahun, dan OpenAI belum merilis model generasi berikutnya
- Wajar memperkirakan model berikutnya dari OpenAI akan merebut kembali posisi terdepan, tetapi fakta bahwa Anthropic berhasil mengejar sejauh ini sangat mengesankan
  Paper GPT-3 keluar pada 2020 dan Anthropic baru didirikan pada 2021, jadi saat OpenAI sudah punya pengalaman tiga generasi, Anthropic pada dasarnya berangkat dari nol dan setidaknya untuk sementara unggul di beberapa benchmark
  Model generasi berikutnya dari OpenAI kemungkinan sudah selesai dilatih dan sedang dalam tahap fine-tuning serta evaluasi keselamatan, tetapi karena alasan keberadaan Anthropic adalah keselamatan, sulit membayangkan mereka mengerjakan bagian itu asal-asalan hanya demi buru-buru merilis model ini
- ChatGPT-4 terus diperbarui, dan versi terbaru adalah GPT-4-1106-preview dan GPT-4-0125-preview
  Referensi: https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
- Menurut catatan kaki di blog, para engineer yang mengoptimalkan prompt evaluasi dan sampel few-shot melaporkan skor yang lebih tinggi pada model GPT-4T yang lebih baru
- Orang-orang yang berperan penting dalam lahirnya GPT kini bekerja di Anthropic
- Di tabel itu, metrik yang sebenarnya penting adalah MMLU, dan ini sangat berkorelasi dengan kemampuan penalaran multitugas
  Di sini mereka unggul sangat tipis atas GPT-4, dan karena sejauh ini sepertinya belum ada model lain yang bisa begitu, hal itu sendiri sudah mengesankan

Keluarga Model Claude 3

Komposisi model dan status ketersediaan

Kecerdasan, kecepatan, dan performa multimodal

Input vision, pengurangan penolakan, dan peningkatan akurasi

Konteks panjang dan kemampuan recall

Desain keselamatan dan mitigasi bias

Usabilitas, harga per model, dan penggunaan

Claude 3 Opus

Claude 3 Sonnet

Claude 3 Haiku

Fitur dan pembaruan yang direncanakan

Bacaan terkait

1 komentar

Pendapat di Hacker News