Peluncuran model bahasa Llama 3 dari Meta
(llama.meta.com)- Halaman Llama milik Meta memperkenalkan keluarga model Llama sebagai AI open source yang ditujukan untuk kemudahan deployment, efisiensi biaya, performa, dan skalabilitas besar, serta mencakup lini Llama 4 dan Llama 3 sekaligus
- Llama 4 Maverick dan Llama 4 Scout adalah model multimodal native berbasis early fusion yang melakukan pra-pelatihan teks dan token visual bersama-sama, dan keduanya menonjolkan konteks 10M token
- Lini Llama 3 terbagi menjadi 3.1, 3.2, dan 3.3, dengan pilihan ukuran serta penggunaan seperti 8B, 70B, 405B, 1B, 3B, 11B, 90B, dan 70B untuk kebutuhan teks, edge, dan multimodal
- Perbandingan performa mencakup MMLU Pro, GPQA Diamond, LiveCodeBench, MMMU, ChartQA, DocVQA, MMLU Multi, MTOB, dan lainnya, dengan Llama 4 Maverick mencatat MMLU Pro 80.5 dan Scout 74.3
- Pada kasus Stoque dan Shopify, hasil implementasi mencakup penurunan 50% pertanyaan dukungan teknis berulang, kenaikan 11% kepuasan internal, peningkatan 76% throughput token, dan penghematan 33% biaya komputasi berbasis output JSON
Keluarga model Llama dan pilihan tiap versi
- Llama adalah keluarga model yang bisa dibangun sesuai kebutuhan sendiri, ditujukan untuk deployment yang mudah, efisiensi biaya, performa, dan skalabilitas hingga miliaran pengguna
- Pilar utama model Llama terbaru adalah multimodal native, penalaran tingkat lanjut, dan jendela konteks panjang
- Model card dan format prompt dapat dilihat di Model overview
-
Llama 4: multimodal native dan konteks 10M
- Llama 4 adalah keluarga model multimodal native yang melakukan pra-pelatihan bersama pada data teks dan visual tanpa label dengan early fusion
- Llama 4 Maverick mendukung pemahaman gambar dan teks, serta menangani tugas berformat panjang dengan konteks 10M token
- Penggunaan utamanya adalah memori, personalisasi, dan aplikasi multimodal
- Llama 4 Scout adalah model yang menyediakan kecerdasan teks dan visual, dengan efisiensi pada satu GPU H100 dan jendela konteks 10M
- Analisis dokumen panjang disebut sebagai salah satu penggunaan utama Scout
- Rincian tersedia di dokumentasi model Llama 4
-
Llama 3: keluarga model berdasarkan ukuran dan kegunaan
- Llama 3 adalah keluarga model AI open source yang dapat di-fine-tune, didistilasi, dan di-deploy di mana saja
- Llama 3.3 adalah model bahasa besar open source multibahasa berukuran 70B, dan disebut dapat menghadirkan performa serta kualitas setingkat 405B dengan biaya lebih rendah
- Model ini disesuaikan untuk penggunaan berbasis teks seperti pembuatan data sintetis, dan rincian dapat dilihat di dokumentasi model Llama 3.3
- Llama 3.2 adalah keluarga model yang fleksibel dan efisien biaya untuk penggunaan edge
- 1B dan 3B ringan serta efisien biaya sehingga dapat dijalankan di mana saja
- 11B dan 90B adalah model multimodal yang dapat melakukan inferensi pada gambar beresolusi tinggi dan menghasilkan teks
- Rincian tersedia di dokumentasi model Llama 3.2
- Llama 3.1 adalah model fondasi terbuka untuk fleksibilitas dan kontrol, tersedia dalam ukuran 8B, 70B, dan 405B
- Kemampuannya mencakup pengetahuan umum, kemudahan penyesuaian, matematika, penggunaan alat, dan penerjemahan multibahasa, serta digunakan untuk peringkasan teks, agen multibahasa, dan coding
- Rincian dapat dilihat di dokumentasi model Llama 3.1
Metrik performa dan hasil implementasi nyata
-
Benchmark Llama 4 dan kondisi evaluasi
- Kemampuan Llama 4 diringkas sebagai multimodal native, konteks panjang, dan image grounding
- Semua model Llama 4 menggunakan early fusion agar dapat melakukan pra-pelatihan bersama dalam skala besar pada teks tanpa label dan token visual
- Benchmark membandingkan Llama 4 Maverick dan Llama 4 Scout
- Penalaran: MMLU Pro adalah Maverick 80.5, Scout 74.3, sedangkan GPQA Diamond adalah Maverick 69.8, Scout 57.2
- Coding: LiveCodeBench adalah Maverick 43.4, Scout 32.8
- Gambar multimodal: MMMU adalah Maverick 73.4, Scout 69.4, ChartQA adalah Maverick 90.0, Scout 88.8, dan DocVQA keduanya 94.4
- Multibahasa: MMLU Multi adalah Maverick 84.6, Scout 74.3
- Konteks panjang: MTOB Half Book adalah Maverick 54.0 / 46.4, Scout 42.2 / 36.6, dan MTOB Full Book adalah Maverick 50.8 / 46.7, Scout 39.7 / 36.3
- Efisiensi: biaya per 1M token ditunjukkan sebagai $0.19–$0.49 untuk keduanya
- Menurut metodologi dan catatan, hasil Llama merupakan evaluasi 0-shot dengan temperature 0, tanpa majority voting atau komputasi waktu pengujian paralel
- Untuk benchmark dengan varians besar seperti GPQA Diamond dan LiveCodeBench, beberapa hasil generasi dirata-ratakan untuk mengurangi ketidakpastian
- Evaluasi khusus konteks panjang secara tradisional tidak banyak dilaporkan pada model umum, sehingga hasil eksekusi internal turut dibagikan
- Biaya $0.19/Mtok untuk Llama 4 Maverick adalah estimasi blended 3:1 yang mengasumsikan inferensi terdistribusi, dan pada satu host diperkirakan tersedia di kisaran $0.30–$0.49/Mtok
-
Studi kasus penggunaan Stoque dan Shopify
- Stoque menggunakan Llama untuk mentransformasi intelijen internal agar tim dapat menemukan insight lebih cepat, mengurangi friksi, dan bekerja lebih efisien dalam skala besar
- Pertanyaan dukungan teknis berulang turun 50%, dan penyelesaian tugas administrasi serta dukungan meningkat 30%
- Kepuasan pengguna internal meningkat 11%
- Shopify menggunakan Llama untuk pembuatan halaman produk, pelokalan konten, dan otomatisasi dukungan
- Dibanding model sebelumnya, throughput token 76% lebih tinggi, dan akurasi Macro-F1 untuk deteksi intent mencapai 97.7%
- Output JSON menghemat 33% biaya komputasi
- Pengaman AI generatif berperan mengidentifikasi dan memitigasi potensi risiko lebih awal melalui perlindungan tingkat sistem, serta membantu developer melakukan deployment AI generatif secara lebih bertanggung jawab
1 komentar
Opini Hacker News
Tautan yang layak dirujuk: https://ai.meta.com/blog/meta-llama-3/, https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi..., https://twitter.com/karpathy/status/1781028605709234613
Meta juga merilis konsol: https://www.meta.ai/
Mereka juga mengumumkan integrasi Meta AI di seluruh lini produk Meta: https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi...
Namun, melihat mereka tidak memasukkan perbandingan dengan GPT-4-Turbo atau Claude Opus, sepertinya model ini masih jauh dari model terdepan; kita perlu melihat bagaimana performanya di LLM Arena
Perbedaan besar kemungkinan hanya muncul pada benchmark penalaran yang sangat sulit. Karena Llama memiliki bobot terbuka, tidak seperti Opus, kemungkinan akan muncul banyak fine-tuning dan LoRA
Jika negara dan perusahaan besar memakai Llama-3/Llama-4 alih-alih menggelontorkan uang untuk GPU guna melatih model sendiri, ekspektasi pertumbuhan GPU bisa tertekan; alasan OpenAI untuk menggalang 100 miliar dolar AS menjadi lebih lemah; dan keunggulan AI Google juga menjadi kabur. AMD dan Intel bisa berfokus pada chip inferensi AI alih-alih mengejar GPU pelatihan Nvidia
Mereka mengatakan model terbesar dengan lebih dari 400B masih dalam pelatihan, dan dalam beberapa bulan ke depan mereka berencana merilis beberapa model dengan kemampuan multimodal, percakapan multibahasa, jendela konteks yang jauh lebih panjang, dan kemampuan yang secara umum lebih kuat
Benchmark publik bagus sebagai indikator kasar, tetapi pengembang perlu menjalankan benchmark kustom yang sesuai dengan kasus penggunaan mereka sendiri
Replicate dengan cepat membuat API Llama 3 https://replicate.com/blog/run-llama-3-with-an-api, dan dengan promptfoo https://github.com/typpo/promptfoo kita bisa membandingkan Llama 3, Mixtral, GPT, Claude, dan lainnya. Misalnya, kita bisa mengevaluasi
meta/meta-llama-3-8b-instruct,meta/meta-llama-3-70b-instructdari Replicate, OpenAIgpt-4-turbo, Anthropicclaude-3-opus-20240229, dan lainnya dengan prompt yang samaMasih dalam pengujian, tetapi pada kumpulan pertanyaan pemrograman acak, Llama 3 8B terlihat cukup bagus. ollama juga kini mendukung Llama 3 8B, sehingga evaluasi lokal dengan
ollama:chat:llama3menjadi mudahTes yang bagus adalah soal yang sederhana tetapi menuntut penerapan nyata, seperti menyelesaikan persamaan kuadrat untuk nilai a, b, c acak. Meski algoritmanya kemungkinan diketahui semua model, mereka tetap bisa salah, lalu setelahnya berpura-pura sudah memverifikasi dan mengulangi jawaban yang salah. LLAMA 3 juga, setelah beberapa kali kesalahannya ditunjukkan, mengatakan “sudah menemukan solusi yang tepat dan memverifikasinya dengan beberapa cara”, tetapi solusi sebenarnya tetap salah seperti di awal dan tidak ada upaya verifikasi
assistantmuncul di akhir respons, tetapi sekarang seharusnya sudah berfungsiBisa dijalankan dengan
ollama run llama3, dan beberapa versi kuantisasi serta model teks/70B juga sedang diunggahLlama 3 70B debut di posisi ke-5 pada papan peringkat LMSYS chatbot arena yang terkenal, sejajar dengan Claude 2 Sonnet, Bard(Gemini Pro), dan Command R+, serta berada di atas Claude 2 Haiku dan versi-versi GPT-4 sebelumnya
Ketidakpastian skor masih besar, jadi peringkat pastinya baru akan terlihat seiring waktu dan bisa berubah. Llama 3 8B berada di posisi ke-12, sejajar dengan Claude 1, Mixtral 8x22B, dan Qwen-1.5-72B. Peringkat terbaru bisa dilihat di https://arena.lmsys.org/
Di papan peringkat khusus bahasa Inggris, Llama 3 70B bertahan di kelompok teratas bersama GPT-4 dan Claude Opus, sehingga lebih mengesankan. Ini mungkin dipengaruhi oleh safety tuning yang tidak seketat sebelumnya sehingga penolakan prompt berkurang, tetapi tetap merupakan peningkatan yang benar-benar berguna. Dengan laju seperti ini, model 400B kemungkinan besar akan sangat dominan
Saat mencoba membuat rap berbahasa Tionghoa, hasilnya cukup bagus, tetapi segera setelah selesai, responsnya dihapus dan diganti dengan kalimat “belum memahami bahasa Tionghoa, tetapi sedang dikerjakan, dan akan mengirim pesan jika sudah bisa bercakap-cakap dalam bahasa Tionghoa”
Bahasa lain juga sama: generasi non-Inggris bisa dilakukan, tetapi setelah selesai responsnya dihapus dan diganti dengan pemberitahuan yang sama
Ada banyak detail bagus di blog: https://ai.meta.com/blog/meta-llama-3/
Versi 400B juga akan hadir, dan sepertinya akan jauh lebih baik daripada GPT-4 dan Claude Opus. Tren yang menang adalah desentralisasi dan perangkat lunak terbuka
Tentu saja yang dibenchmark adalah checkpoint sementara, dan pelatihan masih terus berlangsung
Benchmark memang tidak perlu dipercaya mentah-mentah, tetapi tidak ada klaim bahwa model ini melampaui GPT-4 atau Opus. Karena ini checkpoint sementara, ada kemungkinan kelak bisa melampauinya
Dan ini juga bukan open source
Saya sangat berterima kasih kepada Zuck, Yann, dan tim Meta karena memilih pendekatan terbuka dengan membagikan bobot model, tokenizer, informasi data pelatihan, dan sebagainya
Merekalah pendorong terbesar ledakan riset terbuka yang, lewat proyek seperti llama.cpp, memungkinkan model yang cukup bagus berjalan lokal di perangkat keras konsumen dan menghindari sensor atau kontrol
Bukan berarti saya ingin mengajukan permintaan yang akan diblokir oleh kontrol OpenAI atau Anthropic, tetapi saya tidak suka keadaan ketika teknologi sekuat ini berada di balik tembok dan para gatekeeper mengontrol cara penggunaannya. Ada banyak orang dan perusahaan yang percaya pada keterbukaan, tetapi dampaknya jauh lebih besar ketika yang melakukannya adalah pihak dengan modal ratusan miliar dolar, arus kas berkelanjutan, dan GPU senilai miliaran dolar. Zuck tidak harus memilih jalan ini, dan jika Facebook dijalankan oleh manajer profesional ala HBS/McKinsey, kemungkinan besar mereka tidak akan membukanya seperti ini. Kita semua sangat diuntungkan karena mereka tidak menyembunyikan crown jewels di balik API terpusat dengan dalih risiko keselamatan AI
Ini strategi yang dulu pernah dibicarakan Joel Spolsky, tetapi belum jelas pelengkap model AI seperti apa yang sebenarnya bisa dijual Meta. Meski begitu, jelas ini adalah pilihan strategis dalam bentuk tertentu
Ada banyak hal yang bisa dikritik dari Zuck, tetapi kurangnya ketulusan terhadap misi bukan salah satunya
Senang melihat Meta meneruskan obor itu di sini, dan semoga terus berlanjut
Karena tidak ada perbandingan langsung dengan GPT-4 di ChatGPT Plus berbayar, saya mencoba mencocokkan angkanya
Untuk Llama 3 8B / Llama 3 70B / GPT-4, MMLU adalah 68.4 / 82.0 / 86.5, GPQA 34.2 / 39.5 / 49.1, MATH 30.0 / 50.4 / 72.2, HumanEval 62.2 / 81.7 / 87.6, dan DROP 58.4 / 79.7 / 85.4
ChatGPT gratis yang digunakan kebanyakan orang berbasis GPT-3.5, yang jauh lebih lemah daripada GPT-4. Saya tidak menemukan angka evaluasi komprehensif untuk GPT-3.5 terbaru, tetapi Llama 3 70B tampaknya menang dengan nyaman, dan 8B pun mungkin mendekati. Sangat menarik bahwa model sekelas ini bisa dijalankan dan dimodifikasi secara lokal. Angka GPT-4 mengacu pada
gpt-4-turbo-2024-04-09 (chatgpt)dari https://github.com/openai/simple-evalsUntuk Llama 3 400B Base / Instruct, MMLU 84.8 / 86.1, GPQA - / 48.0, MATH - / 57.8, HumanEval - / 84.1, dan DROP 83.5 / -
Kalau ada yang ingin mencobanya untuk coding di dalam IDE, saya sudah menambahkan Llama 3 70B ke alat bantu coding https://www.double.bot
Wawancara Zuck juga sudah keluar: https://twitter.com/dwarkesh_sp/status/1780990840179187715
Saat itu ia mengamankan 2 kali kebutuhan sebagai cadangan, dan berkat itu secara kebetulan Meta menjadi salah satu dari sedikit perusahaan yang memiliki kapasitas GPU untuk melatih LLM pada skala ini
Kartu model memuat hasil benchmark dibandingkan model Llama lain, termasuk Llama 2: https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md...
Peningkatan kinerja Llama 3 dibandingkan Llama 2 sangat dramatis dan mengesankan. Bahkan jika dibandingkan dengan Llama 2 13B pun demikian, dan jendela konteks yang menjadi dua kali lebih besar menjadi 8k juga akan membuka banyak peluang baru
Meski begitu, metrik kinerja yang dipublikasikan mengesankan, dan Meta patut diapresiasi karena merilis model-model ini