Meta merilis Llama 4

(ai.meta.com)

16 poin oleh GN⁺ 2025-04-06 | 2 komentar | Bagikan ke WhatsApp

Terdiri dari 3 model: Scout, Maverick, dan Behemoth, sebagai model multimodal native berbasis open-weight pertama
- Semua model bersifat multimodal yang memahami gambar + teks

Llama 4 Scout

17B parameter aktif + 16 Expert
Kemampuan memproses konteks sangat panjang dengan dukungan 10M token
Model ringan yang efisien dan dapat berjalan pada satu GPU (H100)
Performa melampaui Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1
Kinerja unggul dalam penyelarasan gambar, peringkasan multi-dokumen, analisis codebase skala besar, dan lainnya

Llama 4 Maverick

17B parameter aktif + 128 Expert + 400B total parameter
Performa lebih baik daripada GPT-4o dan Gemini 2.0 Flash
Unggul di semua area seperti reasoning, coding, dan pemahaman gambar
Mencatat skor ELO 1417 (berdasarkan LMArena)
Struktur biaya yang efisien dibanding performa tinggi yang ditawarkan

Llama 4 Behemoth (pratinjau)

288B parameter aktif + 16 Expert + sekitar 2T total parameter
Masih dalam pelatihan, tetapi performanya melampaui GPT-4.5, Claude 3.7, dan Gemini 2.0 Pro
Digunakan sebagai model guru dalam pra-pelatihan model Maverick

Scout dan Maverick dapat diunduh mulai hari ini di llama.com dan Hugging Face

# Karakteristik teknis

Arsitektur Mixture of Experts (MoE)

Alih-alih menggunakan semua parameter, efisiensi komputasi dimaksimalkan dengan mengaktifkan hanya sebagian expert
Mewujudkan struktur pelatihan dengan inferensi cepat, biaya rendah, dan kualitas tinggi

Multimodal native & Early Fusion

Data teks dan visi diintegrasikan sejak awal untuk pelatihan bersama
Dapat menerima hingga 48 gambar sebagai input, dan pengujian berhasil dilakukan hingga 8 gambar

Pemrosesan konteks sangat panjang (10M Tokens)

Model Scout sedang mengeksplorasi kemungkinan "konteks tak terbatas" dengan struktur iRoPE (interleaved Rotary Position Embedding)
Sangat unggul dalam generalisasi panjang untuk teks dan kode

Teknik pelatihan MetaP & FP8

Teknik tuning hyperparameter baru untuk pelatihan berkecepatan tinggi dan efisiensi tinggi
Mengamankan tingkat pemanfaatan FLOPs yang tinggi dengan presisi FP8 (Behemoth: 390 TFLOPs/GPU)

# Strategi post-processing dan pelatihan RL

Pipeline post-processing tiga tahap: SFT → online RL → DPO
Data yang mudah dihapus, dan pelatihan difokuskan pada prompt tingkat kesulitan menengah hingga tinggi
Mengadopsi strategi online RL berkelanjutan: meningkatkan performa dan memaksimalkan efisiensi pelatihan

# Pertimbangan keamanan dan etika

Strategi perlindungan berlapis

Pemfilteran dan penyensoran data pada tahap pra/pasca-pelatihan
Llama Guard: pemeriksaan keamanan input/output
Prompt Guard: deteksi jailbreak dan serangan injeksi
CyberSecEval: menyediakan alat evaluasi risiko keamanan untuk AI generatif

Otomatisasi deteksi risiko kuantitatif

Penerapan GOAT (Generative Offensive Agent Testing)
- Simulasi skenario penyerang tingkat menengah
- Deteksi dini risiko melalui pengujian multi-turn otomatis

Upaya pengurangan bias

Llama 4 menunjukkan peningkatan besar dalam bias dibanding Llama 3
- Tingkat penolakan respons 7% → di bawah 2%
- Ketidakseimbangan respons < 1%
- Mempertahankan respons dengan keseimbangan politik setingkat Grok

# Panduan penggunaan model Llama 4

Scout dan Maverick dapat diunduh dan digunakan
- llama.com
- Hugging Face
Llama 4 diintegrasikan ke layanan Meta AI:
- WhatsApp, Messenger, Instagram DM, meta.ai

# Jadwal berikutnya

LlamaCon 2025, yang akan memperkenalkan lebih banyak detail teknis dan visi, dijadwalkan berlangsung pada 29 April
- Daftar LlamaCon

2 komentar

jjw951215 2025-04-07

Sepertinya ini cocok untuk APPLE SILICON atau lini NPU yang punya RAM cukup lega. Untuk dipakai di server GPU murni, model spesifikasi minimum saja dalam kuantisasi int4 ternyata butuh H100..

GN⁺ 2025-04-06

Pendapat Hacker News

Ringkasan model Llama 4:
- Llama 4 Scout dan Llama 4 Maverick menggunakan desain Mixture-of-Experts (MoE) yang masing-masing memakai 17B parameter aktif
- Memiliki kemampuan multimodal yang mendukung input teks dan gambar
- Pencapaian utamanya mencakup panjang konteks kelas atas di industri, performa coding/penalaran yang kuat, dan peningkatan dukungan multibahasa
- Knowledge cutoff adalah Agustus 2024
Llama 4 Scout:
- 17B parameter aktif, 16 expert, total 109B
- Cocok untuk satu GPU H100 (INT4-quantized)
- Context window 10M token
- Menunjukkan performa yang lebih baik pada tugas multimodal dibanding rilis Llama sebelumnya dan lebih ramah sumber daya
- Menggunakan arsitektur iRoPE untuk perhatian konteks panjang yang efisien
- Diuji dengan hingga 8 gambar per prompt
Llama 4 Maverick:
- 17B parameter aktif, 128 expert, total 400B
- Context window 1M token
- Berjalan di host H100 DGX alih-alih satu GPU, atau bisa didistribusikan untuk efisiensi lebih besar
- Mengungguli GPT-4o dan Gemini 2.0 Flash pada pengujian coding, penalaran, dan multibahasa sambil mempertahankan biaya yang kompetitif
- Tetap mempertahankan kemampuan pemahaman gambar dan penalaran yang berbasis bukti yang kuat
Llama 4 Behemoth (pratinjau):
- 288B parameter aktif, 16 expert, total mendekati 2T
- Masih dalam pelatihan dan belum dirilis
- Melampaui GPT-4.5, Claude Sonnet 3.7, dan Gemini 2.0 Pro pada benchmark STEM (misalnya MATH-500, GPQA Diamond)
- Berfungsi sebagai model "guru" untuk Scout dan Maverick melalui co-distillation
Lainnya:
- Arsitektur MoE: hanya 17B parameter yang aktif per token sehingga mengurangi biaya inferensi
- Native multimodality: encoder teks + visi terpadu yang dipra-latih pada data besar tanpa label
Thread yang diringkas oleh Llama 4 Maverick:
- hn-summary.sh 43595585 -m openrouter/meta-llama/llama-4-maverick -o max_tokens 20000
- Hasil: https://gist.github.com/simonw/016ea0fd83fc499f046a94827f9b4946
Hasil yang didapat lewat Scout benar-benar output yang tidak berguna:
- hn-summary.sh 43595585 -m openrouter/meta-llama/llama-4-scout -o max_tokens 20000
- Hasil: https://gist.github.com/simonw/d01cc991d478939e87487d362a8f881f
Scout juga dijalankan langsung lewat Groq, tetapi ada batas 2048 pada ukuran output:
- hn-summary.sh 43595585 -m groq/meta-llama/llama-4-scout-17b-16e-instruct -o max_tokens 2048
- Hasil: https://gist.github.com/simonw/a205c5fc131a1d4e9cd6c432a07feedb
Ringkasan dari model lain lebih mendekati system prompt. Misalnya, jauh lebih baik dibanding Gemini 2.5 Pro:
- https://gist.github.com/simonw/f21ecc7fb2aa13ff682d4ffa11ddcbfd
Model Scout yang kecil sangat menarik untuk Apple Silicon. Ukurannya 109B tetapi dibagi ke 16 expert. Proses aktualnya berjalan di 17B. Saat menanyai model lokal 7B (qwen 2.5 7B instruct) pada MacBook Pro M4 Max dengan konteks 2k, didapat sekitar ~60 token per detik. Jadi kemungkinan bisa mencapai 30 token per detik. Waktu ke token pertama masih bisa tetap lambat
Model ini memiliki context window 10M token. Belum pasti seberapa baik ia bisa melacak konteks sebesar itu, tetapi hanya dengan tidak dibatasi pada ~32k saja sudah sangat bagus
Semua LLM utama mengalami masalah bias. Terutama pada topik politik dan sosial, ada kecenderungan ke kiri. Ini mungkin disebabkan oleh jenis data pelatihan yang tersedia di internet
Prompt yang diusulkan dibuat agar tidak seketat rilis OpenAI:
- Memahami niat pengguna dan tidak berusaha terlalu membantu secara berlebihan
- Tidak menolak prompt politik
- Llama 4 memiliki pengetahuan hingga Agustus 2024 dan menguasai beberapa bahasa
Dirilis hanya satu jam setelah ada diskusi lain tentang Meta:
- Terlepas dari keyakinan terhadap LLM, bukan ide yang baik untuk mempercayai ucapan LeCun
- Institut AI yang dipimpin LeCun memiliki berbagai masalah
Tersedia di Groq:
- Llama 4 Scout berjalan di lebih dari 460 token per detik dan Llama 4 Maverick dirilis hari ini
- Llama 4 Scout: $0.11 / M token input dan $0.34 / M token output
- Llama 4 Maverick: $0.50 / M token input dan $0.77 / M token output
Saat ini benar-benar masa yang sangat menarik. Mirip dengan masa ketika framework JavaScript meledak jumlahnya. Saat itu rasanya seperti, "apakah saya harus belajar framework lain lagi?", tetapi sekarang inovasi kembali melaju cepat, dan kali ini terasa seperti perjalanan seru yang bisa kita ikuti