- Terdiri dari 3 model: Scout, Maverick, dan Behemoth, sebagai model multimodal native berbasis open-weight pertama
- Semua model bersifat multimodal yang memahami gambar + teks
Llama 4 Scout
- 17B parameter aktif + 16 Expert
- Kemampuan memproses konteks sangat panjang dengan dukungan 10M token
- Model ringan yang efisien dan dapat berjalan pada satu GPU (H100)
- Performa melampaui Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1
- Kinerja unggul dalam penyelarasan gambar, peringkasan multi-dokumen, analisis codebase skala besar, dan lainnya
Llama 4 Maverick
- 17B parameter aktif + 128 Expert + 400B total parameter
- Performa lebih baik daripada GPT-4o dan Gemini 2.0 Flash
- Unggul di semua area seperti reasoning, coding, dan pemahaman gambar
- Mencatat skor ELO 1417 (berdasarkan LMArena)
- Struktur biaya yang efisien dibanding performa tinggi yang ditawarkan
Llama 4 Behemoth (pratinjau)
- 288B parameter aktif + 16 Expert + sekitar 2T total parameter
- Masih dalam pelatihan, tetapi performanya melampaui GPT-4.5, Claude 3.7, dan Gemini 2.0 Pro
- Digunakan sebagai model guru dalam pra-pelatihan model Maverick
# Karakteristik teknis
Arsitektur Mixture of Experts (MoE)
- Alih-alih menggunakan semua parameter, efisiensi komputasi dimaksimalkan dengan mengaktifkan hanya sebagian expert
- Mewujudkan struktur pelatihan dengan inferensi cepat, biaya rendah, dan kualitas tinggi
Multimodal native & Early Fusion
- Data teks dan visi diintegrasikan sejak awal untuk pelatihan bersama
- Dapat menerima hingga 48 gambar sebagai input, dan pengujian berhasil dilakukan hingga 8 gambar
Pemrosesan konteks sangat panjang (10M Tokens)
- Model Scout sedang mengeksplorasi kemungkinan "konteks tak terbatas" dengan struktur iRoPE (interleaved Rotary Position Embedding)
- Sangat unggul dalam generalisasi panjang untuk teks dan kode
Teknik pelatihan MetaP & FP8
- Teknik tuning hyperparameter baru untuk pelatihan berkecepatan tinggi dan efisiensi tinggi
- Mengamankan tingkat pemanfaatan FLOPs yang tinggi dengan presisi FP8 (Behemoth: 390 TFLOPs/GPU)
# Strategi post-processing dan pelatihan RL
- Pipeline post-processing tiga tahap: SFT → online RL → DPO
- Data yang mudah dihapus, dan pelatihan difokuskan pada prompt tingkat kesulitan menengah hingga tinggi
- Mengadopsi strategi online RL berkelanjutan: meningkatkan performa dan memaksimalkan efisiensi pelatihan
# Pertimbangan keamanan dan etika
Strategi perlindungan berlapis
- Pemfilteran dan penyensoran data pada tahap pra/pasca-pelatihan
- Llama Guard: pemeriksaan keamanan input/output
- Prompt Guard: deteksi jailbreak dan serangan injeksi
- CyberSecEval: menyediakan alat evaluasi risiko keamanan untuk AI generatif
Otomatisasi deteksi risiko kuantitatif
- Penerapan GOAT (Generative Offensive Agent Testing)
- Simulasi skenario penyerang tingkat menengah
- Deteksi dini risiko melalui pengujian multi-turn otomatis
Upaya pengurangan bias
- Llama 4 menunjukkan peningkatan besar dalam bias dibanding Llama 3
- Tingkat penolakan respons 7% → di bawah 2%
- Ketidakseimbangan respons < 1%
- Mempertahankan respons dengan keseimbangan politik setingkat Grok
# Panduan penggunaan model Llama 4
- Scout dan Maverick dapat diunduh dan digunakan
- Llama 4 diintegrasikan ke layanan Meta AI:
- WhatsApp, Messenger, Instagram DM, meta.ai
# Jadwal berikutnya
- LlamaCon 2025, yang akan memperkenalkan lebih banyak detail teknis dan visi, dijadwalkan berlangsung pada 29 April
2 komentar
Sepertinya ini cocok untuk APPLE SILICON atau lini NPU yang punya RAM cukup lega. Untuk dipakai di server GPU murni, model spesifikasi minimum saja dalam kuantisasi int4 ternyata butuh H100..
Pendapat Hacker News
Ringkasan model Llama 4:
Llama 4 Scout:
Llama 4 Maverick:
Llama 4 Behemoth (pratinjau):
Lainnya:
Thread yang diringkas oleh Llama 4 Maverick:
Hasil yang didapat lewat Scout benar-benar output yang tidak berguna:
Scout juga dijalankan langsung lewat Groq, tetapi ada batas 2048 pada ukuran output:
Ringkasan dari model lain lebih mendekati system prompt. Misalnya, jauh lebih baik dibanding Gemini 2.5 Pro:
Model Scout yang kecil sangat menarik untuk Apple Silicon. Ukurannya 109B tetapi dibagi ke 16 expert. Proses aktualnya berjalan di 17B. Saat menanyai model lokal 7B (qwen 2.5 7B instruct) pada MacBook Pro M4 Max dengan konteks 2k, didapat sekitar ~60 token per detik. Jadi kemungkinan bisa mencapai 30 token per detik. Waktu ke token pertama masih bisa tetap lambat
Model ini memiliki context window 10M token. Belum pasti seberapa baik ia bisa melacak konteks sebesar itu, tetapi hanya dengan tidak dibatasi pada ~32k saja sudah sangat bagus
Semua LLM utama mengalami masalah bias. Terutama pada topik politik dan sosial, ada kecenderungan ke kiri. Ini mungkin disebabkan oleh jenis data pelatihan yang tersedia di internet
Prompt yang diusulkan dibuat agar tidak seketat rilis OpenAI:
Dirilis hanya satu jam setelah ada diskusi lain tentang Meta:
Tersedia di Groq:
Saat ini benar-benar masa yang sangat menarik. Mirip dengan masa ketika framework JavaScript meledak jumlahnya. Saat itu rasanya seperti, "apakah saya harus belajar framework lain lagi?", tetapi sekarang inovasi kembali melaju cepat, dan kali ini terasa seperti perjalanan seru yang bisa kita ikuti