16 poin oleh GN⁺ 2025-04-06 | 2 komentar | Bagikan ke WhatsApp
  • Terdiri dari 3 model: Scout, Maverick, dan Behemoth, sebagai model multimodal native berbasis open-weight pertama
    • Semua model bersifat multimodal yang memahami gambar + teks

Llama 4 Scout

  • 17B parameter aktif + 16 Expert
  • Kemampuan memproses konteks sangat panjang dengan dukungan 10M token
  • Model ringan yang efisien dan dapat berjalan pada satu GPU (H100)
  • Performa melampaui Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1
  • Kinerja unggul dalam penyelarasan gambar, peringkasan multi-dokumen, analisis codebase skala besar, dan lainnya

Llama 4 Maverick

  • 17B parameter aktif + 128 Expert + 400B total parameter
  • Performa lebih baik daripada GPT-4o dan Gemini 2.0 Flash
  • Unggul di semua area seperti reasoning, coding, dan pemahaman gambar
  • Mencatat skor ELO 1417 (berdasarkan LMArena)
  • Struktur biaya yang efisien dibanding performa tinggi yang ditawarkan

Llama 4 Behemoth (pratinjau)

  • 288B parameter aktif + 16 Expert + sekitar 2T total parameter
  • Masih dalam pelatihan, tetapi performanya melampaui GPT-4.5, Claude 3.7, dan Gemini 2.0 Pro
  • Digunakan sebagai model guru dalam pra-pelatihan model Maverick

# Karakteristik teknis

Arsitektur Mixture of Experts (MoE)

  • Alih-alih menggunakan semua parameter, efisiensi komputasi dimaksimalkan dengan mengaktifkan hanya sebagian expert
  • Mewujudkan struktur pelatihan dengan inferensi cepat, biaya rendah, dan kualitas tinggi

Multimodal native & Early Fusion

  • Data teks dan visi diintegrasikan sejak awal untuk pelatihan bersama
  • Dapat menerima hingga 48 gambar sebagai input, dan pengujian berhasil dilakukan hingga 8 gambar

Pemrosesan konteks sangat panjang (10M Tokens)

  • Model Scout sedang mengeksplorasi kemungkinan "konteks tak terbatas" dengan struktur iRoPE (interleaved Rotary Position Embedding)
  • Sangat unggul dalam generalisasi panjang untuk teks dan kode

Teknik pelatihan MetaP & FP8

  • Teknik tuning hyperparameter baru untuk pelatihan berkecepatan tinggi dan efisiensi tinggi
  • Mengamankan tingkat pemanfaatan FLOPs yang tinggi dengan presisi FP8 (Behemoth: 390 TFLOPs/GPU)

# Strategi post-processing dan pelatihan RL

  • Pipeline post-processing tiga tahap: SFT → online RL → DPO
  • Data yang mudah dihapus, dan pelatihan difokuskan pada prompt tingkat kesulitan menengah hingga tinggi
  • Mengadopsi strategi online RL berkelanjutan: meningkatkan performa dan memaksimalkan efisiensi pelatihan

# Pertimbangan keamanan dan etika

Strategi perlindungan berlapis

  • Pemfilteran dan penyensoran data pada tahap pra/pasca-pelatihan
  • Llama Guard: pemeriksaan keamanan input/output
  • Prompt Guard: deteksi jailbreak dan serangan injeksi
  • CyberSecEval: menyediakan alat evaluasi risiko keamanan untuk AI generatif

Otomatisasi deteksi risiko kuantitatif

  • Penerapan GOAT (Generative Offensive Agent Testing)
    • Simulasi skenario penyerang tingkat menengah
    • Deteksi dini risiko melalui pengujian multi-turn otomatis

Upaya pengurangan bias

  • Llama 4 menunjukkan peningkatan besar dalam bias dibanding Llama 3
    • Tingkat penolakan respons 7% → di bawah 2%
    • Ketidakseimbangan respons < 1%
    • Mempertahankan respons dengan keseimbangan politik setingkat Grok

# Panduan penggunaan model Llama 4

  • Scout dan Maverick dapat diunduh dan digunakan
  • Llama 4 diintegrasikan ke layanan Meta AI:
    • WhatsApp, Messenger, Instagram DM, meta.ai

# Jadwal berikutnya

  • LlamaCon 2025, yang akan memperkenalkan lebih banyak detail teknis dan visi, dijadwalkan berlangsung pada 29 April

2 komentar

 
jjw951215 2025-04-07

Sepertinya ini cocok untuk APPLE SILICON atau lini NPU yang punya RAM cukup lega. Untuk dipakai di server GPU murni, model spesifikasi minimum saja dalam kuantisasi int4 ternyata butuh H100..

 
GN⁺ 2025-04-06
Pendapat Hacker News
  • Ringkasan model Llama 4:

    • Llama 4 Scout dan Llama 4 Maverick menggunakan desain Mixture-of-Experts (MoE) yang masing-masing memakai 17B parameter aktif
    • Memiliki kemampuan multimodal yang mendukung input teks dan gambar
    • Pencapaian utamanya mencakup panjang konteks kelas atas di industri, performa coding/penalaran yang kuat, dan peningkatan dukungan multibahasa
    • Knowledge cutoff adalah Agustus 2024
  • Llama 4 Scout:

    • 17B parameter aktif, 16 expert, total 109B
    • Cocok untuk satu GPU H100 (INT4-quantized)
    • Context window 10M token
    • Menunjukkan performa yang lebih baik pada tugas multimodal dibanding rilis Llama sebelumnya dan lebih ramah sumber daya
    • Menggunakan arsitektur iRoPE untuk perhatian konteks panjang yang efisien
    • Diuji dengan hingga 8 gambar per prompt
  • Llama 4 Maverick:

    • 17B parameter aktif, 128 expert, total 400B
    • Context window 1M token
    • Berjalan di host H100 DGX alih-alih satu GPU, atau bisa didistribusikan untuk efisiensi lebih besar
    • Mengungguli GPT-4o dan Gemini 2.0 Flash pada pengujian coding, penalaran, dan multibahasa sambil mempertahankan biaya yang kompetitif
    • Tetap mempertahankan kemampuan pemahaman gambar dan penalaran yang berbasis bukti yang kuat
  • Llama 4 Behemoth (pratinjau):

    • 288B parameter aktif, 16 expert, total mendekati 2T
    • Masih dalam pelatihan dan belum dirilis
    • Melampaui GPT-4.5, Claude Sonnet 3.7, dan Gemini 2.0 Pro pada benchmark STEM (misalnya MATH-500, GPQA Diamond)
    • Berfungsi sebagai model "guru" untuk Scout dan Maverick melalui co-distillation
  • Lainnya:

    • Arsitektur MoE: hanya 17B parameter yang aktif per token sehingga mengurangi biaya inferensi
    • Native multimodality: encoder teks + visi terpadu yang dipra-latih pada data besar tanpa label
  • Thread yang diringkas oleh Llama 4 Maverick:

  • Hasil yang didapat lewat Scout benar-benar output yang tidak berguna:

  • Scout juga dijalankan langsung lewat Groq, tetapi ada batas 2048 pada ukuran output:

  • Ringkasan dari model lain lebih mendekati system prompt. Misalnya, jauh lebih baik dibanding Gemini 2.5 Pro:

  • Model Scout yang kecil sangat menarik untuk Apple Silicon. Ukurannya 109B tetapi dibagi ke 16 expert. Proses aktualnya berjalan di 17B. Saat menanyai model lokal 7B (qwen 2.5 7B instruct) pada MacBook Pro M4 Max dengan konteks 2k, didapat sekitar ~60 token per detik. Jadi kemungkinan bisa mencapai 30 token per detik. Waktu ke token pertama masih bisa tetap lambat

  • Model ini memiliki context window 10M token. Belum pasti seberapa baik ia bisa melacak konteks sebesar itu, tetapi hanya dengan tidak dibatasi pada ~32k saja sudah sangat bagus

  • Semua LLM utama mengalami masalah bias. Terutama pada topik politik dan sosial, ada kecenderungan ke kiri. Ini mungkin disebabkan oleh jenis data pelatihan yang tersedia di internet

  • Prompt yang diusulkan dibuat agar tidak seketat rilis OpenAI:

    • Memahami niat pengguna dan tidak berusaha terlalu membantu secara berlebihan
    • Tidak menolak prompt politik
    • Llama 4 memiliki pengetahuan hingga Agustus 2024 dan menguasai beberapa bahasa
  • Dirilis hanya satu jam setelah ada diskusi lain tentang Meta:

    • Terlepas dari keyakinan terhadap LLM, bukan ide yang baik untuk mempercayai ucapan LeCun
    • Institut AI yang dipimpin LeCun memiliki berbagai masalah
  • Tersedia di Groq:

    • Llama 4 Scout berjalan di lebih dari 460 token per detik dan Llama 4 Maverick dirilis hari ini
    • Llama 4 Scout: $0.11 / M token input dan $0.34 / M token output
    • Llama 4 Maverick: $0.50 / M token input dan $0.77 / M token output
  • Saat ini benar-benar masa yang sangat menarik. Mirip dengan masa ketika framework JavaScript meledak jumlahnya. Saat itu rasanya seperti, "apakah saya harus belajar framework lain lagi?", tetapi sekarang inovasi kembali melaju cepat, dan kali ini terasa seperti perjalanan seru yang bisa kita ikuti