1 poin oleh GN⁺ 2024-04-19 | 1 komentar | Bagikan ke WhatsApp
  • Halaman Llama milik Meta memperkenalkan keluarga model Llama sebagai AI open source yang ditujukan untuk kemudahan deployment, efisiensi biaya, performa, dan skalabilitas besar, serta mencakup lini Llama 4 dan Llama 3 sekaligus
  • Llama 4 Maverick dan Llama 4 Scout adalah model multimodal native berbasis early fusion yang melakukan pra-pelatihan teks dan token visual bersama-sama, dan keduanya menonjolkan konteks 10M token
  • Lini Llama 3 terbagi menjadi 3.1, 3.2, dan 3.3, dengan pilihan ukuran serta penggunaan seperti 8B, 70B, 405B, 1B, 3B, 11B, 90B, dan 70B untuk kebutuhan teks, edge, dan multimodal
  • Perbandingan performa mencakup MMLU Pro, GPQA Diamond, LiveCodeBench, MMMU, ChartQA, DocVQA, MMLU Multi, MTOB, dan lainnya, dengan Llama 4 Maverick mencatat MMLU Pro 80.5 dan Scout 74.3
  • Pada kasus Stoque dan Shopify, hasil implementasi mencakup penurunan 50% pertanyaan dukungan teknis berulang, kenaikan 11% kepuasan internal, peningkatan 76% throughput token, dan penghematan 33% biaya komputasi berbasis output JSON

Keluarga model Llama dan pilihan tiap versi

  • Llama adalah keluarga model yang bisa dibangun sesuai kebutuhan sendiri, ditujukan untuk deployment yang mudah, efisiensi biaya, performa, dan skalabilitas hingga miliaran pengguna
  • Pilar utama model Llama terbaru adalah multimodal native, penalaran tingkat lanjut, dan jendela konteks panjang
  • Model card dan format prompt dapat dilihat di Model overview
  • Llama 4: multimodal native dan konteks 10M

    • Llama 4 adalah keluarga model multimodal native yang melakukan pra-pelatihan bersama pada data teks dan visual tanpa label dengan early fusion
    • Llama 4 Maverick mendukung pemahaman gambar dan teks, serta menangani tugas berformat panjang dengan konteks 10M token
    • Penggunaan utamanya adalah memori, personalisasi, dan aplikasi multimodal
    • Llama 4 Scout adalah model yang menyediakan kecerdasan teks dan visual, dengan efisiensi pada satu GPU H100 dan jendela konteks 10M
    • Analisis dokumen panjang disebut sebagai salah satu penggunaan utama Scout
    • Rincian tersedia di dokumentasi model Llama 4
  • Llama 3: keluarga model berdasarkan ukuran dan kegunaan

    • Llama 3 adalah keluarga model AI open source yang dapat di-fine-tune, didistilasi, dan di-deploy di mana saja
    • Llama 3.3 adalah model bahasa besar open source multibahasa berukuran 70B, dan disebut dapat menghadirkan performa serta kualitas setingkat 405B dengan biaya lebih rendah
    • Model ini disesuaikan untuk penggunaan berbasis teks seperti pembuatan data sintetis, dan rincian dapat dilihat di dokumentasi model Llama 3.3
    • Llama 3.2 adalah keluarga model yang fleksibel dan efisien biaya untuk penggunaan edge
      • 1B dan 3B ringan serta efisien biaya sehingga dapat dijalankan di mana saja
      • 11B dan 90B adalah model multimodal yang dapat melakukan inferensi pada gambar beresolusi tinggi dan menghasilkan teks
      • Rincian tersedia di dokumentasi model Llama 3.2
    • Llama 3.1 adalah model fondasi terbuka untuk fleksibilitas dan kontrol, tersedia dalam ukuran 8B, 70B, dan 405B
    • Kemampuannya mencakup pengetahuan umum, kemudahan penyesuaian, matematika, penggunaan alat, dan penerjemahan multibahasa, serta digunakan untuk peringkasan teks, agen multibahasa, dan coding
    • Rincian dapat dilihat di dokumentasi model Llama 3.1

Metrik performa dan hasil implementasi nyata

  • Benchmark Llama 4 dan kondisi evaluasi

    • Kemampuan Llama 4 diringkas sebagai multimodal native, konteks panjang, dan image grounding
    • Semua model Llama 4 menggunakan early fusion agar dapat melakukan pra-pelatihan bersama dalam skala besar pada teks tanpa label dan token visual
    • Benchmark membandingkan Llama 4 Maverick dan Llama 4 Scout
      • Penalaran: MMLU Pro adalah Maverick 80.5, Scout 74.3, sedangkan GPQA Diamond adalah Maverick 69.8, Scout 57.2
      • Coding: LiveCodeBench adalah Maverick 43.4, Scout 32.8
      • Gambar multimodal: MMMU adalah Maverick 73.4, Scout 69.4, ChartQA adalah Maverick 90.0, Scout 88.8, dan DocVQA keduanya 94.4
      • Multibahasa: MMLU Multi adalah Maverick 84.6, Scout 74.3
      • Konteks panjang: MTOB Half Book adalah Maverick 54.0 / 46.4, Scout 42.2 / 36.6, dan MTOB Full Book adalah Maverick 50.8 / 46.7, Scout 39.7 / 36.3
      • Efisiensi: biaya per 1M token ditunjukkan sebagai $0.19–$0.49 untuk keduanya
    • Menurut metodologi dan catatan, hasil Llama merupakan evaluasi 0-shot dengan temperature 0, tanpa majority voting atau komputasi waktu pengujian paralel
    • Untuk benchmark dengan varians besar seperti GPQA Diamond dan LiveCodeBench, beberapa hasil generasi dirata-ratakan untuk mengurangi ketidakpastian
    • Evaluasi khusus konteks panjang secara tradisional tidak banyak dilaporkan pada model umum, sehingga hasil eksekusi internal turut dibagikan
    • Biaya $0.19/Mtok untuk Llama 4 Maverick adalah estimasi blended 3:1 yang mengasumsikan inferensi terdistribusi, dan pada satu host diperkirakan tersedia di kisaran $0.30–$0.49/Mtok
  • Studi kasus penggunaan Stoque dan Shopify

    • Stoque menggunakan Llama untuk mentransformasi intelijen internal agar tim dapat menemukan insight lebih cepat, mengurangi friksi, dan bekerja lebih efisien dalam skala besar
    • Pertanyaan dukungan teknis berulang turun 50%, dan penyelesaian tugas administrasi serta dukungan meningkat 30%
    • Kepuasan pengguna internal meningkat 11%
    • Shopify menggunakan Llama untuk pembuatan halaman produk, pelokalan konten, dan otomatisasi dukungan
    • Dibanding model sebelumnya, throughput token 76% lebih tinggi, dan akurasi Macro-F1 untuk deteksi intent mencapai 97.7%
    • Output JSON menghemat 33% biaya komputasi
    • Pengaman AI generatif berperan mengidentifikasi dan memitigasi potensi risiko lebih awal melalui perlindungan tingkat sistem, serta membantu developer melakukan deployment AI generatif secara lebih bertanggung jawab

1 komentar

 
GN⁺ 2024-04-19
Opini Hacker News
  • Tautan yang layak dirujuk: https://ai.meta.com/blog/meta-llama-3/, https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi..., https://twitter.com/karpathy/status/1781028605709234613

  • Meta juga merilis konsol: https://www.meta.ai/
    Mereka juga mengumumkan integrasi Meta AI di seluruh lini produk Meta: https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi...
    Namun, melihat mereka tidak memasukkan perbandingan dengan GPT-4-Turbo atau Claude Opus, sepertinya model ini masih jauh dari model terdepan; kita perlu melihat bagaimana performanya di LLM Arena

    • Mereka tampaknya tidak membandingkannya dengan model terbaik karena ingin membuat perbandingan “sekelas”. Model 70B berada di kelas yang sama dengan Sonnet, dan jika bisa mengalahkan Sonnet, ia bisa mendekati Opus atau GPT-4 pada sebagian besar tugas
      Perbedaan besar kemungkinan hanya muncul pada benchmark penalaran yang sangat sulit. Karena Llama memiliki bobot terbuka, tidak seperti Opus, kemungkinan akan muncul banyak fine-tuning dan LoRA
    • Jika Llama-3-400B bisa menyamai Claude 3 Opus dan sejenisnya, pihak yang kalah bisa jadi harga saham Nvidia, OpenAI dan Sam, serta Google; sementara pemenangnya bisa AMD, Intel, universitas, dan para pengembang di seluruh dunia
      Jika negara dan perusahaan besar memakai Llama-3/Llama-4 alih-alih menggelontorkan uang untuk GPU guna melatih model sendiri, ekspektasi pertumbuhan GPU bisa tertekan; alasan OpenAI untuk menggalang 100 miliar dolar AS menjadi lebih lemah; dan keunggulan AI Google juga menjadi kabur. AMD dan Intel bisa berfokus pada chip inferensi AI alih-alih mengejar GPU pelatihan Nvidia
    • Cukup mengejutkan juga bahwa mereka membuatnya bisa digunakan tanpa login. Ini bukan hal yang saya duga dari Meta
    • Meta mengatakan bahwa mereka masih melatih varian model besar yang lebih kompetitif
      Mereka mengatakan model terbesar dengan lebih dari 400B masih dalam pelatihan, dan dalam beberapa bulan ke depan mereka berencana merilis beberapa model dengan kemampuan multimodal, percakapan multibahasa, jendela konteks yang jauh lebih panjang, dan kemampuan yang secara umum lebih kuat
    • Muncul pesan “Meta AI isn't available yet in your country”; saya penasaran di mana saja layanan ini tersedia. Di Norwegia tampilannya seperti ini
  • Benchmark publik bagus sebagai indikator kasar, tetapi pengembang perlu menjalankan benchmark kustom yang sesuai dengan kasus penggunaan mereka sendiri
    Replicate dengan cepat membuat API Llama 3 https://replicate.com/blog/run-llama-3-with-an-api, dan dengan promptfoo https://github.com/typpo/promptfoo kita bisa membandingkan Llama 3, Mixtral, GPT, Claude, dan lainnya. Misalnya, kita bisa mengevaluasi meta/meta-llama-3-8b-instruct, meta/meta-llama-3-70b-instruct dari Replicate, OpenAI gpt-4-turbo, Anthropic claude-3-opus-20240229, dan lainnya dengan prompt yang sama
    Masih dalam pengujian, tetapi pada kumpulan pertanyaan pemrograman acak, Llama 3 8B terlihat cukup bagus. ollama juga kini mendukung Llama 3 8B, sehingga evaluasi lokal dengan ollama:chat:llama3 menjadi mudah

    • Perlu sangat berhati-hati saat menguji dengan soal yang kemungkinan besar sudah beredar utuh di internet
      Tes yang bagus adalah soal yang sederhana tetapi menuntut penerapan nyata, seperti menyelesaikan persamaan kuadrat untuk nilai a, b, c acak. Meski algoritmanya kemungkinan diketahui semua model, mereka tetap bisa salah, lalu setelahnya berpura-pura sudah memverifikasi dan mengulangi jawaban yang salah. LLAMA 3 juga, setelah beberapa kali kesalahannya ditunjukkan, mengatakan “sudah menemukan solusi yang tepat dan memverifikasinya dengan beberapa cara”, tetapi solusi sebenarnya tetap salah seperti di awal dan tidak ada upaya verifikasi
    • Ada masalah di sisi kosakata yang menyebabkan assistant muncul di akhir respons, tetapi sekarang seharusnya sudah berfungsi
      Bisa dijalankan dengan ollama run llama3, dan beberapa versi kuantisasi serta model teks/70B juga sedang diunggah
  • Llama 3 70B debut di posisi ke-5 pada papan peringkat LMSYS chatbot arena yang terkenal, sejajar dengan Claude 2 Sonnet, Bard(Gemini Pro), dan Command R+, serta berada di atas Claude 2 Haiku dan versi-versi GPT-4 sebelumnya
    Ketidakpastian skor masih besar, jadi peringkat pastinya baru akan terlihat seiring waktu dan bisa berubah. Llama 3 8B berada di posisi ke-12, sejajar dengan Claude 1, Mixtral 8x22B, dan Qwen-1.5-72B. Peringkat terbaru bisa dilihat di https://arena.lmsys.org/
    Di papan peringkat khusus bahasa Inggris, Llama 3 70B bertahan di kelompok teratas bersama GPT-4 dan Claude Opus, sehingga lebih mengesankan. Ini mungkin dipengaruhi oleh safety tuning yang tidak seketat sebelumnya sehingga penolakan prompt berkurang, tetapi tetap merupakan peningkatan yang benar-benar berguna. Dengan laju seperti ini, model 400B kemungkinan besar akan sangat dominan

  • Saat mencoba membuat rap berbahasa Tionghoa, hasilnya cukup bagus, tetapi segera setelah selesai, responsnya dihapus dan diganti dengan kalimat “belum memahami bahasa Tionghoa, tetapi sedang dikerjakan, dan akan mengirim pesan jika sudah bisa bercakap-cakap dalam bahasa Tionghoa”
    Bahasa lain juga sama: generasi non-Inggris bisa dilakukan, tetapi setelah selesai responsnya dihapus dan diganti dengan pemberitahuan yang sama

    • Sepertinya ada post-processor yang mengevaluasi kualitas respons setelah sejumlah token tertentu dihasilkan, lalu membatalkan respons jika berada di bawah ambang batas
    • Jalankan saja secara lokal. Versi lokal tidak memiliki pengaman seperti itu
    • Dalam bahasa Italia, ini berfungsi, tetapi selalu disertai disclaimer bahwa “kemampuan non-Inggris masih sedang ditingkatkan sehingga mungkin ada kesalahan, dan paling berguna saat membantu dalam bahasa Inggris”
    • Aneh jika bug ini masih terus terjadi setelah 12 jam
  • Ada banyak detail bagus di blog: https://ai.meta.com/blog/meta-llama-3/
    Versi 400B juga akan hadir, dan sepertinya akan jauh lebih baik daripada GPT-4 dan Claude Opus. Tren yang menang adalah desentralisasi dan perangkat lunak terbuka

    • Jika dibandingkan dengan angka Claude 3 dari Anthropic https://www.anthropic.com/news/claude-3-family, angka Llama 400B tampak sedikit lebih rendah
      Tentu saja yang dibenchmark adalah checkpoint sementara, dan pelatihan masih terus berlangsung
    • Mereka sama sekali tidak pernah mengatakan begitu. Justru benchmark yang dipublikasikan hasilnya lebih rendah daripada GPT-4 atau Opus
      Benchmark memang tidak perlu dipercaya mentah-mentah, tetapi tidak ada klaim bahwa model ini melampaui GPT-4 atau Opus. Karena ini checkpoint sementara, ada kemungkinan kelak bisa melampauinya
    • Saya tidak tahu di bagian mana disebutkan bahwa model 400B jauh lebih baik daripada GPT-4
    • Sulit menyebutnya desentralisasi. Mungkin bisa dijalankan di banyak tempat, tetapi distributornya hanya satu
      Dan ini juga bukan open source
    • Bukan open source dan bukan desentralisasi
  • Saya sangat berterima kasih kepada Zuck, Yann, dan tim Meta karena memilih pendekatan terbuka dengan membagikan bobot model, tokenizer, informasi data pelatihan, dan sebagainya
    Merekalah pendorong terbesar ledakan riset terbuka yang, lewat proyek seperti llama.cpp, memungkinkan model yang cukup bagus berjalan lokal di perangkat keras konsumen dan menghindari sensor atau kontrol
    Bukan berarti saya ingin mengajukan permintaan yang akan diblokir oleh kontrol OpenAI atau Anthropic, tetapi saya tidak suka keadaan ketika teknologi sekuat ini berada di balik tembok dan para gatekeeper mengontrol cara penggunaannya. Ada banyak orang dan perusahaan yang percaya pada keterbukaan, tetapi dampaknya jauh lebih besar ketika yang melakukannya adalah pihak dengan modal ratusan miliar dolar, arus kas berkelanjutan, dan GPU senilai miliaran dolar. Zuck tidak harus memilih jalan ini, dan jika Facebook dijalankan oleh manajer profesional ala HBS/McKinsey, kemungkinan besar mereka tidak akan membukanya seperti ini. Kita semua sangat diuntungkan karena mereka tidak menyembunyikan crown jewels di balik API terpusat dengan dalih risiko keselamatan AI

    • Dari wawancara Zuck, terlihat bahwa di dalam hatinya ia masih seorang engineer. Perusahaan teknologi besar lain sudah kehilangan kepemimpinan seperti itu
    • Hal bagusnya, ia masih berusia 39 tahun dan tampak punya lebih banyak energi untuk menjalankan perusahaan. Menurut saya, memiliki founder yang bersemangat adalah keunggulan besar Meta dibandingkan perusahaan teknologi besar lainnya
    • Kemungkinan besar ini bukan semata-mata karena niat baik. Ini kemungkinan strategi untuk menjadikan model sebagai komoditas dan menjual barang pelengkapnya
      Ini strategi yang dulu pernah dibicarakan Joel Spolsky, tetapi belum jelas pelengkap model AI seperti apa yang sebenarnya bisa dijual Meta. Meski begitu, jelas ini adalah pilihan strategis dalam bentuk tertentu
    • Itu karena ia founder CEO. Dalam hal gairah dan ketulusan, ia berbeda dari para MBA karier
      Ada banyak hal yang bisa dikritik dari Zuck, tetapi kurangnya ketulusan terhadap misi bukan salah satunya
    • Meta juga memimpin Open Compute Project. Saya bergabung karena komitmen Google terhadap open source, tetapi sangat kecewa karena budaya itu tidak berlanjut saat membangun solusi exascale
      Senang melihat Meta meneruskan obor itu di sini, dan semoga terus berlanjut
  • Karena tidak ada perbandingan langsung dengan GPT-4 di ChatGPT Plus berbayar, saya mencoba mencocokkan angkanya
    Untuk Llama 3 8B / Llama 3 70B / GPT-4, MMLU adalah 68.4 / 82.0 / 86.5, GPQA 34.2 / 39.5 / 49.1, MATH 30.0 / 50.4 / 72.2, HumanEval 62.2 / 81.7 / 87.6, dan DROP 58.4 / 79.7 / 85.4
    ChatGPT gratis yang digunakan kebanyakan orang berbasis GPT-3.5, yang jauh lebih lemah daripada GPT-4. Saya tidak menemukan angka evaluasi komprehensif untuk GPT-3.5 terbaru, tetapi Llama 3 70B tampaknya menang dengan nyaman, dan 8B pun mungkin mendekati. Sangat menarik bahwa model sekelas ini bisa dijalankan dan dimodifikasi secara lokal. Angka GPT-4 mengacu pada gpt-4-turbo-2024-04-09 (chatgpt) dari https://github.com/openai/simple-evals

    • Di bagian bawah https://ai.meta.com/blog/meta-llama-3/ juga ada hasil model 400B yang sedang berjalan. Sepertinya belum sepenuhnya mencapai target
      Untuk Llama 3 400B Base / Instruct, MMLU 84.8 / 86.1, GPQA - / 48.0, MATH - / 57.8, HumanEval - / 84.1, dan DROP 83.5 / -
    • Ini mengejutkan mengingat GPT-4 memiliki 1.8T parameter
    • Saya sedang menunggu model yang di-fine-tune atau digabungkan. Banyak developer membuat model berbasis Llama 2 yang jauh lebih baik daripada model dasarnya, jadi saya berharap versi baru ini mengikuti pola serupa
    • Saya penasaran apakah sudah ada materi yang membandingkannya dengan Mixtral 8x22B. Dunia bergerak sangat cepat
    • Saya sangat antusias terutama karena skor HumanEval-nya tinggi. Model 400B maupun tuning CodeLlama pun belum keluar
      Kalau ada yang ingin mencobanya untuk coding di dalam IDE, saya sudah menambahkan Llama 3 70B ke alat bantu coding https://www.double.bot
  • Wawancara Zuck juga sudah keluar: https://twitter.com/dwarkesh_sp/status/1780990840179187715

    • Ada bagian menarik sekitar menit ke-5: Zuck mengatakan bahwa beberapa tahun lalu ia membeli sangat banyak GPU H100 untuk membuat mesin rekomendasi Reels guna bersaing dengan TikTok
      Saat itu ia mengamankan 2 kali kebutuhan sebagai cadangan, dan berkat itu secara kebetulan Meta menjadi salah satu dari sedikit perusahaan yang memiliki kapasitas GPU untuk melatih LLM pada skala ini
    • MMA selama 1–2 tahun tampaknya jauh lebih membantu karismanya daripada semua pelatihan media sebelumnya. Dalam wawancara belakangan ini ia jauh lebih natural
    • Podcast Dwarkesh secara keseluruhan benar-benar bagus
  • Kartu model memuat hasil benchmark dibandingkan model Llama lain, termasuk Llama 2: https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md...
    Peningkatan kinerja Llama 3 dibandingkan Llama 2 sangat dramatis dan mengesankan. Bahkan jika dibandingkan dengan Llama 2 13B pun demikian, dan jendela konteks yang menjadi dua kali lebih besar menjadi 8k juga akan membuka banyak peluang baru

    • Berdasarkan model yang di-tuning untuk instruksi, Llama 3 8B bahkan jauh lebih baik daripada Llama 2 70B
    • Sayangnya, panjang konteks 8k jauh lebih pendek dibanding konteks 64k milik Mixtral 8x22B
      Meski begitu, metrik kinerja yang dipublikasikan mengesankan, dan Meta patut diapresiasi karena merilis model-model ini