3 poin oleh GN⁺ 2024-04-22 | 1 komentar | Bagikan ke WhatsApp

Performa Meta-Llama-3-8B-Instruct

  • Meski merupakan model 8B, performanya hampir setara dengan Wizard 22B
  • Menunjukkan kemampuan penalaran yang bahkan melampaui model 70B sebelumnya
  • Menampilkan performa yang sangat baik di berbagai area seperti pemecahan masalah dan kemampuan coding

Karakteristik Meta-Llama-3-8B-Instruct

  • Hasil dari Meta yang menginvestasikan sumber daya besar-besaran untuk melatihnya lebih lama dengan data yang lebih banyak
  • Performa bervariasi tergantung pengembang dan hardware. Hasil juga berubah sesuai parameter inferensi
  • Pada versi FP16, performanya hampir sama dengan Q8_0. Untuk ukuran 8B, tingkat performa ini termasuk yang terbaik sebagai model terkuantisasi
  • Hasil generasinya terkadang tajam dan jenaka. Model ini memahami maksud kalimat dan merespons dengan tepat

Opini GN⁺

  • Untuk kueri tunggal, model ini memberikan jawaban yang andal, tetapi dalam percakapan multi-turn interaktif masih menunjukkan keterbatasan. Perlu peningkatan melalui optimasi template prompt atau tuning hyperparameter
  • Dibanding model 3B, performa model 8B jauh lebih unggul, sehingga tampak menjanjikan untuk melakukan fine-tuning pada berbagai model kelas 8B guna membuat model yang terspesialisasi
  • Karena kemampuan pemahaman bahasa dan penalarannya sangat baik, potensi pemanfaatannya tinggi di bidang padat pengetahuan maupun domain profesional. Model ini tampaknya dapat dikembangkan menjadi model yang terspesialisasi untuk domain seperti medis, hukum, dan keuangan
  • Pencapaian Meta yang mampu mendorong model 8B ke level ini dengan sumber daya dan kapabilitas teknologinya sangat mengesankan. Ke depan, model AI berperforma tinggi diperkirakan bisa dijalankan bahkan di PC pribadi
  • Cukup disayangkan bahwa model berukuran menengah antara 8B dan 70B tidak dirilis. Jika model sekitar 32B hadir, model itu diharapkan dapat menunjukkan performa dan efisiensi yang optimal

1 komentar

 
GN⁺ 2024-04-22
Opini Hacker News
  • Model Llama 3 8B menjawab pertanyaan tentang apa yang terjadi jika model kecil dilatih sangat lama. Ini adalah tren yang dimulai dari model Mistral, dan di Llama 3 menjadi lebih ekstrem. Menggunakan 15T token untuk model berparameter 8B adalah tingkat yang belum pernah terlihat sebelumnya.
  • Ini adalah rilis yang meningkatkan ekspektasi terhadap peningkatan kualitas model kecil.
  • Llama 3 tampak cerewet dan sepertinya membuat beberapa asumsi yang salah. Misalnya, ia berimajinasi bahwa meludah ke langit sambil menengadah bisa mencapai awan, lalu mengoreksi dirinya sendiri bahwa kenyataannya tidak begitu.
  • Menarik untuk dipikirkan apakah hasil seperti ini berasal dari pelatihan yang lebih banyak dan peningkatan kemampuan yang dihasilkan, atau karena teka-teki seperti ini kini sudah terkenal sehingga terwakili dengan baik dalam data pelatihan.
  • Hal yang khas dari Llama 3 adalah upaya tambahan pada deduplikasi data pelatihan (kualitas) dan peningkatan data pelatihan (kuantitas), serta penggunaan materi pelatihan dengan kode 4 kali lebih banyak (baik untuk penalaran).
  • Dengan mencurahkan lebih banyak upaya pada kurasi dan pembuatan data pelatihan, mungkin kita bisa mengharapkan peningkatan performa yang luar biasa bahkan pada model kecil seperti ini.
  • Llama 3 masih tidak menggunakan Mixture of Experts (MoE). Ini mengisyaratkan bahwa membuat model MoE raksasa bisa jadi pemborosan.
  • Meta sedang menghabiskan miliaran dolar untuk chip AI Nvidia. Dalam 5 tahun ke depan, tampaknya model 8B setingkat GPT-4 akan bisa dijalankan di ponsel dan laptop.
  • Saya sangat terkesan dengan kemampuan bernalar model 8b-instruct. Masa depan model kecil terasa menjanjikan.
  • Masalah terbesar local LLM adalah orang bisa mendapat kesan yang berbeda tergantung cara mereka menggunakannya.
  • Sebagian besar perusahaan terus melanjutkan pelatihan model, dan tidak ada titik akhir yang jelas untuk pelatihan. Ini menjelaskan mengapa pengeluaran GPU sangat besar.
  • Jika ingin menjalankan model ini di ponsel hari ini juga, pertama-tama harus mulai dengan menjalankan llama.cpp di Termux lalu memuat berkas model seperti ggml.
  • Mengejutkan bahwa model 8B salah menjawab pertanyaan "mana yang lebih berat, 1 kg besi atau 2 kg bulu?" GPT-3.5 juga salah, tetapi model 70B dan GPT-4 menjawab dengan benar.