- Meta merilis dua model pertama Llama 3 (model 8B dan 70B yang telah dipra-latih serta disetel halus untuk instruksi)
- Menunjukkan performa terdepan pada berbagai benchmark industri yang luas, serta menghadirkan kemampuan baru seperti penalaran yang ditingkatkan
- Meta ingin membangun model terbuka terbaik yang setara dengan model tertutup terbaik yang tersedia saat ini. Targetnya adalah mengakomodasi masukan developer serta merilis pembaruan dengan cepat dan sering
- Memperkenalkan alat trust dan safety baru seperti Llama Guard 2, Code Shield, dan CyberSec Eval 2
- Dalam beberapa bulan ke depan, Meta berencana menghadirkan fitur baru, context window yang lebih panjang, ukuran model tambahan, peningkatan performa, dan juga membagikan paper riset Llama 3
- Akan segera tersedia di AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM, Snowflake, dan lainnya, serta akan didukung pada platform hardware dari AMD, AWS, Dell, Intel, NVIDIA, Qualcomm, dan lainnya
- Meta AI yang dibangun dengan teknologi Llama 3 kini menjadi salah satu asisten AI terbaik di dunia, yang dapat meningkatkan kecerdasan pengguna dan mengurangi beban mereka
Performa Llama 3
- Model Llama 3 dengan 8B dan 70B parameter merupakan lompatan besar dibandingkan Llama 2, dan mencapai level tertinggi baru untuk model LLM pada skala tersebut
- Berkat peningkatan pada pra-pelatihan dan pasca-pelatihan, model yang dipra-latih dan disetel halus untuk instruksi menjadi model terbaik yang ada saat ini pada skala 8B dan 70B parameter
- Perbaikan pada prosedur pasca-pelatihan secara signifikan menurunkan tingkat false refusal, meningkatkan alignment, dan menambah keberagaman respons model
- Kemampuan seperti penalaran, pembuatan kode, dan mengikuti instruksi juga meningkat drastis, membuat Llama 3 lebih steerable
- Dalam pengembangan Llama 3, Meta meninjau performa model pada benchmark standar sekaligus mengejar optimasi performa untuk skenario dunia nyata
- Untuk itu, Meta mengembangkan set evaluasi manusia baru berkualitas tinggi yang mencakup 1.800 prompt untuk 12 use case inti
- Melalui set evaluasi ini, model instruction-following 70B menunjukkan performa kuat pada skenario nyata dibandingkan model pesaing berukuran serupa
- Model pra-latih juga mencapai state of the art baru untuk model LLM pada skala tersebut
- Meta meyakini bahwa inovasi, scaling, dan optimasi kesederhanaan penting untuk mengembangkan language model yang hebat
- Di seluruh proyek Llama 3, filosofi desain ini diterapkan dengan berfokus pada empat elemen inti: arsitektur model, data pra-pelatihan, scaling pra-pelatihan, dan penyetelan halus instruksi
Arsitektur model
- Llama 3 memilih arsitektur transformer decoder-only yang relatif standar
- Dibandingkan Llama 2, ada beberapa peningkatan utama
- Llama 3 menggunakan tokenizer dengan kosakata 128K token yang mengenkode bahasa jauh lebih efisien, sehingga secara signifikan meningkatkan performa model
- Untuk meningkatkan efisiensi inferensi model Llama 3, Meta mengadopsi grouped-query attention (GQA) pada ukuran 8B maupun 70B
- Model dilatih dengan sequence 8.192 token menggunakan mask agar self-attention tidak melampaui batas dokumen
Data pelatihan
- Untuk melatih language model terbaik, kurasi dataset pelatihan berkualitas tinggi dalam skala besar adalah hal yang paling penting
- Llama 3 dipra-latih dengan lebih dari 15T token yang dikumpulkan dari sumber yang tersedia secara publik
- Dataset pelatihannya 7 kali lebih besar daripada yang digunakan pada Llama 2 dan mencakup 4 kali lebih banyak kode
- Untuk menyiapkan use case multibahasa di masa depan, lebih dari 5% dataset pra-pelatihan Llama 3 terdiri dari data non-Inggris berkualitas tinggi yang mencakup lebih dari 30 bahasa
Scaling pra-pelatihan
- Untuk memanfaatkan data pra-pelatihan secara efektif pada model Llama 3, Meta mencurahkan upaya besar pada scaling pra-pelatihan
- Secara khusus, Meta mengembangkan serangkaian scaling law yang rinci untuk evaluasi benchmark downstream
- Scaling law ini memungkinkan pengambilan keputusan yang terinformasi tentang cara memilih campuran data yang optimal dan menggunakan komputasi pelatihan secara maksimal
Penyetelan halus instruksi
- Untuk sepenuhnya mengeluarkan potensi model pra-latih pada use case chat, Meta juga berinovasi dalam pendekatan instruction tuning
- Pendekatan pasca-pelatihan merupakan kombinasi dari supervised fine-tuning (SFT), rejection sampling, proximal policy optimization (PPO), dan direct policy optimization (DPO)
- Kualitas prompt yang digunakan untuk SFT dan peringkat preferensi yang digunakan untuk PPO serta DPO sangat memengaruhi performa model yang telah di-align
Membangun dengan Llama 3
- Visi Meta adalah memungkinkan developer menyesuaikan Llama 3 untuk mendukung use case yang relevan, dengan mudah mengadopsi best practice, dan meningkatkan ekosistem terbuka
- Dalam rilis ini, Meta memperkenalkan alat trust dan safety baru yang mencakup komponen yang diperbarui bersama Llama Guard 2 dan Cybersec Eval 2, serta Code Shield, sebuah guardrail pada waktu inferensi untuk memfilter kode tidak aman yang dihasilkan LLM
- Meta juga mengembangkan Llama 3 bersama torchtune, library baru berbasis PyTorch yang memudahkan penulisan, fine-tuning, dan eksperimen dengan LLM
Pendekatan tingkat sistem untuk pengembangan dan deployment yang bertanggung jawab
- Model Llama 3 dirancang agar semaksimal mungkin membantu, sekaligus memastikan pendekatan deployment yang bertanggung jawab di level terbaik industri
- Untuk itu, Meta mengadopsi pendekatan tingkat sistem baru untuk pengembangan dan deployment Llama yang bertanggung jawab
- Meta memandang model Llama sebagai elemen dasar dari sistem yang dirancang developer dengan tujuan akhir mereka yang unik
- Penyetelan halus instruksi memainkan peran penting dalam memastikan keamanan model
- Model yang disetel halus untuk instruksi menjalani red teaming untuk keamanan melalui upaya internal dan eksternal
- Upaya-upaya ini bersifat iteratif dan digunakan untuk menyetel keamanan model yang dirilis
- Model Llama Guard menjadi fondasi untuk keamanan prompt dan respons, serta memungkinkan pembuatan klasifikasi baru dengan mudah sesuai kebutuhan aplikasi
- Llama Guard 2 yang baru menggunakan taksonomi MLCommons yang baru diumumkan untuk dukungan standar industri
- CyberSecEval 2 memperluas versi sebelumnya dengan menambahkan pengukuran kecenderungan LLM mengeksploitasi code interpreter, kemampuan keamanan siber ofensif, dan kerentanan terhadap serangan prompt injection
- Code Shield mendukung pemfilteran pada waktu inferensi terhadap kode tidak aman yang dihasilkan LLM, sehingga mengurangi risiko terkait saran kode yang tidak aman, pencegahan eksploitasi code interpreter, dan eksekusi perintah yang aman
Deployment Llama 3 dalam skala besar
- Llama 3 akan segera tersedia di platform utama seperti penyedia cloud, penyedia API model, dan lainnya
- Menurut benchmark, tokenizer menghasilkan hingga 15% lebih sedikit token dibandingkan Llama 2, sehingga meningkatkan efisiensi token
- Grouped-query attention (GQA) juga ditambahkan ke Llama 3 8B
Rencana Llama 3 ke depan
- Model Llama 3 8B dan 70B hanyalah awal dari roadmap peluncuran Llama 3
- Dalam beberapa bulan ke depan, Meta berencana merilis beberapa model dengan kemampuan baru seperti multimodal, percakapan multibahasa, context window yang jauh lebih panjang, dan kapabilitas yang secara keseluruhan lebih kuat
- Meta juga akan menerbitkan paper riset yang rinci setelah pelatihan Llama 3 selesai
2 komentar
Kalau cloud lain saya kurang tahu, tapi di Azure AI Studio bersama Mixtral 8x22B, Llma-3 (Meta-Llama-3-8B, Meta-Llama-3-70B, Meta-Llama-3-70B-Instruct, Meta-Llama-3-8B-Instruct) sepertinya sudah tersedia.