Meta merilis Llama 3

xguru · 2024-04-19T08:26:25+09:00

Meta merilis dua model pertama Llama 3 (model 8B dan 70B yang telah dipra-latih serta disetel halus untuk instruksi) Menunjukkan performa terdepan pada berbagai benchmark industri yang luas, serta menghadirkan kemampuan baru seperti penalaran yang ditingkatkan Meta ingin membangun model terbuka terbaik yang setara dengan model tertutup terbaik yang tersedia saat ini. Targetnya adalah mengakomodasi masukan developer serta merilis pembaruan dengan cepat dan sering Memperkenalkan alat trust dan safety baru seperti Llama Guard 2, Code Shield, dan CyberSec Eval 2 Dalam beberapa bulan ke depan, Meta berencana menghadirkan fitur baru, context window yang lebih panjang, ukuran model tambahan, peningkatan performa, dan juga membagikan paper riset Llama 3 Akan segera tersedia di AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM, Snowflake, dan lainnya, serta akan didukung pada platform hardware dari AMD, AWS, Dell, Intel, NVIDIA, Qualcomm, dan lainnya Meta AI yang dibangun dengan teknologi Llama 3 kini menjadi salah satu asisten AI terbaik di dunia, yang dapat meningkatkan kecerdasan pengguna dan mengurangi beban mereka Performa Llama 3 Model Llama 3 dengan 8B dan 70B parameter merupakan lompatan besar dibandingkan Llama 2, dan mencapai level tertinggi baru untuk model LLM pada skala tersebut Berkat peningkatan pada pra-pelatihan dan pasca-pelatihan, model yang dipra-latih dan disetel halus untuk instruksi menjadi model terbaik yang ada saat ini pada skala 8B dan 70B parameter Perbaikan pada prosedur pasca-pelatihan secara signifikan menurunkan tingkat false refusal, meningkatkan alignment, dan menambah keberagaman respons model Kemampuan seperti penalaran, pembuatan kode, dan mengikuti instruksi juga meningkat drastis, membuat Llama 3 lebih steerable Dalam pengembangan Llama 3, Meta meninjau performa model pada benchmark standar sekaligus mengejar optimasi performa untuk skenario dunia nyata Untuk itu, Meta mengembangkan set evaluasi manusia baru berkualitas tinggi yang mencakup 1.800 prompt untuk 12 use case inti Melalui set evaluasi ini, model instruction-following 70B menunjukkan performa kuat pada skenario nyata dibandingkan model pesaing berukuran serupa Model pra-latih juga mencapai state of the art baru untuk model LLM pada skala tersebut Meta meyakini bahwa inovasi, scaling, dan optimasi kesederhanaan penting untuk mengembangkan language model yang hebat Di seluruh proyek Llama 3, filosofi desain ini diterapkan dengan berfokus pada empat elemen inti: arsitektur model, data pra-pelatihan, scaling pra-pelatihan, dan penyetelan halus instruksi Arsitektur model Llama 3 memilih arsitektur transformer decoder-only yang relatif standar Dibandingkan Llama 2, ada beberapa peningkatan utama Llama 3 menggunakan tokenizer dengan kosakata 128K token yang mengenkode bahasa jauh lebih efisien, sehingga secara signifikan meningkatkan performa model Untuk meningkatkan efisiensi inferensi model Llama 3, Meta mengadopsi grouped-query attention (GQA) pada ukuran 8B maupun 70B Model dilatih dengan sequence 8.192 token menggunakan mask agar self-attention tidak melampaui batas dokumen Data pelatihan Untuk melatih language model terbaik, kurasi dataset pelatihan berkualitas tinggi dalam skala besar adalah hal yang paling penting Llama 3 dipra-latih dengan lebih dari 15T token yang dikumpulkan dari sumber yang tersedia secara publik Dataset pelatihannya 7 kali lebih besar daripada yang digunakan pada Llama 2 dan mencakup 4 kali lebih banyak kode Untuk menyiapkan use case multibahasa di masa depan, lebih dari 5% dataset pra-pelatihan Llama 3 terdiri dari data non-Inggris berkualitas tinggi yang mencakup lebih dari 30 bahasa Scaling pra-pelatihan Untuk memanfaatkan data pra-pelatihan secara efektif pada model Llama 3, Meta mencurahkan upaya besar pada scaling pra-pelatihan Secara khusus, Meta mengembangkan serangkaian scaling law yang rinci untuk evaluasi benchmark downstream Scaling law ini memungkinkan pengambilan keputusan yang terinformasi tentang cara memilih campuran data yang optimal dan menggunakan komputasi pelatihan secara maksimal Penyetelan halus instruksi Untuk sepenuhnya mengeluarkan potensi model pra-latih pada use case chat, Meta juga berinovasi dalam pendekatan instruction tuning Pendekatan pasca-pelatihan merupakan kombinasi dari supervised fine-tuning (SFT), rejection sampling, proximal policy optimization (PPO), dan direct policy optimization (DPO) Kualitas prompt yang digunakan untuk SFT dan peringkat preferensi yang digunakan untuk PPO serta DPO sangat memengaruhi performa model yang telah di-align Membangun dengan Llama 3 Visi Meta adalah memungkinkan developer menyesuaikan Llama 3 untuk mendukung use case yang relevan, dengan mudah mengadopsi best practice, dan meningkatkan ekosistem terbuka Dalam rilis ini, Meta memperkenalkan alat trust dan safety baru yang mencakup komponen yang diperbarui bersama Llama Guard 2 dan Cybersec Eval 2, serta Code Shield, sebuah guardrail pada waktu inferensi untuk memfilter kode tidak aman yang dihasilkan LLM Meta juga mengembangkan Llama 3 bersama torchtune, library baru berbasis PyTorch yang memudahkan penulisan, fine-tuning, dan eksperimen dengan LLM Pendekatan tingkat sistem untuk pengembangan dan deployment yang bertanggung jawab Model Llama 3 dirancang agar semaksimal mungkin membantu, sekaligus memastikan pendekatan deployment yang bertanggung jawab di level terbaik industri Untuk itu, Meta mengadopsi pendekatan tingkat sistem baru untuk pengembangan dan deployment Llama yang bertanggung jawab Meta memandang model Llama sebagai elemen dasar dari sistem yang dirancang developer dengan tujuan akhir mereka yang unik Penyetelan halus instruksi memainkan peran penting dalam memastikan keamanan model Model yang disetel halus untuk instruksi menjalani red teaming untuk keamanan melalui upaya internal dan eksternal Upaya-upaya ini bersifat iteratif dan digunakan untuk menyetel keamanan model yang dirilis Model Llama Guard menjadi fondasi untuk keamanan prompt dan respons, serta memungkinkan pembuatan klasifikasi baru dengan mudah sesuai kebutuhan aplikasi Llama Guard 2 yang baru menggunakan taksonomi MLCommons yang baru diumumkan untuk dukungan standar industri CyberSecEval 2 memperluas versi sebelumnya dengan menambahkan pengukuran kecenderungan LLM mengeksploitasi code interpreter, kemampuan keamanan siber ofensif, dan kerentanan terhadap serangan prompt injection Code Shield mendukung pemfilteran pada waktu inferensi terhadap kode tidak aman yang dihasilkan LLM, sehingga mengurangi risiko terkait saran kode yang tidak aman, pencegahan eksploitasi code interpreter, dan eksekusi perintah yang aman Deployment Llama 3 dalam skala besar Llama 3 akan segera tersedia di platform utama seperti penyedia cloud, penyedia API model, dan lainnya Menurut benchmark, tokenizer menghasilkan hingga 15% lebih sedikit token dibandingkan Llama 2, sehingga meningkatkan efisiensi token Grouped-query attention (GQA) juga ditambahkan ke Llama 3 8B Rencana Llama 3 ke depan Model Llama 3 8B dan 70B hanyalah awal dari roadmap peluncuran Llama 3 Dalam beberapa bulan ke depan, Meta berencana merilis beberapa model dengan kemampuan baru seperti multimodal, percakapan multibahasa, context window yang jauh lebih panjang, dan kapabilitas yang secara keseluruhan lebih kuat Meta juga akan menerbitkan paper riset yang rinci setelah pelatihan Llama 3 selesai

(ai.meta.com)

22 poin oleh xguru 2024-04-19 | 2 komentar | Bagikan ke WhatsApp

Meta merilis dua model pertama Llama 3 (model 8B dan 70B yang telah dipra-latih serta disetel halus untuk instruksi)
Menunjukkan performa terdepan pada berbagai benchmark industri yang luas, serta menghadirkan kemampuan baru seperti penalaran yang ditingkatkan
Meta ingin membangun model terbuka terbaik yang setara dengan model tertutup terbaik yang tersedia saat ini. Targetnya adalah mengakomodasi masukan developer serta merilis pembaruan dengan cepat dan sering
Memperkenalkan alat trust dan safety baru seperti Llama Guard 2, Code Shield, dan CyberSec Eval 2
Dalam beberapa bulan ke depan, Meta berencana menghadirkan fitur baru, context window yang lebih panjang, ukuran model tambahan, peningkatan performa, dan juga membagikan paper riset Llama 3
Akan segera tersedia di AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM, Snowflake, dan lainnya, serta akan didukung pada platform hardware dari AMD, AWS, Dell, Intel, NVIDIA, Qualcomm, dan lainnya
Meta AI yang dibangun dengan teknologi Llama 3 kini menjadi salah satu asisten AI terbaik di dunia, yang dapat meningkatkan kecerdasan pengguna dan mengurangi beban mereka

Performa Llama 3

Model Llama 3 dengan 8B dan 70B parameter merupakan lompatan besar dibandingkan Llama 2, dan mencapai level tertinggi baru untuk model LLM pada skala tersebut
Berkat peningkatan pada pra-pelatihan dan pasca-pelatihan, model yang dipra-latih dan disetel halus untuk instruksi menjadi model terbaik yang ada saat ini pada skala 8B dan 70B parameter
Perbaikan pada prosedur pasca-pelatihan secara signifikan menurunkan tingkat false refusal, meningkatkan alignment, dan menambah keberagaman respons model
Kemampuan seperti penalaran, pembuatan kode, dan mengikuti instruksi juga meningkat drastis, membuat Llama 3 lebih steerable
Dalam pengembangan Llama 3, Meta meninjau performa model pada benchmark standar sekaligus mengejar optimasi performa untuk skenario dunia nyata
Untuk itu, Meta mengembangkan set evaluasi manusia baru berkualitas tinggi yang mencakup 1.800 prompt untuk 12 use case inti
Melalui set evaluasi ini, model instruction-following 70B menunjukkan performa kuat pada skenario nyata dibandingkan model pesaing berukuran serupa
Model pra-latih juga mencapai state of the art baru untuk model LLM pada skala tersebut
Meta meyakini bahwa inovasi, scaling, dan optimasi kesederhanaan penting untuk mengembangkan language model yang hebat
Di seluruh proyek Llama 3, filosofi desain ini diterapkan dengan berfokus pada empat elemen inti: arsitektur model, data pra-pelatihan, scaling pra-pelatihan, dan penyetelan halus instruksi

Arsitektur model

Llama 3 memilih arsitektur transformer decoder-only yang relatif standar
Dibandingkan Llama 2, ada beberapa peningkatan utama
- Llama 3 menggunakan tokenizer dengan kosakata 128K token yang mengenkode bahasa jauh lebih efisien, sehingga secara signifikan meningkatkan performa model
- Untuk meningkatkan efisiensi inferensi model Llama 3, Meta mengadopsi grouped-query attention (GQA) pada ukuran 8B maupun 70B
- Model dilatih dengan sequence 8.192 token menggunakan mask agar self-attention tidak melampaui batas dokumen

Data pelatihan

Untuk melatih language model terbaik, kurasi dataset pelatihan berkualitas tinggi dalam skala besar adalah hal yang paling penting
Llama 3 dipra-latih dengan lebih dari 15T token yang dikumpulkan dari sumber yang tersedia secara publik
Dataset pelatihannya 7 kali lebih besar daripada yang digunakan pada Llama 2 dan mencakup 4 kali lebih banyak kode
Untuk menyiapkan use case multibahasa di masa depan, lebih dari 5% dataset pra-pelatihan Llama 3 terdiri dari data non-Inggris berkualitas tinggi yang mencakup lebih dari 30 bahasa

Scaling pra-pelatihan

Untuk memanfaatkan data pra-pelatihan secara efektif pada model Llama 3, Meta mencurahkan upaya besar pada scaling pra-pelatihan
Secara khusus, Meta mengembangkan serangkaian scaling law yang rinci untuk evaluasi benchmark downstream
Scaling law ini memungkinkan pengambilan keputusan yang terinformasi tentang cara memilih campuran data yang optimal dan menggunakan komputasi pelatihan secara maksimal

Penyetelan halus instruksi

Untuk sepenuhnya mengeluarkan potensi model pra-latih pada use case chat, Meta juga berinovasi dalam pendekatan instruction tuning
Pendekatan pasca-pelatihan merupakan kombinasi dari supervised fine-tuning (SFT), rejection sampling, proximal policy optimization (PPO), dan direct policy optimization (DPO)
Kualitas prompt yang digunakan untuk SFT dan peringkat preferensi yang digunakan untuk PPO serta DPO sangat memengaruhi performa model yang telah di-align

Membangun dengan Llama 3

Visi Meta adalah memungkinkan developer menyesuaikan Llama 3 untuk mendukung use case yang relevan, dengan mudah mengadopsi best practice, dan meningkatkan ekosistem terbuka
Dalam rilis ini, Meta memperkenalkan alat trust dan safety baru yang mencakup komponen yang diperbarui bersama Llama Guard 2 dan Cybersec Eval 2, serta Code Shield, sebuah guardrail pada waktu inferensi untuk memfilter kode tidak aman yang dihasilkan LLM
Meta juga mengembangkan Llama 3 bersama torchtune, library baru berbasis PyTorch yang memudahkan penulisan, fine-tuning, dan eksperimen dengan LLM

Pendekatan tingkat sistem untuk pengembangan dan deployment yang bertanggung jawab

Model Llama 3 dirancang agar semaksimal mungkin membantu, sekaligus memastikan pendekatan deployment yang bertanggung jawab di level terbaik industri
Untuk itu, Meta mengadopsi pendekatan tingkat sistem baru untuk pengembangan dan deployment Llama yang bertanggung jawab
Meta memandang model Llama sebagai elemen dasar dari sistem yang dirancang developer dengan tujuan akhir mereka yang unik
Penyetelan halus instruksi memainkan peran penting dalam memastikan keamanan model
Model yang disetel halus untuk instruksi menjalani red teaming untuk keamanan melalui upaya internal dan eksternal
Upaya-upaya ini bersifat iteratif dan digunakan untuk menyetel keamanan model yang dirilis
Model Llama Guard menjadi fondasi untuk keamanan prompt dan respons, serta memungkinkan pembuatan klasifikasi baru dengan mudah sesuai kebutuhan aplikasi
Llama Guard 2 yang baru menggunakan taksonomi MLCommons yang baru diumumkan untuk dukungan standar industri
CyberSecEval 2 memperluas versi sebelumnya dengan menambahkan pengukuran kecenderungan LLM mengeksploitasi code interpreter, kemampuan keamanan siber ofensif, dan kerentanan terhadap serangan prompt injection
Code Shield mendukung pemfilteran pada waktu inferensi terhadap kode tidak aman yang dihasilkan LLM, sehingga mengurangi risiko terkait saran kode yang tidak aman, pencegahan eksploitasi code interpreter, dan eksekusi perintah yang aman

Deployment Llama 3 dalam skala besar

Llama 3 akan segera tersedia di platform utama seperti penyedia cloud, penyedia API model, dan lainnya
Menurut benchmark, tokenizer menghasilkan hingga 15% lebih sedikit token dibandingkan Llama 2, sehingga meningkatkan efisiensi token
Grouped-query attention (GQA) juga ditambahkan ke Llama 3 8B

Rencana Llama 3 ke depan

Model Llama 3 8B dan 70B hanyalah awal dari roadmap peluncuran Llama 3
Dalam beberapa bulan ke depan, Meta berencana merilis beberapa model dengan kemampuan baru seperti multimodal, percakapan multibahasa, context window yang jauh lebih panjang, dan kapabilitas yang secara keseluruhan lebih kuat
Meta juga akan menerbitkan paper riset yang rinci setelah pelatihan Llama 3 selesai

2 komentar

dormis 2024-04-19

Kalau cloud lain saya kurang tahu, tapi di Azure AI Studio bersama Mixtral 8x22B, Llma-3 (Meta-Llama-3-8B, Meta-Llama-3-70B, Meta-Llama-3-70B-Instruct, Meta-Llama-3-8B-Instruct) sepertinya sudah tersedia.

xguru 2024-04-19

situs resmi: https://llama.meta.com/llama3/
Penilaian Andrej Karpathy tentang Meta Llama 3