1 poin oleh GN⁺ 2024-04-19 | 1 komentar | Bagikan ke WhatsApp

Pengenalan model Llama 3

  • Meta memperkenalkan model Llama 3. Tersedia dalam versi 8B dan 70B, baik yang telah dipra-latih maupun yang telah di-tuning untuk instruksi, untuk mendukung pengembangan berbagai aplikasi.
  • Llama 3 terintegrasi ke dalam Meta AI dan dapat digunakan untuk tugas coding serta pemecahan masalah. Dengan demikian, pengguna dapat langsung merasakan performa Llama 3.
  • Llama 3 akan menyediakan kemampuan dan fleksibilitas yang dibutuhkan untuk pengembangan agen maupun aplikasi berbasis AI.

Peningkatan performa Llama 3

  • Llama 3 adalah model mutakhir dengan akses terbuka yang menunjukkan performa unggul pada tugas-tugas kompleks seperti nuansa bahasa, pemahaman konteks, penerjemahan, dan pembuatan percakapan.
  • Dengan skalabilitas dan performa yang ditingkatkan, Llama 3 dapat menangani tugas multi-langkah dengan mudah. Proses pasca-pelatihan yang diperbaiki secara signifikan menurunkan tingkat penolakan palsu, meningkatkan penyelarasan respons, dan menambah keragaman jawaban model.
  • Selain itu, kemampuannya dalam penalaran, pembuatan kode, dan pelaksanaan instruksi juga meningkat secara signifikan. Dengan Llama 3, masa depan AI dapat dibangun.

Benchmark model Llama 3

  • Model Llama 3 membawa data dan skala ke tingkat baru. Model ini dilatih dengan lebih dari 15 triliun token data pada dua klaster GPU 24K yang baru-baru ini diumumkan, yaitu 7 kali lebih besar daripada dataset pelatihan yang digunakan untuk Llama 2 dan berisi 4 kali lebih banyak kode.
  • Hasilnya adalah model Llama dengan performa terbaik sejauh ini, serta mendukung panjang konteks 8K, dua kali kapasitas Llama 2.

Pendekatan komprehensif untuk penggunaan Llama 3 yang bertanggung jawab

  • Bersamaan dengan peluncuran Llama 3, Responsible Use Guide (RUG) diperbarui untuk memberikan informasi paling komprehensif tentang pengembangan yang bertanggung jawab menggunakan LLM.
  • Pembaruan juga dilakukan pada alat trust and safety, termasuk Llama Guard 2, Code Shield, dan Cybersec Eval 2, yang dioptimalkan untuk mendukung taksonomi baru yang diumumkan oleh MLCommons.
  • Sesuai prinsip yang tercantum dalam RUG, disarankan agar semua input dan output untuk LLM diperiksa dan difilter secara menyeluruh berdasarkan pedoman konten yang disesuaikan dengan use case dan target pengguna.

Opini GN⁺

  • Selain peningkatan performa Llama 3, menarik bahwa panduan untuk pengembangan yang bertanggung jawab juga disediakan. Semakin kuat model AI, semakin perlu pula upaya untuk memastikan penggunaannya tetap tepat.
  • Namun, mengingat sifat proyek open source, tampaknya tidak ada cara untuk memaksa kepatuhan terhadap panduan tersebut. Kerja sama sukarela dari para pengembang tampaknya akan dibutuhkan.
  • Llama 3 diperkirakan akan menunjukkan performa yang sebanding dengan model terbaru OpenAI seperti GPT-4, tetapi hasil benchmark objektifnya masih belum dipublikasikan. Menarik untuk melihat performa nyatanya di berbagai tugas.
  • Sebagai proyek open source, diharapkan berbagai organisasi dan pengembang di luar Meta akan menghadirkan proyek-proyek menarik yang memanfaatkan Llama 3. Ini akan menjadi kesempatan untuk melihat potensi Llama 3 secara langsung.

1 komentar

 
GN⁺ 2024-04-19
Komentar Hacker News
  • Ada pendapat yang mengapresiasi Meta karena mengadopsi pendekatan open source dan membagikan bobot model, tokenizer, serta informasi tentang data pelatihan. Berkat pendekatan terbuka Meta ini, kini model yang cukup bagus bisa dijalankan secara lokal di perangkat keras konsumen.

  • Bersamaan dengan peluncuran Llama 3, Meta juga mengumumkan bahwa AI Meta multimodal akan bisa diuji di kacamata pintar Ray-Ban Meta. Ada pendapat bahwa antarmuka komputer/smartphone tradisional akan menghilang, kecuali untuk beberapa aplikasi niche, dan sebagai gantinya setiap orang akan memiliki asisten AI pribadinya sendiri yang dapat diajak berinteraksi secara alami layaknya berinteraksi dengan orang lain.

  • Ada pendapat yang ingin melihat model yang cocok untuk GPU konsumen 24GB, misalnya model 20B dengan kuantisasi 8-bit atau model 40B yang bisa dikuantisasi 4-bit. Disebutkan juga bahwa mengecewakan Meta berhenti merilis model 30B setelah Llama 1.

  • Kartu model Llama 3 mencantumkan hasil benchmark dibandingkan model Llama lainnya. Peningkatan performa Llama 3 yang dramatis dibandingkan Llama 2 sangat mengesankan, dan konteks window yang digandakan menjadi 8k tampaknya akan membuka banyak peluang baru.

  • Informasi bahwa Zuckerberg telah melakukan wawancara tentang Llama 3 juga dibagikan.