1 poin oleh GN⁺ 2023-08-25 | 1 komentar | Bagikan ke WhatsApp
  • Code Llama adalah model bahasa besar (LLM) mutakhir yang dirancang khusus untuk tugas coding.
  • Model ini dapat menghasilkan kode dan penjelasan bahasa alami tentang kode, baik dari prompt kode maupun prompt bahasa alami.
  • Code Llama dibangun di atas Llama 2 dan tersedia dalam tiga varian: model kode dasar, model khusus Python, dan model yang telah di-fine-tune untuk memahami instruksi bahasa alami.
  • Model ini gratis untuk penggunaan riset maupun komersial, dan mengungguli LLM lain yang tersedia secara publik dalam tugas-tugas terkait kode.
  • Code Llama dapat digunakan sebagai alat produktivitas yang membantu programmer menulis perangkat lunak yang lebih tangguh dan terdokumentasi dengan baik, serta sebagai alat edukasi yang menurunkan hambatan masuk bagi mereka yang sedang belajar coding.
  • Model ini mendukung banyak bahasa populer seperti Python, C++, Java, PHP, Typescript (Javascript), C#, Bash, dan lainnya.
  • Code Llama tersedia dalam tiga ukuran dengan parameter 7B, 13B, dan 34B, yang masing-masing dilatih dengan 500B token kode dan data terkait kode.
  • Berbagai model tersedia untuk menyesuaikan layanan dan kebutuhan latensi yang berbeda; model 34B memberikan hasil terbaik, sementara model yang lebih kecil lebih cocok untuk tugas yang membutuhkan kecepatan dan latensi rendah.
  • Code Llama dapat menangani konteks hingga 100.000 token, sehingga berguna untuk menghasilkan program yang lebih panjang dan melakukan debugging pada codebase yang lebih besar.
  • Dua varian tambahan, Code Llama - Python dan Code Llama - Instruct, telah di-fine-tune; masing-masing dioptimalkan untuk kode Python dan untuk menghasilkan jawaban yang membantu serta aman dalam bahasa alami.
  • Dalam pengujian benchmark menggunakan HumanEval dan Mostly Basic Python Programming (MBPP), Code Llama mengungguli Llama 2 serta LLM open source lain yang khusus untuk kode.
  • Sebelum merilis Code Llama, langkah-langkah keamanan telah diambil, termasuk evaluasi kuantitatif terhadap risiko model menghasilkan kode berbahaya.
  • Resep pelatihan dan bobot model Code Llama tersedia di GitHub, sementara pengembangan, pengujian benchmark, keterbatasan, dan tantangan ke depannya dijelaskan secara rinci dalam makalah riset.
  • Para pencipta Code Llama meyakini bahwa model AI, khususnya LLM untuk coding, mendapatkan manfaat paling besar dari pendekatan terbuka, karena hal ini memungkinkan seluruh komunitas menilai kemampuannya, mengidentifikasi masalah, dan memperbaiki kerentanan.
  • Developer dianjurkan menggunakan Code Llama secara bertanggung jawab, termasuk mengikuti panduan untuk pengembangan submodel, penetapan kebijakan konten, persiapan data, fine-tuning model, evaluasi dan peningkatan performa, mitigasi risiko, transparansi dalam interaksi pengguna, serta pembangunan mekanisme pelaporan.
  • Code Llama dirancang untuk mendukung software engineer di semua bidang dan menginspirasi pihak lain memanfaatkan Llama 2 untuk membuat alat baru yang inovatif bagi riset maupun produk komersial.

1 komentar

 
GN⁺ 2023-08-25
Opini Hacker News
  • Code Llama adalah model bahasa besar baru yang dirancang khusus untuk pemrograman.
  • Model ini dapat menangani konteks hingga 100.000 token dan memberikan generasi yang stabil.
  • Beberapa pengguna mempertanyakan kegunaan konteks 100k karena akurasi pengambilan inti menurun setelah 16k token.
  • Model 7B Code Llama dianggap kompetitif dengan Codex, model di balik GitHub Copilot.
  • Para pengguna antusias terhadap potensi model 34B Python 4-bit quantized.
  • Ada pertanyaan tentang model kode tersemat yang menangani codebase lebih besar dari 100K token.
  • Perkembangan model-model ini memicu diskusi tentang potensi perubahan praktik pemrograman untuk mengoptimalkan penggunaan alat-alat semacam ini.
  • Para pengguna tertarik pada kemungkinan membuat model bahasa besar spesifik untuk domain lain seperti Rust, Linux, genomics, physics modeling, lalu berkolaborasi untuk memecahkan masalah.
  • Model terbaik, Unnatural Code Llama, belum dirilis, dan ini mungkin karena berpotensi melanggar ketentuan layanan OpenAI.
  • Para pengguna membandingkan kegunaan alat seperti Code Llama dan Code Pilot dengan penggunaan GPT-4 secara langsung.
  • Ada minat untuk memahami kebutuhan perangkat keras yang diperlukan untuk menjalankan model-model ini, dan beberapa pengguna ingin memakai model semacam ini tanpa mengunggah source code mereka ke perusahaan teknologi besar.