Mengungguli GPT-4 di HumanEval dengan CodeLlama-34B yang di-fine-tune

(phind.com)

2 poin oleh GN⁺ 2023-08-26 | 1 komentar | Bagikan ke WhatsApp

CodeLlama-34B dan CodeLlama-34B-Python di-fine-tune menggunakan dataset internal Phind, masing-masing mencapai pass@1 sebesar 67,6% dan 69,5% di HumanEval, melampaui 67% milik GPT-4
Model CodeLlama yang baru-baru ini dirilis menunjukkan performa yang mengesankan di HumanEval; CodeLlama-34B mencapai pass@1 sebesar 48,8%, dan CodeLlama-34B-Python mencapai pass@1 sebesar 53,7%
Kedua model di-fine-tune pada dataset proprietari yang mencakup sekitar 80k soal pemrograman berkualitas tinggi beserta solusinya, yang secara struktural berbeda dari HumanEval karena menampilkan pasangan instruksi-jawaban alih-alih contoh pelengkapan kode
Model dilatih selama total 160k contoh selama dua epoch menggunakan DeepSpeed ZeRO 3 dan Flash Attention 2, yang berlangsung selama tiga jam dengan 32 GPU A100-80GB dan panjang sekuens 4096 token
Metodologi dekontaminasi OpenAI diterapkan pada dataset untuk memastikan hasil yang valid, dan tidak ditemukan contoh yang terkontaminasi. Metodologi ini secara acak mengambil tiga substring yang masing-masing terdiri dari 50 karakter dari setiap contoh evaluasi, atau menggunakan seluruh contoh jika panjangnya kurang dari 50 karakter, lalu mengidentifikasi kecocokan jika salah satu substring yang diambil merupakan substring dari contoh pelatihan yang telah diproses.
Model yang telah di-fine-tune mencapai skor pass@1 di HumanEval sebesar 67,6% untuk Phind-CodeLlama-34B-v1 dan 69,5% untuk Phind-CodeLlama-34B-Python-v1
Kedua model dirilis di Huggingface untuk memastikan verifiabilitas dan mendukung komunitas open source, serta verifikasi independen atas hasil ini dianjurkan

1 komentar

alstjr7375 2023-08-27

Ini postingan HN.
https://news.ycombinator.com/item?id=37267597

Mengungguli GPT-4 di HumanEval dengan CodeLlama-34B yang di-fine-tune

Bacaan terkait

1 komentar