OpenCoder: Buku Panduan Terbuka untuk Code LLM Kelas Atas

(opencoder-llm.github.io)

12 poin oleh GN⁺ 2024-11-10 | 1 komentar | Bagikan ke WhatsApp

OpenCoder adalah model bahasa besar (LLM) kode open source yang mencakup model dasar dan chat 1.5B serta 8B, dan mendukung bahasa Inggris dan Mandarin
- Dilatih dengan data berisi 2,5 triliun token, dengan 90% berupa kode mentah dan 10% berupa data web terkait kode
- Mencapai performa code LLM kelas atas, serta menyediakan bobot model, kode inferensi, data pelatihan yang dapat direproduksi, pipeline pemrosesan data, hasil ablation eksperimental, dan protokol pelatihan yang terperinci
- Platform terbuka yang mendukung para peneliti untuk memajukan dan berinovasi dalam AI kode
Fitur OpenCoder
- Code LLM open source sepenuhnya yang dibangun di atas pipeline pemrosesan data yang transparan dan dataset yang dapat direproduksi, serta mencapai performa papan atas di berbagai benchmark evaluasi code LLM
- RefineCode: korpus pra-pelatihan kode berkualitas tinggi dan dapat direproduksi yang terdiri dari 960 miliar token di 607 bahasa pemrograman
- Studi ablation yang bermakna: mencakup berbagai eksperimen ablation untuk memberikan wawasan penting tentang beragam pilihan desain dan strategi pelatihan untuk code LLM
- Sumber daya yang dipublikasikan: bobot model final, pipeline pemrosesan data lengkap, pipeline evaluasi yang efisien, dataset pra-pelatihan yang dapat direproduksi, dataset SFT skala besar, dan checkpoint menengah

1 komentar

GN⁺ 2024-11-10

Berkontribusi pada riset ilmiah dengan membuka tidak hanya bobot model dan kode inferensi, tetapi juga data pelatihan yang dapat direproduksi, pipeline pemrosesan data, hasil eksperimental, dan protokol pelatihan.
- Ditekankan bahwa pekerjaan seperti ini menguntungkan semua orang terlepas dari performa modelnya.
Hasil pengujian menunjukkan halusinasi cukup banyak, dan performanya lebih rendah dibanding model umum seperti Qwen 2.5 atau Mistral-Nemo.
Tautan beranda makalah arXiv: https://opencoder-llm.github.io/
Skor HumanEval untuk Qwen2.5-Coder-7B adalah 61.6, tetapi di Table 1 tercantum 88.4, sehingga sempat membingungkan.
- Ini karena kedua model tersebut berbeda (Qwen2.5-Coder-7B-Base adalah 61.6, Qwen2.5-Coder-7B-Instruct adalah 88.4).
Karena adanya fork dan copy-paste di dalam codebase, 75% file sepenuhnya duplikat.
- Karena hashing dilakukan pada level file, tidak bisa dipastikan apakah itu benar-benar salinan seluruh file tanpa modifikasi.
Adakah yang melakukan pelatihan dengan menyertakan metadata kompilasi dan eksekusi, seperti data profiling?
- Ingin tahu apakah penyertaan seperti itu bisa mengarahkan model ke kode yang lebih efisien.
Makalahnya menarik, tetapi model ini tampaknya tidak lebih baik daripada Qwen2.5-Coder dalam beberapa bahasa, termasuk Ruby.
Ingin tahu perangkat keras seperti apa yang dibutuhkan untuk menjalankan model ini.
Plumbing itu penting.
Bagus.