12 poin oleh GN⁺ 2024-11-10 | 1 komentar | Bagikan ke WhatsApp
  • OpenCoder adalah model bahasa besar (LLM) kode open source yang mencakup model dasar dan chat 1.5B serta 8B, dan mendukung bahasa Inggris dan Mandarin
    • Dilatih dengan data berisi 2,5 triliun token, dengan 90% berupa kode mentah dan 10% berupa data web terkait kode
    • Mencapai performa code LLM kelas atas, serta menyediakan bobot model, kode inferensi, data pelatihan yang dapat direproduksi, pipeline pemrosesan data, hasil ablation eksperimental, dan protokol pelatihan yang terperinci
    • Platform terbuka yang mendukung para peneliti untuk memajukan dan berinovasi dalam AI kode
  • Fitur OpenCoder
    • Code LLM open source sepenuhnya yang dibangun di atas pipeline pemrosesan data yang transparan dan dataset yang dapat direproduksi, serta mencapai performa papan atas di berbagai benchmark evaluasi code LLM
    • RefineCode: korpus pra-pelatihan kode berkualitas tinggi dan dapat direproduksi yang terdiri dari 960 miliar token di 607 bahasa pemrograman
    • Studi ablation yang bermakna: mencakup berbagai eksperimen ablation untuk memberikan wawasan penting tentang beragam pilihan desain dan strategi pelatihan untuk code LLM
    • Sumber daya yang dipublikasikan: bobot model final, pipeline pemrosesan data lengkap, pipeline evaluasi yang efisien, dataset pra-pelatihan yang dapat direproduksi, dataset SFT skala besar, dan checkpoint menengah

1 komentar

 
GN⁺ 2024-11-10
Opini Hacker News
  • Berkontribusi pada riset ilmiah dengan membuka tidak hanya bobot model dan kode inferensi, tetapi juga data pelatihan yang dapat direproduksi, pipeline pemrosesan data, hasil eksperimental, dan protokol pelatihan.

    • Ditekankan bahwa pekerjaan seperti ini menguntungkan semua orang terlepas dari performa modelnya.
  • Hasil pengujian menunjukkan halusinasi cukup banyak, dan performanya lebih rendah dibanding model umum seperti Qwen 2.5 atau Mistral-Nemo.

  • Tautan beranda makalah arXiv: https://opencoder-llm.github.io/

  • Skor HumanEval untuk Qwen2.5-Coder-7B adalah 61.6, tetapi di Table 1 tercantum 88.4, sehingga sempat membingungkan.

    • Ini karena kedua model tersebut berbeda (Qwen2.5-Coder-7B-Base adalah 61.6, Qwen2.5-Coder-7B-Instruct adalah 88.4).
  • Karena adanya fork dan copy-paste di dalam codebase, 75% file sepenuhnya duplikat.

    • Karena hashing dilakukan pada level file, tidak bisa dipastikan apakah itu benar-benar salinan seluruh file tanpa modifikasi.
  • Adakah yang melakukan pelatihan dengan menyertakan metadata kompilasi dan eksekusi, seperti data profiling?

    • Ingin tahu apakah penyertaan seperti itu bisa mengarahkan model ke kode yang lebih efisien.
  • Makalahnya menarik, tetapi model ini tampaknya tidak lebih baik daripada Qwen2.5-Coder dalam beberapa bahasa, termasuk Ruby.

  • Ingin tahu perangkat keras seperti apa yang dibutuhkan untuk menjalankan model ini.

  • Plumbing itu penting.

  • Bagus.