33 poin oleh xguru 2023-03-19 | 1 komentar | Bagikan ke WhatsApp
  • Dilatih dengan metode yang sama seperti cara pelatihan model Alpaca dari Stanford
  • Menggunakan Polyglot-ko 5.8B dan LLaMA 7B sebagai model backbone
    • LLaMA memiliki performa bahasa Korea yang rendah karena pelatihan pada dataset bahasa Korea tidak mencukupi, sehingga model bahasa Korea dilatih tambahan
  • Dataset 52k instruksi milik LLaMA diterjemahkan dengan API DeepL

1 komentar

 
luckydaun 2023-03-19

Wah... ekosistem ini benar-benar berkembang dengan kecepatan yang luar biasa. Bahkan pada model Transformer yang sudah ada, perbedaan performa antara model yang dilokalkan untuk bahasa Korea dan model serbaguna juga sangat besar; ini open source yang bagus.