35 poin oleh xguru 2023-04-14 | 1 komentar | Bagikan ke WhatsApp
  • LLM instruction-tuned terbuka sejati pertama di dunia
  • Seluruh kode pelatihan, dataset, dan bobot model dibuka. Artinya siapa pun, baik individu maupun perusahaan, dapat membuat dan memiliki LLM andal mereka sendiri
  • Fine-tuning dilakukan dengan dataset databricks-dolly-15k berisi instruksi yang dibuat manusia
    • 15.000 pasangan prompt/jawaban. Siapa pun dapat mengubah/memperluasnya dan juga dapat digunakan untuk tujuan komersial
      • (Alpaca, Koala, GPT4All, Vicuna, dll. semuanya tidak dapat digunakan secara komersial)
    • Data ini ditulis langsung oleh 5.000 karyawan Databricks
  • Berbasis model bahasa EleutherAI pythia 12B parameter

1 komentar

 
kuroneko 2023-04-14

Sangat menarik bahwa mereka membuka percakapan untuk membuat kumpulan pertanyaan pelatihan LLM bagi karyawan internal, tetapi menutupnya lebih awal karena partisipasinya jauh lebih banyak dari perkiraan sampai khawatir mengganggu pekerjaan.

Bagaimanapun, saya benar-benar ingin memuji bahwa perusahaan besar seperti ini berani melakukan investasi besar lalu merilis kumpulan data berkualitas tinggi sebagai open source sepenuhnya (CC BY-SA 3.0).
Kalau perusahaan seperti ini sedikit demi sedikit makin banyak dan partisipasinya terus bertambah, bukankah suatu hari nanti akan muncul model open source yang bisa dipakai secara komersial dengan tingkat kemampuan setara GPT-4?