7 poin oleh GN⁺ 2024-04-09 | 1 komentar | Bagikan ke WhatsApp
  • AI2 merilis model OLMo 7B. Ini adalah model bahasa besar open source dalam arti yang sesungguhnya karena data prapelatihan dan kode pelatihannya dibuka bersama.

    • Hal ini memungkinkan peneliti dan pengembang menggunakan model terbuka terbaik untuk secara kolektif memajukan sains model bahasa.
    • Ilmuwan AI Meta, Yann LeCun, menyebut bahwa komunitas open source dapat membangun masa depan AI dengan cara paling cepat dan efektif.
  • Fitur utama framework OLMo:

    • Data prapelatihan lengkap: menggunakan dataset Dolma dari AI2, dan juga mencakup kode untuk menghasilkan data pelatihan.
    • Kode pelatihan dan bobot model: menyediakan bobot model lengkap, kode inferensi, metrik pelatihan, log pelatihan, dan lainnya untuk 4 varian model berskala 7B.
    • Evaluasi: di bawah proyek Catwalk, alat evaluasi yang digunakan dalam pengembangan, termasuk lebih dari 500 checkpoint dan kode evaluasi, turut dibuka.
  • Melalui OLMo, peneliti dan pengembang AI dapat memperoleh pengalaman berikut:

    • Analisis yang lebih akurat: dapat bekerja lebih cepat berdasarkan wawasan lengkap terhadap data pelatihan.
    • Pengurangan emisi karbon: dengan membuka seluruh ekosistem pelatihan dan evaluasi, pengembangan yang duplikatif dapat dikurangi.
    • Hasil yang berkelanjutan: dengan membuka model dan dataset, pihak lain dapat belajar dari model sebelumnya dan membangunnya lebih lanjut.
  • Pengembangan OLMo dimungkinkan melalui kolaborasi dengan AMD, CSC (Lumi Supercomputer), University of Washington, Databricks, dan lainnya.

Opini GN⁺

  • Membuka data pelatihan dan kode untuk meningkatkan transparansi model AI tampak sangat bermakna. Namun, karena mungkin ada masalah seperti bias data, peninjauan terhadap hal tersebut juga tampaknya diperlukan.
  • Aktivasi ekosistem model bahasa open source diperkirakan akan mempercepat perkembangan teknologi. Namun, masih perlu dilihat hasil seperti apa yang bisa dicapai dalam persaingan dengan model AI tertutup milik perusahaan IT besar.
  • Untuk mengamankan sumber daya komputasi masif yang dibutuhkan dalam pengembangan AI, kolaborasi dengan berbagai institusi tampak sangat penting. Ini bisa menjadi teladan yang baik sebagai model kerja sama antara akademisi dan industri.
  • Diharapkan OLMo akan mendorong penelitian ilmiah yang lebih aktif mengenai prinsip kerja model bahasa. Ini dapat mengarah pada pengembangan AI yang lebih aman dan lebih dapat dipercaya.

1 komentar

 
GN⁺ 2024-04-09
Opini Hacker News
  • Saat menggunakan LLM, pengguna harus memberi tahu penulis untuk keperluan apa model itu dipakai. Ini tercantum dalam lisensi.
  • Jika membuat turunan, pengguna harus mengirimkan Derivative Impact Report ke AI2 atau memberikan informasi serupa secara tertulis. AI2 dapat memublikasikan informasi ini kepada publik.
  • Tujuan penggunaan turunan harus diungkapkan secara transparan.
  • Derivative Impact Report bukan dimaksudkan untuk menghukum pengungkapan yang dilakukan dengan itikad baik. Jika mengajukan gugatan terkait hal ini, kontrak akan segera berakhir.
  • Ini adalah salah satu model open source yang benar-benar terbuka. Kebanyakan hanya merilis bobot, sedangkan yang ini terbuka secara end-to-end.
  • Cukup mengejutkan bahwa tidak ada perbandingan dengan Mistral 7b.
  • Tampaknya "The Pile" tidak termasuk dalam data pelatihan. Secara hukum, ini mungkin lebih sehat dibanding LLM "terbuka" lainnya.
  • Apa arti sebenarnya dari klasifikasi risiko yang diterapkan pada dataset? Penjelasannya di halaman lisensi kurang memadai. Apakah itu berarti ada risiko lisensi yang tidak kompatibel untuk digunakan sebagai dataset pelatihan?
  • Bahkan pada ukuran kecil, model ini menunjukkan kecepatan yang sangat mengesankan.
  • Apakah ini salah satu LLM penting pertama yang berhasil dilatih dengan GPU AMD? Penasaran seberapa mulus prosesnya dan apakah ada kesulitan.
  • Pada model ini dan model serupa, saat inferensi muncul masalah "token berulang". Ini sering terjadi ketika jendela konteks berada di panjang menengah.
  • Sepertinya model jatuh ke semacam minimum lokal selama pelatihan. Suhu tampaknya berpengaruh, tetapi tidak sepenuhnya menyelesaikan masalah.
  • Sayang sekali tidak ada tabel perbandingan di postingan blog.
  • Secara pribadi ini adalah LLM yang paling menarik. Ini adalah alat yang kuat yang bisa menggantikan pencarian dan bahkan melakukan riset untuk memberikan jawaban akhir. Model tertutup seperti milik OpenAI, Anthropic, dan lainnya tidak bisa diaudit.
  • Ada contoh nyata bias yang disuntikkan ke dalam LLM (misalnya pembuatan gambar yang tidak akurat secara historis karena meta-prompt rahasia Google Gemini)
  • Saya suka pendekatan AI2. Bukan hanya bobot, tetapi juga source code pelatihan, data, alat evaluasi, dan lainnya dibagikan dengan lisensi Apache.
  • Model bobot terbuka seperti Llama sedang mengejar model tertutup seperti milik OpenAI dan lainnya. Semoga model yang benar-benar terbuka seperti OLMo juga terus berkembang.
  • Semoga pengembangan AI open source tidak dibatasi oleh regulasi. Di masa depan ini bisa menjadi sarana penyampai informasi bagi masyarakat, jadi regulasi akan mirip dengan pembatasan kebebasan berekspresi. Berkurangnya tekanan persaingan akan merusak inovasi.
  • Ini adalah tulisan dari 2 bulan lalu.