15 poin oleh xguru 2024-01-22 | 3 komentar | Bagikan ke WhatsApp
  • Revolusi AI open source masih belum terjadi
  • Tentu ada model open weight yang mengesankan, dan terima kasih kepada mereka yang merilis bobotnya, tetapi jika model tidak dapat direproduksi, itu bukan open source yang sesungguhnya
  • Bayangkan di Linux hanya biner yang dirilis tanpa codebase. Atau bayangkan hanya codebase yang dirilis tanpa compiler yang digunakan untuk membuat binernya. Itulah tepatnya situasi saat ini
  • Ada berbagai kekurangan dalam kondisi ini
    • Tidak bisa berkontribusi kembali ke proyek
    • Proyek tidak mendapatkan manfaat dari loop umpan balik OSS
    • Sulit memverifikasi bahwa model tidak memiliki backdoor (misalnya agen laten)
    • Tidak bisa memeriksa apakah data dan filter konten selaras dengan kebijakan perusahaan
    • Harus bergantung pada perusahaan untuk menyegarkan model
  • Proyek LLM open source sejati, di mana semuanya terbuka mulai dari codebase hingga pipeline data, dapat menciptakan banyak nilai dan kreativitas serta meningkatkan keamanan
    • Namun ini tidak sederhana, karena mereproduksi bobot tidak semudah mengompilasi kode. Dibutuhkan kemampuan komputasi dan know-how.
    • Dan meninjau kontribusi juga sulit karena dampaknya terhadap performa tidak bisa diketahui sampai pelatihan berikutnya dijalankan
  • Namun, orang atau kelompok yang memiliki motivasi kuat dapat memahami detail-detail ini, dan meskipun mungkin tampak sangat berbeda dari OSS yang ada, tantangan baru inilah yang membuat ruang ini menarik

3 komentar

 
coyai 2024-02-07

Benar juga,

  1. GitHub dan Hugging Face sudah lama berubah menjadi platform pemasaran, bukan repositori open source yang benar-benar terbuka.
  2. Beberapa model bahkan tidak menyediakan binary yang bisa dijalankan (https://github.com/AIGCDesignGroup/ReplaceAnything)
  3. Jika hanya menyediakan demo online dan dipakai untuk memamerkan demo pemasaran atas teknologi mereka sendiri, bagaimana itu bisa disebut platform open source?
  4. GitHub dan Hugging Face pada akhirnya juga sedang menjadi site sampah yang dipenuhi barang palsu dan asal-asalan, seperti SNS di masa lalu.

Karena itu, open source kini sedang berubah menjadi semacam mitos atau urban legend. Kenyataannya, kalau dilihat dari situs-situs ini, hampir tidak ada open source model dalam arti yang sesungguhnya yang bisa direproduksi secara sempurna. Sebagian besar hanyalah marketing stunt.

 
cosine20 2024-01-29

Saya paham maksudnya, tapi... model-model yang muncul belakangan ini membutuhkan daya komputasi dan waktu yang diperlukan untuk pelatihan sehingga sulit direproduksi oleh individu biasa, jadi saya juga tidak begitu yakin bagaimana seharusnya menilainya.
Namun, untuk soal keterbukaan dataset, saya juga agak sependapat.

 
xguru 2024-01-22

Komentar Hacker News

  • Bayangkan jika Linux hanya merilis biner tanpa codebase, atau hanya codebase tanpa compiler. Itulah situasi yang kita hadapi saat ini.

    • Ini adalah analogi yang menjelaskan dengan baik masalah pada "model open source" saat ini. Melalui analogi ini, masalah model open source terlihat jelas.
  • Mari ambil contoh CERN: mereka merilis berbagai data eksperimen di bawah lisensi CC0. Ini bukan sekadar dataset kecil, melainkan data berskala besar seperti seluruh data run pertama LHCb.

    • CERN tidak sekadar membuka data lalu membiarkannya begitu saja, tetapi juga menyediakan panduan analisis dan alat yang diperlukan (kebanyakan open source seperti ROOT). Dengan begitu, siapa pun dapat menemukan hal baru atau memperluas analisis eksperimen yang sudah ada. Data dan alat yang terbuka seperti ini memenuhi syarat reproduksibilitas, tetapi tidak berarti datanya harus bisa diregenerasi secara langsung. Secara teori LHC bisa dibangun ulang, tetapi itu membutuhkan banyak tenaga kerja, dana, dan waktu. Berbeda dengan model open source, model memang bisa dilatih ulang untuk mendapatkan bobot, tetapi biaya untuk memperoleh data dan mereproduksi bobot umumnya sangat besar. Perlu diingat bahwa CERN merilis versi yang lebih terkurasi, bukan data mentahnya (yang sebagian besar adalah noise). Mengunduh data mentah berskala besar itu sulit, tetapi untuk melatih sesuatu seperti large language model (LLM), seluruh dataset mungkin dibutuhkan, dan itu sering kali memiliki masalah tersendiri seperti isu hak cipta.
  • Membuka dataset adalah masalah terbesar. Kalau itu dilakukan, orang dan perusahaan akan menggugat karena hak cipta mereka dilanggar.

    • Jika dataset mengandung konten berhak cipta, pemegang hak cipta memang dapat mengajukan gugatan. Saya tidak akan terkejut jika model tersebut kemungkinan mencakup keseluruhan dataset dari Z-Library atau Google Books.
  • Open Source Initiative selama setahun terakhir telah menjalankan serangkaian diskusi untuk mengumpulkan pendapat berbagai pemangku kepentingan tentang apakah AI itu open source.

    • Saya pernah mengikuti sesi yang berlangsung sepanjang sore di All Things Open. Saya sarankan untuk melihat diskusi yang sudah berjalan tentang masalah ini. Ini isu yang jauh lebih bernuansa daripada yang bisa dimuat dalam sebuah tweet.
  • Menerapkan istilah "open source" pada model AI lebih rumit daripada menerapkannya pada perangkat lunak. Banyak orang menganggap reproduksibilitas sebagai kriteria agar sesuatu dapat dianggap open source.

    • Untuk model AI, model itu sendiri, dataset, dan recipe pelatihan (misalnya proses dan hyperparameter) sering kali juga dipublikasikan sebagai source code. Dengan begitu, jika Anda memiliki kemampuan komputasi yang cukup, Anda dapat melatih model tersebut dan memperoleh bobotnya.
  • Open core juga sama — jika tidak bisa di-host di infrastruktur Anda sendiri, itu bukan perangkat lunak open source yang sesungguhnya.

    • Jika tidak bisa di-host di infrastruktur sendiri, maka itu tidak dianggap sebagai perangkat lunak open source yang sesungguhnya.
  • "Proyek tidak mendapatkan manfaat dari OSS feedback loop" Saya rasa kita tidak akan banyak melihat feedback loop, karena Anda tidak bisa mengajukan PR untuk data pelatihan yang memperbaiki masalah tertentu seperti perbaikan bug.

    • "Sulit memverifikasi bahwa model tidak memiliki backdoor" Mengingat ukuran dataset dan ketidaktransparanan proses pelatihan, hampir tidak ada orang yang bisa mengetahui apakah ada backdoor dalam data pelatihan.
    • "Sulit memverifikasi data dan content filter serta memastikan kesesuaiannya dengan kebijakan perusahaan" Kebijakan perusahaan dapat diterapkan pada output model bahkan tanpa akses ke data pelatihan. Pertanyaannya adalah apakah semua perusahaan memang harus memfilter data masukan dan melatih model mereka sendiri.
    • "Anda menjadi bergantung pada perusahaan saat ingin menyegarkan model" Dengan mempertimbangkan biaya saat ini, itu pada dasarnya sudah menjadi kenyataan bagi kebanyakan orang.
    • "Proyek LLM yang benar-benar open source, dengan semuanya terbuka dari codebase hingga data pipeline, dapat membebaskan banyak nilai, kreativitas, dan meningkatkan keamanan" Untuk kasus LLM, saya secara umum skeptis bahwa ini benar. Sebaliknya, hal itu justru bisa menciptakan permukaan serangan yang lebih besar bagi pelaku jahat.
  • "Bentuk pekerjaan yang lebih disukai untuk melakukan modifikasi terhadap sebuah karya adalah 'source code'."

    • Kutipan dari GPLv3
    • Menariknya, untuk model AI/ML ini, bobot memang diturunkan dari set pelatihan, tetapi saat memodifikasinya tidak perlu mengakses set pelatihan asli. Ada banyak tutorial tentang cara melakukan fine-tuning tanpa mengakses set pelatihan asli.
  • Saya tidak setuju, dan analoginya tidak tepat. Hal-hal yang ia daftarkan bisa dilakukan dengan model yang sudah terlatih. Memiliki data pada praktiknya adalah isu yang kurang menarik perhatian. Perangkat lunak open/free adalah soal menjalankan kebebasan, dan jika Anda memiliki bobot model serta kodenya, Anda bisa menjalankan semua kebebasan itu.

  • Apakah ada model LLM open source sejati, di mana semua data pelatihan tersedia publik (dengan lisensi yang kompatibel), dan perangkat lunak pelatihannya dapat mereproduksi model yang identik bit demi bit?

    • Apakah pelatihannya non-deterministik? Saya tahu output LLM memang sengaja dibuat non-deterministik.