Apakah data masih menjadi moat?

xguru · 2023-10-17T10:46:01+09:00

"Data adalah minyak baru" adalah slogan selama 10 tahun terakhir Perusahaan menyadari betapa berharganya data, atau seberapa berharganya data itu bisa menjadi Perusahaan bergegas berinvestasi pada data stack terbaru dan menyimpan data berukuran terabita di data warehouse Tim data science diharapkan menganalisis angka dan menggunakan hasil analisis itu untuk keputusan produk (atau dalam beberapa kasus, fitur yang berhadapan langsung dengan pelanggan seperti feed rekomendasi) Ada kisah sukses, tetapi banyak organisasi gagal dalam eksekusi Alasannya antara lain data yang tersilo (atau tim data yang tersilo), cloud data warehouse yang mahal dan kueri yang buruk (yang kini mulai menyusut), serta tidak adanya pipeline data yang rapi (yang membutuhkan pekerjaan operasional besar untuk menjaga data tetap dalam keadaan bersih) Sekarang, meski menggunakan "AI generatif", apakah data masih menjadi moat? Ketika dataset sintetis mengambil porsi yang tidak nol dalam pipeline pelatihan dan inferensi, apakah nilai data akan meningkat, atau justru menurun? Di satu sisi, "data berkualitas tetap penting" Banyak fokus pada peningkatan LLM diarahkan pada model dan ukuran dataset Ada bukti awal bahwa LLM dapat sangat dipengaruhi oleh kualitas data yang digunakan untuk melatihnya WizardLM, TinyStories, dan phi-1 adalah contohnya Demikian pula, dataset RLHF juga penting Di sisi lain, untuk fine-tuning pada format output dan gaya kustom, "bahkan sekitar 100 data point saja sudah memberi peningkatan besar" Peneliti LLM dari Databricks, Meta, Spark, dan Audible melakukan analisis empiris tentang jumlah data yang dibutuhkan untuk fine-tuning Data sebanyak ini mudah dibuat atau dikurasi secara manual Distilasi model (Model distillation) itu nyata dan bisa dilakukan dengan sederhana Anda dapat menggunakan LLM untuk menghasilkan data sintetis guna melatih atau melakukan fine-tuning pada LLM Anda sendiri, dan sebagian pengetahuan akan ditransfer Ini menjadi masalah jika LLM mentah diekspos ke pihak lain (meski tidak terlalu masalah bila hanya dipakai secara internal), tetapi juga berarti data yang tidak benar-benar unik dapat dengan mudah disalin

(matt-rickard.com)

12 poin oleh xguru 2023-10-17 | Belum ada komentar. | Bagikan ke WhatsApp

"Data adalah minyak baru" adalah slogan selama 10 tahun terakhir
- Perusahaan menyadari betapa berharganya data, atau seberapa berharganya data itu bisa menjadi
- Perusahaan bergegas berinvestasi pada data stack terbaru dan menyimpan data berukuran terabita di data warehouse
- Tim data science diharapkan menganalisis angka dan menggunakan hasil analisis itu untuk keputusan produk (atau dalam beberapa kasus, fitur yang berhadapan langsung dengan pelanggan seperti feed rekomendasi)
- Ada kisah sukses, tetapi banyak organisasi gagal dalam eksekusi
- Alasannya antara lain data yang tersilo (atau tim data yang tersilo), cloud data warehouse yang mahal dan kueri yang buruk (yang kini mulai menyusut), serta tidak adanya pipeline data yang rapi (yang membutuhkan pekerjaan operasional besar untuk menjaga data tetap dalam keadaan bersih)
Sekarang, meski menggunakan "AI generatif", apakah data masih menjadi moat?
Ketika dataset sintetis mengambil porsi yang tidak nol dalam pipeline pelatihan dan inferensi, apakah nilai data akan meningkat, atau justru menurun?
Di satu sisi, "data berkualitas tetap penting"
- Banyak fokus pada peningkatan LLM diarahkan pada model dan ukuran dataset
- Ada bukti awal bahwa LLM dapat sangat dipengaruhi oleh kualitas data yang digunakan untuk melatihnya
- WizardLM, TinyStories, dan phi-1 adalah contohnya
- Demikian pula, dataset RLHF juga penting
Di sisi lain, untuk fine-tuning pada format output dan gaya kustom, "bahkan sekitar 100 data point saja sudah memberi peningkatan besar"
- Peneliti LLM dari Databricks, Meta, Spark, dan Audible melakukan analisis empiris tentang jumlah data yang dibutuhkan untuk fine-tuning
- Data sebanyak ini mudah dibuat atau dikurasi secara manual
Distilasi model (Model distillation) itu nyata dan bisa dilakukan dengan sederhana
- Anda dapat menggunakan LLM untuk menghasilkan data sintetis guna melatih atau melakukan fine-tuning pada LLM Anda sendiri, dan sebagian pengetahuan akan ditransfer
- Ini menjadi masalah jika LLM mentah diekspos ke pihak lain (meski tidak terlalu masalah bila hanya dipakai secara internal), tetapi juga berarti data yang tidak benar-benar unik dapat dengan mudah disalin

Apakah data masih menjadi moat?

Bacaan terkait

Belum ada komentar.