Strategi akuisisi data untuk startup AI pada 2024

(press.airstreet.com)

31 poin oleh xguru 2024-04-29 | 1 komentar | Bagikan ke WhatsApp

[ #1 Model generatif besar (Large Generative Models) ]

Pembuatan data sintetis dengan memanfaatkan LLM dan LMM

Large Language Model (LLM) menghasilkan keluaran teks, sementara Large Multi-Modal Model (LMM) dapat menghasilkan data sintetis dalam berbagai bentuk seperti teks, kode, dan gambar
Ini terutama banyak digunakan di bidang yang kekurangan data nyata, sensitif terhadap perlindungan privasi, atau memiliki biaya pengumpulan dan pelabelan yang tinggi (misalnya NLP, computer vision, pengembangan sistem kendaraan otonom, dll.)
Data sintetis umumnya digunakan untuk melengkapi data nyata atau untuk fine-tuning, bukan untuk menggantikan seluruhnya
Seberapa pun canggihnya, data ini hanya dapat menghasilkan pendekatan terhadap domain masalah, dan jika terlalu diandalkan ada risiko model mengalami overfitting terhadap karakteristik yang ada dalam proses pembuatan data sintetis
Metode pembuatan data sintetis
1. Self-improvement: model menghasilkan instruksi, konteks input, dan respons; contoh yang tidak valid atau terlalu mirip dengan data yang ada akan difilter, dan data yang tersisa digunakan untuk melakukan fine-tuning pada model asal
2. Distillation: proses mentransfer pengetahuan dari model guru yang lebih kuat ke model murid yang kurang kuat tetapi lebih efisien. Meski data sintetis sering kali tidak akurat, data ini tetap dapat berkontribusi secara efektif dalam proses instruction-tuning
Microsoft merilis seri model kecil bernama Phi, yang terutama dilatih dengan data sintetis yang dihasilkan oleh LLM lain, dan menunjukkan kinerja yang lebih baik daripada sebagian besar model frontier
Hugging Face membuat Cosmopedia dengan tujuan mereproduksi hal ini sebagai respons atas kurangnya informasi tentang kurasi dataset pelatihan sintetis yang digunakan Microsoft

Pelabelan data dan integrasi dataset dengan memanfaatkan LLM

LLM terbaru dapat memberi label pada dataset teks dengan kualitas setara atau lebih tinggi daripada anotator manusia
Tidak seperti anotator manusia, LLM dapat menerapkan standar anotasi yang sama secara konsisten ke dataset skala besar tanpa kelelahan atau bias
Model generatif besar yang dilatih dengan dataset skala besar seperti Segment Anything sering menunjukkan kinerja zero-shot yang lebih baik daripada model computer vision non-generatif khusus yang secara tradisional digunakan untuk tugas seperti semantic segmentation
LLM juga dapat digunakan untuk memperluas kumpulan data nyata yang tersedia melalui dataset stitching, yaitu menggabungkan berbagai sumber data untuk membuat dataset terpadu

LLM sebagai grader

Reinforcement Learning from Human Feedback (RLHF) merupakan teknik fine-tuning inti yang menjadikan GPT-3 sebagai sistem terobosan yang dioptimalkan untuk interaksi percakapan dengan pengguna melalui chat
Kini muncul pendekatan bernama Reinforcement Learning from AI Feedback (RLAIF), yang menggunakan LLM alih-alih manusia untuk memberikan umpan balik
Keunggulan utama RLAIF adalah skalabilitas dan penghematan biaya yang dimungkinkan dengan mengganti manusia dengan mesin

[ #2 Platform pelabelan data ]

Pada awalnya, pekerjaan pelabelan atau pembersihan data dilakukan dengan memanfaatkan platform crowdsourcing dan outsourcing tugas seperti Amazon Mechanical Turk, melalui tenaga kerja online berbiaya rendah
Belakangan ini, platform seperti V7 dan Scale AI yang menyediakan fungsi pelabelan dan pengelolaan data otomatis telah berkembang dan menjadi populer
Platform-platform ini, bersama langkah kepatuhan dan jaminan kualitas, membantu perusahaan dengan kebutuhan data skala besar untuk melakukan scaling dengan lebih efisien dan memberikan konsistensi yang lebih tinggi

Karakteristik per platform dan pemain baru

V7 cenderung berfokus pada pekerjaan yang memerlukan tingkat keahlian tinggi seperti pencitraan medis, sementara Scale tumbuh di bidang kendaraan otonom lalu berekspansi ke sektor pertahanan
Pemain baru seperti Invisible memenuhi permintaan tenaga ahli untuk workflow khusus LLM (misalnya fine-tuning berbasis supervised learning, RLHF, evaluasi manusia, red teaming, dll.)
Layanan pelabelan data yang populer antara lain CVAT, Dataloop, Invisible, Labelbox, Scale AI, dan V7

Cara meningkatkan kualitas data anotasi manusia

Karena banyak platform masih bergantung sampai tingkat tertentu pada anotator manusia, diperlukan upaya lebih besar untuk menilai kualitas output seiring meluasnya penerapan AI ke domain yang kompleks, subjektif, dan sangat relevan secara sosial
Dengan menggunakan pendekatan seperti majority vote, tingkat kesepakatan, dan pemodelan probabilistik, label sebenarnya dapat diestimasi dari masukan beberapa evaluator, sekaligus mengidentifikasi evaluator "spammer" yang tidak dapat diandalkan
Ada teknik yang menangkap ketidaksesuaian sistematis antar evaluator dan memanfaatkannya untuk meningkatkan pembelajaran (misalnya disagreement deconvolution, pemodelan multi-anotator, dll.)
Titik data yang salah label dapat dideteksi melalui influence functions, pelacakan perubahan prediksi selama pelatihan, dan sebagainya

[ #3 Dataset terbuka ]

Sejak 2016, dataset terbuka meningkat pesat berkat gerakan data terbuka serta meningkatnya pengakuan terhadap nilai berbagi data antara industri, akademia, dan pemerintah
Dataset terbuka tersedia di sebagian besar domain, tetapi aksesibilitasnya sangat tinggi khususnya di bidang computer vision, NLP, pemrosesan suara/audio, kontrol robotik, dan navigasi
Perkembangan ini didorong oleh kombinasi upaya komunitas (misalnya Hugging Face, PyTorch, TensorFlow, Kaggle, dll.) dan publikasi dataset skala besar oleh perusahaan besar

Hal yang perlu dipertimbangkan saat memanfaatkan dataset terbuka

Meskipun gratis dan membantu untuk benchmarking, ada beberapa hal yang perlu diperhatikan
Di domain yang sensitif atau sangat diatur, dataset terbuka cenderung lebih langka, lebih lama, dan berukuran lebih kecil
Kualitas dan kebaruan data terbuka dapat sangat bervariasi, sehingga pada bidang yang berubah cepat dapat timbul masalah relevansi
Penggunaan berlebihan menimbulkan risiko overfitting karena terlalu bergantung pada dataset populer, sehingga model tampil baik di benchmark tetapi kurang baik dalam aplikasi nyata

Sumber dataset terbuka yang berguna

Perusahaan besar seperti Amazon, Google, dan Microsoft memiliki berbagai hub dan mesin pencari data terbuka
Hugging Face telah membuat hub dataset yang siap digunakan bersama alat terkait
Fitur pencarian dataset milik Kaggle
VisualData: hub untuk dataset computer vision
V7 merilis daftar lebih dari 500 dataset terbuka

[ #4 Lingkungan simulasi ]

Lingkungan simulasi memungkinkan model atau agen AI belajar dalam lingkungan yang terkendali untuk menghasilkan data sintetis, serta menguji sistem sebelum deployment di dunia nyata
Ini sangat membantu untuk melengkapi data nyata dan mengeksplorasi edge case yang sulit ditemui atau mahal di dunia nyata
Karena itu, pendekatan ini sangat populer terutama di bidang seperti robotika atau kendaraan otonom, yang perlu melatih sistem secara aman dan mempertimbangkan banyak variabel yang mungkin muncul di dunia nyata

Hal yang perlu dipertimbangkan saat membangun lingkungan simulasi

Membangun dan memvalidasi simulasi 3D dari nol yang mampu menghadirkan pemodelan fisika yang kaya dan akurat dapat memerlukan sumber daya dan infrastruktur yang besar
NVIDIA membangun ISAAC, platform robotika bertenaga akselerasi GPU yang kuat, termasuk lingkungan simulasi berbasis Omniverse, sebuah platform workflow grafis 3D dan fisika terpadu
Untuk mengurangi beban biaya, dapat memanfaatkan lingkungan simulasi open source
Unreal Engine dari Epic Games telah menjadi alat yang kuat untuk membangun lingkungan simulasi berkat grafis fidelitas tinggi, simulasi fisika realistis, dan antarmuka pemrograman yang fleksibel

Contoh penggunaan dan lingkungan open source

Applied Intuition: menyediakan solusi simulasi dan verifikasi untuk pengembang sistem kendaraan otonom
Sereact: mengembangkan perangkat lunak berbasis lingkungan simulasi agar dapat memahami nuansa spasial dan fisik untuk otomatisasi pick-and-pack di gudang
Wayve: startup kendaraan otonom berbasis di Inggris yang membuat beberapa lingkungan simulasi 4D
Bidang kendaraan otonom: CARLA, LG SVL Simulator, AirSim, dll.
Bidang robotika: Gazebo, CoppeliaSim, PyBullet, MuJoCo, dll.

[ #5 Scraping web/buku dan materi lainnya ]

Scraping teks, audio, dan video dalam jumlah besar merupakan elemen inti dalam pengembangan foundation model
Sementara perusahaan besar menggunakan sistem proprietary mereka sendiri, startup dapat memanfaatkan berbagai alat siap pakai dan open source
Distributed crawling framework seperti Apache Nutch, headless browser seperti Puppeteer atau Selenium, library parsing seperti Beautiful Soup, layanan proxy dan manajemen IP seperti Luminati, serta teknologi OCR yang murah dan efektif telah berkembang

Trade-off antara kualitas dan kuantitas data

Trade-off antara kualitas dan kuantitas data berbeda-beda tergantung domain dan aplikasi
Language model dapat belajar secara efektif bahkan dari data yang relatif berisik dan tidak terlalu terkurasi, asalkan tersedia dalam jumlah cukup
Sebaliknya, dalam computer vision, hasil yang baik dapat diperoleh dengan memperluas dataset kecil berkualitas tinggi melalui transformasi gambar (misalnya crop, rotasi, penambahan noise, dll.)

Curriculum learning dan kurasi dataset

Curriculum learning adalah strategi pembelajaran yang menyajikan data kepada model dalam urutan yang bermakna, berpindah dari contoh sederhana ke contoh yang kompleks
Dengan meniru cara manusia belajar, pendekatan ini meningkatkan efisiensi dengan membantu model mempelajari parameter awal yang baik sebelum menghadapi contoh yang sulit

Contoh

DBRX, open LLM SOTA terbaru dari Databricks, memanfaatkan pendekatan ini untuk meningkatkan kualitas model secara signifikan
Sync Labs melatih model yang dapat menyinkronkan ulang gerakan bibir video dengan audio baru menggunakan video dalam jumlah besar yang kualitasnya relatif rendah
Metalware menggabungkan sekumpulan gambar yang relatif kecil hasil pemindaian buku teks teknis dengan GPT-2 untuk membuat copilot bagi firmware engineer

[ #6 Masalah hak cipta dan kemungkinan lisensi ]

Kematangan ekosistem AI sejak 2016 berdampak positif bagi para pendiri startup, tetapi juga menimbulkan kompleksitas tambahan
Scraping web skala besar oleh penyedia foundation model membuat perusahaan media, penulis, dan seniman mengajukan berbagai gugatan hak cipta
Gugatan-gugatan ini saat ini sedang berjalan melalui sistem pengadilan di Eropa dan Amerika Serikat, dengan sasaran perusahaan besar (misalnya Meta, OpenAI) atau lab yang makin mapan (misalnya Midjourney, Stability)
Ini menegaskan bahwa startup harus berhati-hati dalam cara mereka mengumpulkan data
Jika perusahaan-perusahaan tersebut kalah, mereka mungkin harus mengidentifikasi materi berhak cipta dalam data pelatihan, memberi kompensasi kepada kreator, atau memusnahkan hasil tersebut dan memulai lagi dari awal
Karena itu, sebagian perusahaan secara proaktif mendorong strategi pengumpulan data yang ramah kreator, seperti menjalin kemitraan dengan organisasi media atau memberi kompensasi langsung kepada seniman atas penggunaan konten atau suara

Munculnya skema sertifikasi sumber data yang etis

Muncul skema sertifikasi untuk data pelatihan yang diperoleh secara etis, dipimpin antara lain oleh mantan eksekutif Stability
Skema sertifikasi ini masih berada pada tahap awal, tetapi merupakan pendekatan yang menarik dan layak untuk dipantau

Contoh

ElevenLabs: pembayaran kepada pengisi suara dan kemitraan data suara
Google: menandatangani perjanjian agar dapat menggunakan data Reddit untuk pelatihan Gemini
OpenAI: kemitraan untuk melatih DALL-E dengan pustaka gambar, video, musik, dan metadata milik Shutterstock serta perjanjian lisensi arsip berita milik Associate Press

[ #7 Berkurangnya kebutuhan akan dataset berlabel skala besar ]

Sejak 2016, kemajuan besar dalam teknik unsupervised learning dan semi-supervised learning memungkinkan startup membangun model yang kuat tanpa dataset berlabel skala besar yang sebelumnya dianggap wajib
Pendekatan ini sebenarnya sudah dikenal peneliti sebelum 2016, tetapi dalam beberapa tahun terakhir aksesibilitas, kecanggihan, dan kepraktisannya meningkat tajam
Unsupervised learning berfokus pada pembelajaran pola dan struktur statistik yang melekat dalam data; secara tradisional berguna untuk eksplorasi dataset skala besar (misalnya clustering tanpa supervisi), dan kini menjadi inti dari pretraining LLM
Semi-supervised learning menggunakan data tak berlabel dalam jumlah besar bersama sedikit data berlabel, dan sangat efektif untuk memperbaiki serta meningkatkan kinerja model
Pendekatan ini dapat diperkuat melalui teknik seperti contrastive learning dan few-shot learning
- Contrastive Learning memungkinkan model mempelajari representasi yang kaya dengan membedakan titik data yang mirip dan yang tidak mirip, dan berguna untuk tugas computer vision (misalnya CLIP dari OpenAI)
- Few-shot learning memungkinkan model beradaptasi dengan tugas baru hanya dengan sangat sedikit contoh
Makalah scaling laws asli menunjukkan bahwa model yang lebih besar lebih mahir dalam few-shot learning
Meskipun pretraining tanpa supervisi membutuhkan lebih banyak data tak berlabel, tahap ini memberi kemampuan untuk menyelesaikan tugas downstream dengan lebih sedikit contoh berlabel dibanding model kecil non-generatif

Keterbatasan dan hal yang perlu dipertimbangkan

Model yang memanfaatkan data tak berlabel sering membutuhkan arsitektur yang lebih kompleks
Artinya, biaya yang biasanya dikeluarkan untuk pelabelan ditukar dengan biaya komputasi
Implementasi dan scaling-nya lebih sulit, dan interpretabilitasnya juga lebih rendah, sehingga bisa menjadi kekurangan di domain sensitif yang menuntut pemahaman atas proses pengambilan keputusan
Kompleksitas ini membutuhkan lebih banyak sumber daya komputasi, dan dalam banyak kasus memiliki batas atas performa yang lebih rendah dibanding metode supervised learning

[ #8 Hal-hal yang masih terlalu dini ]

Data marketplace

Sejak 2016, seiring makin mudah dan murahnya pengumpulan, penyimpanan, pemrosesan, dan berbagi data, beberapa data marketplace bermunculan, tetapi bidang ini belum benar-benar aktif
Marketplace dan platform seperti Datarade, Dawex, AWS Data Exchange, dan Snowflake memudahkan pencarian data gambar, teks, audio, dan video untuk berbagai use case umum, tetapi ini terutama untuk memberi nilai tambah bagi pelanggan yang memilih meng-host data mereka
Selain marketplace ini, ada perusahaan seperti Appen, Scale AI, Invisible, dan Surge yang menyediakan pembuatan serta pelabelan dataset kustom melalui tenaga outsourcing terampil
Namun, catatan tentang spesialisasi dan keunggulan kompetitif dari data proprietary tetap berlaku, dan hampir tidak ada bukti bahwa startup AI sangat bergantung pada marketplace ini
Meskipun mungkin nyaman pada tahap awal, tetap dibutuhkan upaya besar untuk pembersihan, kustomisasi, filtering, dan subsampling
Banyak startup lebih memilih membangun dataset proprietary mereka sendiri sejak awal dan memanfaatkannya sebagai keunggulan kompetitif

Gamifikasi

Gamifikasi telah dieksplorasi sebagai strategi pengumpulan data oleh berbagai perusahaan dan organisasi dalam konteks crowdsourcing dan inisiatif citizen science (misalnya Folding@Home)
Namun, selain beberapa kasus terbatas, gamifikasi tetap berada di pasar yang relatif niche
Karena hanya menarik bagi subkelompok pengguna tertentu yang termotivasi oleh kompetisi ala game dan memiliki waktu luang, batas atas potensi jumlah kontributornya relatif rendah
Bahkan di antara orang-orang yang termotivasi, kualitas dan akurasi data yang dikontribusikan tetap menjadi masalah, sehingga diperlukan langkah validasi dan kontrol tambahan, terutama saat menangani edge case

Federated learning

Federated learning (FL), yang diperkenalkan Google pada 2016, menawarkan janji bahwa model dapat dilatih di beberapa server terdistribusi atau perangkat seluler sambil membiarkan data tetap berada secara lokal
Secara teori, ini dapat memungkinkan startup yang bekerja di bidang sensitif seperti kesehatan atau keuangan mengakses data pelatihan penting melalui kemitraan tanpa menghadapi masalah privasi tradisional
Namun, adopsi FL terhambat di domain sensitif yang justru menjadi targetnya karena persoalan tanggung jawab, kepemilikan data, dan transfer data lintas batas; selain itu, seiring makin kompleksnya model dan dataset, overhead komputasi dan komunikasi yang terkait dengan pelatihan serta agregasi terdistribusi menjadi bottleneck yang signifikan; serta tetap ada persepsi bahwa pemilik data harus menerima teknologi yang cukup kompleks untuk memastikan value proposition-nya

[ ## Kesimpulan ]

Meskipun telah terjadi kemajuan besar sejak 2016, pengumpulan data masih menjadi tantangan bagi startup
Komunitas maupun pasar tampaknya tidak akan menyelesaikan masalah ini
Sebagian besar startup AI masih akan menghadapi kesulitan pengumpulan data saat didirikan, tetapi ini juga bisa menjadi peluang diferensiasi
Membangun fondasi yang tepat secara kreatif tetap menjadi sumber keunggulan kompetitif yang sangat nyata
Data itu sendiri tidak akan pernah menjadi moat
Seiring waktu, para pesaing akan berhasil memperoleh data mereka sendiri atau menemukan teknik yang lebih efisien untuk mencapai hasil yang sama
Ini terlihat jelas dalam evaluasi LLM selama satu tahun terakhir, ketika kesenjangan performa antara model kecil dan model besar secara bertahap menyempit
Pengumpulan data yang unggul pada akhirnya memang diperlukan, tetapi tidak cukup
Ini hanyalah salah satu unsur keberhasilan, bersama produk killer dan insight pelanggan yang benar-benar kuat

1 komentar

thfvkfk 2024-04-29

Terima kasih, ini informasi yang luar biasa~

Strategi akuisisi data untuk startup AI pada 2024

[ #1 Model generatif besar (Large Generative Models) ]

Pembuatan data sintetis dengan memanfaatkan LLM dan LMM

Pelabelan data dan integrasi dataset dengan memanfaatkan LLM

LLM sebagai grader

[ #2 Platform pelabelan data ]

Karakteristik per platform dan pemain baru

Cara meningkatkan kualitas data anotasi manusia

[ #3 Dataset terbuka ]

Hal yang perlu dipertimbangkan saat memanfaatkan dataset terbuka

Sumber dataset terbuka yang berguna

[ #4 Lingkungan simulasi ]

Hal yang perlu dipertimbangkan saat membangun lingkungan simulasi

Contoh penggunaan dan lingkungan open source

[ #5 Scraping web/buku dan materi lainnya ]

Trade-off antara kualitas dan kuantitas data

Curriculum learning dan kurasi dataset

Contoh

[ #6 Masalah hak cipta dan kemungkinan lisensi ]

Munculnya skema sertifikasi sumber data yang etis

Contoh

[ #7 Berkurangnya kebutuhan akan dataset berlabel skala besar ]

Keterbatasan dan hal yang perlu dipertimbangkan

[ #8 Hal-hal yang masih terlalu dini ]

Data marketplace

Gamifikasi

Federated learning

[ ## Kesimpulan ]

Bacaan terkait

1 komentar