31 poin oleh xguru 2024-04-29 | 1 komentar | Bagikan ke WhatsApp

[ #1 Model generatif besar (Large Generative Models) ]

Pembuatan data sintetis dengan memanfaatkan LLM dan LMM

  • Large Language Model (LLM) menghasilkan keluaran teks, sementara Large Multi-Modal Model (LMM) dapat menghasilkan data sintetis dalam berbagai bentuk seperti teks, kode, dan gambar
  • Ini terutama banyak digunakan di bidang yang kekurangan data nyata, sensitif terhadap perlindungan privasi, atau memiliki biaya pengumpulan dan pelabelan yang tinggi (misalnya NLP, computer vision, pengembangan sistem kendaraan otonom, dll.)
  • Data sintetis umumnya digunakan untuk melengkapi data nyata atau untuk fine-tuning, bukan untuk menggantikan seluruhnya
  • Seberapa pun canggihnya, data ini hanya dapat menghasilkan pendekatan terhadap domain masalah, dan jika terlalu diandalkan ada risiko model mengalami overfitting terhadap karakteristik yang ada dalam proses pembuatan data sintetis
  • Metode pembuatan data sintetis
    1. Self-improvement: model menghasilkan instruksi, konteks input, dan respons; contoh yang tidak valid atau terlalu mirip dengan data yang ada akan difilter, dan data yang tersisa digunakan untuk melakukan fine-tuning pada model asal
    2. Distillation: proses mentransfer pengetahuan dari model guru yang lebih kuat ke model murid yang kurang kuat tetapi lebih efisien. Meski data sintetis sering kali tidak akurat, data ini tetap dapat berkontribusi secara efektif dalam proses instruction-tuning
  • Microsoft merilis seri model kecil bernama Phi, yang terutama dilatih dengan data sintetis yang dihasilkan oleh LLM lain, dan menunjukkan kinerja yang lebih baik daripada sebagian besar model frontier
  • Hugging Face membuat Cosmopedia dengan tujuan mereproduksi hal ini sebagai respons atas kurangnya informasi tentang kurasi dataset pelatihan sintetis yang digunakan Microsoft

Pelabelan data dan integrasi dataset dengan memanfaatkan LLM

  • LLM terbaru dapat memberi label pada dataset teks dengan kualitas setara atau lebih tinggi daripada anotator manusia
  • Tidak seperti anotator manusia, LLM dapat menerapkan standar anotasi yang sama secara konsisten ke dataset skala besar tanpa kelelahan atau bias
  • Model generatif besar yang dilatih dengan dataset skala besar seperti Segment Anything sering menunjukkan kinerja zero-shot yang lebih baik daripada model computer vision non-generatif khusus yang secara tradisional digunakan untuk tugas seperti semantic segmentation
  • LLM juga dapat digunakan untuk memperluas kumpulan data nyata yang tersedia melalui dataset stitching, yaitu menggabungkan berbagai sumber data untuk membuat dataset terpadu

LLM sebagai grader

  • Reinforcement Learning from Human Feedback (RLHF) merupakan teknik fine-tuning inti yang menjadikan GPT-3 sebagai sistem terobosan yang dioptimalkan untuk interaksi percakapan dengan pengguna melalui chat
  • Kini muncul pendekatan bernama Reinforcement Learning from AI Feedback (RLAIF), yang menggunakan LLM alih-alih manusia untuk memberikan umpan balik
  • Keunggulan utama RLAIF adalah skalabilitas dan penghematan biaya yang dimungkinkan dengan mengganti manusia dengan mesin

[ #2 Platform pelabelan data ]

  • Pada awalnya, pekerjaan pelabelan atau pembersihan data dilakukan dengan memanfaatkan platform crowdsourcing dan outsourcing tugas seperti Amazon Mechanical Turk, melalui tenaga kerja online berbiaya rendah
  • Belakangan ini, platform seperti V7 dan Scale AI yang menyediakan fungsi pelabelan dan pengelolaan data otomatis telah berkembang dan menjadi populer
  • Platform-platform ini, bersama langkah kepatuhan dan jaminan kualitas, membantu perusahaan dengan kebutuhan data skala besar untuk melakukan scaling dengan lebih efisien dan memberikan konsistensi yang lebih tinggi

Karakteristik per platform dan pemain baru

  • V7 cenderung berfokus pada pekerjaan yang memerlukan tingkat keahlian tinggi seperti pencitraan medis, sementara Scale tumbuh di bidang kendaraan otonom lalu berekspansi ke sektor pertahanan
  • Pemain baru seperti Invisible memenuhi permintaan tenaga ahli untuk workflow khusus LLM (misalnya fine-tuning berbasis supervised learning, RLHF, evaluasi manusia, red teaming, dll.)
  • Layanan pelabelan data yang populer antara lain CVAT, Dataloop, Invisible, Labelbox, Scale AI, dan V7

Cara meningkatkan kualitas data anotasi manusia

  • Karena banyak platform masih bergantung sampai tingkat tertentu pada anotator manusia, diperlukan upaya lebih besar untuk menilai kualitas output seiring meluasnya penerapan AI ke domain yang kompleks, subjektif, dan sangat relevan secara sosial
  • Dengan menggunakan pendekatan seperti majority vote, tingkat kesepakatan, dan pemodelan probabilistik, label sebenarnya dapat diestimasi dari masukan beberapa evaluator, sekaligus mengidentifikasi evaluator "spammer" yang tidak dapat diandalkan
  • Ada teknik yang menangkap ketidaksesuaian sistematis antar evaluator dan memanfaatkannya untuk meningkatkan pembelajaran (misalnya disagreement deconvolution, pemodelan multi-anotator, dll.)
  • Titik data yang salah label dapat dideteksi melalui influence functions, pelacakan perubahan prediksi selama pelatihan, dan sebagainya

[ #3 Dataset terbuka ]

  • Sejak 2016, dataset terbuka meningkat pesat berkat gerakan data terbuka serta meningkatnya pengakuan terhadap nilai berbagi data antara industri, akademia, dan pemerintah
  • Dataset terbuka tersedia di sebagian besar domain, tetapi aksesibilitasnya sangat tinggi khususnya di bidang computer vision, NLP, pemrosesan suara/audio, kontrol robotik, dan navigasi
  • Perkembangan ini didorong oleh kombinasi upaya komunitas (misalnya Hugging Face, PyTorch, TensorFlow, Kaggle, dll.) dan publikasi dataset skala besar oleh perusahaan besar

Hal yang perlu dipertimbangkan saat memanfaatkan dataset terbuka

  • Meskipun gratis dan membantu untuk benchmarking, ada beberapa hal yang perlu diperhatikan
  • Di domain yang sensitif atau sangat diatur, dataset terbuka cenderung lebih langka, lebih lama, dan berukuran lebih kecil
  • Kualitas dan kebaruan data terbuka dapat sangat bervariasi, sehingga pada bidang yang berubah cepat dapat timbul masalah relevansi
  • Penggunaan berlebihan menimbulkan risiko overfitting karena terlalu bergantung pada dataset populer, sehingga model tampil baik di benchmark tetapi kurang baik dalam aplikasi nyata

Sumber dataset terbuka yang berguna

[ #4 Lingkungan simulasi ]

  • Lingkungan simulasi memungkinkan model atau agen AI belajar dalam lingkungan yang terkendali untuk menghasilkan data sintetis, serta menguji sistem sebelum deployment di dunia nyata
  • Ini sangat membantu untuk melengkapi data nyata dan mengeksplorasi edge case yang sulit ditemui atau mahal di dunia nyata
  • Karena itu, pendekatan ini sangat populer terutama di bidang seperti robotika atau kendaraan otonom, yang perlu melatih sistem secara aman dan mempertimbangkan banyak variabel yang mungkin muncul di dunia nyata

Hal yang perlu dipertimbangkan saat membangun lingkungan simulasi

  • Membangun dan memvalidasi simulasi 3D dari nol yang mampu menghadirkan pemodelan fisika yang kaya dan akurat dapat memerlukan sumber daya dan infrastruktur yang besar
  • NVIDIA membangun ISAAC, platform robotika bertenaga akselerasi GPU yang kuat, termasuk lingkungan simulasi berbasis Omniverse, sebuah platform workflow grafis 3D dan fisika terpadu
  • Untuk mengurangi beban biaya, dapat memanfaatkan lingkungan simulasi open source
  • Unreal Engine dari Epic Games telah menjadi alat yang kuat untuk membangun lingkungan simulasi berkat grafis fidelitas tinggi, simulasi fisika realistis, dan antarmuka pemrograman yang fleksibel

Contoh penggunaan dan lingkungan open source

  • Applied Intuition: menyediakan solusi simulasi dan verifikasi untuk pengembang sistem kendaraan otonom
  • Sereact: mengembangkan perangkat lunak berbasis lingkungan simulasi agar dapat memahami nuansa spasial dan fisik untuk otomatisasi pick-and-pack di gudang
  • Wayve: startup kendaraan otonom berbasis di Inggris yang membuat beberapa lingkungan simulasi 4D
  • Bidang kendaraan otonom: CARLA, LG SVL Simulator, AirSim, dll.
  • Bidang robotika: Gazebo, CoppeliaSim, PyBullet, MuJoCo, dll.

[ #5 Scraping web/buku dan materi lainnya ]

  • Scraping teks, audio, dan video dalam jumlah besar merupakan elemen inti dalam pengembangan foundation model
  • Sementara perusahaan besar menggunakan sistem proprietary mereka sendiri, startup dapat memanfaatkan berbagai alat siap pakai dan open source
  • Distributed crawling framework seperti Apache Nutch, headless browser seperti Puppeteer atau Selenium, library parsing seperti Beautiful Soup, layanan proxy dan manajemen IP seperti Luminati, serta teknologi OCR yang murah dan efektif telah berkembang

Trade-off antara kualitas dan kuantitas data

  • Trade-off antara kualitas dan kuantitas data berbeda-beda tergantung domain dan aplikasi
  • Language model dapat belajar secara efektif bahkan dari data yang relatif berisik dan tidak terlalu terkurasi, asalkan tersedia dalam jumlah cukup
  • Sebaliknya, dalam computer vision, hasil yang baik dapat diperoleh dengan memperluas dataset kecil berkualitas tinggi melalui transformasi gambar (misalnya crop, rotasi, penambahan noise, dll.)

Curriculum learning dan kurasi dataset

  • Curriculum learning adalah strategi pembelajaran yang menyajikan data kepada model dalam urutan yang bermakna, berpindah dari contoh sederhana ke contoh yang kompleks
  • Dengan meniru cara manusia belajar, pendekatan ini meningkatkan efisiensi dengan membantu model mempelajari parameter awal yang baik sebelum menghadapi contoh yang sulit

Contoh

  • DBRX, open LLM SOTA terbaru dari Databricks, memanfaatkan pendekatan ini untuk meningkatkan kualitas model secara signifikan
  • Sync Labs melatih model yang dapat menyinkronkan ulang gerakan bibir video dengan audio baru menggunakan video dalam jumlah besar yang kualitasnya relatif rendah
  • Metalware menggabungkan sekumpulan gambar yang relatif kecil hasil pemindaian buku teks teknis dengan GPT-2 untuk membuat copilot bagi firmware engineer

[ #6 Masalah hak cipta dan kemungkinan lisensi ]

  • Kematangan ekosistem AI sejak 2016 berdampak positif bagi para pendiri startup, tetapi juga menimbulkan kompleksitas tambahan
  • Scraping web skala besar oleh penyedia foundation model membuat perusahaan media, penulis, dan seniman mengajukan berbagai gugatan hak cipta
  • Gugatan-gugatan ini saat ini sedang berjalan melalui sistem pengadilan di Eropa dan Amerika Serikat, dengan sasaran perusahaan besar (misalnya Meta, OpenAI) atau lab yang makin mapan (misalnya Midjourney, Stability)
  • Ini menegaskan bahwa startup harus berhati-hati dalam cara mereka mengumpulkan data
  • Jika perusahaan-perusahaan tersebut kalah, mereka mungkin harus mengidentifikasi materi berhak cipta dalam data pelatihan, memberi kompensasi kepada kreator, atau memusnahkan hasil tersebut dan memulai lagi dari awal
  • Karena itu, sebagian perusahaan secara proaktif mendorong strategi pengumpulan data yang ramah kreator, seperti menjalin kemitraan dengan organisasi media atau memberi kompensasi langsung kepada seniman atas penggunaan konten atau suara

Munculnya skema sertifikasi sumber data yang etis

  • Muncul skema sertifikasi untuk data pelatihan yang diperoleh secara etis, dipimpin antara lain oleh mantan eksekutif Stability
  • Skema sertifikasi ini masih berada pada tahap awal, tetapi merupakan pendekatan yang menarik dan layak untuk dipantau

Contoh

  • ElevenLabs: pembayaran kepada pengisi suara dan kemitraan data suara
  • Google: menandatangani perjanjian agar dapat menggunakan data Reddit untuk pelatihan Gemini
  • OpenAI: kemitraan untuk melatih DALL-E dengan pustaka gambar, video, musik, dan metadata milik Shutterstock serta perjanjian lisensi arsip berita milik Associate Press

[ #7 Berkurangnya kebutuhan akan dataset berlabel skala besar ]

  • Sejak 2016, kemajuan besar dalam teknik unsupervised learning dan semi-supervised learning memungkinkan startup membangun model yang kuat tanpa dataset berlabel skala besar yang sebelumnya dianggap wajib
  • Pendekatan ini sebenarnya sudah dikenal peneliti sebelum 2016, tetapi dalam beberapa tahun terakhir aksesibilitas, kecanggihan, dan kepraktisannya meningkat tajam
  • Unsupervised learning berfokus pada pembelajaran pola dan struktur statistik yang melekat dalam data; secara tradisional berguna untuk eksplorasi dataset skala besar (misalnya clustering tanpa supervisi), dan kini menjadi inti dari pretraining LLM
  • Semi-supervised learning menggunakan data tak berlabel dalam jumlah besar bersama sedikit data berlabel, dan sangat efektif untuk memperbaiki serta meningkatkan kinerja model
  • Pendekatan ini dapat diperkuat melalui teknik seperti contrastive learning dan few-shot learning
    • Contrastive Learning memungkinkan model mempelajari representasi yang kaya dengan membedakan titik data yang mirip dan yang tidak mirip, dan berguna untuk tugas computer vision (misalnya CLIP dari OpenAI)
    • Few-shot learning memungkinkan model beradaptasi dengan tugas baru hanya dengan sangat sedikit contoh
  • Makalah scaling laws asli menunjukkan bahwa model yang lebih besar lebih mahir dalam few-shot learning
  • Meskipun pretraining tanpa supervisi membutuhkan lebih banyak data tak berlabel, tahap ini memberi kemampuan untuk menyelesaikan tugas downstream dengan lebih sedikit contoh berlabel dibanding model kecil non-generatif

Keterbatasan dan hal yang perlu dipertimbangkan

  • Model yang memanfaatkan data tak berlabel sering membutuhkan arsitektur yang lebih kompleks
  • Artinya, biaya yang biasanya dikeluarkan untuk pelabelan ditukar dengan biaya komputasi
  • Implementasi dan scaling-nya lebih sulit, dan interpretabilitasnya juga lebih rendah, sehingga bisa menjadi kekurangan di domain sensitif yang menuntut pemahaman atas proses pengambilan keputusan
  • Kompleksitas ini membutuhkan lebih banyak sumber daya komputasi, dan dalam banyak kasus memiliki batas atas performa yang lebih rendah dibanding metode supervised learning

[ #8 Hal-hal yang masih terlalu dini ]

Data marketplace

  • Sejak 2016, seiring makin mudah dan murahnya pengumpulan, penyimpanan, pemrosesan, dan berbagi data, beberapa data marketplace bermunculan, tetapi bidang ini belum benar-benar aktif
  • Marketplace dan platform seperti Datarade, Dawex, AWS Data Exchange, dan Snowflake memudahkan pencarian data gambar, teks, audio, dan video untuk berbagai use case umum, tetapi ini terutama untuk memberi nilai tambah bagi pelanggan yang memilih meng-host data mereka
  • Selain marketplace ini, ada perusahaan seperti Appen, Scale AI, Invisible, dan Surge yang menyediakan pembuatan serta pelabelan dataset kustom melalui tenaga outsourcing terampil
  • Namun, catatan tentang spesialisasi dan keunggulan kompetitif dari data proprietary tetap berlaku, dan hampir tidak ada bukti bahwa startup AI sangat bergantung pada marketplace ini
  • Meskipun mungkin nyaman pada tahap awal, tetap dibutuhkan upaya besar untuk pembersihan, kustomisasi, filtering, dan subsampling
  • Banyak startup lebih memilih membangun dataset proprietary mereka sendiri sejak awal dan memanfaatkannya sebagai keunggulan kompetitif

Gamifikasi

  • Gamifikasi telah dieksplorasi sebagai strategi pengumpulan data oleh berbagai perusahaan dan organisasi dalam konteks crowdsourcing dan inisiatif citizen science (misalnya Folding@Home)
  • Namun, selain beberapa kasus terbatas, gamifikasi tetap berada di pasar yang relatif niche
  • Karena hanya menarik bagi subkelompok pengguna tertentu yang termotivasi oleh kompetisi ala game dan memiliki waktu luang, batas atas potensi jumlah kontributornya relatif rendah
  • Bahkan di antara orang-orang yang termotivasi, kualitas dan akurasi data yang dikontribusikan tetap menjadi masalah, sehingga diperlukan langkah validasi dan kontrol tambahan, terutama saat menangani edge case

Federated learning

  • Federated learning (FL), yang diperkenalkan Google pada 2016, menawarkan janji bahwa model dapat dilatih di beberapa server terdistribusi atau perangkat seluler sambil membiarkan data tetap berada secara lokal
  • Secara teori, ini dapat memungkinkan startup yang bekerja di bidang sensitif seperti kesehatan atau keuangan mengakses data pelatihan penting melalui kemitraan tanpa menghadapi masalah privasi tradisional
  • Namun, adopsi FL terhambat di domain sensitif yang justru menjadi targetnya karena persoalan tanggung jawab, kepemilikan data, dan transfer data lintas batas; selain itu, seiring makin kompleksnya model dan dataset, overhead komputasi dan komunikasi yang terkait dengan pelatihan serta agregasi terdistribusi menjadi bottleneck yang signifikan; serta tetap ada persepsi bahwa pemilik data harus menerima teknologi yang cukup kompleks untuk memastikan value proposition-nya

[ ## Kesimpulan ]

  • Meskipun telah terjadi kemajuan besar sejak 2016, pengumpulan data masih menjadi tantangan bagi startup
  • Komunitas maupun pasar tampaknya tidak akan menyelesaikan masalah ini
  • Sebagian besar startup AI masih akan menghadapi kesulitan pengumpulan data saat didirikan, tetapi ini juga bisa menjadi peluang diferensiasi
  • Membangun fondasi yang tepat secara kreatif tetap menjadi sumber keunggulan kompetitif yang sangat nyata
  • Data itu sendiri tidak akan pernah menjadi moat
  • Seiring waktu, para pesaing akan berhasil memperoleh data mereka sendiri atau menemukan teknik yang lebih efisien untuk mencapai hasil yang sama
  • Ini terlihat jelas dalam evaluasi LLM selama satu tahun terakhir, ketika kesenjangan performa antara model kecil dan model besar secara bertahap menyempit
  • Pengumpulan data yang unggul pada akhirnya memang diperlukan, tetapi tidak cukup
  • Ini hanyalah salah satu unsur keberhasilan, bersama produk killer dan insight pelanggan yang benar-benar kuat

1 komentar

 
thfvkfk 2024-04-29

Terima kasih, ini informasi yang luar biasa~