3 poin oleh GN⁺ 2023-09-24 | 1 komentar | Bagikan ke WhatsApp
  • Artikel tentang kesulitan dalam menerapkan large language models (LLM): karena ukuran dan kebutuhan komputasinya, banyak tim riset—terutama aplikasi yang membutuhkan performa latensi rendah—sulit mengaksesnya
  • Untuk mengatasi tantangan ini, model kecil yang terspesialisasi dan dilatih menggunakan fine-tuning atau distilasi sering diterapkan. Namun, metode-metode ini juga memiliki keterbatasan sendiri, seperti membutuhkan label buatan manusia atau data tak berlabel dalam jumlah besar
  • Para penulis memperkenalkan mekanisme baru bernama "distilling step-by-step", yang memungkinkan pelatihan model kecil spesifik-tugas dengan data pelatihan yang jauh lebih sedikit dibandingkan yang dibutuhkan pendekatan fine-tuning atau distilasi standar
  • Mekanisme ini memungkinkan model T5 berparameter 770M mengungguli model PaLM 540B yang diprompt dengan few-shot hanya dengan menggunakan 80% contoh dari dataset benchmark, serta menunjukkan pengurangan ukuran model lebih dari 700 kali dengan data pelatihan yang jauh lebih sedikit daripada yang dibutuhkan pendekatan standar
  • Gagasan inti dari distilling step-by-step adalah mengekstrak penalaran bahasa alami yang kaya informasi dari LLM, lalu menggunakannya untuk melatih model kecil secara lebih efisien
  • Proses ini terdiri dari dua tahap utama: pertama, mengekstrak penalaran dari LLM menggunakan prompt CoT few-shot; kedua, menyusun proses pelatihan sebagai masalah multi-tugas agar penalaran tersebut dimasukkan ke dalam pelatihan model kecil
  • Para penulis melakukan eksperimen pada empat dataset benchmark yang mencakup tiga tugas NLP berbeda, dan menemukan bahwa metode distilling step-by-step mencapai performa yang lebih baik dibandingkan fine-tuning standar sambil menggunakan data pelatihan yang jauh lebih sedikit
  • Mekanisme distilling step-by-step tersedia dalam pratinjau privat di Vertex AI, platform Google Cloud
  • Riset ini dilakukan oleh Cheng-Yu Hsieh, Chun-Liang Li, Chih-Kuan Yeh, Hootan Nakhost, Yasuhisa Fujii, Alexander Ratner, Ranjay Krishna, Chen-Yu Lee, dan Tomas Pfister.

1 komentar

 
GN⁺ 2023-09-24
Komentar Hacker News
  • Diperkirakan model pakar yang lebih kecil akan mendominasi sebagian besar aplikasi karena keseimbangan optimal antara ukuran dan kegunaan.
  • Model distil yang menggunakan T5 menunjukkan bahwa arsitektur encoder-decoder masih bisa tetap relevan.
  • Karena pendekatannya tidak terlalu rumit, ini mengisyaratkan bahwa masih banyak hal yang perlu dieksplorasi di bidang Large Language Models (LLMs).
  • Masa depan LLMs dapat mencakup campuran model pakar yang dilatih dengan gaya seperti ini.
  • Tingkat aktivitas dan kemajuan di bidang LLM, Machine Learning (ML), dan Artificial Intelligence (AI) sangat mengesankan.
  • Optimasi seperti ini bernilai ketika perangkat keras seperti Nvidia mahal.
  • Model yang paling efektif kemungkinan bersifat multimodal dan dilatih dengan kurikulum inti yang disesuaikan secara cermat.
  • Ada pertanyaan tentang mengapa data pelatihan LLM lebih sedikit daripada model distil dan model khusus tugas.
  • Ada spekulasi apakah Reinforcement Learning from Human Feedback (RLHF) akan diperlukan untuk model yang lebih kecil agar bisa berkinerja sebaik LLM tercanggih.
  • Belum jelas apakah banyak kapasitas pada LLM besar tidak digunakan, atau apakah model bahasa kecil hanya meniru tugas penalaran.
  • Mac Studio yang mendukung hingga 144GB memori GPU yang dapat digunakan dapat dipakai di ranah layanan LLM.
  • Ada usulan apakah Facebook dapat melatih LLM dengan seluruh riwayat chat pengguna.