2023 adalah tahun Open LLM

xguru · 2023-12-21T10:33:04+09:00

Minat publik terhadap large language model (LLM) meningkat, dan diskusi tentang open source serta closed source pun meluas Resep untuk Pretrained LLM Arsitektur model: menjelaskan implementasi spesifik dan bentuk matematis Dataset pelatihan: mencakup contoh dan dokumen yang dipelajari model Tokenizer: mendefinisikan cara mengubah teks menjadi angka Hyperparameter pelatihan: mendefinisikan cara model dilatih Membutuhkan daya komputasi serta pemantauan oleh para ahli Bobot model yang telah dipra-latih digunakan untuk inferensi Tahun 2022, dari persaingan ukuran ke persaingan data Hingga awal 2022, ukuran model merupakan faktor penting dalam performa Model seperti BLOOM, OPT, dan GLM-130B dirilis Penelitian baru dari DeepMind menekankan pentingnya ukuran data, memicu pergeseran paradigma Tahun 2023, tahun rilis terbuka Kebangkitan LLM kecil: pada Februari LLaMA (Meta), April Pythia (Eleuther AI), Mei MPT (MosaicML), Juni X-GEN (Salesforce) dan Falcon (TIIUAE), Juli Llama 2 (Meta) dirilis. Pada September Qwen (Alibaba) dan Mistral (Mistral.AI), November Yi (01-ai), dan Desember DeciLM (Deci), Phi-2 (Microsoft), serta SOLAR (Upstage) dirilis Bobot model disertakan, dan performa yang baik pada model yang lebih kecil membuatnya cepat diadopsi oleh komunitas Perbedaan utamanya ada pada data pelatihan dan lisensi model Munculnya model percakapan Pada 2023, sebagian besar model pra-latih dirilis bersama versi percakapan Menggunakan metode seperti chat-based fine-tuning, instruction fine-tuning, reinforcement learning from human feedback (RLHF), dan DPO (Direct Preference Optimzation) Versi percakapan dari model MPT, Falcon, XGen, Llama-2, Qwen, Yi, dan DeciLM dirilis Peran komunitas Komunitas dan peneliti memanfaatkan model dasar yang tersedia untuk mengembangkan dataset baru dan model fine-tuning Berbagai dataset dan strategi fine-tuning dirilis Human Preference: dataset WebGPT dari OpenAI, dataset HH-RLHF (Anthropic), dan Summarize (OpenAI) Instruction: Public Pool of Prompts by BigScience, FLAN 1 and 2 by Google, Natural Instructions by AllenAI, Self Instruct, SuperNatural instructions, Unnatural instructions Human ChatGPT Instruction corpus (HC3), Alpaca, Vicuna, ShareGPT, Koala, Dolly, UltraChat, UltraLM, Zephyr, OpenHermes2,.. Demokratisasi akses Penggabungan model/data: menggabungkan bobot model untuk menyatukan keunggulan PEFT: memungkinkan fine-tuning tanpa harus menggunakan seluruh model Kuantisasi: teknik untuk mengurangi ukuran model sehingga lebih banyak orang dapat menggunakan LLM Apa berikutnya? Munculnya arsitektur baru yang melampaui Transformer serta peningkatan performa Rilis model baru seperti Mixtral, Mamba, dan Striped Hyena

(huggingface.co)

19 poin oleh xguru 2023-12-21 | 1 komentar | Bagikan ke WhatsApp

Minat publik terhadap large language model (LLM) meningkat, dan diskusi tentang open source serta closed source pun meluas

Resep untuk Pretrained LLM

Arsitektur model: menjelaskan implementasi spesifik dan bentuk matematis
Dataset pelatihan: mencakup contoh dan dokumen yang dipelajari model
Tokenizer: mendefinisikan cara mengubah teks menjadi angka
Hyperparameter pelatihan: mendefinisikan cara model dilatih
Membutuhkan daya komputasi serta pemantauan oleh para ahli
Bobot model yang telah dipra-latih digunakan untuk inferensi

Tahun 2022, dari persaingan ukuran ke persaingan data

Hingga awal 2022, ukuran model merupakan faktor penting dalam performa
Model seperti BLOOM, OPT, dan GLM-130B dirilis
Penelitian baru dari DeepMind menekankan pentingnya ukuran data, memicu pergeseran paradigma

Tahun 2023, tahun rilis terbuka

Kebangkitan LLM kecil: pada Februari LLaMA (Meta), April Pythia (Eleuther AI), Mei MPT (MosaicML), Juni X-GEN (Salesforce) dan Falcon (TIIUAE), Juli Llama 2 (Meta) dirilis. Pada September Qwen (Alibaba) dan Mistral (Mistral.AI), November Yi (01-ai), dan Desember DeciLM (Deci), Phi-2 (Microsoft), serta SOLAR (Upstage) dirilis
Bobot model disertakan, dan performa yang baik pada model yang lebih kecil membuatnya cepat diadopsi oleh komunitas
Perbedaan utamanya ada pada data pelatihan dan lisensi model

Munculnya model percakapan

Pada 2023, sebagian besar model pra-latih dirilis bersama versi percakapan
Menggunakan metode seperti chat-based fine-tuning, instruction fine-tuning, reinforcement learning from human feedback (RLHF), dan DPO (Direct Preference Optimzation)
Versi percakapan dari model MPT, Falcon, XGen, Llama-2, Qwen, Yi, dan DeciLM dirilis

Peran komunitas

Komunitas dan peneliti memanfaatkan model dasar yang tersedia untuk mengembangkan dataset baru dan model fine-tuning
Berbagai dataset dan strategi fine-tuning dirilis
- Human Preference: dataset WebGPT dari OpenAI, dataset HH-RLHF (Anthropic), dan Summarize (OpenAI)
- Instruction: Public Pool of Prompts by BigScience, FLAN 1 and 2 by Google, Natural Instructions by AllenAI, Self Instruct, SuperNatural instructions, Unnatural instructions
- Human ChatGPT Instruction corpus (HC3), Alpaca, Vicuna, ShareGPT, Koala, Dolly, UltraChat, UltraLM, Zephyr, OpenHermes2,..

Demokratisasi akses

Penggabungan model/data: menggabungkan bobot model untuk menyatukan keunggulan
PEFT: memungkinkan fine-tuning tanpa harus menggunakan seluruh model
Kuantisasi: teknik untuk mengurangi ukuran model sehingga lebih banyak orang dapat menggunakan LLM

Apa berikutnya?

Munculnya arsitektur baru yang melampaui Transformer serta peningkatan performa
Rilis model baru seperti Mixtral, Mamba, dan Striped Hyena

1 komentar

laeyoung 2023-12-22

Memang menyenangkan karena banyak model open source yang bagus bermunculan. LLaMA juga begitu, begitu juga model open source yang disediakan agar bisa berjalan di web; saya sempat mengunduh macam-macam dan banyak mencobanya. Tetapi yang benar-benar dipakai, dan dipakai dalam keseharian, ternyata hanya ChatGPT atau layanan-layanan yang mengambil GPT-4 lalu menyediakannya sebagai SaaS, jadi agak ironis juga. Model open source memang penting, tetapi pada akhirnya tanpa infrastruktur yang bisa menjalankannya secara stabil, dan sponsor finansial yang juga bisa mendukungnya dengan stabil, rasanya memang sulit.