19 poin oleh xguru 2023-12-21 | 1 komentar | Bagikan ke WhatsApp
  • Minat publik terhadap large language model (LLM) meningkat, dan diskusi tentang open source serta closed source pun meluas

Resep untuk Pretrained LLM

  • Arsitektur model: menjelaskan implementasi spesifik dan bentuk matematis
  • Dataset pelatihan: mencakup contoh dan dokumen yang dipelajari model
  • Tokenizer: mendefinisikan cara mengubah teks menjadi angka
  • Hyperparameter pelatihan: mendefinisikan cara model dilatih
  • Membutuhkan daya komputasi serta pemantauan oleh para ahli
  • Bobot model yang telah dipra-latih digunakan untuk inferensi

Tahun 2022, dari persaingan ukuran ke persaingan data

  • Hingga awal 2022, ukuran model merupakan faktor penting dalam performa
  • Model seperti BLOOM, OPT, dan GLM-130B dirilis
  • Penelitian baru dari DeepMind menekankan pentingnya ukuran data, memicu pergeseran paradigma

Tahun 2023, tahun rilis terbuka

  • Kebangkitan LLM kecil: pada Februari LLaMA (Meta), April Pythia (Eleuther AI), Mei MPT (MosaicML), Juni X-GEN (Salesforce) dan Falcon (TIIUAE), Juli Llama 2 (Meta) dirilis. Pada September Qwen (Alibaba) dan Mistral (Mistral.AI), November Yi (01-ai), dan Desember DeciLM (Deci), Phi-2 (Microsoft), serta SOLAR (Upstage) dirilis
  • Bobot model disertakan, dan performa yang baik pada model yang lebih kecil membuatnya cepat diadopsi oleh komunitas
  • Perbedaan utamanya ada pada data pelatihan dan lisensi model

Munculnya model percakapan

  • Pada 2023, sebagian besar model pra-latih dirilis bersama versi percakapan
  • Menggunakan metode seperti chat-based fine-tuning, instruction fine-tuning, reinforcement learning from human feedback (RLHF), dan DPO (Direct Preference Optimzation)
  • Versi percakapan dari model MPT, Falcon, XGen, Llama-2, Qwen, Yi, dan DeciLM dirilis

Peran komunitas

  • Komunitas dan peneliti memanfaatkan model dasar yang tersedia untuk mengembangkan dataset baru dan model fine-tuning
  • Berbagai dataset dan strategi fine-tuning dirilis
    • Human Preference: dataset WebGPT dari OpenAI, dataset HH-RLHF (Anthropic), dan Summarize (OpenAI)
    • Instruction: Public Pool of Prompts by BigScience, FLAN 1 and 2 by Google, Natural Instructions by AllenAI, Self Instruct, SuperNatural instructions, Unnatural instructions
    • Human ChatGPT Instruction corpus (HC3), Alpaca, Vicuna, ShareGPT, Koala, Dolly, UltraChat, UltraLM, Zephyr, OpenHermes2,..

Demokratisasi akses

  • Penggabungan model/data: menggabungkan bobot model untuk menyatukan keunggulan
  • PEFT: memungkinkan fine-tuning tanpa harus menggunakan seluruh model
  • Kuantisasi: teknik untuk mengurangi ukuran model sehingga lebih banyak orang dapat menggunakan LLM

Apa berikutnya?

  • Munculnya arsitektur baru yang melampaui Transformer serta peningkatan performa
  • Rilis model baru seperti Mixtral, Mamba, dan Striped Hyena

1 komentar

 
laeyoung 2023-12-22

Memang menyenangkan karena banyak model open source yang bagus bermunculan. LLaMA juga begitu, begitu juga model open source yang disediakan agar bisa berjalan di web; saya sempat mengunduh macam-macam dan banyak mencobanya. Tetapi yang benar-benar dipakai, dan dipakai dalam keseharian, ternyata hanya ChatGPT atau layanan-layanan yang mengambil GPT-4 lalu menyediakannya sebagai SaaS, jadi agak ironis juga. Model open source memang penting, tetapi pada akhirnya tanpa infrastruktur yang bisa menjalankannya secara stabil, dan sponsor finansial yang juga bisa mendukungnya dengan stabil, rasanya memang sulit.