2 poin oleh GN⁺ 2025-08-15 | Belum ada komentar. | Bagikan ke WhatsApp
  • Melatih model transformer bergaya GPT dengan sekitar 1.8M parameter di MacBook Pro dalam 5 menit menggunakan sekitar 20M token TinyStories, dan mencapai sekitar 9.6 perplexity
  • Batas utama untuk pelatihan dalam 5 menit adalah ukuran model dan jumlah token yang bisa diproses; jika model terlalu besar, konvergensi melambat dan efektivitas dengan data terbatas menurun
  • Dalam optimasi performa, penggunaan MPS, kompilasi/kuantisasi/akumulasi gradien, atau pengganti PyTorch ternyata kurang efektif dibanding memilih model yang lebih kecil
  • Dataset yang sederhana dan konsisten seperti TinyStories memberi dampak lebih positif pada performa model kecil dibanding data bergaya ensiklopedia
  • Arsitektur transformer menunjukkan hasil yang lebih baik daripada pendekatan LSTM atau diffusion dalam kondisi ukuran kecil dan waktu pelatihan singkat

Gambaran umum

Tulisan ini menyajikan hasil eksperimen tentang model bahasa AI dengan performa tertinggi yang bisa dilatih di laptop (MacBook Pro) dalam 5 menit, serta insight mengenai strategi training terbaik, pemilihan dataset, dan arsitektur model

Ringkasan hasil eksperimen

  • Model transformer bergaya GPT dengan sekitar 1.8M parameter dilatih menggunakan sekitar 20M data TinyStories, mencatat 9.6 perplexity
  • Contoh generasi memang pendek, tetapi berbentuk cerita yang konsisten, dengan tata bahasa Inggris yang umumnya tetap benar
  • Ditekankan bahwa hasil model pada tingkat yang praktis dalam waktu 5 menit tergolong melampaui ekspektasi

Latar belakang eksperimen dan keterbatasan

  • Eksperimen ini berawal dari rasa ingin tahu yang kurang realistis: melatih model yang kuat dengan cepat di lingkungan laptop
  • Dalam praktiknya, model yang lebih kuat tentu bisa dilatih di cloud dengan GPU berperforma tinggi (seperti H100), tetapi batasan utama eksperimen ini adalah waktu, yaitu 5 menit
  • Semakin besar ukuran model, semakin lambat kecepatan pemrosesan token, sehingga sulit menghasilkan hasil yang baik dalam 5 menit
    • Model yang terlalu kecil (misalnya 10K parameter) tidak mampu mempelajari kompleksitas yang memadai
    • Rentang yang praktis adalah model dengan sekitar 1M~2M parameter

Optimasi throughput

  • Penggunaan MPS (Metal Performance Shaders milik Apple) adalah yang paling efektif
  • Berbagai optimasi matematis seperti torch.compile, float16, MLX, dan lainnya memberi peningkatan performa yang kecil, lebih rendah dari harapan, atau bahkan justru menurunkannya
  • Akumulasi gradien berguna untuk pengelolaan memori, tetapi dalam praktiknya menyebabkan penurunan kecepatan yang signifikan
  • Agar efisien, model harus bisa melakukan update bobot dengan cepat di memori internal

Pemilihan dataset

  • Dengan jumlah token yang terbatas (sekitar 10~20M), percobaan awal menggunakan data wiki bahasa Inggris sederhana seperti Simple English Wikipedia menghasilkan konsistensi gramatikal, tetapi kurang konsisten secara makna
    • Karena berpusat pada nama diri dan daftar fakta yang terasa dipaksakan, ada batasan dalam menghasilkan konten yang bermakna
  • Saat menggunakan dataset TinyStories, hasilnya jauh lebih konsisten dan bermakna karena struktur ceritanya jelas dan bahasanya sederhana
    • Ini adalah cerita setingkat anak usia 4 tahun, sehingga bahkan model kecil pun dapat mempelajarinya dengan baik

Tokenizer dan tokenisasi

  • Training tokenizer tidak dihitung dalam 5 menit, dan karena skala datanya kecil, kebutuhan optimasinya juga rendah
  • Mempelajari token multibyte lebih mudah bagi model

Eksperimen arsitektur model

  • Menggunakan arsitektur transformer (gaya GPT-2)

    • Hyperparameter seperti 2~3 layer, fungsi aktivasi SwiGLU, positional embedding, dan lainnya disesuaikan
    • LSTM memiliki performa yang cukup dekat, tetapi transformer lebih unggul dari sisi perplexity
    • Dropout, mixture-of-experts, dan sejenisnya tidak efisien pada ukuran sekecil ini
    • Curriculum learning hampir tidak memberi efek karena waktu pelatihannya terlalu singkat
  • Percobaan dengan model diffusion (D3PM)

    • Karena bahasa alami terdiri dari token diskret, proses difusi hanya menghasilkan token acak yang tidak bermakna dan akhirnya gagal
    • Dibanding transformer atau LSTM, model ini sulit membentuk struktur kalimat dengan cepat

Hubungan ukuran model dan throughput token/detik

  • Model dengan 1M~2M parameter adalah sweet spot yang paling ideal
    • Jika terlalu besar, model tidak bisa konvergen dalam 5 menit; jika terlalu kecil, batas performanya langsung tercapai saat training
  • Hukum penskalaan Chinchilla secara umum sejalan dengan hasil eksperimen
    • Ukuran model ideal adalah total token pelatihan/20, dan hal ini juga terkonfirmasi dalam eksperimen tersebut

Kesimpulan dan implikasi

  • Bahkan dengan waktu yang sangat singkat dan perangkat keras kecil, melatih model storytelling yang konsisten itu mungkin dilakukan
  • Pelatihan 5 menit memang tidak cocok untuk mengembangkan model yang kuat, tetapi tetap bermakna untuk eksperimen desain model kecil dan ultra-ringan serta optimasi hardware dan arsitektur
  • Seiring perkembangan GPU laptop dan struktur model di masa depan, ada kemungkinan performa model yang bisa dilatih hanya dalam beberapa menit akan terus meningkat

Belum ada komentar.

Belum ada komentar.