3 poin oleh GN⁺ 2023-09-13 | 1 komentar | Bagikan ke WhatsApp
  • Saat Llama 2 7B difine-tune pada contoh klasifikasi resep, hasilnya 95% cocok dengan label GPT-4 berdasarkan set uji
  • Fine-tuning adalah cara melatih bobot model dengan cara kerja tugas yang diinginkan melalui contoh input/output; bisa dilakukan dengan 50 contoh, tetapi biasanya menargetkan 1.000 contoh atau lebih
  • Prompt unggul untuk iterasi cepat dan pengoperasian satu model besar, tetapi fine-tuning memungkinkan model kecil pun disesuaikan dengan kuat untuk tugas tertentu
  • Llama 7B yang difine-tune memiliki biaya per token 50 kali lebih murah daripada GPT-3.5, sehingga pada tugas yang cukup sempit, rasio biaya terhadap performanya bisa meningkat jauh
  • Biaya klasifikasi 2 juta resep adalah 23 ribu dolar AS dengan GPT-4 dan lebih dari 1.000 dolar AS dengan GPT-3.5, sedangkan model fine-tuning tersebut memproses seluruh dataset hanya dengan 19 dolar AS

Titik Perbedaan Fine-tuning dan Prompt

  • Di tengah meningkatnya minat terhadap fine-tuning LLM terbuka di Hacker News, satu set notebook untuk contoh klasifikasi resep telah dirilis
    • Notebook tersedia di contoh OpenPipe, dan membahas pelabelan data, fine-tuning, menjalankan inferensi secara efisien, serta evaluasi biaya/performa
  • Fine-tuning dapat dilihat sebagai bentuk instruksi yang lebih kuat dibanding prompt
    • Alih-alih memasukkan instruksi teks ke dalam prompt setiap kali, cara kerja tugas dilatih ke dalam model itu sendiri melalui pasangan contoh input/output
    • Bisa bekerja hanya dengan 50 contoh, tetapi jika memungkinkan lebih disukai mengumpulkan 1.000 contoh atau lebih
  • Prompt masih memiliki keunggulan besar dalam operasi dan eksperimen
    • Instruksi dapat diiterasi dan diperbaiki dengan lebih mudah dan cepat tanpa pelabelan dan pelatihan ulang
    • Dari sisi operasional, menerapkan satu model besar lalu hanya menyesuaikan perilakunya lebih sederhana daripada menerapkan beberapa model fine-tuning kecil
    • Model-model fine-tuning kecil masing-masing berpotensi memiliki tingkat pemakaian yang rendah

Contoh Biaya·Performa dan OpenPipe

  • Manfaat terbesar fine-tuning adalah kemampuannya mengarahkan perilaku model dengan lebih efektif sehingga dapat menggunakan model kecil
    • Model kecil dapat meningkatkan kecepatan respons dan menurunkan biaya inferensi
    • Model Llama 7B yang difine-tune 50 kali lebih murah daripada GPT-3.5 berdasarkan biaya per token
  • Contoh klasifikasi resep membandingkan biaya untuk 2 juta resep dari dataset all-recipes
    • Jika diklasifikasikan dengan GPT-4, biayanya 23 ribu dolar AS
    • Dengan GPT-3.5 pun, biayanya lebih dari 1.000 dolar AS
    • Model yang difine-tune menghasilkan performa yang mirip dengan GPT-4, dengan biaya menjalankan seluruh dataset sebesar 19 dolar AS
  • Pada set uji, model 7B yang dilatih 95% cocok dengan label GPT-4
    • Pada 5% kasus yang tidak cocok, jawabannya sering kali memang ambigu
  • OpenPipe adalah produk open-source yang membantu engineer mengadopsi fine-tuning dengan lebih mudah
    • Proyek ini tersedia di repositori GitHub OpenPipe
    • Informasi fine-tuning yang diberikan itu sendiri tidak bergantung pada produk OpenPipe

1 komentar

 
GN⁺ 2023-09-13
Komentar Hacker News
  • Artikel tentang penggunaan fine-tuning model Llama 2 sebagai alternatif GPT-3.5/4
  • Beberapa pengguna menemukan bahwa untuk tugas terjemahan, GPT-3.5 100 kali lebih murah daripada Llama 2, dan Llama 7B memberikan hasil terjemahan yang buruk
  • Strategi harga OpenAI yang agresif untuk GPT-3.5 diduga sebagai upaya mendorong ketergantungan pada model mereka dibanding penyedia lain
  • Dibahas kemungkinan menggunakan output dari GPT dan LLM lain untuk melatih model pengganti internal, yang bisa menjadi solusi hemat biaya bagi mereka yang memakai API reguler pada skala produksi
  • Muncul keraguan atas klaim bahwa model Llama 7B yang di-fine-tune 50 kali lebih murah daripada GPT-3.5; beberapa pengguna menyarankan itu hanya bisa dicapai lewat self-hosting
  • Dipertanyakan efektivitas fine-tuning dibanding LoRA
  • Beberapa pengguna berpendapat bahwa perbandingan antara model Llama yang di-fine-tune dan GPT-3.5 menyesatkan, dengan mengutip masalah pencapaian latensi inferensi yang memadai dan skalabilitas
  • Kualitas model Llama 2 yang di-fine-tune belum tentu lebih baik daripada ChatGPT; fine-tuning memerlukan dataset berkualitas tinggi yang tidak mudah dibangun
  • Dipertanyakan konsistensi dan tingkat kesalahan pada function calling GPT
  • Pengguna penasaran LLM open-source mana yang terbaik untuk di-fine-tune menjadi model mereka sendiri
  • Diminta kejelasan apakah dataset fine-tuning harus berupa pasangan input/output atau bisa bersifat autoregresif
  • Pengguna tertarik pada materi untuk mempelajari cara melakukan fine-tuning pada model-model ini, terutama untuk pemula
  • Artikel ini dianggap sebagai sumber yang berharga bagi orang-orang yang baru mulai di bidang ML/LLM.