Mengganti GPT-3.5/4 dengan Llama 2 yang Difine-tune Sendiri

(news.ycombinator.com)

3 poin oleh GN⁺ 2023-09-13 | 1 komentar | Bagikan ke WhatsApp

Saat Llama 2 7B difine-tune pada contoh klasifikasi resep, hasilnya 95% cocok dengan label GPT-4 berdasarkan set uji
Fine-tuning adalah cara melatih bobot model dengan cara kerja tugas yang diinginkan melalui contoh input/output; bisa dilakukan dengan 50 contoh, tetapi biasanya menargetkan 1.000 contoh atau lebih
Prompt unggul untuk iterasi cepat dan pengoperasian satu model besar, tetapi fine-tuning memungkinkan model kecil pun disesuaikan dengan kuat untuk tugas tertentu
Llama 7B yang difine-tune memiliki biaya per token 50 kali lebih murah daripada GPT-3.5, sehingga pada tugas yang cukup sempit, rasio biaya terhadap performanya bisa meningkat jauh
Biaya klasifikasi 2 juta resep adalah 23 ribu dolar AS dengan GPT-4 dan lebih dari 1.000 dolar AS dengan GPT-3.5, sedangkan model fine-tuning tersebut memproses seluruh dataset hanya dengan 19 dolar AS

Titik Perbedaan Fine-tuning dan Prompt

Di tengah meningkatnya minat terhadap fine-tuning LLM terbuka di Hacker News, satu set notebook untuk contoh klasifikasi resep telah dirilis
- Notebook tersedia di contoh OpenPipe, dan membahas pelabelan data, fine-tuning, menjalankan inferensi secara efisien, serta evaluasi biaya/performa
Fine-tuning dapat dilihat sebagai bentuk instruksi yang lebih kuat dibanding prompt
- Alih-alih memasukkan instruksi teks ke dalam prompt setiap kali, cara kerja tugas dilatih ke dalam model itu sendiri melalui pasangan contoh input/output
- Bisa bekerja hanya dengan 50 contoh, tetapi jika memungkinkan lebih disukai mengumpulkan 1.000 contoh atau lebih
Prompt masih memiliki keunggulan besar dalam operasi dan eksperimen
- Instruksi dapat diiterasi dan diperbaiki dengan lebih mudah dan cepat tanpa pelabelan dan pelatihan ulang
- Dari sisi operasional, menerapkan satu model besar lalu hanya menyesuaikan perilakunya lebih sederhana daripada menerapkan beberapa model fine-tuning kecil
- Model-model fine-tuning kecil masing-masing berpotensi memiliki tingkat pemakaian yang rendah

Contoh Biaya·Performa dan OpenPipe

Manfaat terbesar fine-tuning adalah kemampuannya mengarahkan perilaku model dengan lebih efektif sehingga dapat menggunakan model kecil
- Model kecil dapat meningkatkan kecepatan respons dan menurunkan biaya inferensi
- Model Llama 7B yang difine-tune 50 kali lebih murah daripada GPT-3.5 berdasarkan biaya per token
Contoh klasifikasi resep membandingkan biaya untuk 2 juta resep dari dataset all-recipes
- Jika diklasifikasikan dengan GPT-4, biayanya 23 ribu dolar AS
- Dengan GPT-3.5 pun, biayanya lebih dari 1.000 dolar AS
- Model yang difine-tune menghasilkan performa yang mirip dengan GPT-4, dengan biaya menjalankan seluruh dataset sebesar 19 dolar AS
Pada set uji, model 7B yang dilatih 95% cocok dengan label GPT-4
- Pada 5% kasus yang tidak cocok, jawabannya sering kali memang ambigu
OpenPipe adalah produk open-source yang membantu engineer mengadopsi fine-tuning dengan lebih mudah
- Proyek ini tersedia di repositori GitHub OpenPipe
- Informasi fine-tuning yang diberikan itu sendiri tidak bergantung pada produk OpenPipe

1 komentar

GN⁺ 2023-09-13

Komentar Hacker News

Artikel tentang penggunaan fine-tuning model Llama 2 sebagai alternatif GPT-3.5/4
Beberapa pengguna menemukan bahwa untuk tugas terjemahan, GPT-3.5 100 kali lebih murah daripada Llama 2, dan Llama 7B memberikan hasil terjemahan yang buruk
Strategi harga OpenAI yang agresif untuk GPT-3.5 diduga sebagai upaya mendorong ketergantungan pada model mereka dibanding penyedia lain
Dibahas kemungkinan menggunakan output dari GPT dan LLM lain untuk melatih model pengganti internal, yang bisa menjadi solusi hemat biaya bagi mereka yang memakai API reguler pada skala produksi
Muncul keraguan atas klaim bahwa model Llama 7B yang di-fine-tune 50 kali lebih murah daripada GPT-3.5; beberapa pengguna menyarankan itu hanya bisa dicapai lewat self-hosting
Dipertanyakan efektivitas fine-tuning dibanding LoRA
Beberapa pengguna berpendapat bahwa perbandingan antara model Llama yang di-fine-tune dan GPT-3.5 menyesatkan, dengan mengutip masalah pencapaian latensi inferensi yang memadai dan skalabilitas
Kualitas model Llama 2 yang di-fine-tune belum tentu lebih baik daripada ChatGPT; fine-tuning memerlukan dataset berkualitas tinggi yang tidak mudah dibangun
Dipertanyakan konsistensi dan tingkat kesalahan pada function calling GPT
Pengguna penasaran LLM open-source mana yang terbaik untuk di-fine-tune menjadi model mereka sendiri
Diminta kejelasan apakah dataset fine-tuning harus berupa pasangan input/output atau bisa bersifat autoregresif
Pengguna tertarik pada materi untuk mempelajari cara melakukan fine-tuning pada model-model ini, terutama untuk pemula
Artikel ini dianggap sebagai sumber yang berharga bagi orang-orang yang baru mulai di bidang ML/LLM.

Mengganti GPT-3.5/4 dengan Llama 2 yang Difine-tune Sendiri

Titik Perbedaan Fine-tuning dan Prompt

Contoh Biaya·Performa dan OpenPipe

Bacaan terkait

1 komentar

Komentar Hacker News