Teknik yang Mengungguli Model Bahasa Lebih Besar dengan Data Pelatihan Lebih Sedikit dan Model yang Lebih Kecil

(blog.research.google)

3 poin oleh GN⁺ 2023-09-24 | 1 komentar | Bagikan ke WhatsApp

LLM besar dapat menyelesaikan tugas baru hanya dengan few-shot, tetapi biaya serving-nya tinggi, sehingga tim Google Cloud AI mengusulkan distilling step-by-step yang melatih model kecil khusus tugas bersama rationale bahasa alami
Pendekatan ini mengekstrak penalaran antara dari LLM dengan few-shot Chain-of-Thought(CoT), lalu mengubahnya menjadi pembelajaran multitugas di mana model T5 mempelajari prediksi label dan pembuatan rationale secara bersamaan
Eksperimen menggunakan PaLM 540B sebagai LLM acuan dan T5 sebagai model downstream untuk mengevaluasi tugas inferensi bahasa alami, tanya jawab pengetahuan umum, dan soal cerita aritmetika pada e-SNLI, ANLI, CQA, dan SVAMP
Pada e-SNLI, pendekatan ini menghasilkan kinerja lebih baik daripada fine-tuning standar hanya dengan 12.5% dari seluruh data, dan pada ANLI, T5 770M melampaui kinerja few-shot PaLM 540B dengan 80% data sambil mengurangi ukuran model lebih dari 700 kali
Ini adalah pendekatan yang mengurangi trade-off antara deployment model kecil dan biaya pengumpulan data pelatihan, dan tersedia dalam private preview di Vertex AI

Biaya deployment LLM dan batasan pelatihan model kecil

LLM dapat menangani tugas baru yang belum pernah dilihat melalui prompting zero-shot dan few-shot, tetapi dalam layanan nyata ukuran model menjadi kendala besar
- Untuk melayani satu LLM berukuran 175B, diperlukan setidaknya 350GB memori GPU pada infrastruktur khusus
- LLM mutakhir saat itu dibangun dengan skala lebih dari 500B parameter
Dalam praktik, sering kali yang dideploy adalah model yang lebih kecil dan spesifik tugas, dan biasanya digunakan dua pendekatan
- Fine-tuning: memperbarui model kecil pra-latih seperti BERT atau T5 dengan data downstream berlabel buatan manusia
- Distillation: melatih model kecil dengan label yang dihasilkan oleh LLM yang lebih besar
Kedua pendekatan tetap menyisakan beban biaya
- Fine-tuning memerlukan label buatan manusia sehingga biaya dan beban kerjanya besar
- Distillation memerlukan banyak data tak berlabel, dan data ini juga bisa sulit dikumpulkan

Ide inti dari distilling step-by-step

Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes adalah metode yang bertujuan mengurangi trade-off antara ukuran model dan biaya pengumpulan data pelatihan
distilling step-by-step mengekstrak rationale bahasa alami, yaitu langkah-langkah penalaran antara, dari LLM dan menggunakannya sebagai sinyal supervisi tambahan untuk melatih model kecil
Rationale bahasa alami memperlihatkan hubungan antara pertanyaan masukan dan jawaban keluaran
- Misalnya, ketika diberikan panjang dan lebar ruangan serta luas karpet yang sudah dimiliki, LLM dapat menghasilkan rationale antara seperti “Area = length * width”
- Rationale seperti ini dapat memuat pengetahuan tugas yang seharusnya perlu dipelajari model kecil dari banyak data
Alih-alih hanya mempelajari label, model kecil mempelajari label dan rationale bersama-sama agar dapat menguasai tugas dengan data yang lebih sedikit

Prosedur pelatihan dua tahap

Tahap pertama adalah proses mengekstrak rationale dari LLM dengan few-shot prompting CoT
- Untuk tiap tugas, contoh yang terdiri dari tiga elemen—masukan, rationale, dan keluaran—dimasukkan ke dalam prompt LLM
- LLM mengikuti contoh tersebut untuk menghasilkan rationale bagi masukan baru
Dalam contoh tanya jawab pengetahuan umum, diberikan pertanyaan “Sammy wanted to go to where the people are” beserta pilihannya
- Jawaban yang benar adalah “(a) populated areas”
- Rationalenya memberikan hubungan bahwa tempat itu haruslah lokasi yang memiliki banyak orang, dan di antara pilihan yang ada hanya populated areas yang sesuai
Pada tahap kedua, rationale yang telah diekstrak dimasukkan ke pelatihan model kecil
- Selain tugas prediksi label standar, dipelajari juga tugas pembuatan rationale yang baru
- Prefiks tugas seperti [label] atau [rationale] ditambahkan di depan input model untuk membedakan kedua tugas
- Tugas pembuatan rationale melatih model untuk menghasilkan langkah penalaran antara, yang pada akhirnya mendorong prediksi label yang lebih baik

Pengaturan eksperimen dan pembanding

LLM acuannya adalah PaLM 540B
Untuk model downstream yang spesifik tugas digunakan model T5
Untuk prompting CoT, prompt CoT yang sudah ada digunakan bila memungkinkan, dan untuk dataset baru contohnya disusun secara langsung
Evaluasi dilakukan pada 4 benchmark di 3 tugas NLP
- e-SNLI, ANLI: inferensi bahasa alami
- CQA: tanya jawab pengetahuan umum
- SVAMP: soal cerita aritmetika
Tolok ukur pembanding terbagi menjadi dua jalur
- Untuk membandingkan dengan LLM berbasis prompt few-shot, digunakan few-shot CoT prompting pada PaLM 540B
- Fine-tuning standar dan distillation standar juga dimasukkan sebagai pembanding, meski isi blog lebih berfokus pada perbandingan dengan fine-tuning standar

Melampaui fine-tuning standar dengan data pelatihan yang lebih sedikit

distilling step-by-step menghasilkan kinerja yang lebih baik daripada fine-tuning standar dengan data pelatihan yang jauh lebih sedikit
Pada e-SNLI, pendekatan ini mencapai kinerja yang lebih baik daripada fine-tuning standar yang dilatih dengan seluruh data hanya dengan 12.5% dari keseluruhan dataset
Pada dataset lain juga terjadi pengurangan ukuran data yang dibutuhkan
- ANLI: pengurangan ukuran dataset sebesar 75%
- CQA: pengurangan ukuran dataset sebesar 25%
- SVAMP: pengurangan ukuran dataset sebesar 20%
Perbandingan ini dilakukan menggunakan model T5 220M pada dataset berlabel buatan manusia dengan berbagai ukuran

Melampaui tolok ukur PaLM dengan model deployment yang lebih kecil

distilling step-by-step menghasilkan kinerja yang lebih baik daripada LLM dengan prompt few-shot CoT menggunakan model yang jauh lebih kecil
Pada e-SNLI, model T5 220M mencapai kinerja yang lebih baik daripada PaLM 540B
Pada ANLI, model T5 770M menghasilkan kinerja yang lebih baik daripada PaLM 540B
- Model ini lebih dari 700 kali lebih kecil daripada PaLM
- Model T5 770M yang sama sulit mencapai kinerja PaLM jika hanya menggunakan fine-tuning standar
Ini menunjukkan sekaligus ukuran model yang kecil dan kemampuan melampaui kinerja acuan LLM

Hasil yang sekaligus mengurangi data dan ukuran model

Pada ANLI, distilling step-by-step melampaui kinerja few-shot PaLM 540B hanya dengan T5 770M dan 80% dari seluruh data
Dalam kondisi yang sama, fine-tuning standar tetap tidak dapat menyamai kinerja PaLM meskipun menggunakan 100% dari seluruh data
Melalui eksplorasi kasar, ditentukan ukuran minimum model T5 dan jumlah minimum contoh berlabel manusia yang diperlukan untuk melampaui kinerja few-shot CoT dari LLM
Hasilnya, pendekatan ini sekaligus mengurangi ukuran model deployment dan jumlah data pelatihan yang dibutuhkan untuk melampaui kinerja LLM

Bentuk penyediaan

distilling step-by-step tersedia dalam private preview di Vertex AI
Jika ingin menggunakannya, pengguna diarahkan untuk menghubungi vertex-llm-tuning-preview@google.com dengan menyertakan nomor Google Cloud Project dan ringkasan use case

1 komentar

GN⁺ 2023-09-24

Komentar Hacker News

Sepertinya model spesialis yang lebih kecil akan mendominasi sebagian besar aplikasi. Ada titik optimal dan keseimbangan halus antara ukuran dan kegunaan, dan berbagai mekanisme seperti yang ditunjukkan dalam tulisan itu tampaknya akan menemukan dan mewujudkan titik optimal tersebut
- Model general-purpose yang besar bisa saja terdiri dari beberapa model spesialis kecil dan sebuah model perantara yang menentukan model khusus domain mana yang harus ditanyai
Menarik bahwa mereka memakai T5 untuk model distilasi. Saya kira arsitektur encoder-decoder sedang menuju kepunahan, tetapi tampaknya masih relevan
Menarik juga bahwa ide ini bukan sesuatu yang luar biasa jenius atau sangat di luar pakem. Ini menunjukkan masih banyak buah yang menggantung rendah untuk dieksplorasi, dan masa depan model bahasa besar pun belum ditentukan. Solusi sebenarnya mungkin saja mixture of experts yang dilatih dengan cara seperti ini. Menyenangkan melihat bahwa tujuan yang mendekati cawan suci tampak bisa dicapai jika kita menemukan kombinasi ide yang tepat
- Keluarga T5 itu bagus sekali. FastChat-T5 punya kualitas pembuatan teks yang mengejutkan, misalnya juga bagus untuk chatbot retrieval-augmented generation, dan bisa dijalankan cukup cepat untuk percakapan real-time bahkan di CPU
- Makalah yang disebutkan itu diajukan pada Mei. Arsitektur encoder-decoder masih terlihat cukup masuk akal untuk model multimodal
  Masih banyak buah yang menggantung rendah. Rasanya saya sudah melihat puluhan variasi seperti chain of thought, tree of thought, graph of thought, self-ask, self-critique, self-plan, self-reflect, dan seterusnya
- Saya penasaran mengapa Anda mengira arsitektur encoder-decoder sedang menuju kepunahan
Volume aktivitas dan kemajuan di bidang model bahasa besar/machine learning/kecerdasan buatan benar-benar luar biasa. Terutama dalam situasi ketika hardware seperti Nvidia sangat mahal, optimisasi semacam ini menjadi sangat bernilai
Bukankah ini sama dengan https://arxiv.org/abs/2212.08410 tetapi muncul setahun kemudian?
- Besaran peningkatannya mengesankan, tetapi GSM8K 22% memang sulit menarik perhatian sebagai hasil akhir
Saya bukan peneliti, tetapi saya selalu punya intuisi bahwa model yang paling efektif adalah model multimodal yang dilatih dengan kurikulum inti yang dirancang secara cermat
Kita ingin memastikan sistem memperoleh dan mempertahankan struktur dasar serta keterampilan yang diperlukan untuk melakukan generalisasi secara efektif dan akurat. Caranya seperti memberi banyak data beragam sambil mempertahankan hal-hal itu, agar model belajar pengecualian dan cara mengombinasikan keterampilan. Namun perlu ada cara untuk menjamin keterampilan dan pengetahuan inti itu sampai akhir. Seperti yang dilakukan di makalah tersebut, mungkin ini bisa dilakukan dengan membuat model mengeluarkan bukan hanya jawaban akhir, tetapi juga proses pemahaman atau manipulasinya
Misalnya untuk model pembuat kode, kita bisa meminta model mengeluarkan simulasi state machine dari program yang diminta
- Saya setuju bahwa multimodal adalah arah yang harus dituju, tetapi sama sekali tidak intuitif mengapa kita harus berharap kurikulum perlu dirancang secara cermat. Layak dibandingkan dengan https://gwern.net/scaling-hypothesis
- Jika memikirkan gagasan kurikulum sekolah, saya penasaran apakah urutan data pelatihan membuat perbedaan. Bisa saja hasilnya berbeda tergantung apakah data diberikan dari yang sederhana ke yang kompleks, atau sebaliknya. Gradient descent tentu bisa berakhir di minimum lokal berbeda yang lebih baik atau lebih buruk, bukan?
Pada gambar pertama, saya penasaran mengapa jumlah data pelatihan untuk model bahasa besar lebih sedikit daripada model distilasi dan model khusus tugas
Atau apakah para penulis menghitung jumlah data pelatihan yang dibutuhkan model bahasa besar sebagai bagian dari data pelatihan yang dibutuhkan model distilasi/khusus tugas?
https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEj...
- Benar. Mereka menghitung jumlah data yang harus dikumpulkan sendiri untuk menyelesaikan masalah
  Kita bisa mengambil model bahasa besar yang sudah dipra-latih, dan dalam kasus itu data yang harus saya kumpulkan adalah data yang diperlukan untuk fine-tuning model tersebut
Apakah model-model bahasa besar raksasa itu masih menyisakan banyak kapasitas yang tidak terpakai, atau apakah model bahasa kecil hanya meniru tugas penalaran? Jadi meniru tiruan?
- Tidak ada pembedaan mendasar antara yang nyata dan tiruan
  Dataset yang dipakai untuk melatih model bahasa besar raksasa mengandung banyak noise yang menghambat kemajuan. Selain itu, ada banyak pengetahuan yang tidak relevan sehingga model juga harus mempelajari atau menghafalnya, dan karena itu membutuhkan jumlah parameter yang tidak masuk akal
  Jika tujuannya bukan mengajarkan totalitas pengetahuan manusia kepada model bahasa, melainkan memberikan dataset terkurasi berkualitas tinggi, hambatan skala menjadi jauh lebih rendah
  https://arxiv.org/abs/2305.07759
- Pertanyaan itu tampaknya hampir sama dengan “apakah model bahasa besar raksasa saat ini mendekati optimal”, dan tampaknya jelas tidak
  Saya penasaran ide apa yang ada untuk memperkirakan ukuran optimal
- Model besar lebih baik dalam generalisasi. Model kecil lebih mudah dilatih untuk tugas tertentu
Menarik. Apakah RLHF wajib agar model kecil bisa mencapai performa yang mirip dengan model bahasa besar mutakhir? Masalah terkait struktur output, nada, dan pemahaman domain sepertinya bisa diselesaikan dengan instruction tuning, tetapi saya tidak tahu apakah itu cukup untuk meningkatkan kemampuan penalaran model kecil
Katanya untuk melayani satu model bahasa besar dengan 175 miliar parameter diperlukan setidaknya 350GB memori GPU pada infrastruktur khusus
Apple menjual Mac Studio yang mendukung memori GPU yang bisa digunakan hingga 144GB
Jika mereka merilis Mac Pro dengan lebih dari 300GB dan menguasai pasar serving model bahasa besar, itu akan cukup menarik
- Apakah ada framework yang bisa melakukan batch processing model bahasa besar di Metal? Sepertinya belum ada di GGML atau MLC
  Kalau tidak, itu hanya alasan lain mengapa saat ini belum cocok untuk hosting model bahasa besar
  Bagaimanapun, pihak yang benar-benar bisa mengguncang pasar adalah Intel. Secara teori mereka bisa masuk dengan kartu Arc 2x48GB dan menyasar pasar yang tidak dimasuki AMD/Nvidia karena pelanggan kartu profesional mereka, dengan harga lebih rendah
- Saya berharap keunggulan hardware Apple benar-benar terbuka di generasi M3. Melihat A17 Pro memiliki dukungan ray tracing memberi harapan bahwa mereka bisa cepat mengejar para pemain lama
  Sejujurnya itu satu-satunya alasan yang membuat saya menghindari hardware Apple terbaru. Saya terutama memakai komputer di meja, dan hardware PC, khususnya GPU, jauh melampaui kemampuan produk terbaik Apple. Linux sangat cocok untuk pekerjaan saya, dan setelah pekerjaan selesai saya juga bisa bermain gim, jadi sulit membenarkan pengeluaran hampir 4 ribu dolar
- Saya penasaran siapa yang pertama kali akan meningkatkan kapasitas RAM produk hardware secara drastis untuk merebut basis pengguna model bahasa besar. Tampaknya itu jalan untuk memperoleh pangsa pasar
- Angka itu bahkan belum menerapkan kuantisasi. Jika 175 miliar parameter dikuantisasi ke 4-bit, seharusnya muat dalam sekitar 120GB VRAM. Model 34 miliar parameter dengan kuantisasi 4-bit bahkan muat di satu RTX3090 dengan VRAM 24GB
Saya penasaran apakah Facebook bisa melatih model bahasa besar dengan seluruh riwayat chat semua penggunanya

Teknik yang Mengungguli Model Bahasa Lebih Besar dengan Data Pelatihan Lebih Sedikit dan Model yang Lebih Kecil

Biaya deployment LLM dan batasan pelatihan model kecil

Ide inti dari distilling step-by-step

Prosedur pelatihan dua tahap

Pengaturan eksperimen dan pembanding

Melampaui fine-tuning standar dengan data pelatihan yang lebih sedikit

Melampaui tolok ukur PaLM dengan model deployment yang lebih kecil

Hasil yang sekaligus mengurangi data dan ukuran model

Bentuk penyediaan

Bacaan terkait

1 komentar

Komentar Hacker News