- Model bahasa bermasking seperti BERT dan RoBERTa juga dapat ditafsirkan sebagai konsep model difusi teks.
- Berbeda dari model autoregressive (misalnya GPT), dibuktikan kemungkinan penerapan generasi berbasis blok dan metode pemulihan bertahap.
- Dengan melatih sambil menyesuaikan tingkat masking per tahap, eksperimen menunjukkan RoBERTa juga mampu menghasilkan teks yang natural.
- Tanpa mengubah struktur yang ada, kemampuan generatif tetap dapat diperoleh hanya dengan menyesuaikan tujuan pelatihan.
- Dibandingkan GPT-2, model difusi berbasis RoBERTa juga menghasilkan hasil teks yang cukup konsisten.
Ikhtisar
Model Gemini Diffusion yang dipublikasikan oleh Google DeepMind berbeda dari keluarga GPT, karena ini adalah model bahasa berbasis difusi yang menghasilkan teks secara blok sekaligus. Pendekatan ini memproduksi teks dengan memurnikan noise acak secara bertahap. Setelah meninjau makalah terkait (Large Language Diffusion Models), ditemukan bahwa difusi bahasa diskrit memang merupakan generalisasi dari masked language modeling (MLM). Dengan kata lain, tulisan ini secara eksperimental mengeksplorasi apakah model-model keluarga BERT juga dapat menghasilkan teks menggunakan gagasan tersebut.
Catatan: Paper DiffusionBERT selanjutnya memeriksa secara lebih ketat ide yang serupa.
Sejarah Singkat Transformer
Transformer yang pertama kali diusulkan pada 2017 menggunakan struktur encoder-decoder. Pada 2018, muncul pemisahan antara encoder (BERT: bi-directional, berfokus pada pemulihan bermasking) dan decoder (GPT: autoregressive, berfokus prediksi sekuensial) yang akhirnya membentuk dua keluarga model khusus.
- Encoder murni (keluarga BERT)
- Menerima seluruh konteks sebagai input, menyembunyikan sebagian bagian dengan
<MASK>, lalu memulihkannya dari token lain - Kuat pada representasi kalimat, klasifikasi, dan seterusnya
- Menerima seluruh konteks sebagai input, menyembunyikan sebagian bagian dengan
- Decoder murni (keluarga GPT)
- Memprediksi token berikutnya dari urutan yang diberikan
- Menonjol pada tugas-tugas generasi, ringkasan, dan terjemahan
BERT langsung digunakan untuk klasifikasi dan sejenisnya, tetapi kemudian keluarga GPT menguat dengan peningkatan kemampuan generatifnya sehingga memperoleh lebih banyak kasus penggunaan.
Model Difusi Bahasa Diskrit
Model difusi semula menjadi populer pada generasi gambar.
Pada kasus gambar:
- Proses maju: Menambahkan Gaussian noise secara bertahap ke gambar bersih hingga mencapai keadaan noise murni
- Proses balik: Merevisi kembali data asli melalui denoising bertahap menggunakan model deep learning
Saat diterapkan pada teks, pendekatan paling sederhana adalah proses noise berbasis masking.
- Proses maju (masking)
- Pada t=0 dimulai dari teks asli; semakin tinggi langkah, semakin banyak token yang diganti acak dengan
<MASK> - Pada langkah akhir seluruh token terganti
<MASK>
- Pada t=0 dimulai dari teks asli; semakin tinggi langkah, semakin banyak token yang diganti acak dengan
- Proses balik (denoising)
- Transformer encoder dilatih untuk memulihkan token asli berdasarkan pengaturan masking yang diberikan
- Saat rasio masking rendah, pemulihan lebih mudah; semakin tinggi rasio, semakin sulit
- Dengan mengulang dari rasio masking tinggi ke rendah, urutan penuh dapat dihasilkan
Dalam kerangka difusi ini, model dilatih dengan menjumlahkan kerugian denoising pada setiap tahap rasio masking. Tujuan pemulihan masking milik BERT pada dasarnya merupakan bagian dari difusi teks. Dengan menggabungkan jadwal rasio masking dan denoising berulang, tujuan BERT dapat diperluas menjadi prosedur generasi bahasa alami.
Eksperimen RoBERTa Diffusion
RoBERTa diperkenalkan pada 2019 dengan karakteristik perluasan hiperparameter dan data dibanding BERT, serta tujuan pelatihan yang lebih sederhana (MLM Only).
Pada eksperimen ini, digunakan bobot dasar RoBERTa, tokenizer, dan Trainer melalui pustaka HuggingFace transformers dan datasets.
Fine-tuning pada dataset WikiText dilakukan dengan alur berikut:
- Dari jadwal difusi 10 langkah (mask_probs: 1.0~0.1), satu dipilih secara acak untuk setiap batch agar proses masking terjadi
- Dengan
diffusion_collatorkustom, setelah menentukan probabilitas masking,<MASK>diterapkan secara probabilistik pada setiap token - Untuk menjaga konteks prompt, 16 token pertama selalu dipertahankan
Data masking (collator kustom):
- Setelah padding setiap kumpulan token, probabilitas masking dipilih secara acak
- Terapkan
<MASK>secara probabilistik pada token selain 16 token pertama - Mengembalikan data termask dan label kebenaran
Generasi (inference):
- Input berupa urutan sepanjang 256 token: 16 token pertama sebagai prompt, sisanya
<MASK> - Pada setiap langkah, sampling token yang diprediksi model untuk mengisinya, lalu remasking beberapa token dengan persentase tertentu
- Ulangi dengan menurunkan rasio masking secara bertahap hingga akhirnya seluruh token dipulihkan
Contoh hasil generasi:
- Dengan prompt dan teks lanjutan yang natural, model menghasilkan teks yang cukup konsisten
- Beberapa keanehan disebabkan oleh format pra-pemrosesan dataset WikiText (misalnya bentuk tanda hubung
@-@)
Perbandingan dengan GPT-2
- GPT-2 sedikit lebih cepat dan konsistensinya lebih tinggi, namun RoBERTa Diffusion juga menunjukkan performa yang lebih baik dari yang diharapkan (terlihat potensi perbaikan bertahap yang tinggi)
- Pendekatan baru seperti AR-Diffusion dan Skip-Step Diffusion serta optimasi dapat meningkatkan kualitas dan kecepatan
Kesimpulan
- Model bahasa bermasking yang didesain seperti RoBERTa, jika dilatih sambil menyesuaikan rasio masking secara bertahap, dapat menjadi mesin generasi bahasa alami
- Hanya dengan skema pelatihan yang secara bertahap mendistorsi dan memulihkan teks menggunakan token
<MASK>, terbukti dimungkinkan untuk mengonversinya menjadi model yang sepenuhnya generatif - Tanpa mengubah struktur itu sendiri, kemampuan generatif dapat diperoleh dengan memodifikasi tujuan pelatihan saja
- Pada akhirnya, model keluarga BERT juga pada intinya merupakan satu model difusi teks
Belum ada komentar.