BERT Hanya Menjadi Satu Tahap dalam Model Difusi Teks

(nathan.rs)

3 poin oleh GN⁺ 2025-10-21 | Belum ada komentar. | Bagikan ke WhatsApp

Model bahasa bermasking seperti BERT dan RoBERTa juga dapat ditafsirkan sebagai konsep model difusi teks.
Berbeda dari model autoregressive (misalnya GPT), dibuktikan kemungkinan penerapan generasi berbasis blok dan metode pemulihan bertahap.
Dengan melatih sambil menyesuaikan tingkat masking per tahap, eksperimen menunjukkan RoBERTa juga mampu menghasilkan teks yang natural.
Tanpa mengubah struktur yang ada, kemampuan generatif tetap dapat diperoleh hanya dengan menyesuaikan tujuan pelatihan.
Dibandingkan GPT-2, model difusi berbasis RoBERTa juga menghasilkan hasil teks yang cukup konsisten.

Ikhtisar

Model Gemini Diffusion yang dipublikasikan oleh Google DeepMind berbeda dari keluarga GPT, karena ini adalah model bahasa berbasis difusi yang menghasilkan teks secara blok sekaligus. Pendekatan ini memproduksi teks dengan memurnikan noise acak secara bertahap. Setelah meninjau makalah terkait (Large Language Diffusion Models), ditemukan bahwa difusi bahasa diskrit memang merupakan generalisasi dari masked language modeling (MLM). Dengan kata lain, tulisan ini secara eksperimental mengeksplorasi apakah model-model keluarga BERT juga dapat menghasilkan teks menggunakan gagasan tersebut.

Catatan: Paper DiffusionBERT selanjutnya memeriksa secara lebih ketat ide yang serupa.

Sejarah Singkat Transformer

Transformer yang pertama kali diusulkan pada 2017 menggunakan struktur encoder-decoder. Pada 2018, muncul pemisahan antara encoder (BERT: bi-directional, berfokus pada pemulihan bermasking) dan decoder (GPT: autoregressive, berfokus prediksi sekuensial) yang akhirnya membentuk dua keluarga model khusus.

Encoder murni (keluarga BERT)
- Menerima seluruh konteks sebagai input, menyembunyikan sebagian bagian dengan <MASK>, lalu memulihkannya dari token lain
- Kuat pada representasi kalimat, klasifikasi, dan seterusnya
Decoder murni (keluarga GPT)
- Memprediksi token berikutnya dari urutan yang diberikan
- Menonjol pada tugas-tugas generasi, ringkasan, dan terjemahan

BERT langsung digunakan untuk klasifikasi dan sejenisnya, tetapi kemudian keluarga GPT menguat dengan peningkatan kemampuan generatifnya sehingga memperoleh lebih banyak kasus penggunaan.

Model Difusi Bahasa Diskrit

Model difusi semula menjadi populer pada generasi gambar.
Pada kasus gambar:

Proses maju: Menambahkan Gaussian noise secara bertahap ke gambar bersih hingga mencapai keadaan noise murni
Proses balik: Merevisi kembali data asli melalui denoising bertahap menggunakan model deep learning

Saat diterapkan pada teks, pendekatan paling sederhana adalah proses noise berbasis masking.

Proses maju (masking)
- Pada t=0 dimulai dari teks asli; semakin tinggi langkah, semakin banyak token yang diganti acak dengan <MASK>
- Pada langkah akhir seluruh token terganti <MASK>
Proses balik (denoising)
- Transformer encoder dilatih untuk memulihkan token asli berdasarkan pengaturan masking yang diberikan
- Saat rasio masking rendah, pemulihan lebih mudah; semakin tinggi rasio, semakin sulit
- Dengan mengulang dari rasio masking tinggi ke rendah, urutan penuh dapat dihasilkan

Dalam kerangka difusi ini, model dilatih dengan menjumlahkan kerugian denoising pada setiap tahap rasio masking. Tujuan pemulihan masking milik BERT pada dasarnya merupakan bagian dari difusi teks. Dengan menggabungkan jadwal rasio masking dan denoising berulang, tujuan BERT dapat diperluas menjadi prosedur generasi bahasa alami.

Eksperimen RoBERTa Diffusion

RoBERTa diperkenalkan pada 2019 dengan karakteristik perluasan hiperparameter dan data dibanding BERT, serta tujuan pelatihan yang lebih sederhana (MLM Only).
Pada eksperimen ini, digunakan bobot dasar RoBERTa, tokenizer, dan Trainer melalui pustaka HuggingFace transformers dan datasets.
Fine-tuning pada dataset WikiText dilakukan dengan alur berikut:

Dari jadwal difusi 10 langkah (mask_probs: 1.0~0.1), satu dipilih secara acak untuk setiap batch agar proses masking terjadi
Dengan diffusion_collator kustom, setelah menentukan probabilitas masking, <MASK> diterapkan secara probabilistik pada setiap token
Untuk menjaga konteks prompt, 16 token pertama selalu dipertahankan

Data masking (collator kustom):

Setelah padding setiap kumpulan token, probabilitas masking dipilih secara acak
Terapkan <MASK> secara probabilistik pada token selain 16 token pertama
Mengembalikan data termask dan label kebenaran

Generasi (inference):

Input berupa urutan sepanjang 256 token: 16 token pertama sebagai prompt, sisanya <MASK>
Pada setiap langkah, sampling token yang diprediksi model untuk mengisinya, lalu remasking beberapa token dengan persentase tertentu
Ulangi dengan menurunkan rasio masking secara bertahap hingga akhirnya seluruh token dipulihkan

Contoh hasil generasi:

Dengan prompt dan teks lanjutan yang natural, model menghasilkan teks yang cukup konsisten
Beberapa keanehan disebabkan oleh format pra-pemrosesan dataset WikiText (misalnya bentuk tanda hubung @-@)

Perbandingan dengan GPT-2

GPT-2 sedikit lebih cepat dan konsistensinya lebih tinggi, namun RoBERTa Diffusion juga menunjukkan performa yang lebih baik dari yang diharapkan (terlihat potensi perbaikan bertahap yang tinggi)
Pendekatan baru seperti AR-Diffusion dan Skip-Step Diffusion serta optimasi dapat meningkatkan kualitas dan kecepatan

Kesimpulan

Model bahasa bermasking yang didesain seperti RoBERTa, jika dilatih sambil menyesuaikan rasio masking secara bertahap, dapat menjadi mesin generasi bahasa alami
Hanya dengan skema pelatihan yang secara bertahap mendistorsi dan memulihkan teks menggunakan token <MASK>, terbukti dimungkinkan untuk mengonversinya menjadi model yang sepenuhnya generatif
Tanpa mengubah struktur itu sendiri, kemampuan generatif dapat diperoleh dengan memodifikasi tujuan pelatihan saja
Pada akhirnya, model keluarga BERT juga pada intinya merupakan satu model difusi teks