1 poin oleh GN⁺ 2024-06-09 | 1 komentar | Bagikan ke WhatsApp

σ-GPTs: Pendekatan Baru untuk Model Autoregresif

Gambaran umum

  • Model autoregresif (keluarga GPT) umumnya menghasilkan sekuens dalam urutan tetap (biasanya dari kiri ke kanan).
  • Makalah ini menunjukkan bahwa dengan menambahkan encoding posisi pada output, urutan ini dapat diatur secara dinamis untuk setiap sampel.
  • Dengan ini, subset token arbitrer dapat di-sampling dan dikondisikan, serta beberapa token dapat di-sampling secara dinamis sekaligus sesuai strategi penolakan.
  • Hasilnya, jumlah evaluasi model dapat dikurangi menjadi sub-linear.

Poin utama

  • Penambahan encoding posisi: Dengan menambahkan encoding posisi pada output, urutan pembangkitan sekuens dapat diatur secara dinamis.
  • Evaluasi di berbagai domain: Evaluasi dilakukan di berbagai domain seperti language modeling, pemecahan lintasan, dan prediksi kecepatan vertikal pesawat.
  • Peningkatan efisiensi: Berhasil mengurangi jumlah langkah yang dibutuhkan untuk generasi sebesar satu orde dimensi.

Opini GN⁺

  • Inovasi teknis: Dengan memungkinkan pengaturan urutan dinamis alih-alih urutan tetap yang ada sebelumnya, fleksibilitas dan efisiensi model meningkat secara signifikan.
  • Aplikasi praktis: Hasil evaluasi di berbagai domain menunjukkan bahwa pendekatan ini memiliki potensi tinggi untuk aplikasi praktis.
  • Peningkatan kinerja: Kinerja dapat ditingkatkan secara signifikan melalui evaluasi model sub-linear.
  • Arah riset masa depan: Ada kemungkinan untuk menerapkan pendekatan ini pada jenis model lain atau masalah yang lebih kompleks.
  • Sudut pandang kritis: Pengaturan urutan dinamis mungkin tidak selalu menjamin hasil yang optimal dalam semua situasi. Diperlukan riset dan verifikasi tambahan.

1 komentar

 
GN⁺ 2024-06-09
Komentar Hacker News
  • Komentar pertama: Penulis melatih model dengan mengacak token input dan menambahkan dua pengodean posisi. Modifikasi sederhana ini memungkinkan model memprediksi token secara paralel tanpa bergantung pada urutan.
  • Komentar kedua: Riset ini menggunakan pendekatan yang mirip dengan makalah Taylorformer. Ini membantu untuk memprediksi proses kontinu seperti data deret waktu.
  • Komentar ketiga: Sangat disayangkan riset sebelumnya tidak dikutip. Riset ini sudah dipresentasikan di ICML dan memiliki sekitar 250 sitasi.
  • Komentar keempat: Konsep ini terlihat mirip dengan dinamika model generasi gambar. Pendekatan di mana ide besar muncul lebih dulu lalu detail terisi secara alami tampaknya berguna.
  • Komentar kelima: Ada video di Twitter yang menghasilkan teks. (tautan disediakan)
  • Komentar keenam: Saya sangat menyukai kemampuan yang ditawarkan makalah ini. Sepertinya memungkinkan berbagai eksperimen seperti pembuatan JSON, menghasilkan deskripsi dengan panjang tertentu, dan lain-lain.
  • Komentar ketujuh: Pendekatan ini tampaknya akan sangat membantu khususnya untuk pembuatan kode komputer. Output saat ini bisa berubah tergantung pada apa yang akan ditulis nanti.
  • Komentar kedelapan: Ini tampak seperti menerapkan pembelajaran Vision Transformer ke transformer bahasa. Mirip dengan cara model visi membagi gambar menjadi tile dan menambahkan pengodean posisi.
  • Komentar kesembilan: Saya penasaran di mana kodenya. Saya belum sepenuhnya memahami posisi ganda dan pengacakan. Menarik bahwa mereka menggunakan concat pada pengodean posisi.
  • Komentar kesepuluh: BERT menggunakan masking acak dalam sekuens, tetapi waktu bersifat berurutan.