2 poin oleh GN⁺ 2024-04-08 | Belum ada komentar. | Bagikan ke WhatsApp

Alokasi komputasi dinamis dalam model bahasa berbasis transformer

  • Model bahasa berbasis transformer umumnya mendistribusikan FLOPs (operasi floating-point) secara merata di seluruh sekuens input.
  • Tim peneliti menunjukkan bahwa transformer dapat dilatih untuk mengalokasikan FLOPs secara dinamis ke posisi tertentu.
  • Metode ini mengoptimalkan alokasi untuk sekuens di berbagai layer sepanjang kedalaman model.

Metodologi baru: Mixture-of-Depths

  • Untuk membatasi total anggaran komputasi, jumlah token (k) yang dapat berpartisipasi dalam komputasi self-attention dan MLP dibatasi.
  • Jaringan menggunakan mekanisme routing top-k untuk menentukan token yang akan diproses.
  • Karena k telah ditentukan sebelumnya, metode ini menggunakan graf komputasi statis dengan ukuran tensor yang sudah diketahui, tidak seperti teknik komputasi kondisional lainnya.

Efisiensi dan performa

  • Karena identitas token bersifat dinamis, metode ini dapat menggunakan FLOPs secara tidak merata pada dimensi waktu dan kedalaman model.
  • Pengeluaran komputasi sepenuhnya dapat diprediksi secara total, tetapi pada level token bersifat dinamis dan peka terhadap konteks.
  • Model yang dilatih dengan metode ini tidak hanya mengalokasikan komputasi secara dinamis, tetapi juga secara efisien.
  • Model-model ini menyamai performa baseline dengan FLOPs yang sama dan waktu pelatihan wall-clock yang sama, tetapi hanya membutuhkan sebagian dari FLOPs per forward pass, dan saat sampling setelah pelatihan dapat berjalan hingga 50% lebih cepat.

Opini GN⁺

  • Riset ini membahas topik penting tentang efisiensi di bidang pemrosesan bahasa alami (NLP) dan menawarkan pendekatan baru untuk mengurangi biaya komputasi model transformer.
  • Alokasi komputasi dinamis dapat membantu mengurangi konsumsi energi dan biaya, terutama saat menggunakan model bahasa skala besar.
  • Namun, agar teknologi ini dapat diintegrasikan ke aplikasi nyata, diperlukan validasi dan optimasi tambahan.
  • Riset ini memberikan ide baru bagi komunitas machine learning, dan khususnya dapat memengaruhi deployment model bahasa di lingkungan dengan sumber daya terbatas seperti cloud computing.
  • Dari sudut pandang kritis, diperlukan riset lanjutan untuk mengetahui apakah metode ini akan menunjukkan efek yang sama pada semua jenis model bahasa dan dataset, serta pada jenis tugas apa metode ini lebih efisien.

Belum ada komentar.

Belum ada komentar.