LANISTR: Kerangka Baru untuk Belajar dari Data Terstruktur dan Tidak Terstruktur

• LANISTR adalah kerangka baru yang memungkinkan pembelajaran multimodal dengan menerima data tidak terstruktur (gambar, teks) dan data terstruktur (deret waktu, tabel), melakukan penyelarasan dan fusi, lalu pada akhirnya menghasilkan prediksi.

• Secara khusus, kerangka ini mengatasi masalah seperti overfitting dan generalisasi yang kurang optimal saat dilatih pada dataset berukuran terbatas, serta masalah hilangnya sebagian modalitas pada data multimodal yang memiliki dua atau lebih modalitas.

• Arsitektur LANISTR terdiri dari encoder per modalitas dan modul encoder-decoder multimodal yang berperan sebagai mekanisme fusi, serta menggunakan cross-attention untuk menangkap hubungan lintas modal.

• Inti metodologi LANISTR berakar pada pelatihan berbasis masking yang diterapkan baik pada tingkat unimodal maupun multimodal, dengan dua jenis tujuan pretraining, yaitu tujuan masking unimodal dan loss masking multimodal berbasis kemiripan.

• LANISTR mencapai hasil mutakhir pada beberapa tugas yang menantang, melampaui baseline kompetitif baik pada dataset medis MIMIC-IV maupun data ulasan Amazon.

• Ini menunjukkan pentingnya mempelajari data terstruktur dan data tidak terstruktur dengan menggunakan data tanpa label dan data berlabel secara bersamaan, serta kemampuan untuk secara aktif menerima semua modalitas apa adanya, memanfaatkan sejumlah besar data tanpa label selama pretraining tanpa pengawasan, dan menangani modalitas yang hilang dengan mulus.

• LANISTR memiliki aplikasi potensial di berbagai bidang, termasuk diagnosis medis dan peramalan permintaan ritel.

LANISTR: Kerangka Baru untuk Belajar dari Data Terstruktur dan Tidak Terstruktur

Bacaan terkait

Belum ada komentar.