Differential Transformer
(arxiv.org)-
Transformer sering cenderung mengalokasikan perhatian berlebihan pada konteks yang tidak relevan.
-
Diff Transformer mengusulkan pendekatan baru yang memperkuat perhatian terhadap konteks yang relevan dan menghilangkan noise.
-
Mekanisme perhatian diferensial
- Skor perhatian dihitung melalui selisih antara dua peta perhatian softmax yang terpisah.
- Pengurangan ini menghilangkan noise dan mendorong munculnya pola perhatian yang jarang.
-
Hasil eksperimen
- Dalam eksperimen language modeling, Diff Transformer menunjukkan kinerja yang lebih unggul daripada Transformer pada berbagai ukuran model dan pengaturan token pelatihan.
- Dalam aplikasi praktis, model ini memberikan manfaat yang menonjol pada pemodelan konteks panjang, pencarian informasi inti, mitigasi halusinasi, pembelajaran dalam konteks, dan pengurangan outlier aktivasi.
-
Keunggulan praktis
- Karena lebih sedikit terganggu oleh konteks yang tidak relevan, model ini dapat mengurangi halusinasi dalam tanya jawab dan peringkasan teks.
- Selain meningkatkan akurasi dalam pembelajaran dalam konteks, model ini juga meningkatkan ketahanan terhadap perubahan urutan.
-
Kesimpulan
- Diff Transformer memantapkan diri sebagai arsitektur yang sangat efektif dan menjanjikan untuk memajukan large language model.
Ringkasan GN⁺
- Diff Transformer adalah arsitektur baru yang diusulkan untuk mengatasi keterbatasan Transformer, dengan fokus pada memperkuat perhatian terhadap konteks yang relevan dan menghilangkan noise yang tidak perlu.
- Studi ini menyoroti peningkatan kinerja large language model, khususnya manfaatnya dalam aplikasi praktis seperti pemodelan konteks panjang.
- Dengan lebih sedikit terganggu oleh konteks yang tidak relevan, model ini membantu mengurangi halusinasi serta meningkatkan akurasi dan ketahanan pembelajaran dalam konteks.
1 komentar
Pendapat Hacker News
Mekanisme perhatian softmax biasa kesulitan menetapkan bobot perhatian yang mendekati 0 untuk informasi yang tidak relevan. Metode baru ini mengatasi hal tersebut, tetapi juga dapat menimbulkan kemungkinan bobot perhatian negatif. Sulit memahami bagaimana jaringan menyelesaikan hal ini
Pekerjaan detail seperti ini sangat menarik. Perubahannya kecil sehingga mudah diterapkan oleh orang lain. Namun, kalimat terakhir pada bagian "2 Differential Transformer" kurang jelas sehingga dapat memengaruhi perbandingan
Dalam dunia baru machine learning, membingungkan mengapa metode seperti ini berhasil. Analogi headphone peredam bising membantu, tetapi di sini sinyal dan noise tidak bisa dibedakan dengan jelas
Differential attention menghilangkan noise perhatian dengan menggunakan selisih antara dua fungsi perhatian softmax. Arsitektur ini menggunakan memori perhatian dua kali lipat untuk model dengan kualitas lebih tinggi, atau menggunakan lebih sedikit parameter pada kualitas yang serupa
Jika dua kelompok perhatian mempelajari hal yang sama, attention mask akan saling dikurangkan sehingga perhatian turun ke 0 dan loss menjadi tinggi. Untuk menurunkan loss, keduanya harus mempelajari hal yang berbeda. Satu kelompok mempelajari strategi untuk fokus pada konteks yang relevan, dan kelompok lainnya pada konteks yang tidak relevan
Pengaturan λᵢₙᵢₜ = 0.8 − 0.6 × exp(−0.3 · (l − 1)) bekerja dengan baik secara empiris. Ingin tahu latar belakang rumus ini
Ingin tahu seberapa berharganya penghilangan noise posisi. Ingin melihat tabel perbandingan antara versi alibi dan baseline alibi. Selamat kepada para peneliti
Ingin tahu apa yang hilang di sini. Ingin tahu dampaknya terhadap kreativitas atau kemampuan interpolasi antarkonsep. Terasa bahwa halusinasi dan kreativitas sangat berkaitan
Penyelesaian masalahnya bagus, tetapi pendekatannya menurut saya keliru. Kita perlu memahami keseluruhan konteks secara hierarkis. Jika vektor perbedaan dihitung dari input yang sama dengan vektor perhatian, kita tidak bisa tahu bagaimana cara mengoreksi vektor perhatian dengan tepat
Ingin tahu apakah softmax yang tidak bisa mendorong nilai ke 0 dapat menghasilkan 0 jika dua peta softmax dikurangkan