1 poin oleh GN⁺ 2024-10-09 | 1 komentar | Bagikan ke WhatsApp
  • Transformer sering cenderung mengalokasikan perhatian berlebihan pada konteks yang tidak relevan.

  • Diff Transformer mengusulkan pendekatan baru yang memperkuat perhatian terhadap konteks yang relevan dan menghilangkan noise.

  • Mekanisme perhatian diferensial

    • Skor perhatian dihitung melalui selisih antara dua peta perhatian softmax yang terpisah.
    • Pengurangan ini menghilangkan noise dan mendorong munculnya pola perhatian yang jarang.
  • Hasil eksperimen

    • Dalam eksperimen language modeling, Diff Transformer menunjukkan kinerja yang lebih unggul daripada Transformer pada berbagai ukuran model dan pengaturan token pelatihan.
    • Dalam aplikasi praktis, model ini memberikan manfaat yang menonjol pada pemodelan konteks panjang, pencarian informasi inti, mitigasi halusinasi, pembelajaran dalam konteks, dan pengurangan outlier aktivasi.
  • Keunggulan praktis

    • Karena lebih sedikit terganggu oleh konteks yang tidak relevan, model ini dapat mengurangi halusinasi dalam tanya jawab dan peringkasan teks.
    • Selain meningkatkan akurasi dalam pembelajaran dalam konteks, model ini juga meningkatkan ketahanan terhadap perubahan urutan.
  • Kesimpulan

    • Diff Transformer memantapkan diri sebagai arsitektur yang sangat efektif dan menjanjikan untuk memajukan large language model.

Ringkasan GN⁺

  • Diff Transformer adalah arsitektur baru yang diusulkan untuk mengatasi keterbatasan Transformer, dengan fokus pada memperkuat perhatian terhadap konteks yang relevan dan menghilangkan noise yang tidak perlu.
  • Studi ini menyoroti peningkatan kinerja large language model, khususnya manfaatnya dalam aplikasi praktis seperti pemodelan konteks panjang.
  • Dengan lebih sedikit terganggu oleh konteks yang tidak relevan, model ini membantu mengurangi halusinasi serta meningkatkan akurasi dan ketahanan pembelajaran dalam konteks.

1 komentar

 
GN⁺ 2024-10-09
Pendapat Hacker News
  • Mekanisme perhatian softmax biasa kesulitan menetapkan bobot perhatian yang mendekati 0 untuk informasi yang tidak relevan. Metode baru ini mengatasi hal tersebut, tetapi juga dapat menimbulkan kemungkinan bobot perhatian negatif. Sulit memahami bagaimana jaringan menyelesaikan hal ini

  • Pekerjaan detail seperti ini sangat menarik. Perubahannya kecil sehingga mudah diterapkan oleh orang lain. Namun, kalimat terakhir pada bagian "2 Differential Transformer" kurang jelas sehingga dapat memengaruhi perbandingan

  • Dalam dunia baru machine learning, membingungkan mengapa metode seperti ini berhasil. Analogi headphone peredam bising membantu, tetapi di sini sinyal dan noise tidak bisa dibedakan dengan jelas

  • Differential attention menghilangkan noise perhatian dengan menggunakan selisih antara dua fungsi perhatian softmax. Arsitektur ini menggunakan memori perhatian dua kali lipat untuk model dengan kualitas lebih tinggi, atau menggunakan lebih sedikit parameter pada kualitas yang serupa

    • DIFF Transformer berukuran 6.8B mencapai validation loss yang mirip dengan Transformer berukuran 11B, dengan hanya membutuhkan 62.2% parameter
    • Ingin tahu apakah dengan hanya 60% parameter, profil memorinya tetap mirip dengan transformer tradisional
    • Ingin tahu apakah trade-off ini berubah secara nyata antara pelatihan dan inferensi
  • Jika dua kelompok perhatian mempelajari hal yang sama, attention mask akan saling dikurangkan sehingga perhatian turun ke 0 dan loss menjadi tinggi. Untuk menurunkan loss, keduanya harus mempelajari hal yang berbeda. Satu kelompok mempelajari strategi untuk fokus pada konteks yang relevan, dan kelompok lainnya pada konteks yang tidak relevan

  • Pengaturan λᵢₙᵢₜ = 0.8 − 0.6 × exp(−0.3 · (l − 1)) bekerja dengan baik secara empiris. Ingin tahu latar belakang rumus ini

  • Ingin tahu seberapa berharganya penghilangan noise posisi. Ingin melihat tabel perbandingan antara versi alibi dan baseline alibi. Selamat kepada para peneliti

  • Ingin tahu apa yang hilang di sini. Ingin tahu dampaknya terhadap kreativitas atau kemampuan interpolasi antarkonsep. Terasa bahwa halusinasi dan kreativitas sangat berkaitan

  • Penyelesaian masalahnya bagus, tetapi pendekatannya menurut saya keliru. Kita perlu memahami keseluruhan konteks secara hierarkis. Jika vektor perbedaan dihitung dari input yang sama dengan vektor perhatian, kita tidak bisa tahu bagaimana cara mengoreksi vektor perhatian dengan tepat

  • Ingin tahu apakah softmax yang tidak bisa mendorong nilai ke 0 dapat menghasilkan 0 jika dua peta softmax dikurangkan