1 poin oleh GN⁺ 2023-12-22 | 1 komentar | Bagikan ke WhatsApp

Koleksi bacaan makalah NLP

  • Koleksi bacaan makalah tentang pemrosesan bahasa alami (NLP) terdiri dari 22 item.
  • Koleksi ini baru-baru ini diperbarui dan berguna untuk memahami tren riset terbaru di bidang NLP.
  • NLP adalah teknologi yang memungkinkan komputer memahami dan memproses bahasa manusia, dengan beragam aplikasi seperti terjemahan mesin, analisis sentimen, dan sistem tanya jawab.

Opini GN⁺

  • Koleksi ini merupakan sumber yang memungkinkan melihat riset terbaru di bidang NLP secara sekilas, sehingga akan sangat berguna bagi peneliti atau pengembang yang tertarik pada NLP.
  • NLP adalah bidang yang berkembang sangat cepat, bahkan di antara teknologi AI, dan melalui koleksi ini pembaca dapat mengenal tren terbaru serta ide-ide inovatif.
  • Teknologi pemrosesan bahasa alami telah terintegrasi secara mendalam ke dalam kehidupan sehari-hari kita, dan melalui koleksi ini kita dapat mengintip arah perkembangan teknologi tersebut serta kemungkinan masa depannya.

1 komentar

 
GN⁺ 2023-12-22
Komentar Hacker News
  • Saya butuh waktu untuk memahami makalah ini, karena makalah ini dibangun di atas teknik dari makalah 'Deja Vu' dan membahas teknik-teknik rumit yang memanfaatkan sparsitas:

    • Makalah 'Deja Vu' mengamati bahwa model dengan sparsitas bobot yang rendah memiliki "sparsitas kontekstual" yang tinggi. Artinya, perkalian matriks menghasilkan vektor yang berisi banyak nol di posisi yang berbeda tergantung pada input.
    • Makalah ini menunjukkan bahwa sparsitas semacam itu dapat dimanfaatkan agar sebagian baris matriks tidak perlu dimuat.
    • Namun, untuk mendapatkan peningkatan performa yang baik, harus bisa diprediksi sebelumnya baris mana yang akan dilewati. Ini dimungkinkan dengan matriks berdimensi rendah.
    • Makalah Apple mengusulkan bahwa temuan ini tidak hanya meningkatkan performa pemuatan dari RAM, tetapi juga memungkinkan pemuatan dari flash memory tanpa mengorbankan bandwidth:
      • Hal yang perlu diperhatikan adalah makalah ini menyebut bahwa matriks attention bersifat ringan, dan yang penting adalah memuat feedforward network (FFN) secara sparse.
      • Makalah ini menunjukkan bahwa memprediksi keluaran lapisan ReLU dapat menghasilkan sparsitas yang jauh lebih baik dibanding memprediksi masukan FFN. Artinya, "jika setelah matmul dapat diprediksi bahwa slot vektor ini akan memiliki nilai negatif sebelum ReLU, maka kolom matriks tersebut tidak perlu dimuat dan cukup keluarkan 0".
      • Makalah ini mengusulkan bahwa sebagian besar baris FFN sama sekali tidak perlu dimuat, dan cache dari baris FFN yang baru dipakai dapat dipertahankan untuk tiap FFN lalu diperbarui dari flash memory sesuai kebutuhan.
    • Ada juga pembahasan tentang chunk loading dan korelasi antar lapisan proyeksi, tetapi wawasan utamanya adalah bagian yang disebutkan di atas.
  • Saya berharap menemukan bagian di kesimpulan makalah tentang bagaimana fitur ini akan disediakan kepada pengguna, tetapi mungkin pembahasan itu berada di luar cakupan.

    • Saya penasaran apakah fitur seperti ini akan diberikan kepada pengguna melalui pemanggilan API dan pengaturan di CoreML, misalnya harus mengatur flag use_flash, atau apakah ini akan menjadi optimasi runtime yang transparan bagi pengguna. Saya juga ingin tahu apakah ada presentasi atau paparan yang bagus dari Apple yang membahas roadmap pengembangan CoreML, Metal, dan sebagainya.
  • Saya penasaran seberapa banyak bagian model yang tidak perlu dimuat sebelum mulai terlihat perbedaan performa yang nyata.

    • Misalnya, jika ingin mempertahankan 90% performa dari RAM, apakah cukup dengan hanya memakai setengah memori, atau justru perlu 90% atau 95% darinya.
    • Saya juga penasaran seberapa cepat penurunan performa dibanding performa maksimum ketika RAM dikurangi. Grafiknya membandingkan algoritme dasar saat memakai RAM yang lebih sedikit, tetapi itu pertanyaan lain yang berbeda (meski tetap bagus!).
    • Jika kita bisa mendapatkan performa yang baik tanpa memuat seluruh model 8 GB ke memori ponsel, itu jelas akan sangat berguna.
  • Perlu dicatat bahwa perangkat Apple memiliki RAM yang sangat sedikit dibanding perangkat serupa dari pesaing.

    • Ini juga karena tim software Apple memakai bahasa yang lebih efisien seperti Objective-C, dan karena aplikasi iOS tidak menargetkan berbagai resolusi layar sehingga lebih jarang memuat tekstur resolusi tinggi lalu menurunkannya skalanya.
    • Selain itu, membeli RAM pada skala Apple tidak membuat harga RAM jadi jauh lebih murah, sehingga menambah RAM lebih memengaruhi margin dibanding menambahkan fitur lain.
    • Tetapi semua ini menjadi masalah saat menggunakan large language model (LLM), karena pada dasarnya sangat boros RAM. Dan teknik penghematan memori apa pun juga bisa dimanfaatkan oleh pesaing yang punya RAM lebih besar untuk menjalankan model yang lebih besar dan lebih baik.
  • Pemahaman saya tentang topik ini terbatas, tetapi saya penasaran apakah teknik ini memungkinkan menjalankan LLM di ponsel secara offline.

    • Jika ya, ini bisa membuka banyak aplikasi menarik seperti moderasi konten berbantuan AI tanpa mengirim data sensitif ke luar perangkat.
  • Saya menghargai bahwa artikel-artikel belakangan ini menyebut "LLM" alih-alih "AI".

    • Dengan begitu, jelas bahwa pembahasannya tentang teknologi yang spesifik, bukan hype pemasaran.
  • Agak mengejutkan bahwa makalah ini tidak menyebut FlashAttention.

    • Karena keduanya sama-sama memanfaatkan flash memory, rasanya setidaknya itu layak disebut.
  • Apakah Apple mengakuisisi perusahaan Iran?

  • Sebagai contoh, model OPT 6.7B disebut menunjukkan sparsitas 97% di dalam lapisan FFN.

    • Saya penasaran apakah ada yang tahu persis metrik yang dimaksud di sini. Apakah itu berarti lapisannya memiliki 97% nilai 0, atau berarti ukurannya bisa dikompresi menjadi 3%.
  • Saya berharap teknik ini diintegrasikan ke llama.cpp dan candle.

    • Perkembangan seperti ini sangat mengagumkan, dan saya berharap suatu hari nanti ini juga diterapkan di library-library tersebut.