2 poin oleh GN⁺ 2023-07-15 | 1 komentar | Bagikan ke WhatsApp

1 komentar

 
GN⁺ 2023-07-15
Komentar Hacker News
- Para penulis menggunakan fungsi jarak yang disebut "normalized compression distance" (NCD) untuk menerapkan kNN pada dokumen yang dikompresi.
- Metode ini mengungguli BERT pada tugas klasifikasi zero-shot.
- Gzip kuat ketika banyak kata yang tumpang tindih, tetapi DNN lebih unggul dalam kemiripan semantik.
- Hasilnya menarik, tetapi tidak semenarik kedengarannya.
- Pada data di luar cakupan distribusi, BERT masih menunjukkan kinerja yang lebih baik.
- Algoritme kompresi dan model ML sama-sama merupakan bentuk kompresi, dan mungkin ada karakteristik mendasar yang menjelaskan performa bahasa manusia dan data.
- Tautannya seharusnya mengarah ke makalah pada URL yang diberikan.
- Potongan teks yang serupa terkompresi lebih baik saat digabungkan dibandingkan dengan potongan lain.
- Gzip mungkin lebih cocok untuk kompresi karena merepresentasikan input dengan cara yang dapat mengenali dan memberi label.
- Gzip bisa kesulitan dengan kata-kata seperti "not" yang membalikkan makna kalimat.```