1 poin oleh GN⁺ 2023-07-18 | 1 komentar | Bagikan ke WhatsApp
  • Makalah terbaru yang mendapat perhatian di Twitter, "Text Classification by Compression without the Necessity of Ponderous Authors": metode klasifikasi tanpa parameter yang menggunakan kompresor
  • Penulis memeriksa source code untuk mereproduksi hasil makalah tersebut, dan menemukan bug atau pilihan yang tidak terduga pada kode kNN.
  • Karena bug dalam kode, angka akurasi metode tersebut tampak lebih tinggi dari yang seharusnya.
  • Pada Table 5 di makalah, metode gzip menunjukkan kinerja yang lebih baik dibanding metode lain yang berbasis jaringan saraf.
  • Penulis menghitung ulang angkanya dan menemukan bahwa hasil yang dikoreksi secara signifikan mengubah kesimpulan eksperimen.
  • Makalah tersebut menggunakan pengklasifikasi kNN dengan k=2, yang merupakan pilihan yang tidak lazim untuk klasifikasi kNN.
  • Dalam source code terdapat strategi tie-breaking yang tidak terduga dan memengaruhi akurasi yang dilaporkan.
  • Penulis menyediakan implementasinya sendiri untuk membandingkan hasil dengan menggunakan strategi tie-breaking yang berbeda.
  • Hasil yang dihitung ulang menunjukkan bahwa kode asli dan implementasi penulis memberikan hasil yang serupa.
  • Masih ada pertanyaan mengenai akurasi yang tinggi pada dataset Filipina serta sedikit perbedaan antara hasil "table5" dan "code".

1 komentar

 
GN⁺ 2023-07-18
Opini Hacker News
  • Kesalahan dalam makalah "gzip beats BERT" adalah kesalahan metodologis yang teliti dalam ML.
  • Menerapkan algoritme kompresi pada ML bukanlah "makan siang gratis" dan mungkin tidak menghasilkan keajaiban khusus.
  • Penulis posting blog telah mengajukan issue GitHub terkait makalah tersebut.
  • Sains yang baik membutuhkan rekayasa perangkat lunak yang baik, dan kesalahan dalam eksperimen adalah hal yang umum.
  • Posting blog tentang masalah ini diterima dengan rasa terima kasih karena membantu menyoroti persoalan tersebut.
  • Pemilihan kNN sebagai pengklasifikasi dalam makalah itu menimbulkan pertanyaan, dan algoritme alternatif diajukan.
  • Hasil makalah tersebut menimbulkan pertanyaan tentang bagaimana algoritme kompresi bisa mengalahkan LLM.
  • Orang-orang yang membuat klaim besar tentang makalah itu mungkin perlu mempertimbangkan kembali klaim mereka.
  • Posting blog itu memicu diskusi dan analisis tambahan di Twitter.
  • Kemungkinan adanya hasil seri yang muncul secara acak dalam hasil makalah tersebut telah dikemukakan.