- Makalah terbaru yang mendapat perhatian di Twitter, "Text Classification by Compression without the Necessity of Ponderous Authors": metode klasifikasi tanpa parameter yang menggunakan kompresor
- Penulis memeriksa source code untuk mereproduksi hasil makalah tersebut, dan menemukan bug atau pilihan yang tidak terduga pada kode kNN.
- Karena bug dalam kode, angka akurasi metode tersebut tampak lebih tinggi dari yang seharusnya.
- Pada Table 5 di makalah, metode gzip menunjukkan kinerja yang lebih baik dibanding metode lain yang berbasis jaringan saraf.
- Penulis menghitung ulang angkanya dan menemukan bahwa hasil yang dikoreksi secara signifikan mengubah kesimpulan eksperimen.
- Makalah tersebut menggunakan pengklasifikasi kNN dengan k=2, yang merupakan pilihan yang tidak lazim untuk klasifikasi kNN.
- Dalam source code terdapat strategi tie-breaking yang tidak terduga dan memengaruhi akurasi yang dilaporkan.
- Penulis menyediakan implementasinya sendiri untuk membandingkan hasil dengan menggunakan strategi tie-breaking yang berbeda.
- Hasil yang dihitung ulang menunjukkan bahwa kode asli dan implementasi penulis memberikan hasil yang serupa.
- Masih ada pertanyaan mengenai akurasi yang tinggi pada dataset Filipina serta sedikit perbedaan antara hasil "table5" dan "code".
1 komentar
Opini Hacker News