- Artikel tentang pencapaian akurasi 78% pada dataset MNIST dengan menggunakan GZIP dalam kurang dari 10 baris kode
- Penulis menekankan bahwa hal baru dari postingan ini bukanlah mencapai hasil mutakhir, melainkan menunjukkan potensi penggunaan kompresi sebagai alat klasifikasi yang unik dan tanpa model
- Kode yang disediakan menggunakan GZIP dan NCD (Normalized Compression Distance) sebagai metrik kemiripan, serta menggunakan k-NN (k-Nearest Neighbors) untuk klasifikasi
- GZIP digunakan sebagai alat untuk mengukur kompleksitas atau kandungan informasi dari tiap titik data, dan NCD memberikan ukuran ternormalisasi tentang seberapa mirip dua titik data
- Algoritme menghitung NCD dengan semua sampel pelatihan, mengurutkannya, lalu memilih k jarak terkecil. Di antara k=5 tetangga terdekat ini, kelas mayoritas diprediksi sebagai label untuk sampel uji
- Penulis mengakui bahwa pendekatan ini mahal secara komputasi, dan hanya sebagian gambar uji yang digunakan untuk mengukur akurasi
- Penulis juga menyediakan versi algoritme yang tidak terlalu tersembunyi agar lebih mudah dipahami
- Penulis menyebut pendekatan serupa yang diambil Andreas Kirsch pada 2019, yang mencapai akurasi sekitar 35%
- Penulis mulai menggunakan kompresi sebagai mekanisme klasifikasi gambar setelah membaca postingan tentang pembuatan teks dari kompresi data dan makalah tentang klasifikasi teks tanpa parameter
- Penulis sebelumnya pernah mengerjakan kompresi gambar untuk computer vision edge, dan tertarik menerapkan teknik ini pada dataset MNIST
1 komentar
Komentar Hacker News