1 poin oleh GN⁺ 2023-09-21 | 1 komentar | Bagikan ke WhatsApp
  • Artikel tentang pencapaian akurasi 78% pada dataset MNIST dengan menggunakan GZIP dalam kurang dari 10 baris kode
  • Penulis menekankan bahwa hal baru dari postingan ini bukanlah mencapai hasil mutakhir, melainkan menunjukkan potensi penggunaan kompresi sebagai alat klasifikasi yang unik dan tanpa model
  • Kode yang disediakan menggunakan GZIP dan NCD (Normalized Compression Distance) sebagai metrik kemiripan, serta menggunakan k-NN (k-Nearest Neighbors) untuk klasifikasi
  • GZIP digunakan sebagai alat untuk mengukur kompleksitas atau kandungan informasi dari tiap titik data, dan NCD memberikan ukuran ternormalisasi tentang seberapa mirip dua titik data
  • Algoritme menghitung NCD dengan semua sampel pelatihan, mengurutkannya, lalu memilih k jarak terkecil. Di antara k=5 tetangga terdekat ini, kelas mayoritas diprediksi sebagai label untuk sampel uji
  • Penulis mengakui bahwa pendekatan ini mahal secara komputasi, dan hanya sebagian gambar uji yang digunakan untuk mengukur akurasi
  • Penulis juga menyediakan versi algoritme yang tidak terlalu tersembunyi agar lebih mudah dipahami
  • Penulis menyebut pendekatan serupa yang diambil Andreas Kirsch pada 2019, yang mencapai akurasi sekitar 35%
  • Penulis mulai menggunakan kompresi sebagai mekanisme klasifikasi gambar setelah membaca postingan tentang pembuatan teks dari kompresi data dan makalah tentang klasifikasi teks tanpa parameter
  • Penulis sebelumnya pernah mengerjakan kompresi gambar untuk computer vision edge, dan tertarik menerapkan teknik ini pada dataset MNIST

1 komentar

 
GN⁺ 2023-09-21
Komentar Hacker News
  • Artikel tentang pencapaian akurasi 78% pada dataset MNIST menggunakan GZIP dengan kurang dari 10 baris kode
  • Para komentator mencoba mengganti fungsi jarak dalam kode dengan ukuran yang lebih sederhana, sehingga akurasi meningkat dan kebutuhan komputasi menurun
    • Jarak Euclidean mencapai akurasi 93% dalam sekitar 0,5 detik setelah gambar dibinerisasi
    • Jarak Jaccard mencapai akurasi 94% dalam sekitar 0,7 detik setelah gambar dibinerisasi
    • Ketidakcocokan Dice mencapai akurasi 94% dalam sekitar 0,8 detik setelah gambar dibinerisasi
  • Teknik lain untuk perbandingan menunjukkan Linear SVC dengan akurasi 92%, SVC rbf dengan akurasi 96,4%, SVC poly dengan akurasi 94,5%, regresi logistik dengan akurasi 89%, dan naive Bayes dengan akurasi 81%
  • Para komentator menyarankan bahwa meskipun kodenya elegan dan ringkas, akurasi 78% untuk MNIST dianggap rendah, dan model dummy yang ditulis dengan Tensorflow dapat dengan mudah mencapai akurasi 90%
  • Model terbaik untuk MNIST tercatat memiliki akurasi 99,87%
  • Beberapa komentator menyarankan bahwa mengganti normalized compression distance (NCD) dengan jarak Euclidean dapat meningkatkan akurasi pengujian sebesar 15% sekaligus menghemat banyak komputasi
  • Beberapa komentator mengusulkan agar dataset MNIST dipensiunkan, karena kini relatif mudah mencapai akurasi tinggi di atasnya
  • Ada diskusi tentang potensi menemukan pola dalam data yang sangat terkompresi untuk menghasilkan kompresi yang lebih baik
  • Beberapa komentator tertarik pada pengukuran jarak informasi untuk kompresor tujuan umum dan model bahasa alternatif
  • Seorang komentator menyebut penggunaan mekanisme perhatian yang menggabungkan normalized compression distance (gzip) dengan konvolusi diskret antar urutan kandidat