6 poin oleh GN⁺ 2024-02-17 | 1 komentar | Bagikan ke WhatsApp
  • Google merilis Magika sebagai open source, sebuah sistem identifikasi jenis file berbasis AI
  • Magika menggunakan model deep learning yang disesuaikan dan dioptimalkan sehingga dapat mengidentifikasi file secara akurat dalam hitungan beberapa milidetik bahkan di CPU
  • Demo web Magika dapat dicoba, dan dapat diinstal sebagai pustaka Python maupun alat command line mandiri dengan perintah pip install magika

Mengapa identifikasi jenis file itu sulit

  • Sejak awal komputasi, mendeteksi jenis file secara akurat penting untuk menentukan bagaimana file harus diproses.
  • Linux memiliki utilitas libmagic dan file, yang telah menjadi standar de facto untuk identifikasi jenis file selama lebih dari 50 tahun.
  • Deteksi jenis file sangat penting agar berbagai perangkat lunak seperti browser web dan editor kode dapat merender file dengan benar.
  • Karena setiap format file memiliki struktur yang berbeda atau bahkan tidak memiliki struktur yang jelas, deteksi jenis file yang akurat menjadi masalah yang terkenal sulit.
  • libmagic dan sebagian besar perangkat lunak identifikasi jenis file bergantung pada heuristik dan aturan buatan tangan untuk mendeteksi tiap format file.
  • Pendekatan manual semacam ini memakan waktu dan rentan menimbulkan kesalahan.

Kinerja Magika

  • Berkat model AI dan dataset pelatihan berskala besar, Magika menunjukkan kinerja sekitar 20% lebih baik daripada alat yang ada pada benchmark 1 juta file yang mencakup lebih dari 100 jenis file.
  • Peningkatan performa yang lebih besar terlihat khususnya pada jenis file yang sulit dikenali oleh alat lain, seperti file teks, file kode, dan file konfigurasi.

Penggunaan Magika di Google

  • Di internal Google, Magika digunakan untuk meningkatkan keamanan pengguna dengan mengarahkan file di Gmail, Drive, dan Safe Browsing ke pemindai kebijakan keamanan dan konten yang sesuai.
  • Dengan rata-rata mingguan mencapai puluhan miliar file, Magika meningkatkan akurasi identifikasi jenis file sebesar 50% dibandingkan sistem sebelumnya yang bergantung pada aturan manual.
  • Melalui integrasi dengan VirusTotal, Magika akan melengkapi fitur Code Insight yang sudah ada dan berkontribusi pada ekosistem keamanan siber global untuk menciptakan lingkungan digital yang lebih aman.

Open source Magika

  • Dengan menjadikan Magika open source, Google ingin membantu meningkatkan akurasi identifikasi file di perangkat lunak lain serta menyediakan metode yang andal bagi peneliti untuk mengidentifikasi jenis file dalam skala besar.
  • Kode dan model Magika tersedia gratis di Github di bawah lisensi Apache2, dan dapat dipasang dengan mudah melalui manajer paket pypi.
  • Untuk detail lebih lanjut tentang cara menggunakan Magika, lihat situs dokumentasi Magika.

Opini GN⁺

  • Rilis open source Magika tampaknya akan sangat membantu meningkatkan akurasi identifikasi jenis file.
  • Khususnya di bidang keamanan, identifikasi file yang akurat sangat penting, dan Magika dapat menjadi alat yang kuat untuk tujuan tersebut.
  • Kapabilitas teknis Google dan kontribusinya pada komunitas open source diperkirakan akan memainkan peran penting dalam memperkuat ekosistem keamanan siber global.

1 komentar

 
GN⁺ 2024-02-17

Komentar Hacker News

  • Mencoba menerapkan alat deteksi tipe file baru ini pada data hasil web crawl.

    • Ada kasus ketika file HTML sederhana terdeteksi secara keliru.
    • Beberapa file WOFF dan WOFF2 juga terdeteksi salah.
    • Dinilai sebagai implementasi yang masih belum cukup andal untuk otomatisasi.
    • Juga menyampaikan keluhan bahwa escape warna shell tidak dihapus saat output diarahkan ke pipe.
  • Berbagi pengalaman tentang deteksi tipe file spreadsheet 10 tahun lalu.

    • Pernah mengusulkan patch untuk mendeteksi tipe file menggunakan "magic", tetapi ditolak.
    • Kini menyebut deteksi tipe file menggunakan deep learning.
    • Berharap Google mempublikasikan benchmark kinerjanya.
  • Membagikan hasil uji deteksi pada 100 file.

    • Sebagian besar terdeteksi dengan akurat, tetapi beberapa salah terdeteksi atau terdeteksi sebagai tipe yang tidak jelas.
    • Kesalahan terutama terjadi pada tipe file yang tidak didukung Magika.
    • Menunjukkan akurasi yang mirip dibanding utilitas file yang sudah ada.
  • Respons positif atas hadirnya alat baru di bidang deteksi tipe file.

    • Mempertanyakan alasan dirilisnya modul Node.
    • Dokumentasinya menyebut kecepatannya lambat, dan model dimuat saat runtime.
    • Menyebut status eksperimental dan dukungan tipe file yang terbatas.
  • Kebingungan mengapa Google mengalokasikan sumber daya untuk mengembangkan alat deteksi tipe file berbasis jaringan saraf alih-alih memperbaiki libmagic.

    • Menunjukkan bahwa jaringan saraf lebih akurat, tetapi mendukung lebih sedikit tipe file dan kurang efektif dalam situasi adversarial.
  • Rasa ingin tahu tentang cara mendeteksi file polyglot yang valid dalam berbagai format.

    • Dari hasil uji nyata, disebutkan bahwa hanya layer ZIP yang terdeteksi.
  • Mempertanyakan precision atau recall alat lain dalam mendeteksi file APK atau JAR secara akurat.

    • Meminta penjelasan tentang kasus file tertentu yang memengaruhi precision atau recall.
  • Berbagi pengalaman mengimplementasikan libmagic di Racket.

    • Menyebut bahwa libmagic dapat mendeteksi lebih banyak tipe file, tetapi Magika bisa berguna untuk mendeteksi file teks.
  • Klaim bahwa deteksi tipe file pada dasarnya bersifat deterministik.

    • "Magic bytes" seharusnya konsisten, dan mempertanyakan perlunya heuristik atau inferensi probabilistik.