- Google merilis Magika sebagai open source, sebuah sistem identifikasi jenis file berbasis AI
- Magika menggunakan model deep learning yang disesuaikan dan dioptimalkan sehingga dapat mengidentifikasi file secara akurat dalam hitungan beberapa milidetik bahkan di CPU
- Demo web Magika dapat dicoba, dan dapat diinstal sebagai pustaka Python maupun alat command line mandiri dengan perintah
pip install magika
Mengapa identifikasi jenis file itu sulit
- Sejak awal komputasi, mendeteksi jenis file secara akurat penting untuk menentukan bagaimana file harus diproses.
- Linux memiliki utilitas libmagic dan file, yang telah menjadi standar de facto untuk identifikasi jenis file selama lebih dari 50 tahun.
- Deteksi jenis file sangat penting agar berbagai perangkat lunak seperti browser web dan editor kode dapat merender file dengan benar.
- Karena setiap format file memiliki struktur yang berbeda atau bahkan tidak memiliki struktur yang jelas, deteksi jenis file yang akurat menjadi masalah yang terkenal sulit.
- libmagic dan sebagian besar perangkat lunak identifikasi jenis file bergantung pada heuristik dan aturan buatan tangan untuk mendeteksi tiap format file.
- Pendekatan manual semacam ini memakan waktu dan rentan menimbulkan kesalahan.
Kinerja Magika
- Berkat model AI dan dataset pelatihan berskala besar, Magika menunjukkan kinerja sekitar 20% lebih baik daripada alat yang ada pada benchmark 1 juta file yang mencakup lebih dari 100 jenis file.
- Peningkatan performa yang lebih besar terlihat khususnya pada jenis file yang sulit dikenali oleh alat lain, seperti file teks, file kode, dan file konfigurasi.
Penggunaan Magika di Google
- Di internal Google, Magika digunakan untuk meningkatkan keamanan pengguna dengan mengarahkan file di Gmail, Drive, dan Safe Browsing ke pemindai kebijakan keamanan dan konten yang sesuai.
- Dengan rata-rata mingguan mencapai puluhan miliar file, Magika meningkatkan akurasi identifikasi jenis file sebesar 50% dibandingkan sistem sebelumnya yang bergantung pada aturan manual.
- Melalui integrasi dengan VirusTotal, Magika akan melengkapi fitur Code Insight yang sudah ada dan berkontribusi pada ekosistem keamanan siber global untuk menciptakan lingkungan digital yang lebih aman.
Open source Magika
- Dengan menjadikan Magika open source, Google ingin membantu meningkatkan akurasi identifikasi file di perangkat lunak lain serta menyediakan metode yang andal bagi peneliti untuk mengidentifikasi jenis file dalam skala besar.
- Kode dan model Magika tersedia gratis di Github di bawah lisensi Apache2, dan dapat dipasang dengan mudah melalui manajer paket pypi.
- Untuk detail lebih lanjut tentang cara menggunakan Magika, lihat situs dokumentasi Magika.
Opini GN⁺
- Rilis open source Magika tampaknya akan sangat membantu meningkatkan akurasi identifikasi jenis file.
- Khususnya di bidang keamanan, identifikasi file yang akurat sangat penting, dan Magika dapat menjadi alat yang kuat untuk tujuan tersebut.
- Kapabilitas teknis Google dan kontribusinya pada komunitas open source diperkirakan akan memainkan peran penting dalam memperkuat ekosistem keamanan siber global.
1 komentar
Komentar Hacker News
Mencoba menerapkan alat deteksi tipe file baru ini pada data hasil web crawl.
Berbagi pengalaman tentang deteksi tipe file spreadsheet 10 tahun lalu.
Membagikan hasil uji deteksi pada 100 file.
fileyang sudah ada.Respons positif atas hadirnya alat baru di bidang deteksi tipe file.
Kebingungan mengapa Google mengalokasikan sumber daya untuk mengembangkan alat deteksi tipe file berbasis jaringan saraf alih-alih memperbaiki libmagic.
Rasa ingin tahu tentang cara mendeteksi file polyglot yang valid dalam berbagai format.
Mempertanyakan precision atau recall alat lain dalam mendeteksi file APK atau JAR secara akurat.
Berbagi pengalaman mengimplementasikan libmagic di Racket.
Klaim bahwa deteksi tipe file pada dasarnya bersifat deterministik.