Kompresi Lossless untuk Pesan Singkat Berbahasa Inggris
(textsynth.org)Akhir-akhir ini nama Fabrice Bellard cukup sering terdengar, dan proyek sebelumnya dari beliau adalah algoritma kompresi lossless yang menggunakan jaringan saraf (lihat https://bellard.org/nncp/). Kebetulan GPT-2 (https://openai.com/blog/better-language-models/) baru saja dirilis, jadi bagaimana kalau jaringan sarafnya diganti dengan itu lalu algoritma kompresinya dijalankan? Dari gagasan itulah halaman ini lahir. Teks bahasa Inggris pendek bisa dikompresi sekitar 15%, yaitu hanya memakai 1,2 bit per karakter; tingkat ini sudah mendekati entropi informasi yang diperkirakan untuk tiap huruf bahasa Inggris (0,6~1,3 bit). Seperti terlihat dari URL-nya, tampaknya memang ditujukan untuk dikirim lewat SMS.
- Algoritma kompresi yang menggunakan jaringan saraf bukanlah hal baru. Algoritma kompresi papan atas seperti PAQ semuanya memakai metode statistik, dan jaringan saraf juga cukup sering digunakan. Bahkan context mixing (https://en.wikipedia.org/wiki/Context_mixing), yang menjadi fondasi mereka, merupakan penerapan jaringan saraf, dan LSTM yang digunakan Bellard pun sudah memiliki contoh sebelumnya (https://github.com/byronknoll/lstm-compress). Kontribusi Bellard lebih dekat ke optimasi performa.
1 komentar
Mereka bilang akan memakai area Unicode CJK dan Hangul...
Kalau teringat mimpi buruk saat karakter ASCII ekstensi pada era kombinasi/komposisi 2 byte terlihat seperti Hangul/Hanja.. (bukti kalau saya sudah tua)