Garu: Penganalisis morfologi bahasa Korea 1.7MB yang berjalan di browser (F1 95,3%, WASM)
(github.com/ongjin)Saya membuat penganalisis morfologi bahasa Korea yang berjalan di browser tanpa server.
Penganalisis morfologi yang sudah ada sebelumnya (Kiwi ~40MB, MeCab-ko ~50MB) dirancang dengan asumsi lingkungan server, sehingga tidak ada banyak pilihan ketika analisis morfologi dibutuhkan di sisi klien.
Garu adalah arsitektur non-neural berbasis codebook + Viterbi yang berjalan langsung di browser hanya dengan model 1,7MB dan engine WASM 93KB.
- Ukuran model: 1,7MB (gzip ~950KB, transfer jaringan sekitar 1MB)
- Akurasi: F1 95,3% (berdasarkan korpus NIKL Everyone's Corpus)
- Perbandingan: Kiwi 87,9% / MeCab-ko ~85%
- Tanpa jaringan neural: 0 parameter pelatihan, lookup murni + decoding Viterbi
- Tersedia untuk server/browser dengan
npm install garu-ko
Setelah dua kali kegagalan dengan distilasi pengetahuan BiLSTM dan pelabelan sekuens tingkat jaso, saya akhirnya sampai pada arsitektur non-neural codebook + Viterbi. Proses optimasi dari 76,1% hingga 95,3% (pelatihan langsung pada data gold NIKL, cache eojeol cerdas, aturan pascapemrosesan berbasis konteks, dll.) saya rangkum dalam makalah teknis.
GitHub: https://github.com/ongjin/garu
Makalah teknis: https://github.com/ongjin/garu/blob/main/docs/paper.md
npm: https://www.npmjs.com/package/garu-ko
1 komentar
Dipindahkan ke Show GN.
Sebagai informasi, postingan yang kategorinya disesuaikan oleh moderator dapat dibatasi tampilannya di layar utama, jadi mohon periksa kembali kategorinya sebelum mendaftar.