Stanza - Library NLP Python Open Source
(stanfordnlp.github.io)-
Toolkit pemrosesan bahasa alami yang tidak bergantung pada bahasa, mendukung 66 bahasa termasuk bahasa Korea
-
Berbasis PyTorch
-
Pipeline jaringan saraf lengkap untuk analisis teks
Tokenisasi, ekspansi multi-word token (MWT), lemmatisasi
Penandaan POS dan morfologi, parsing dependensi, pengenalan entitas bernama
-
Dikembangkan dan dirilis oleh Stanford NLP Group
→ Juga menyertakan antarmuka yang dapat terhubung dengan CoreNLP Java yang sebelumnya telah dirilis
2 komentar
NER (pengenalan entitas bernama) sayangnya tampaknya mendukung jumlah bahasa yang cukup sedikit.
Bahasa Korea tidak termasuk, dan katanya mendukung 8 bahasa: Arab, Tionghoa, Jerman, Inggris, Prancis, Belanda, dan Spanyol.
Model bahasa Koreanya ada dua.
Sepertinya yang diambil adalah Kaist dan GSD yang memiliki banyak token di antara yang terdaftar di Universal Dependencies (UD) https://universaldependencies.org/.
UD Korean GSD : https://universaldependencies.org/treebanks/ko_gsd/index.html
UD Korean Kaist : https://universaldependencies.org/treebanks/ko_kaist/index.html