7 poin oleh xguru 2020-03-25 | 2 komentar | Bagikan ke WhatsApp
  • Toolkit pemrosesan bahasa alami yang tidak bergantung pada bahasa, mendukung 66 bahasa termasuk bahasa Korea

  • Berbasis PyTorch

  • Pipeline jaringan saraf lengkap untuk analisis teks

    Tokenisasi, ekspansi multi-word token (MWT), lemmatisasi

    Penandaan POS dan morfologi, parsing dependensi, pengenalan entitas bernama

  • Dikembangkan dan dirilis oleh Stanford NLP Group

    → Juga menyertakan antarmuka yang dapat terhubung dengan CoreNLP Java yang sebelumnya telah dirilis

2 komentar

 
sftblw 2020-03-25

NER (pengenalan entitas bernama) sayangnya tampaknya mendukung jumlah bahasa yang cukup sedikit.

Bahasa Korea tidak termasuk, dan katanya mendukung 8 bahasa: Arab, Tionghoa, Jerman, Inggris, Prancis, Belanda, dan Spanyol.

 
xguru 2020-03-25

Model bahasa Koreanya ada dua.

Sepertinya yang diambil adalah Kaist dan GSD yang memiliki banyak token di antara yang terdaftar di Universal Dependencies (UD) https://universaldependencies.org/.

UD Korean GSD : https://universaldependencies.org/treebanks/ko_gsd/index.html

UD Korean Kaist : https://universaldependencies.org/treebanks/ko_kaist/index.html