Stanza - Library NLP Python Open Source

xguru · 2020-03-25T16:05:16+09:00

Toolkit pemrosesan bahasa alami yang tidak bergantung pada bahasa, mendukung 66 bahasa termasuk bahasa Korea Berbasis PyTorch Pipeline jaringan saraf lengkap untuk analisis teks Tokenisasi, ekspansi multi-word token (MWT), lemmatisasi Penandaan POS dan morfologi, parsing dependensi, pengenalan entitas bernama Dikembangkan dan dirilis oleh Stanford NLP Group → Juga menyertakan antarmuka yang dapat terhubung dengan CoreNLP Java yang sebelumnya telah dirilis

(stanfordnlp.github.io)

7 poin oleh xguru 2020-03-25 | 2 komentar | Bagikan ke WhatsApp

Toolkit pemrosesan bahasa alami yang tidak bergantung pada bahasa, mendukung 66 bahasa termasuk bahasa Korea
Berbasis PyTorch
Pipeline jaringan saraf lengkap untuk analisis teks

Tokenisasi, ekspansi multi-word token (MWT), lemmatisasi

Penandaan POS dan morfologi, parsing dependensi, pengenalan entitas bernama
Dikembangkan dan dirilis oleh Stanford NLP Group

→ Juga menyertakan antarmuka yang dapat terhubung dengan CoreNLP Java yang sebelumnya telah dirilis

2 komentar

sftblw 2020-03-25

NER (pengenalan entitas bernama) sayangnya tampaknya mendukung jumlah bahasa yang cukup sedikit.

Bahasa Korea tidak termasuk, dan katanya mendukung 8 bahasa: Arab, Tionghoa, Jerman, Inggris, Prancis, Belanda, dan Spanyol.

xguru 2020-03-25

Model bahasa Koreanya ada dua.

Sepertinya yang diambil adalah Kaist dan GSD yang memiliki banyak token di antara yang terdaftar di Universal Dependencies (UD) https://universaldependencies.org/.

UD Korean GSD : https://universaldependencies.org/treebanks/ko_gsd/index.html

UD Korean Kaist : https://universaldependencies.org/treebanks/ko_kaist/index.html

Stanza - Library NLP Python Open Source

Bacaan terkait

2 komentar