Статьи
Опубликован 2022-06-21
Ключевые слова
- pipeline arxitekturasi,
- parser,
- token,
- lemmatizatsiya,
- part-of-speech
- Python,
- spaCy ...Больше
Аннотация
Ushbu maqolada kompyuter lingvistikasining asosiy yo‘nalishlaridan hisoblangan tabiiy tilni qayta ishlash (NLP)da matnlarni Python tilida yozilgan spaCy7 moduli arxitekturasi va vositalari ko‘rib chiqiladi. Tabiiy tildagi matn alohida birlik (belgi)lardan iborat boʻlib, matnni turli bosqichlarga mansub, oʻzaro bogʻliq bir qancha qismlarga ajratish mumkin. Shuningdek, spaCy kutubxonasi vositalari yordamida matnni tokenizatsiyalash va pipeline jarayoni orqali hosil qilingan lemma, pos, tag, dep, shape, alpha va stop atributlaridan foydalanish usullari keltirilgan.