Vol. 1 No. 1 (2022): O‘ZBEK TILINING MILLIY KORPUSI: MUAMMO VA VAZIFALAR
Статьи

TABIIY TILNI QAYTA ISHLASH (NLP)DA SPACY MODULIDAN FOYDALANISH

Published 2022-06-21

Keywords

  • pipeline arxitekturasi,
  • parser,
  • token,
  • lemmatizatsiya,
  • part-of-speech,
  • Python,
  • spaCy
  • ...More
    Less

Abstract

Ushbu maqolada kompyuter lingvistikasining asosiy yo‘nalishlaridan hisoblangan tabiiy tilni qayta ishlash (NLP)da matnlarni Python tilida yozilgan spaCy7 moduli arxitekturasi va vositalari ko‘rib chiqiladi. Tabiiy tildagi matn alohida birlik (belgi)lardan iborat boʻlib, matnni turli bosqichlarga mansub, oʻzaro bogʻliq bir qancha qismlarga ajratish mumkin. Shuningdek, spaCy kutubxonasi vositalari yordamida matnni tokenizatsiyalash va pipeline jarayoni orqali hosil qilingan lemma, pos, tag, dep, shape, alpha va stop atributlaridan foydalanish usullari keltirilgan.