Статьи
Published 2022-06-21
Keywords
- pipeline arxitekturasi,
- parser,
- token,
- lemmatizatsiya,
- part-of-speech
- Python,
- spaCy ...More
Abstract
Ushbu maqolada kompyuter lingvistikasining asosiy yo‘nalishlaridan hisoblangan tabiiy tilni qayta ishlash (NLP)da matnlarni Python tilida yozilgan spaCy7 moduli arxitekturasi va vositalari ko‘rib chiqiladi. Tabiiy tildagi matn alohida birlik (belgi)lardan iborat boʻlib, matnni turli bosqichlarga mansub, oʻzaro bogʻliq bir qancha qismlarga ajratish mumkin. Shuningdek, spaCy kutubxonasi vositalari yordamida matnni tokenizatsiyalash va pipeline jarayoni orqali hosil qilingan lemma, pos, tag, dep, shape, alpha va stop atributlaridan foydalanish usullari keltirilgan.