O‘ZBEK TILI MATNLARINI STEMLASH ALGORITMLARI

Авторы

  • Sharipov Maqsud Siddiqovich Автор
  • Sattarova Surayyo Beknazarovna Автор

Ключевые слова:

стемминг, узбекский язык, алгоритм Snowball, обработка естественного языка, нормализация слов, анализ текста.

Аннотация

В данной тезисной работе рассматривается одна из ключевых концепций обработки естественного языка — стемминг, то есть процесс приведения слов к их корневой форме. Стемминг служит важным инструментом в таких областях, как автоматический анализ текста, поисковые системы, переводческие программы, классификация документов. Несмотря на наличие эффективных алгоритмов стемминга для английского, русского и немецкого языков, для узбекского языка до сих пор не создано достаточно действенных решений. Поэтому в данной работе теоретически обосновывается идея создания узбекского стеммера на основе алгоритма Snowball. Показаны отличия алгоритма стемминга от токенизации и лемматизации, а также рассмотрены области его применения в узбекском языке — такие как чат-боты, автоматический перевод, анализ текстов, мониторинг социальных сетей и создание цифровых словарей. Также обсуждаются перспективы дальнейшей разработки узбекских стеммеров и их интеграции в системы искусственного интеллекта.

Библиографические ссылки

1. Jalil, M. M., et al. (2017). The development of the Uzbek stemming algorithm. Advanced Science Letters, 23(5), 4171–4174.

2. Sharipov, M., & Yuldashov, O. (2022). Uzbekstemmer: Development of a rule-based stemming algorithm for Uzbek language. arXiv preprint arXiv:2210.16011.

3. Sharipov, M., & Salaev, U. (2022). Uzbek affix finite state machine for stemming. arXiv preprint arXiv:2205.10078.

4. Boltayevich, E. B., et al. (2023). The problem of POS tagging and stemming for agglutinative languages (Turkish, Uyghur, Uzbek languages). In 2023 8th International Conference on Computer Science and Engineering (UBMK) (pp. 57–62). IEEE.

5. Abjalova, M., Adalı, E., & Adilova, M. (2024). The process of lemmatization and stemming in the automatic morphological analysis of Uzbek texts. In 2024 9th International Conference on Computer Science and Engineering (UBMK) (pp. 1–6). IEEE.

6. Sharipov, Maksud, and Ogabek Sobirov. "Development of a rule-based lemmatization algorithm through Finite State Machine for Uzbek language." arXiv preprint arXiv:2210.16006 (2022).

7. Izatovich B. I. Development of a stemming algorithm based on a linguistic approach for words of the uzbek language //E-Conference Globe. – 2021. – С. 195-202.

8. Tukeyev U. et al. Computational Model of Morphology and Stemming of Uzbek Words on Complete Set of Endings //2024 IEEE 3rd International Conference on Problems of Informatics, Electronics and Radio Engineering (PIERE). – IEEE, 2024. – С. 1760-1764.

9. Ismailov A. S., Abdurakhmonova N. The development of Alisher stemmer for Uzbek Language //Science and Education. – 2022. – Т. 3. – №. 4. – С. 187-213.

10. Sattarova S. B., Bekchanova F. X., Shermetov A. K. Terminologik lug’at yaratish texnologiyasi va uning ta’lim tizimidagi ahamiyati //Academic research in educational sciences. – 2023. – Т. 4. – №. 5. – С. 422-434.

11. Madatov K. A., Sattarova S. Creation of a Corpus for Determining the Intellectual Potential of Primary School Students //2024 IEEE 25th International Conference of Young Professionals in Electron Devices and Materials (EDM). – IEEE, 2024. – С. 2420-2423.

12. Sharipov M., Salaev U., Matlatipov G. Oʻzbek tili fe’l soʻz turkumi uchun chekli avtomatlar asosida stemming algoritmini yaratish //Computer linguistics: problems, solutions, prospects. – 2021. – Т. 1. – №. 1.

Опубликован

2025-08-04

Похожие статьи

1-10 из 117

Вы также можете начать расширеннвй поиск похожих статей для этой статьи.