O‘ZBEK TILI ASOSIDA QORAQALPOQ TILINING NLP TIZIMINI YARATISH
Ключевые слова:
обработка естественного языка (NLP), искусственный интеллект (ИИ), машинный перевод, перенос обучения (transfer learning), морфологический анализ, синтаксический анализ, параллельный корпус, лемматизатор, токенизатор.Аннотация
В статье представлен сравнительный анализ технологий обработки естественного языка (NLP) для узбекского и каракалпакского языков. Прежде всего рассматриваются существующие NLP-проекты для узбекского языка, в частности, потенциал моделей UzBERT и BBPOS, а также вклад лингвистических корпусов (UZCorpus, Universal Dependencies) в семантический, синтаксический и морфологический анализ. Отмечается недостаточность научно-технических ресурсов по NLP для каракалпакского языка, особенно в части лемматизированных и размеченных корпусов, а также аналитических инструментов. Кроме того предлагаются практические решения, включая создание параллельных корпусов, дообучение (fine-tuning) существующих моделей, а также адаптацию лемматизаторов и токенизаторов.
Библиографические ссылки
1. Mansurov Sh. (2021). UzBERT: Pretraining a BERT model for Uzbek. arXiv:2108.09814.
2. Bobojonova M. va boshqalar. (2023). BBPOS: O‘zbek tilida so‘z turkumlarini aniqlovchi neyron tarmoq modeli.
3. Mamasaidov I., Shopulatov Z. (2022). Open Language Data for Low-Resource Turkic Languages.
4. Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
5. Tiedemann, J. (2012). Parallel Data, Tools and Interfaces in OPUS. In Proceedings of LREC 2012.
6. Mengliev, D., Barakhnin, V., & Abdurakhmonova, N. (2021). Development of intellectual web system for morph analyzing of uzbek words. Applied Sciences, 11(19), 9117.
7. Abdurakhmonova, N. (2019). Dependency parsing based on Uzbek Corpus. In of the International Conference on Language Technologies for All (LT4All).