В данной статье анализируется процесс анализа и классификации текстовых данных, рассматриваются типы текстовых данных, т. е. структурированные, неструктурированные и полуструктурированные данные, а также выделяются их характеристики. Кроме того, особое внимание было уделено существующим возможностям и проблемам обработки текстовых данных на узбекском языке. В частности, на примере системы «Tahrirchi» были представлены достижения и недостатки в анализе текстовых данных на узбекском языке.
В данной статье предлагается модель, основанная на глубоком обучении, для извлечения ключевых объектов из текстов и создания базы знаний. Для задачи распознавания именованных сущностей (Named Entity Recognition, NER) используется модель долгой краткосрочной памяти (Long Short-Term Memory, LSTM). Данные предварительно обрабатываются, преобразуются в цифровую форму с помощью токенизации и one-hot кодирования. Модель обучается и оценивается для выделения различных типов объектов (имена людей, даты, географические названия). Экспериментальные результаты демонстрируют эффективность модели, а также анализируется влияние различных параметров.