В данной статье анализируется процесс анализа и классификации текстовых данных, рассматриваются типы текстовых данных, т. е. структурированные, неструктурированные и полуструктурированные данные, а также выделяются их характеристики. Кроме того, особое внимание было уделено существующим возможностям и проблемам обработки текстовых данных на узбекском языке. В частности, на примере системы «Tahrirchi» были представлены достижения и недостатки в анализе текстовых данных на узбекском языке.
В данной статье анализируются возможности технологий искусственного интеллекта в оцифровке, систематизации и анализе научно-исторического наследия. На примере архивных материалов физико-технического института рассмотрены методология и программные средства цифровой платформы, созданные на основе практического опыта. Анализируются такие направления, как оцифровка архивных документов с использованием технологий OCR, семантический анализ, автоматическая классификация и построение графиков научных знаний.