В данной статье предлагается модель, основанная на глубоком обучении, для извлечения ключевых объектов из текстов и создания базы знаний. Для задачи распознавания именованных сущностей (Named Entity Recognition, NER) используется модель долгой краткосрочной памяти (Long Short-Term Memory, LSTM). Данные предварительно обрабатываются, преобразуются в цифровую форму с помощью токенизации и one-hot кодирования. Модель обучается и оценивается для выделения различных типов объектов (имена людей, даты, географические названия). Экспериментальные результаты демонстрируют эффективность модели, а также анализируется влияние различных параметров.
В данной статье анализируются возможности технологий искусственного интеллекта в оцифровке, систематизации и анализе научно-исторического наследия. На примере архивных материалов физико-технического института рассмотрены методология и программные средства цифровой платформы, созданные на основе практического опыта. Анализируются такие направления, как оцифровка архивных документов с использованием технологий OCR, семантический анализ, автоматическая классификация и построение графиков научных знаний.