В данном исследовании проанализированы различные виды методологии IDEF, при этом рассмотрены наиболее подходящие методологии для моделирования процессов преобразования речи в текст и текста в речь, а также перевода с узбекского языка на русский и английский языки. Согласно результатам исследования, методологии IDEF0 и IDEF3 были выбраны в качестве наиболее оптимальных для процессов STT и TTS, а для систем перевода - IDEF1X. На основе данной модели была разработана веб-приложение, предназначенное для обработки речевой и текстовой информации пользователей.
В данной статье анализируется процесс анализа и классификации текстовых данных, рассматриваются типы текстовых данных, т. е. структурированные, неструктурированные и полуструктурированные данные, а также выделяются их характеристики. Кроме того, особое внимание было уделено существующим возможностям и проблемам обработки текстовых данных на узбекском языке. В частности, на примере системы «Tahrirchi» были представлены достижения и недостатки в анализе текстовых данных на узбекском языке.
В данной статье предлагается модель, основанная на глубоком обучении, для извлечения ключевых объектов из текстов и создания базы знаний. Для задачи распознавания именованных сущностей (Named Entity Recognition, NER) используется модель долгой краткосрочной памяти (Long Short-Term Memory, LSTM). Данные предварительно обрабатываются, преобразуются в цифровую форму с помощью токенизации и one-hot кодирования. Модель обучается и оценивается для выделения различных типов объектов (имена людей, даты, географические названия). Экспериментальные результаты демонстрируют эффективность модели, а также анализируется влияние различных параметров.