В данном исследовании предложен новый подход на основе карты Кохонсна для очистки речевого сигнала от шумов. В этом методе шумовые кластеры определялись с использованием карты Кохонена на основе частотных и энергетических характеристик речи, а для оценки уровня шума применялся метод «Minimum Statistics Noise Estimation». Это позволило добиться стабильных результатов даже при высоких уровнях шума. В качестве признаков использовались MFCC при низком уровне шума и логарифмическая мел-спектрограмма (Log-Mel) при высоком уровне шума. Эксперименты проводились при различных уровнях шума (1%, 5%, 10%, 15%, 20%, 25% белого шума), а результаты оценивались с помощью метрики PESQ (Perceptual Evaluation of Speech Quality).
В данной статье рассматриваются современные алгоритмы, применяемые для интеллектуального анализа речевых сигналов, а также их научно-практическое значение. Развитие технологий искусственного интеллекта и машинного обучения расширяет возможности автоматической обработки речевых сигналов, извлечения признаков и распознавания. В исследовании анализируются процессы моделирования на основе таких передовых методов, как MFCC, CNN и RNN. Также рассматриваются алгоритмы, применяемые для преобразования речи в текст, идентификации говорящего и понимания контекста. Полученные результаты могут быть использованы в интеллектуальных голосовых интерфейсах, системах безопасности и лингвистических приложениях.
В настоящее время активно развиваются системы, обеспечивающие естественное взаимодействие между человеком и машиной. Одной из актуальных задач является определение языка пользователя. В данной статье рассматривается задача определения языка (Language Identification - LID) на основе речевых сигналов, области её применения, существующие проблемы и современные подходы. Проведен сравнительный анализ классических методов машинного обучения (GMM, SVM, i-vector) и подходов, основанных на глубоких нейронных сетях (CNN, RNN, Transformer). Также описаны основные метрики оценки эффективности систем: Accuracy, Precision, Fl-score и Equal Error Rate (EER). Рассмотрены передовые подходы к решению сложных случаев, таких как переключение языков (code-switching) и открытые наборы языков (open-set LID), а также обсуждены практические перспективы для малоизученных языков, включая узбекский. Результаты исследования могут служить теоретической и практической основой для разработки многоязычных интерактивных голосовых систем.
В данной статье рассматривается роль речевых сигналов в системах идентификации личности, а также процессы выделения их характеристик и формирования параметров. Биометрическая уникальность речевого сигнала основана на неповторимых фонетических и акустических особенностях речи каждого человека.