Анализ алгоритмов интеллектуальной обработки речевых сигналов

Авторы

  • Ташкентский университет информационных технологий имени Мухаммада аль-Хорезми
  • Ташкентский университет информационных технологий имени Мухаммада аль-Хорезми
  • Ташкентский университет информационных технологий имени Мухаммада аль-Хорезми

Аннотация

В данной статье рассматриваются современные алгоритмы, применяемые для интеллектуального анализа речевых сигналов, а также их научно-практическое значение. Развитие технологий искусственного интеллекта и машинного обучения расширяет возможности автоматической обработки речевых сигналов, извлечения признаков и распознавания. В исследовании анализируются процессы моделирования на основе таких передовых методов, как MFCC, CNN и RNN. Также рассматриваются алгоритмы, применяемые для преобразования речи в текст, идентификации говорящего и понимания контекста. Полученные результаты могут быть использованы в интеллектуальных голосовых интерфейсах, системах безопасности и лингвистических приложениях.

Ключевые слова:

речевой сигнал интеллектуальный анализ искусственный интеллект МО (машинное обучение) MFCC CNN RNN распознавание идентификация голосовые системы

Биографии авторов

Фахриддин Абдиразаков,
Ташкентский университет информационных технологий имени Мухаммада аль-Хорезми
Кафедра компьютерных систем, аспирант
Султон Насиров,
Ташкентский университет информационных технологий имени Мухаммада аль-Хорезми
Кафедра АТДТ, докторант
Уролбой Xусанов,
Ташкентский университет информационных технологий имени Мухаммада аль-Хорезми
Кафедра компьютерных систем, преподаватель

background image

Современные проблемы интеллектуальных систем. Республиканская научно-практическая конференция. Джизак, 18-19 апреля 2025 г.

304

algorithms based on Singular Value Decomposition and Hidden Markov Model," 2021
International Conference on Information Science and Communications Technologies (ICISCT),
Tashkent, Uzbekistan, 2021, pp. 01-03, doi: 10.1109/ICISCT52966.2021.9670357.

3.

Musaev, M., Abdullaeva, M., Ochilov, M. Advanced Feature Extraction Method for

Speaker Identification Using a Classification Algorithm. AIP Conference Proceedings, 2022,
2656, 020022

4.

S. Kamoliddin Elbobo ugli, K. Shokhrukhmirzo Imomali ugli and K. Umidjon Komiljon

ugli, "Uzbek speech commands recognition and implementation based on HMM," 2020 IEEE 14th
International Conference on Application of Information and Communication Technologies
(AICT), Tashkent, Uzbekistan, 2020, pp. 1-6, doi: 10.1109/AICT50176.2020.9368591.

5.

K. Shukurov, U. Berdanov, U. Khasanov, S. Kholdorov and B. Turaev, "The role of

adaptive filters in the recognition of speech commands," 2021 International Conference on
Information Science and Communications Technologies (ICISCT), Tashkent, Uzbekistan, 2021,
pp. 1-4, doi: 10.1109/ICISCT52966.2021.9670084.

6.

J. Tang, X. Chen and W. Liu, "Efficient Language Identification for All-Language

Internet News," 2021 International Conference on Asian Language Processing (IALP), Singapore,
Singapore, 2021, pp. 165-169, doi: 10.1109/IALP54817.2021.9675270.

7.

L. Sun, "Language Identification with Unsupervised Phoneme-like Sequence and TDNN-

LSTM-RNN," 2020 15th IEEE International Conference on Signal Processing (ICSP), Beijing,
China, 2020, pp. 341-345, doi: 10.1109/ICSP48669.2020.9320919.

8.

J. K. Van Dam and V. Zaytsev, "Software Language Identification with Natural Language

Classifiers," 2016 IEEE 23rd International Conference on Software Analysis, Evolution, and
Reengineering (SANER), Osaka, Japan, 2016, pp. 624-628, doi: 10.1109/SANER.2016.92.

NUTQ SIGNALLARINI INTELLEKTUAL TAHLIL QILISH ALGORITMLARI

TAHLILI

Abdirazakov Faxriddin Bekpulatovich

Muhammad al-Xorazmiy nomidagi Toshkent axborot texnologiyalari universiteti,

Kompyuter tizimlari kafedrasi, doktoranti

faxriddinabdirazzoqov@gmail.com

Nasirov Sulton Uali o‘g‘li

Muhammad al-Xorazmiy nomidagi Toshkent axborot texnologiyalari universiteti, ATDT

kafedrasi, doktoranti

sultan250593@gmail.com

Husanov Urolboy Abdumannon o‘g‘li

Muhammad al-Xorazmiy nomidagi Toshkent axborot texnologiyalari universiteti,

Kompyuter tizimlari kafedrasi, o‘qituvchisi

khusanov.u8377@gmail.com

Annotatsiya:

Ushbu maqolada nutq signallarini intellektual tahlil qilishda qo‘llaniladigan

zamonaviy algoritmlar va ularning ilmiy-amaliy ahamiyati ko‘rib chiqiladi. Sun’iy intellekt va
mashinali o‘rganish texnologiyalarining rivojlanishi natijasida nutq signalini avtomatik qayta
ishlash, xususiyatlarini ajratib olish va tanib olish imkoniyatlari kengaymoqda. Tadqiqotda
MFCC, CNN va RNN kabi ilg‘or metodlar asosida modellashtirish jarayonlari tahlil qilinadi.
Nutqni matnga aylantirish, gapiruvchini identifikatsiyalash hamda kontekstni tushunish kabi


background image

Современные проблемы интеллектуальных систем. Республиканская научно-практическая конференция. Джизак, 18-19 апреля 2025 г.

305

muammolarni hal qilishga xizmat qiluvchi algoritmlar yoritiladi. Natijalar intellektual ovozli
interfeyslar, xavfsizlik tizimlari va lingvistik ilovalarda qo‘llanishi mumkin.

Kalit so‘zlar:

nutq signali, intellektual tahlil, sun’iy intellekt, MO, MFCC, CNN, RNN,

tanib olish, identifikatsiya, ovozli tizimlar.

АНАЛИЗ АЛГОРИТМОВ ИНТЕЛЛЕКТУАЛЬНОЙ ОБРАБОТКИ РЕЧЕВЫХ

СИГНАЛОВ

Аннотация:

В данной статье рассматриваются современные алгоритмы,

применяемые для интеллектуального анализа речевых сигналов, а также их научно-
практическое значение. Развитие технологий искусственного интеллекта и машинного
обучения расширяет возможности автоматической обработки речевых сигналов,
извлечения признаков и распознавания. В исследовании анализируются процессы
моделирования на основе таких передовых методов, как MFCC, CNN и RNN. Также
рассматриваются алгоритмы, применяемые для преобразования речи в текст,
идентификации говорящего и понимания контекста. Полученные результаты могут быть
использованы в интеллектуальных голосовых интерфейсах, системах безопасности и
лингвистических приложениях.

Ключевые слова:

речевой сигнал, интеллектуальный анализ, искусственный

интеллект, МО (машинное обучение), MFCC, CNN, RNN, распознавание, идентификация,
голосовые системы.

ANALYSIS OF ALGORITHMS FOR INTELLIGENT PROCESSING OF SPEECH

SIGNALS

Annotation:

This paper examines modern algorithms used for the intelligent analysis of

speech signals and their scientific and practical significance. The development of artificial
intelligence and machine learning technologies has expanded the capabilities of automatic speech
signal processing, feature extraction, and recognition. The study analyzes modeling processes
based on advanced methods such as MFCC, CNN, and RNN. It also explores algorithms used for
speech-to-text conversion, speaker identification, and context understanding. The results may be
applied in intelligent voice interfaces, security systems, and linguistic applications.

Keywords:

peech signal, intelligent analysis, artificial intelligence, ML (machine learning),

MFCC, CNN, RNN, recognition, identification, voice systems.


So‘nggi yillarda sun’iy intellekt (SI) va mashinali o‘rganish (MO‘) texnologiyalarining jadal

rivojlanishi inson va kompyuter o‘rtasidagi tabiiy muloqotni ta’minlash borasida yangi
imkoniyatlar yaratmoqda. Ayniqsa, nutq signallarini avtomatik tahlil qilish, tanib olish va
mazmunini anglash texnologiyalari turli sohalarda – jumladan, xavfsizlik tizimlari, mobil ilovalar,
ovozli interfeyslar, tibbiyot, robototexnika va ta’limda katta amaliy ahamiyat kasb etmoqda[1].

Mel-chastotali kepstral koeffitsiyentlar (MFCC), Chroma, Spectral Contrast kabi

xususiyatlarni ajratish metodlari nutqdagi eng muhim parametrlarni ifodalab beradi. Shu bilan
birga, konvolyutsion neyron tarmoqlar (CNN) vizual va fazoviy xususiyatlarni aniqlashda,
rekurrent neyron tarmoqlar (RNN, ayniqsa LSTM va GRU variantlari) esa vaqt bo‘yicha
o‘zgaruvchan ketma-ketliklarni tahlil qilishda samarali natijalar bermoqda.

Hozirgi kunda nutqni tanib olish (ASR – Automatic Speech Recognition), gapiruvchini

identifikatsiyalash (Speaker Identification), nutqdagi ma’noni tushunish (Speech Understanding)
kabi yo‘nalishlarda yuqoridagi algoritmlar keng qo‘llanilmoqda. Ayniqsa, ko‘p tillilikni qo‘llab-
quvvatlaydigan va kam resursli tillar uchun modellar yaratish dolzarb masala bo‘lib qolmoqda.


background image

Современные проблемы интеллектуальных систем. Республиканская научно-практическая конференция. Джизак, 18-19 апреля 2025 г.

306

Ushbu maqolada nutq signallarini intellektual tahlil qilishga qaratilgan zamonaviy algoritmlar,
ularning ishlash tamoyillari, afzalliklari va real ilovalardagi qo‘llanilishi yoritiladi. Tadqiqot
natijalari turli sun’iy intellekt tizimlarining samaradorligini oshirishda, shuningdek, o‘zbek tilidagi
nutqni avtomatik tahlil qilish uchun asos yaratishda muhim ahamiyat kasb etadi. Nutq signallarini
intellektual tahlil qilish jarayoni ko‘p bosqichli va murakkab struktura asosida tashkil etiladi. Har
bir bosqichda turli algoritmik yondashuvlar va modellar qo‘llaniladi, ular o‘ziga xos vazifalarni
bajaradi va yakuniy natijaga erishishda muhim rol o‘ynaydi. Ushbu bosqichlar ketma-ketlikda
bajariladi va ular bir-biriga uzviy bog‘langan holda ishlaydi. Quyida ushbu jarayonlarning asosiy
bosqichlari batafsil yoritiladi:

Signalni raqamlashtirish (Digitization).

Dastlabki bosqichda analog shakldagi nutq

signali raqamli formatga aylantiriladi. Bu jarayon odatda diskretlashtirish (sampling) va kvantlash
(quantization) amallari orqali amalga oshiriladi. Signalni raqamli ko‘rinishga o‘tkazish orqali uni
kompyuterda qayta ishlash imkoniyati yaratiladi. Bu bosqichda tanlangan namuna olish chastotasi
(sampling rate) va bit chuqurligi (bit depth) natijaviy sifatga bevosita ta’sir ko‘rsatadi[2].

Xususiyatlarni ajratish (Feature Extraction).

Raqamlashtirilgan signalning ma’no va

strukturasini ifodalovchi asosiy xususiyatlar ajratib olinadi. Bu bosqichda signalning spektral,
vaqtli va fazoviy xususiyatlari aniqlanadi. Eng ko‘p qo‘llaniladigan metodlardan biri bu MFCC
(Mel-Frequency Cepstral Coefficients) bo‘lib, u signalning asosiy tovush elementlarini
(formantalar, spektral energiya va h.k.) qisqacha va samarali tarzda ifodalaydi.

Modellashtirish (Modeling):

Vaqt va fazo bo‘yicha ajratilgan xususiyatlar asosida nutq

signali modellashtiriladi. Bu bosqichda fazoviy (spatial) va vaqtli (temporal) o‘zgarishlar inobatga
olinadi.

Masalan: CNN (Convolutional Neural Networks) spektrogramma asosida fazoviy

xususiyatlarni aniqlaydi, tovushdagi kerakli strukturalarni o‘rganadi.

RNN (Recurrent Neural Networks) esa vaqt bo‘yicha ketma-ketlikni modellashtirishda

samarali bo‘lib, nutqning davomiyligi va kontekstual bog‘lanishini hisobga oladi.

Kontekstni tushunish (Context Understanding).

Bu bosqichda tizim signal tarkibidagi

so‘zlar, gaplar yoki semantik birliklar o‘rtasidagi bog‘liqlikni aniqlaydi. Aynan shu bosqichda
gapiruvchining niyati, savol yoki buyrug‘i tushuniladi. Transformer arxitekturalari, BERT,
Whisper, wav2vec 2.0 kabi modellar aynan shu bosqichda yuqori natijalar beradi.

Tasniflash va tanib olish (Classification & Recognition).

Oxirgi bosqichda model

tomonidan ishlab chiqilgan vakillik (representation) asosida so‘z, gapiruvchi yoki ifoda
aniqlanadi. Bu bosqichda model natijalarni klasslarga ajratadi (masalan: so‘zlar to‘plami,
gapiruvchilar ro‘yxati, buyruqlar). Softmax, CTC (Connectionist Temporal Classification), yoki
beam search decoding algoritmlari qo‘llanilishi mumkin[3].

1-jadval.Algoritmlar tahlili.

Algoritm

Asosiy

vazifasi

Afzalliklari

Kamchiliklari

Qo‘llanilish

sohasi

Transformer

parallel ketma-

ketlikni tahlil

qilish,

kontekstni

chuqur

o‘rganish

juda samarali,

parallel ishlaydi

juda katta hajmli

ma’lumot va

resurs talab qiladi

nutqni matnga

aylantirish (ASR),

mashinaviy

tarjima, ovozli AI

yordamchilari

Attention

(Self-

Attention)

muhim

segmentlarga

e’tibor

qaratish,

kichik model

ichida ham

kontekstni yaxshi

ushlaydi

CNN yoki RNN

bilan birgalikda

ishlatiladi,

nutqni

segmentlarga

ajratish,


background image

Современные проблемы интеллектуальных систем. Республиканская научно-практическая конференция. Джизак, 18-19 апреля 2025 г.

307

kontekstni

aniqlash

kontekstni

tushunish

DeepSpeech

(Deep

Learning

ASR modeli)

nutqni matnga

aylantirish

(speech-to-

text)

soddalashtirilgan

struktura, real

vaqtda ishlashi

mumkin

kam resursli

tillarda ma’lumot

yetishmovchiligi

seziladi

ASR tizimlari,

ovozdan yozuvga

aylantirish

ilovalari

HMM

(Yashirin

Markov
modeli)

ketma-ketlikda

ehtimollik

asosida

modellashtirish

matematik asosda
ishonchli, nazariy

jihatdan

isbotlangan va

konseptual

jihatdan to‘g‘ri

ishlaydi.

kontekstni chuqur

ushlay olmaydi,

hozirgi zamonaviy

modellar bilan

raqobat qila

olmaydi

klassik nutqni

tanib olish

tizimlari, tarixiy

ASR arxitekturasi

Tadqiqotda nutq signallarini intellektual tahlil qilishda qo‘llaniladigan algoritmlar —

MFCC, CNN, RNN, Transformer, Attention, DeepSpeech va HMM — nazariy va amaliy jihatdan
tahlil qilindi[4]. Har bir algoritm nutqni qayta ishlashning ma’lum bosqichida samarali bo‘lib,
o‘ziga xos afzallik va cheklovlarga ega. Xulosa qilib aytganda, nutq signalini samarali tahlil qilish
uchun bosqichma-bosqich yondashuvlardan kompleks foydalanish zarur. Ushbu yondashuvlar
o‘zbek tilidagi ovozli texnologiyalarni rivojlantirishda muhim asos bo‘lib xizmat qiladi.

Adabiyotlar ro‘yxati

1.

Mehrish, A., Majumder, N., Bhardwaj, R., Mihalcea, R. va Poria, S. (2023)

A Review of

Deep Learning Techniques for Speech Processing

. arXiv preprint. Available at:

https://arxiv.org/abs/2305.00359

2.

Gautam, A., Zope, A., Kaslikar, B. va Pednekar, M. (2024)

Enhancing Security with

Hidden Markov Model Speech-to-Text Authentication

. SSRN Electronic Journal. Available at:

https://ssrn.com/abstract=4825548

3.

Mozilla (2020)

DeepSpeech: An open source embedded speech-to-text engine

. GitHub

Repository. Available at: https://github.com/mozilla/DeepSpeech

4.

Ristea, N.C., Ionescu, R.T., Khan, F.S., Popescu, M. va Shahbaz Khan, F. (2022)

SepTr:

Separable Transformer for Audio Spectrogram Processing

. Interspeech 2022, pp. 3653–3657.

Available at: https://arxiv.org/abs/2203.15760

Библиографические ссылки

Mehrish, A., Majumder, N., Bhardwaj, R., Mihalcea, R. va Poria, S. (2023) A Review of Deep Learning Techniques for Speech Processing. arXiv preprint. Available at: https://arxiv.org/abs/2305.00359

Gautam, A., Zope, A., Kaslikar, B. va Pednekar, M. (2024) Enhancing Security with Hidden Markov Model Speech-to-Text Authentication. SSRN Electronic Journal. Available at: https://ssm.com/abstractM825548

Mozilla (2020) DeepSpeech: An open source embedded speech-to-text engine. GitHub Repository. Available at: https://github.com/mozilla/DeepSpeech

Ristca, N.C., loncscu, R.T., Khan, F.S., Popescu, M. va Shahbaz Khan, F. (2022) SepTr: Separable Transformer for Audio Spectrogram Processing. Interspeech 2022, pp. 3653-3657. Available at: https://arxiv.org/abs/2203.15760

Опубликован

Как цитировать

Абдиразаков, Ф., Насиров, С., & Xусанов У. (2025). Анализ алгоритмов интеллектуальной обработки речевых сигналов . Современные проблемы интеллектуальных систем, 1(1), 304-307. https://inconference.uz/index.php/cpis/article/view/80

Выпуск

Раздел

Статьи

Страницы

304-307

Просмотры

14

Скачивания

6
Данные по скачиваниям пока не доступны.

Похожие статьи

Вы также можете начать расширеннвй поиск похожих статей для этой статьи.