Nutq signallari asosida tilni aniqlashning zamonaviy yondashuvlari

Mualliflar

  • Muhammad al-Xorazmiy nomidagi Toshkent Axborot Texnologiyalari Universiteti
  • Muhammad al-Xorazmiy nomidagi Toshkent Axborot Texnologiyalari Universiteti
  • O'zbekiston Respublikasi Ichki ishlar vazirligi akademiyasi

Annotasiya

Hozirgi kunda inson va mashina o'rtasidagi tabiiy muloqotni ta’minlovchi tizimlar kcng rivojlanmoqda. Ular orasida foydalanuvchining tilini aniqlash masalasi alohida dolzarb ahamiyat kasb etmoqda. Ushbu maqolada nutq signallari asosida tilni aniqlash (Language Identification - LID) masalasi, uning qo'llanilish sohalari, muammolari va zamonaviy yondashuvlari tahlil qilinadi. Tilni aniqlash tizimlarida klassik mashinali o'rganish (GMM, SVM, i-vector) hamda chuqur neyron tarmoqlarga (CNN, RNN, Transformer) asoslangan yondashuvlar solishtiriladi. Code-switching va Open-set LID kabi murakkab holatlar uchun ishlatilayotgan ilg‘or yondashuvlar ko'rib chiqilib, o'zbek tili kabi kam o'rganilgan tillar uchun amaliy istiqbollar muhokama qilinadi. Maqola natijalari ko‘p tilli interaktiv ovozli tizimlarni yaratishda muhim nazariy va amaliy asos bo'lib xizmat qiladi.

Kalit so‘zlar:

nutq signallari tilni aniqlash ko‘p tillilik akustik xususiyatlar MFCC i- vector x-vector mashinali o‘qitish chuqur neyron tarmoqlar transformer code-switching O‘zbek tili avtomatik til aniqlash

Muallif tarjimai holi

Kamoliddin Shukurov,
Muhammad al-Xorazmiy nomidagi Toshkent Axborot Texnologiyalari Universiteti
“Sun’iy intellekt” kafedrasi dotsenti, PhD
Umidjon Xasanov,
Muhammad al-Xorazmiy nomidagi Toshkent Axborot Texnologiyalari Universiteti
“Sun’iy intellekt” kafedrasi assistenti
Mohidil Rahmonova,
O'zbekiston Respublikasi Ichki ishlar vazirligi akademiyasi
“Kriminalistik ekspertizalar” kafedrasi

background image

Современные проблемы интеллектуальных систем. Республиканская научно-практическая конференция. Джизак, 18-19 апреля 2025 г.

300

Bu yerda,

𝑓(𝑥, 𝑦) −

oyoqning 2D zichlik funksiyasi(masalan, suyak zichligi),

𝜃 −

proyeksiya

burchagi,

𝑠 −

detektordagi koordinatasi.

Inson oyog‘i rentgen tasvirlariga dastlabki ishlov berish – bu tasvirni keyingi tahlilga

tayyorlash bosqichidir[3]. Bu bosqichda tasvir sifati yaxshilanadi, shovqin kamaytiriladi, kontrast
oshiriladi va keraksiz elementlar olib tashlanadi. Dastlabki ishlov berish aniqlikni oshirish va
keyingi bosqichlardagi ya’ni segmentatsiya, klassifikatsiya xatoliklarini kamaytirishga xizmat
qiladi. Rentgen tasvirlarda turli xil shovqinlar (masalan, Gauss shovqini) bo‘ladi. Buni filtrlar
yordamida kamaytirish mumkin. Oyoq rentgen tasvirlari ko‘pincha past kontrastga ega bo‘ladi.
Kontrastni oshirish orqali suyak va yumshoq to‘qimalar aniqroq ko‘rinadi[4]. Suyaklarning
konturlarini aniqlashda chegaralarni aniqlash usullari ishlatiladi. Tasvirni qora-oq formatga
o‘tkazib, muhim sohalarni ajratishda esa binarizatsiya usuli ishlatiladi.

Adabiyotlar рўйхати

[1] S. Myint, A. S. Khaing and H. M. Tun, “Detecting Leg Bone Fracture in X-ray Images”,

International Journal of Scientific & Research, vol. 5, Jun. 2016, pp. 140-144.

[2] V. D. Vegi, S. L. Patibandla, S. S. Kavikondala and Z. Basha, “Computerized Fracture

Detection System using X-ray Images”, International Journal of Control Theory and Applications,
vol. 9, Nov. 2016, pp. 615-621.

[3] S. K. Mahendran and S. Santhosh, “An Enhanced Tibia Fracture Detection Tool Using

Image Processing and Classification Fusion Techniques in X-Ray Images”, Global Journal Of
Computer Science and Technology, vol. 11, Aug. 2011, pp. 27-28.

[4] S. K. Mahendran and S. Santhosh Baboo, “Ensemble Systems for Automatic Fracture

Detection”, International Journal of Engineering and Technology (JACSIT), vol. 4, Feb. 2012,
pp.7-10.

NUTQ SIGNALLARI ASOSIDA TILNI ANIQLASHNING ZAMONAVIY

YONDASHUVLARI

Shukurov Kamoliddin Elbobo o‘g‘li

Muhammad al-Xorazmiy nomidagi TATU, “Sun’iy intellekt” kafedrasi dotsenti, PhD

Xasanov Umidjon Komiljon o‘g‘li

Muhammad al-Xorazmiy nomidagi TATU, “Sun’iy intellekt” kafedrasi assistenti

Rahmonova Mohidil Egamberdiyevna

Ichki ishlar vazirligi akademiyasi “Kriminalistik ekspertizalar” kafedrasi

umidjon0923@gmail.com


Annotatsiya:

Hozirgi kunda inson va mashina o‘rtasidagi tabiiy muloqotni ta’minlovchi

tizimlar keng rivojlanmoqda. Ular orasida foydalanuvchining tilini aniqlash masalasi alohida
dolzarb ahamiyat kasb etmoqda. Ushbu maqolada nutq signallari asosida tilni aniqlash (Language
Identification – LID) masalasi, uning qo‘llanilish sohalari, muammolari va zamonaviy
yondashuvlari tahlil qilinadi. Tilni aniqlash tizimlarida klassik mashinali o‘rganish (GMM, SVM,
i-vector) hamda chuqur neyron tarmoqlarga (CNN, RNN, Transformer) asoslangan yondashuvlar
solishtiriladi. Code-switching va Open-set LID kabi murakkab holatlar uchun ishlatilayotgan
ilg‘or yondashuvlar ko‘rib chiqilib, o‘zbek tili kabi kam o‘rganilgan tillar uchun amaliy istiqbollar
muhokama qilinadi. Maqola natijalari ko‘p tilli interaktiv ovozli tizimlarni yaratishda muhim
nazariy va amaliy asos bo‘lib xizmat qiladi.


background image

Современные проблемы интеллектуальных систем. Республиканская научно-практическая конференция. Джизак, 18-19 апреля 2025 г.

301

Kalit so‘zlar:

nutq signallari, tilni aniqlash, ko‘p tillilik, akustik xususiyatlar, MFCC, i-

vector, x-vector, mashinali o‘qitish, chuqur neyron tarmoqlar, transformer, code-switching,
O‘zbek tili, avtomatik til aniqlash.

MODERN APPROACHES TO LANGUAGE IDENTIFICATION FROM SPEECH

SIGNALS

Abstract:

Nowadays, systems ensuring natural interaction between humans and machines

are rapidly evolving. Among them, the task of identifying the user’s language holds particular
importance. This article analyzes the problem of language identification (LID) based on speech
signals, its application areas, challenges, and modern approaches. It compares traditional machine
learning methods (GMM, SVM, i-vector) with deep neural network-based approaches (CNN,
RNN, Transformer) for language recognition. Additionally, the paper discusses key evaluation
metrics such as Accuracy, Precision, F1-score, and Equal Error Rate (EER) for assessing system
performance. Advanced methods for handling complex scenarios like code-switching and open-
set LID are reviewed, with a focus on practical perspectives for under-resourced languages like
Uzbek. The results of the study provide a solid theoretical and practical foundation for developing
multilingual interactive voice systems.

Keywords:

speech signals, language identification, multilinguality, acoustic features,

MFCC, i-vector, x-vector, machine learning, deep neural networks, transformer, code-switching,
Uzbek language, automatic language detection.

СОВРЕМЕННЫЕ ПОДХОДЫ К ОПРЕДЕЛЕНИЮ ЯЗЫКА НА ОСНОВЕ

РЕЧЕВЫХ СИГНАЛОВ

Аннотация:

В настоящее время активно развиваются системы, обеспечивающие

естественное взаимодействие между человеком и машиной. Одной из актуальных задач
является определение языка пользователя. В данной статье рассматривается задача
определения языка (Language Identification – LID) на основе речевых сигналов, области её
применения, существующие проблемы и современные подходы. Проведен сравнительный
анализ классических методов машинного обучения (GMM, SVM, i-vector) и подходов,
основанных на глубоких нейронных сетях (CNN, RNN, Transformer). Также описаны
основные метрики оценки эффективности систем: Accuracy, Precision, F1-score и Equal Error
Rate (EER). Рассмотрены передовые подходы к решению сложных случаев, таких как
переключение языков (code-switching) и открытые наборы языков (open-set LID), а также
обсуждены практические перспективы для малоизученных языков, включая узбекский.
Результаты исследования могут служить теоретической и практической основой для
разработки многоязычных интерактивных голосовых систем.

Ключевые слова:

речевые сигналы, определение языка, многоязычие, акустические

признаки, MFCC, i-vector, x-vector, машинное обучение, глубокие нейронные сети,
трансформер, переключение языка, узбекский язык, автоматическое определение языка

Kirish.

Hozirgi kunda inson va mashina o‘rtasidagi tabiiy muloqotni ta’minlovchi

texnologiyalar jadal rivojlanmoqda. Jumladan nutq orqali boshqariladigan tizimlar, avtomatik
tarjima xizmatlari, so‘zlovchilarni tanib olish tizimlar, nutq orqali intellektual boshqaruv tizimlari
va boshqalar[1,2,3]. Ushbu tizimlarning samaradorligini oshirish uchun ular foydalanuvchi tilini
to‘g‘ri va tez aniqlash olishi kerak. Bu esa nutq signallari asosida tilni aniqlash (

ing: Language

Identification - LID

) jarayonlarining dolzarb vazifa bo‘lib qolmoqda. Bu jarayon ko‘p tilli

foydalanuvchilar auditoriyasiga ega tizimlar uchun nihoyatda muhim[6,7]


background image

Современные проблемы интеллектуальных систем. Республиканская научно-практическая конференция. Джизак, 18-19 апреля 2025 г.

302

Nutq orqali tilni aniqlash - berilgan nutq signalining qaysi tabiiy tilga mansubligini

aniqlashdir. Ushbu jarayon audio segmentlar asosida amalga oshiriladi va bu orqali tizim
foydalanuvchining gapirayotgan tili haqida qaror qabul qiladi. Tilni aniqlash masalasi nutq
segmentida bir nechta til aralashib ketgan hollarda yanada murakkablashadi, bu esa LID
tizimlaridan segment darajasida aniqlikni talab qiladi[6]. Bundan tashqari so‘zlovchilarni ajratish
(

ing: Speaker Diarization

) orqali so‘zlovchilarning gaplari alohida ajratib har bir so‘zlovchining

qaysi tilde nima deganini aniqlash imkoniyati mavjud. Ayniqsa xalqaro konferensiya,
anjumanlarda bunday tizimlardan foydalanish yaxshi samara beradi(1-rasm).

1-qism. Ko‘p tilli tanib olish tizimlari umumiy sxemasi.


Tilni aniqlash bu berilgan nutq segmentining qaysi tabiiy tilga mansubligini aniqlash

vazifasidir. Ushbu vazifa

nutqdan akustik, fonetik va prosodik belgilar

ni ajratib olish va sun’iy

intellekt algoritmlari bilan tanib olishga asoslanadi. Har bir nutq segmentlari ma’lum bir tilga

tegishli bo‘ladi yoki bir segment bir nechta tilni qamrab olgan bo‘lishi ham mumkin. Bu jarayon

kod-switching holatlari deyiladi. Bu esa tizim holatini yanada murakkablashtiradi.

Tilni aniqlash tizimlari mavjud tillar bazasiga qarab asosan ikki xil yondashuvlar asosida

ishlaydi. Birinchisi oldindan belgilangan tillar ro‘yhatidan foydalanuvchi tilni aniqlash (Closed-

set LID) tizim ma’lum tillar oralig‘ida tanlov qiladi va boshqa noma’lum tillar mavjud emas deb

hisoblanadi. Bu yondashuv ko‘plab sanoat tizimlarida qo‘llaniladi, chunki u soddaligi va

boshqarilishi osonligi bilan ajralib turadi. Ikkinchisi noma’lum tillarni ham aniqlashga qaratilgan

(Open-set LID) bu tizim noma’lum tillarni ham aniqlashga harakat qiladigan holatdir. Ya’ni, agar

kiruvchi nutq signali oldindan o‘rgatilgan tillarga mos kelmasa, tizim bu signalni “noma’lum”

sifatida belgilay oladi[7].

Tilni aniqlash tizimlarining samaradorligi asosan ikki omilga bog‘liq: nutq signallaridan

ajratib olinadigan xususiyatlar va aniqlashni amalga oshiradigan model. Tilni tanib olish

masalalarida nutq signalidan tilga xos ma’lumotlarni ajratib olish uchun bir nechta akustik va

fonetik xususiyatlar ishlatiladi. Eng keng tarqalgan xususiyatlar MFCC, PLP, prosodik

xususiyatlar, i-vector va x-vector.

Tanib olish uchun esa an’anaviy mashinali o‘qitish algoritmlaridan yoki zamonaviy chuqur

o‘qitishga asoslangan yondashuvlardan foydalaniladi. Tanib olish uchun GMM-UMB, SVM,

Tasodifiy o‘rmon sinflashtirish algoritmlaridan yoki CNN, RNN va transformer arxitekturali

modellardan foydalaniladi[4-7].

So‘zlovchini

ajratish

So‘zlovchilarni

aniqlash

Nutqni matnga

aylantirish

Tilni aniqlash

Umid : salom

John : hello


background image

Современные проблемы интеллектуальных систем. Республиканская научно-практическая конференция. Джизак, 18-19 апреля 2025 г.

303

2-rasm. Mashinali o‘qitish yondashuvlari asosida tilni tanib olish

Chuqur o‘qitishga asoslangan yondashuvlar orqali tizim samaradorligini yanada oshirish

va tezkorlikni ta’minlash mumkin. Jumladan RNN, transformer arxitekturalari tezlik va aniqlik
jihatidan yaxshi natijalar beradi.

3-rasm. Neyron tarmoqlar asosida tilni tanib olish

Tilni aniqlash tizimlarining samaradorliklarini baholash uchun bir nechta statistik o‘lchov

usullaridan foydalaniladi. Jumladan aniqlik (

ing: accuracy

), aniqlik ko‘rsatkichlari (

ing:

precision

), F1-ko‘rsatkichi (

ing: F1-score

) va boshqalar. Hozirgi kunda ishlaydiga ASR

tizimlarida yopiq to‘plamli tilni aniqlash modellaridan foydalaniladi. Bu modelning
samaradorligini baholashga yordam beradi[2-5].

Nutq signallari asosida ko‘p tillilikni aniqlash masalasi zamonaviy ovozli tizimlar uchun

muhim tarkibiy qism hisoblanadi. yuqorida klassik statistik yondashuvlardan va chuqur neyron
tarmoqlarga asoslangan usullar ko‘rib chiqildi. Baholash mezonlari yordamida modellar
samaradorligi tahlil qilinadi va ayniqsa fonetik jihatdan o‘xshash tillar o‘rtasida yuzaga keladigan
chalkashliklarga e’tibor qaratiladi.

Klassik usullar, xususan GMM va i-vector asosidagi yondashuvlar, soddaligi va izchilligi

bilan ajralib turadi. Shu bilan birga, chuqur o‘rganish asosidagi modellar (CNN, LSTM,
Transformer va boshqalar) hozirgi kunda yuqori aniqlikka erishishda ustunlikka ega bo‘lib, real
vaqtli tizimlar uchun ham samarador yechimlar taqdim etmoqda.

Umuman olganda, nutq asosida tilni aniqlash sohasi sun’iy intellekt va tabiiy tilni qayta

ishlash yo‘nalishida muhim o‘rin tutadi. O‘zbek tili va boshqa kam o‘rganilgan tillar uchun
samarali va yengil modellarni yaratish, bu sohaning rivojlanishiga bevosita ta’sir ko‘rsatadi.

Adabiyotlar ro‘yxati

1.

Musaev, M., Rakhmatullaev, M., Normatov, S., Shukurov, K., Abdullaeva, M. Integrated

Intelligent System for Scientific and Educational Information Retrieval. Vide. Tehnologija.
Resursi - Environment, Technology, Resources, 2024, 2, страницы 212–219

2.

K. Shukurov, T. Boburkhon and U. Khasanov, "Implementation of speech processing

Dastlabki ishlov

berish

Xususiyatlarni

ajratish

Vektorlar orqali

ifodalash

Klassifikatsiya

(GMM, SVM,

LR, DT)

Natijani chiqarish

Dastlabki ishlov

berish

Xususiyatlar

Embedding olish

Klassifikatsiya

qatlamlari

Natijalarni

aniqlash


background image

Современные проблемы интеллектуальных систем. Республиканская научно-практическая конференция. Джизак, 18-19 апреля 2025 г.

304

algorithms based on Singular Value Decomposition and Hidden Markov Model," 2021
International Conference on Information Science and Communications Technologies (ICISCT),
Tashkent, Uzbekistan, 2021, pp. 01-03, doi: 10.1109/ICISCT52966.2021.9670357.

3.

Musaev, M., Abdullaeva, M., Ochilov, M. Advanced Feature Extraction Method for

Speaker Identification Using a Classification Algorithm. AIP Conference Proceedings, 2022,
2656, 020022

4.

S. Kamoliddin Elbobo ugli, K. Shokhrukhmirzo Imomali ugli and K. Umidjon Komiljon

ugli, "Uzbek speech commands recognition and implementation based on HMM," 2020 IEEE 14th
International Conference on Application of Information and Communication Technologies
(AICT), Tashkent, Uzbekistan, 2020, pp. 1-6, doi: 10.1109/AICT50176.2020.9368591.

5.

K. Shukurov, U. Berdanov, U. Khasanov, S. Kholdorov and B. Turaev, "The role of

adaptive filters in the recognition of speech commands," 2021 International Conference on
Information Science and Communications Technologies (ICISCT), Tashkent, Uzbekistan, 2021,
pp. 1-4, doi: 10.1109/ICISCT52966.2021.9670084.

6.

J. Tang, X. Chen and W. Liu, "Efficient Language Identification for All-Language

Internet News," 2021 International Conference on Asian Language Processing (IALP), Singapore,
Singapore, 2021, pp. 165-169, doi: 10.1109/IALP54817.2021.9675270.

7.

L. Sun, "Language Identification with Unsupervised Phoneme-like Sequence and TDNN-

LSTM-RNN," 2020 15th IEEE International Conference on Signal Processing (ICSP), Beijing,
China, 2020, pp. 341-345, doi: 10.1109/ICSP48669.2020.9320919.

8.

J. K. Van Dam and V. Zaytsev, "Software Language Identification with Natural Language

Classifiers," 2016 IEEE 23rd International Conference on Software Analysis, Evolution, and
Reengineering (SANER), Osaka, Japan, 2016, pp. 624-628, doi: 10.1109/SANER.2016.92.

NUTQ SIGNALLARINI INTELLEKTUAL TAHLIL QILISH ALGORITMLARI

TAHLILI

Abdirazakov Faxriddin Bekpulatovich

Muhammad al-Xorazmiy nomidagi Toshkent axborot texnologiyalari universiteti,

Kompyuter tizimlari kafedrasi, doktoranti

faxriddinabdirazzoqov@gmail.com

Nasirov Sulton Uali o‘g‘li

Muhammad al-Xorazmiy nomidagi Toshkent axborot texnologiyalari universiteti, ATDT

kafedrasi, doktoranti

sultan250593@gmail.com

Husanov Urolboy Abdumannon o‘g‘li

Muhammad al-Xorazmiy nomidagi Toshkent axborot texnologiyalari universiteti,

Kompyuter tizimlari kafedrasi, o‘qituvchisi

khusanov.u8377@gmail.com

Annotatsiya:

Ushbu maqolada nutq signallarini intellektual tahlil qilishda qo‘llaniladigan

zamonaviy algoritmlar va ularning ilmiy-amaliy ahamiyati ko‘rib chiqiladi. Sun’iy intellekt va
mashinali o‘rganish texnologiyalarining rivojlanishi natijasida nutq signalini avtomatik qayta
ishlash, xususiyatlarini ajratib olish va tanib olish imkoniyatlari kengaymoqda. Tadqiqotda
MFCC, CNN va RNN kabi ilg‘or metodlar asosida modellashtirish jarayonlari tahlil qilinadi.
Nutqni matnga aylantirish, gapiruvchini identifikatsiyalash hamda kontekstni tushunish kabi

Bibliografik manbalar

Musaev, M., Rakhmatullaev, M., Normatov, S., Shukurov, K., Abdullaeva, M. Integrated Intelligent System for Scientific and Educational Information Retrieval. Vide. Tehnologija. Resursi - Environment, Technology, Resources, 2024, 2, страницы 212-219

К. Shukurov, T. Boburkhon and U. Khasanov, "Implementation of speech processing algorithms based on Singular Value Decomposition and Hidden Markov Model," 2021 International Conference on Information Science and Communications Technologies (ICISCT), Tashkent, Uzbekistan, 2021, pp. 01-03, doi: 10.1109/ICISCT52966.2021.9670357.

Musaev, M., Abdullaeva, M., Ochilov, M. Advanced Feature Extraction Method for Speaker Identification Using a Classification Algorithm. A1P Conference Proceedings, 2022, 2656, 020022

S. Kamoliddin Elbobo ugli, K. Shokhrukhmirzo Imomali ugli and K. Umidjon Komiljon ugli, "Uzbek speech commands recognition and implementation based on HMM," 2020 IEEE 14th International Conference on Application of Information and Communication Technologies (AICT), Tashkent, Uzbekistan, 2020, pp. 1-6, doi: 10.1109/AICT50176.2020.9368591.

K. Shukurov, U. Bcrdanov, U. Khasanov, S. Kholdorov and B. Turaev, "The role of adaptive filters in the recognition of speech commands," 2021 International Conference on Information Science and Communications Technologies (ICISCT), Tashkent, Uzbekistan, 2021, pp. 1-4, doi: 10.1109/ICISCT52966.2021.9670084.

J. Tang, X. Chen and W. Liu, "Efficient Language Identification for All-Language Internet News," 2021 International Conference on Asian Language Processing (IALP), Singapore, Singapore, 2021, pp. 165-169, doi: 10.1109/IALP54817.2021.9675270.

L. Sun, "Language Identification with Unsupcrviscd Phoncmc-likc Sequence and TDNN-LSTM-RNN," 2020 15th IEEE International Conference on Signal Processing (ICSP), Beijing, China, 2020, pp. 341-345, doi: 10.1109/ICSP48669.2020.9320919.

J. K. Van Dam and V. Zaytsev, "Software Language Identification with Natural Language Classifiers," 2016 IEEE 23rd International Conference on Software Analysis, Evolution, and Reengineering (SANER), Osaka, Japan, 2016, pp. 624-628, doi: 10.1109/SANER.2016.92.

Yuklashlar

Nashr qilingan

Qanday qilib iqtibos keltirish kerak

Shukurov, K., Xasanov, U., & Rahmonova, M. (2025). Nutq signallari asosida tilni aniqlashning zamonaviy yondashuvlari . Современные проблемы интеллектуальных систем, 1(1), 300-304. https://inconference.uz/index.php/cpis/article/view/71

Nashr

Bo'lim

Статьи

Sahifalar

300-304

##stats.views##

0

##plugins.themes.default.displayStats.downloads##

0
##plugins.themes.default.displayStats.noStats##

Tegishli maqolalar

Bundan tashqari, ushbu maqola uchun shunga o'xshash maqolalar uchun kengaytirilgan qidiruvni boshlang mumkin.