Analysis of systems for detecting human emotions through speech signal

Authors

  • Namangan State University
  • Tashkent institute of engineering irrigation and agriculture mechanization. National research university

Abstract

This study is devoted to the analysis of existing systems for detecting human emotions through speech signals, mainly open and closed-source systems are studied and their principles of operation, technical characteristics, capabilities and areas of application are compared. The work also shows the characteristics of the operation and accuracy levels of systems for detecting human emotions through speech signals in different languages.

Keywords:

Speech signal system emotions speech emotion recognition (SER) Artificial intelligence (AI) natural language processing (NLP) deep learning (DL) OpenSMILE DeepSpectrum Wav2Vec 2.0 Beyond Verbal Microsoft Azure

Author Biography

Akbarjon Madamindjonov,
Namangan State University
3rd year basic doctoral student

background image

Современные проблемы интеллектуальных систем. Республиканская научно-практическая конференция. Джизак, 18-19 апреля 2025 г.

55

8. Шувалова, Е. А. (2020). Социальные технологии формирования политического

сознания молодежи. Москва: Издательство МГУ.

9. Петрова, Н. Б. (2021). Участие молодежи в политических процессах: анализ и

рекомендации. Екатеринбург: Издательство Уральского университета.

10. Попова, Т. С. (2017). Правовая культура как фактор гражданской активности

молодежи. Москва: Издательство РГГУ.

NUTQ SIGNALI ORQALI INSON HISSIYOTLARINI ANIQLASH TIZIMLARI

TAHLILI

Madaminjonov Akbarjon Dilshod oʻgli

Namangan davlat universiteti 3-kurs tayanch doktaranti

madaminjonovakbarjon529@gmail.com

Madrahimova Muxtaram Hasanboy qizi

“Toshkent irrigatsiya va qishloq xo‘jaligini mexanizatsiyalash muhandislari instituti”

Milliy tadqiqot universiteti

Annotatsiya

: Mazkur tadqiqot nutq signali orqali inson xis-tuyg‘ularini aniqlashni mavjud

tizimlarini tahlil qilishga bag‘ishlangan bo‘lib, bunda asosan ochiq va yopiq kodli tizimlar
o‘rganilgan va ularni ishlash tamoyillari, texnik xususiyatlari, imkoniyatlari va qo‘llanilish
sohalari taqqoslangan. Shuningdek, ishda nutq signali orqali inson xis-tuyg‘ularini aniqlash
tizimlarini turli tillarda ishlash xususiyatlari va aniqlik darajalari ham ko‘rsatib o‘tilgan.

Kalit so‘zlar

: nutq signali, tizim, xis-tuyg‘u, Speech Emotion Recognition (SER), sun’iy

intellekt, Natural Language Processing, Deep Learning, OpenSMILE, DeepSpectrum, wav2vec
2.0, Beyond Verbal, Microsoft Azure.

АНАЛИЗ СИСТЕМ ОПРЕДЕЛЕНИЯ ЭМОЦИЙ ЧЕЛОВЕКА ПО РЕЧЕВОМУ

СИГНАЛУ

Аннотация:

Данное исследование посвящено анализу существующих систем

обнаружения эмоций человека по речевым сигналам, в основном изучая системы с
открытым и закрытым исходным кодом, сравнивая их принципы работы, технические
характеристики, возможности и области применения. В работе также демонстрируются
эксплуатационные характеристики и уровни точности систем распознавания речевых
сигналов на разных языках.

Ключевые слова:

Речевой сигнал, система, эмоции, распознавание речевых эмоций,

искусственный интеллект, обработка естественного языка, глубокое обучение, OpenSMILE,
DeepSpectrum, Wav2Vec 2.0, Beyond Verbal, Microsoft Azure.

ANALYSIS OF SYSTEMS FOR DETECTING HUMAN EMOTIONS THROUGH

SPEECH SIGNAL

Abstract:

This study is devoted to the analysis of existing systems for detecting human

emotions through speech signals, mainly open and closed-source systems are studied and their
principles of operation, technical characteristics, capabilities and areas of application are
compared. The work also shows the characteristics of the operation and accuracy levels of systems
for detecting human emotions through speech signals in different languages.


background image

Современные проблемы интеллектуальных систем. Республиканская научно-практическая конференция. Джизак, 18-19 апреля 2025 г.

56

Keywords:

Speech signal, system, emotions, speech emotion recognition (SER), Artificial

intelligence (AI), natural language processing (NLP), deep learning (DL), OpenSMILE,
DeepSpectrum, Wav2Vec 2.0, Beyond Verbal, Microsoft Azure.


Kirish

. Nutq signali orqali inson hissiyotlarini aniqlash (Speech Emotion Recognition, SER)

sun’iy intellekt va nutq texnologiyalarini asosiy yo‘nalishlaridan biri sifatida shakllangan [1].
Inson nutqidagi hissiy holatlarni avtomatik aniqlash tizimlariga bo‘lgan talab kundan-kunga ortib
bormoqda. Hissiy xolatni ifodalash insonlar muloqoti mobaynidagi markaziy qism hisoblanadi.
SER tizimlari bugungi kunda mijozlarga xizmat ko‘rsatish sohasida, tibbiyot sohasida, xavfsizlik
tizimlari va boshqa ko‘plab sohalarda qo‘llanilmoqda [2]. Mazkur tadqiqotda SER tizimlarini
ochiq va yopiq kodli dasturiy ta’minotlari tahlil qilingan.

Ochiq kodli tizimlar

OpenSMILE audio tahlil qilish, qayta ishlash va tasniflash uchun to‘liq va ochiq kodli

uskunalar to‘plami sifatida yaratilgan. U C++ dasturlash tilida yozilgan bo‘lib, tez, samarali va
moslashuvchan arxitekturaga ega. Ushbu platforma Windows, macOS, Android, iOS va Respberry
Pi kabi turli qurilmalarda ishlash imkoniyatiga ega. OpenSMILE audioning xissiy, lingvistik
hamda paralingvistik kabi bir qancha xususiyatlarini aniqlashda qo‘llaniladi. Tizim 6 dan 8
tagacha hissiyotlarni aniqlay olish imkoniyatiga ega.

DeepSpectrum oldindan o‘qitilgan CNN (Convolutional Neural Network) yordamida audio

ma’lumotlardan belgilarni ajratib olish uchun Python uskunalar to‘plami sifatida ishlab chiqilgan.
Bu tizim dastlab audio ma’lumotlar uchun vizual tasvirlarni - spektogrammalar yoki
xromagrammalarni syujetlarini yaratadi, so‘ngra oldindan o‘qitilgan Image CNN ga uzatadi.
DeepSpectrum tasvirlarni tanib olish uchun VGG16, ResNet50, DenseNet121 modellaridan
foydalanadi. Tizim 6 dan 10 tagacha bo‘lgan hissiyotni aniqlay olish qobiliyatiga ega bo‘lib,
Windows, macOS, Linux kabi turli platformalarda ishlaydi.

Wav2vec 2.0 Facebook AI tomonidan ishlab chiqilgan va o‘z-o‘zini nazorat qila oladigan)

o‘qitish modeli sifatida taqdim etilgan. Bu tizim nutqni avtomatik tanib olish kabi nutq bilan
bog‘liq boshqa vazifalar uchun mo‘ljallangan. Wav2vec 2.0 10 va undan ortiq hissiyotni aniqlay
olish imkoniyatiga ega. Chuqur o‘qitilgan model bilan esa ushbu ko‘rsatkich 15 dan ortishi
mumkinligi aniqlangan.

Yopiq kodli ser tizimlari

Microsoft Azure Cognitive Services tarkibiga kiruvchi Speech-to-Text va Emotion

Recognition API’lari orqali nutq signallari asosida inson his-tuyg‘ularini aniqlash imkoniyatiga
ega. Ushbu tizim chuqur o‘qitish va signalni qayta ishlash texnologiyalaridan foydalanadi.
Tizimga foydalanuvchi nutqi mikrofon orqali yoki audio fayl sifatida uzatiladi va mavjud
shovqinlarni filtrlash qo‘llaniladi. Pitch, tezlik, intensivlik kabi prosodik xususiyatlar ajratilishi
orqali CNN va LSTM (Long Short-Term Memory) modellari yordamida 8 ta asosiy emotsiya
aniqlanadi. Bu tizim 10 va undan ortiq tillar uchun foydalanilishi mumkin, biroq o‘zbek tili
qo‘llab-quvvatlanmaydi. Ma’lumotlarga ko‘ra, IEMOCAP ma’lumotlar bazasida 79%,
RAVDESS ma’lumotlar bazasida 77% va CREMA-D ma’lumotlar bazasida 73% aniqlikka
erishilgan.

Beyond Verbal faqat nutq orqali insonni his-tuyg‘ularini, stress darajasini va psixofiziologik

holatini aniqlashga ixtisoslashgan yopiq kodli platforma sifatida yaratilgan. U biometrik ovoz
tahlili asosida ishlaydi va sog‘liq, psixologiya, mijozlar bilan muloqot sohalarida qo‘llaniladi.
Beyond Verbal tizimi hissiyotlarni aniqlashni 3 bosqichda amalga oshiradi: dastlab ovoz
signallarini qayta ishlaydi, chuqur o‘qitish modellari yordamida 11 ta asosiy hissiyotlarni
klassifikatsiya qiladi va natija chiqariladi. Tizim 5 va undan ortiq tillarda qo‘llanilishi mumkin,


background image

Современные проблемы интеллектуальных систем. Республиканская научно-практическая конференция. Джизак, 18-19 апреля 2025 г.

57

ammo o‘zbek tili mavjud emas. Tadqiqotlarga ko‘ra, IEMOCAP ma’lumotlar bazasida 81%,
RAVDESS ma’lumotlar bazasida 78%, CREMA-D ma’lumotlar bazasida 75% va Proprietary DB
ma’lumotlar bazasida 87% aniqlikka erishilgan.

Nutq signali orqali inson hissiyotlarini aniqlash tizimlarini tahlil qilish jarayonida ularni

yutuq va kamchilik jihatlari aniqlangan bo‘lib, taqqosh natijalari quyidagi jadvalda batafsil
keltirilgan.

1-jadval

SER tizimlarini yutuq va kamchiliklari

No

Tizim

Yutuqlari

Kamchiliklari

1

OpenSMILE

Ovoz xususiyatlarini aniq

ekstraktsiya qilish imkoniyati,

ochiq kodli platforma,

konfiguratsiya parametrlarini

keng tanlovi.

Chuqur o‘qitish modellariga

nisbatan samaradorlik darajasini

pastligi.

2

DeepSpectrum

Yuqori aniqlik,

spektogramma asosida

ishlaydi, oldindan

tayyorlangan modellarni

qo‘llaydi.

Yuqori texnik resurslar talab

etilishi, o‘qitish jarayonini vaqt

jihatidan uzunligi.

3

Wav2Vec 2.0

O‘z-o‘zini nazorat qilish

qobiliyati, ovoz tushunish

xususiyati.

Katta hisoblash resursi talab

etilishi, ayrim tillarga

moslashish ko‘rsatkichining

pastligi.

4

Microsoft Azure

Bulut texnologiyalarga

asoslangan, yuqori hajmdagi

ma’lumotlarni qayta ishlash

qobiliyati, ovoz sintezi

funksionalligini mavjudligi,

API va SDK orqali

integratsiya imkoniyati.

Pullik xizmat, internet
tarmog‘iga bog‘liqlik,

ma’lumotlar maxfiyligi bo‘yicha

cheklovlar mavjudligi.

5

Beyond Verbal

Klinik tadqiqotlarda

qo‘llanilish imkoniyati, his-

tuyg‘ularni aniq tahlil qilish

xususiyati.

Pullik dasturiy ta’minot, nutqni

matnga o‘girish funksiyasini

yo‘qligi, audioga ishlov berish

funksiyalarini mavjud emasligi,

umumiy nutq tahliliga

moslashmaganlik.

Xulosa.

Nutq signali orqali inson hissiyotlarini aniqlash tizimlari tahlili shuni ko‘rsatadiki,

OpenSMILE, DeepSpectrum, Wav2vec 2.0 kabi ochiq kodli tizimlar moslashuvchan va turli
platformalarda ishlash imkoniyatiga ega. Microsoft Azure, Beyond Verbal kabi yopiq kodli
tizimlar esa yuqori aniqlik darajasiga va keng qamrovli hissiyotlarni aniqlash imkoniyatiga ega.
Biroq, ikkala turdagi tizimlarda ham o‘zbek tili uchun qo‘llab-quvvatlash mavjud emasligi
aniqlangan. SER tizimlarini kelajakda yanada takomillashtirilishi va ko‘proq tillarni qamrab olishi
zarur.

Adabiyotlar ro‘yxati

1.

Mamatov, N. S., Niyozmatova, N. A., Abdullaev, S. S., Samijonov, A. N., & Erejepov, K.

K. (2021, November). Speech recognition based on transformer neural networks. In 2021


background image

Современные проблемы интеллектуальных систем. Республиканская научно-практическая конференция. Джизак, 18-19 апреля 2025 г.

58

International Conference on Information Science and Communications Technologies
(ICISCT) (pp. 1-5). IEEE.

2.

Niyozmatova, N., Jalelov, K., Samijonov, B., & Madaminjonov, A. (2024). SPEECH TO

TEXT AND TEXT TO SPEECH APPLICATIONS. BBC, 53.

QISHLOQ XO‘JALIGI FAOLIYATIDA RAQAMLI TEXNOLOGIYALARDAN

FOYDALANISH BO‘YICHA XORIJIY DAVLATLAR TAJRIBASI

Muxtarova Mohinur Sultonovna

“O‘zdavyerloyiha” DILI 3-bosqich tayanch doktoranti

Annotatsiya:

Ushbu maqolada, iqtisodiyoti rivojlangan dunyo mamlakatlarining qishloq

xo‘jaligi faoliyatida uchuvchisiz uchish qurilmalaridan foydalanishdagi tajribasi hamda
samaradorligi haqida so‘z boradi.

Kalit so‘zlar:

uchuvchisiz uchish qurilmasi, aqlli qishloq xo‘jaligi, fermerlar,

dehqonchilikamaliyoti, ekinlar monitoringi, zararkunandalar, о’g‘it va pestisidlar.

ОПЫТ ЗАРУБЕЖНЫХ СТРАН ПО ИСПОЛЬЗОВАНИЮ ЦИФРОВЫХ

ТЕХНОЛОГИЙ В СЕЛЬСКОХОЗЯЙСТВЕННОЙ ДЕЯТЕЛЬНОСТИ

Аннотация:

В данной статье рассказывается об опыте и эффективности

использования дронов в сельскохозяйственной деятельности экономически развитых стран
мира.

Ключевые слова:

дрон, интеллектуальное сельское хозяйство, фермеры, методы

ведения сельского хозяйства, мониторинг сельскохозяйственных культур, вредители,
удобрения и пестициды.

EXPERIENCE OF FOREIGN COUNTRIES ON THE USE OF DIGITAL

TECHNOLOGIES IN AGRICULTURAL ACTIVITIES

Abstract:

This article talks about the experience and effectiveness of the use of drones in

agricultural activities of economically developed countries of the world.

Keywords:

Drones, smart agriculture, farmers, farming practices, crop monitoring, pests,

fertilizers and pesticides.

Kirish

: Jahon miqyosida qator ilmiy tadqiqot institutlari va kompaniyalar tomonidan aqlli

qishloq xо’jaligi, ya’ni fermerlarga suv, о’g‘it va pestisidlar kabi resurslardan foydalanishni
optimallashtirish, datchiklar, dronlar va sun’iy yо’ldoshlardan olingan ma’lumotlarni tahlil qilish,
ekinlar monitoringi, ularning salomatligi va о’sishini kuzatish uchun dronlar yoki sun’iy
yо’ldoshlardan olingan tasvirlarni tahlil qilish, zararkunandalar va kasalliklarni aniqlash, ularning
tarqalishini bashorat qilish va oldini olish uchun chora-tadbirlar ishlab chiqish, qarorlarni qо’llab-
quvvatlash tizimlari orqali fermer xо‘jaligi ma’lumotlari asosida dehqonchilik amaliyotini
optimallashtirish yо’nalishlariga alohida e’tibor qaratilmoqda.

Qishloq xo‘jaligi-dronlardan foydalanishning eng samarali yo‘nalishlaridan biri hisoblanib,

2023 yilda jahonda uchuvchisiz uchish qurilmalar bozorining 28 foizini tashkil qilgan [4].

Asosiy qism:

Qishloq xо’jaligida UUQdan foydalanish ijobiy о‘zgarishlarni ta’minlab,

ishlab chiqarish xarajatlarini sezilarli darajada kamaytirish imkonini beradi. Bugungi kunga qadar
qishloq xо‘jaligi faoliyatida UUQdan foydalanish bо’yicha AQSH, Xitoy, Yaponiya, Braziliya va
kо’plab Yevropa mamlakatlari katta tajribaga ega. Qishloq xо’jaligida UUQdan foydalanish

References

Mamatov, N. S., Niyozmatova, N. A., Abdullaev, S. S., Samijonov, A. N., & Erejepov, K.K. (2021, November). Speech recognition based on transformer neural networks. In 2021 International Conference on Information Science and Communications Technologies (ICISCT)(pp. 1-5). IEEE.

Niyozmatova, N., Jalelov, K., Samijonov, B., & Madaminjonov, A. (2024). SPEECH TO TEXT AND TEXT TO SPEECH APPLICATIONS. BBC, 53.

Downloads

Published

How to Cite

Madamindjonov, A., & Madrakhimova, M. (2025). Analysis of systems for detecting human emotions through speech signal . Contemporary Problems of Intelligent Systems, 1(1), 55-58. https://inconference.uz/index.php/cpis/article/view/27

Issue

Section

Статьи

Pages

55-58

Views

0

Downloads

0
Download data is not yet available.

Similar Articles

You may also start an advanced similarity search for this article.