NLP Uchun mos big data texnologiyalari

Mualliflar

  • Alisher Navoiy nomidagi Toshkent davlat o‘zbek tili va adabiyoti universiteti

Annotasiya

Zamonaviy Big Data texnologiyalari va vositalari yordami bilan o‘zbek tilidagi ulkan matnlar ustida ilgari bajarilishi qiyin bo'lgan vazifalar ham amalga oshirilmoqda. Katta hajmdagi korpuslardan til modellari o'qitish, real vaqt chatlardan ma’noli ma’lumot ajratish, matnlami semantik indckslash va qidiruv tizimlarini yaratish - bulaming barchasi cndilikda Hadoop, Spark, NoSQL, Kafka, Elasticsearch singari platformalar integratsiyasi orqali hayotga tadbiq etilmoqda.

Kalit so‘zlar:

Apache Hadoop Apache Spark NoSQL Apache Kafka Elasticsearch bulutli platformalar

Muallif biografiyasi

Mastura Primova,
Alisher Navoiy nomidagi Toshkent davlat o‘zbek tili va adabiyoti universiteti
o‘qituvchi

background image

Современные проблемы интеллектуальных систем. Республиканская научно-практическая конференция. Джизак, 18-19 апреля 2025 г.

197

Figure 1. Results of measuring the quality of the classical logistic regression method

The value of 0.80 corresponds to the standard procedure of sliding control on five subsets.

It is evident from the graph that the modified logistic regression method (LRB) significantly
outperforms the classical method (LR) in situations where the length of the training sample is small
compared to the length of the test sample. In a situation where the training sample is of sufficient
size, the indicators of the methods are compared.

References

1.Feldman, Ronen, and James Sanger. The textmining handbook: advanced approaches in

analyzing unstructured data. Cambridge University Press, 2007.

2.Roberta Akemi Sinoara, Joгo Antunes and Solange Oliveira Rezende. “Text mining and

semantics: a systematic mapping study” Journal of the Brazilian Computer Society (2017) DOI
10.1186/s13173-017-0058-7.

3.Jurek, Anna, Maurice D. Mulvenna, and Yaxin Bi. "Improved lexicon-based sentiment

analysis for social media analytics."Security Informatics 4.1 (2015):1-13.

4.Doshchanova M. Y. et al. Method of selecting informative signs for determining the state

of sports readiness of athletes //2023 5th International Congress on Human-Computer Interaction,
Optimization and Robotic Applications (HORA). – IEEE, 2023. – С. 1-8.

NLP UCHUN MOS BIG DATA TEXNOLOGIYALARI

Primova Mastura Hakim qizi

Alisher Navoiy nomidagi Toshkent davlat o‘zbek tili va adabiyoti universiteti o‘qituvchi

primovamastura@navoiy-uni.uz

Annotatsiya:

Zamonaviy Big Data texnologiyalari va vositalari yordami bilan o‘zbek

tilidagi ulkan matnlar ustida ilgari bajarilishi qiyin bo‘lgan vazifalar ham amalga oshirilmoqda.
Katta hajmdagi korpuslardan til modellari o‘qitish, real vaqt chatlardan maʼnoli maʼlumot ajratish,
matnlarni semantik indekslash va qidiruv tizimlarini yaratish – bularning barchasi endilikda
Hadoop, Spark, NoSQL, Kafka, Elasticsearch singari platformalar integratsiyasi orqali hayotga
tadbiq etilmoqda.

Kalit so‘zlar:

Apache Hadoop, Apache Spark, NoSQL, Apache Kafka, Elasticsearch,

bulutli platformalar

ТЕХНОЛОГИИ БОЛЬШИХ ДАННЫХ, ПОДХОДЯЩИЕ ДЛЯ ОБРАБОТКИ

ЕСТЕСТВЕННОГО ЯЗЫКА

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0,00

0,20

0,40

0,60

0,80

1,00

LR

LRB

SSSLR


background image

Современные проблемы интеллектуальных систем. Республиканская научно-практическая конференция. Джизак, 18-19 апреля 2025 г.

198

Аннотация:

С помощью современных технологий и технологий больших данных

также становится сложно реализовать большие объемы текстов на узбекском языке.
Обучение языковых моделей из больших корпусов, извлечение содержательной
информации из чатов в реальном времени, семантическое индексирование текстов и
создание поисковых систем — все это теперь реализуется посредством интеграции таких
платформ, как Hadoop, Spark, NoSQL, Kafka и Elasticsearch.

Ключевые слова:

Apache Hadoop, Apache Spark, NoSQL, Apache Kafka, Elasticsearch,

облачные платформы.

BIG DATA TECHNOLOGIES SUITABLE FOR NATURAL LANGUAGE

PROCESSING

Abstract:

With the help of modern technologies and big data technologies, it is also

becoming difficult to implement large volumes of texts in the Uzbek language. Training language
models from large corpora, extracting meaningful information from real-time chats, semantic
indexing of texts and creating search engines are all now implemented through the integration of
platforms such as Hadoop, Spark, NoSQL, Kafka and Elasticsearch.

Keywords:

Apache Hadoop, Apache Spark, NoSQL, Apache Kafka, Elasticsearch, cloud

platforms.


Kirish:

Matnni qayta ishlash (NLP) va xususan N-gram tahlili katta hajmdagi

maʼlumotlarda samarali amalga oshirilishi uchun bir qator zamonaviy Big Data texnologiyalari
qoʻllaniladi. Quyida ularning asosiy xususiyatlari keltiriladi:

Apache Hadoop:

Ochiq kodli katta maʼlumotlarni qayta ishlash platformasi boʻlib, keng

koʻlamli batch (paketli)

rejimda tahlil va saqlashga moʻljallangan. Hadoop HDFS (Hadoop

Distributed File System) orqali terabayt va petabaytlab maʼlumotlarni saqlaydi, MapReduce
modeli esa ularni parallel tarzda qayta ishlashni taʼminlaydi[1]. Ushbu tizim yuqori skalalanish va
iqtisodiy samaradorlikka ega, ammo real vaqtda maʼlumotni qayta ishlashga mos emas, ya’ni
kechikishi katta.

Apache Spark:

Umumiy maqsadli, tarqatilgan hisoblash tizimi bo‘lib, Hadoop

MapReduce’ning cheklovlarini bartaraf etish maqsadida yaratilgan. Spark katta hajmdagi
maʼlumotlarda

batch

va

streaming (oqim)

rejimida ishlov berishni, interaktiv analizni hamda

mashinali o‘qitish

va

SQL soʻrovlarini bajarishni

qoʻllab-quvvatlaydi. Operativ xotirada

hisoblash va optimallashtirilgan DAG (Directed Acyclic Graph) bajaruv mexanizmi tufayli Spark
Hadoop’ga nisbatan ancha tezkor va moslashuvchan hisoblanadi. Biroq uning arxitekturasi
nisbatan murakkabroq va katta xotira hamda resurslarni talab qiladi. Spark ekotizimida Spark
SQL, Spark Streaming (strukturaviy oqim), MLlib (mashina oʻrganish kutubxonasi) kabi
komponentlar mavjud bo‘lib, katta maʼlumotlarda yuqori darajada tahlil va modellashtirish
imkonini beradi.

NoSQL maʼlumotlar bazalari (MongoDB, Cassandra):

Anʼanaviy SQL-relatsion

bazalardan farqli oʻlaroq, NoSQL tizimlari maʼlumotni moslashuvchan, noanʼanaviy formatlarda
saqlaydi. MongoDB hujjat-oriented baza bo‘lib, maʼlumotlarni JSON/BSON hujjatlar shaklida
saqlashga ixtisoslashgan va turli yarim tuzilmaviy matnli maʼlumotlarni oson qabul qiladi

1

.

Apache Cassandra esa keng ustunli (wide-column) taqsimlangan baza boʻlib, tezkor yozish-oʻqish
amallari va gorizontal skalalanish uchun moʻljallangan. NoSQL bazalari katta hajmdagi
strukturalanmagan matnli maʼlumotlarni shardlash va replikatsiya orqali bir nechta serverlarga

1

https://aws.amazon.com/ru/compare/the-difference-between-cassandra-and-mongodb


background image

Современные проблемы интеллектуальных систем. Республиканская научно-практическая конференция. Джизак, 18-19 апреля 2025 г.

199

bo‘lib saqlaydi, shu tariqa gorizontal kengayish va nosozlikka chidamlilikni taʼminlaydi[2].
Masalan, Cassandra klasteri bir vaqtning oʻzida millionlab yozuvlarni qayd etishi va o‘qishi
mumkin, MongoDB esa moslashuvchan sxema va toʻliq indekslash imkoniyati bilan matnli
hujjatlarni tezkor qayd etish va qidirishni taʼminlaydi.

Apache Kafka:

Katta tezlikda keluvchi maʼlumotlar oqimini qayta ishlashga moʻljallangan

tarqatilgan xabarlar tizimi (messaging platformasi) hisoblanadi. Kafka vositasida real vaqtda
maʼlumotlarni (masalan, loglar, sensor maʼlumotlari yoki ijtimoiy tarmoq xabarlari) qabul qilish
va boshqa tizimlarga uzatish amalga oshiriladi. U publish-subscribe modeli orqali ishlaydi: ishlab
chiqaruvchilar (producers) xabarlarni navbatga (topic) yozadi, isteʼmolchilar (consumers) esa
ularga obuna boʻlib oladi. Kafka klasteri bir necha broker nodelardan iborat boʻlib, xabarlarni
bo‘laklarga (partitions) ajratib tarqatadi va har bir bo‘lak bir nechta nodlarda replikatsiya qilinadi
– bu esa baland o‘tkazuvchanlik va past kechikish bilan ishonchli oqim uzatishni taʼminlaydi.
Kafka boshqa Big Data vositalari bilan ham chambarchas integratsiyalasha oladi: masalan,
Kafka’da kelayotgan oqim maʼlumotlarini Spark Streaming yoki Apache Flink yordamida real
vaqtda tahlil qilish, yoki ularni Hadoop HDFS ga yozib borish mumkin.

Elasticsearch:

Matnli maʼlumotlar uchun mo‘ljallangan tarqatilgan qidiruv va tahlil tizimi.

Elasticsearch katta hajmdagi matn maʼlumotlarini indekslash va ularda tezkor qidiruvni amalga
oshirishga ixtisoslashgan

1

. U JSON hujjatlar tarzida maʼlumot saqlaydi va avtomatik ravishda

matnni tahlil qilib, lugʻaviy birliklarga (tokenlarga) ajratadi hamda invertlangan indeks tuzadi. Bu
indeks maʼlumotlarda soʻzlarning uchrashuv joylarini saqlab, keyinchalik matn bo‘yicha qidiruvni
juda tez amalga oshirish imkonini beradi. Elasticsearch klasterlari bir nechta nodelardan tashkil
topadi; maʼlumotlar shardlarga boʻlinib tarqatiladi va har bir shard nusxalari (replica) boshqa
nodelarga tarqatiladi – bu yondashuv katta hajmdagi matn korpuslarini gorizontal kengaytirib
saqlash va yuqori ishlashni taʼminlaydi. Elasticsearch yordamida, masalan, katta hajmdagi
hujjatlar korpusida bir soniyadan kam vaqt ichida toʻliq matnli qidiruv (near real-time search)
amalga oshirish mumkin. Shuningdek, u tabiiy tilni qayta ishlashga oid turli analizatorlar
(masalan, soʻzlarni asosiy shaklga keltirish, stop-suzlarni filtrlash) bilan taʼminlangan.

Bulutli platformalar (AWS, Google Cloud, Azure):

Bulutli hisoblash xizmatlari Big Data

texnologiyalarini keng miqyosda qo‘llashni ancha soddalashtirdi. AWS, Azure va GCP kabi yirik
provayderlar katta hajmdagi maʼlumotlarni saqlash va qayta ishlash uchun moʻljallangan
infratuzilmani xizmat sifatida taklif etadilar

2

. Masalan, AWS platformasida Amazon S3 obyektli

saqlash (cheksiz skalalanadigan “data lake”), Amazon EMR (Hadoop/Spark klasterlari xizmati),
Amazon Kinesis (real vaqt oqimlarini qayta ishlash) va Amazon Comprehend (tayyor NLP
xizmati) kabi komponentlar mavjud. Google Cloud platformasida esa Cloud Storage va BigQuery
katta maʼlumotlar ombori, Dataproc (Hadoop/Spark klasterlari), Dataflow (stream va batch ishlov
berish) hamda Natural Language API kabi xizmatlar mavjud. Microsoft Azure ham xuddi shunday
Azure Blob Storage yoki Data Lake Storage, HDInsight (Hadoop/Spark), Event Hubs (oqimlar
uchun) va Cognitive Services (NLP va AI xizmatlari)ni taklif etadi. Bulut texnologiyalari
yordamida foydalanuvchilar jismoniy serverlarni boshqarish zaruratisiz istalgan hajmdagi matn
maʼlumotlari bilan ishlovchi klasterlarni ishga tushirishlari, real vaqtda kengaytirish yoki
qisqartirishlari mumkin. Xususan, uch yirik provayder katta hajmdagi datasetlar bilan ishlash,
mashina o‘rganish va sunʼiy intellekt amaliyotlarini joriy etish uchun kuchli va moslashuvchan
muhit taqdim etadi.

1

https://www.signitysolutions.com/tech-insights/elasticsearch-real-time-analytics-guide

2

https://medium.com/@ismahfaris/data-ml-deep-dive-aws-azure-gcp-a32cf470aa1d


background image

Современные проблемы интеллектуальных систем. Республиканская научно-практическая конференция. Джизак, 18-19 апреля 2025 г.

200

Yuqoridagi texnologiyalar matn maʼlumotlarini qayta ishlashning turli bosqichlarida yoki

maqsadlarida qoʻllaniladi. Koʻpincha, Hadoop arxitekturasi arxivlangan katta maʼlumotlarni batch
tarzda tahlil qilishda, Spark tezkor analitik va iterativ AI vazifalarida, Kafka real vaqtdagi
maʼlumot uzatishda, NoSQL bazalari matn va metamaʼlumotlarni saqlashda, Elasticsearch esa
qidiruv va filtrlamada oʻzaro toʻldiruvchi tarzda ishlatiladi. Bulut platformalari esa ushbu barcha
vositalarni integratsiyalash va orkestratsiya qilish uchun qulay zamin yaratadi.

Adabiyotlar ro‘yxati

1.Muller, J. (2020). Scalable Data Architectures for Real-Time Big Data Analytics: A

Comparative Study of Hadoop, Spark, and Kafka.

International Journal of AI, BigData,

Computational and Management Studies

,

1

(4), 8-18.

2.Karimberdiyevich, O. M., Abdulaziz o‘g‘li, Y. M., & Karimjon o‘g‘li, M. D. (2024). Big

datada matnli ma’lumotlarni o‘qitish va tahlil qilish.

IZLANUVCHI

,

1

(1), 23-31.

3. https://aws.amazon.com/ru/compare/the-difference-between-cassandra-and-mongodb
4. https://www.signitysolutions.com/tech-insights/elasticsearch-real-time-analytics-guide
5. https://medium.com/@ismahfaris/data-ml-deep-dive-aws-azure-gcp-a32cf470aa1d

ТРАНСФОРМАЦИЯ ТРУДОВЫХ ОТНОШЕНИЙ В УЗБЕКИСТАНЕ:

АНАЛИЗ ВНЕДРЕНИЯ УДАЛЕННОЙ РАБОТЫ С ВНЕДРЕНИЕМ ИИ

Атамуратова Гулрух Музафаровна

ассистент кафедры «Общественных наук» филиала КФУ в г. Джизаке

gul.ruh@mail.ru

Аннотация

: Статья «Трансформация трудовых отношений в Узбекистане: анализ

внедрения удаленной работы с внедрением ИИ» выявляет специфические факторы,
влияющие на развитие удаленной работы в Узбекистане, и предлагает практические
рекомендации для бизнеса и регуляторов. А также рассматривает оценку потенциала
внедрения ИИ для поддержки удаленной работы в Узбекистане и разработку практических
рекомендаций.

Ключевые слова:

удаленная работа, ИИ, бизнес, государство, работа в Узбекистане,

гибридный формат ведения деятельности, Интернет, кибербезопасность.

TRANSFORMATION OF LABOR RELATIONS IN UZBEKISTAN: ANALYSIS

OF THE IMPLEMENTATION OF REMOTE WORK WITH THE

IMPLEMENTATION OF AI

Annotation

: The article “Transformation of Labor Relations in Uzbekistan: Analysis of the

Implementation of Remote Work with the Introduction of AI” identifies specific factors
influencing the development of remote work in Uzbekistan and offers practical recommendations
for businesses and regulators. It also considers the assessment of the potential for the introduction
of AI to support remote work in Uzbekistan and the development of practical recommendations.

Keywords:

remote work, AI, business, government, work in Uzbekistan, hybrid format of

doing business, Internet, cybersecurity.

MEHNAT MUNOSABATLARINING TRANSFORMATSIYASI: SUN’IY

INTELLEKTNI JORIY ETGAN HOLDA MASOFAVIY ISHLASHNI TATBIQ ETISH

TAHLILI

Bibliografik manbalar

Muller, J. (2020). Scalable Data Architectures for Real-Time Big Data Analytics: A Comparative Study of Hadoop, Spark, and Kafka. International Journal of Al, BigData, Computational and Management Studies, 1(A), 8-18.

Karimberdiyevich, О. M., Abdulaziz o‘g‘li, Y. M., & Karimjon o‘g‘li, M. D. (2024). Big datada matnli ma’lumotlarni o'qitish va tahlil qilish. IZLANUVCHI, /(1), 23-31.

https://aws.amazon.com/ru/compare/the-difference-between-cassandra-and-mongodb

https://www.signitvsohitions.com/tech-insights/elasticsearch-real-timc-analytics-guidc

https://medium.eom/@ismahfaris/data-ml-deep-dive-aws-azure-gcp-a32cf470aald

Yuklashlar

Nashr qilingan

Qanday qilib iqtibos keltirish kerak

Primova, M. (2025). NLP Uchun mos big data texnologiyalari . Современные проблемы интеллектуальных систем, 1(2), 197-200. https://inconference.uz/index.php/cpis/article/view/96

Nashr

Bo'lim

Статьи

Sahifalar

197-200

##stats.views##

0

##plugins.themes.default.displayStats.downloads##

0
##plugins.themes.default.displayStats.noStats##