Жамият | 09:55
2442
6 дақиқада ўқилади

“Сунъий идрок ҳали ўзбекчани тўлиқ тушунмайди” – Google’дагиларга дарс ўтган ўзбек қизи

Таржима дастурлари ёки чатботлар ўзбек тилида ҳам хатосиз ишлаши учун нима қилиш керак, бунинг учун қандай ёндашувлар талаб этилади? Германиянинг Кайзерслаутерн-Ландау университети магистранти Латофат Бобожонова айни шу каби саволларга жавоб топиш учун илмий изланиш олиб бормоқда. Kun.uz мухбири билан суҳбатда у компютернинг матн ёки нутқ орқали ўзбек тилини яхшироқ тушуниб, қониқарли жавоб қайтариши учун нималар етишмаётгани, Google’даги муаммоларга таклиф этган ечимлари ҳақида гапириб берди.

Video thumbnail
{Yii::t(}
Ўтказиб юбориш 6s

Латофат Бобожонова Тошкент шаҳридаги 266-мактабда таълим олган. Олий таълимнинг бакалавриат босқичини Тошкент ахборот технологиялари университетида дастурий муҳандислик йўналиши бўйича тамомлаган. Шундан сўнг DAAD халқаро стипендиясини ютиб, Германиянинг Кайзерслаутерн-Ландау университетига ўқишга кирган ва сўнгги бир ярим йилда мазкур даргоҳда илмий ходим сифатида фаолият юритган.

У ерда “Кам ресурсли агглутинатив тиллар учун трансформер моделларда морфологик маълумотли токенизаторлар таъсирини ўрганиш” мавзусида илмий иш олиб борган. Ёш олима кам тарқалган ва мураккаб тузилмали тилларда сунъий идрок яхши ишлаши учун сўзларни грамматик жиҳатдан тўғри ажратиш қанчалик муҳимлигини ўрганган. Хусусан, ўзбек тилида табиий тилни қайта ишлаш (NLP) функциясини такомиллаштиришни тадқиқ қилган.

BERT, GPT, LLaMA, T5 каби катта тил моделларининг ўзбек тилида ишлашини яхшилаш борасида изландим. Тадқиқотлар шуни кўрсатдики, агар бу моделларни ўзбек тилидаги матнга сўзлар ёки оддий ҳарфлар кетма-кетлиги асосида эмас, балки морфемаларга ажратган ҳолда ўргатсак, уларнинг ўзлаштириш тезлиги 8 баробар ошади. Бу нимани англатади? Масалан, оддий ҳолатда моделни тўрт кунда тренировка қилиш керак бўлса, морфемаларга асосланган ёндашув билан ушбу жараён атиги ярим кунда якунланади. Натижада сиз нафақат вақт, балки маблағ ва электр энергиясини ҳам тежайсиз. Демак, бу экологик жиҳатдан ҳам фойдалидир. Энг муҳими, қисқа вақт ичида саволларга аниқ жавоб берадиган моделга эришиш мумкин бўлади”, – дейди у.

Латофатнинг айтишича, ўзбекча матнларини рақамли қайта ишлаш жараёнида ақлли тизимларнинг тил бирликларини аниқлай олиши қобилияти муҳим аҳамиятга эга. Чунки ўзбек тилида бир сўз бутун бир жумла функциясини бажариши ҳам мумкин.

Масалан, “келмаганларданмисиз” деган сўз қандай сўз туркумига киради? Бу бирлик юкламами, феълми ёки бутун бир гап вазифасини бажараётган мураккаб бирикмами? Тадқиқот лойиҳамда айнан шу каби саволларга жавоб изладим. Берилган гапдаги ҳар бир сўзнинг от, феъл, сифат сингари қайси сўз туркумига мансублигини нейрон тармоқлар ёрдамида белгилаш функциясини такомиллаштириш таклифларини ишлаб чиқдим. Бундай тизимни яратиш учун аввало ўзбек тилининг лингвистик хусусиятларини чуқур ўргандим. Таҳлил қилишда асосий бирлик нима бўлиши керак — сўзми, морфемами ёки қўшимчами? Шуларни текширдим ва сунъий идрок моделлари учун керакли форматда маълумот тайёрлаш усулларини ёздим. Ўзбек тилининг мураккаблиги, яъни қўшимчалар орқали грамматик маъно ифодалаш тизими (агглутинатив тузилиши) жараённи бироз қийинлаштирди. Инглиз тилида бу каби мураккаблик камроқ учрайди”, – дейди Латофат Бобожонова.

Тадқиқотчининг сўзларига кўра, компютернинг ўзбек тилини тўлиқ тушунишидаги катта муаммоларидан яна бири – бу контекст сезгирлиги (context sensitivity). Матндаги ҳар бир сўз ёнидаги қўшни сўзлар ёки бутун гапга қараб турли сўз туркуми сифатида тавсифланиши мумкин. Бу фақатгина сўз туркумларини аниқлашда эмас, балки бутун матннинг маъносини тўғри ифодалаш ва таҳлил этишда ҳам муҳим рол ўйнайди.

Бугунги кунда ўзбек тилидаги NLP (табиий тилни қайта ишлаш технологияси)нинг асосий муаммоси бошланғич ресурслар, яъни дарсликлар, таҳлил қилинган маълумотлар тўпламининг камлигида. Сунъий идрок моделининг тўғри ишлаши учун, аввало, унга нима тўғри, нима нотўғри эканини аниқ кўрсатиб бера оладиган рақамли маълумотлар базаси зарур”, – дейди ёш олима.

Унинг айтишича, бундай тизимни яратишда фақат грамматик қоидаларни ҳисобга олиш ёки сўзларнинг маъносини тўғри аниқлаш функцияларини ишлаб чиқишнинг ўзи кифоя қилмайди. Тилдан тўғри фойдаланиш учун нафақат грамматика, балки инсоннинг ҳаёт тажрибаси, маданий қадриятлари ва жамиятдаги вазиятларни ҳам билиш талаб этилади.

Бу эса тилшунослар, дастурчилар ва контент муҳандисларининг ўзаро ҳамкорлигини талаб этади. Тилшунослар тилнинг табиати ва қоидаларини тушунтирса, дастурчилар бундай маълумотларни тўғри форматда кодлаш учун технологияларни ишлаб чиқади, контент муҳандислари эса матнларни контекстга мувофиқ тушуниш бўйича манба тайёрлайди. Шундагина биз ўзбек тилида контекстга мувофиқ ишлайдиган, аниқ ва инсон тилига яқин тизимга эга бўлишимиз мумкин”, – дейди у.

Интервю давомида Латофат сунъий идрокнинг илмий тадқиқотларда қўлланиши, промпт муҳандислиги ҳақидаги фикрлари билан бўлишди. Шунингдек, Google компаниясидаги фаолияти, у ердаги муаммоларга таклиф этган ечимлари, иш таклифлари келиб тушаётганига қарамай нега бу йирик компанияга қайтмаётгани ҳақида гапириб берди.

Суҳбатни тўлиқ ҳолда Kun.uz’нинг YouTube’даги каналида томоша қилишингиз мумкин.

Диёрахон Набижонова суҳбатлашди.
Оператор: Зияддин Мамматжонов
Монтаж устаси: Абдуллоҳ Ҳасанов

Мавзуга оид