O‘zbek tilida pos tegging masalasi: muammo va takliflar
Ключевые слова:
Teg, razmetka, annotatsiya, tegset, NLP, korpus, CLAWSАннотация
Til korpusi qurilishida lingvistik ta’minot masalasi muhim va
murakkab hisoblanadi. Korpuslarda matnlardagi nutq bo‘laklariga
mos identifakatorini belgilash jarayoni muammolidir, sababi tilni
modellashtirish teglash qoidasi va tilda mavjud qonuniyat bilan bog‘liq.
Teglash, xususan, grammatik teglash yoki PoS tegging o‘zbek korpus
lingvistikasi uchun ham dolzarb masaladir. Chunki maxsus “kodlangan”
belgilar tizimi o‘zbek tili bilan bog‘liq NLP masalalarini yechishda birlamchi
kalit bo‘lib xizmat qiladi. Maqolada teg va PoS tegging masalasining jahon
tilshunosligidagi o‘rganilishi tahlil qilindi, o‘zbek tilshunosligidagi hozirgi
teglash jarayoniga nazar tashlandi. Jahonda keng qo‘llanib kelinayotgan
tegsetlardan oziqlangan holda o‘zbek tili qonuniyatlari asosida muqobil
tegset taklif qilindi.