ჩამოტვირთვა

ქართული ენის სიხშირული ლექსიკის განსაზღვრა ვებკორპუსის მიხედვით

წინამდებარე ნაშრომი ეხმიანება კორპუსის ლინგვისტიკის უახლეს გამოწვევებს და მასში წარმოდგენილია ქართული ენის სიხშირული ლექსიკის განაწილება ქართული ენის ვებკორპუსის მიხედვით. ნაშრომში განხილულია ლიდსის უნივერსიტეტში შექმნილი ქართული ენის ვებკორპუსი - KaWaC, რომელიც მოიცავს 150 მილიონ სიტყვას და ასახავს თანამედროვე, ცოცხალ ქართულ ენას. ნაშრომში აღწერილია ვებკორპუსის ლემატიზების პროცესი და ქართული ენის სიხშირული ლექსიკის განსაზღვრის მეთოდოლოგია. აღნიშნული კვლევის ფარგლებში განისაზღვრა ყველაზე ხშირად ხმარებული 10 000 ქართული სიტყვა.

სოფიკო დარასელია, სერგეი შაროვი

კონტრასტიკონტრასტი
გაზრდაგაზრდა
შემცირებაშემცირება