ანოტაციის სახეები

ანოტირება, ზოგადად, ენობრივ მონაცემთა დამუშავების პროცესია, რომელიც მიზნად ისახავს ტექსტის მეტაენობრივი ინფორმაციით აღჭურვას. ვიწრო გაგებით, ანოტირება გულისხმობს ლინგვისტურ ანოტაციის განხორციელებას.

ლინგვისტური ანოტაცია ელექტრონული მონაცემის ლინგვისტური მეტაინფორმაციით გამდიდრების ერთ-ერთი ფორმაა და, როგორც ზემოთ უკვე აღვნიშნეთ, პირველად ენობრივ მონაცემებში ბუნებრივად კოდირებული ლინგვისტური ინფორმაციის ვიზუალიზაციის ყველაზე გავრცელებულ ფორმას წარმოადგენს. კორპუსლინგვისტიკის განვითარების ერთ-ერთ უმნიშვნელოვანეს ეტაპად მიჩნეულია ლინგვისტური ანოტაციის პროცესის პროგრამული ავტომატიზაცია. ამ მიზნის მისაღწევად კორპუსის პროგრამულ ინფრასტრუქტურაში ჩაშენებულია სპეციალური ინსტრუმენტები, რომელთა საშუალებითაც ხორციელდება მიმართება სხვადასხვა სახის პირველად მონაცემთა ბაზებთან (როგორც წესი, ასეთია, მაგ., ლექსიკონი და მორფემათა ბანკი), რაც ლექსემათა ავტომატური ანოტირების საშუალებას იძლევა. ამგვარი მექანიზმით აღჭურვილ კორპუსს ანოტირებული კორპუსი ეწოდება. ანოტირებული კორპუსი ყველაზე მოქნილ რესურსს წარმოადგენს ლინგვისტური კვლევისთვის ენის სხვადასხვა დონეზე.

იმისდა მიხედვით, თუ როგორ ხორციელდება ანოტირების  პროცესი, ანოტირების რამდენიმე სახეს განასხვავებენ:

ა) მანუალურ (ანუ ხელით შესრულებულ) ანოტირებას,

ბ) ავტომატურ ანოტირებას და

გ) სემიავტომატურ ანოტირებას.

მანუალური ანოტირება ერთჯერადი პროცესია, ხელით ხორციელდება და  ძირითადად სამეცნიერო სტატიებში მოყვანილი მაგალითების ანოტირების დროს გამოიყენება. ავტომატური ანოტირება ავტომატიზებული პროცესია, რომელიც რამდენიმე საფეხურად ხორციელდება:

1. ტოკენის კვალიფიცირება ანუ სიტყვაფორმის ანალიზი ფორმის მიხედვით (ფორმაცვალებადი ფორმა-უცვლელი)

2. სეგმენტირება – სიტყვაფორმის დანაწევრება ლექსიკურ და გრამატიკულ მორფემებად;

3. ლემატიზაცია – გამოყოფილი ლემის იდენტიფიცირება ლექსიკონში (შესაძლო ვარიანტების განხილვა);

4. სეგმენტირების შედეგად გამოყოფილი გრამატიკული მორფემების იდენტიფიცირება მორფემულ ლექსიკონში;

5. ლემისა და გრამატიკული მორფემების იდენტიფიცირების შედეგად მიღებული შედეგის ვერიფიცირება;

6. სიტყვაფორმისათვის გრამატიკული მახასიათებლების მინიჭება.

ავტომატური ანოტირებ ავტომატურად, საგანგებო პროგრამის მეშვეობით  ხორციელდება და მოითხოვს შემდეგი რესურსების არსებობას:

1. ლექსიკურ მონაცემთა ბაზა – ლექსიკონი

2. გრამატიკულ მორფემების მონაცემთა ბაზა – მორფემული ლექსიკონი

3. გრამატიკული წესების ბაზა – ლექსემისა და გრამატიკულ მორფემათა თავსებადობის ალგორითმი.

სემიავტომატური ანოტირება ავტომატური ანოტირების გზით ხორციელდება, მაგრამ მოითხოვს ავტომატურად ანოტირებული რესურსების მანუალურად დახვეწას და დაზუსტებას. სემი-ავტომატური ანოტაციის არსებობა  დისამბიგვირების პრობლემით არის განპირობებული: ავტომატური ანოტირების შემთხვევაში ანალიზის პროგრამა ხშირად ვერ ახერხებს სიტყვაფორმის ცალსახა განსაზღვრას  და რამდენიმე ვერსიას გვთავაზობს. ასეთ შემთხვევაში, სიტყვაფორმის “სწორი” კვალიფიცირება მანუალურად ხორციელდება. მაგ., წინადადებაში „დილით ადრე ავდექი“ სიტყვა „დილით“ ავტომატური ანალიზის შემთხვევაში მოგვცემს ორ შესაძლებლობას: 1) დილით < დილ-ით (სიტყვა „დილა-ს“ ნათესაობითი ფორმა) და 2) ფორმაუცვლელი დილით როგორც ზმნიზედა. ასეთ შემთხვევაში სრულყოფილი ავტომატური ანალიზის განსახორციელებლად აუცილებელია მორფოსინტაქსური წესების ბაზის შექმნა. თუ ასეთი ბაზა არ არსებობს მოცემული ენისათვის, ან არსებობს, მაგრამ ავტომატური დისამბიგვირების საკითხი მაინც გადაუჭრელია, მაშინ ანოტირება სემი-ავტომატურად ხორციელდება.

ქართული ენის ეროვნულ კორპუსში ანოტირება სემი-ავტომატურ ხასიათს ატარებს. ავტომატური ანალიზის პროგრამა მიემართება ლექსიკურ მონაცემთა ბაზას, რომელშიც ლექსემები კვალიფიცირებულია მეტყველების ნაწილების მიხედვით (არსებითი სახელი, ნაცვალსახელი, ზმნა, ნაწილაკი და ა.შ.) და წარმოდგენილია სეგმენტირებულად:

ა) სახელების შემთხვევაში გამოყოფილია სახელობითი ბრუნვის ნიშანი (ასეთის არსებობის შემთხვევაში), მითითებულია ფუძის შესაძლო ცვლილები (კუმშვა-კვეცა);

ბ) ზმნების შემთხვევაში კი ზმნისწინი, თემის ნიშანი, საწყისის მაწარმოებელი, ასევე უღვლილების პარადიგმის ძირითადი, პირველი, მეორე და მესამე სერიის ფორმები.

მაგ.:

დარდ-ი – არსებითი სახელი

და-დ-ებ-ა – ზმნა: დებს, დადო, დაუდია

დედა – არსებითი სახელი (კუმშვადი მხ. და მრ. რიცხვში)

დიდ-ი – ზედსართავი სახელი

დრეკ-ა – დრეკს, მოდრიკა, მოუდრეკია

გრამატიკული მორფემების ბაზაში ფლექსიურ მორფემათა ნაკრებია წარმოდგენილი, მაგალითად, ბრუნვის ნიშანი, ქცევის ნიშანი, თანდებული, ზმნისწინი, მავრცობი ხმოვანი და ა.შ., რომელიც საშუალებას გვაძლევს სიტყვაფორმის ანალიზის შედეგად გამოყოფილი მორფემული ინვენტარი ავსახოთ ანოტირებაში:

მაგ.: სახლ-ი-დან გამოსვლ-ის წინ

მორფემული ინვენტარის ჩამონათვალი ამ მაგალითის შემთხვევაში ავტომატურად კვალიფიცირდება როგორც:

(<ით):      მოქმედებითი ბრუნვის ნიშანი

დან:           თანდებული

ის:              ნათესაობითი ბრუნვის ნიშანი

წინ:             თანდებული