ანოტაცია

ანოტაცია (annotation)  კორპუსლინგვისტიკის ერთ-ერთი საბაზისო ცნებაა. კორპუსლინგვისტიკაში იგი ორივე დარგიდან, როგორც ლინგვისტიკიდან, ისე ინფორმატიკიდან შემოვიდა. ლინგვისტიკაში ანოტაცია ნიშნავს ენობრივი  ერთეულის დესკრიპციულ ან ანალიტიკურ  დახასიათებას გრამატიკული ნიშნების მიხედვით. მაგ,: ქვემოთ მოყვანილი წინადადების „თხამ შეჭამა ვენახი“ ანოტაცია ასე გამოიყურება:

თხამ – არსებითი სახელი, მხოლობითი რიცხვი, მოთხრობითი ბრუნვა;

შეჭამა – ზმნა, გარდამავალი, ნამყო სრული, 1. სუბიექტური პირი, 3. ობიექტური პირი;

ვენახი – არსებითი სახელი, მხოლობითი რიცხვი, სახელობითი ბრუნვა;

ინფორმატიკაში ანოტაცია მონაცემთა პროგრამული დამუშავების დროს გამოიყენება, როგორც დამატებითი საშუალება მეტამონაცემებისა და საბაზისო ტექსტის ურთიერთბმულობის მიზნით.

კორპუსლინგვისტიკაში ანოტაცია  მეტამონაცემის სახეს წარმოადგენს და კორპუსული კვლევის განხორციელების აუცილებელი კომპონენტია. იგი გამოიყენება როგორც კორპუსის უმცირესი შინაარსობრივი ელემენტების, კოჰერენტული ტექსტების შესახებ დამატებითი ინფორმაციის წარმოსადგენად (იხ. ჰედერი), ისე სიტყვაფორმების გრამატიკული დახასიათების მიზნით. მაგრამ,  სანამ დაწვრილებით ვისაუბრებთ კორპუსლინგვისტიკაში ანოტაციის ფენომენის შესახებ, მოდით გავიხსენოთ, რა არის კორპუსი.

კორპუსი ზემოთ ამგვარად განვსაზღვრეთ:

კორპუსი არის შემოკლებული აღნიშვნა ცნებისათვის ტექსტკორპუსი ან ტექსტური კორპუსი. კორპუსლინგვისტიკაში იგი აღნიშნავს რომელიმე (ავთენტური) ენის წერილობითი ძეგლების ან წერილობით დოკუმენტირებული იმ ზეპირმეტყველების ნაკრებს, რომელიც, როგორც წესი, ელექტრონულ მატარებლებზე არის გადატანილი (ანუ გაციფრებულია) და მანქანურად დამუშავებადია – ტექსტები სტრუქტურირებულია საგანგებო ნიშნულებით, გარდა საკუთრივ პირველადი (ანუ ენობრივი) მონაცემებისა, დამატებით შეიცავს მეორეულ ინფორმაციას (მეტამონაცემებს და ლინგვისტურ ანოტაციას) და აღჭურვილია კორპუსის მართვის სპეციალური სისტემით _ კორპუსის მენეჯერით.

სტრუქტურული თვალსაზრისით, კორპუსი გარკვეული შინაარსობრივი და სამეცნიერო კრიტერიუმების შედეგად შექმნილი გაციფრებული ტექსტების სტრუქტურირებული კრებულია, რომელიც სამ კომპონენტს აერთიანებს:

ა) გარკვეული ჟანრისა და ტიპის ტექსტებს – მონაცემებს;

ბ) დამატებით ინფორმაციას მათ შესახებ – მეორად მონაცემებს (მეტამონაცემებს);

გ) კორპუსის მართვის სპეციალურ სისტემას – კორპუსის მენეჯერ.

მეორადი მონაცემები, თავის მხრივ, სამი ტიპის კომპონენტს მოიცავს:  მეტამონაცემი  (metadata), ტექსტის საგანგებო მარკირების ფორმა (textual markup) და ლინგვისტური ანოტაცია (linguistic annotation). ლინგვისტური ანოტაცია ანოტაციის სპეციალური სახეა და მას ხშირად ინტერლინეალურ ანოტაციასაც უწოდებენ. ამ ტერმინის სინონიმად ქართულში გამოიყენება ხაზთაშორისი ანოტაციას (შდრ.: ხაზთაშორისი გლოსირების პრინციპი). ვინაიდან მეტამონაცემებისა და ტექსტის მარკირების ფორმების შესახებ ზემოთ უკვე გვქონდა საუბარი, ამჯერად მხოლოდ ლინგვისტურ ანოტაციას შევეხებით.

ლინგვისტური ანოტაცია არის ანოტირების სახე – ენობრივი მონაცემების ლინგვისტური ანალიზის შედეგად მოპოვებული ინფორმაცია, რომელიც ანოტაციის ერთ ან რამდენიმე დონეზე (იხ. ანოტაციის დონეები) გადანაწილდება. ლინგვისტური ანოტაციის შემთხვევაში განარჩევენ დესკრიფციულ და ანალიტიკურ ანოტაციას. დესკრიფციული ანოტაცია ძირითადად ფორმალური ნიშნების მიხედვით ახდენს ენობრივი მონაცემების (ანუ სიტყვაფორმების) დახასიათებას – ბრუნვა, პირი, მწკრივი და ა.შ., ანალიტიკური ანოტაციის დროს კი ყურადღება ექცევა არაფორმალურ მახასიათებლებსაც, მაგ,: ნულით წარმოდგენილ მორფემებს და გრამატიკულ კატეგორიებს, რომლებიც ფორმალურად არ არის მოცემული სიტყვაფორმაში.  მაგ., სიტყვაფორმა „წერ“ მხოლოდ ფუძითაა წარმოდგენილი, თუმცა ზმნური პარადიგმის აწმყოს მწკრივის ფორმაა და მიუხედავად იმისა, რომ პირის ნიშანი არ მოეპოვება, შეეწყობა სუბიექტი მეორე პირში და ობიექტი მესამე პირში (შდრ.: შენ წერ ლექსებს).

ლინგვისტური ანოტაცია ელექტრონული მონაცემის ლინგვისტური მეტაინფორმაციით გამდიდრების ერთ-ერთი ფორმაა და წარმოადგენს პირველად ენობრივ მონაცემებში ბუნებრივად კოდირებული ლინგვისტური ინფორმაციის ინტერლინეალური ვიზუალიზაციის ყველაზე გავრცელებულ ფორმას.

კორპუსლინგვისტიკის განვითარების ერთ-ერთ უმნიშვნელოვანეს ეტაპად მიჩნეულია ლინგვისტური ანოტაციის პროცესის პროგრამული ავტომატიზაცია. ამ მიზნის მისაღწევად კორპუსის პროგრამულ ინფრასტრუქტურაში ჩაშენებულია სპეციალური ინსტრუმენტები, რომელთა საშუალებითაც ხორციელდება მიმართება სხვადასხვა სახის პირველად მონაცემთა ბაზებთან (როგორც წესი, ასეთია, მაგ., ლექსიკონი და მორფემათა ბანკი). ლექსიკონისა და მორფემათა ბანკის გარდა ავტომატური ანოტაციის დროს მოიხმარება ე.წ. “წესების ბანკი” (Rools), რომელიც წარმოადგენს მორფოლოგიური და მორფოსინტაქსური წესების ჩამონათვალს და ლოგიკურ მიმართებებს მათ შორის.

კორპუსის პროგრამულ ინფრასტრუქტურაში ჩაშენებული ეს სპეციალური ინსტრუმენტები სიტყვაფორმათა ავტომატური ანოტირების საშუალებას იძლევა. ამგვარი მექანიზმით აღჭურვილ კორპუსს ანოტირებული კორპუსი ეწოდება.

ავტომატური ანალიზი ხორციელდება საგანგებო პროგრამის – მორფოლოგიური ან მორფოსინტაქსური ანალიზატორის – საშუალებით.  მორფოლოგიური ანალიზი რამდენიმე ეტაპად ხორციელდება:

1. სიტყვაფორმა სეგმენტირდება ლექსიკურ და გრამატიკულ მორფემად/მორფემებად;

2. სეგმენტირებული ელემენტები იდენტიფიცირდება მორფემულ ინვენტართა ბანკსა და  ლექსიკონში;

3. მიღებული შედეგები ვერიფიცირდება წესების ბანკზე დაყრდნობით.

112

ეს პროცესი არ უნდა წარმოვიდგინოთ ერთმანეთისაგან იზოლირებულად, ეს კომპლექსური ოპერაციაა, რომელიც ურთიერთმიმართების პრინციპზეა აგებული.

მაგ.: სიტყვაფორმა “სპეციალობაზე”, რომელიც ლექსიკონისა და მორფემული ბანკის მონაცემების მიხედვით ასე დაიშლება: სპეციალობა-ზე.  სეგმენტირების შედეგად მიღებული –ზე თანდებული იძებნება მორფემულ ინვენტართა ბანკში, ხოლო ლექსიკური მორფემა სპეციალობა კი ლექსიკონში იდენტიფიცირდება, როგორც ლექსიკური ერთეული “სპეციალობა”. მიუხედავად იმისა, რომ მიცემითი ბრუნვის ნიშანი სიტყვაფორმაში წარმოდგენილი არ არის, იგი მაინც  კვალიფიცირდება როგორც მიცემითი ბრუნვის ფორმა, ვინაიდან წესების ბანკის მიხედვით –ზე თანდებული სახელს მხოლოდ მიცემით ბრუნვაში დაერთვის. წესების ბანკში ასევე აისახება კუმშვისა და კვეცის წესები, ისევე როგორც მორფემათა სლოტები­/მორფემათა რანგი (მორფემათა თანმიმდევრობის წესები).

ამბიგური (ომონიმური) ფორმების შემთხვევაში ომონიმიის მოსახსნელად გამოიყენება დამატებითი მორფოსინტაქსური წესები. განვიხილოთ, მაგალითად, მორფოლოგიური ომონიმიის შემთხვევა ასეთი წინადადების მაგალითზე: “სოკოს პოვნას რა უნდა?!”.

წმინდა მორფოლოგიური თვალსაზრისით, ცალკე აღებული სიტყვაფორმა სოკოს  წინადადებაში (ლექსიკონზე დაყრდნობით) შეიძლება იყოს:

1. არსებითი სახელის სოკო მიცემითი ბრუნვის ფორმა;

2. არსებითი სახელის სოკო ნათესაობითი ბრუნვის ფორმა;

ზემოთ მოყვანილ წინადადებაში სოკოს მიემართება სიტყვაფორმას „პოვნა“ და მასთან ერთად ქმნის სახელურ ფრაზას: სოკოს პოვნა.  სიტყვაფორმა სოკოს ამ შემთხვევაში ატრიბუტული ფუნქციით არის გამოყენებული და შესაბამისად,  კვალიფიცირდება, როგორც ნათესაობითი ბრუნვის ფორმა.

სხვა წინადადებაში, მაგალითად, “ტყეში სოკოს ადვილად ვიპოვი?!”   სოკოს მიემართება ზმნას  „ვიპოვი“, შეეწყობა მას როგორც პირდაპირი დამატება: მე (S) ვიპოვი (V) მას/ სოკოს (DO) და შესაბამისად, კვალიფიცირდება როგორც არსებითი სახელის სოკო  მიცემითი ბრუნვის ფორმა. ლინგვისტური ანალიზის ამგვარი ლოგიკა ფორმალიზებულია მანქანურ ენაზე და ხორციელდება მორფოსინტაქსური წესების ბანკზე დაყრდნობით.

ანოტირებული კორპუსი ლინგვისტური კვლევის ყველაზე მოქნილ რესურსს წარმოადგენს და კორპუსის მეცნიერულ ღირებულებას საგრძნობლად ამაღლებს.