კორპუსის პრერეკვიზიტები

კორპუსი, როგორც წესი, აღჭურვილია საგანგებო პრერეკვიზიტებით, რომელიც კორპუსში ძიების პროცესს უზრუნველყოფს. კორპუსის პრერეკვიზიტებიდან გამომდინარე, კორპუსში შესაძლებელია როგორც მარტივი, ისე რთული ძებნის განხორციელება. განვიხილოთ კორპუსში ძიების ორივე სახე  ქართული ენის ეროვნული კორპუსის მაგალითზე.

მარტივი ძებნა

მარტივი ძებნა, როგორც ძიების სახე, კორპუსში ძიების ყველაზე გავრცელებული ფორმაა. მის სინონიმად საბაზისო ძებნაც გამოიყენება (იხ. ქეეკ). მარტივი ძებნა საშუალებას იძლევა კორპუსში მოვძებნოთ ცალკეული სიტყვაფორმა, მოცემული მორფოლოგიური ელემენტის შემცველი ყველა სიტყვაფორმა ან ძებნა განვახორციელოთ მეტყველების ნაწილების მიხედვით. განვიხილოთ თითოეული ცალ-ცალკე.

ა) ცალკეული სიტყვაფორმის ძიება კორპუსში

კორპუსში მარტივი ძებნის ერთი კონკრეტული მაგალითია ცალკეული სიტყვაფორმის მოძებნა, მაგალითად: „კაც“. მარტივი ძებნა, როგორც წესი, ემყარება გრაფემების თანმიმდევრულობის პრინციპს – კორპუსში იძებნება ყველა ის სიტყვაფორმა (ანუ ტოკენი), რომელიც შედგება //, // და // გრაფემების თანმიმდევრული ჯაჭვისაგან. ასეთი კი შეიძლება იყოს სიტყვაფორმები: კაცი, კაცმა, კაცს…, საკაცე, საკაცემ, საკაცეს… კაცური, კაცურმა, კაცურს…. უკაცური, უკაცურმა, უკაცურს… კაცდება, დაკაცდა, დაკაცებულა… ანუ ყველა ის სიტყვაფორმა, რომელიც შეიცავს თანმიმდევრობას //, //, //.

9

ბ) მორფოლოგიური ელემენტების მიხედვით ძიება კორპუსში  

კორპუსში მარტივი ძებნის მეორე მაგალითია მორფოლოგიური ელემენტის (მაგ.: სახელობითი ბრუნვის ნიშნის „მა“ ~ ERG) ძიება კორპუსში. ასეთ შემთხვევაში მოიძებნება კორპუსში დადასტურებული ყველა სახელი, რომელიც მოთხრობით ბრუნვაში დგას. ამგვარი ძიების განხორციელება შესაძლებელია მხოლოდ იმ კორპუსებში, რომელიც მორფოლოგიური მეტაინფორმაციით არის აღჭურვილი ანუ სიტყვაფორმები ანოტირებულია გრამატიკული მახასიათებლების (Grammatical features) მიხედვით. ამგვარი კორპუსები, როგორც წესი, მიემართება დამატებით რესურსებს: ლექსიკონებს, მორფემულ ლექსიკონთა ბაზას და მორფოლოგიური კომბინაციის წესების ბაზას.

10

გ) კორპუსში ძებნა მეტყველების ნაწილების მიხედვით

კორპუსში ძიება შეიძლება განვახორციელოთ მეტყველების ნაწილების მიხედვით. მარტივი ძებნის ერთ-ერთი ამგვარი შემთხვევაა, მაგალითად POSძიება (მაგ.: „A“ ~ Adj). ამგვარი ძიების შედეგად კორპუსში მოიძებნება ყველა სიტყვა, რომელიც კლასიფიცირებულია, როგორც ზედსართავი სახელი. ამგვარი ძიების განხორციელება შესაძლებელია მხოლოდ იმ კორპუსებში, რომელიც შესაბამისი ლინგვისტური მეტაინფორმაციით „მეტყველების ნაწილი“ (Part Of Speach) არის აღჭურვილი (POS-ანოტაცია).

11

რთული ძებნა

რთული ძებნა, როგორც ძიების სახე, კორპუსში ძიების შედარებით გართულებული ფორმაა. მას ხშირად გაფართოებულ ძებნას უწოდებენ (იხ. ქეეკ). გაფართოებული ძებნის შემთხვევაში კორპუსმენეჯერს კომპლექსური დავალების შესრულება უწევს. რთული ძებნის ერთ-ერთ სახეს წარმოადგენს სინტაქსური სტრუქტურის, მაგ., NP სინტაქსური კვანძის მიხედვით ძიება (მაგ.: „NP“ ~ noun phrase). ასეთ შემთხვევაში კორპუსში მოიძებნება ყველა ის კონტექსტი, რომელშიც სახელური ფრაზა დასტურდება. ამგვარი ძიების განხორციელება შესაძლებელია მხოლოდ იმ კორპუსებში, რომელსაც სინტაქსური ანალიზატორი (პარსერი) გააჩნია.

12

სინტაქსური ძიების შემთხვევაში განსაკუთრებულ სიძნელეს ქმნიან ისეთი არატიპიური შემთხვევები, როგორიცაა მაგ., არალინეალური – ე.წ. გახლეჩილი სინტაგმა. მაგალითისათვის შეგვიძლია მოვიტანოთ დიანა ანფიმიადის ლექსში  „მითოლოგემა“ გამოყენებული სინტაგმა „გამოღმელთა სისხლი“, რომელიც გახლეჩილი სინტაგმის სახით არის წარმოდგენილი ლექსში:

„გამოღმელებმა შეისრუტეს ცრემლი გაღმელთა,

გაღმელებმა კი გამოღმელთა დალიეს სისხლი

ამგვარი სახის ძიება მოითხოვს კომპლექსური სინტაქსური წესების ბაზის არსებობას და მხოლოდ იმ კორპუსებში არის შესაძლებელი, რომელსაც სინტაქსური ანალიზატორი გააჩნია.

რთული ძებნა სემანტიკური კონცეფციის კორპუსული გადამოწმების საშუალებასაც იძლევა, თუ იგი თავიდანვე არის ასახული კორპუსის პრერეკვიზიტებში. მაგ.:

„მარილზე წასვლა“ ⇔ „სიკვდილი“,

„სულის გაფრთხობა“ ⇔ „სიკვდილი“,

„ფეხების გაფშეკა“ ⇔ „სიკვდილი“,

„გარდაცვალება“ ⇔ „სიკვდილი“,

„ჩაძაღლება“ ⇔ „სიკვდილი“ და ა.შ.

კორპუსის პრესტრუქტურირებიდან გამომდინარე, რთული კორპუსული ძიება შესაძლებელია მხოლოდ ანოტაციაში მითითებული ფენომენების მეშვეობით. ასეთი ფენომენები, როგორც წესი, კორპუსში „ფიზიკურად“ არის წარმოდგენილი. ამიტომ შეუძლებელია ისეთი გამოტოვებული ელემენტების საძიებო ცნებად ფორმულირება, როგორიცაა მაგ.:

ა) ელიფსური კონსტრუქციები:

„ელენე ყავას სვამს, გიორგი ჩაის (სვამს)“;

ბ) ე.წ. Sluicing ანუ გარიყული კითხვითი სიტყვის შემცველი კონსტრუქციები:

 „ვიღაც დავინახე, მაგრამ არ ვიცი ვინ (დავინახე)“;

გ) ნულოვანი მორფემები, როგორიცაა მაგალითად Ø-ით მარკირებული მორფოსინტაქსური ელემენტები: მეორე სუბიექტური ან მესამე ობიექტური პირის ნიშნები ზმნაში:

-იხატავ: შენ (Ø)  მე (მ-) მას (Ø);

დ) Ø-ით წარმოდგენილი სინტაქსური კონსტიტუენტები, როგორიცაა მაგალითად pro drop-ელემენტები (გამოტოვებული ნაცვალსახელები):

„წავიდა და აღარც მოვუკითხივარ“ < წავიდა (ის) და აღარც მოვუკითხივარ (მას მე).

რთული ძიების სპეციფიკურ შემთხვევას წარმოადგენს გრამატიკალიზაციის შედეგად წარმოქმნილი ფუნქციური ელემენტების ძიება კორპუსში. მაგალითისათვის შევადაროთ სიტყვაფორმის „ერთი“ ფუნქციურ-სემანტიკური ანალიზი მომდევნო წინადადებებში:

1) ერთი კაცი ამ საქმეს ვერ უშველის, ვერც ორი და ვერც ათი.

2) იყო ერთი კაცი.

3) ერთი გაბედოს და მოვიდეს.

პირველ წინადადებაში – ერთი კაცი ამ საქმეს ვერ უშველის, ვერც ორი და ვერც ათი – სიტყვა „ერთი“ რიცხვითი სახელია და რეალიზებულია, როგორც პრემოდიფიკატორი – ახდენს არსებითი სახელის „კაცი“ დეტერმინირებას კვანტიტატიური თვალსაზრისით.

მეორე წინადადებაში – იყო ერთი კაცი – სიტყვა „ერთი“ ფუნქციურად განუსაზღვრელი ნაცვალსახელია, იგი შეიძლება ჩავანაცვლოთ განუსაზღვრელი ნაცვალსახელით „ვიღაც“.

მესამე წინადადებაში კი – ერთი გაბედოს და მოვიდეს – იგივე „ერთი“ მოდალური ფუნქციით გამოიყენება, მას ჩაენაცვლება მოდალური ნაწილაკი „აბა“.

თუ „ერთ“-ის აქ აღნიშნული სამივე ფუნქცია თავიდანვე არ ჩაიდო კორპუსის პრერეკვიზიტებში, შეუძლებელი იქნება კორპუსში მისი დიფერენცირებული ძიება. ასეთ შემთხვევაში მხოლოდ მარტივი ლინეალური (გრაფემატურ-თანმიმდევრობითი) ძიებით უნდა დავკმაყოფილდეთ. შედეგი კი ის გახლავთ, რომ ძიების შედეგად კორპუსი შემოგვთავაზებს ყველა იმ კონტექსტს, რომელშიც ეს სიტყვაფორმა დასტურდება, ოღონდ ფუნქციის გათვალისწინების გარეშე.

კორპუსული ძიების პრერეკვიზიტებს ქვემოთ საგანგებოდ განვიხილავთ ქართული ენის ეროვნული კორპუსის სპეციალურ ქვეთავში.