კორპუსის ტიპები

კორპუსში განთავსებული მასალების მიხედვით განასხვავებენ სხვადასხვა ტიპის კორპუსებს. ქვემოთ განვიხილავთ სამი ტიპის კორპუსს – ისტორიულ კორპუსს, ანოტირებულ კორპუსს და ეროვნულ კორპუსს.

ა) ისტორიული კორპუსი

ისტორიული კორპუსი (historical corpus) წარმოადგენს კორპუსის ტიპს, რომელიც მოიცავს მოცემული კონკრეტული ენის ან ენათა ისტორიული არსებობის პერიოდში შექმნილ დოკუმენტთა ფართო ჟანრობრივ რეპერტუარს და დიაქრონული კვლევის საშუალებას იძლევა. კვლევის ამ სპეციფიკური შესაძლებლობიდან გამომდინარე, ისტორიულ კორპუსს ხშირად დიაქრონიულ კორპუსსაც უწოდებენ.

ისტორიული კორპუსი შეიძლება რომელიმე ქრონოლოგიურ პერიოდზე იყოს შეზღუდული. მაგ., ინგლისური ენის ისტორიული კორპუსი ARCHER (A Representative Corpus of Historical English Registers) მოიცავს 1650-1999 წლების ინგლისური ენის მასალას (მოცულობა: 1,8 მილიონი ტოკენი), მაშინ როდესაც ინგლისური ენისათვის შექმნილი მეორე კორპუსი Penn Parsed Corpora of Historical English გაცილებით ადრეულ მასალებს შეიცავს (1150-დან 1914-ის ჩათვლით) და მოცულობითაც თითქმის ორჯერ აღემატება პირველს – მისი მოცულობა: 3.9 მილიონ ტოკენს აღწევს.

ბ) ანოტირებული კორპუსი

ანოტირებულ კორპუსად მიიჩნევა ისეთი კორპუსი, რომელიც კორპუსის საგანგებო კომპონენტით – ანოტაციით არის აღჭურვილი. კორპუსლინგვისტიკის განვითარების ერთ-ერთ უმნიშვნელოვანეს ეტაპად მიჩნეულია ლინგვისტური ანოტაციის პროცესის პროგრამული ავტომატიზაცია. როგორც ზემოთ უკვე აღვნიშნეთ, ამ მიზნის მისაღწევად კორპუსის პროგრამულ ინფრასტრუქტურაში ჩაშენებულია სპეციალური ინსტრუმენტები, რომელთა საშუალებითაც ხორციელდება მიმართება სხვადასხვა სახის პირველად მონაცემთა ბაზებთან, რაც ლექსემათა ავტომატური ანოტირების საშუალებას იძლევა. ამგვარი მექანიზმით აღჭურვილ კორპუსს ანოტირებული კორპუსი ეწოდება.

ანოტირებული კორპუსის შექმნის დროს ერთ-ერთ მნიშვნელოვან საკითხს წარმოადგენს ტექსტის ასახვის პრობლემა. უპირველეს ყოვლისა, უნდა შემუშავდეს ტექსტის კორპუსში ასახვის სტრატეგია – რა ფორმით უნდა შევიტანოთ ტექსტი კორპუსში. რომელ ტექსტს ეძლევა უპირატესობა, დიპლომატიურ ტექსტს (ანუ იმ ტექსტს, რომელიც ზუსტად ასახავს ტექსტის წყაროს) თუ ნორმატიული ტექსტი (ანუ იმ ტექსტს, რომელშიც გასწორებულია „შეცდომები“ მეცნიერთა მიერ). საუკეთესო ვარიანტია კორპუსი მულტიფენობრივი ანოტაციის სისტემით. ასეთ შემთხვევაში ტექსტის ორივე ვარიანტი არის შეტანილი კორპუსში, როგორც დიპლომატიური, ისე ნორმატიული და რამდენიმე დონეზეა განფენილი, როგორც მაგ., საშუალგერმანულის კორპუსში:

Slide1 

გ) ეროვნული კორპუსი

ენის ეროვნული კორპუსი, ენის კორპუსისაგან განსხვავებით, წარმოადგენს სახელმწიფო ენისათვის შექმნილ ვირტუალურ სივრცეს, რომელშიც განთავსებულია სახელმწიფო ენის ისტორიული და თანამედროვე მემკვიდრეობა. დღეისათვის ენის ეროვნული კროპუსის მნიშვნელობა სცილდება მეცნიერების ფარგლებს, სახელმწიფო მნიშვნელობის რანგში არის აყვანილი და   განიხილება სახელმწიფო ატრიბუტიკის – გერბის, დროშისა და ჰიმნის გვერდით.  იგი 21-ე საუკუნის სახელმწიფოსათვის ისეთსავე აუცილებელ  კომპონენტს წარმოადგენს, როგორც დამწერლობა,  ლექსიკონი, ენციკლოპედია.

ენის კორპუსსა და ენის ეროვნულ კორპუსს ერთადერთი საერთო ნიშანი გააჩნია: ორივე კორპუსი მოცემული ენის სისტემის ამსახველ ვირტუალურ სივრცეს წარმოადგენს. განსხვავება მხოლოდ ისაა, რა მიზნით იქმნება იგი, რა აქტუალობა გააჩნია მას და ვინ არის მისი მომხმარებელი.

ქართული ენის მაგალითზე თუ განვიხილავთ, ეს შედარება ასე გამოიყურება:

1. ქართული ენის კორპუსის ფორმა არის ციფრული (დიგიტალური) და წარმოადგენს ქართული ენის სისტემის ამსახველ ვირტუალურ სივრცეს;

2. მისი მიზანია ენის ელექტრონული დოკუმენტირება და ენის კვლევა თანამედროვე ტექნოლოგიების გამოყენებით;

3. მისი აქტუალობა მდგომარეობს კვლევის ეფექტურობაში (საკვლევი ველის მოცულობა და ძიების სისწრაფე) და გამოირჩევა ვერიფიკაციის მაღალი ხარისხით (სულ რამდენიმეწუთიანი ოპერაციის შედეგად შესაძლებელია ნებისმიერი თეორიული პოსტულატის ვერიფიცირება ან ფალსიფიცირება).

ქართული ენის ეროვნული კორპუსის შემთხვევაში, განსხვავებულია კორპუსის შექმნის მიზანი და აქტუალობა.

  1. ქართული ენის ეროვნული კორპუსი წარმოადგენს სახელმწიფო ენის სისტემის ამსახველ ვირტუალურ სივრცეს.
  2. ეროვნული კორპუსის შექმნის მიზანია:
    • ეფექტური ენობრივი პოლიტიკის გატარების ხელშეწყობა;
    • ქვეყნის საგანმანათლებლო სისტემის მოდერნიზაციის ხელშეწყობა;
    • კომპიუტერული ტექნოლოგიების შექმნა სახელმწიფო ენისათვის და მისი დანერგვა საზოგადოებრივ ცხოვრებასა და სამეცნიერო დარგებში;
    • საინფორმაციო სივრცეში სახელმწიფო ენის სრულფასოვანი ფუნქციონირების უზრუნველყოფა.
  1. ენის ეროვნული კორპუსის აქტუალობა გამოიხატება იმაში, რომ იგი უზრუნველყოფს ქართული ენის, როგორც სახელმწიფო ენის, სრულფასოვან და ეფექტურ ფუნქციონირებას სახელმწიფო ინტერესების ფარგლებში.

ჩვენ მიერ წარმოდგენილი პოსტულატების ადეკვატურობის შესამოწმებლად შეგვიძლია  ინგლისური ენის მაგალითი მოვიტანოთ: მიუხედავად იმისა, რომ ამერიკის, ბრიტანეთისა და ავსტრალიის სახელმწიფო ენა ინგლისურია, ერთმანეთისაგან დამოუკიდებლად არსებობს ამერიკის ეროვნული კორპუსი, ბრიტანეთის ეროვნული კორპუსი და ავსტრალიის ეროვნული კორპუსი და ახალი ზელანდია, რომლის სახელმწიფო ენას ადგილობრივი, პოლინეზიური მაორი-ენის გვერდით ინგლისური ენა წარმოადგენს, ვერცერთ აქ აღნიშნულ კორპუსს ვერ გამოიყენებს სახელმწიფო ინტერესებისათვის, ვინაიდან ნებისმიერი ეროვნული კორპუსი მხოლოდ მოცემული ქვეყნისათვის შეიძლება იყოს სახელმწიფო ენის სრულფასოვანი ფუნქციონირების გარანტი და მოქნილი იარაღი.

ეროვნული კორპუსების აგებულება ძირითადად მსგავსია, ისინი ერთმანეთისაგან მოცულობის თვალსაზრისით განსხვავდებიან:

Slide2

ქართული ენის ეროვნული კორპუსი 130 მილიონი ტოკენის მოცულობისაა. მომდევნო თავში დაწვრილებით განვიხილავთ ქართული ენის ეროვნული კორპუსის შექმნის ისტორიას, კორპუსის სტრუქტურასა და მის არსებით მახასიათებლებს.