ქართული ენის ეროვნული კორპუსის მოცულობა

ქართული ენის ეროვნული კორპუსი მოიცავს ქართული ენის განვითარების სამივე საფეხურს და შედგება ძველი ქართულის (GNC ძველი ქართული), საშუალი ქართულის (GNC საშუალი ქართული) და ახალი ქართული ენის (GNC ახალი ქართული) ტექსტების ქვეკორპუსებისაგან; კორპუსში ასევე შესულია მეგრული და სვანური ტექსტები და ტრანსკრიბირებული დიალექტური ჩანაწერების ორი ქვეკორპუსი (GDC და SSGG).

32

ქართული ენის ეროვნული კორპუსის ყველაზე რეპრეზენტატიულ ქვეკორპუსს, როგორც მოცულობის, ისე ჟანრობრივი თვალსაზრისით, წარმოადგენს ქართული ენის რეფერენციული კორპუსი (GRC), რომელიც ქართული ენის ქვეკორპუსების გარდა ღია დიგიტალურ ინტერნეტრესურსებსაც მიემართება. დღევანდელი მონაცემების მიხედვით მისი მოცულობა შეადგენს 180 მილიონზე მეტ ტოკენს.

თუ აქამდე არსებულ ეროვნულ კორპუსებს შევადარებთ, ეს მონაცემი სოლიდურად გამოიყურება.

შედარებისათვის მოვიყვანთ რამდენიმე ეროვნული კორპუსის მონაცემებს:

Presentation1

ქართული ენის ეროვნულ კორპუსში შესულია როგორც ქართული ენის ისტორიული მემკვიდრეობა (V-XVIII საუკუნეების ლიტერატურული და ისტორიული ძეგლები), ისე XIX-XX საუკუნეების ქართული ლიტერატურა და 90-იანი წლებიდან მოყოლებული ქართული პრესა.

ამჟამად მიმდინარეობს ქართული ენის ეროვნული კორპუსის XIX და XX საუკუნეების პრესის მასალებით განვრცობა. კორპუსის შექმნის არსებით მიზანს წარმოადგენს კორპუსის ჟანრობრივი დაბალანსება, კერძოდ სამეცნიერო, იურიდიული, პოლიტიკური და სოციოლექტური მასალებით მისი გაჯერება.