ქართული ენის ეროვნული კორპუსის ეტაპობრივი განვითარება

2013 წლის 28 სექტემბერს ხელი მოეწერა ურთიერთთანამშრომლობის მემორანდუმს ფრანკფურტის გოეთეს სახ. უნივერსიტეტის ემპირიული ენათმეცნიერების ინსტიტუტსა და საქართველოს პარლამენტის ეროვნულ ბიბლიოთეკას შორის, რომლის საფუძველზეც განხორციელდა ფრანკფურტის უნივერსიტეტში განთავსებული ქართული ენის ეროვნული კორპუსის საქართველოში გადმოტანა და საფუძველი ჩაეყარა გრძელვადიან თანამშრომლობას ქართული ენის ეროვნული კორპუსის შემდგომი განვითარების მიზნით.

ქართული ენის ეროვნული კორპუსის შექმნა-განვითარება სამი ეტაპისგან შედგება:

პირველ ეტაპზე (2013-2015 წლები) განხორციელდა ქართული ენის ეროვნული კორპუსის ტექნოლოგიური ჩარჩოს შექმნა, კერძოდ:

  1. ქართული ენისათვის არსებული ელექტრონული რესურსების ინტეგრაცია ქართული ენის ეროვნულ კორპუსში და მისი გაერთმნიშვნელიანება;
  2. ანოტაციისა და კორპუსის სტრუქტურის ვალიდურობის შუალედური ევალუაცია;
  3. პარალელური კორპუსებისა და თარგმნილი ტექსტების ჯვარედინი რეფერენციის სისტემების განვითარება;
  4. საძიებო სისტემის KRIC-პრინციპების შემუშავება და აპრობაცია;
  5. საძიებო სისტემის განვითარება სინქრონიული და დიაქრონიული კვლევების განსახორციელებლად;
  6. კორპუსის ანოტირების საშუალებების (tools) განვითარება
  7. ტექსტების ანოტირება:
    • ტექსტების მეტამონაცემებით აღჭურვა – კორპუსის შემადგენელ თითოეულ ტექსტზე საერთაშორისო სტანდარტების (TEI – Text Encoding Initiative) მიხედვით განსაზღვრული მეტამონაცემების მიმაგრება კორპუსში ინტერდისციპლინური კვლევის განხორციელების მიზნით;
    • ტექსტის მარკირების საგანგებო ნიშნულების სისტემით აღჭურვა (textual markup);
      • ტექსტების ლინგვისტური ანოტაციის პრინციპების შემუშავება ანოტაციის დონეების მიხედვით;
      • გრამატიკულ მახასიათებელთა სისტემატიზაცია;

მეორე ეტაპზე (2015-2018 წლები) დაგეგმილია ოქროს სტანდარტის (პროტოტიპული) კორპუსის შექმნა, კერძოდ:

  1. ოქროს სტანდარტის ვალიდურობის შუალედური ევალუაცია და სტანდარტის დახვეწა;
  2. ქართული ენის კორპუსის ბალანსირების სტრატეგიის შემუშავება;
  3. ქართული ენის ეროვნული კორპუსის რეფერენციალური შეპირისპირება პარალელურ კორპუსებთან;
  4. კორპუსის განვრცობისა და ბალანსირების საშუალებების (tools) განვითარება;
  5. ქართული ენის ეროვნული კორპუსის, როგორც ღია კორპუსის, განვითარების ნორმების დადგენა;
  6. ოქროს სტანდარტის კორპუსის დამუშავება:
    • ოქროს სტანდარტის კორპუსის მოცულობის განსაზღვრა
    • ჟანრობრივი მრავალფეროვნების განსაზღვრა ოქროს სტანდარტის კორპუსში
  7. თვისობრივი მახასიათებლების დადგენა და კორპუსის დამუშავების ხარისხის განსაზღვრა;
  8. დისამბიგვირება.

მესამე ეტაპზე 2018-2023 წლები უნდა განხორციელდეს კორპუსის ბალანსირება. კერძოდ:

  1. ოქროს სტანდარტის ვალიდურობის საბოლოო ევალუაცია;
  2. ოქროს სტანდარტის დადგენილი ნორმების განხორციელება მთლიან კორპუსზე;
  3. კორპუსის დადგენილი ნორმების მიხედვით ბალანსირება;
  4. კორპუსის ბალანსირების შუალედური ევალუაცია;
  5. კორპუსის შემდგომი განვრცობის ნორმალიზაცია;
  6. ქართული ენის ეროვნული კორპუსის, როგორც ღია კორპუსის, სრული ექსპლუატაცია.

ქართული ენის ეროვნული კორპუსის მოხმარების მსურველებს შეგიძლიათ გამოიყენოთ ეს ბმული.