ენის დოკუმენტირების ძირითადი ეტაპები

ენათა თანამედროვე დოკუმენტირება არსებითად  განსხვავდება ენის დესკრიფციისაგან, ვინაიდან იგი მიზნად ისახავს არა მხოლოდ ენის, როგორც ნიშანთა სისტემის კვლევას და აღწერას, არამედ კაცობრიობის სულიერი მემკვიდრეობის დოკუმენტირებასაც, კერძოდ:

  1. კულტურული მემკვიდრეობის შენახვას და გადაცემას ამ ენის მატარებელი სოციუმის მომდევნო თაობებისათვის;
  2. ყოვლისმომცველი და სრულფასოვანი ემპირიული მასალის შეკრებას ემპირიული კვლევებისათვის;
  3. მოპოვებული მასალების ინტერდისციპლინული კვლევებისათვის გამოყენების შესაძლებლობის შექმნას;
  4. საფრთხეში მყოფი ენის გადარჩენის ხელშეწყობას.

დიგიტალური დოკუმენტირება და არქივირება, დოკულინგვისტიკის მიხედვით, ეტაპობრივად ხორციელდება:

I. საველე ექსპედიციის (fieldwork) კონცეპტუალიზაცია და პრაქტიკული გამხორციელება

სამეცნიერო ექსპედიციის ჩატარებამდე აუცილებელია ექსპედიციის კონცეპტუალური დაგეგმვა:

  1. ექსპედიციის გეგმა-გრაფიკის შემუშავება;
  2. ექსპედიციის პრაქტიკული განხორციელების ოპტიმირება ისეთი რისკ-ფაქტორების გათვალისწინებით, როგორებიცაა, მაგალითად, სახელმწიფო-პოლიტიკური, კლიმატური, რელიგიური ფაქტორები, საომარი მოქმედების ზონა, საზოგადოების სოციალური სტრუქტურა და ა. შ.;

მასალების საველე პირობებში მოპოვების პროცესში აუცილებელია დოკულინგვისტიკის ძირითადი პრინციპების გათვალისწინება, კერძოდ:

  1. მასალის მოპოვება ენობრივი კომპეტენციის განსხვავებული საფეხურების შესაბამისად;
  2. ენის/დიალექტის გამოყენების სფეროების დადგენა ბილინგვალიზმის პირობებში;
  3. კოდების ცვლისა და ენის/დიალექტის საფრთხეში ყოფნის ინდიკატორების დადგენა;
  4. ასაკობრივი ცენზისა და გენდერული ბალანსის დაცვა;
  5. თემატურად მრავალფეროვანი მასალის მოპოვება.

თემატური მასალების მოპოვების დროს აუცილებელია ინტერვიუების ბუნებრივ პირობებში ჩაწერა. მაგ., ვაზის კულტურის შესახებ ინტერვიუ სასურველია ყურძნის მოსავლის აღების დროს დაიგეგმოს, რელიგიური და რიტუალური თემების შესახებ ინტერვიუები პროცედურულ ან სადღესასწაულო რიტუალების დროს უნდა ჩაიწეროს.

დოკუმენტაციის დროს გამოიყენება როგორც ობსერვაციული მეთოდი (სიტუაციებზე და მოვლენებზე დაკვირვების მეთოდი), ისე ელიციტაციური მეთოდი (ინფორმანტების მიზნობრივი გამოკითხვის მეთოდი).

მასალის გადაღების პროცესში გასათვალისწინებელია ტექნიკური პარამეტრების დაცვა:

  1. გადაღების ობიექტის განსაზღვრა,
  2. კადრების მონაცვლეობის აუცილებლობის განსაზღვრა,
  3. გამოსახულების ოპტიმირება,
  4. გადაღების ხედის ცვლა.

დოკუმენტირების პროცესში გადაღებული ვიდეომასალა არ არის მხატვრული ან დოკუმენტური ფილმისათვის განკუთვნილი, ამიტომ სასურველია კადრების ცვლილების სიხშირე მინიმუმამდე შევამციროთ.

II. მოპოვებული მასალის ლაბორატორიული დამუშავება

საველე ექსპედიციაში მოპოვებული მასალები დოკუმენტირების შემდგომ ეტაპზე ლაბორატორიულად მუშავდება.

უპირველეს ყოვლისა, მიმდინარეობს მოპოვებული მასალების აღრიცხვა საერთაშორისო სტანდარტის TEI (Text Encoding Initiative) მიხედვით. საერთაშორისო ორგანიზაცია TEI  1987 წელს დაარსდა და 2000 წლიდან ფუნქციონირებს TEI-კონსორციუმის სახელით. ორგანიზაციის და შემდგომ კონსორციუმის მიზანს წარმოადგენდა დოკუმენტთა (რესურსთა)  საერთაშორისო სტანდარტის შექმნა ელექტრონული ტექსტების ურთიერთგაცვლის მიზნით. კონსორციუმის მიერ შემუშავებულ TEI-ფორმატს, რომელიც შეიცავს ინფორმაციებს ტექსტის მახასიათებელი ნიშნების გათვალისწინებით: ტექსტის სათაური, ავტორი, წარმოშობა, სტრუქტურა და ა.შ. TEI-ფორმატისათვის იყენებენ მეტაენას, რომელიც მაგ., DTD ან XML ფორმატში არის წარმოდგენილი.

მაგ.:

17

იმისათვის, რომ მოპოვებული მასალები ინტერდისციპლინული კვლევის რესურსად გარდავქმნათ, საჭიროა მათი საგანგებო დამუშავება ტექნიკური თვალსაზრისით. კერძოდ:

ა) მოპოვებული მასალები უნდა გადავიყვანოთ AVI (Audio Video Interleave) ფორმატში;

ბ) AVI ფორმატში გადაყვანილ ფაილები თემების მიხედვით დავჭრათ ცალკეულ ფაილებად და დავახარისხოთ (Making Session);

გ) თითოეული ფაილისათვის მოვამზადოთ მეტამონაცემები საერთაშორისო სტანდარტის საგანგებო ფორმატის IMDI [ISLE (International Standard for Language Engineering ) Meta Data Initiative] მიხედვით.

18

ELAN  (Electronical Anotation) – მულტიმედიალური ანოტირების პროფესიული ინსტრუმენტი

მეტამონაცემების საერთაშორისო სტანდარტის ეს ფორმატი (IMDI) შეიცავს შემდეგი სახის მეტამონაცემებს:

  1. მასალის ჩაწერის დრო და ადგილი;
  2. მასალის შინაარსის თემატური აღწერა;
  3. მონაცემები მთქმელის შესახებ (ასაკი, განათლება, მიგრაციული ფონი);
  4. კონვერსაციის ტიპი (მონოლოგი, დიალოგი, სიტუაციური კადრები, კადრები ენობრივი რესურსების გარეშე).

ლაბორატორიული დამუშავების შემდგომ ეტაპზე მიმდინარეობს ჩაწერილი მასალის გადმოწერა (ტრანსკრიბირება) და ლინგვისტური დამუშავება, კერძოდ:

  1. მასალების ტრანსკრიბირება კოდირების საერთაშორისო კონსორციუმის Unicode -ის სტანდარტების შესაბამისად;
  2. ტრანსკრიბირებული მასალის გადატანა მონაცემთა მართვის, ტექსტის გარჩევისა და ანალიზის მულტიმედიურ ფორმატში Toolbox (Data management, parsing and text analysis);
  3. ვიდეო, აუდიო და მულტიმედიურად ანოტირებული ფორმატების სინქრონიზაცია EAF (ELAN Annotation Format) ფაილში.

19

EAF – საარქივო მულტიმედიალურ ფორმატი 

III. დამუშავებული რესურსების არქივირება და შემდგომი დაცვა

ლაბორატორიულად დამუშავებული მასალების დიგიტალურ რესურსად გარდაქმნა არ ნიშნავს დიგიტალური დოკუმენტირების დასრულებას. საჭიროა მათი განთავსება დიგიტალურ არქივში დიგიტალური რესურსების შემდგომი შენახვის, მოვლისა და დაცვის ტექნიკური უზრუნველყოფის მიზნით. დიგიტალურად დამუშავებული რესურსების არქივირებ დიგიტალური დოკუმენტირების ბოლო ეტაპია. თუ ასეთი არქივი არ არსებობს,  საჭიროა დიგიტალური არქივის შექმნა.

20

რესურსების შენახვის თანამედროვე სტანდარტი – საარქივო ვიდეოების სეგმენტირება, კატალოგიზირება და არქივირება

დიგიტალური არქივის შექმნა აუცილებელი და სავალდებულოა მასალის დაცვის მიზნით, ვინაიდან:

ა) მხოლოდ არქივის შექმნა საკმარისი არ არის; საჭიროა არქივის დუბლირება/მულტიპლიცირება სარკისებური სერვერების სახით;

ბ) აუცილებელია აღნიშნული სერვერ(ებ)ის ავტომატური სათადარიგო ასლით (Backup) უზრუნველყოფა.

არქივირების შემდეგი ეტაპია ჩამოთვლილი კომპონენტების შედეგად მიღებული ინტერდისციპლინური რესურსების ღია ინტერნეტსივრცეში განთავსება, ანუ რესურსების შეუფერხებელი მოხმარებისა (OR – Open-Ressource) და გაცვლის (RE – Ressource Exchange) უზრუნველყოფა.

აქ ჩამოთვლილი სამივე ეტაპის სრულფასოვანი განხორციელება – 1. საველე ექსპედიციის (fieldwork) კონცეპტუალიზაცია და პრაქტიკული გამხორციელება, 2. მოპოვებული მასალის ლაბორატორიული დამუშავება და  3. ლაბორატორიულად დამუშავებული რესურსების არქივირება და შემდგომი დაცვა – დოკულინგვისტიკის ძირითად პრინციპს წარმოადგენს.

რესურსების მოპოვების, დამუშავებისა და დაცვის საერთაშორისო გამოცდილება

თანამედროვე მეცნიერება ერთგვარი სინერგიით ხასიათდება. საერთაშორისო სამეცნიერო საზოგადოება კვლევითი რესურსების ინტერდისციპლინურობისა და ინტეგრაციისაკენ მიისწრაფვის. ამის დასტურია, მაგ., სამეცნიერო კონსორციუმის CLARIN (Common Language Resources and Technology Infrastructure) შექმნა.

ენობრივი რესურსებისა და ტექნოლოგიური ინფრასტრუქტურის განვითარების საერთოევროპული გაერთიანება – კონსორციუმი CLARIN აერთიანებს სხვადასხვა სამეცნიერო დარგის მეცნიერებს, რომლებიც კონსორციუმის პლატფორმას რესურსების გაცვლის, ინოვაციური ტექნოლოგიების განვითარების-სტანდარტიზაციის და დიგიტალურ მონაცემთა მდგრადი შენახვის პრობლემებზე მუშაობისათვის იყენებენ.

CLARIN-ში გაერთიანებული არიან ევროპის შემდეგი ქვეყნები: გერმანია, ბულგარეთი, დანია, ესტონეთი, საბერძნეთი, ლიტვა, ჰოლანდია, ნორვეგია, ავსტრია, პოლონეთი, პორტუგალია, შვედეთი, ჩეხეთი, ბრიტანეთი.თითოეულ წევრ ქვეყანას გააჩნია ეროვნული CLARIN-ორგანიზაცია, მაგ., გერმანიაში შექმნილია CLARIN-DE, რომელშიც შემდეგი კვლევითი ცენტრები და ინსტიტუციები არიან  გაერთიანებული:

  • University of Tübingen – Annotated Corpora (treebanks), lexical data, data from experiments, linguistic knowledge components and web services
  • University of Leipzig (ASV) – Lexical data, web services and special reference-corpora, public data
  • BBAW Berlin – German language, lexicons, diachrone corpora (before 1900), digital editions
  • University of Stuttgart (IMS) – Computational linguistics software, for example: corpora and tools, parameter-based tools and web services
  • IDS Mannheim – German language, big corpora of German (after 1900), language of minorities (dialects)
  • LMU Munich (BAS) – German language and multimodal data, phonetical tools and services
  • MPI Nijmegen – Language of minorities, endangered languages, multimedia and multimodal data, data from experiments, sign language
  • University of Hamburg – Multilingual spoken corpora, transcription tools, sign language
  • University of Saarland – Multilingual corpora and corpus tools

რესურსები:

ISLE –  http://www.mpi.nl/ISLE/

Toolbox – http://www-01.sil.org/computing/toolbox/

TEI – http://www.tei-c.org/index.xml

EAF – http://www.file-extension.org/de/extensions/eaf

IMDI – https://tla.mpi.nl/imdi-metadata/