ანოტაციის დონეები

ლინგვისტური ანოტაცია, როგორც უკვე აღვნიშნეთ, პირველადი მონაცემის ლინგვისტური მეტაინფორმაციით გამდიდრების ერთ-ერთი ფორმაა და წარმოადგენს პირველად ენობრივ მონაცემებში ბუნებრივად კოდირებული ლინგვისტური ინფორმაციის ვიზუალიზაციის ყველაზე გავრცელებულ ფორმას. ზემოთ ჩვენ უკვე განვიხილეთ მანუალური ანოტაციის შემთხვევები – ტექსტის სიტყვასიტყვითი ანალიზი. ამგვარი ანალიზი ყველაზე ხშირად გამოიყენება, როგორც ენობრივი მონაცემის ლინეალური ანალიზის ასახვის მეთოდი. ანოტაციის გაცილებით უფრო სრულყოფილი ფორმაა მრავალდონიანი ანოტაცია, რომელიც ლინგვისტური ინფორმაციის სხვადასხვა ენობრივ დონეზე გადანაწილების ეფექტურ ფორმას წარმოადგენს. განვიხილოთ რამდენიმე მაგალითი.

მაგალითი 1:

L1   თხა-მ        ვენახ-ი          შეჭამ-ა

L2   txa-m         venax-i             šeč̣am-a

L3   goat           vineyard         eat

L4   N                 N                        Vtr

L5   ERG.Sg.    NOM.Sg.         AOR.S3

L7   A                 DO                     PRD

L10 “The goat ate up the vineyard.”

მაგალითი 2:

L1   ეს              ვირუს-ის         მატარებელ-ი       კაც-ი

L2   es               virus-is                 maṭarebeli             ḳac-i

L3   that           virus                   carrying                    man

L4   DPRON     N                          PART                          N

L5   NOM         GEN                      NOM                          NOM

L6   ATT            ATT                      ATT                            HEAD

L8   D1               –                            –                               –

განმარტება: L1 – ენობრივი მონაცემი ორიგინალ ენაში, L2 – ტრანსკრიფციის დონე, L3 – ლექსიკური დონე, L4 – POS-დონე (მეტყველების ნაწილები), L5 – მორფოლოგიური დონე, L6 – მორფოსინტაქსური დონე, L7- სინტაქსური დონე, L8 – პრაგმატული დონე.

ანოტირების დროს დონეთა რაოდენობა საჭიროების შემთხვევაში შეიძლება გაიზარდოს.

განვიხილოთ რამდენიმე მაგალითი:

1. რუსეთმა დღეს პირობა დადო, რომ ნატოს უფრო აქტიურად დაეხმარება ავღანეთში.

2. მედიებმა უკვე გაავრცელეს ინფორმაცია, რომ აფხაზურ საზოგადოებაში არსებობს დიალოგის მზაობა.

3. ნათია ჯოხაძემ რადიო თავისუფლებასთან საუბარში აღნიშნა, რომ სკოლების უმრავლესობას სპორტული დარბაზები არ გააჩნია.

4. გუშინ რუსიკომ დარეკა და დაიბარა, რომ დაბრუნდება აუცილებლად შემეხმიანოსო.

მოდით, აქ მოყვანილი ოთხივე მაგალითი შევადაროთ ერთმანეთს: ოთხივე წინადადებაში დასტურდება ტოკენი რომ, ოთხივე ერთსა და იმავე პოზიციაში – დამოკიდებული წინადადების ინიციალურ პოზიციაში, მძიმის შემდეგ. მაგრამ თუ ლინგვისტურად გავაანალიზებთ ოთხივე შემთხვევას, აღმოვაჩენთ, რომ პირველ სამ წინადადებაში რომ-ის ფუნქცია მსგავსია (იგი მაქვემდებარებელ კავშირს წარმოადგენს), მეოთხე მაგალითში დადასტურებული რომ კი არ არის მაქვემდებარებელი კავშირი – ფუნქციურად იგი დროის გარემოებას წარმოადგენს და ენაცვლება როდესაც ფორმას.

ამ განსხვავება შესანიშნავად აისახება ზეპირმეტყველებაში, რასაც თვალსაჩინოს ხდის აქ წარმოდგენილი მაგალითების სუპრასეგმენტური ანალიზი.

შდრ.:

1. რუსეთმა დღეს პირობა დადო, რომ ნატოს უფრო აქტიურად დაეხმარება ავღანეთში.

12

2. მედიებმა უკვე გაავრცელეს ინფორმაცია, რომ აფხაზურ საზოგადოებაში არსებობს დიალოგის მზაობა.

13

3. ნათია ჯოხაძემ რადიო თავისუფლებასთან საუბარში აღნიშნა, რომ სკოლების უმრავლესობას სპორტული დარბაზები არ გააჩნია.

14

4. გუშინ რუსიკომ დარეკა და დაიბარა, რომ დაბრუნდება აუცილებლად შემეხმიანოსო.

15

სუპრასეგმენტური დონის დამატების აუცილებლობას ქართულში სინტაქსის სხვა საკითხების ანალიზიც გვარწმუნებს. ცნობილია, რომ კითხვითი წინადადების სტრუქტურა ქართულში არ განსხვავდება თხრობითი წინადადების სტრუქტურისაგან: შდრ. გურამი თბილისში ჩამოდის vs. გურამი თბილისში ჩამოდის?

განხილული მაგალითები გვარწმუნებს, რომ აუცილებელია  ლინგვისტური ანოტაციის დონეებში სუპრასეგმენტური დონის დამატება. ამ დონის შემოტანა საშუალებას გვაძლევს  ავამაღლოთ  კვლევის ეფიციენტურობა – გავზარდოთ ავტომატური ანალიზის შედეგიანობა და  მინიმუმამდე დავიყვანოთ დისამბიგვირების აუცილებლობა.

დღეისათვის გამოყენებული ანოტაციის დონეები ერთმანეთისაგან, როგორც წესი, განსხვავდებიან როგორც ანოტაციის დონეების რაოდენობის, ისე დონეების იერარქიული სტრუქტურის თვალსაზრისით.

ანოტაციის მეთოდი, რომლის დროსაც ანოტაციის პრინციპები არ იცვლება და მუდმივად მოქცეულია მდგრად თეორიულ და კონცეპტუალურ ჩარჩოში, ხასიათდება როგორც ანოტაციური მდგრადობა (consistency of annotation). ანოტაციის მდგრადი ხასიათი განსაკუთრებულ მნიშვნელობას იძენს კორპუსლინგვისტიკაში. იმ კორპუსებში, რომლებიც მდგრადი ანოტაციურობით ხასიათდებიან, არ ხდება დადგენილი შემოკლებებისა და ტრანსკრიფციის წესების გადახედვა. ეს წესები დადგენილი წესებია და ცვლილებას არ ექვემდებარებიან. უნდა აღვნიშნოთ, რომ პრინციპში, დაუშვებელი არაა, თითოეულ კორპუსს ანოტირების საკუთარი წესები გააჩნდეს, მაგრამ სასურველია ანოტირების ეს წესები საერთაშორისო და აღიარებულ, ანოტაციის ისეთ კონვენციურ წესებსა და პრინციპებს ეყრდნობოდეს, როგორიცაა მაგალითად, ქრისტიან ლემანის მიერ შემუშავებული ანოტაციის წესები (Christian Lehmann, Directions for interlinear morphemic translations, Folia Linguistica 16, 1982, 199-224) ან ლაიფციგის ინტერლინეალური მორფემული გლოსირების სტანდარტული წესები.