კორპუსების მოცულობა

კორპუსის მოცულობა, როგორც კორპუსის კვანტიტატიური ატრიბუტი, კორპუსის ერთ-ერთ მახასიათებელი ნიშანია. კორპუსის მოცულობა ტოკენებში იზომება. ტოკენი (token) კორპუსის უმცირეს კონსტიტუენტურ ელემენტს წარმოადგენს, რომელსაც ტრადიციულ ლინგვისტიკაში ცნება „სიტყვაფორმა“შეესაბამება.

კორპუსის მოცულობა შეგვიძლია მასში დადასტურებული სიტყვაფორმების მრავალფეროვნების თვალსაზრისითაც გავზომოთ. ასეთ შემთხვევაში კორპუსის მოცულობა გაიზომება იდენტური სიტყვაფორმების – ტიპების რაოდენობის მიხედვით. ტიპი (type) არის სტატისტიკური ერთეული, რომელიც, მსგავსი ტოკენების ჯგუფის საიდენტიფიკაციოდ გამოიყენება და როგორც წესი, უდრის n-ტოკენს. ტოკენიც და ტიპიც კვანტიტატიური ელემენტებია. მათ შორის განსხვავება იმაში მდგომარეობს, რომ ტოკენებში აღიწერება კორპუსების მოცულობა უმცირესი შემადგენელი ელემენტების  რაოდენობის თვალსაზრისით, ტიპების შემთხვევაში კი დგინდება  კორპუსში იდენტური ელემენტების (სიტყვაფორმების) დაჯგუფების შედეგად მიღებული სიტყვაფორმების რაოდენობა. ანუ, ტოკენებში აღიწერება კორპუსის ელემენტების სიმრავლე, ტიპებში კი – კორპუსში დადასტურებულ ელემენტთა მრავალფეროვნების სიმრავლე. სხვაგვარად: ტოკენებში იზომება კორპუსის ელემენტების (სიტყვაფორმების) რაოდენობრიობა, ტიპებში კი  ამ ელემენტების (სიტყვაფორმების) ფრეკვენტულობა.

მაგალითისათვის განვიხილოთ გალაქტიონ ტაბიძის ცნობილი ლექსის ერთი სტროფი:

„ქარი ჰქრის, ქარი ჰქრის, ქარი ჰქრის,

ფოთლები მიჰქრიან ქარდაქარ,

ხეთა რიგს, ხეთა ჯარს რკალად შლის,

სადა ხარ, სადა ხარ, სადა ხარ.”

პირველი სტრიქონი შედგება 6 ტოკენისაგან, მაგრამ 2 ტიპისაგან – ქარი და ჰქრის. მეორე სტრიქონში 3 ტოკენი და 3 ტიპია (ფოთლები, მიჰქრიან და ქარდაქარ), მესამე სტრიქონში – 6 ტოკენი და 5 ტიპი (ხეთა, რიგს, ჯარს, რკალად და შლის), ხოლო მეოთხე სტრიქონში – 6 ტოკენი და 2 ტიპი (სადა და ხარ).

კორპუსებში, ზოგადად, ტიპების რაოდენობა  ბევრად ნაკლებია ტოკენების რაოდენობაზე. კვლავ გალაქტიონ ტაბიძის ლექსის მაგალითზე თუ განვიხილავთ ტოკენ-ტიპ-მიმართებებს (type-token relation/Type-token-ratio/TTR), ამგვარ სურათს მივიღებთ:

 

ტოკენების რაოდენობა: 21

¦ ქარი ¦ ჰქრის ¦ ქარი ¦ ჰქრის ¦ ქარი ¦ ჰქრის ¦ ფოთლები ¦ მიჰქრიან ¦ ქარდაქარ ¦ ხეთა ¦ რიგს ¦ ხეთა ¦ ჯარს ¦ რკალად ¦ შლის ¦ სადა ¦ ხარ ¦ სადა ¦ ხარ ¦ სადა ¦ ხარ ¦

ტიპების რაოდენობა: 12

¦ ქარი ¦ ჰქრის ¦ ფოთლები ¦ მიჰქრიან ¦ ქარდაქარ ¦ ხეთა ¦ რიგს ¦ ჯარს ¦ რკალად ¦ შლის ¦ სადა ¦ ხარ ¦

 

Slide1

 

კორპუსში გამოყენებული ყველა სიტყვაფორმა შეგვიძლია დავალაგოთ ტიპების ფრეკვენტულობის ზრდადობის ან კლებადობის მიხედვით. ქვემოთ მოყვანილ ცხრილში მოცემულია საანალიზო სტროფში დადასტურებული ტიპების ფრეკვენტულობა კლებადობის მიხედვით:

s1

ტოკენისა და ტიპის ურთიერთმიმართების საკითხს ჩვენ საგანგებოდ განვიხილავთ ქვეთავში „ქართული ენის ეროვნული კორპუსი“. ქვემოთ კი მოგვყავს რამდენიმე კორპუსის მონაცემები მოცულობის მითითებით (მონაცემები აღებულია ნოა ბუბენჰოფერის ინტერნეტ პორტალიდან „კორპუსლინგვისტიკის შესავალი“):

გერმანული ენის რეფერენციული კორპუსი / Deutsches Referenzkorpus DeReKo des Instituts für Deutsche Sprache (IDS) http://www.ids-mannheim.de/kt/projekte/korpora/
მოცულობა: 24 მილიარდი ტოკენი

მე-20 საუკუნის გერმანული ენის რეფერენციული კორპუსი / Referenzkorpus der deutschen Sprache des 20. Jahrhunderts (DWDS-Kernkorpus) http://www.dwds.de/
მოცულობა: 100 მილიონი ტოკენი

კორპუსი C4 / Corpus C4(კორპუსი მოიცავს მე-20-ე საუკუნის გერმანული ენის  დიგიტალურ ლექსიკონს (DWDS), ავსტრიის აკადემიურ კორპუსს (AAC),  შვეიცარიული ტექსტების კორპუსს (CHTK) და სამხრეთ ტიროლის კორპუსს) http://www.korpus-c4.org
მოცულობა: 46 მილიონამდე ტოკენი

ვებ-კორპუსი / COW: Corpora from the Web http://hpsg.fu-berlin.de/cow/
მოცულობა: 9 მილიარდზე მეტი ტოკენი

გერმანული ტექსტების არქივი / Deutsches Textarchiv (გერმანული ტექსტების ისტორიული კორპუსი, 1600-1900 წლები, 1300 წიგნი) http://www.deutschestextarchiv.de
მოცულობა: 100 მილიონამდე ტოკენი

ბრიტანული ეროვნული კორპუსი / British National Corpus (BNC) http://www.natcorp.ox.ac.uk/
მოცულობა: 100 მილიონი ტოკენი

თანამედროვე ამერიკული ინგლისურის კორპუსი / The Corpus of Contemporary American English (COCA) http://corpus.byu.edu/coca/
მოცულობა: 450 მილიონი ტოკენი

ტექსტი+მთის კორპუსი (ალპინისტური ლიტერატურის კორპუსი) / Text+Berg-Korpus: Alpinistische Literatur (Jahrbuch des Schweizer Alpenclubs, Echo des Alpes, „Alpen“) http://www.textberg.ch
მოცულობა: 37 მილიონამდე ტოკენი

საზოგადოებრივი მოძრაობის კორპუსი / CosMov (Corpora for Social Movement Research) http://www.semtracks.org/cosmov/
მოცულობა: 1 მლნ. ტოკენი

დორტმუნდის ჩატის კორპუსი / Dortmunder Chatkorpus http://www.chatkorpus.uni-dortmund.de/
მოცულობა: 1,1 მილიონი ტოკენი (150 000 ჩატ-გზავნილი)

ამერიკული სერიალების (საპნის ოპერების) კორპუსი / Corpus of American Soap Operas http://corpus2.byu.edu/soap/
მოცულობა: 100 მილიონი ტოკენი