ვიდრე კორპუსის რაობაზე მსჯელობას დავიწყებდეთ, ამთავითვე გვინდა აღვნიშნოთ, რომ კორპუსის შესახებ არსებული განსაზღვრებები ერთგვაროვანი არ არის. არაერთგვაროვნება კორპუსის ძირითადი რესურსების რაგვარობასთან არის დაკავშირებული. როგორც წესი, კორპუსი იგივდება ცნებასთან „ტექსტური კორპუსი“. გარდა წმინდა ტექსტური კორპუსებისა, არსებობს ე.წ. „ენობრივი კორპუსები“, რომელიც არა მხოლოდ ზეპირმეტყველების ტრანსკრიბირებულ, ტექსტურ ვერსიებს მოიცავს, არამედ შესაბამის აუდიო და ვიდეო მასალებსაც, აღჭურვილს ფონეტიკური და ლინგვისტური ანოტაციით. მაგალითისათვის შეგვიძლია დავასახელოთ გერმანული ენის ზეპირმეტყველების კორპუსი Datenbank Gesprochenes Deutsch (DGD), რომელიც მანჰაიმის გერმანული ენის ინსტიტუტში (IDS) შეიქმნა და შედგება დაახლოებით 900 ვიდეოჩანაწერისგან, 16 300 აუდიოჩანაწერისგან და მოიცავს 4400 საათს. ანუ, კორპუსის დეფინიციის საკითხი, უპირველეს ყოვლისა, მოითხოვს იმის დადგენას, რა უნდა ჩაითვალოს კორპუსის რესურსად: ტექსტური მონაცემები თუ ენობრივი მონაცემები მისი არსებობის ნებისმიერ ფორმატში. სხვაგვარად: არის თუ არა საკმარისი მხოლოდ ტექსტური რესურსი ენის, როგორც კომპლექსური ფენომენის საკვლევად და რამდენად შეგვიძლია უარი ვთქვათ ენის, როგორც აკუსტიკური სიგნალის მატარებელი სისტემის, კომპლექსურ კვლევაზე.
ჰ. ბუსმანის „ენათმეცნიერების ლექსიკონის“ მიხედვით „კორპუსი არის კონკრეტული ენობრივი გამოხატულებების საზღვრული რაოდენობა, რომელიც გამოიყენება როგორც ემპირიული საფუძველი ენათმეცნიერული კვლევებისათვის. კორპუსის მნიშვნელობა და აგებულება დამოკიდებულია სპეციფიკური ამოცანებისა და თეორიული ჩარჩოს მეთოდურ წინაპირობებზე“ (იხ. Hadumod Bussmann, Lexikon der Sprachwissenschaft, 2008, Kröner, S. 143). ამ განსაზღვრებაში ძალიან ზოგადად არის მოცემული კორპუსის არსი და მიზანი. ქვემოთ შევეცდებით, პრაქტიკოსი „კორპუსმეიკერების“ გამოცდილების გათვალისწინებით, კორპუსის უფრო დეტალური განსაზღვრება ჩამოვაყალიბოთ.
სამეცნიერო ლიტერატურაში, როგორც უკვე ვახსენეთ, კორპუსის განსხვავებული განმარტებებია მოცემული. ქვემოთ მოვიყვანთ ერთ-ერთი გერმანელი კორპუსლინგვისტის, ლოთარ ლემნიცერის (Lothar Lemnitzer) განმარტებას, რომელიც საზოგადოდ არის გაზიარებული:
კორპუსი (corpus – ლათ. corpus, მრ. corpora „სხეული“) არის შემოკლებული აღნიშვნა ცნებისათვის ტექსტკორპუსი ან ტექსტური კორპუსი. კორპუსლინგვისტიკაში იგი აღნიშნავს რომელიმე ენის წერილობითი ძეგლების ან წერილობით დოკუმენტირებული ზეპირმეტყველების ნაკრებს, რომელიც, როგორც წესი, ელექტრონულ მატარებლებზე არის გადატანილი (ანუ გაციფრებულია) და მანქანურად დამუშავებადი (ტექსტები სტრუქტურირებულია საგანგებო ნიშნულებით, გარდა საკუთრივ პირველადი, ანუ ენობრივი მონაცემებისა შეიცავს მეორად ინფორმაციას – მეტამონაცემებს) და ლინგვისტურ ანოტაციას და აღჭურვილია კორპუსის მართვის სპეციალური სისტემით _ კორპუსის მენეჯერით (Lothar Lemnitzer und Heike Zinsmeister, Korpuslinguistik. Eine Einführung (2., durchges. und aktual. Aufl.). Tübingen: Narr., 2010).
კარმენ შერერი (Carmen Scherer) კორპუსის დეფინიციაში დამატებით ხაზს უსვამს იმ გარემოებას, რომ კორპუსი არის ავთენტური ენობრივი რესურსების ნაკრები (Carmen Scherer, Korpuslinguistik. Heidelberg: Universitätsverlag Winter, 2006).
კორპუსლინგვისტიკა იძლევა ცალკეული საკითხებისა და პრობლემების სისტემური კვლევის საშუალებას როგორც სინქრონიულ, ისე დიაქრონიულ ასპექტში, მაგრამ კორპუსლინგვისტიკა არ არის მხოლოდ „კორპუსოლოგია“, ანუ მეცნიერება კორპუსთმშენებლობის შესახებ. თუმცა, კორპუსის აგების მეთოდოლოგიის შექმნა – კორპუსის სტრუქტურირების, აგების პრინციპებისა და მართვის მეთოდების შემუშავება – კორპუსლინგვისტიკის ერთ-ერთ საკვანძო პრობლემად არის მიჩნეული.
სტრუქტურული თვალსაზრისით, კორპუსი გარკვეული შინაარსობრივი და სამეცნიერო კრიტერიუმების შედეგად შექმნილი გაციფრებული ტექსტების სტრუქტურირებული კრებულია, რომელიც აერთიანებს:
ა) გარკვეული ჟანრისა და ტიპის ტექსტებს – მონაცემებს,
ბ) დამატებით მონაცემებს კორპუსის მონაცემების შესახებ – მეტამონაცემებს,
გ) მართვის სპეციალურ სისტემას – კორპუსის მენეჯერს.
შინაარსობრივი თვალსაზრისით, კორპუსი უმცირესი შინაარსობრივი ელემენტების – კოჰერენტული ტექსტის ნაკრებს წარმოადგენს, რომელიც ელექტრონულ მატარებლებზე არის გადატანილი. ასეთი ტექსტი შეიძლება იყოს დიდი ან მცირე მოცულობის ლიტერატურული ძეგლის (რომანი, ნოველა, პიესა, პოემა ლექსი), სამეცნიერო ნაშრომის (მონოგრაფია, სტატია, თეზისი), ნორმატიული დოკუმენტის (კონსტიტუცია, ბრძანებულება), პრესის მასალის (საგაზეთო სტატია) ან ზეპირი მეტყველების ნიმუშის გაციფრებული (დიგიტალური) ვერსია.
კორპუსი არ არის ტექსტური რესურსების უბრალო ნაკრები, ერთგვარი მათემატიკური ჯამი. ტექსტის სახით მოცემული ნებისმიერი ენობრივი რესურსი წინასწარ განიცდის დამუშავებას, სანამ კორპუსის რესურსად იქცევა.
კორპუსის შექმნის პროცესი ეტაპობრივად მიმდინარეობს:
– უპირველეს ყოვლისა, იქმნება ტექსტის ელექტრონული ვერსია კოდირების საერთაშორისო სტანდარტების (UNICODE) შესაბამისად, ანუ ადგილი აქვს ტექსტის ციფრულ ფორმატში გადაყვანას; ელექტრონული ტექსტი, როგორც წესი, კონვერტირდება HTML, შემდეგ კი XML ფორმატში).
– ელექტრონული ვერსია ზუსტად უნდა ასახავდეს დედნის სტრუქტურას. ამიტომ, ტექსტის დიგიტალური ვერსიის შექმნის შემდეგ აუცილებელია ტექსტის შიდასტრუქტურული დამუშავება რეფერენციის თვალსაზრისით – ელექტრონული ვერსიის დამუშავება ტექსტის მარკირების საგანგებო ნიშნულებით (textual markup).
– ტექსტის გარე რეფერენციის მიზნით ხდება ტექსტის მეტამონაცემების თვალსაზრისით დამუშავება – ტექსტთან მიმართებაში რელევანტური მეტამონაცემების საგანგებო ბაზაში შეტანა, რათა მომხმარებელს კორპუსის მასალების რელევანტური ნიშნების მიხედვით მოძებნა გაუადვილდეს.
მხოლოდ ამგვარად დამუშავებული ტექსტი შეიძლება მივიჩნიოთ კორპუსის უმცირეს შინაარსობრივ ელემენტად.
ტექსტური კორპუსების სახით საქმე გვაქვს ერთგვარ „საცავთან“, რომელიც მასში ინტეგრირებული კორპუსული ელემენტების გარკვეული ნიშნის მიხედვით მოძებნის საშუალებას იძლევა. კვლევის პროცესში მისი ეფექტურად გამოყენება მხოლოდ მაშინ არის შესაძლებელი, თუ მას თან ახლავს დამატებითი ინფორმაცია – მეტამონაცემები ტექსტის ენობრივი კუთვნილების, წარმოშობის (ორიგინალური, ნათარგმნი), ავტორის, დათარიღების და სხვა რელევანტური ნიშნების მიხედვით.
კორპუსთან მიმართებაში ხშირად ისმის კითხვა: რა არის კორპუსი, ელექტრონული ბიბლიოთეკა?
ამ კითხვაზე ცალსახად უნდა გავცეთ პასუხი: არა! კორპუსი არ არის ბიბლიოთეკის (ანუ ტექსტების ნაკრების) ელექტრონული ვარიანტი. კორპუსში ჩვენ ვეძებთ არა ავტორებს და ტექსტებს, არამედ ენობრივ ფაქტებს და ვიკვლევთ მათ შორის არსებულ ურთიერთმიმართებებსა და განპირობებულობებს.
კორპუსის გამოყენებას უზრუნველყოფს კორპუსის მართვის საგანგებო სისტემა – კორპუსის მენეჯერი. კორპუსის გამოყენების ეფიციენტურობა დამოკიდებულია კორპუსმენეჯერის ფუნქციონირების ეფექტურობაზე. კორპუსის აქ დასახელებულ სამივე კომპონენტს (ენობრივი მონაცემი, მეტამონაცემი და კორპუსმენეჯერი) დაწვრილებით განვიხილავთ მომდევნო ქვეთავებში.