მეთოდი კორპუსლინგვისტიკაში

კორპუსლინგვისტიკის ერთ-ერთ ძირითად ამოცანას წარმოადგენს კვლევის საკუთარი ინსტრუმენტების განვითარება – კორპუსის აგების, მართვისა და გამოყენების ტექნოლოგიის შექმნა და განვითარება, ერთი მხრივ, და კორპუსლინგვისტური კვლევის მეთოდური ინსტრუმენტების შემუშავება, მეორე მხრივ.

კორპუსლინგვისტიკა არა მხოლოდ საკუთარი მეთოდებით აღჭურვილი დარგია, არამედ კვლევის საკუთარი ინსტრუმენტებიც გააჩნია. მართალია, იგი ხშირად იყენებს ტრადიციული ლინგვისტიკისა და ინფორმატიკის, როგორც დამოუკიდებელი დარგების მეთოდებს, მაგრამ ისევე, როგორც სხვა ინტერდისციპლინური დარგები, მასაც გააჩნია საკუთარი მეთოდური ინვენტარი, რომელიც სრულიად ახალ, ან ლინგვისტიკიდან და ინფორმატიკიდან აღებულ, მაგრამ საგანგებოდ კორპუსლინგვისტიკისათვის მოდიფიცირებულ ინსტრუმენტს  წარმოადგენს.

ტრადიციული ენათმეცნიერების წარმომადგენლები კორპუსლინგვისტიკას არა დამოუკიდებელ დისციპლინად, არამედ ლინგვისტიკის ერთ-ერთ მეთოდად მიიჩნევენ, რომელიც საშუალებას აძლევს ლინგვისტს კვლევა თანამედროვე ტექნოლოგიური საშუალებებით აწარმოოს. „თანამედროვე ტექნოლოგიურ საშუალებებში“ კომპიუტერის გამოყენება იგულისხმება, თავად კომპიუტერი კი საჭირო ენობრივი მონაცემის „სწრაფ მოძებნასთან“ ან „სწრაფ წვდომასთან“ ასოცირდება. ამ კონტექსტში სრულიად უგულებელყოფილია მონაცემებთან მიმართებაში ტექნიკური რევოლუციის ერთი უპირატესობა: ციფრულ მონაცემთა სისტემური კვლევა.

მონაცემთა ახალი, ციფრული ფორმატის შექმნას ორი არსებითი მნიშვნელობა ჰქონდა ენათმეცნიერებისათვის:

1. მონაცემთა „გაციფრებამ“ შესაძლებელი გახადა დროსა და სივრცეში დაშორებული მონაცემების ერთიან, ვირტუალურ სივრცეში განთავსება

და

2. დიგიტალურმა ეპოქამ საფუძველი ჩაუყარა სამეცნიერო რესურსების  მანქანური, ანუ საგანგებო მათემატიკურ-ლოგიკური წესების – ალგორითმების საშუალებებით გადამუშავებას.

ამდენად, თანამედროვე ტექნოკრატიის პირობებში ერთმანეთის პირისპირ აღმოჩნდა  ადამიანური და ხელოვნური ინტელექტი. აქ არ შევუდგებით იმ დადებითი და უარყოფითი ნიშნების ჩამოთვლას, რომელიც ადამიანურ და ხელოვნურ ინტელექტს ახასიათებს ენობრივ მონაცემთა სისტემურ დამუშავებასთან მიმართებაში (აქ იგულისხმება, თუნდაც, ადამიანური ინტელექტის უპირატესობა, მაგალითად, სისტემის კონცეპტუალიზაციის პროცესში, ან ხელოვნური ინტელექტის უპირატესობა დიდი რაოდენობის მონაცემების სწრაფი და თანმიმდევრული დამუშავების თვალსაზრისით). არც იმ პრობლემურ საკითხს არ ჩავუღრმავდებით, რამდენად დამოუკიდებელია „ხელოვნური“ ინტელექტი მისი შემქმნელი „ბუნებრივი“ ინტელექტისაგან და რამდენად სრულფასოვნად შეუძლია ჩაანაცვლოს ეს უკანასკნელი. კორპუსლინგვისტიკის შემთხვევაში საქმე გვაქვს არა მხოლოდ მონაცემთა „მანქანურ“ დამუშავებასთან (ანუ არ ვეთანხმებით კორპუსლინგვისტიკის გაგებას, როგორც მეთოდური ინსტრუმენტის რაობას), არამედ ორი დარგის მეთოდური ინვენტარის ურთიერთმორგებასთან, რომელმაც კვლევის თვისობრივად ახალი მეთოდიკის შექმნას – კვლევის მულტიდისციპლინური მეთოდს დაუდო სათავე.

აქ არსებითად მიგვაჩნია ლინგვისტიკის, როგორც მეცნიერების კონკრეტული დარგის, განვითარების დიალექტიკის გათვალისწინება, ანუ იმის აღნიშვნა, რომ ემპირიული მასალის სისტემატიზაციაზე ორიენტირებულმა ტრადიციულმა ლინგვისტიკამ მე-20 საუკუნეში თვისებრივად ახალი, თეორიაზე ორიენტირებული გენერატიული ლინგვისტიკა წარმოშვა, რომელიც კვლევის პროცესში ძირითადად იყენებდა არა ინდუქციის (ანუ ემპირიული ფაქტების განზოგადების მეთოდს), არამედ დედუქციის (ანუ ლინგვისტური პოსტულატების გენერირების და მათი ემპირიულ მასალაზე გადამოწმების) მეთოდს. მონაცემთა ახალი ტიპის, ციფრული მონაცემების გაჩენამ ერთმანეთს კვლავ შეახვედრა თეორია და ემპირია, ოღონდ არა როგორც ორი დამოუკიდებელი კომპონენტი, არამედ როგორც ერთიანი, ჰომოგენური  მთლიანობა.

ლინგვისტიკის განვითარების დიალექტიკა ჩვენ ასე წარმოგვიდგენია:

პრაქტიკული ემპირიიდან (ემპირიული მონაცემების ანალიზი) ლინგვისტიკა იქცა „ჰიპოთეზურ“ თეორიად (ჰიპოთეზურ პოსტულატებზე აგებულ თეორიად), რომელმაც ემპირიული თეორია (ემპირიულ მასალაზე ვერიფიცირებადი  თეორია) შვა, ანუ მოხდა ემპირიისა და თეორიის სიმბიოზი.

ერთ-ერთ უმნიშვნელოვანეს განსხვავებას ამ სამ საფეხურს შორის ქმნის ემპირიული რესურსების მოცულობა – ტრადიციული ლინგვისტიკისაგან განსხვავებით თანამედროვე ენათმეცნიერება მონაცემთა დიდი მოცულობის ბაზებს (Big Data) ეყრდნობა. დიდი ციფრების კანონმა სრულიად შეცვალა ენობრივი სისტემის მოზაიკაში ცალკეული ემპირიული შემთხვევების ადგილი და მნიშვნელობა. ენობრივი შემთხვევა, რომელიც თუნდაც ერთხელ დასტურდება 130 მილიონი სიტყვაფორმის მომცველ კორპუსში, ისეთივე მნიშვნელოვანია, როგორც ნებისმიერი, მაღალი ფრეკვენტულობით აღჭურვილი ენობრივი ფაქტი.

პრობლემის მეთოდოლოგიური ასპექტი ერთ-ერთ უმნიშვნელოვანეს საკითხს წარმოადგენს კორპუსლინგვისტიკის, როგორც დამოუკიდებელი ინტერდისციპლინური დარგის ლეგალიზაციისათვის და მისი არსებობის შესახებ დისკუსიის ეფექტურობაც სწორედაც რომ ამ საკითხის კორექტულად გადაწყვეტაზეა დამოკიდებული.