მონაცემთა ვიზუალიზაცია

ტრადიციული ლინგვისტიკისაგან განსხვავებით კორპუსლინგვისტიკა არა მხოლოდ ფაქტების, ანუ ენობრივი მონაცემების აღწერით არის დაკავებული, არამედ მონაცემებს შორის არსებულ მიმართებებსაც აღწერს და რაც მთავარია შეუძლია ამ მიმართებების ვიზუალიზება.

რა არის ვიზუალიზაცია?

ვიზუალიზაცია (visualisation) არის აბსტრაქტული მი­მარ­თებების ოპტიკური საშუალებებით ასახვა. ვიზუალიზაციის მეთოდი წარმატებით გამოიყენება დებულე­ბე­ბის ან შედეგების თვალსაჩინოდ წარმოდგენის მიზნით მეცნიერებაში, მედიებში, საყოფაცხოვრებო სფეროში. დღეს უკვე აღარ დაობენ ინფორმაციის ვიზუალიზაციის მნიშვნელობის, კერძოდ, მისი გავლენის შესახებ საზოგადოების ცნობიერების ჩამოყალიბებაზე ან ცვლილებაზე. არც ის ფაქტი არ არის სადავო, რომ მედიასაშუალებები  საზოგადოებრივი  ცნობიერების მანიპულირების ერთ-ერთ უმძლავრეს  იარაღს წარმოადგენს.

არსებობს ვიზუალიზაციის მეთოდები და ინსტრუმენტები, რომლებიც არსებითად განსხვავდებიან ერთმანეთისაგან მიზნის, სტრატეგიისა და გამოყენების სფეროების მიხედვით, თუმცა საერთოა ვიზუალიზაციის ზოგადი პრინციპი: იგი ცხადად და სხარტად უნდა გადმოსცემდეს ფუნქციურ მიმართებებს რელევანტურ ფაქტებს ან მოვლენებს შორის. ვიზუალიზაციის უძველეს ფორმას მიეკუთვნება პიქტოგრამა, ხოლო უახლესს – ლოგო, დიაგრამა, სქემა.

დარგების მიხედვით ერთმანეთისაგან განარჩევენ ვიზუალიზაციის სხვადასხვა სახეს: სამედიცინო ვიზუალიზაცია, ტექნიკური ვიზუალიზაცია, არქიტექტურული ვიზუალიზაცია და სხვ. ასეთ შემთხვევაში, როგორც წესი, იგულისხმება საგნის 3D-მოცემულობის ფორმატში წარმოდგენა. მათგან განსხვავებით სამეცნიერო ვიზუალიზაცია ასახავს არა საგნობრივ, არამედ აბსტრაქტულ მიმართებებს და უნდა აკმაყოფილებდეს სამ აუცილებელ კრიტერიუმს:

ა) იგი უნდა იყოს გამომსახველობითი,

ბ) უნდა ახდენდეს შთაბეჭდილებას და

გ) ეყრდნობოდეს რეალურ მონაცემებს.

ანუ ვიზუალიზაცია უნდა იყოს ექსპრესიული, ეფექტური და ადეკვატური.

ინფორმაციის ვიზუალიზაცია (იგივე მონაცემთა ვიზუალიზაცია) კვლევის ის სფეროა, რომელიც უზრუნველყოფს დიდ მონაცემთა (big data) კომპიუტერული საშუალებებით გადამუშავებასა და შედეგების გრაფიკულად წარმოდგენას.

მაგ., იმის დასადგენად, თუ რომელი სიტყვა იხმარება ყველაზე ხშირად მოცემულ ტექსტში (მაგ., „შუშანიკის წამებაში“), შეგვიძლია გამოვითვალოთ სიხშირის კოეფიციენტი და შედეგები წარმოვადგინოთ ტაბულის სახით. ვიზუალიზაციის პროგრამული საშუალებები კი საშუალებას გვაძლევს კვლევის შედეგები  ვიზუალიზაციის გამოყენებით გავათვალსაჩინოოთ.  ვიზუალიზაციის დროს გამოიყენება ისეთი დარგებისა და დისციპლინების მეთოდური ინსტრუმენტები, როგორიცაა ინფორმატიკა,  კოგნიტური მეცნიერება, სტატისტიკა, data mining.

Slide1

Data mining, როგორც მეთოდი, წარმატებით გამოიყენება მონაცემთა დიდი ბაზების მანქანური დამუშავების დროს. ცნებაში data mining იგულისხმება ბაზაში მსგავს ობიექტთა ჯგუფების (კლასტერების) გამოხშირვა-დახარისხება  ახალი ნიმუშების გამოვლენის მიზნით. ამგვარად შერჩეული ერთგვაროვანი კლასტერები ერთიანდებიან იერარქიულ (დაქვემდებარებულ) ან აგლომერაციულ (თანაბარდონიან) სისტემაში. აღნიშნული პროცესი მიზნად ისახავს ცოდნის მოპოვებას იმის შესახებ, თუ

ა) რა არის სტატისტიკური თვალსაზრისით დაჯგუფებადი,

ბ) რომელი ჯგუფია ჯერ კიდევ უცნობი და ამდენად, აღუწერელი და

გ) რომელია გამოსადეგი იმისათვის, რომ დავადგინოთ რეგულარული მიმართებები, ურთიერთგანმსაზღვრავი წესები და ჯერ კიდევ  დაუდგენელი ურთიერთდამოკიდებულებები საანალიზო ელემენტების გროვაში.

ანალიზის ამგვარ სახეს კლასტერული ანალიზი (cluster analysis / clustering) ეწოდება.

Slide2

(კლასტერული ანალიზის ვიზუალიზაცია)

Data mining-ის მიზანია ახალი ჯგუფების გამოვლენა და არა წინასწარ მოცემული ჯგუფების კლასიფიკაცია. მისი გამოყენება ჰიპოთეზების გენერირების საშუალებას იძლევა, რომელიც შემდეგ ვერიფიკაციის შედეგად იხვეწება და ზუსტდება.

Data mining–ის პროცესის საწყისი და ერთ-ერთი უმნიშვნელოვანესი ეტაპია მონაცემთა ბაზის გადამოწმება ინკონსისტენტურობის თვალსაზრისით. აღნიშნულ ეტაპზე მიმდინარეობს ობიექტთა დაჯგუფება და ატიპური შემთხვევების გამოვლენა. მომდევნო ნაბიჯებია: კლასტერული ანალიზი, კლასიფიკაცია და განპირობებულობის დადგენა. ეს უკანასკნელი მიზნად ისახავს კორელაციის წესების დადგენას, ანუ რა პირობებში არის მოსალოდნელი ორი ან მეტი ობიექტის თანამყოფობა.

კორპუსლინგვისტიკაში ვიზუალიზაციის გამოყენების ერთ-ერთ ეფექტურ შედეგს წარმოადგენს ლექსიკურ ერთეულთა ტოპოლოგიური და ფუნქციური თანაარსებობის – კოლოკაციისა და კოოკურენციის – კვლევა.

ინფორმაციის ვიზუალიზაცია გერჰარდ ჰაიერის Wortschatz-ში

ინფორმაციის ვიზუალიზაციის თეორია („განწყობების წაკითხვა“) წარმატებით გამოიყენა  ლაიფციგის უნივერსიტეტის პროფესორმა გერჰარდ ჰაიერმა, რომელმაც საგანგებო მულტილინგვური პლატფორმა (Wortschatz) შექმნა ინფორმაციის ვიზუალიზაციის მიზნით – ენობრივ მონაცემთა ვიზუალიზაცია Wortschatz-ში 230 ენის პრესის მასალებს მიემართება, მათ შორის ქართული პრესის მასალებსაც, კერძოდ ქართული პრესის ელექტრონულ არქივს Opentext და ახალი ამბების სააგენტოს Civil Georgia, რომელიც სამენოვანი პორტალით არის წარმოდგენილი.

Slide3

გ. ჰაიერის პროგრამა ეფუძნება კოლოკაციისა (ტექსტში სიტყვის მეზობლად მდგარი მეორე სიტყვის პოვნიერება) და კოოკურენციის (ტექსტურ მასივში მოცემულ სიტყვასთან ყველაზე ხშირად გამოყენებული მეორე სიტყვის პოვნიერება) ცნებას. მაგ. წინადადებაში „ზაფხულში დასასვენებლად ზღვაზე მივდივარ“ სიტყვის დასასვენებლად“ კოლოკანტებია ზაფხულში“ და ზღვაზე“. მაშინ როდესაც, ამ სიტყვის კოოკურენტებად (ყველაზე ხშირად ხმარებულ სიტყვებად) Wortschatz–ის მიხედვით გვევლინება ვიყავი“ და ოჯახთან ერთად“:

Slide4

Wortschatz–ის პლატფორმა, როგორც ზემოთ უკვე აღვნიშნეთ, 230 ენის რესურსებს მიემართება. ამგვარი მულტილინგვური კორპუსების არსებობა საშუალებას გვაძლევს საგანგებოდ ვიკვლიოთ ლექსემათა კოოკურენტების ტიპოლოგია სხვადასხვა ენაში უნივერსალიების დადგენის მიზნით. მაგ.: ქართულის შემთხვევაში ტექნიკური ცნების „დემონტაჟი“ კოოკურენტებია  სიტყვები: რეჟიმის (111.33), მემორიალის (58.79), ძეგლის (56.04), ხელისუფლების (48.56), სახლის (43.91), შენობის (33.47). როგორც ვიზუალიზაციის ქვემოთ მოტანილი სქემიდან ჩანს, მრავალკომპონენტიან კოოკურენტებში ლიდერობს „დემონტაჟის“ მარცხენა კოოკურენტი „სააკაშვილის ხელისუფლების“:

Slide5

Wortschatz–ის გერმანული რესურსების მიხედვით კი შესაბამისი ლექსემის (Demontage) კოოკურენტებია: ზეეჰოფერი (ჰორსტ ზეეჰოფერი, გერმანელი პოლიტიკოსი), ძეგლი (Denkmal), ვესტერველე (გვიდო ვესტერველე, გერმანელი პოლიტიკოსი), სოციალისტური სახელმწიფოს(Sozialstaates), სოციალისტური სისტემა (Sozialsystems). Wortschatz–ის პლატფორმა ძირითადად პრესის მასალებს მიემართება, ამიტომ გასაკვირი არაა, რომ საკვლევი ლექსემის „დემონტაჟი“ კოოკურენტები, სემანტიკურად თავსებადი პარტნიორი სიტყვების – შენობა, ძეგლი, კონსტრუქცია – გარდა, პოლიტიკური პირები ან პოლიტიკური კონტექსტიც გახლავთ.

ინფორმაციის ვიზუალიზაცია წარმატებით გამოიყენება კვლევებისათვის ლიტერატურათმცოდნეობაში, სოციოლოგიაში, პოლიტოლოგიაში და ა.შ. მაგ., ეფექტურად შეიძლება ვიზუალიზაციის გამოყენება არა მხოლოდ ცალკეული სიტყვების, არამედ მთელი ციტატების შემთხვევაშიც. უდაოდ საინტერესო უნდა იყოს ქრონოლოგიურ ჭრილში ეპოქების მიხედვით ისეთი საკითხის კვლევა, როგორიცაა, მაგალითად, ეთნიკური იდენტიფიკაციის კომპონენტური ანალიზი –  ეთნიკური იდენტიფიკაციის  პოლიტიკური, რელიგიური, გეოგრაფიული, ეთნოლოგიური, ლინგვისტური საფუძვლები: როდის აქტიურდებოდა ქართველთა ცნობიერებაში ისეთი ციტატებით ოპერირება, როგორიცაა „ქართლად ფრიადი ქუეყანაჲ აღირაცხების“ (გრიგოლ ხანძთელი) ან  „ვითარმედ ყოველი საიდუმლოჲ ამას ენასა შინა დამარხულ არს“… (იოანე ზოსიმე) და სხვა.

კორპუსში მონაცემთა ვიზუალიზაციის ამგვარი შესაძლებლობები უდაოდ დამაჯერებელ ემპირიულ საფუძველს უქმნის სოციოლოგებს, პოლიტოლოგებს, ისტორიკოსებსა და სხვა დარგის სპეციალისტებს. ინფორმაციის ვიზუალიზაცია  (საზოგადოებრივ აზრის მაჯისცემის მოსმენა) არა მხოლოდ კვლევის, არამედ კონფლიქტების პროგნოზირების ეფექტური საშუალებაც გახლავთ. მეტიც, არსებობს  კოოკურენტების „მართვის“ ონტოლოგია. ვინაიდან კოოკურენცია ძირითადად გარკვეული სიტყვების ერთდროული ხმარების სიხშირეზეა დამოკიდებული, იგი ადვილად  მანიპულირებადია. მიზანმიმართული მცდელობით შესაძლებელია მისი სიხშირის გაზრდა (სასურველი კოოკურენტების ხშირი გამოყენება) და შესაბამისად, ამა თუ იმ მოვლენისადმი პერსპექტივის შეცვლა.

ამის საუკეთესო მაგალითი გახლავთ ნიუ-იორკ ტაიმსის ელექტრონული კორპუსიდან გამოთვლილი კოოკურენციების სურათი ცნებით „აბუ-გრეიბი“ (Abu-Ghraib  ერაყში ამერიკული ჯარების მმართველობის ქვეშ არსებული ციხეა). გამოკვლევის პირველ ქრონოლოგიურ ფაზაში ამ სიტყვის ირგვლივ დაჯგუფდა ისეთი ცნებები, როგორიცაა  „წამება“, „ადამიანის უფლებათა დარღვევა“, „არაჰუმანურობა და ასე შემდეგ. მეორე ქრონოლოგიურ ფაზაში აბუ-გრეიბ“- თან ასოცირებადი კოოკურენციები მოიცავდა ცნებებს „ამერიკის უსაფრთხოება“, „ტერორისტი“, „თერთმეტი სექტემბერი“ და ასე შემდეგ. ალბათ შეიძლება ვივარაუდოთ, რომ კოოკურენციის თემატური დისლოკაცია ამ სიტყვასთან (resp. ფაქტთან) მიმართებაში ამერიკის ხელისუფლების მიზანმიმართული მონდომების შედეგი იყო.