Ką reiškia kalbai „neišgyventi skaitmeninėje epochoje“? Kodėl ši grėsmė iškyla ne tik neturtingoms ir mažoms šalims, bet ir skandinavų valstybėms, kurios yra pasaulinės informacinių technologijų lyderės ir turi pakankamą ekonominį bei mokslo potencialą, kad neatsiliktų tokioje svarbioje srityje? Svarbiausia – ką reikia daryti, kad lietuvių kalba išvengtų šios grėsmės? O gal tai visai ne grėsmė, bet reklaminė išmonė europiniam finansavimui padidinti?
Vivos voco, mortuos plango, fulgura frango (Gyvuosius šaukiu, mirusius apverkiu, žaibus sulaužau) – tai tradicinis užrašas ant bažnyčios varpų, išpopuliarintas vokiečių poeto Friedricho Schillerio poemos „Varpo giesmė“, mums labiau žinomas iš Vinco Mykolaičio-Putino karo metų eilėraščio makabriškai sukeistu pavadinimu: „Vivos plango, mortuos voco“ (Gyvuosius apverkiu, mirusius šaukiu). Dar neapverktas, atrodo, liko tik žaibas…
Europos Komisijos finansuojamas kompetencijos tinklas META-NET rugsėjo mėnesį Europos kalbų dienos proga paskelbė studiją, kurią sudaro trisdešimt baltųjų knygų ir Strateginė tyrimų darbotvarkė (STD). Šiuo metu šį tinklą sudaro 54 nariai iš 33 Europos šalių. Kiekviena baltoji knyga skirta kuriai nors oficialiai ES kalbai ir dar septynioms ES kaimynių ar ES šalių narių bendruomenių kalboms.
STD apima mokslinių tyrimų darbotvarkę iki 2020 metų. META-NET pranešimas spaudai rūsčiai perspėja: mažiausiai 21 Europos kalbai gresia neišgyventi skaitmeninėje epochoje. Tai tikras intelektualinės mirties nuosprendis kalbai ir ja kalbančiai bendruomenei.
Lietuvoje, kur raidę „v“ pavingiavus du kartus (w), kyla ilgai nerimstanti audra, tokia naujiena turėjo žaibu trenkti, griausmu nubildėti. Niekas net nepastebėjo. Tarytum koks malas (žaibas be griaustinio) sušvytavo toli prie horizonto, kažkur briuseliuose. Apverkti norisi tokį žaibą (fulgura plango).
Galimi du paaiškinimai, kodėl lietuviškai kalbanti bendruomenė META-NET perspėjimo nepastebėjo. Viena galimybė, kad META-NET pervertino grėsmes ir dar šiek tiek blefuoja, norėdamas pritraukti visuomenės bei europinių fondų dėmesį. Gerai dalyką išmananti, bet santūri, lietuviškai kalbanti bendruomenė nematė reikalo per daug kreipti dėmesio. Kita galimybė, kad lietuviškai kalbanti bendruomenė tiesiog nesuprato, apie ką kalbama.
Ką reiškia kalbai „neišgyventi skaitmeninėje epochoje“? Kodėl ši grėsmė iškyla ne tik neturtingoms ir mažoms šalims, bet ir skandinavų valstybėms, kurios yra pasaulinės informacinių technologijų lyderės ir turi pakankamą ekonominį bei mokslo potencialą, kad neatsiliktų tokioje svarbioje srityje? Svarbiausia – ką reikia daryti, kad lietuvių kalba išvengtų šios grėsmės? O gal tai visai ne grėsmė, bet reklaminė išmonė europiniam finansavimui padidinti?
Kalbos technologijos (KT) – sudėtinga, plati ir daugiaplanė sritis, kuriai reikia suderinti įvairių mokslų bei technologijų metodus. Lietuvoje KT uždaviniai aptariami menkai, siaurai ir tik tarp savų specialistų. Viešojoje erdvėje diskusijos nevyksta ir platesnei visuomenei jokios problemos net nemėginta pateikti. Valstybinėse institucijose vyrauja nuomonė, kad visos problemos kyla dėl mažos lietuviškų KT rinkos (tai yra tiesa), ir jos gali būti išspręstos suviliojus verslą europinių fondų pinigais. Tam tarnauja ligšiolinės lietuvių kalbos informacinėje visuomenėje programos. Jos yra būtinos, bet nepakankamos. Todėl rezultato nėra ir, jei padėtis nesikeis, jo nebus ateityje.
Apibendrinančioje lentelėje Europos kalbų būklė pristatyta pagal penkių laipsnių įvertinimus keturiose KT srityse:
– šnekamosios kalbos apdorojimas;
– automatinis vertimas;
– teksto analizė;
– kalbos ir teksto ištekliai.
Įvertinimo laipsniai suformuluoti kaip KT palaikymo kiekvienoje iš trisdešimties Europos kalbinių bendruomenių kokybė: puikus; geras; vidutinis; fragmentiškas ir menkas/jokio. Puikus įvertinimas paliktas ateities technologijoms, o gerą įvertinimą visose srityse gavo anglų kalba, ir tik ji vienintelė. 29 Europos kalbos dalijasi likusias tris įvertinimo kokybes. 21 Europos kalbai gresia neišgyventi skaitmeninėje epochoje. Kurios tai kalbos? Paprasčiau išvardyti aštuonias Europos kalbas (greta anglų), kurioms šis perspėjimas netaikomas. Nenuostabu, kad tai keturios didžiosios Europos kalbos – vokiečių, prancūzų, ispanų ir italų. Be jų, gerus įvertinimus pelnė lenkų, vengrų, čekų bei olandų kalbos. Lietuvių kalba visose keturiose KT srityse kartu su latvių, islandų bei maltiečių kalbomis įvertinta žemiausiu laipsniu, kaip turinti menką arba neturinti jokio palaikymo.
Pamėginkime pasinaudoti KT. Įsijunkime kompiuterį ir susiraskime Google. (Jei skaitytojas turi kompiuterį, tai jam nereikia aiškinti, kur rasti Google. TV žaidime aštuntokų buvo klausiama, kokios spalvos yra pirmoji Google raidė – dauguma žinojo, kad mėlyna.) Pasiūlykime Google vertėjui tris angliškus sakinius:
An acorn grew into an oak.
An acorn grew on an oak.
An acorn grew behind an oak.
Perskaitykime atsakymus:
Gilė išaugo į ąžuolo.
Gilė augo ąžuolu.
Gilė išaugo už ąžuolu.
Perskaityti šiuos sakinius būtinai reikia garsiai ir ne vieną kartą. Vidurinysis sakinys skamba neblogai, bet jis tiktų pirmojo sakinio vertimui. O koks gi teisingas šių sakinių vertimas? Susiraskite VDU vertėją. (Ak, nežinote, kur jį rasti? Nieko, paieškokite, pagūglinkite...). VDU vertėjo atsakymas toks:
Gilė peraugo į ąžuolą.
Gilė užaugo ant ąžuolo.
Gilė užaugo už ąžuolo.
Tai visiškai prasmingi atsakymai, gramatika normali. Google ir VDU vertimai buvo testuoti ir lyginti. Praktiškai visus testus VDU vertėjas atliko geriau. Esmė matoma iš pateiktų sakinių be jokių testų. Lietuviškų sakinių Google nepajėgia išversti, nes į lietuvišką gramatiką neinvestavo nė dolerio. Tai ne lietuvių kalbos sakiniai, bet žodžių kratinys, kurį pateikia statistikinio metodo spėlionė. Kažkada mums piršo graždanką, dabar turime amerikanką. Kodėl Google vertėjo neuždraudžia Lietuvių kalbos komisija? Juk jis teršia kiekvieną kompiuterį taip, kaip nė vienas net pats didžiausias beraštis iš tolo neprilygtų.
O kam jį drausti, juk niekas juo ir nesinaudoja. Štai čia viskas atsiskleidžia. Taip, lietuviai Google vertėju nesinaudoja, nes juo praktiškai neįmanoma naudotis. Tačiau pasaulyje visi vertėjai kartu paėmus per metus išverčia tiek tekstų, kiek Google išverčia per vieną dieną! Ar kiti ne tokie išrankūs, kaip mes, lietuviai? Ne, jų vertimai, jeigu ir netobuli, tai nepalyginti kokybiškesni. Tai pasiūlykime Lietuvių kalbos komisijai parašyti laiškąGoogle vadovams, kad ištaisytų padėtį. Juokinga, ar ne? Tai išprašykime nevykusį vertėją iš savo kompiuterių. Išeis ir pats Google, o be jo mes apsieiti nemokame. Darželinukas Google suranda mikliai ir prašo: „pagūglink man tą ar aną“, mat rašyti dar nepramoko.
Googležarsto milijardus dolerių. Jie ne iš dangaus nukrito. Google įkūrėjų idėja tikrai buvo geniali. Turėdami pakankamai neblogą paieškos sistemą, jie nusprendė už šią paslaugą neimti užmokesčio. Tuomet iš ko gyventi? Iš reklamos. Bet ne iš tos, kuri mums užpildo didesnę dalį ekrano. Gūgliname ne už dyką. Google mainais už paieškos paslaugą, be kurios nebegalime apsieiti, pasiėmė mūsų dėmesį. Kiekvienas mūsų pelės spragtelėjimas yra susiurbiamas visur knibždančių robotų. Jie dirba savo šeimininkui. Viskas, kuo aš domiuosi, bus susiurbta į bendrą telkinį ir ištyrinėta.
Šio tyrimo rezultatai kainuoja labai brangiai – juos ir parduoda reklamų pavidalu. Privatumas nepažeistas (nors viskas vyksta privatumo teisės paribyje), nes mano asmeniški duomenys tiesiogiai neparduodami. Mūsų atžvilgiu tie robotai – tikri zombiai. Jie veržiasi visur, ir neturime jokių priemonių jiems paveikti. Jie dirba tiktai savo šeimininkui. Mums jie ne dirba, o tik zombiškai vograuja. (Mortuos voco...)
Dažnai šiuolaikinė informacijos revoliucija lyginama su Gutenbergo spaudos išradimu. Programinės įrangos pritaikymas tam tikrai kalbinei ir kultūrinei aplinkai vadinamas lokalizacija. Kuo sudėtingesnės technologijos, tuo gilesnė restruktūrizacija, tuo brangesnė lokalizacija. Lokalizacija, kai keičiami šriftai ar lietuvinami įrašai, tėra Gutenbergo revoliucijos tąsa, spausdinimo mašinos tobulesnė versija. Norėdami būti skaitmeninėje erdvėje kaip lietuviškai kalbanti bendruomenė, privalome viską, kas parašyta, perkelti į skaitmenines laikmenas. Tai brangu ir atima daug laiko, bet neišvengiama.
Tačiau tai tik Gutenbergo revoliucijos šiuolaikinis etapas. Nė viena iš keturių minėtų KT krypčių šiais darbais neišsemiama. Netgi kalbos ir teksto ištekliai – tai ne vien tik tekstai ir tekstynai. KT rimtam panaudojimui tekstynai privalo būti anotuojami, t. y. tam tikru būdu aprašomi. Kitos trys kryptys šitaip parengtais resursais naudojasi, o jų technologijos remiasi kalbos sandaros perkėlimu į mašininėje kalboje vartojamus kodus. Visa kalba turi būti perkelta: ir fonetika, ir gramatika, ir semantika. Fonetika ir gramatika, nors apima didžiulį kiekį tik specialistams prieinamos informacijos, dar šiek tiek aprėpiamos. Semantikos apimtį būtų galima palyginti su dvidešimties tomų Lietuvių kalbos žodyno perkodavimu kiniškais rašmenimis.
Šį lobyną telkė visą šimtmetį. Jo perkėlimui į skaitmeninę erdvę gal tiek laiko nereikės, tačiau tam turi būti skiriamas ne pavienių entuziastų, o valstybės dėmesys. Vienas pats Kazimieras Būga žodyną būtų tvarkęs ne vieną šimtmetį. Šiandien susidaro įspūdis, kad kažkas kitas už mus šį darbą padarys. Gal ne Google, bet kokia kita kuklesnė įmonė. Negalėjome atsidžiaugti, kad į Lietuvą atėjo IBM. Atėjo, rado kelis jiems patikusius tyrinėtojus, juos išsivežė ir, negavusi tų europinių pinigėlių, kurių tikėjosi, išėjo namo. Ką veikiame mes?
Minėta VDU vertimo programa jau penkti metai trūnija netobulinama. Pasiekė gandai, kad pirksim naują už milijonus. Ji veiks kitaip nei VDU – panašiau į Google, naudodama tik statistinius metodus. Nespecialistai nesusigaudys, o kas nors kiek domisi, žino, kad statistiniai metodai jau save išsėmė ir pereinama bent jau prie hibridinių sistemų. Daugiametis darbas kuriant VDU vertėją ir koduojant lietuvišką gramatiką bei formuojant žodyną nurašomas kaip nebereikalingas. Statistiniai metodai naudoja dvikalbį tekstyną, o programas galima prakišti beveik nelokalizuotas.
Grįžtame prie amerikankos. Semantika liks ten, kur sustojo Jonas Paulauskas, 1987 metais parengęs lietuvių kalbos sisteminį žodyną. Kokia šnekamosios kalbos apdorojimo padėtis, niekas dorai neanalizavo. Čia turime neblogų pajėgų, bet pažanga lėta. Užuot sutelkę visus specialistus bendram darbui, konkuruojame tarpusavyje, nes tokios europinių pinigėlių skirstymo taisyklės. Tekstų analizė visiškai nepradėta, o tai juk semantinio tinklo pamatas. Taip, kuria kažkas kokią nors ontologiją. Ontologijų patys neprikursime. Jos verčiamos, o tam ilgam darbui reikia aukštos kvalifikacijos. Šitaip dirbdami liksime prie įmantrios, gražiais pavadinimais išmargintos spausdinimo mašinos. Patys ja spausdinsime, patys skaitysime. Tai ir yra skaitmeninė kalbos mirtis.
Mūsų kalba yra mūsų pačių, lietuviškai kalbančios bendruomenės, reikalas. Turime ne užsisklęsti, besigėrėdami savo archajiškomis šaknimis, o atsiverti globaliajam pasauliui. Europa tam siūlo paramą. Umberto Eco yra tiksliai pasakęs – Europos kultūra yra vertimo kultūra. Jei patys nesiimsime būtinų darbų pagal detalią ir išsamią strategiją, o ne tam kartui sumestas Europos pinigėlių dalybos programas, lietuvių kalba bus išgūglinta taip, kad graždanka mums atrodys kaip romantiška svajonė. Zombiai atrieda atidunda. (Vivos frango.)
Vytauto Visocko (Slaptai.lt) nuotraukoje: straipsnio autorius Algirdas Saudargas, Lietuvos Nepriklausomybės Akto signataras, Europos Parlamento narys.
Informacijos šaltinis – „Nepriklausomybės sąsiuviniai“.
2014.02.20; 05:15