Kaip automatiniai internetiniai teksto vertėjai iškraipo statistinius duomenis ir kaip tai interpretuoti teisingai

Vertimo problema, apie kurią retai kalbama

Statistiniai duomenys yra vienas jautriausių turinio tipų, kurį galima pateikti automatiniam vertėjui. Skaičiai atrodo neutralūs, bet kontekstas, kuriame jie pateikiami, yra viskas. Kai „Google Translate”, „DeepL” ar bet kuris kitas automatinis įrankis verčia tekstą su procentais, santykiniais rodikliais ar sudėtingomis statistinėmis sąvokomis, rezultatas dažnai būna ne tik netikslus – jis gali būti tiesiogiai klaidinantis. Ir tai nėra smulkmena, kurią galima ignoruoti.

Problema egzistuoja keliais lygmenimis. Pirma, yra grynai kalbinis lygmuo – kai terminai verčiami pažodžiui, bet jų reikšmė skirtingose kalbose skiriasi. Antra, yra kultūrinis lygmuo – kai statistiniai duomenys yra susiję su konkrečia šalies sistema, ir vertimas neperteikia tos sistemos specifikos. Trečia, yra struktūrinis lygmuo – kai sakinio konstrukcija verčiama taip, kad priežasties ir pasekmės ryšys apsiverčia arba išnyksta. Kiekvienas iš šių lygmenų gali pakenkti duomenų interpretacijai, o visi trys kartu – tai jau tikra katastrofa analitikui, kuris remiasi verstu tekstu.

Kaip automatiniai vertėjai „supranta” skaičius

Automatiniai vertimo įrankiai, pagrįsti neuroniniais tinklais, iš esmės mokosi iš didelių tekstų korpusų. Jie nėra suprogramuoti suprasti statistiką – jie atpažįsta kalbos modelius ir bando juos atkartoti kitoje kalboje. Tai reiškia, kad kai vertėjas susiduria su fraze „the unemployment rate fell by 3 percentage points”, jis gali ją išversti kaip „nedarbo lygis sumažėjo 3 procentais” – ir tai yra esminis skirtumas.

Procentiniai punktai ir procentai nėra tas pats. Jei nedarbo lygis buvo 10 proc. ir sumažėjo 3 procentiniais punktais, dabar jis yra 7 proc. Bet jei sumažėjo 3 proc., tai reiškia, kad jis sumažėjo nuo 10 proc. iki 9,7 proc. Skirtumas – 0,3 procentinio punkto – gali atrodyti nedidelis, bet ekonominėje analizėje tai gali reikšti skirtingą politikos vertinimą, skirtingus biudžeto sprendimus ir skirtingas prognozes.

„DeepL” šiuo atžvilgiu veikia geriau nei „Google Translate” daugeliu atvejų, bet nė vienas iš jų nėra patikimas, kai kalbama apie statistinius niuansus. Tyrimai, kuriuose buvo lyginami automatiniai vertimai su profesionaliais vertimais medicinos ir ekonomikos srityse, nuolat rodo, kad automatiniai įrankiai daro sistemingas klaidas būtent ten, kur tikslumas yra kritiškiausias.

Terminologijos spąstai statistiniuose tekstuose

Statistinė terminologija yra ypač problematiška dėl kelių priežasčių. Daugelis terminų turi labai specifines reikšmes, kurios skiriasi nuo kasdienės kalbos vartosenos. „Significant” anglų kalboje statistiniame kontekste reiškia „statistiškai reikšmingas” – tai yra konkretus techninis terminas, susijęs su p reikšme ir hipotezių tikrinimo procedūromis. Automatinis vertėjas dažnai išverčia šį žodį kaip „reikšmingas” arba „svarbus”, kas yra teisingas vertimas kasdienine prasme, bet praranda statistinę specifiką.

Panašiai yra su tokiais terminais kaip „confidence interval” (pasikliautinasis intervalas), „standard deviation” (standartinis nuokrypis), „regression to the mean” (regresija į vidurkį) ar „correlation” (koreliacija). Kai šie terminai verčiami pažodžiui arba netiksliai, skaitytojas gali susidaryti visiškai klaidingą supratimą apie tai, ką tyrimas iš tikrųjų teigia.

Konkrečiai – „regression to the mean” lietuviškai turėtų būti verčiama kaip „regresija į vidurkį”, bet automatinis vertėjas kartais pateikia „grįžimas prie vidutinio” arba net „regresija į vidurį”, kas skamba nenatūraliai ir gali suklaidinti skaitytoją, nesusipažinusį su statistika. Dar blogiau, kai vertimas pateikia „atsitraukimas į vidurkį” – tai jau perteikia klaidingą kryptingumo pojūtį.

Praktinis patarimas: jei dirbate su statistiniais tekstais ir naudojate automatinį vertėją, sudarykite terminų žodyną prieš pradėdami darbą. Identifikuokite kiekvieną techninį terminą originale ir patikrinkite, kaip jis turėtų būti išverstas pagal oficialius statistikos standartus jūsų šalyje. Lietuvos statistikos departamentas ir Europos statistikos biuras (Eurostat) turi oficialius terminų žodynus, kurie turėtų būti pirminiai šaltiniai.

Kultūrinis kontekstas, kurį vertėjas neperteikia

Statistiniai duomenys visada egzistuoja konkrečiame institucininiame ir kultūriniame kontekste. Kai JAV ataskaita kalba apie „poverty line” (skurdo ribą), ji remiasi JAV federaline skurdo apibrėžtimi, kuri skiriasi nuo Europos Sąjungos naudojamos metodologijos. Kai automatinis vertėjas išverčia šią frazę kaip „skurdo riba”, skaitytojas lietuviškai gali manyti, kad kalbama apie tą pačią sąvoką, kurią naudoja Lietuvos statistikos departamentas – bet taip nėra.

JAV skurdo riba yra absoliutus rodiklis, apskaičiuojamas pagal minimalius pragyvenimo poreikius. ES naudoja santykinį rodiklį – 60 proc. medianos pajamų. Tai reiškia, kad palyginimas tarp JAV ir ES skurdo statistikos yra metodologiškai problematiškas, ir automatinis vertimas šios problemos nesprendžia – jis ją slepia.

Tas pats galioja sveikatos statistikai. „Life expectancy at birth” (tikėtina gyvenimo trukmė gimus) ir „healthy life years” (sveiki gyvenimo metai) yra skirtingi rodikliai, bet automatinis vertimas ne visada aiškiai atskiria šias sąvokas. Kai Europos šalių sveikatos ataskaitos verčiamos automatiškai, šis skirtumas dažnai išnyksta, ir skaitytojas gauna sumaišytą vaizdą.

Rekomendacija: prieš interpretuodami bet kokius statistinius duomenis iš verstų šaltinių, visada patikrinkite, kokia metodologija buvo naudojama originaliame šaltinyje. Tai galima padaryti ieškant originalaus dokumento metodologinės dalies arba susisiekiant su duomenis paskelbusia institucija. Tai užtrunka papildomą laiką, bet apsaugo nuo fundamentalių interpretacijos klaidų.

Sakinio struktūra ir priežastingumo iškraipymas

Vienas subtiliausių, bet potencialiai pavojingiausių automatinio vertimo problemų yra sakinio struktūros iškraipymas, kuris keičia priežasties ir pasekmės ryšį. Statistiniuose tekstuose priežastingumas yra ypač svarbus – skirtumas tarp „A sukelia B” ir „A koreliuoja su B” yra esminis, bet automatinis vertėjas ne visada jį išlaiko.

Anglų kalbos konstrukcija „associated with” dažnai verčiama kaip „susijęs su”, kas yra teisingas vertimas, bet kartais vertėjas parenka aktyvesnę konstrukciją, kuri implikuoja priežastingumą. Pavyzdžiui, „smoking is associated with higher cancer rates” gali būti išversta kaip „rūkymas lemia didesnius vėžio rodiklius” – ir tai jau yra stipresnis teiginys nei originale.

Dar viena problema – sąlyginis sakinys. Anglų kalboje „if X, then Y” yra aiški sąlyginė konstrukcija. Bet kai vertėjas susiduria su sudėtingesnėmis statistinėmis sąlyginėmis frazėmis, pvz., „controlling for age and income, the effect of education on health outcomes was…” – vertimas dažnai tampa neaiškus arba netikslus. „Controlling for” yra statistinis terminas, reiškiantis „kontroliuojant kintamąjį”, bet automatinis vertėjas gali pateikti „kontroliuojant amžių ir pajamas” arba net „atsižvelgiant į amžių ir pajamas” – pastarasis vertimas yra silpnesnis ir ne visai tikslus.

Praktinis patarimas: kai skaitote verstą statistinį tekstą, atkreipkite ypatingą dėmesį į žodžius, kurie nurodo ryšio pobūdį – „sukelia”, „lemia”, „susijęs su”, „koreliuoja”. Jei kyla abejonių, patikrinkite originalų tekstą ir ieškokite, kokia buvo originali formuluotė. Šiuolaikiniai moksliniai straipsniai dažniausiai yra prieinami anglų kalba, todėl tai nėra sudėtinga.

Skaičių formatavimas ir regioniniai skirtumai

Tai gali atrodyti kaip smulkmena, bet skaičių formatavimas yra dar viena sritis, kurioje automatiniai vertėjai daro klaidas. Skirtingose šalyse naudojami skirtingi skaičių formatai – kai kuriose šalyse tūkstančių skiriamasis ženklas yra taškas, o dešimtainė dalis atskiriama kableliu (pvz., 1.000,50), kitose – atvirkščiai (1,000.50). Automatinis vertėjas ne visada koreguoja šiuos formatus pagal tikslinę kalbą.

Kai vokiečių kalba parašytame tekste yra skaičius „1.234,56″ ir jis verčiamas į anglų kalbą, idealiu atveju jis turėtų tapti „1,234.56″. Bet automatinis vertėjas dažnai palieka originalų formatą arba jį iškraipo. Jei skaitytojas neatpažįsta šio skirtumo, jis gali interpretuoti „1.234″ kaip vieną ir du šimtus trisdešimt keturis, o ne kaip tūkstantį du šimtus trisdešimt keturis.

Dar sudėtingiau yra su valiutomis. Kai statistinis tekstas pateikia duomenis vienoje valiutoje ir automatinis vertėjas juos palieka nepakeistus, skaitytojas gali nesuvokti, kad reikia atlikti valiutos konvertavimą. O jei vertėjas bando konvertuoti valiutas – tai dar blogiau, nes jis naudoja tam tikrą kursą, kuris gali būti pasenęs arba neatitikti to laikotarpio, apie kurį kalbama tekste.

Konkreti rekomendacija: visada patikrinkite skaičių formatą originaliame tekste ir tikslinėje kalboje. Jei dirbate su finansiniais ar ekonominiais duomenimis, įsitikinkite, kad valiutos ir jų kursai yra aiškiai nurodyti ir atitinka analizuojamą laikotarpį. Niekada neremkitės automatiškai konvertuotomis valiutomis be papildomo patikrinimo.

Kaip patikrinti verstų statistinių duomenų tikslumą

Yra keletas praktinių metodų, kurie padeda sumažinti automatinio vertimo klaidų poveikį statistinių duomenų interpretacijai. Pirmiausia, visada ieškokite originalaus šaltinio. Jei tekstas buvo paskelbtas tarptautinės organizacijos – Pasaulio banko, TVF, PSO, Eurostato – originali versija dažniausiai yra anglų kalba ir laisvai prieinama internete. Tai turėtų būti pirmasis žingsnis prieš remiantis verstu tekstu.

Antra, naudokite kryžminį tikrinimą. Jei statistinis teiginys verste atrodo neįtikėtinas arba prieštarauja jūsų žinioms, patikrinkite jį kitame šaltinyje. Statistiniai duomenys retai egzistuoja vakuume – paprastai yra keletas šaltinių, kurie pateikia panašius rodiklius, ir jų palyginimas gali atskleisti vertimo klaidas.

Trečia, jei turite galimybę, naudokite profesionalų vertimą arba bent jau profesionalų redagavimą po automatinio vertimo. Tai ypač svarbu, kai statistiniai duomenys bus naudojami priimant svarbius sprendimus – verslo, politikos ar mokslo srityse. Automatinis vertimas yra geras kaip pirminis žingsnis, bet ne kaip galutinis produktas.

Ketvirta, išmokite atpažinti dažniausias klaidas. Jei žinote, kad automatiniai vertėjai dažnai painioja procentinius punktus su procentais, galite tikslingai ieškoti šios klaidos verste tekste. Tai reikalauja tam tikrų statistinių žinių, bet net bazinis supratimas apie dažniausias problemas gali labai padėti.

Penkta, kai dirbate su dideliais duomenų kiekiais ir automatinis vertimas yra neišvengiamas, apsvarstykite galimybę naudoti specializuotus vertimo įrankius, pritaikytus konkrečiai sričiai. Kai kurios platformos siūlo domenui pritaikytus vertimo modelius, kurie buvo apmokyti su statistiniais ar moksliniais tekstais ir veikia tiksliau nei bendrieji modeliai.

Kai vertimas tampa dezinformacijos šaltiniu

Yra dar vienas aspektas, apie kurį verta kalbėti atvirai – automatinio vertimo klaidų politinis ir socialinis poveikis. Statistiniai duomenys dažnai naudojami viešose diskusijose, žiniasklaidoje ir politiniuose debatuose. Kai šie duomenys yra klaidingai išversti ir klaidinga interpretacija paplinta viešojoje erdvėje, tai gali turėti realių pasekmių.

Pavyzdys iš praktikos: migracijos statistika yra viena jautriausių temų, ir automatiniai vertimai šioje srityje daro ypač daug klaidų. Sąvokos kaip „net migration” (grynoji migracija), „asylum seekers” (prieglobsčio prašytojai), „refugees” (pabėgėliai) ir „irregular migrants” (neteisėti migrantai) turi skirtingas teisines ir statistines reikšmes, bet automatiniai vertėjai dažnai jas sumaišo. Kai žiniasklaida perima tokius klaidingus vertimus, visuomenė gauna iškraipytą vaizdą apie migracijos mastą ir pobūdį.

Tas pats galioja ekonomikos statistikai. Kai BVP augimo rodikliai, nedarbo statistika ar infliacijos duomenys yra klaidingai išversti ir neteisingai interpretuoti, tai gali paveikti visuomenės nuomonę apie ekonomikos valdymą ir politinius sprendimus. Tai nėra abstrakti problema – tai realus informacinio lauko iškraipymas.

Žiniasklaidos atstovai, analitikai ir visi, kurie dirba su statistiniais duomenimis viešojoje erdvėje, turėtų laikyti automatinio vertimo tikrinimą profesiniu standartu, o ne papildoma užduotimi. Tai yra atsakomybės klausimas – tiek profesinės, tiek pilietinės.

Galiausiai, verta paminėti, kad automatiniai vertimo įrankiai nuolat tobulėja. GPT tipo modeliai, integruoti į vertimo sistemas, jau dabar veikia geriau nei ankstesnės kartos įrankiai. Bet tobulėjimas nevyksta tolygiai – ir statistiniai tekstai išlieka viena sunkiausių sričių. Tol, kol automatiniai vertėjai nesugebės patikimai perteikti statistinės terminologijos, metodologinio konteksto ir priežastingumo struktūros, kritinis požiūris į verstus statistinius duomenis išliks ne pasirinkimu, o būtinybe. Statistika yra per daug svarbi, kad ją paliktume mašinų malonei be žmogiškos priežiūros.