Kaip automatiniai internetiniai teksto vertėjai keičia statistinių duomenų sklaidą pasaulyje

Statistika keliauja per kalbų sienas

Dar prieš dešimtmetį statistiniai pranešimai, išleisti viena kalba, dažniausiai ir likdavo tos kalbos erdvėje. Tarptautinės organizacijos turėjo skirti nemažus biudžetus vertimams, o mažesnės institucijos tiesiog susitaikydavo su tuo, kad jų duomenys liks nepastebėti už nacionalinių ribų. Šiandien situacija iš esmės kitokia. Automatiniai vertėjai – „Google Translate”, „DeepL”, „Microsoft Translator” ir kiti – tapo savotišku tiltu, per kurį statistiniai duomenys keliauja iš vienos kalbinės aplinkos į kitą greičiau nei bet kada anksčiau.

Tai nėra vien technologinis reiškinys. Tai keičia tai, kaip žmonės supranta skaičius, kaip jie interpretuoja tendencijas ir kaip priima sprendimus remdamiesi duomenimis, kurie iš pradžių buvo sukurti visai kitai auditorijai. Ir čia prasideda įdomiausia dalis – ne visada tai, kas vyksta, yra gera žinia.

Kaip veikia šiuolaikiniai vertimo įrankiai ir kodėl statistika jiems yra iššūkis

Šiuolaikiniai automatiniai vertėjai remiasi neuroniniais tinklais, apmokytais ant milijardų teksto fragmentų. Jie gana gerai susidoroja su buitine kalba, literatūra, net juridiniais tekstais. Tačiau statistiniai dokumentai yra specifinė kategorija, turinti savų keblumų.

Pirma, statistiniuose tekstuose gausu techninių terminų, kurie skirtingose kalbose gali turėti skirtingą reikšmę arba visai neturėti atitikmens. Pavyzdžiui, angliškas terminas „median household income” lietuviškai verčiamas įvairiai – kartais kaip „vidutinės namų ūkio pajamos”, nors mediana ir vidurkis yra skirtingi statistiniai rodikliai. Toks vertimas gali suklaidinti skaitytoją, kuris nėra statistikos specialistas.

Antra, skaičiai patys savaime nekelia problemų – jie išlieka tokie patys bet kurioje kalboje. Tačiau kontekstas, kuriame jie pateikiami, gali būti išverstas netiksliai. Frazė „šis rodiklis yra statistiškai nereikšmingas” anglų kalboje turi labai aiškią techninę reikšmę, tačiau automatinis vertimas į kai kurias kalbas gali ją perteikti kaip „šis rodiklis yra nesvarbas” – o tai jau visiškai kita žinutė.

Trečia, lentelių antraštės, pastabos po grafikais ir metodologiniai paaiškinimai dažnai verčiami fragmentiškai arba iš viso praleidžiami, jei dokumentas yra PDF formatu. Tai reiškia, kad skaitytojas gauna skaičius be konteksto – o skaičiai be konteksto yra pavojingesni nei jokių skaičių.

Kur tai veikia gerai – ir kodėl neverta to nuvertinti

Nepaisant trūkumų, automatiniai vertėjai padarė kažką, ko nesugebėjo jokia kita technologija: jie demokratizavo prieigą prie informacijos. Mokslininkas Bangladeše dabar gali perskaityti Eurostato ataskaitas. Žurnalistas Kenijoje gali nagrinėti OECD duomenis. Pilietinės visuomenės aktyvistas Gruzijoje gali lyginti savo šalies rodiklius su Europos vidurkiais.

Tai nėra smulkmena. Prieš automatinių vertėjų erą tokia prieiga buvo privilegija – tų, kurie mokėjo anglų kalbą arba galėjo sau leisti samdyti vertėjus. Dabar ji tapo beveik visuotine. Ir tai turi realių pasekmių: tyrimai rodo, kad šalys, kurių gyventojai aktyviau naudojasi tarptautiniais statistiniais duomenimis, dažniau kelia klausimus apie valdymo kokybę ir reikalauja didesnio skaidrumo.

Be to, automatiniai vertėjai padeda ir pačioms statistikos institucijoms. Kai kurios nacionalinės statistikos tarnybos – tarp jų Eurostat ir Jungtinių Tautų statistikos padalinys – jau naudoja automatinį vertimą kaip pirmąjį žingsnį, kurį vėliau tikrina žmonės. Tai leidžia greičiau skleisti informaciją ir sumažinti vertimo kaštus, išlaikant priimtiną kokybę.

Klaidos, kurios turi pasekmių

Tačiau yra ir kitokių istorijų. 2021 metais kelios tarptautinės žiniasklaidos priemonės pranešė apie tariamą ekonomikos augimą viename Pietryčių Azijos regione, remdamosi duomenimis, kurie buvo automatiškai išversti iš vietinės kalbos. Vėliau paaiškėjo, kad vertimas buvo klaidingas – originale buvo kalbama apie nominalų augimą, o ne realų, koreguotą pagal infliaciją. Skirtumas tarp šių dviejų rodiklių tame kontekste buvo esminis, tačiau automatinis vertėjas jo neperteikė.

Panašių atvejų yra ir daugiau. Sveikatos statistikos srityje netikslūs vertimai gali turėti ypač rimtų pasekmių. Sergamumo rodikliai, mirtingumo duomenys, vakcinacijos aprėpties skaičiai – visa tai turi būti perteikta tiksliai, nes klaidinga interpretacija gali paveikti visuomenės sveikatos sprendimus. Kai automatinis vertėjas „supainioja” sergamumo ir mirtingumo rodiklius – o tai nutinka, nes kai kuriose kalbose šie terminai yra panašūs – rezultatas gali būti klaidingas visuomenės supratimas apie ligos pavojingumą.

Finansų sektoriuje situacija panaši. Investuotojai, besinaudojantys automatiškai išverstomis ataskaitomis, kartais priima sprendimus remdamiesi netiksliai perteiktais duomenimis. Tai nėra tik teorinė grėsmė – tai dokumentuota praktika, kurią pripažįsta ir patys finansų reguliatoriai.

Ką daro tarptautinės organizacijos ir ar to pakanka

Tarptautinės statistikos organizacijos į šią situaciją reaguoja skirtingai. Kai kurios, kaip Pasaulio bankas, investuoja į savo vertimo sistemas, kurios yra specialiai pritaikytos statistiniams tekstams. Kitos, kaip Tarptautinis valiutos fondas, laikosi konservatyvesnės pozicijos ir stengiasi svarbius dokumentus versti rankiniu būdu, nors tai sulėtina informacijos sklaidą.

Eurostat šiuo atžvilgiu yra įdomus pavyzdys. Organizacija turi oficialias versijas visomis ES kalbomis, tačiau tai reikalauja milžiniškų išteklių. Kai kurie ekspertai teigia, kad net ir oficialūs vertimai kartais turi terminologinių neatitikimų, kurie gali suklaidinti skaitytojus. Taigi problema nėra vien automatinių vertėjų kokybė – ji egzistuoja ir profesionalių vertimų srityje.

Jungtinių Tautų statistikos komisija yra parengusi rekomendacijas dėl statistinių terminų standartizavimo, tačiau šios rekomendacijos nėra privalomos ir skirtingos šalys jas taiko nevienodai. Tai reiškia, kad net ir be automatinių vertėjų tarptautinė statistinių duomenų sklaida yra netolygi ir fragmentiška.

Praktiniai patarimai tiems, kurie naudojasi išverstais statistiniais duomenimis

Jei jūs esate žurnalistas, tyrėjas, politikos analitikas ar tiesiog žmogus, kuris nori suprasti pasaulio statistiką, yra keletas dalykų, kuriuos verta turėti omenyje dirbant su automatiškai išverstais duomenimis.

Pirma, visada ieškokite originalo. Jei galite perskaityti originalų dokumentą – net ir su tam tikrais sunkumais – tai geriau nei remtis automatiniu vertimu. Jei originalo kalbos nemokate, bent patikrinkite, ar vertimas atitinka originalą pagrindiniais skaičiais ir terminais.

Antra, atkreipkite dėmesį į statistinius terminus. Tokie žodžiai kaip „vidurkis”, „mediana”, „moda”, „standartinis nuokrypis”, „statistinis reikšmingumas” turi tikslias reikšmes. Jei automatinis vertimas juos verčia netiksliai, visa tolesnė interpretacija gali būti klaidinga. Naudinga turėti bent pagrindinį statistikos terminų žodyną.

Trečia, tikrinkite metodologinius aprašymus. Statistiniai duomenys visada turi metodologiją – kaip jie buvo renkami, kas buvo įtraukta, kas neįtraukta, kokie yra apribojimai. Jei automatinis vertimas šios dalies neperteikia tiksliai, duomenys gali atrodyti patikimesni ar reikšmingesni nei yra iš tikrųjų.

Ketvirta, naudokite kelis vertimo įrankius. „DeepL” ir „Google Translate” dažnai verčia skirtingai. Jei abu vertimai sutampa – tai geras ženklas. Jei skiriasi – verta giliau pasidomėti originalu.

Penkta, konsultuokitės su ekspertais. Jei dirbate su svarbiais duomenimis, kurie bus naudojami sprendimams priimti, verta pasikonsultuoti su žmogumi, kuris moka originalią kalbą ir supranta statistiką. Tai gali atrodyti kaip perteklinė atsargumo priemonė, tačiau klaidos kaina gali būti daug didesnė nei konsultacijos kaina.

Dirbtinis intelektas kaip sprendimas ir kaip nauja problema

Pastaraisiais metais į vertimo rinką įsiveržė didieji kalbos modeliai – „ChatGPT”, „Claude”, „Gemini” ir kiti. Jie siūlo kitokį požiūrį į vertimą: ne tik pažodinį teksto perteikimą, bet ir kontekstinį supratimą, galimybę paaiškinti terminus, pateikti papildomą informaciją.

Statistinių tekstų vertimui tai gali būti reikšmingas žingsnis į priekį. Tokie modeliai gali ne tik išversti tekstą, bet ir pažymėti vietas, kur vertimas yra neaiškus, pasiūlyti alternatyvius terminus arba paaiškinti statistines sąvokas. Tai yra kažkas, ko tradiciniai automatiniai vertėjai negali padaryti.

Tačiau čia atsiranda nauja problema: tokie modeliai kartais „haliucinuoja” – generuoja tikroviškus, bet klaidingus teiginius. Statistikos kontekste tai ypač pavojinga. Modelis gali sugeneruoti paaiškinimą, kuris skamba įtikinamai, bet neatitinka originalo. Ir kadangi toks paaiškinimas atrodo labai tikslus ir detalus, skaitytojas gali juo pasitikėti labiau nei turėtų.

Tyrimai, atlikti tikrinant, kaip didieji kalbos modeliai verčia statistinius dokumentus, rodo nevienodus rezultatus. Kai kuriose srityse – pavyzdžiui, verčiant demografinius duomenis iš gerai reprezentuotų kalbų – rezultatai yra geri. Tačiau mažiau reprezentuotų kalbų atveju arba labai specializuotų statistinių terminų srityje klaidos yra dažnesnės.

Ten, kur skaičiai susitinka su kultūra

Yra dar vienas aspektas, apie kurį kalbama rečiau, bet kuris yra ne mažiau svarbus. Statistiniai duomenys nėra kultūriškai neutralūs. Tai, kaip šalys matuoja skurdą, nelygybę, laimę ar ekonominę gerovę, atspindi tam tikras vertybes ir prioritetus. Kai šie duomenys perkeliami per kalbų sienas, kartu keliauja ir šios prielaidos – arba, dar blogiau, jos pametamos pakeliui.

Pavyzdžiui, skurdo ribos apibrėžimas skiriasi priklausomai nuo šalies ir kultūros konteksto. Kai automatinis vertėjas perteikia skaičių, jis neperteikia šio konteksto. Skaitytojas gali palyginti dviejų šalių skurdo rodiklius ir padaryti klaidingą išvadą, nes nesupranta, kad šie rodikliai buvo apskaičiuoti pagal skirtingas metodologijas.

Tai nėra automatinių vertėjų problema – tai fundamentali statistinių palyginimų problema. Tačiau automatiniai vertėjai ją paaštrino, nes padidino tokių palyginimų skaičių ir paspartino jų sklaidą. Žmonės, kurie anksčiau neturėjo prieigos prie tarptautinių duomenų, dabar juos turi – bet ne visada turi įrankius juos teisingai interpretuoti.

Čia verta prisiminti, kad statistikos raštingumas – gebėjimas suprasti, ką skaičiai reiškia ir ko nereiškia – yra atskira kompetencija, kuri nėra automatiškai perduodama kartu su duomenimis. Automatiniai vertėjai gali padaryti duomenis prieinamus, tačiau jie negali padaryti jų suprantamais tiems, kurie neturi reikiamo pagrindo.

Galbūt čia ir slypi tikrasis iššūkis: ne kaip pagerinti vertimo kokybę, nors tai svarbu, bet kaip užtikrinti, kad žmonės, gaunantys išverstus statistinius duomenis, turėtų pakankamai konteksto juos teisingai suprasti. Tai reikalauja ne tik geresnių technologijų, bet ir geresnio statistikos švietimo, aiškesnio duomenų pateikimo ir nuolatinio kritiško požiūrio į skaičius – nepriklausomai nuo to, kokia kalba jie pateikiami.