Statistikos ir dirbtinio intelekto sankirta: kas iš tikrųjų vyksta
Kai pirmą kartą pradėjau domėtis dirbtinio intelekto taikymu statistikoje, man atrodė, kad tai tik dar vienas technologinis triukas, kuris greitai praeis. Tačiau 2025 metais matome visai kitokią realybę. Dirbtinis intelektas ne tik papildo tradicinius statistinius metodus, bet ir iš esmės keičia tai, kaip mes suprantame duomenis, jų analizę ir prognozavimą.
Tradicinė statistika visada rėmėsi aiškiomis prielaidomis – normaliu pasiskirstymu, tiesiniais ryšiais, hipotezių testavimu. Tai veikė puikiai, kai duomenų buvo nedaug ir jie buvo gana paprastai struktūruoti. Bet dabar turime milijardus duomenų taškų iš įvairiausių šaltinių: socialinių tinklų, IoT įrenginių, finansinių transakcijų, sveikatos stebėjimo sistemų. Ir štai čia prasideda tikroji revoliucija.
Dirbtinis intelektas, ypač gilieji neuronų tinklai ir mašininio mokymosi algoritmai, gali apdoroti tokius duomenų kiekius ir sudėtingumą, kuris anksčiau buvo neįsivaizduojamas. Bet svarbiausia – jie gali rasti ryšius ir modelius, kurių žmogus ar tradiciniai statistiniai metodai tiesiog nematytų.
Prognozavimo tikslumas: nuo teorijos prie praktikos
Vienas didžiausių pasikeitimų, kurį pastebiu dirbdamas su įmonėmis, yra prognozavimo tikslumas. Anksčiau finansų analitikai naudodavo ARIMA modelius ar eksponentinį glodinimą laiko eilutėms prognozuoti. Tai davė priimtinus rezultatus, bet turėjo akivaizdžių apribojimų – jie blogai tvarkėsi su netiesiniais ryšiais, staigiais pokyčiais ar daugybe kintamųjų.
Dabar matome, kaip transformerių architektūros ir LSTM (Long Short-Term Memory) tinklai iš esmės pakeičia žaidimo taisykles. Pavyzdžiui, didžiosios mažmeninės prekybos įmonės naudoja šiuos metodus atsargų valdymui ir paklausos prognozavimui. Jie gali įtraukti ne tik istorines pardavimų tendencijas, bet ir orų prognozes, socialinių tinklų nuotaikas, konkurentų kainų pokyčius, net vietos renginius – viską vienu metu.
Konkrečiai kalbant, viena Lietuvos e-prekybos platforma, su kuria konsultavausi, sumažino prognozavimo klaidą 34% pereiti nuo tradicinių statistinių metodų prie hibridinio modelio, kuris derina SARIMA su XGBoost algoritmu. Tai reiškia mažiau nepardavusių atsargų, geresnes pinigų srautų prognozes ir galiausiai didesnį pelningumą.
Anomalijų aptikimas: kai mašinos mato tai, ko nematome mes
Viena sritis, kur dirbtinis intelektas tikrai pranoksta žmogų, yra anomalijų aptikimas dideliuose duomenų rinkiniuose. Tradiciniai metodai, tokie kaip Z-balai ar Grubbs testas, veikia gerai, kai žinome, ko ieškome ir kai duomenys atitinka tam tikrus pasiskirstymus. Bet realybė retai būna tokia paprasta.
Pavyzdžiui, finansų sektoriuje sukčiavimo aptikimas tapo neįsivaizduojamas be dirbtinio intelekto. Autoenkoderai – tai neuronų tinklų tipas, kuris mokosi suspausti ir atkurti normalius duomenis. Kai jie susiduria su neįprastu elgesiu, rekonstrukcijos klaida staiga padidėja, ir tai signalizuoja apie galimą anomaliją.
Vienas Lietuvos bankas įdiegė tokią sistemą ir per pirmuosius tris mėnesius aptiko 47% daugiau įtartinų transakcijų nei ankstesnė taisyklėmis pagrįsta sistema. Dar svarbiau – sumažėjo klaidingų pozityvių rezultatų skaičius 28%, o tai reiškia, kad mažiau teisėtų klientų buvo neteisingai pažymėti kaip įtartini.
Sveikatos priežiūroje dirbtinis intelektas padeda aptikti ankstyvus ligos požymius, analizuojant pacientų duomenis. Algoritmai gali pastebėti subtilias tendencijas – pavyzdžiui, tam tikrų biomarkerių derinį, kuris gali signalizuoti apie diabeto riziką mėnesiais anksčiau nei tradiciniai diagnostikos metodai.
Kalbos modeliai ir nestruktūruotų duomenų analizė
Čia vyksta tikra revoliucija. Anksčiau statistinė analizė daugiausia rėmėsi struktūruotais duomenimis – skaičiais lentelėse. Bet didžioji dalis pasaulio informacijos yra nestruktūruota: tekstai, vaizdai, vaizdo įrašai, garso įrašai.
Didieji kalbos modeliai (LLM), tokie kaip GPT serijos ar BERT variantai, dabar gali analizuoti milžiniškus teksto kiekius ir išgauti iš jų statistiškai reikšmingą informaciją. Tai nėra tik paprastas žodžių skaičiavimas – tai giluminis konteksto, nuotaikų, ketinimų supratimas.
Praktinis pavyzdys: rinkos tyrimų įmonės dabar analizuoja milijonus klientų atsiliepimų, socialinių tinklų įrašų ir forumo diskusijų, kad suprastų vartotojų nuotaikas ir tendencijas. Anksčiau tokiai analizei prireikdavo šimtų žmonių ir mėnesių darbo. Dabar tai galima padaryti per kelias valandas su aukštesniu tikslumu.
Sentiment analizė tapo daug sudėtingesnė. Modeliai dabar supranta sarkazmą, kontekstą, kultūrinius niuansus. Jie gali atskirti, ar klientas sako „puiku” su tikra pagarba ar su ironija. Tai kardinaliai keičia tai, kaip įmonės supranta savo klientų pasitenkinimą ir lūkesčius.
Priežastingumo nustatymas: už koreliacijos ribų
Viena didžiausių statistikos problemų visada buvo atskirti koreliaciją nuo priežastingumo. Tradiciniai metodai, tokie kaip randomizuoti kontroliuojami bandymai, yra aukso standartas, bet jie brangūs, laikui imli ir ne visada įmanomi.
Dirbtinis intelektas, ypač priežastinės išvados (causal inference) metodai, dabar leidžia mums geriau suprasti priežastinius ryšius iš stebėjimo duomenų. Algoritmai, tokie kaip Causal Impact ar DoWhy bibliotekos, gali modeliuoti kontrafaktinius scenarijus – kas būtų nutikę, jei tam tikra intervencija nebūtų įvykusi.
Pavyzdžiui, marketingo komandos gali daug tiksliau įvertinti reklamos kampanijų poveikį. Vietoj to, kad tiesiog žiūrėtų į pardavimų padidėjimą po kampanijos, jie gali modeliuoti, kokie būtų buvę pardavimai be kampanijos, atsižvelgiant į sezoniškumą, konkurentų veiksmus ir kitus veiksnius.
Sveikatos politikoje tai ypač svarbu. Kai vyriausybės įveda naujas visuomenės sveikatos priemones, priežastinės išvados metodai padeda atskirti tikrąjį politikos poveikį nuo kitų veiksnių, tokių kaip demografiniai pokyčiai ar ekonominės sąlygos.
Tačiau čia reikia būti atsargiems. Dirbtinis intelektas nėra stebuklingas sprendimas priežastingumo problemai. Jis vis dar remiasi prielaidomis, ir jei tos prielaidos yra klaidingos, išvados bus klaidinančios. Todėl žmogiškasis ekspertinis vertinimas ir domenų žinios lieka kritiškai svarbūs.
Automatizuotas modelių kūrimas ir AutoML
Vienas įdomiausių pokyčių yra AutoML (Automated Machine Learning) platformų atsiradimas. Anksčiau norint sukurti gerą prognozavimo modelį reikėjo gilių statistikos ir programavimo žinių, daug laiko eksperimentams su skirtingais algoritmais, hiperparametrų derinimui.
Dabar platformos kaip H2O.ai, Google AutoML ar DataRobot gali automatizuoti didelę dalį šio proceso. Jos automatiškai išbando šimtus skirtingų modelių, optimizuoja jų parametrus, atlieka kryžminį patvirtinimą ir net paaiškina modelio sprendimus.
Tai demokratizuoja prieigą prie pažangios analitikos. Dabar verslo analitikai, kurie nėra duomenų mokslininkai, gali kurti sudėtingus prognozavimo modelius. Viena vidutinio dydžio gamybos įmonė Lietuvoje panaudojo AutoML platformą, kad sukurtų įrangos gedimų prognozavimo sistemą. Anksčiau tokiam projektui būtų reikėję samdyti specializuotą duomenų mokslininką ir investuoti mėnesius. Su AutoML jie turėjo veikiantį modelį per dvi savaites.
Tačiau yra ir pavojų. Automatizacija gali sukelti netikrą saugumo jausmą. Žmonės gali pradėti pasitikėti modeliais, nesuprasdami jų apribojimų ar prielaidų. Todėl, net naudojant AutoML, svarbu turėti bent bazinį statistikos ir mašininio mokymosi supratimą.
Realaus laiko analizė ir sprendimų priėmimas
2025 metais vis daugiau organizacijų pereina nuo paketinės analizės prie realaus laiko duomenų apdorojimo ir sprendimų priėmimo. Tai reiškia, kad modeliai ne tik analizuoja istorinius duomenis, bet ir nuolat mokosi iš naujų duomenų srautų, prisitaikydami prie besikeičiančių sąlygų.
Streaming analytics platformos, tokios kaip Apache Kafka su mašininio mokymosi modeliais, leidžia įmonėms reaguoti į įvykius milisekundžių ar sekundžių laikotarpyje. Tai ypač svarbu finansų prekyboje, kibernetinio saugumo sistemose, pramonės automatizavime.
Pavyzdžiui, išmaniosios gamyklos naudoja realaus laiko analizę, kad optimizuotų gamybos procesus. Jutikliai stebi mašinų būseną, produktų kokybę, energijos suvartojimą. Dirbtinio intelekto modeliai analizuoja šiuos duomenis realiuoju laiku ir automatiškai koreguoja parametrus, kad maksimizuotų efektyvumą ir minimizuotų broką.
Logistikos sektoriuje realaus laiko prognozavimas keičia maršrutų planavimą. Algoritmai atsižvelgia į dabartines eismo sąlygas, orų prognozes, pristatymo prioritetus ir nuolat perskaičiuoja optimalius maršrutus. Tai ne tik sutaupo kuro, bet ir pagerina klientų pasitenkinimą dėl tikslesnių pristatymo laikų.
Etiniai iššūkiai ir šališkumo problema
Negalime kalbėti apie dirbtinio intelekto vaidmenį statistikoje, neliesdami etinių klausimų. Dirbtinio intelekto modeliai mokosi iš duomenų, o duomenys atspindi mūsų visuomenės šališkumus, nelygybę ir istorines neteisybes.
Yra dokumentuotų atvejų, kai personalo atrankos algoritmai diskriminavo moteris, nes buvo apmokyti su istoriniais duomenimis, kur tam tikrose srityse dominavo vyrai. Kredito rizikos vertinimo modeliai kartais nepagrįstai baudžia tam tikras etnines ar socialines grupes.
Statistikai ir duomenų mokslininkai dabar turi būti ne tik techniniai ekspertai, bet ir etikos klausimų žinovai. Reikia aktyviai ieškoti šališkumo modeliuose, naudoti fairness metrics, atlikti disparate impact analizę.
Praktinis patarimas: visada analizuokite modelio sprendimus skirtingoms demografinėms grupėms atskirai. Jei modelis gerai veikia vidutiniškai, bet blogai tam tikrai grupei, tai problema. Naudokite technikas kaip reweighting, adversarial debiasing ar fairness constraints optimizavimo metu.
Be to, svarbu užtikrinti modelių interpretuojamumą. Sudėtingi gilieji neuronų tinklai gali būti „juodosios dėžės”, kur net jų kūrėjai nesupranta, kodėl modelis priėmė tam tikrą sprendimą. Tai nepriimtina daugelyje sričių, ypač sveikatos priežiūroje, teisėje, finansuose.
Todėl vis dažniau naudojami interpretuojamumo įrankiai, tokie kaip SHAP (SHapley Additive exPlanations) ar LIME (Local Interpretable Model-agnostic Explanations), kurie padeda paaiškinti, kokie veiksniai labiausiai prisidėjo prie konkretaus modelio sprendimo.
Kur link judame: hibridiniai metodai ir žmogiškasis elementas
Matydamas visus šiuos pokyčius, vis dažniau prieinu prie išvados, kad ateitis nėra apie dirbtinį intelektą prieš tradicinius statistinius metodus. Ateitis yra apie jų protingą derinimą.
Geriausi rezultatai dažnai pasiekiami naudojant hibridines sistemas, kur tradiciniai statistiniai metodai užtikrina teorinį pagrindą ir interpretuojamumą, o dirbtinio intelekto metodai prideda lankstumą ir gebėjimą tvarkytis su sudėtingumu. Pavyzdžiui, galite naudoti statistinius metodus pradiniam duomenų tyrimui ir hipotezių formulavimui, o tada taikyti mašininio mokymosi algoritmus sudėtingiems ryšiams modeliuoti.
Žmogiškasis elementas lieka kritiškai svarbus. Dirbtinis intelektas gali apdoroti duomenis ir rasti modelius, bet žmonės turi užduoti teisingus klausimus, interpretuoti rezultatus kontekste, priimti etinius sprendimus. Domenų ekspertų žinios yra neįkainojamos – jie žino, kurie kintamieji yra svarbūs, kokie ryšiai yra tikėtini, kokie rezultatai yra realistiški.
Praktiškai tai reiškia, kad organizacijoms reikia investuoti ne tik į technologijas, bet ir į žmonių mokymą. Statistikai turi mokytis apie mašininį mokymąsi, o duomenų mokslininkai – apie tradicinius statistinius metodus. Verslo vadovai turi suprasti bent pagrindus, kad galėtų kritiškai vertinti analitikos rezultatus.
Taip pat svarbu kurti tarpfunkcinę komandas, kur dirba kartu domenų ekspertai, statistikai, duomenų mokslininkai, IT specialistai ir verslo analitikai. Geriausi sprendimai gimsta iš tokio bendradarbiavimo, kur kiekvienas prisideda savo perspektyva.
Žvelgiant į ateitį, matome, kad dirbtinis intelektas toliau transformuos statistinių duomenų analizę ir prognozavimą. Kvantiniai kompiuteriai gali atnešti dar vieną revoliuciją, leidžiančią spręsti optimizavimo problemas, kurios dabar yra neįmanomos. Federuotas mokymasis leis mokytis iš paskirstytų duomenų, nesukeliant privatumo problemų. Neuromorfiniai procesoriai padarys dirbtinį intelektą efektyvesnį ir prieinamesnį.
Bet nepaisant visų technologinių pažangų, pagrindiniai statistikos principai – duomenų kokybė, tinkamas eksperimentų planavimas, atsargus išvadų formulavimas, etinis atsakingumas – lieka tokie pat svarbūs kaip ir anksčiau. Dirbtinis intelektas yra galingas įrankis, bet tik įrankis. Kaip jį naudosime, priklauso nuo mūsų.