Zinātnes datracis. Saruna ar Mārtiņu Libertu

Nekad vairs nebūsim pilnīgi anonīmi. Saruna ar datu zinātnieku Mārtiņu Libertu

Pievērs uzmanību – raksts publicēts pirms 1 gada.

18. jūnijs, 2022, 9:00

Tehnoloģijas un zinātne

Autori: LSM.lv Dzīvesstila redakcija

Mūsdienās pilnīga anonimitāte kļuvusi par utopiju, jo cilvēks atstāj datus visur, kur dodas. Tas nav ne labi, ne slikti, svarīgi ir šos datus izmantot tā, lai tie dod kādu labumu, piemēram, pētniecībā, Latvijas Radio raidījumā "Zinātnes vārdā" vērtēja datu zinātnieks, Latvijas Bankas Monetārās politikas pārvaldes Pētniecības daļas Datu zinātnes projektu vadītājs Mārtiņš Liberts.

Kā tu nonāci statistikas un datu jomā?

Liberts: Skolas laikā man jau padevās matemātika, vairāk, īsti jāsaka, vidusskolā, un pirms augstskolas izvēles man bija grūta dilemma - mācīties matemātiku vai tomēr datorzinātni, jo man abas jomas tiešām interesēja. Beigu beigās izvēlējos matemātiku, un Latvijas Universitāte piedāvāja tādu kursu kā matemātiķis-statistiķis ar šādu statistikas novirzienu, un to es arī izvēlējos. Tā esmu palicis šajā jomā.

Kā nonāci Centrālajā statistikas pārvaldē (CSP)?

Tas bija sen, un toreiz tas notika ar pazīšanās palīdzību. Mammas draudzenes draudzene tur strādāja, un tad CSP pastrādāju jau skolas laikā vienu vasaru praksē. [...] Sāku mācīties pirmajā kursā un sapratu, ka man ir brīvs laiks, un pieteicos darbā CSP. Toreiz paveicās, bija arī brīva vakance, un tā arī mana karjera tur sākās.

Kas tieši ir datu zinātne un ar ko datu zinātnieks atšķiras no statistiķa?

Šis nav viegli atbildams jautājums, jo datu zinātne kā tāda vispār ir ļoti, ļoti jauna joma.

Atceros, ka pirms gadiem 15 vēl pats stāstīju par datu zinātniekiem, kaut gan nevienu nebiju saticis, bet tagad esmu viens no viņiem.

Tā kā tas ir kaut kas pilnīgi jauns. Datu zinātniekiem ir jāzina četras lietas – jāpārzina statistiskās metodes, jāmāk programmēt, jāmāk prezentēt rezultātu skaidri un jāpārzina biznesa procesi. Tas ir cilvēks, kuram ir noteikts komplekts zināšanu. Atšķirība ar statistiķi lēnām izzūd, jo modernam statistiķim dzīvē arī visām šīm prasmēm ir jābūt. Tā robeža ar laiku izzudīs.

Statistiķis ir humanitāra, sociāla vai eksakta profesija?

Vēsturiski ir veidojies, ka tā ir tāda duāla profesija, jo tiešām gan Latvijā, gan ārzemēs var novērot, ka statistiķi nāk gan no eksaktās puses, piemēram, kā es, matemātiķis statistiķis, bet tajā pašā laikā, protams, statistiku lieto ļoti daudz arī humanitārajās sfērās, sociālajās zinātnēs, sociālajos pētījumos. Tāpēc ļoti daudzi labi statistiķi nāk no šīs humanitārās sfēras.

Ko ikdienā dara statistiķi, kā tas izskatās?

Statistiķi, protams, arī ir dažādi, var dalīt kādās apakškategorijās. Ir statistikas korifeji, kuri ir izstrādājuši teorētiskās metodes, raksta grāmatas un [veido] šīs jomas nākotnes virzienu, bet tie tiešām ir maz uz pasaules. Tad ir, protams, teorētiskie statistiķi, kuri šīs metodes izstrādā. Tad ir statistikas ražotāji, kuru galvenais uzdevums ir, pielietojot korektas metodes, iegūt kvalitatīvus datus. Vēl varētu teikt, ka ir statistiķi – pētnieki, kuru galvenais uzdevums ir veikt pētījumus, piemēram, demogrāfijā viņi galvenokārt pēta demogrāfiju, bet izmantojot ļoti daudz statistikas metodes. Tie ir trīs profili, kurus es varētu iezīmēt.

Kā var radīt statistiskās metodes? Vai tas ir kaut kas līdzīgs teorētiskajai fizikai, teorētiskajai matemātikai? Ko šie cilvēki faktiski dara?

Tas īstenībā ir pat ļoti līdzīgi. Jebkurā gadījumā statistikas metožu pamats tomēr ir matemātika, tur tiešām cilvēki pierāda teorēmas, ievieš metodes un rada no teorētiskā viedokļa. Kaut gan, protams, atkal jau – ja atgriežamies pie tēmas par datu zinātni, tur datorzinātnei ir diezgan liels īpatsvars. Datorzinātnē ir sava specifika, kā šīs jaunas metodes rodas, tur vairāk ir no algoritmiskā viedokļa. Mūsdienu statistikā metodes rodas gan no matemātikas virziena, bet tikpat labi var rasties arī no datorzinātnes virziena.

Kā tieši izskatās datu ražošana statistikā?

Datu ražošana, kā es to saucu, tiešām ir kā rūpnīcas process, kur ir noteikts pasūtījums, kāda veida statistika ir vajadzīga, ar kādiem parametriem. Tad statistiķis, ražotājs, saņem šo uzdevumu un, izmantojot jau šīs pieminētās teorētiskās metodes, mēģina to izpildīt vislabāk esošā budžeta ietvarā.

Tas nozīmē, ka tu izdomā, vai tā būs kvalitatīva vai kvantitatīva aptauja, kā šie dati tiks iegūti vai izrakti?

Tur, protams, veidi, mūsdienās it sevišķi, var būt ļoti dažādi, bet kā vienmēr viss sākas ar mērķi – kādi dati ir vajadzīgi, kādam mērķim tie tiks lietoti. Tas arī definē kvalitāti, kāds būs šis jautājums, uz kuru jāatbild. No šī jautājuma, no kvalitātes prasībām izejot un ņemot vērā pieejamos datus, statistiķa uzdevums ir atrast veidu, kā sniegt atbildi.

No otras puses, mēs vienmēr varam atrast veidu, kā uziet datus, kas parāda mums vajadzīgo ainu. Es varu lūgt atlasīt kaķu mīļotājus un parādīt, cik kaķi ir brīnišķīgi, un tieši to tu arī atradīsi, vai ne? Vai tas gadījumā nav tā, ka šajā brīdī mums mazliet pazūd ticamība tiem datiem?

Teiksim tā, atgriežamies pie paša jautājuma, ja mums tiešām interesē tikai kaķu mīļotāji..

Pierādīt, ka kaķi ir labākie. Vai tu kā statistiķis to neuzņemtos?

Tas ir tāds diezgan izplūdis jēdziens. Mums, statistiķiem, uzreiz ir jautājums, kā to nodefinēt, kā to aprakstīt? Es parasti šādos gadījumos uzreiz saku, kā jūs izrēķinātu vai kā jūs atbildētu uz šo jautājumu, ja jums būtu pieejami pilnīgi visi iespējamie dati?

Tad laikam bilde būtu atšķirīga, vai ne?

Ja cilvēks spēj pateikt, ka, ja man būtu pieejami pilnīgi visi dati par visiem iedzīvotājiem, tad es rēķinātu šādā veidā, tad statistiķim ar to pietiek, lai izdomātu veidu, kā šo atbildi sniegt. Bet cilvēkam, kas to jautājumu uzdod, ir jāspēj noformulēt pietiekami precīzi, ko tieši viņš grib izrēķināt.

Vai tas nenozīmē, ka bieži datu ražošana patiesībā ir programmas rakstīšana un datu izrakšana lielos, jau esošos, datos?

Ja mēs pieskārāmies datizraces jautājumam, tad man komentārs par to ir, ka termins īstenībā varbūt nav pilnīgi precīzs, arī angļu valodā “data mining” – tas īstenībā neatspoguļo būtību. “Data mining” īstenībā angļu valodā ir sinonīms “knowledge extraction”, un pēc būtības tam nav saistības ar datu rakšanu. Īstenībā tas, ko mēs tur mēģinām “izrakt”, ir zināšanas. Sinonīms “knowledge extraction” principā ir zināšanu izguve no datiem, kas ir “data mining”.

Tas nozīmē, ka bieži brīdī, kad klients atnāks pēc datiem, vajadzēs rakstīt programmu, kas iegūs zināšanas no lielās datu kopas.

Mūsdienās praktiski – jā. Ja runājam par datiem, varu pateikt to, ka labākās metodes darbam ar datiem ir statistiskās. Es domāju teorētiskās, bet labākā infrastruktūra, protams, ir IT infrastruktūra, jo tā uzreiz strādā ar datiem. Protams, statistiķi mūsdienās ļoti bieži raksta programmas kodus, lai tiešām ar lielajiem datiem varētu strādāt.

Vai šobrīd zinātnieks vispār var veikt savu darbu, nemākot programmēt?

Zinātnieks? Es uzskatu, ka var, jo mēs tomēr esam kā cilvēki, kā zinātnieki ļoti dažādi.

Uzskatu, ka visi nemaz programmēt nevar iemācīties, noteikti citi man oponēs, bet tā tomēr ir ļoti specifiska tāda spēja.

Protams, var iemācīties tīri tehniski kaut ko darīt, tas ir līdzīgi, kā es bērnībā mācījos spēlēt klavieres, bet man nav ne muzikālās dzirdes, ne kā. Es tīri tehniski varēju kaut ko nospēlēt, varbūt pat pietiekami labi, bet tas bija bez izjūtas. Ar programmēšanu, man šķiet, ir līdzīgi. Tur jābūt tiešām šīm spējām labi programmēt.

Programmēšana ir māksla?

Kā kuram, man noteikti – jā. Man patīk lasīt programmu kodu, un, ja es to saprotu, tā ir diezgan interesanta lasāmviela.

Kādām būtu jābūt tām programmēšanas zināšanām, ar ko jaunietim būtu jāapbruņojas, lai viņš veiksmīgi varētu konkurēt darba tirgū, piemēram, būt datu zinātnieks vai kas līdzīgs? Kādas valodas vai prasmes tu ieteiktu?

Datu zinātniekam pats primārais vispār ir saprast programmēšanas pamatprincipus, saprast, ko mēs ar programmēšanu varam izdarīt un ka varam daudz ko izdarīt. Apgūstot programmēšanu, iemācās kādu programmēšanas valodu. Tas pat varbūt nav tik svarīgi, kuru valodu tieši, svarīgi ir tiešām iemācīties programmēt vismaz vienā valodā. Tad, ja cilvēks spēj pats rakstīt savu programmu, definēt funkcijas, tad viņš diezgan īsā laikā spēs apgūt arī citas programmēšanas valodas. Protams, ir kaut kādas specifiskās programmēšanas valodas, kas šobrīd ir populārākas, bet tās mainās ik pa laikam, līdz ar to jāspēj sevi adaptēt.

Kā veido programmas, ar ko apstrādā kvalitatīvus datus, jo ne jau viss ir kvantitatīvi izmērāms?

Teksta apstrāde īstenībā ir vēl viena apakšjoma datu zinātnes nozarē – tā kā teksta apstrāde ir plaši lietota un to var. Tas pats īstenībā ir par attēlu atpazīšanu. To visu, gan tekstu, gan attēlus, var pārvērst ciparu formātā, un tad attiecīgi var lietot metodes, lai to visu apstrādātu. Tikpat labi skaņu – arī skaņu mēs varam pārvērst ciparu formātā un tad jau lietot klasiskās matemātiskās metodes.

Tas nozīmē, ka matemātika ir visam gala rezultātā?

Ņemot vērā to, ka visu ko varam izteikt skaitļos, es teikšu, ka labākās metodes būs matemātiskās metodes.

Mēs esam vienisprātis, ka dati ir jebkuras zinātnes jomas pamatā, bet, ja mums būs nepareizi dati vai slikti izvēlētas metodes, mēs nonāksim pie kļūdainām zinātniskām atziņām. Saki, kā mums būt drošiem, ka dati ir pareizi un ticami?

Mēs, statistiķi, nesakām pareizi dati vai ticami dati, mēs sakām kvalitatīvi dati. Ko mēs ar to saprotam? Kas ir kvalitatīvi dati?

Kvalitatīvi dati ir tādi dati, kuri mums atbild uz sākotnējo jautājumu, kuru mēs uzdevām un uz kuru gribējām dabūt atbildi.

Ja šie dati mums spēj dot atbildi, tad tie ir kvalitatīvi. Tā mēs to definējam. Protams, tas varbūt ir vispārīgi, bet to pēc tam var definēt diezgan precīzi, piemēram, ar laicīgumu – cik šie dati ir atbilstoši tieši tam laikam, par kuru mēs interesējamies. Tur ir papildu parametri, bet īstenībā mēs saucam šo par statistikas kvalitāti, visu šo kopumu.

Vai es savā ikdienas dzīvē varu pārliecināties par šo datu kvalitāti? Piemēram, ja es atveru žurnālu un tur ir rakstīts, ka tik un tik procenti ir pateikuši, ka šī tēja ir garšīga vai šis kosmētikas produkts ir labs. Tie ir kvalitatīvi dati vai nav?

Ikdienas datu lietotājam ir grūti, jo ļoti bieži datu publicētāji grēko, viņi neparāda ne veidu, kā šie dati ir iegūti, ne metodes. Īstenībā, nezinot veidu un metodes, nevar pateikt, dati ir kvalitatīvi vai nav, vai dati sniedz atbildi, ko mēs gribējām iegūt. Parasti es saku, ja mēs gribam pārliecināties par datu kvalitāti, mums ir jāprasa, kādā veidā tie ir sagatavoti, bet tas ne vienmēr ir iespējams.

Pat ja otra puse piekrīt atklāt, kā šie dati ir sagatavoti, kā mēs varam pateikt, vai tas būtu labi vai drīzāk nav korekti? Kas būtu jāvēro, respondentu skaits vai kas cits? Kas ir tie sarkanie karogi, no kā izvairīties?

Statistikā respondentu skaits bieži ir svarīgs parametrs, jo tiešām ir pierādīts, ka pie lielāka respondentu skaita mēs varam dabūt kvalitatīvākus datus, bet tajā pašā laikā, protams, arī metodes ir ļoti svarīgas. Mēs varam savākt ļoti daudz respondentu, bet, ar nepareizu metodi viņus atlasot, dati tomēr nebūs lietojami. Ir vēsturiski zināmi piemēri par Amerikas vēlēšanām, kur sacentās divas izlases, un bija tā, ka aptauja, kurai bija daudz lielāks respondentu skaits, ieguva mazāk precīzu rezultātu tāpēc, ka metodes nebija pareizas. Tā kā tas ir jāskatās kā komplekts – gan metodes, gan apsekojuma realizācija.

Ja mēs runājam par Latviju, kādam būtu jābūt minimālajam respondentu skaitam, lai mēs varētu teikt, ka tas izklausās ticami?

Tas ir jautājums, uz kuru nevar atbildēt, jo nepieciešamais respondentu skaits būs atkarīgs no uzdotā jautājuma. Nepieciešamais respondentu skaits būs ļoti atkarīgs no tā, ko mēs gribam mērīt un cik mēs precīzi vēlamies to nomērīt.

Kas jāatceras statistikas jomā, nevieni dati nav pilnīgi precīzi, vienmēr kaut kur būs kļūda, jo nekad neko nevar nomērīt pilnīgi precīzi.

Atceramies kaut vai skolas laikus, kad mēra ar lineālu, arī ir kaut kāda kļūda. Tā kā, jā, protams, ka viss atkarīgs no tā, cik lielu precizitāti vēlamies sasniegt, no tā būs atkarīgs respondentu skaits.

Ja mēs gribētu kādu informāciju par Latvijas iedzīvotājiem, droši vien būtu tūkstoši cilvēku jāaptaujā?

Ne vienmēr. Ja tas rādītājs, ko mēs mērām, ir super līdzīgs visiem iedzīvotājiem, tad nemaz nevajag tik lielu izlasi. Tas tiešām ir atkarīgs no pētāmā rādītāja, ko mēs gribam izmērīt, un ar kādu precizitāti.

Vēlos arī parunāt par datiem mūsu ikdienas dzīvē. Vienalga kur lai ietu, ikdienā atstājam aiz sevis datus, vai ne? Kā tu to vērtē, tas ir labi vai slikti? Mums būtu par to jāuztraucas vai tomēr nē?

Tas [ir] tāds filozofisks jautājums, bet es teikšu tā, ka [nav] ne labi, ne slikti. Svarīgi ir tas, lai mēs šo procesu kontrolējam un izmantojam savā labā, jo, protams, ka datus var izmantot arī ļaunprātīgi, tajā pašā laikā ir daudzi piemēri, kad datus izmantojam, lai uzlabotu savu ikdienu un vispār kopējo situāciju.

Tā kā svarīgi ir datus izmantot, lai tie dod labumu.

Man šķiet, ka bieži vien izvēle nemaz nav mūsu rokās, jo aiz mums paliek interneta pārlūka vēsture, veselības dati viedpulkstenī, pārvietošanās maršruti navigācijas sistēmās, satiksmes kamerās, visur citur. Ja tu vēlies dzīvot kvalitatīvu, mūsdienīgu dzīvi, tev sanāk atstāt šos datus. Tu ieteiktu, ka jā, dalāmies ar šiem datiem, un tas nekas, vai tomēr mēģinām ieturēt kādu privātumu un pēc iespējas mazāk atļaut lielajām kompānijām ievākt mūsu datus?

Tur taisnība ir, mūsdienās pilnīga anonimitāte ir tāda kā utopija jau,

jo tas ir praktiski pilnīgi nesasniedzams mērķis. Noteikti ir izņēmumi, bet vispārīgi tā ir utopija. Mēs neesam vairs pilnīgi anonīmi un nekad vairs nebūsim. Mums jāapzinās, ka ar šiem datiem mēs pērkam servisus. Mēs lietojam kādu populāru e-pasta servisu, kurš mums nodrošina ļoti ērtu e-pastu apmaiņu, kurš it kā ir par velti, naudu mēs par to nemaksājam, bet atceramies to, ka maksājam ar saviem datiem. Lai iegūtu šo servisu, mēs atļaujam servisa sniedzējam lietot mūsu datus kaut kādā mērā.

Protams, ir svarīgi kaut kādā mērā sekot līdzi, lai dati būtu korekti uzglabāti, lai netiktu izplatīti pārāk brīvi. To, protams, ir grūti izdarīt praksē, bet, paldies Dievam, mums ir fizisko personu datu aizsardzības likums Latvijā, mums ir vispārējā datu aizsardzības regula Eiropas Savienībā. Tie ir ļoti spēcīgi dokumenti, kas datu vidi tomēr sakārto, tas mums ļoti palīdz.

Man arī ik pa laikam kāds piezvana, atsūta e-pastu, lai aizpildu kādu anketu vai atbildu uz jautājumiem – pirmkārt, vienmēr pamēģinu saprast, kas ir šis datu vācējs, kas tā par kompāniju un kādiem mērķiem viņa to dara. Parasti prasu, kādā veidā viņi ir ieguvuši manu kontaktinformāciju. Ja viņi spēj man pieņemamā veidā atbildēt uz šiem jautājumiem, es jūtos pietiekoši droši.

Ja pie statistiķa atnāk klients un prasa specifiskus datus, un tev kā statistiķim ir skaidrs, ka viņš varēs saprast, kurš cilvēks mazpilsētā tas ir – ko jūs darāt, dodat šos datus vai nē?

Statistikas nozarē arī savi ir noteikumi, kā tas notiek. Oficiālās statistikas ražotājiem ir pienākums sniegt datus pētniecībai, bet, protams, lai nepareizu datu pielietošanas risku mazinātu, ir vesels komplekts, trīs metožu virzieni, ar kuriem var šo risku mazināt. Īsumā – ir dažādas statistikas metodes, ar kurām mēs šos datus varam slēpt un neļaut atpazīt indivīdus. Otrais ir dažādi juridiskie faktori un rīki, attiecīgi, slēdzot līgumu, atrunājam visus sodus, kādi iestāsies, ja notiks datu noplūde. Trešais ir fiziski risinājumi, ar kuriem vienkārši pētnieki šo pētījumu var veikt, bet viņiem nav iespējams nekādi šos datus nopludināt.

Kas par datiem, statistiku un tās metodēm būtu jāzina ikvienam? Kas, tavuprāt, ir izdzīvošanas minimums?

Tas [ir] sarežģīts jautājums. Minēšu piemēru –

Covid-19 pandēmijas laikā novēroju, ka liela daļa sabiedrības neapzinās varbūtību, kas ir nenoteiktība, ka ne vienmēr atbilde būs jā vai nē, ka atbilde var būt varbūtiska – ka ar varbūtību 90% tas tests ir pozitīvs, tas tikpat labi var būt negatīvs.

Šī nenoteiktības apziņa, ka pasaule nav bināra, laikam ir tas, kas varbūt pietrūkst. Tas arī palīdzētu tālāk izprast statistiku. Bieži saka, ka statistika ir briesmīgākais kurss, ko mācījos universitātē. Laikam problēma ir tajā, ka ir grūti aptvert šo nenoteiktību. Cilvēkiem patīk domāt bināri, patiess, nepatiess, jā vai nē, bet diemžēl statistikā tā tas nestrādās. Tur pamatā ir nenoteiktība, ka mēs varam iegūt abus rezultātus ar noteiktu varbūtību.

Kļūda rakstā?

Iezīmējiet tekstu un spiediet Ctrl+Enter, lai nosūtītu labojamo teksta fragmentu redaktoram!

Iezīmējiet tekstu un spiediet uz Ziņot par kļūdu pogas, lai nosūtītu labojamo teksta fragmentu redaktoram!