Lai piedalītos "Balsu talkā", ir jāieiet projekta mājaslapā, kas pieejama gan datorā, gan telefonā. Jāatrod sadaļa "Runā", kas piedāvā konkrētas frāzes, ko ierunāt. Tad jāspiež uz mikrofona, jāierunā, un cilvēks savu balss ierakstu ir ziedojis. Ierunāšanai piedāvātās frāzes ir ļoti daudzveidīgas:
"Balsu talkas" dalībnieku ierunātie teksti: "Ko mēs darām ar šādu likumdevēju iniciatīvu? ", "Mans bērns ar mobilo labāk filmē", "Tas tik būs darbiņš", "Kaut reizi savā draņķa dzīvē padomā ar galvu!", "Dundagas apgabalā, bet sevišķi Ģipkā, mituši lieli burvji".
Tekstus ierunājuši dažādu vecumu cilvēki, izteiksmīgi un mazāk izteiksmīgi, ar akcentu un bez - un tieši tas ir vajadzīgs- jo svarīga ir pēc iespējas lielāka dažādība, lai digitālie rīki latviešu valodu saprastu un spētu tajā komunicēt pēc iespējas pilnvērtīgāk un precīzāk.
"Lai šie rīki tuvākajā nākotnē spētu ar mums sarunāties, vai tas būtu telefons, ledusskapis vai mašīna, ir vajadzīga datu kopa, kad daudzi cilvēki ir ierunājuši dažādus tekstus.
Ja šāda datu kopa ir, tad uz tās pamata var uztaisīt modeli, kas spēj atpazīt runāto valodu un pārvērst to par tekstu. Savukārt datori jau pēc tam to tekstu spēj saprast, apstrādāt kā komandas un kaut ko tālāk ar to darīt," stāstīja Latvijas Atvērto tehnoloģiju asociācijas valdes loceklis Pēteris Jurčenko.
4. maijā apritēs gads, kopš iniciatīva "Balsu talka" aizsākās, un cilvēku atsaucība bijusi plaša – vērtēja digitālo humanitāro zinātņu pētniece Sanita Reinsone:
"Mēs sākām ar 18 stundu materiālu, kas bija ierunāts, tad šobrīd mums jau ir 205 stundas, ko sabiedrība ir ierunājusi. Tas ir daudz, mēs tuvojamies jau tādām lielākām valodām, kurām ir daudz vairāk resursu, daudz vairāk runātāju. Bet tomēr pētnieki ir noskaidrojuši, ka mums ir nepieciešams vēl vairāk balsu. Šobrīd mēs esam nosprauduši mērķi – 300 stundu – bet ceram, protams, uz vairāk".
"Balsu talka" ir sasaistīta ar platformu "Mozilla Common Voice", kas apkopo datus par cilvēku ierunātajiem tekstiem dažādās valodās, un latviešu valoda starp tām ir gana augstā vietā.
"Šobrīd latviešu valoda tajā "Mozilla Common Voice" platformā ir 11.vietā pēc absolūtā iesaistītā cilvēku skaita. Respektīvi, mums patiešām daudz cilvēku iesaistījās, piedalījās, tāpēc mēs esam diezgan augstu. Ja mēs, piemēram, paskatītos uz cilvēku skaitu, kas piedalījās, pret cilvēku skaitu, kas runā latviski, tad mēs esam top pieci," teica Jurčenko.
Iedzīvotāji aizvien tiek mudināti aktīvi piedalīties "Balsu talkā", lai ierunātais laiks sasniegtu vismaz 300 stundu. Bet paralēli tam iesniegtie balsu ieraksti jau tiek analizēti un noris runas atpazīšanas un transkribēšanas modeļa pirmās versijas apmācīšana. Rezultāti tiks publicēti līdz 4. maijam un vietnē "balsutalka.lv" būs brīvi pieejami ikvienam, kurš izstrādā runas tehnoloģijās balstītus risinājumus.
Savukārt valodas pētniekiem visērtāk datiem būs piekļūt Nacionālajā korpusu kolekcijā "korpuss.lv", kur ikviens tos varēs iepazīt un analizēt valodnieciskā perspektīvā.