Projektam «Balsu talka» drīz būs gada jubileja

Drīzumā apritēs gads, kopš aizsākās projekts "Balsu talka". Tā mērķis ir savākt pēc iespējas vairāk latviešu valodas runas paraugu, lai palīdzētu attīstīt tehnoloģijas latviešu valodā. Šai saistībā cilvēki aicināti veikt savus balss ierakstus, ierunājot projekta mājaslapā dažus teikumus. Gada laikā atsaucība bijusi laba. Talkā piedalījušies vairāki tūkstoši dalībnieki, kopā ierunājot vairāk nekā 200 stundu.

Projektam «Balsu talka» drīz būs gada jubileja
00:00 / 03:03
Lejuplādēt

Lai piedalītos "Balsu talkā", ir jāieiet projekta mājaslapā, kas pieejama gan datorā, gan telefonā. Jāatrod sadaļa "Runā", kas piedāvā konkrētas frāzes, ko ierunāt. Tad jāspiež uz mikrofona, jāierunā, un cilvēks savu balss ierakstu ir ziedojis. Ierunāšanai piedāvātās frāzes ir ļoti daudzveidīgas:

"Balsu talkas" dalībnieku ierunātie teksti: "Ko mēs darām ar šādu likumdevēju iniciatīvu? ", "Mans bērns ar mobilo labāk filmē", "Tas tik būs darbiņš", "Kaut reizi savā draņķa dzīvē padomā ar galvu!", "Dundagas apgabalā, bet sevišķi Ģipkā, mituši lieli burvji".

Tekstus ierunājuši dažādu vecumu cilvēki, izteiksmīgi un mazāk izteiksmīgi, ar akcentu un bez - un tieši tas ir vajadzīgs- jo svarīga ir pēc iespējas lielāka dažādība, lai digitālie rīki latviešu valodu saprastu un spētu tajā komunicēt pēc iespējas pilnvērtīgāk un precīzāk.

"Lai šie rīki tuvākajā nākotnē spētu ar mums sarunāties, vai tas būtu telefons, ledusskapis vai mašīna, ir vajadzīga datu kopa, kad daudzi cilvēki ir ierunājuši dažādus tekstus.

Ja šāda datu kopa ir, tad uz tās pamata var uztaisīt modeli, kas spēj atpazīt runāto valodu un pārvērst to par tekstu. Savukārt datori jau pēc tam to tekstu spēj saprast, apstrādāt kā komandas un kaut ko tālāk ar to darīt," stāstīja Latvijas Atvērto tehnoloģiju asociācijas valdes loceklis Pēteris Jurčenko.

4. maijā apritēs gads, kopš iniciatīva "Balsu talka" aizsākās, un cilvēku atsaucība bijusi plaša – vērtēja digitālo humanitāro zinātņu pētniece Sanita Reinsone:

"Mēs sākām ar 18 stundu materiālu, kas bija ierunāts, tad šobrīd mums jau ir 205 stundas, ko sabiedrība ir ierunājusi. Tas ir daudz, mēs tuvojamies jau tādām lielākām valodām, kurām ir daudz vairāk resursu, daudz vairāk runātāju. Bet tomēr pētnieki ir noskaidrojuši, ka mums ir nepieciešams vēl vairāk balsu. Šobrīd mēs esam nosprauduši mērķi – 300 stundu – bet ceram, protams, uz vairāk".

"Balsu talka" ir sasaistīta ar platformu "Mozilla Common Voice", kas apkopo datus par cilvēku ierunātajiem tekstiem dažādās valodās, un latviešu valoda starp tām ir gana augstā vietā.

"Šobrīd latviešu valoda tajā "Mozilla Common Voice" platformā ir 11.vietā pēc absolūtā iesaistītā cilvēku skaita. Respektīvi, mums patiešām daudz cilvēku iesaistījās, piedalījās, tāpēc mēs esam diezgan augstu. Ja mēs, piemēram, paskatītos uz cilvēku skaitu, kas piedalījās, pret cilvēku skaitu, kas runā latviski, tad mēs esam top pieci," teica Jurčenko.

Iedzīvotāji aizvien tiek mudināti aktīvi piedalīties "Balsu talkā", lai ierunātais laiks sasniegtu vismaz 300 stundu. Bet paralēli tam iesniegtie balsu ieraksti jau tiek analizēti un noris runas atpazīšanas un transkribēšanas modeļa pirmās versijas apmācīšana. Rezultāti tiks publicēti līdz 4. maijam un vietnē "balsutalka.lv" būs brīvi pieejami ikvienam, kurš izstrādā runas tehnoloģijās balstītus risinājumus.

Savukārt valodas pētniekiem visērtāk datiem būs piekļūt Nacionālajā korpusu kolekcijā "korpuss.lv", kur ikviens tos varēs iepazīt un analizēt valodnieciskā perspektīvā.

Kļūda rakstā?

Iezīmējiet tekstu un spiediet Ctrl+Enter, lai nosūtītu labojamo teksta fragmentu redaktoram!

Iezīmējiet tekstu un spiediet uz Ziņot par kļūdu pogas, lai nosūtītu labojamo teksta fragmentu redaktoram!

Saistītie raksti

Vairāk

Svarīgākais šobrīd

Vairāk

Interesanti