El català trenca la barrera de les 1.000 hores registrades a Common Voice

La llengua supera els 6.700 col·laboradors i ja és la cinquena amb més dades de la iniciativa, per davant del castellà, el xinès o l’àrab

Categories:

Redacció

Common Voice és una iniciativa de la Fundació Mozilla per generar un corpus de dades de veu obert i multilingüe
Common Voice és una iniciativa de la Fundació Mozilla per generar un corpus de dades de veu obert i multilingüe | Ekaterina Bolovtsova (Pexels)

Common Voice, el corpus lingüístic de dades obertes impulsat per la Fundació Mozilla, ja ha superat les 1.000 hores enregistrades i les 900 validades en català, segon la darrera actualització del projecte. Aquesta iniciativa es va iniciar a principis de 2019 amb la voluntat de generar un conjunt de dades de veu multilingüe per poder entrenar assistents de veu i altres tecnologies del llenguatge que requereixin grans volums d’informació.

Amb les noves dades, el català ja compta amb més de 6.700 col·laboradors i és el cinquè idioma amb més volum de dades registades, només per darrere de l’anglès (2.886), el ruandès (2.383) l’esperanto (1.856) i l’alemany (1.133). Això situa el situa com una de les llengües més actives a Common Voice, per davant d’altres molt més majoritàries com el xinès, el castellà, l’àrab, el rus o el francès. A més a més de la participació de voluntaris, la secretaria general de Política Lingüística de la Generalitat i el Barcelona Supercomputing Center (BSC-CNS) també han contribuït al projecte amb l’elaboració i recopilació de textos per enregistrar.

Pel que fa a les dades de veu recaptades, un 76% de les aportacions corresponen al dialecte central del català, mentre que un 14% no està identificat i l’altre 10% es reparteix entre els altres dialectes de la llengua. També es percep un equilibri de gènere: un 63% de les veus són d’homes, un 19% de dones i en un 18% es desconeix. On sí que trobem una major varietat és en la distribució per edat: la franja amb més aportacions és el de les persones d’entre 60 i 69 anys, amb un 28%, seguida per les de 50 a 59 anys (21%) i les de 40 a 49 anys (11%). El conjunt de dades totals en català ocupen una mida de 25 GB.

Imatge: Softcatalà