Creen el primer model de reconeixement de veu en català per wav2vec2

L’aplicació de codi obert i basada en aprenentatge automàtic té una taxa d’error WER del 7,57%

Redacció

| CC0

L’usuari Ciaran O’Really, associat a la iniciativa Softcatalà, ha creat el primer prototip de reconeixement de veu en català basat en el model d’aprenentatge automàtic wav2vec2. Aquesta eina de codi obert, accessible a Hugging Face, permet enregistrar la veu a través d’un micròfon o bé pujar un arxiu d’àudio, i la seva funció és transcriure’ls a text, amb una taxa d’error WER (word error rate) d’un 7,57%.

Fins ara ja existien models de parla en català desenvolupats utilitzant VOSK o el motor de RAP de Mozilla, el primer desenvolupat pel mateix O’Really. La diferència la trobem en el model wav2vec2, un sistema d’aprenentatge del discurs automàtic proposat per Alexei Baevski, Henry Zhou, Abdelrahman Mohamed i Michael Auli en un paper per la Universitat Cornell.

L’aplicació ha estat entrenada amb el corpus lingüístic català de Common Voice, que compta ara com ara amb 856 hores enregistrades i 726 validades. Common Voice és una iniciativa de Mozilla que té la intenció de generar de forma col·laborativa un conjunt de dades de veu en obert, que consisteix en aportacions de veu realitzades per persones voluntàries de manera anònima, que han de ser validades per la mateixa comunitat. Actualment, el català és la quarta llengua amb més hores validades a la plataforma, per davant del francès o el castellà, i només superada per l’alemany, el ruandès i l’anglès.

El model de reconeixement de veu ha estat entrenat amb el corpus de Common Voice, que compta amb més de 700 hores de veu en català

L’eina creada per O’Really també ha estat provada amb un segon corpus, ParlamentParla. Aquesta recopil·lació, realitzada per la cooperativa Col·lectivaT, està extreta de les gravacions de les sessions plenàries del Parlament de Catalunya i compta amb un total de 90 hores de veu enregistrades, netejades i transcrites a text, juntament amb 230 hores de diversos nivells de qualitat, també transcrites.

Aquest model de reconeixement de veu és una aportació més de la comunitat dins de l’ecosistema de programari lliure destinat a la síntesi de veu i a la promoció d’assistents intel·ligents en català. Des de Col·lectiva’t també han desenvolupat Catotron, una veu en línia en català creada a través del programari lliure Mycroft, amb el suport de la Direcció General de Política Lingüística del Departament de Cultura. És a través d’aquesta mateixa eina que s’han creat el Pau i l’Ona, dos assistents de veu en català de codi obert.