El català es prepara per entrenar els futurs assistents de veu
El corpus de recursos de Common Voice juntament amb les solucions de reconeixement i síntesi de veu Mycroft i Catotron posen les bases per a la creació d’eines capaces d’entendre i respondre els usuaris de Catalunya
Categories:
El català ja supera les 870 hores enregistrades i les 750 hores validades al corpus lingüístic de Common Voice impulsat per la Fundació Mozilla. Les xifres situen la llengua com la quarta a la plataforma, amb l’anglès, el ruandès i l’alemany per davant. Aquestes i altres dades obertes han permès que es puguin desenvolupar iniciatives com Catotron o el primer prototip de reconeixement de veu en el nostre idioma basat en wav2vec2. És a dir, és el recurs bàsic per al desenvolupament del que podrien ser els futurs assistents que puguin interlocutor amb els usuaris del Principat.
Però malgrat que aquest conjunt d’hores ofereixen un bon grapat de dades, encara no són suficients. La fita més propera és assolir les 1.200, per això veus que lideren el moviment, com Joan Montané, vinculat a Softcatalà, fan una crida a la participació massiva de la ciutadania: “Necessitem molta més informació, i diversificada. Tenim moltes hores enregistrades del català central d’homes de mitjana edat i necessitem més dones, més franges i més varietats dialectals. No volem que les tecnologies de la veu es restringeixin al català de Barcelona o que pel fet de parlar en un to més agut, hi hagi problemes de comprensió”. Un clam que, si es fa escoltar, ha de ser clau per fer veure a les empreses que els usuaris de Catalunya volen que la tecnologia parli la seva llengua.
Montané: “Necessitem molta més informació, i diversificada. Tenim moltes hores enregistrades del català central d’homes de mitjana edat i necessitem més dones, més franges i més varietats dialectals"
Common Voice: els fonaments dels assistents en català
El repositori del Common Voice va néixer fa aproximadament 3 anys per oferir dades lliures. Del català no n’hi havia enlloc, cosa que dificultava que algú pogués fer el primer pas per treballar en la introducció d’aquest idioma en una tecnologia emergent. Davant el context, Softcatalà va iniciar una campanya per traduir la interfície, recollir frases escrites en la llengua i fer soroll a la xarxa per captar col·laboradors. Així és com s’ha aconseguit sumar la quantitat d’hores introduïdes al corpus, generades per més de 5.800 perfils diferents. La Direcció General de Política Lingüística va afegir-se a la tasca de difusió.
La pandèmia ha ajudat a incrementar les dades de la plataforma, potser perquè la ciutadania tenia més temps, o potser perquè la crítica davant la poca presència del català ha anat en augment. “Saber-ne la raó és difícil”, afirma Montané, “però està clar que la tecnologia va a l’alça i cada cop hi ha més persones que es qüestionen per què no poden parlar amb un assistent de veu en la seva llengua”. “Intentem ajudar a generar recursos perquè sigui més fàcil crear-lo, perquè el cost de les dades sigui petit en comparació amb l’anglès, el francès o el castellà”, continua.
Montané: “Intentem ajudar a generar recursos perquè sigui més fàcil crear-lo, perquè el cost de les dades sigui petit en comparació amb l’anglès, el francès o el castellà”
Si no fos per aquesta base de dades, Facebook no hauria pogut desenvolupar una eina d’ús intern que tradueix de l’anglès al català, i al revés. “És un codi que fan servir els seus investigadors d’intel·ligència artificial i no està disponible al web, però es pot trobar en un document acadèmic on s’explica que han desenvolupat un motor que fa la traducció d’àudio a text”, comenta Montané, qui assenyala com a tret destacat que la mateixa solució és capaç d’executar la tasca de l’anglès al castellà, però no al revés. “I això és gràcies a les dades del Common Voice”, insisteix.
Entre Mycroft i Catotron
Un altre que s’han beneficiat de les dades de la plataforma de Mozilla és Mycroft, un assistent virtual de software lliure per a Linux disponible en català. Tot i que es troba en un estat “embrionari”, segons Montané, “reconeix la veu, transcriu el text i detecta si demanes l’hora, la data o quin temps farà demà, i et respon”. No es troba al nivell de Google Assistant o Alexa, però es tracta d’un experiment que valida les dades del Common Voice i ratifica que serveixen de base per a la creació d’una futura eina.
Entre les bondats de Mycroft, el també membre de Softcatalà Ciaran O’Reilly destaca que “protegeix la privadesa de l’usuari i desa tota la informació que recull a l’ordinador”. “Sempre és preferible treballar amb la base del codi lliure perquè no és una gran empresa que recull les teves dades”, alerta, “a més que permet fer retocs i adaptar el programa a les necessitats de cadascú”. Però encara que ens trobem davant d’una solució oberta, cal tenir coneixements de programació per poder-la usar. Per això Softcatalà i la cooperativa Col·lectivaT han creat el web assistent.cat, on es poden fer proves amb dues veus, Ona i Pau. Només cal activar el micròfon i els altaveus, pronunciar “Ei, Mycroft” i fer una pregunta per obtenir-ne resposta.
Ona i Pau són les dues veus creades per posar a prova Mycroft en català i demostrar que es pot crear un assistent que parli la llengua
Col·lectivaT també ha treballat en Catotron, el primer sistema de síntesi de veu obert basat en xarxes neuronals que incorpora la llengua. S’ha creat en col·laboració amb investigadors de les universitats Pompeu Fabra i Politècnica de Catalunya i el suport de la DGPL, i ha estat clau en el desenvolupament de les veus Ona i Pau.
Pensar en el curt i llarg termini
“Volem que el català estigui al mercat per impulsar la creació d’assistents i productes de veu. Si posem a l’abast dades i prototips, demostrarem que hi ha interès, usuaris i consumidors que demanden la seva llengua”. Així és com explica Baybars Külebi, cofundador de la cooperativa, el motiu pel qual el moviment per impulsar la tecnologia ha anat a l’alça els últims anys, qui reconeix que és un objectiu “ambiciós” i per plantejar “a llarg termini”. No obstant això, assegura que la feina pot donar resultats de manera més immediata en el teixit de petites i mitjanes empreses de Catalunya. “Amb les eines desenvolupades no tenim una solució que es pugui descarregar des de Google Play o l’Apple Store per fer-la massiva, però sí que podem ajudar una pime a crear la seva solució en català amb els recursos de codi lliure, molt menys costosos”, assevera.
A escala de Col·lectivaT, Külebi celebra que la feina amb Mycroft i amb Ona i Pau estiguin en marxa perquè són “la base per altres projectes”: “Les veus ens serviran per entrenar un model que permeti generar automàticament audiollibres o audioarticles amb Catotron”. De fet, aquest és un dels objectius que s’han marcat per als pròxims dos anys, una traducció automàtica, barata i de qualitat de textos. El segon, explica, és crear una comunitat d’usuaris que puguin fer aportacions en forma de recursos de veu i coneixements en programació per perfeccionar la qualitat de les eines. I això inclou des de perfils tècnics fins a traductors.