Neix NLP ComuniCat, la comunitat oberta sobre tecnologies del llenguatge en català

La iniciativa vol agrupar tots els desenvolupadors del sector per compartir coneixements i potenciar la presència de l’idioma en l’àmbit digital

Categories:

Redacció

El projecte vol convertir-se en una comunitat oberta a tothom, seguint els principis del programari lliure
El projecte vol convertir-se en una comunitat oberta a tothom, seguint els principis del programari lliure | Seej Nguyen (Pexels)

El processament de llenguatge natural (PLN, NLP per les sigles en anglès) és la disciplina informàtica encarregada de convertir la parla humana a codi informàtic i crear diverses solucions amb elles, tals com les traduccions automàtiques, el resum de textos o els reconeixements de conversa. Aquestes tecnologies són les que fan funcionar els assistents de veu que tenim als nostres mòbils i altaveus intel·ligents, com Alexa o Google Home. Amb tot, la presència del català en aquests entorns és encara molt reduïda, raó per la qual un grup d’investigadores ha decidit crear NLP ComuniCat, una comunitat oberta per a desenvolupadors, investigadors i estudiants d’aquesta especialització informàtica.

“Si nosaltres no li parlem a la Siri en català, en el llarg termini acabarem fent servir les llengües majoritàries. Hem d’assegurar-nos que la nostra llengua hi sigui al present, perquè si hi és ara, hi serà al futur”. Així de clar ho té Ona de Gibert, investigadora al Barcelona Supercomputing Center-Centre Nacional de Supercomputació (BSC-CNS) i una de les tres impulsores de NLP ComuniCat. “Vam adonar-nos que hi ha molta gent desenvolupant tecnologies del llenguatge en català, fent moltes vegades el mateix, però de manera desconnectada. Semblava que d’alguna manera ens trepitjàvem els uns als altres”, explica la cogestora de la comunitat.

de Gibert: "Si nosaltres no li parlem a la Siri en català, en el llarg termini acabarem fent servir les llengües majoritàries"

Una comunitat basada en els principis del programari lliure

Darrere de la iniciativa es troben tres investigadores del BSC-CNS amb formació humanística i experiència en el camp de les tecnologies del llenguatge, però l’objectiu és implicar com més gent millor: “Volem ser una comunitat oberta, sense persones concretes ni organitzacions al darrere, seguint la filosofia del programari lliure”. És per això que han habilitat un formulari per accedir al canal de Slack que NLP utilitzen per organitzar-se i planificar les accions futures. És a través d’aquesta enquesta com les organitzadores han identificat les tendències i àrees de coneixement més atractives per als professionals i aficionats del sector: la traducció automàtica, amb iniciatives com el traductor neuronal anglès-català Softcatalà, els models de llenguatge i el reconeixement de la parla. Un resultat que no els ha sorprès, però que, apunta de Gibert, "necessiten molts recursos i molta computació per desenvolupar-se".

L'objectiu de NLP ComuniCat és agrupar totes les eines i models en català disponibles i en desenvolupament i posar en contacte a tots als professionals, investigadors i estudiants del sector

Aquí és on entra el paper cabdal de la comunitat. “Per desenvolupar qualsevol tecnologia es necessiten dades, però són molt difícils d’aconseguir i de compartir. El que m’he trobat amb la meva feina és que posant els recursos i les eines a la xarxa, no arriben a tothom. En canvi, si tenim una comunitat com aquesta, és tan fàcil com posar un missatge”, relata la investigadora del BSC-CNS. És per això que el primer pas de NLP ComuniCat serà recollir tota la gent interessada i fer una “posada en comú” de tots els projectes en marxa, amb la intenció de crear “una mena de catàleg de persones que treballen en la tecnologia de la llengua en català per guanyar coneixement, tècniques i mètodes”.

A partir d’aquest punt, el pla és agrupar totes les eines i models existents per “facilitar el desenvolupament” de les PLN en català, un procés que també pot servir a petites empreses que treballen amb tecnologies del llenguatge, però no inclouen l’idioma per manca de recursos. Finalment, l’objectiu a llarg termini és organitzar trobades, conferències i projectes concrets sobre la temàtica. “El fet que una llengua persisteixi i sobrevisqui a l’era digital està directament relacionat amb la seva presència a les tecnologies del llenguatge”, assevera de Gibert.