La traducció automàtica neuronal, aliada de les llengües més minoritàries de la Península

La UOC vol crear una eina que aprengui a adaptar el castellà, català i portuguès a idiomes com l’aranès, l’asturià o l’aragonès

Categories:

Redacció

El nou model ha de ser capaç de traduir bidireccionalment entre les set llengües romàniques de la Península Ibèrica
El nou model ha de ser capaç de traduir bidireccionalment entre les set llengües romàniques de la Península Ibèrica | Stefan G (Pexels)

La supervivència d’idiomes molt minoritaris com l’aranès, l’asturià o l’aragonès, ja prou complicada a peu de carrer, gaudirà d’una nova crossa per evitar la seva desaparició en els entorns digitals. La Traducció automàtica neuronal per a les llengües romàniques de la península Ibèrica (TAN-IBE) és un projecte coordinat per la UOC que s’ha posat en marxa per construir i entrenar un model de traducció capaç d’aprendre per transferència. És a dir, que prengui com a referència els sistemes que traslladen textos entre llengües fortes i consolidades (del castellà al portuguès, per exemple) i sigui competent per a fer el mateix entre el castellà i l’aranès.

Per desenvolupar de manera òptima aquesta eina, el primer pas consisteix a recopilar el màxim material possible de les llengües amb menys volum de textos. És per això que s’estan negociant acords amb governs autonòmics, universitats i editorials, que facilitaran el corpus imprescindible per entrenar el sistema. “L'aspecte positiu dels sistemes neuronals és que poden assimilar coses d'una llengua a partir d'una altra que s'hi assembli, i això succeeix amb les romàniques”, explica l’investigador del grup de recerca interuniversitari en Aplicacions Lingüístiques (GRIAL-UOC), Antoni Oliver.

L’objectiu final del projecte serà tant la publicació lliure dels recursos com la creació d'un sistema de traducció automàtica neuronal d'ús obert. Durant el procés també es busca explorar noves tècniques per a l'entrenament d’aquests sistemes que es basin en models de traducció automàtica multilingüe, autosupervisada i no supervisada, capaços de traduir des de totes les llengües i cap a totes les llengües implicades.

“Volem ajudar a fomentar l'ús dels idiomes amb menys recursos i incrementar-ne les publicacions”, admet Oliver. “Per exemple, totes les lleis es podrien publicar en dues llengües de manera ràpida i eficient, invertint-hi menys recursos, tot i que sempre caldria una revisió humana. A més, les persones que no s'atreveixen a fer-les servir perquè no se senten segures poden emprar la futura eina per millorar els seus textos”, conclou.