Catotron, el primer sistema de síntesi de veu amb xarxes neuronals lliure i obert
Col·lectivaT i investigadors de la UPF i la UPC creen una solució que incorpora la llengua del territori
La cooperativa Col·lectivaT i investigadors de la Universitat Pompeu Fabra i la Universitat Politècnica de Catalunya han creat un sistema de síntesi de veu en català basat en xarxes neuronals anomenat Catotron. Es tracta de la primera solució que utilitza aquesta llengua, ja que fins al moment només s’han desenvolupat versions basades en l’anglès amb llicències obertes. El gran volum de dades i potència computacional que necessita la tecnologia, basada en l’aprenentatge profund, és una de les problemàtiques a l’hora de desenvolupar-la adaptada a diversos idiomes.
Les tecnologies de codi que han emprat els desenvolupadors de Catotron són els repositoris de Tacotron2 i WaveGlow, de l’empresa de NVIDIA publicats amb llicències obertes a github. "Un dels resultats més importants aconseguits en aquest projecte ha estat el codi: el nostre fork de Tacotron2, que està modificat per al català, imprescindible per fer servir els models de català", expliquen els autors del treball en un comunicat. "A més, hem desenvolupat un segon repositori catotron-cpu, que és executable amb els processadors més comuns, els CPUs. Aquesta versió de Catotron és una alternativa més lleugera i més eficient que altres ja existents", han afegit.
Entrenament de models i utilitat del projecte per als usuaris
Per entrenar els models de català els investigadors van aprofitar les dades obertes ja publicades. Les veus resultants estan entrenades amb les dades de Festcat, un projecte de la Generalitat realitzat pels investigadors de la UPC. "Durant les nostres proves també vam fer experiments amb el conjunt de dades del ParlamentParla, i vam produir un model de la parla d’Artur Mas, que era la persona amb més hores registrades d’aquest conjunt de dades, i vam aprofitar aquesta prova per fer una estimació del volum i de la qualitat de dades necessàries per entrenar un model", expliquen els desenvolupadors de Col·lectiva.
Els investigadors han utilitzat dades i veus de Festcat i de ParlamentParla per crear un model d’Artur Mas
Amb les eines publicades a la web del projecte, ja és possible adaptar la veu mitjançant l’aprenentatge per transferència (transfer learning) a partir dels models publicats i enregistraments d’un locutor.
El projecte "Síntesi de la parla contra la bretxa digital" ha estat finançat pel Departament de Cultura de la Generalitat de Catalunya. Els investigadors han pogut entrenar els models de sistema de la parla en català amb xarxes neuronals i publicar-ho amb llicències de codi obert.