Meta presenta la transcripció de veu a text per més de 1.600 idiomes
El català és una de les llengües que contemplen les noves eines d’IA de l’empresa matriu d’Instagram i Facebook
Categories:
Meta ha impulsat un model amb capacitats de reconeixement automàtic de la parla per a més de 1.600 idiomes –el català entre ells–, incloent-hi els menys representats. Aquest fet és considerat per l’empresa com un avançament significat cap a un sistema de transcripció veritablement universal i l’objectiu és que les noves eines ajudin a reduir la bretxa que encara existeix en el reconeixement automàtic i per tal que els sistemes de conversió de veu a text d’alta qualitat arribin a les llengües menys parlades i amb menys recursos.
Una de les plataformes que ha vist la llum és Omnilingual ASR, un conjunt de models que inclou mig miler d’idiomes que mai havien estat transcrits per la intel·ligència artificial (IA). Amb més de 1.600 llengües, la taxa d’error de caràcters és inferior al 10% en el 78% dels casos. En aquells idiomes amb menys recursos i menys de deu hores d’entrenament, l’error inferior al 10% baixa fins al 36% dels casos.
Per l’entrenament, els sistemes de reconeixement automàtic de la parla requereixen grans quantitats de dades d’un idioma per poder dur a terme les transcripcions amb precisió. Aquells que no disposen de prou recursos, Meta ha introduït un enfocament d’aprenentatge contextual per tal que amb pocs exemples de text i àudio es puguin obtenir transcripcions de qualitat acceptable. Totes les eines es troben, ara per ara, disponibles en modalitat de codi obert.