Investigadors de la UOC creen un model per automatitzar l’extracció de continguts d’internet

L’eina s’ha publicat en codi obert i funciona amb portals que facin servir CMS, que són més del 60% de pàgines web

Categories:

Redacció

El prototip permet facilitar el trasllat de continguts d'una pàgina web cap a una aplicació mòbil
El prototip permet facilitar el trasllat de continguts d'una pàgina web cap a una aplicació mòbil | Pixabay

Un equip d’investigadors de l’Internet Interdisciplinary Institute (IN3) de la Universitat Oberta de Catalunya (UOC) ha desenvolupat un model informàtic que permet extreure de manera automàtica els continguts de pàgines web a través del seu CMS (sistemes de gestió de contingut). L’eina, publicada en codi obert, és capaç d’analitzar sistemes com Wordpress, Joomla o Drupal, que són utilitzats en més del 60% dels portals de la xarxa.

El prototip, que ja és plenament funcional, està pensat especialment per aquelles empreses que gestionen grans quantitats de continguts i pàgines web, moltes de les quals es troben problemes a l’hora de traslladar aquest volum d’informació a noves plataformes, com són les aplicacions mòbils. "Si les API ja tenen un format estàndard, per què no podem fer també un extractor de contingut que les llegeixi i les entengui, les representi de manera estàndard i generi el connector per enviar la informació a la nova aplicació mòbil de manera automàtica?", assenyala l’autor principal de l’estudi, Joan Giner Miguélez.

El funcionament del model que han desenvolupat es basa en tècniques d’enginyeria inversa. Un cop es facilita al prototip l’adreça URL i les credencials per accedir dins del CMS, l’eina llegeix l’API del portal, l’interpreta i en representa l’estructura i les llibreries de contingut de manera estàndard. Paral·lelament, també crea automàticament un codi que permetrà connectar el gestor de continguts amb la nova aplicació mòbil. "Estem parlant d'un procés que es repeteix moltes vegades a les organitzacions que gestionen contingut; un procés que, cada vegada que es fa, implica muntar un equip de desenvolupament específic que comporta la despesa d'una sèrie de recursos i que, a més, pot generar errors. En automatitzar-se, se simplifica tot i es guanya escalabilitat”, conclou l’autor principal del projecte.

Un altre dels beneficis d’aquest model és que elimina el marge d’error que pot provocar la gestió manual d’aquest procediment, atès que els programadors poden cometre errors de picatge en alguna línia de codi. A més a més, l’escalabilitat que menciona Giner no implica un augment de costos, i l’investigador de la UOC aspira que pugui fer una passa més enllà: "De cara al futur, aquest model fins i tot es podria utilitzar per convertir els CMS en una nova font de dades amb la qual es puguin entrenar sistemes d'intel·ligència artificial".

Etiquetes