La URV crea una eina per analitzar automàticament més de 250.000 estructures de proteïnes i accelerar el disseny de fàrmacs

El programari permet classificar de manera automàtica les dades del Protein Data Bank i reduir dràsticament el temps necessari per seleccionar estructures útils en projectes de recerca biomèdica.

Categories:

Redacció

La nova eina de la URV permet analitzar en poques hores el contingut complet d’una de les principals bases de dades de biologia estructural.
La nova eina de la URV permet analitzar en poques hores el contingut complet d’una de les principals bases de dades de biologia estructural. | Cedida

Un equip del Grup de Recerca en Quimioinformàtica i Nutrició de la Universitat Rovira i Virgili (URV) ha desenvolupat PDB-CAT, una nova eina informàtica que permet analitzar, classificar i extreure informació clau de les estructures tridimensionals de proteïnes disponibles al Protein Data Bank (PDB), una de les bases de dades de referència internacional en biologia estructural.

El PDB recull estructures tridimensionals de proteïnes, àcids nucleics i altres macromolècules biològiques obtingudes experimentalment. Aquestes dades són essencials per entendre com funcionen les proteïnes i com interactuen amb altres molècules, un coneixement clau per al disseny computacional de fàrmacs. Amb els anys, però, el volum d’informació ha crescut de manera molt ràpida i ja supera les 250.000 estructures, amb milers de noves entrades cada any.

Gestionar l’allau de dades estructurals

Aquest creixement dificulta la identificació de les estructures més adequades per a cada projecte de recerca. Segons explica Ariadna Llop Peiró, estudiant de doctorat del Departament de Bioquímica i Biotecnologia de la URV i principal desenvolupadora del programa, una mateixa proteïna pot tenir desenes o centenars d’estructures disponibles que difereixen en aspectes com la presència d’un lligand, el tipus d’unió o possibles mutacions.

La nova eina permet analitzar en poques hores el contingut complet d’una de les principals bases de dades de biologia estructural.

Analitzar manualment aquestes diferències és un procés lent i poc viable quan el volum de dades és tan elevat. PDB-CAT automatitza aquesta tasca i permet detectar si una estructura conté un lligand unit a la proteïna, determinar si la unió és covalent o no covalent —una informació sovint no indicada explícitament als fitxers del PDB— i identificar mutacions comparant la seqüència amb una referència proporcionada pels usuaris.

Analitzar tot el PDB en poques hores

Una de les fortaleses del programari és la seva eficiència. L’eina està paral·lelitzada i pot executar-se simultàniament en diversos processadors, cosa que redueix notablement el temps d’anàlisi de grans conjunts de dades. Tal com apunta Said Trujillo de León, estudiant del doble grau en Enginyeria Informàtica i Biotecnologia que ha implementat aquesta funcionalitat, és possible analitzar tot el contingut actual del PDB en poques hores amb un ordinador de sobretaula equipat amb una CPU potent.

Una mateixa proteïna pot tenir centenars d’estructures disponibles al Protein Data Bank amb diferències rellevants per a la recerca.

Per demostrar el potencial del sistema, l’equip ha aplicat PDB-CAT a l’anàlisi de totes les estructures disponibles de la proteasa principal del SARS-CoV-2, un enzim clau per a la replicació del virus i una de les principals dianes en la recerca d’antivirals. L’eina ha permès classificar les estructures, identificar quines contenen inhibidors i detectar mutacions i variants de la proteïna.

El programari és lliure i de codi obert i està disponible públicament a GitHub, acompanyat d’un tutorial que en facilita l’ús a la comunitat investigadora. L’objectiu és ajudar els científics a gestionar millor l’enorme volum de dades estructurals disponibles i accelerar projectes de recerca en biologia estructural i desenvolupament de fàrmacs.