Víctor López Ferrando

El meu primer article científic: PMut reinventat

7 de setembre de 2017

El passat mes de juliol es va publicar el meu primer article científic, titulat PMut. A web-based tool for the annotation of pathological variants on proteins, 2017 update i que és el resultat de més de dos anys de feina en el meu doctorat en bioinformàtica. L'article s'ha publicat a la revista anglesa Nucleic Acids Research, una de les més rellevants en la recerca biomèdica; concretament, en un número especial anual dedicat a serveis web.

En aquest article al blog intentaré resumir de manera planera el contingut de l'article sense entrar en els detalls més tècnics. Si no heu llegit l'article «Introducció a la meua recerca en bioinformàtica», us el recomano per saber més sobre el context de la meua recerca.

PMut clàssic

PMut és un predictor de la patologia de mutacions de proteïnes. És a dir, és un programa informàtic que donada una mutació en una proteïna, ens dóna una predicció sobre si aquesta mutació causarà una malaltia o serà innòcua.

Aquesta idea no és nova, de fet el predictor PMut va nàixer l'any 2005 i ha sigut un dels predictors més usats des de llavors. No obstant això, en aquesta última dècada els mètodes predictius han evolucionat de manera espectacular i el nombre de mutacions analitzades al laboratori s'ha multiplicat per 10. Així, vaig entomar el repte de posar al dia aquest predictor, i aquest article científic és el primer resultat d'aquest treball.

El motor de predicció PyMut

Com a pas previ al desenvolupament d'un nou predictor, hem desenvolupat el motor de predicció PyMut, anomenat així, ja que consisteix en un paquet Python. Aquest programari, disponible públicament, és capaç de gestionar totes les tasques relacionades amb les prediccions de patologia: el càlcul de descriptors numèrics de les mutacions, l'entrenament de predictors, l'avaluació d'aquests, la generació de gràfiques relacionades, etc. Aquests són alguns exemples de les gràfiques que podem obtenir usant PyMut:

Exemples de gràfiques generades amb PyMut.

Amb el paquet PyMut, tothom pot reproduir en el seu ordinador el procés d'elaboració, prova i ús d'un predictor com el PMut.

El nou predictor PMut2017

Usant el motor PyMut i entrenant amb la base de dades SwissVar, que conté 27.203 mutacions patogèniques i 38.078 mutacions neutrals sobre més de 12.000 proteïnes diferents, hem entrenat de bell nou el predictor PMut2017.

Abans de donar el predictor per bo, és crucial avaluar la seua fiabilitat. De fet, la revista exigeix un estudi molt estricte de la seua precisió, i per això hem emprat 4 tècniques diferents:

  1. Validació creuada. Consisteix a dividir les dades d'entrenament en 10 conjunts, entrenar un predictor amb 9 d'elles i avaluar amb la que s'ha exclòs. Repetim aquest procediment 10 cops, excloent un conjunt diferent cada cop i acabem fent la mitjana de tots els resultats. Aquesta és la manera més senzilla d'obtenir una aproximació de la fiabilitat del predictor.
  2. Test cec usant noves dades de SwissVar. Ens traslladem a desembre de 2015, i entrenem un predictor amb les dades que llavors tenia SwissVar. Després, avaluem les 3.166 mutacions que es van afegir a SwissVar durant 2016.
  3. Dades de ClinVar. Clinvar és una altra base de dades de mutacions catalogades, sensiblement diferent a SwissVar. Hem avaluat com són de bones les prediccions de PMut2017 sobre les mutacions de Clinvar que no eren presents a SwissVar.
  4. Estudi de gens específics. Hem comparat com funciona PMut2017 per alguns gens concrets, comparant els resultats amb els altres predictors més utilitzats.

Comparació del predictors PMut amb els predictors més usats. La mètrica més rellevant és el Matthews Correlations Coefficient (MCC, última columna), que com més gran implica millor precisió. Consulteu l'article per entendre els detalls de la taula.

Totes aquestes avaluacions ens han permés comparar-lo amb els predictors més precisos existents i comprovar que PMut2017 es troba sens dubte entre els més potents.

El portal web PMut

Per fer les prediccions accessibles a tota la comunitat investigadora, facilitem l'ús de PMut2017 des d'una pàgina web oberta a tothom. Els usuaris poden enviar una llista de mutacions mitjançant un formulari i obtindre les prediccions corresponents.

Captures de pantalla del portal web.

La gran majoria d'usuaris demana per l'impacte de mutacions sobre proteïnes humanes. Per tal d'agilitzar aquests càlculs, i ja que faig el doctorat al Barcelona Supercomputing Center i ens agrada fer ús de l'enorme superordinador de què disposem, vam decidir precalcular algunes prediccions. De fet no només algunes, sinó que vam calcular totes les possibles mutacions en totes les proteïnes humanes, és a dir, un total de 725.596.928 mutacions sobre 106.407 proteïnes. Aquestes prediccions, emmagatzemades en una base de dades MongoDB, són accessible immediatament sense la necessitat de realitzar cap còmput.

Marenostrum 4, el superordinador del BSC, té una potència d'11.1 Petaflops, és a dir, 11.1 × 1015 operacions per segon. El Marenostrum 4 es va estrenar el juliol de 2017; pels meus càlculs vaig usar el Marenostrum 3.

Com a novetat, el portal PMut també permet l'entrenament de predictors específics. Aquesta funcionalitat és especialment rellevant pels investigadors que treballen sobre una o diverses proteïnes concretes. Aquests investigadors, que segurament disposen de més dades que el públic, poden així entrenar un predictor a mida i usar-lo per la seua recerca específica.

Conclusió

En resum, en aquest treball hem publicat un nou predictor tan precís com els millors predictors disponibles actualment. A més, fem públic tot el procés que hem seguit en el seu desenvolupament, incloent el codi que hem usat per entrenar-lo. Finalment, fem accessible totes aquestes funcions des d'un portal web on, per primer cop, els investigadors poden entrenar —de manera totalment automàtica— predictors específics per als seus estudis.