Perchè la Bionformatica
Grazie allo straordinario sviluppo tecnologico di questi ultimi anni ed all’avvento dei moderni metodi di sequenziamento, i ricercatori di tutto il mondo hanno raccolto una quantità incredibile d’informazioni riguardanti le sequenze del genoma, degli acidi nucleici e delle singole proteine di molte specie diverse.
Ciò ha portato alla nascita, in particolare, delle cosiddette “scienze Omiche”, un settore in continua espansione che racchiude Genomica, Trascrittomica, Proteomica e Metabolomica, che ha rivoluzionato completamente il nostro paradigma di comprensione del mondo biologico e cellulare (per approfondimenti al riguardo e sulle scienze omiche clicca qui).
Tuttavia, le scoperte delle scienze biomolecolari si traducono in una enorme quantità, sempre crescente, di informazioni e dati, che è necessario poter sia conservare che analizzare e scambiare tra i diversi gruppi di ricerca sparsi in tutto il mondo. Intere sequenze di genomi, di proteine di vario tipo, stringhe di sequenze nucleotidiche di geni oppure di RNA, che devono essere gestite in modo da poter essere realmente utilizzabili.
La Bioinformatica si occupa proprio di fornire strumenti informatici e software che permettano di memorizzare, conservare, analizzare, interpretare e scambiare tutti questi dati e le informazioni che vengono acquisite in ambito biologico, utilizzando a tal fine metodi matematici, statistici, fisici e medici. Si tratta perciò di un campo necessariamente connotato da una forte interdisciplinarietà e nel quale professionisti fisici, biologi, biochimici e matematici (nonché ingegneri) si trovano a lavorare fianco a fianco, mettendo in comune le rispettive conoscenze e competenze (Fig.1).
La Bioinformatica ed il modello NCBI
La Bionformatica è nata intorno al 1980, quando iniziarono a svilupparsi i metodi di sequenziamento degli acidi nucleici, al fine di gestire ed elaborare i dati delle sequenze nucleotidiche che venivano via via ottenuti. Apparve infatti evidente fin da subito la necessità di disporre di strumenti informatici per l’immagazzinamento, la conservazione, la caratterizzazione ed infine la facile consultazione di tali dati.
Ciò portò alla nascita di diverse banche dati (database), veri e propri archivi informatici in cui raccogliere in modo ordinato tutte le sequenze di DNA, RNA e proteine che venivano scoperte di volta in volta. Era tuttavia necessario dotare tali biblioteche virtuali di un modello standard, una struttura cioè che fosse uguale per tutti coloro che avevano bisogno di accedere a queste informazioni e che inoltre integrasse tra loro i diversi database collegandoli, permettendo così di passare comodamente dall’uno all’altro.
Sino ad allora, infatti, ogni diverso database era gestito soltanto dall’ente (Università, azienda o persino singolo laboratorio di ricerca) che lo aveva creato ed era indipendente da tutti gli altri, sia nel funzionamento che nel metodo d’interrogazione e nel tipo d’informazioni che vi venivano conservate. Il ricercatore che avesse avuto bisogno, ad esempio, di una specifica sequenza nucleotidica o proteica, sarebbe perciò stato costretto a cercarla saltando da un database all’altro, non solo senza la garanzia di trovarla, ma anche dovendo imparare ad usare, di volta in volta, un metodo di consultazione differente.
A tale scopo, dieci anni fa il National Center for Biotechnology Information (NCBI) ha elaborato un modello che è diventato ben presto quello tuttora in uso. Questo si basa sulla classificazione ed integrazione di tutte le banche dati esistenti in quattro diverse categorie, secondo il tipo d’informazione in esse contenute:
1- banche dati genomiche (raccolgono sequenze di DNA e genomi interi; includono anche geni singoli, frammenti di DNA genomico, trascritti e cDNA incompleti);
2- banche dati trascrittomiche (sequenze unicamente di RNA di espressione genica);
3- banche dati proteomiche (unicamente proteine);
4- banche dati di biosequenze (acidi nucleici e proteine; si tratta di database generici, che contengono un po’ di tutto).
Ciò portò alla nascita del portale NCBI, un portale (Fig. 2) che connette tra loro tutti i database esistenti. E’ sufficiente digitare il tipo di molecola o di sequenza cercata per ottenerla, con i riferimenti ai differenti archivi informatici in cui essa è conservata e alle specifiche sul diverso tipo d’informazione, riguardanti quella molecola o sequenza genica, da un database all’altro.
Il portale NCBI permette persino di accedere ad eventuali articoli e pubblicazioni scientifiche sull’argomento: esso è infatti collegato anche ai principali siti di letteratura scientifica, quali Pubmed, SciFinder, Embase ed altri ancora.
Banche dati “Primarie” e banche dati “Secondarie”
Il modello NCBI classifica inoltre le banche dati in due macrocategorie:
A- banche dati primarie
Vi sono raccolti tutti i dati derivanti da analisi di sequenziamento con qualche interpretazione ma senza alcuna revisione; questo significa che la ricerca al riguardo è ancora in corso. Ne sono un esempio EMBL (European Molecolar Biology Laboratory), GenBank e DDBJ (DNA Data Bank of Japan). Negli archivi informatici di questa categoria ogni sequenza di DNA ed RNA è accompagnata dalla descrizione del protocollo sperimentale adottato e, per il DNA, dall’annotazione della regione codificante (coding sequence o CDS). Nella grande maggioranza dei casi la sequenza amminoacidica delle proteine riportata è dedotta dalla sequenza di DNA o RNA e non determinata direttamente dal sequenziamento di catene polipeptidiche.
B- banche dati secondarie
Includono sequenze cosiddette ”curate”, cioè senza alcuna ridondanza. Queste banche dati integrano ed approfondiscono le informazioni contenute nelle banche dati primarie. Si tratta di archivi informatici come SWISS-PROT (Swiss Protein database), PIR (Protein Information Resources), PDB-RCSB (Protein Data Bank) e PFAM (Protein Families database). Le sequenze proteiche dei database di questa categoria includono sia quelle ottenute tramite deduzione dalla CDS, che quelle ottenute da sequenziamento vero e proprio. Vi vengono inoltre riportati i dati di cristallografia e spettroscopia, nonché le relative strutture tridimensionali.
L’adozione di questa classificazione è molto utile: permette infatti al ricercatore di sapere se quello che sta cercando è già stato studiato prima, chi se ne stia eventualmente occupando e lo stato dell’arte in tempo reale.
Generalmente quando uno studio scientifico è solo all’inizio ed è ancora aperto esso è riportato in una banca dati (o in un insieme di banche dati) classificata come primaria; mano a mano invece che le informazioni preliminari vengono convalidate ed ulteriormente approfondite, i risultati sono aggiunti anche nelle banche dati secondarie.
Banche dati genomiche: sempre più specifiche e per ogni esigenza
Lo scopo primario delle banche dati genomiche è gestire e organizzare tutte le informazioni provenienti dal sequenziamento del genoma di un dato organismo, in modo che possano essere identificati e mappati tutti i suoi geni; è perciò la categoria, tra le quattro elencate in precedenza, maggiormente utilizzata dai Biologi Molecolari di tutto il mondo.
Questi database mettono inoltre a disposizione le mappe fisiche dei genomi, con la localizzazione a livello cromosomico della posizione di qualunque sequenza del DNA.
Il forte impatto dei moderni metodi di sequenziamento, sempre più precisi, comodi e veloci, ha portato alla nascita d’ innumerevoli banche dati appartenenti a questa categoria, una galassia di database molto variegata. Esistono ad esempio banche dati dedicate unicamente a certi gruppi tassonomici di organismi o microrganismi soltanto (Bacteria/Archea/Yeast/Eukaryota/Virus), database monografici per una singola specie o persino per un unico (micro)organismo.
Questa “molteplicità informatica” può forse lasciare perplessi, ma è in realtà una risorsa preziosa: permette infatti di disporre d’informazioni adatte ad ogni esigenza di ricerca ed altamente specifiche per un certo ambito o applicazione sperimentale.
Tuttavia, essa genererebbe una forte dispersione di tempo ed energia per il ricercatore, se non fosse nel contempo disponibile una struttura standard che le interconnettesse tutte tra loro in modo logico.
Il portale NCBI garantisce appunto tale integrazione, permettendo così al ricercatore d’individuare in modo mirato ciò che gli occorre qualunque sia il suo ambito di specializzazione.
Curiosità: tra i microrganismi in particolare, i più rappresentati sono Escherichia coli e Saccaromyces cerevisiae, dato il loro utilizzo anche in ambito industriale. Tra le specie più complesse invece il primato va a Caenorhabditis elegans per i nematodi (organismo modello per gli studi sull’apoptosi cellulare), a Drosophila melanogaster (tradizionale modello per gli studi di genetica) per gli insetti e ad Arabidopsis thaliana per le specie vegetali. Tra i mammiferi invece sono uomo e topo che la fanno da padrone, col maggior numero di banche dati disponibili rispetto a tutti gli altri membri della stessa classe.
Una scienza in continua espansione
Si stima che attualmente i file di sequenza complessivamente conservati nelle varie banche dati siano più di 25 miliardi; grazie al contributo della Bioinformatica questa mole di dati, che raccoglie tutte le sequenze nucleotidiche ed amminoacidiche conosciute, è ora liberamente accessibile ad ogni ricercatore del mondo.
La Bionformatica, però, non è solo database: essa è infatti diventata ormai strumento d’elezione anche per la progettazione ex novo di molecole bioattive che costituiscano i principi attivi dei farmaci, oltre che dell’intera filiera di ricerca e sviluppo.
Saper utilizzare e consultare i database online è, insomma, un requisito indispensabile per chiunque faccia ricerca scientifica, e dato l’incalzante ritmo di crescita delle nuove tecnologie lo sarà, senza dubbio, ancora di più in futuro.
La seconda parte di questo articolo, che verrà pubblicata in data 26 Giugno, illustrerà il funzionamento e le applicazioni delle banche dati biologiche, quali sono i principali metodi ed algoritmi d’interrogazione utilizzabili per consultarle e che cosa sono le funzioni di allineamento delle sequenze, fondamentali per gli studi tassonomici e di biologia dell’ evoluzione delle specie.
Bibliografia di riferimento
- Gianni Barcaccia, Mario Falcinelli. “Genetica e Genomica” (volume III). Liguori editore, 2006
- Dispense del corso:”Metodologie Farmacologiche”, professoressa Marina Camera, corso di laurea in Biotecnologie Farmaceutiche; Università degli Studi di Milano.
Sitografia di alcune delle principali banche dati citate nell’articolo
- EMBL: http://www.ebi.ac.uk/embl
- GenBank: http://ncbi.nlm.nih.gov/Genbank/index.html
- PIR: http://pir.georgetown.edu
- SwissProt: http://www.ebi.ac.uk/swissprot
- PDB (contiene le strutture tridimensionali di acidi nucleici e proteine): http://www.rcsb.org/pdb
- PFAM (banca dati dei domini conservati): http://www.ncbi.nlm.nih.gov/Structure/cdd
Crediti per le immagini
Immagine in evidenza:
- https://news-town.it/cultura-e-societa/12204-gruppo-di-ricerca-di-bioinformatica-dell-univaq-si-aggiudica-il-microsoft-azure-research-award.html
- Figura 1: http://www.multytheme.com/cultura/multimedia/didattmultitema/scuoladg/biologiaLC/bioinformaticananotecnologie.html
- Figura 2: https://hslibraryguides.ucdenver.edu/NCBI