La prima parte del presente articolo, pubblicato in precedenza, è consultabile al link seguente: http://www.microbiologiaitalia.it/2019/06/12/bioinformatica-uno-strumento-sempre-piu-indispensabile-parte-i/
“Database querying” e “Database searching”
Come dicevamo, la Bioinformatica è diventata uno strumento che ogni scienziato, nel corso della sua carriera, si trova prima o poi a dover utilizzare.
Immaginiamo un laureando (oppure un ricercatore) che stia scrivendo una tesi in Scienze “Omiche”, gli occorrerà reperire molte informazioni diverse per completare il suo lavoro, informazioni che spaziano dalle referenze in letteratura sul suo gene/proteina/sequenza nucleotidica/SNP/RNA/etc. d’interesse, alla sequenza di tale biomolecola, alla sua struttura, alle sue caratteristiche chimico fisiche (se si tratta di proteine), alla sua filogenesi molecolare, etc.
Magari il nostro ipotetico ricercatore necessita di amplificare tramite PCR un certo frammento di DNA e desidera progettare i primers opportuni; oppure sta lavorando con una certa popolazione cellulare o microrganismo e gli occorre perciò sapere quali siano i suoi marcatori molecolari specifici.
Qualunque sia la sua esigenza, le banche dati sono state concepite proprio per risolvere queste (e molte altre, come vedremo) eventualità.
La ricerca d’informazioni in una banca dati può essere effettuata con due diverse modalità: “Database querying” oppure “Database searching”.
Nel primo caso (“Database querying”), si tratta di utilizzare delle parole chiave per trovare delle informazioni generiche, in modo simile a come si potrebbe fare su di un qualunque motore di ricerca per trovare, ad esempio, la nostra ricetta di cucina preferita o le opere edite da un autore.
Similmente a quanto accade in questi casi, però, occorre utilizzare parole chiave opportune ed il più precise possibili.
Questo metodo d’interrogazione è particolarmente utile per fare ricerche inerenti interi geni, sequenze nucleotidiche o proteine d’interesse, in una certa specie oppure in un (micro)organismo, quando si vuole trovare più informazioni possibili al riguardo presenti in letteratura scientifica.
Il portale NCBI non restituisce infatti solo la sequenza genica o proteica della macromolecola cercata ma anche la sua struttura, i codici con cui essa è classificata nei diversi database ove è conservata, le sue caratteristiche chimico fisiche (quali il punto isoelettrico per proteine e peptidi), gli articoli ed i lavori di ricerca pubblicati che la coinvolgono e così via (Fig.1).
Tutte le banche dati integrano ormai strumenti di ricerca sempre più complessi adatti ad ogni esigenza: è possibile, ad esempio, restringere il campo d’interesse unicamente ad aspetti particolari della biomolecola d’interesse (quali i suoi polimorfismi oppure i suoi domini conservati), reperire informazioni su specifici RNA (mRNA, tRNA, rRNA), consultare i dati genetici di popolazione per uno SNP o un marcatore e molto altro ancora.
Il “Database querying” può avvenire anche inserendo nel campo di ricerca, se conosciuti, brevi motivi della sequenza nucleotidica o proteica della biomolecola d’interesse (ad esempio eventuali domini conservati).
Ma quando l’oggetto di studio o d’interesse sono sequenze specifiche di DNA, RNA o proteine, è molto più utile (e preferibile) ricorrere al metodo del “Database searching” .
“Database searching”: lavorare sulle sequenze
E’ possibile effettuare ricerche in banche dati introducendo direttamente una sequenza nucleotidica o amminoacidica più o meno lunga. Per permettere l’utilizzo di questa modalità di ricerca, attualmente tutte le banche dati integrano e mettono a disposizione dell’utente tre strumenti bioinformatici specifici: SRS (“Sequence Retrieval System”), Entrez (specifico della piattaforma NCBI) ed infine DBGET (“Integrated Database Retrieval System”).
Si tratta in pratica di tre motori di ricerca che differiscono tra loro per il numero ed il tipo di database interrogati, oltre che per i link ad altre fonti informative messi a disposizione.
NCBI inoltre dispone dello strumento:”RefSeq”, che permette di ottenere una singola referenza per ogni gene secondo il modello: DNA-mRNA-proteina, evitando così il problema della ridondanza delle informazioni solitamente contenute nelle banche dati.
In particolare per le sequenze amminoacidiche di proteine o peptidi, tutte e tre le risorse citate riconoscono ovviamente sia il codice identificativo a tre lettere che quello a singola (“Codice Simbolico degli amminoacidi”), nonostante in certi paesi anglofoni si utilizzi maggiormente quest’ultimo.
Allineamento delle sequenze e studi evoluzionistici: BLAST e FASTA
La creazione dei database bioinformatici ha messo a disposizione uno strumento molto potente ed utile per gli studi evoluzionistici.
La possibilità di analizzare infatti nel dettaglio intere sequenze genomiche oppure amminoacidiche di specie diverse, confrontandone il grado di omologia e conservazione oppure di diversificazione, permette di ricostruire l’intera storia filogenetica delle stesse e di caratterizzarle in modo ben più preciso di quanto non avvenisse in passato. Per approfondire: http://www.microbiologiaitalia.it/2017/01/06/evoluzione-orologi-molecolari-microbiologia-un-ritratto-famiglia-batteri/
Merita di essere citato, dato il forte interesse odierno per il microbiota umano e giusto per fare un esempio, il ruolo giocato dalla Bioinformatica nella caratterizzazione delle sue diverse specie batteriche, grazie alla possibilità di disporre di strumenti informatici sofisticati per analizzare sequenze geniche: http://www.microbiologiaitalia.it/2018/06/19/metodologie-utilizzate-per-la-caratterizzazione-delle-specie-che-compongono-il-microbiota-intestinale/
I programmi utilizzati per la ricerca di omologia e messi a disposizione dai database sono BLAST e FASTA.
Si tratta di programmi che sfruttano algoritmi euristici, basati sulla ricerca di “parole” (dove ogni parola può includere i 4 nucleotidi oppure i 20 amminoacidi ed essere rappresentata da più lettere consecutive, disposte in qualsiasi modo negli acidi nucleici o nelle proteine) all’interno delle sequenze contenute in banca dati.
Il principio seguito è che quando due sequenze sono correlate, esse condivideranno molte parole identiche o simili.
Pertanto, ciò che questi algoritmi fanno (in linea di massima almeno) è valutare stringhe di nucleotidi oppure amminoacidi effettuando in esse una sorta di ricerca di determinati elementi caratteristici, quindi le allineano con le sequenze omologhe disponibili nel database.
BLAST e FASTA differiscono nel metodo statistico matematico su cui si basano: senza scendere troppo nei dettagli (la presente trattazione vuole infatti limitarsi a dare un’idea generale delle potenzialità e delle applicazioni della Bioinformatica), BLAST si basa su punteggi di similitudine tra parole che siano superiori a certi valori soglia, mentre FASTA utilizza l’algebra delle matrici a punti e rimanda i valori presenti sulle diagonali.
Il grado di omologia, ricordiamo, riflette a grandi linee il grado di parentela evoluzionistica: due sequenze possono definirsi omologhe quando condividono un antenato ancestrale evolutivo comune e derivano da questi tramite processi di duplicazione oppure speciazione (Fig.2).
Un nuovo paradigma: la Biologia dei Sistemi
L’approccio integrato che le Scienze Omiche e la Bioinformatica hanno messo a disposizione degli studi biomolecolari ha ribaltato, in questi ultimi anni, lo studio della Biologia, portando ad un nuovo paradigma di riferimento: quello della Biologia dei Sistemi.
In questo paradigma, la cellula (oppure il microrganismo) e l’intero essere vivente è il risultato, ad un dato istante, non semplicemente del suo genoma ma di come esso si esprime in risposta ai feedback ambientali cui è sottoposto, alla fase di crescita e sviluppo in cui si trova al momento dell’osservazione ed all’interazione dinamica di tutte le sue parti simultaneamente.
L’approccio riduzionistico (basato sull’analisi separata delle singole parti di un sistema) ha perciò lasciato il posto all’approccio delle cosiddette: “Proprietà emergenti”, per cui una cellula o un intero essere vivente è connotato da proprietà che emergono soltanto se esso è considerato nell’insieme delle sue parti, laddove nessuna di esse singolarmente dispone delle stesse.
Si tratta quindi di una visione molto più completa (e complessa) della realtà biologica, una visione che si basa proprio sui risultati ottenuti dalla Genomica, dalla Proteomica e da tutte le loro derivazioni (Fig.3).
E siamo solo all’inizio di questo nuovo modo di concepire la Biologia: al momento infatti i dati acquisiti dalle Scienze Omiche sono maggiori delle informazioni finora dedotte.
La stessa Bioinformatica è ancora solo agli albori e ben lungi dall’aver esplicato tutte le proprie potenzialità: il futuro in quest’ambito riserva sicuramente ancora molte sorprese ed innovazioni, che permetteranno di scendere sempre più in profondità di quello che il genetista Marcello Buiatti ha definito, con azzeccata lungimiranza, nella sua opera omonima (che tratta proprio di Genomica, Proteomica e Bioinformatica): “Lo stato vivente della materia“.
Crediti per le immagini
Immagine in evidenza:
- https://corsi.unibo.it/magistrale/Bioinformatics
- Figura 1: https://a-little-book-of-r-for-bioinformatics.readthedocs.io/en/latest/src/chapter3.html
- Figura 2: https://www.wikiwand.com/it/Albero_filogenetico
- Figura 3: http://www.benesserelongevitasalute.it/2017/02/12/proprieta-emergenti-e-biologia-sistemica/
Sitografia di approfondimento
Una guida preliminare al mondo delle banche dati NCBI è consultabile a questo link:
Bibliografia di approfondimento
Il libro, citato a fine articolo, del Professor Buiatti è di sicuro interesse per chi desidera approfondire le sue conoscenze sulle Scienze Omiche e sulla Bioinformatica e se ne consiglia la lettura.
“Lo stato vivente della materia”, Marcello Buiatti, edizioni Libreria Utet (2000)