Metagenomica: cos'è, fasi dell'analisi metagenomica e campi applicativi

Si definisce metagenomica lo studio delle sequenze di DNA, per un totale di almeno 100 Mbp (milioni di coppie di basi), a partire da un campione ambientale. Dunque, l’analisi metagenomica si basa sullo studio di un insieme di sequenze di DNA provenienti da diversi microrganismi ed è davvero utile quando alcuni microrganismi sono difficili o impossibili da coltivare. Un’analisi basata su questo approccio, prevede che si riesca ad ottenere una sorta di “progetto metagenomico” grazie al quale si possano ricavare dati su possibili interazioni tra microrganismi presenti in una comunità microbica.

Ad oggi, sono davvero molto alte le aspettative in merito all’applicazione dell’analisi metagenomica: grazie a questo tipo di approccio è stato possibile attuare importanti studi sull’analisi di comunità microbiche inquinanti nell’ambiente e si è arrivati ad importanti conoscenze sul ruolo del microbioma umano.

Le varie fasi dell’analisi metagenomica

L’approccio metagenomico è applicato con successo per rilevare la diversità genetica e tassonomica delle comunità microbiche ma, poiché l’ambiente microbico può essere davvero complesso, è necessario illustrare con chiarezza quali siano le fasi da eseguire al fine di ottenere un corretto svolgimento dell’analisi metagenomica.

La prima fase è definita di pre-sequenziamento: questo è il momento in cui bisogna valutare la complessità della comunità microbica che si studia e, quindi, devono essere definiti gli obiettivi del progetto basandosi sulla potenza di sequenziamento e di analisi computazionale che si può mettere in gioco.

La seconda fase è quella del campionamento, durante il quale deve essere compiuto il massimo sforzo per preservare la qualità del DNA. In realtà, l’approccio dipende molto dagli scopi che si prepone il progetto: infatti, se si vuole andare incontro alla produzione di una libreria di cloni bisogna privilegiare tecniche che non frammentano eccessivamente il DNA stesso, anche a scapito della resa. Se, invece, il progetto è finalizzato al sequenziamento del DNA così come estratto, quest’ultimo può anche essere ridotto a piccoli frammenti con un notevole incremento di resa. Un accorgimento importante durante questa fase, è rivolto al prelevare campioni supplementari da utilizzare in parallelo per eventuali ulteriori analisi che si rendessero utili durante lo studio del metagenoma.

La terza fase del sequenziamento, come suggerisce lo stesso nome, è quella nella quale si producono effettivamente le sequenze di DNA. Queste possono essere ottenute in vario modo: la metodica di Sanger è definita come approccio di primo livello e, ad oggi, è stata sostituita largamente dalla tecnica di next generation sequencing (NGS), considerata di “seconda generazione”. I principali vantaggi sono gli alti livelli di parallelismo (centinaia di milioni di read sequenziale in parallelo) e i costi non elevati, ma presenta anche svantaggi legati alla ridotta lunghezza delle catene sequenziate e all’accuratezza non ottimale.

sequenziamento convenzionale e di seconda generazione — *Figura 1 – Sequenziamento convenzionale (a) rispetto sequenziamento di seconda generazione (b)*

I prodotti del sequenziamento, le cosiddette reads, vengono poi riassemblate (quarta fase) come in un puzzle sfruttando le regioni di sovrapposizione alle estremità di ciascuna read. Dall’allineamento delle reads si ottengono, quindi, delle sequenze più lunghe dette contig, le quali vengono a loro volta riunite in sequenze di dimensioni ancora maggiori, dette scaffold. Queste vengono ulteriormente allineate fino a costruire un assemblato finale (assembly). Un assembly genomico, dunque, non è altro che un genoma completo.

Infine, nella fase di annotazione, si cerca di attribuire la presunta funzione delle sequenze assemblate. È proprio in questa fase, infatti, che il lavoro metagenomico comincia a mostrare i suoi frutti in termini di descrizione della comunità microbica.

Analisi bioinformatica dei dati

Come si è in parte già detto, mediante l’analisi metagenomica sul DNA totale estratto da una matrice ambientale è possibile studiare una popolazione microbica nel suo complesso e nel momento dell’interazione tra i molti gruppi microbici che la compongono. È, quindi, importante un’individuazione tassonomica precisa che si può ottenere solo con determinati fattori chiave: la lunghezza delle reads, la loro qualità e l’abundance. Le problematiche che si possono riscontrare sono associate sopratutto alla difficoltà di allineare delle reads che siano corrispondenti ad un genoma ben preciso.

In tal senso, l’analisi bioinformatica prevede che un software confronti ogni reads con ogni posizione del DNA di riferimento. Poi, nella così detta “targeted metagenomic“, le reads sono raggruppate in unità tassonomiche operative (OTU) tramite due metodi. Il primo si basa sulla similarità delle basi delle reads confrontate con quelle presenti nelle banche dati. Il secondo metodo, effettua l’assegnazione delle reads a vari livelli tassonomici (phylum, classe, ordine, famiglia, genere) in base alla similarità delle frequenze, sempre in riferimento alle frequenze presenti nelle banche dati. Quest’ultimo metodo, ha il vantaggio di fornire informazioni sulla relazione delle reads identificate in diversi gruppi di microrganismi conosciuti, così da poter fare anche comparazioni tra studi differenti.

MGmapper

In merito ai dati del sequenziamento metagenomico, MGmapper è un portale web sviluppato da Petersen T. N. et al., (2017) che si occupa di assegnare ogni reads al genoma di riferiemento. Il software MGmapper consiste in tre fasi principali: pre-elaborazione delle reads, una loro mappatura sui database che contengono le sequenze di riferimento e post-elaborazione dei risultati.

Identificare una sequenza di riferimento specifica, ad esempio un ceppo batterico o un gene di resistenza antimicrobica in un pool di sequenze altamente simili, rappresenta una sfida per qualsiasi metodo di annotazione della tassonomia. Solo poche letture di sequenza allineate a specifiche regioni considerate “marker”, possono consentire la differenziazione tra geni o ceppi strettamente correlati. Per questo motivo la presenza di una sequenza mappata in modo univoco, attraverso software come MGmapper o simili, permette un’analisi di routine di set di dati complessi che è poi capace di indicare chiaramente se la sequenza target è effettivamente presente nel campione.

Metagenomica dei profili microbici delle acque

Le matrici ambientali, come ad esempio l’acqua, rappresentano un complesso insieme di comunità microbiche. In tal senso, l’analisi metagenomica ha permesso di fare grandi passi avanti: senza più la necessità di coltivare la singola specie in laboratorio, il campionamento diretto e il sequenziamento hanno fornito dati dapprima sconosciuti. Basti pensare che, grazie al sequenziamento di seconda generazione, è emerso che l’ampio uso di antibiotici ha portato alla nascita diffusa di batteri resistenti agli stessi (ARB) e che i geni resistenti agli antibiotici (ARG) sono diventati un inquinante ambientale emergente. Questi ARG ambientali, possono trasferirsi tra i batteri attraverso il trasferimento genico orizzontale (HGT) tramite coniugazione, trasduzione o trasformazione. Una volta che i batteri patogeni ottengono resistenza agli antibiotici, diventano una grave minaccia per la salute umana. Pertanto, esplorare i modelli di distribuzione e diffusione degli ARG ambientali è essenziale per controllarne l’inquinamento e per ridurre il rischio di agenti patogeni per la salute umana.

metagenomica e geni di resistenza agli antibiotici — Figura 2 – Comprendere il destino degli antibiotici in matrici ambientali è una fase chiave per limitare i danni dell’antibiotico resistenza. La metagenomica ha permesso il sequenziamento di regioni geniche di resistenza (ARG) chiave in questo processo

La metagenomica per l’analisi del microbioma umano

Lo studio del microbiota umano è da sempre un compito difficile. Le comunità microbiche hanno una complessa struttura organizzativa e, infatti, ciò rappresenta un ostacolo alla tradizionale coltura in vitro, e spesso il sequenziamento del microbioma risulta problematico a causa dell’enorme mole di dati da gestire. Per fortuna, con lo sviluppo delle recenti tecniche di sequenziamento high-throughput, è emerso che il microbioma riveste un ruolo centrale per la salute dell’uomo, per il suo metabolismo e nell’interazione con i farmaci. In particolare, per scoprire la composizione del microbiota intestinale bisogna confrontare la varietà e l’abbondanza relativa dei taxa microbici.

A partire da queste considerazioni, sono nati molteplici studi come ad esempio il Metagenomics of the Human Intestinal Tract
(MetaHIT): si tratta di un progetto collaborativo tra 15 istituti di 8 paesi, finanziato dalla Commissione Europea. Nacque dall’idea che, con il rapido sviluppo delle tecnologie di sequenziamento, i ricercatori potessero immaginare di esplorare il potenziale genetico dei compagni microbici umani e comprendere il loro impatto sulla nostra salute e benessere. Infatti, i microbi dell’intestino umano possono raggiungere fino a dieci trilioni di cellule e rappresentano un peso di due chilogrammi, ci aiutano a digerire il cibo e, inoltre, sintetizzano vitamine e aminoacidi che sono necessari al nostro corpo. Molte malattie diverse derivano da disturbi microbici: questo è naturalmente il caso delle malattie infettive che colpiscono il sistema digestivo. Ma le malattie croniche, che sono in costante aumento nelle società moderne, sono state anche associate a insoliti cambiamenti nel microbiota. In particolare, MetaHIT ha scelto di concentrarsi su due disturbi di crescente importanza in Europa: la malattia infiammatoria intestinale (IBD) e l’obesità.

metagenomica e diversità del microbioma umano — Figura 3 – La metagenomica ha aumentato il numero di genomi di microrganismi che possono essere mappati fino all’85%.
Sulla base di un recente studio metagenomico su larga scala del microbioma di individui con stili di vita differenti, la diversità del microbioma umano è stata stimata in 25 phyla, in media 2000 generi e 5.000 specie e 316 milioni di geni.

Fonti

https://www.gutmicrobiotaforhealth.com/
https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0176469
Wylie, K. M., Truty, R. M., Sharpton, T. J., Mihindukulasuriya, K. A., Zhou, Y., Gao, H., Pollard, K. S. (2012). Novel bacterial taxa in the human microbiome. PloS one, 7(6), e35294.
Tamminen MV, Virta MPJ. (2015) Single gene-based distinction of individual microbial genomes froma mixed population of microbial cells. Front. Microbial. 6, 195
N. Zaouri, M.R. Jumat, T. Cheema, P. Hong., Metagenomics-based evaluation of groundwater microbial profiles in response to treated wastewater discharge
Huson D.H., Auch A.F., Qi J., Schuster S.C. (2007): MEGAN analysis of metagenomic data, “genome Reserch”, 17,pp. 377-386