Metapasta: scalable tool for microbial community pro ling

Metapasta: scalable tool for microbial community proling

Presentado en: "Exploring Human Host-Microbiome Interactions in Health and Disease" 29 June - 1 July 2015 Wellcome Trust Genome Campus, Hinxton, Cambridge, UK

 

What is Metapasta?

Metapasta is a cloud-based tool for microbial community proling. It's designed to answer questions like:

- Which species are presented in the microbial sample?

- How many different species are presented in the sample?

- How many species from the given genus are presented in the sample?

 

Metapasta pipeline

1. Merging paired-end reads by FLASh.

2. Mapping reads mapped against the 16S database by BLAST (or LAST).

3. Assigning each e read to a taxon or signing it as unassigned.

 

Why cloud computing?

Mapping NGS reads against the 16S database is quite computationally expensive task. For example, even on a fast computer with a SSD and a big size of RAM mapping of one read against the database with BLAST takes more than 0.25 seconds.

Archivo: Metapasta Poster.pdf 

 

Complete de novo genome characterization of isolates from outbreaks by means of PacBio and Illumina sequencing technologies

Complete de novo genome characterization of isolates from outbreaks by means of PacBio and Illumina sequencing technologies

The aim of this study was to test the benefits of the use of NGS technologies and a de novo assembly approach for the genome characterization of isolates from an outbreak. Six isolates from an outbreak of carbapenemase producing Klebsiella pneumoniae ST11 OXA-48 were sequenced with Illumina and one of them (F64) was selected to be sequenced with PacBio in order to have an internal genome reference for the outbreak. 

The same ADN from the Klebsiella genome F64 was sequenced with PacBio and with illumina. PacBio reads were assembled using HGAP pipeline and independently illumina reads were assembled with SPADES. Both assemblies were compared and evaluated with QUAST.

The number of mismatches per 100,000 bp was 1.91.

- PacBio allows getting really high quality, closed genome to get a high quality internal reference

- NGS is the new gold standard in studies of transmission dynamics and strain relatedness

- Comparative genomics analysis allows the complete characterization of a set of isolates from an outbreak

Archivo: _Era7_Poster_ASM_2015_Klebsiella_genomes_New_Orleans_small.pdf 

 

Metapasta: a Fast Horizontally Scalable Tool based on Cloud Computing and Graph Databases for Microbial Diversity Community Profiling

Metapasta: a Fast Horizontally Scalable Tool based on Cloud Computing and Graph Databases for Microbial Diversity Community Profiling

Our 16S Reference Database is a curated subset of sequences from NCBI NT database selected by similarity with the sequences of the RDP database. Curation steps were performed to remove sequences with poor taxonomic assignments.

Metapasta is an open-source, fast and horizontally scalable tool for community diversity profiling based on the analysis of 16S metagenomics data. Metapasta generates the direct and cumulative frequencies for all the identified taxa in absolute and percentage values using the Lowest Common Ancestor paradigm for Taxonomic assignment. Metapasta is implemented in Scala and based on cloud computing (Amazon Web Services). The graph database platform Bio4j (www.bio4j.com) is used for retrieving taxonomy data.

For distributing and coordinating computational tasks it uses Nispero : http://ohnosequences.com/nispero.

- Metapasta allows the massive analysis of 16S metagenomics data in an efficient and scalable manner

- Metapasta analyzes alpha and beta diversity - It can be easily customized to different experimental designs

- Future work includes the adaptation of Metapasta for the analysis of shotgun metagenomics Metapasta is an open-source tool released under the AGPLv3 license and available at: https://github.com/ohnosequences/metapasta/ 

Archivo: _Poster_ASM_2015_Metagenomics_Analysis_New_Orleans_small.pdf 

 

Sequencing, de novo assembly, annotation and comparative genomics for six carbapenemase producing ST11 Klebsiella pneumoniae genomes

Sequencing, de novo assembly, annotation and comparative genomics for six carbapenemase producing ST11 Klebsiella pneumoniae genomes

Los 6 aislados de este estudio se obtuvieron de un brote de cepas de Klebsiella pneumoniae ST11 OXA-48 productoras de carbapenemasas con un perfil de multiresistencia a antibióticos.

Uno de los genomas de ST11, F64, fue secuenciado con la tecnología PacBio. Permitió la obtención de un genoma completo (un cromosoma y tres plásmidos) en un único experimento de secuenciación.

Uno de los plásmidos de F64 (contig 2) es muy parecido al plásmido E71T y lleva genes de resistencia a antibióticos: blaOXA-48 y blaCTX-M-15.

El genoma de F64 fue también secuenciado con Illumina y ambos ensamblajes fueron alineados (vea el primer alineamiento en MAUVE pair-wise en la figura). El ensamblaje de F64 de PacBio es mayor que el de F64 de velvet illumina. La mayoría de las regiones no presentes en el ensamblaje de F64 de Illumina (mostrado como regiones blancas dentro de los blocks de colores) corresponden a diferentes trasposasas y copias de RNA operon que probablemente colapsaron en este ensamblaje. 

5 genomas más de ST11 fueron secuenciados con Illumina, y ensamblados de novo con velvet. La figura muestra los alineamientos en MAUVE pair-wise al ensamblaje de F64 de PacBio.

Whole genome sequencing (WGS) es el nuevo método de referencia en los estudios de dinámicas de transmisión y relación de cepas (David MZ, Daum RS. Clin Infect Dis. 2014).

WGS proporciona información fiable, comparable, reanalizable y de todo el genoma que nos permite a través de la secuenciación PacBio la obtención de genomas completos.

Nuestras nuevas pipelines de genómica comparativa permiten la detección de diferencias que no son detectadas por los métodos clásicos. Ayudan a los clínicos y microbiólogos a aumentar el conocimiento sobre la adquisición de resistencia a antibióticos.

Los 6 genomas se harán disponibles públicamente en los próximos meses incluyendo el ensamblaje de genomas y anotaciones hechas con BG7.

Estudios exhaustivos para descifrar las relaciones evolutivas entre los 6 genomas, la diversidad intra-clonal y los tipos de cambios están en progreso (Manuscrito en preparación).

Archivo: Era7_Poster_ECCMID_2014_Klebsiella_genomes.pdf 

 

ECCMID 2014 - Sequencing, assembly and comparative genomics of six Enterococcus faecium ST117, an emergent multiresistant clone responsible for an increase of bacteremia and fecal carriage in Spain

ECCMID 2014 - Sequencing, assembly and comparative genomics of six Enterococcus faecium ST117, an emergent multiresistant clone responsible for an increase of bacteremia and fecal carriage in Spain

Tuvo lugar una abruta emergencia de un clon AmpR ST117 Enterococcus faecium(Efm) asociado con un dramático aumento en las tasas de bacteriemia y en las heces en diferentes hospitales españoles desde 2009. Este clon pertenece al lineaje de Efm adaptado al humano ST78. Analizamos la variación al nivel del genoma del fenotípicamente diverso Efm ST117 de pacientes del área de Madrid (2009-2012) y describimos el primer genoma completo de ST117.

Después de ensamblar las secuencias de PacBio con RS_HGAP_Assembly.2 [Chin-2013] conseguimos un genoma completo de E1 con un cromosoma y 5 plásmidos (1 mega PL, 1 PL de tamaño medio y 3 PL pequeños). 

El ensamblaje de PacBio permite definir perfectamente los plásmidos, incluso aquellos de menor tamaño. La existencia y el tamaño de estos 5 plásmidos fueron corraborados de forma experimental. 

Independientemente secuenciamos el genoma de E1 con Illumina e hicimos el ensamblaje con velvet. En la figura mostramos el alineamiento pair-wise de PacBio y de Illumina. El ensamblaje de PacBio (en la figura las regiones en blanco en los block MAUVE corresponden al genoma E1 de PacBio) son principalmente trasposasas y otros elementos móviles y copias de RNA operón que probablemente colapsaron el el ensamblaje en velvet de Illumina. La secuenciación PacBio es especialmente útil para definir todas las copias de cada gen. 

Whole Genome Sequencing (WGS) con PacBio permitió conseguir el primero genoma completo de E. faecium ST117.

Usando PacBio hemos sido capaces de resolver los elementos que cuentan con muchas copias diferentes como los MGE (trasposones e inserciones). Estos elementos MGE repetidos con frecuencia se relacionan con la virulencia y portan genes de resistencia a antibióticos que es importante que sean analizados. Los plásmidos son difíciles de ensamblar porque contienen un alto número de MGE.

Así, PacBio es una tecnología especialmente útil para trabajar con plásmidos bacterianos.

Nuestros nuevos pipelines de genómica comparativa permite la detección de diferencias que no son detectadas por los métodos clásicos.

Los 6 genomas de E. faecium con las anotaciones de BG7 serán publicados en los próximos meses. 

Estudios para profundizar en el conocimiento de la evolución dinámica de AbR y la patogenicidad de este clon en el ambiente hospitalario están en progeso (Manuscrito en preparación).

Archivo: Era7_Poster_ECCMID_2014_Enterococcus_faecium_genomes.pdf