El Servicio CG7 de genómica comparativa

CG7 no es un simple servicio de genómica comparativa que analiza SNPs, es una forma nueva de comparar genomas desde diferentes perspectivas.

La imagen muestra el conjunto de análisis de genómica comparativa que incluye CG7.

 

CG7: Genómica comparativa

.

1. MLST in silico

.

2. Análisis de SNPs en el "core genome"

  • Mapeo de reads al genoma de referencia y detección de SNPs
  • Análisis del impacto funcional de los SNPs detectados
  • Análisis filogenético

3. Alineamiento de genomas y comparación con el programa Differences

  • Detección de SNPs y de inserciones y deleciones de cualquier longitud a lo largo de todo el genoma
  • SNPs, deleciones e inserciones se muestran en el contexto del genoma permitiendo explorar los genes a los que afectan y sus anotaciones funcionales

4. Tabla de Ortólogos

Las tablas de ortólogos permiten comparar las proteínas ortólogas compartidas en un conjunto de genomas y aquellas exclusivas de cada genoma.

Un servicio para proyectos de diferente escala

Hemos diseñado CG7 para que pueda adaptarse a un amplio rango de tipos de proyectos: desde proyectos epidemiológicos a gran escala para analizar miles de genomas a proyectos muy específicos centrados en las diferencias funcionales que existen entre un pequeño conjunto de cepas de interés. 

Proporciona información sobre las diferencias genómicas a niveles muy distintos:

  • A pequeña escala, al nivel más específico: un genoma

    Proporcionamos una completa caracterización de cada uno de los genomas individualmente. Incluye anotación funcional en profundidad con BG7 [Pareja-Tobes-2012], MLST in silico y comparación con un genoma de referencia seleccionado entre los disponibles en bases de datos para la detección de SNPs (Vea más abajo).

  • Comparación de dos genomas

    Este nivel le proporciona al cliente información biológica muy valiosa en base a las diferencias en el genoma de dos cepas. Las cepas se comparan "pair-wise" a nivel de genoma completo, detectando cualquier tipo de diferencia entre ellas, desde SNPs y pequeñas deleciones o inserciones hasta grandes reestructuraciones del genoma. Las implicaciones funcionales de las diferencias también son analizadas, aportándole al cliente valiosa información sobre las funciones alteradas debido a los cambios detectados entre los genomas.

  • Proyectos de genómica comparativa a gran escala

    CG7 está perfectamente adaptado a proyectos que incluyen cientos o miles de genomas relacionados. Además de la clásica detección de SNP en los genes del "core genoma", CG7 ofrece una comparación a nivel de genoma completo, alineando pair-wise parejas de genomas con el programa Differences.  CG7 también incluye el análisis del conjunto de genes detectados en cualquiera de las cepas incluidas, conocido con el término de pangenoma. El análisis del pangenoma ofrece una visión más amplia y permite desvelar relaciones evolutivas entre ellas. Esto es particularmente útil en estudios epidemiológicos.

Genómica comparativa aplicando distintas aproximaciones

.

  • Análisis comparativo de genomas ensamblados de novo

    Los genomas bajo análisis son comparados sin utilizar ningún genoma de referencia. No se mapean reads a una mismo genoma de referencia sino que se comparan genomas completos ensamblados de novo alineando uno con otro y analizando sus diferencias.

  • Análisis comparativo clásico mapeando reads a un genoma de referencia

    En este tipo de análisis las reads secuenciadas se alinean al genoma de referencia para detectar SNPs. Un genoma completo obtenido de las bases de datos públicas es usado como referencia en la detección de SNPs minimizando el impacto de un ensamblaje erróneo o de los errores propios de cada tecnología de secuenciación. 

Ambas estrategias tienen sus pros y sus contras y es por eso que hemos decidido utilizar ambas e integrar los resultados. Los resultados obtenidos con las dos estrategias tienen un nivel de confianza superior.

 


 

DESCRIPCIÓN DEL SERVICIO

1. MLST in silico

Consiste en un tipaje in silico utilizando las secuencias del genoma ensamblado. Está basado en las variantes de genes (sequence types or ST) definidas para cada especie en la base de datos de MLST correspondiente. 

2. Análisis de SNPs en el "core genome"

La búsqueda de SNV (Single Nucleotide Variants) o de SNP (Single Nucleotide Polymorphisms) se centra en el estudio del genoma conservado conocido como "core genome", evitando de esta forma el análisis de las regiones repetitivas, elementos móviles o regiones de fagos. La estrategia de análisis es similar a la utilizada pro Eyre et al. en PubMed ID: 24066741.

Centrándonos en el core-genome y evitando trabajar con secuencias que están probablemente sujetas a transferencia horizontal o a recombinación podemos inferir la distancia evolutiva entre las cepas y construir árboles filogenéticos que aportan datos valiosos para estudios epidemiológicos y/o evolutivos.

Detección de SNPs por mapeo

Las reads de cada genoma se mapean frente a un genoma de referencia y la detección de SNPs (o SNVs) se realiza analizando localmente el alineamiento. La detección de SNPs (SNP calling) se realiza en las regiones del genoma de referencia en las que existe un número de reads mapaedas suficiente para apoyar la existencia de SNPs.

Impacto funcional de los SNPs detectados

El filtrado y evaluación del posible impacto funcional de las variantes detectadas se realiza aportando datos de la localización de los SNPs con respecto a los genes anotados del genoma de referencia.

Análisis filogenético

Un árbol filogenético de las cepas bajo estudio es generado en base a los SNPs detectados en el core-genome.

3. Comparación con el programa Differences de genomas completos alineados por parejas

Detección de inserciones y deleciones de cualquier longitud a lo largo del genoma

El programa Differences compara dos genomas completos alineados. Además de detectar SNPs está especialmente indicado para la detección de inserciones o deleciones de cualquier longitud. SNPs, deleciones e inserciones se detectan en cualquier región del genoma, no únicamente en el core-genome.

Differencias en el contexto del genoma 

Las diferencias entre los dos genomas comparados también se muestran, en el entorno de la anotación de BG7 [Pareja-Tobes-2012] para cada genoma. Esto permite una mejor evaluación de las posibles implicaciones en los cambios fenotípicos y una identificación y un seguimiento epidemiológico mucho más finos. Utilizamos la herramienta Mauve para el alineamiento de los dos genomas y luego integramos las diferencias que se han detectado con las anotaciones funcionales que se han obtenido con BG7 [Pareja-Tobes-2012]. Esto nos permite analizar las diferencias tanto en genes como en regiones intergénicas no codificantes.

4. Tabla de ortólogos

Primero construimos el conjunto de proteínas del pangenoma, que podríamos llamar panproteoma, ya que incluye todas las proteínas codificadas por todos los genes de cualquiera de los genomas del conjunto a comparar. Después, detectamos los ortólogos de esas proteínas del panproteoma en cada genoma y construimos una tabla de ortólogos. La tabla de ortólogos nos permite analizar la presencia/ausencia de cada tipo de proteína con su funcionalidad asociada. Este tipo de tabla es muy útil para interpretar diferencias fenotípicas importantes por ejemplo en patogenicidad, capacidad metabólica, resistencia a antibióticos, o cualquier otro aspecto funcional de interés. 

Se facilitará también una rica anotación funcional para cada proteína del panproteoma.

Pregunta por este servicio por e-mail

  • info@era7.com

o rellenando el siguiente formulario:



Introduzca el texto que aparece en la imagen
* Campos obligatorios.