¿Sabias que existe una librería de node.js donde podrás analizar tu ADN?

Así es, Node.js tiene dos librerias con las cuales podrás realizar el análisis de tu ADN si lo tienes secuenciado, se trata de dos modulos con los cuales se puede traformar un archivo de SNP en uno de formato JSON y la otra es una libreria para realizar consultas sobre este formato y asi comprobrar los alelos dentro de un determinado SNP.

  • DNA2JSON : DNA a formato JSON
  • GQL (Genome Query Language) :  Modulo de consulta.

Para obtener  tu ADN secuenciado  puedes contactar con un proveedor como  como 23andMe, ancestryDNA, FamilyTree, el precio esta alrededor de los 99 dolares, si quieres probar estas librerias sin tener que pagar y secuencia tu propio genoma puedes buscar por internet genomas de ejemplo , en nuestro caso encontramos la pagina de OpenSNP la cual cuenta con una gran cantidad de genomas lo cuales han sido subidos por personas que quieren compartir los resultados del secuenciamiento de su ADN de forma pública.  Alternativamente el repositorio de genome.js donde se encuentran las dos librerias que mencionamos anteriormente también se encuentran genomas de ejemplo con los que podemos probar.

¿Que podemos probar con un archivo SNP?

Básicamente como explicamos en otra entrada de este blog los SNP son diferencias en el genoma de las personas , un proveedor que secuencia un genoma básicamente realiza una comparación de secuencias entre el ADN de una persona y una muestra estándar generando un archivo con las  estas diferencias ( SNP) , nosotros podemos estudiar estas diferencias y determinar características de un individuo a partir de estas, por ejemplo el genero , predisposición a enfermedades como a ataques cardíacos o características como sensibilidad al dolor o mayor rendimiento muscular

Estas características se puede presentar debido a un SNP o un grupo de SNP , el cual es conocido como genoset, una pagina bastante utili que pudimos encontrar es SDNPedia en la que se encuentran diferentes genosets y la descripcion sobre a que caracteristicas esta asociado asi por ejemplo encontramos el data set asociado a que persona sea de genero masculino (Gs144)  o el asociado al bajo riesgo de ataque cardiaco (Gs191)

Como una parte practica hemos desarrollado una aplicacion en la cual se puede estudiar un archivo de SNP , basicamente se carga el archivo , se pasa a formato JSON y comparamos contra el genoset 144 para verificar si el genoma pertence  o no a un hombre, la aplicacion se encuentra on-line en esta direccion http://analisis-genoma.herokuapp.com/

Anuncios

Polimorfismo de nucleótido simple

Un polimorfismo de un solo nucleótido o SNP (Single Nucleotide Polymorphism, pronunciado snip) es una variación en la secuencia de ADN que afecta a una sola base (adenina (A), timina (T), citosina (C) o guanina (G)) de una secuencia del genoma. Sin embargo, algunos autores consideran que cambios de unos pocos nucleótidos, como también pequeñas inserciones y deleciones (indels) pueden ser consideradas como SNP, siendo entonces más adecuado el término Polimorfismo de nucleótido simple.Una de estas variaciones debe darse al menos en un 1% de la población para ser considerada como un SNP. Si no se llega al 1% no se considera SNP y sí una mutación puntual.

Los SNP constituyen hasta el 90% de todas las variaciones genómicas humanas, y aparecen cada 1,300 bases en promedio, a lo largo del genoma humano. Dos tercios de los SNP corresponden a la sustitución de una citosina (C) por una timina (T). Estas variaciones en la secuencia del ADN pueden afectar a la respuesta de los individuos a enfermedades, bacterias, virus, productos químicos, fármacos, etc..

¿Que son los alelos?

Un alelo es cada una de las dos o más versiones de un gen. Un individuo hereda dos alelos para cada gen, uno del padre y el otro de la madre. Los alelos se encuentran en la misma posición dentro de los cromosomas homólogos. Si los dos alelos son idénticos, el individuo es homocigoto para este gen.

En cambio, si los alelos son diferentes, el individuo es heterocigoto para este gen. Aunque el término alelo fue usado originariamente para describir variaciones entre los genes, ahora también se refiere a las variaciones en secuencias de ADN no codificante (es decir, que no se expresan).

En cuanto a los alelos podemos hablar de alenos (genes) dominantes y alelos (recesivos), los alelos dominantes son aquellos los cuales se expresan , pueden determinar por ejemplo el color de los ojos o la predisposicion genetica a una enfermedad,  para que una caracteristica de un  gen o alelo recesivo se exprese es necesario que ambos alelos se han los mismos

Como se puede observar en la imagen anterior hay un alelo recesivo par una determina enfermedad (color azul) la cual solo se desarrolla en los individuos que tienen dos veces ese mismo gen.

¿Qué enfermedades son de causa genética?

Entre las 6.000 enfermedades genéticas conocidas, ya se conoce el gen causante de más de 2.000. Por tanto, hoy en día, existen más de 2.000 tipos de test genéticos distintos, que nos permiten analizar en el laboratorio el gen causante de un gran número de enfermedades hereditarias.

La lista de test genéticos disponibles crece constantemente cada gracias a los avances de la investigación genética. Por ello, es casi imposible proporcionar un listado completo de todas las enfermedades hereditarias que podemos analizar en el laboratorio. Estos listados solamente están disponibles para los expertos en genética, en bases de datos especializadas. Algunas de las enfermedades genéticas más conocidas para las que ya se dispone de los correspondientes tests genéticos son:

  • Fibrosis quística
  • Hemofilia
  • Síndrome de Marfan
  • Talasemia
  • Poliquistosis renal
  • Distrofia miotónica
  • Retinitis pigmentosa
  • Ataxias hereditarias
  • Síndrome de Prader-Willi
  • Cáncer de mama y ovario
  • Distrofia muscular
  • Enfermedad de Huntington
  • Neurofibromatosis
  • Enfermedad de Charcot-Marie-Tooth
  • Fenilcetonuria
  • Cromosoma X-frágil
  • Acondroplasia
  • Hemocromatosis
  • Hipercolesterolemia familiar
  • Osteognénesis imperfecta

Esta lista no es completa, sino que es meramente ilustrativa

¿Cómo aparecen las mutaciones en los genes?

En los genes podemos encontrar algunos cambios, que no son relevantes desde el punto de vista médico, y que son la base biológica de la variación natural entre las personas. Estos cambios pueden afectar a características tales como el color de los ojos o el color del pelo. Sin embargo, algunos cambios en los genes pueden llegar a afectar el funcionamiento de una proteína que desempeñe funciones de gran importancia para las células. En esos casos, dicho cambio en el ADN es el desencadenante una enfermedad, la cual puede heredarse de una generación a la siguiente. Estos cambios patológicos en el ADN se conocen como mutaciones y son los causantes de las enfermedades genéticas.

Mutaciones-geneticas

Bioinformática, interpretando el Genoma Humano (Parte 3)

A más de una década desde que se completo el genoma humano, la genética ha cambiado en al menos dos importantes aspectos. Primero, porque ya tenemos un genoma humano ‘de referencia’ (De hecho, ya se tienen muchos disponibles). Si se tiene un paciente con cáncer o con una enfermedad genética se puede ubicar en el 0.1% del genoma que es diferente a la versión de referencia, ignorando el restante 99.99%, el cuál es idéntico. Así, el problema radica no en ensamblar el genoma sino en buscar las secuencias en el genoma de referencia que son similares (Pero ligeramente diferentes) a las del paciente.

Una vez más, la solución viene del exterior de la biología. En 1994, se ideó una “transformada” que aceleró la búsqueda de cadenas de texto en un gran archivo. Los investigadores crearon una tabla en la cual cada fila era una copia de la cadena, desplazada hacia la derecha o a la izquierda. Las filas estaban en orden alfabético. Para la búsqueda de una cadena como ATCTTG, se buscaba en todas las líneas que comenzaran con A, luego por las que iniciaban con AT, y así sucesivamente, en lugar de buscar a través de una cadena linear de tres mil millones de caracteres, solo se utilizaría una árbol de descenso de solo seis ramas (En este caso).

bio3333

Una vez que se llega al fondo, la transformada identifica todos los lugares donde aparece ATCTTG en la cadena original. Gracias a esa técnica de indexación, el genoma de referencia puede ser examinado en una fracción de segundo.

El segundo cambio fue la introducción de los secuenciadores comerciales de genes de siguiente generación, alrededor de 2004. Gracias a los nuevos avances en química, los biólogos pueden ahora leer cientos de miles de fragmentos de ADN simultáneamente. Pero la tecnología tiene un costo, dichos fragmentos tienen que ser más cortos. Un secuenciador comercial común puede leer fragmentos de solo 50-75 pares y otros pueden hacerlo con 100-150. Las lecturas cortas son un doble golpe para los biólogos. Primero, necesitan recolectar mucha más información (Típicamente las nuevas máquinas secuenciarán suficientes fragmentos para cubrir el genoma 30 veces). Segundo, una pequeña base de 50 pares tiene más probabilidades de caer en la mitad de una repetición que una de 500 pares. Los métodos utilizados por la primera generación no pueden tratar con este incremento en ambigüedad.

Bioinformática, interpretando el Genoma Humano (Parte2)

En total, el ADN humano contiene cerca de tres mil millones de ‘pares base’ o ‘peldaños en la escalera’. El objetivo del Human Genome Project era enlistarlos todos, en orden. Desafortunadamente, los químicos solo podían enlistar unos cuantos cientos de pares a la vez. Para secuenciar el genoma completo, los científicos debieron de cortar en millones de pequeñas partes, secuenciar esas piezas y re-ensamblarlos.

Human Genome Project y Celera Genomics adoptaron dos diferentes estrategias, las cuales eventualmente llegaron al mismo problema matemático. Tienes millones de pequeñas (500 pares) piezas del rompecabezas que se han revuelto por completo durante el proceso de seccionado.

Hay suficientes piezas para cubrir la longitud del genoma siete u ocho veces, así que hay muchas piezas sobrepuestas, por lo que quieres utilizar esas piezas sobrepuestas como una guía para ensamblar las piezas en la secuencia más larga posible de regiones continuas.

Si la secuencia completa de lectura fuera perfectamente precisa, el ensamblado de las piezas sobrepuestas sería de rutina, sin embargo, cerca del 1% de los pares era ininteligible y esto significó que las piezas sobrepuestas podrían no coincidir. El enfoque entonces se convirtió en encontrar una buena manera de hacer que correspondieran (ver Imagen).

interpr

Otra cuestión, algo más sutil, fue el problema de las repeticiones. El genoma humano incluye muchas secuencias que se repiten idénticamente en muchos lugares. Estas repeticiones fueron un gran dolor de cabeza para los secuenciadores del genoma debido a que cuando una región contigua finalizaba con un patrón que se presentaba en muchos lugares, no tenían idea de cual pieza del rompecabezas sería la siguiente.

La forma de evitar el problema que resultó, fue la de tomar un fragmento más largo de ADN (Es decir, de varios miles de pares de largo) y secuenciar ambos extremos. A pesar de no poder secuenciar la parte de en medio, se pueden secuenciar al menos unos pocos cientos de pares en cada extremo y estimar cuantos pares hay entre ellos. Esto proporciona cadenas que puedes ligar como dos piezas de rompecabezas, incluyendo algunos que son lados opuestos de un hueco o una repetición. Estas ataduras crean un andamio para sostener el “contiguo” (Conjunto de segmentos de ADN sobrepuestos) encima. Finalmente, el andamio puede girarse en la posición adecuada utilizando el mapa de alto nivel del Human Genome Project.

Bioinformática, interpretando el Genoma Humano (Parte 1)

El 26 de junio del 2000, dos biólogos (Francis Collin del International Human Genome Project y Craig Venter de Celera Genomics), estaban lado a lado con el Presidente Clinton en el ala este de la Casa Blanca y anunciaron que finalmente habían secuenciado el primer borrador del genoma humano. De súbito, el código molecular que nos hace humanos sería como tener un libro abierto. El genoma fue publicado subsecuentemente en la revista Science.

A pesar de que se anunció como un gran avance en la biología (Y con mucha razón), la exposición del código genético humano también debe mucho a las ciencias matemáticas. El Human Genome Project (Proyecto del Genoma Humano) inició en 1990 y la expectativa original era que tardarían al menos 15 años. Sin embargo, los avances en 1998 en la nueva disciplina de bioinformática (La cual incorpora biología con las ciencias computacionales, estadística, álgebra lineal, combinaciones y geometría) aceleró dramáticamente el proyecto, convirtiéndolo en un maratón de un sprint de dos años hasta la meta.

A partir del 2000, la secuenciación genética ha sido más dependiente de las técnicas matemáticas. La siguiente generación de secuenciadores ha reducido el costo de lectura de un genoma humano completo de US$300 millones a US$30,000.00, y el tiempo de obtención ha pasado de años a semanas. Las mejoras adicionales, incluyendo la obtención del “genoma de US$1,000.00” se espera estén en un futuro cercano. El bajo costo y las rápidas tendencias de cambio son continuas. La velocidad de procesar información se ha convertido en el nuevo factor limitante.

intbo

El ADN humano puede extraerse de cualquier tejido biológico tal como piel o sangre, y puede determinarse una secuencia de aminoácidos única.

¿Cómo ensamblaron los científicos el genoma humano? El proceso es frecuentemente comparado con el de colocar piezas de un rompecabezas. La analogía es buena, pero incompleta. En genética, muchas de las piezas no coinciden, y algunas son duplicadas. También, muchas de las piezas vienen en parejas, con una cadena adherida a cada pieza, así que más o menos sabes cuan lejos se supone que deben estar en el rompecabezas. Estas complicaciones presentan oportunidades y retos para el análisis matemático.
El ADN humano es una gran molécula que tiene forma de escalera en espiral, en el cual cada escalón contiene un par de aminoácidos que embonan perfectamente, Adenina (A) con Tiamina (T), Citosina (C) con Guanina). Cada componente solo embona con uno de los otros, así que la secuencia de letras de un lado (GATTCC…) únicamente determina la secuencia correspondiente del otro lado (CTAAGG…) la cual lee por convención en sentido inverso (GGAATC). Tal como un negativo fotográfico, un filamento es una plantilla para el duplicado del otro (Como se muestra en las Imágenes 1 y 2).

intbo22222

La estructura el ADN: una doble hélice con pares base coincidiendo de CG y AT.

Proyecto Genoma Humano: Bioinformática

Toda la avalancha de información genómica que generan las tecnologías de gran rendimiento sería imposible de manejar sin un desarrollo paralelo en recursos computacionales que permitan el almacenamiento, la gestión y al análisis de la información genómica.

La bioinformática, el tratamiento informático de los datos biológicos, ha adquirido un protagonismo fundamental en la era genómica. Los millones de fragmentos de secuencias de ADN que producen las máquinas de secuenciación se ordenan y ensamblan con programas bioinformáticos sofisticados. Una vez se dispone de la secuencia ensamblada, llega el momento de dar sentido a la secuencia.

bio

Un conjunto de programas de anotación que buscan señales funcionales en el genoma son esenciales para inferir los genes que se encuentran en la secuencia y otro tipo de secuencias funcionales no génicas. Existen espléndidos lugares en línea donde se encuentran una gran diversidad de bases de datos, herramientas sofisticadas de análisis, e información tutorizada abundante para visualizar o analizar los genomas secuenciados.

Proyecto Genoma Humano: Tecnologías de gran rendimiento

Las técnicas de manipulación genética que se empleaban en los laboratorios de forma rutinaria desde finales de los ochenta y en los noventa se lograron integrar en una cadena de producción a nivel industrial, permitiendo la generación de datos a gran escala. Los centros genómicos del proyecto genoma desarrollaron la robótica y la automatización de los miles de pasos de clonación y reacciones de secuenciación que se requerían para el ensamblaje de las secuencias de un organismo complejo.

proyecto1221

A partir de estos avances, se inicia una fase de aceleración continua, tanto en la velocidad de secuenciación como en la reducción del precio de los genomas, sin límites visibles. En el momento de redactar este texto hay unos 3900 genomas de especies distintas que están secuenciados o en proceso de secuenciación, pero este número será insignificante en pocos años, cuando el secuenciar genomas sea algo rutinario y muy asequible económicamente. En abril de 2008 se publicó el genoma individual de James Watson, secuenciado con las tecnologías más reciente.

proyecto11

El precio de la secuenciación fue alrededor de un millón de dólares, 1/3000 el precio que costó el primer genoma. Se estima que para el año 2014 se podría conseguir la secuencia individual de un ser humano por unos 1000 dólares, lo que significa que pronto gran parte de la humanidad podrá disponer de la secuencia de su genoma y conocer las diferencias que lo hacen genéticamente único.