A más de una década desde que se completo el genoma humano, la genética ha cambiado en al menos dos importantes aspectos. Primero, porque ya tenemos un genoma humano ‘de referencia’ (De hecho, ya se tienen muchos disponibles). Si se tiene un paciente con cáncer o con una enfermedad genética se puede ubicar en el 0.1% del genoma que es diferente a la versión de referencia, ignorando el restante 99.99%, el cuál es idéntico. Así, el problema radica no en ensamblar el genoma sino en buscar las secuencias en el genoma de referencia que son similares (Pero ligeramente diferentes) a las del paciente.
Una vez más, la solución viene del exterior de la biología. En 1994, se ideó una “transformada” que aceleró la búsqueda de cadenas de texto en un gran archivo. Los investigadores crearon una tabla en la cual cada fila era una copia de la cadena, desplazada hacia la derecha o a la izquierda. Las filas estaban en orden alfabético. Para la búsqueda de una cadena como ATCTTG, se buscaba en todas las líneas que comenzaran con A, luego por las que iniciaban con AT, y así sucesivamente, en lugar de buscar a través de una cadena linear de tres mil millones de caracteres, solo se utilizaría una árbol de descenso de solo seis ramas (En este caso).
Una vez que se llega al fondo, la transformada identifica todos los lugares donde aparece ATCTTG en la cadena original. Gracias a esa técnica de indexación, el genoma de referencia puede ser examinado en una fracción de segundo.
El segundo cambio fue la introducción de los secuenciadores comerciales de genes de siguiente generación, alrededor de 2004. Gracias a los nuevos avances en química, los biólogos pueden ahora leer cientos de miles de fragmentos de ADN simultáneamente. Pero la tecnología tiene un costo, dichos fragmentos tienen que ser más cortos. Un secuenciador comercial común puede leer fragmentos de solo 50-75 pares y otros pueden hacerlo con 100-150. Las lecturas cortas son un doble golpe para los biólogos. Primero, necesitan recolectar mucha más información (Típicamente las nuevas máquinas secuenciarán suficientes fragmentos para cubrir el genoma 30 veces). Segundo, una pequeña base de 50 pares tiene más probabilidades de caer en la mitad de una repetición que una de 500 pares. Los métodos utilizados por la primera generación no pueden tratar con este incremento en ambigüedad.