En total, el ADN humano contiene cerca de tres mil millones de ‘pares base’ o ‘peldaños en la escalera’. El objetivo del Human Genome Project era enlistarlos todos, en orden. Desafortunadamente, los químicos solo podían enlistar unos cuantos cientos de pares a la vez. Para secuenciar el genoma completo, los científicos debieron de cortar en millones de pequeñas partes, secuenciar esas piezas y re-ensamblarlos.
Human Genome Project y Celera Genomics adoptaron dos diferentes estrategias, las cuales eventualmente llegaron al mismo problema matemático. Tienes millones de pequeñas (500 pares) piezas del rompecabezas que se han revuelto por completo durante el proceso de seccionado.
Hay suficientes piezas para cubrir la longitud del genoma siete u ocho veces, así que hay muchas piezas sobrepuestas, por lo que quieres utilizar esas piezas sobrepuestas como una guía para ensamblar las piezas en la secuencia más larga posible de regiones continuas.
Si la secuencia completa de lectura fuera perfectamente precisa, el ensamblado de las piezas sobrepuestas sería de rutina, sin embargo, cerca del 1% de los pares era ininteligible y esto significó que las piezas sobrepuestas podrían no coincidir. El enfoque entonces se convirtió en encontrar una buena manera de hacer que correspondieran (ver Imagen).

Otra cuestión, algo más sutil, fue el problema de las repeticiones. El genoma humano incluye muchas secuencias que se repiten idénticamente en muchos lugares. Estas repeticiones fueron un gran dolor de cabeza para los secuenciadores del genoma debido a que cuando una región contigua finalizaba con un patrón que se presentaba en muchos lugares, no tenían idea de cual pieza del rompecabezas sería la siguiente.
La forma de evitar el problema que resultó, fue la de tomar un fragmento más largo de ADN (Es decir, de varios miles de pares de largo) y secuenciar ambos extremos. A pesar de no poder secuenciar la parte de en medio, se pueden secuenciar al menos unos pocos cientos de pares en cada extremo y estimar cuantos pares hay entre ellos. Esto proporciona cadenas que puedes ligar como dos piezas de rompecabezas, incluyendo algunos que son lados opuestos de un hueco o una repetición. Estas ataduras crean un andamio para sostener el “contiguo” (Conjunto de segmentos de ADN sobrepuestos) encima. Finalmente, el andamio puede girarse en la posición adecuada utilizando el mapa de alto nivel del Human Genome Project.