MapReduce for Bioinformatics

Hadoop y algoritmos MapReduce de paralelización aplicados a genotipado de

secuencias nucleotídicas

CristianPérez GarcíaMiguelGonzálezAcera

MSc.Bioinformatics 2015/16

1. MapReduce• Algoritmo• Framework: Hadoop• Ejemplos

2. Aplicaciones• Genotipado en NGS• Alineamiento múltiple de secuencias• Otros

1

BigData

• Exoma->10Gbdedatos• Genoma ->cercade1TBdedatos

Búsquedas engoogledesde2005deltérminoBioinformatics contraBigData

Introducción

2

CreadoporGoogleparaelprocesamientodegrandescantidadesdedatos.

• Procesamientodegrandescantidadesdedatos• Paralelización yejecuciónautomáticadelosprocesosen

grandesclústeresdeordenadores.

1. MapReduce

3

• Input

• Map Function: procesaunficherocomovaloreskey/value paradevolverunnuevosetdedatoscomokey/value.

• Shuffle & sort: Ordena los datos y manda los de misma key al mismonodo.

• Reduce function: unetodos losvaloresintermediosconlamismakey.

• Output

1.1. Algoritmo MapReduce

4

HDFS (Hadoop Distributed File System)• Escalable• Distribuido

Los datos se encuentran distribuidos de manera redundante 2x o 3x entre los distintosnodos del clúster (algo parecido al sistema RAID)

1.2. Hadoop

5

1.3. Ejemplos

6

<,26>

<,11>

<,11>

<,4>

7

NODE1 NODE2

8

NODE1 NODE2

<,11><,20>

<,9>

<,12> <,10>

<,2> <,6>

1.3. Ejemplos: Mapping

9

NODE1 NODE2

<,12><,20> <,11>

<,6>

<,10>

<,2><,9>

<,32><,17> <,10> <,11>

1.3. Ejemplos: Shuffle and Sort1.3. Ejemplos: Reduce

10

<,32> <,17>

<,10> <,11>

1.3. Ejemplos: Output

11

Gran cantidad de datos, sobre todo en genoma

• Procesos altamente paralelizables• Posibilidad de aplicar MapReduce para resolver este problema• Mapeo de reads en NGS• Alineamiento múltiple de secuencias

2. Aplicaciones

12

2.1. Aplicaciones: Mapeo de Reads en NGS

13

• Permutaciones de secuencias• Alineamiento con Needleman-Wunsch de dos

secuencias• Alineamiento de una tercera con las secuencias ya

alineadas• Reducir• Repetir

2.2. Aplicaciones: Alineamiento Múltiple de Secuencias

14

• Obtención de la distancia Robinson-Foulds de diferencias topológicas entre t árboles filogenéticos

• Paralelización de algoritmos de Machine Learning

2.3. Aplicaciones: Otras aplicaciones

15

Gracias por vuestra atención

Science

MapReduce for Bioinformatics