17
Hadoop y algoritmos MapReduce de paralelización aplicados a genotipado de secuencias nucleotídicas Cristian Pérez García Miguel González Acera MSc. Bioinformatics 2015/16

MapReduce for Bioinformatics

Embed Size (px)

Citation preview

Page 1: MapReduce for Bioinformatics

Hadoop y algoritmos MapReduce de paralelización aplicados a genotipado de

secuencias nucleotídicas

CristianPérez GarcíaMiguelGonzálezAcera

MSc.Bioinformatics 2015/16

Page 2: MapReduce for Bioinformatics

1. MapReduce• Algoritmo• Framework: Hadoop• Ejemplos

2. Aplicaciones• Genotipado en NGS• Alineamiento múltiple de secuencias• Otros

1

Page 3: MapReduce for Bioinformatics

BigData

• Exoma->10Gbdedatos• Genoma ->cercade1TBdedatos

Búsquedas engoogledesde2005deltérminoBioinformatics contraBigData

Introducción

2

Page 4: MapReduce for Bioinformatics

CreadoporGoogleparaelprocesamientodegrandescantidadesdedatos.

• Procesamientodegrandescantidadesdedatos• Paralelización yejecuciónautomáticadelosprocesosen

grandesclústeresdeordenadores.

1. MapReduce

3

Page 5: MapReduce for Bioinformatics

• Input

• Map Function: procesaunficherocomovaloreskey/value paradevolverunnuevosetdedatoscomokey/value.

• Shuffle & sort: Ordena los datos y manda los de misma key al mismonodo.

• Reduce function: unetodos losvaloresintermediosconlamismakey.

• Output

1.1. Algoritmo MapReduce

4

Page 6: MapReduce for Bioinformatics

HDFS (Hadoop Distributed File System)• Escalable• Distribuido

Los datos se encuentran distribuidos de manera redundante 2x o 3x entre los distintosnodos del clúster (algo parecido al sistema RAID)

1.2. Hadoop

5

Page 7: MapReduce for Bioinformatics

1.3. Ejemplos

6

Page 8: MapReduce for Bioinformatics

<,26>

<,11>

<,11>

<,4>

7

Page 9: MapReduce for Bioinformatics

NODE1 NODE2

8

Page 10: MapReduce for Bioinformatics

NODE1 NODE2

<,11><,20>

<,9>

<,12> <,10>

<,2> <,6>

1.3. Ejemplos: Mapping

9

Page 11: MapReduce for Bioinformatics

NODE1 NODE2

<,12><,20> <,11>

<,6>

<,10>

<,2><,9>

<,32><,17> <,10> <,11>

1.3. Ejemplos: Shuffle and Sort1.3. Ejemplos: Reduce

10

Page 12: MapReduce for Bioinformatics

<,32> <,17>

<,10> <,11>

1.3. Ejemplos: Output

11

Page 13: MapReduce for Bioinformatics

Gran cantidad de datos, sobre todo en genoma

• Procesos altamente paralelizables• Posibilidad de aplicar MapReduce para resolver este problema• Mapeo de reads en NGS• Alineamiento múltiple de secuencias

2. Aplicaciones

12

Page 14: MapReduce for Bioinformatics

2.1. Aplicaciones: Mapeo de Reads en NGS

13

Page 15: MapReduce for Bioinformatics

• Permutaciones de secuencias• Alineamiento con Needleman-Wunsch de dos

secuencias• Alineamiento de una tercera con las secuencias ya

alineadas• Reducir• Repetir

2.2. Aplicaciones: Alineamiento Múltiple de Secuencias

14

Page 16: MapReduce for Bioinformatics

• Obtención de la distancia Robinson-Foulds de diferencias topológicas entre t árboles filogenéticos

• Paralelización de algoritmos de Machine Learning

2.3. Aplicaciones: Otras aplicaciones

15

Page 17: MapReduce for Bioinformatics

Gracias por vuestra atención