UNIVERSITA DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA Corso di BIOINFORMATICA: TECNICHE...

UNIVERSITA’ DI MILANO-BICOCCAUNIVERSITA’ DI MILANO-BICOCCALAUREA MAGISTRALE IN LAUREA MAGISTRALE IN

BIOINFORMATICABIOINFORMATICA

Corso di

BIOINFORMATICA: TECNICHE DI BASE

Prof. Giancarlo Mauri

Lezione 5

Algoritmi di string matching esatto

Exact matching: il problema

DATEDATE:

una stringa T di lunghezza n (detta testo) e

una stringa P di lunghezza m<n (detta pattern)

definite su un alfabeto

TROVARETROVARE:

l’ insieme di tutte le posizioni nel testo T a partire da cui occorre il pattern P

Exact matching: il problema

Algoritmo diAlgoritmo diexact matchingexact matching

T=bbabaxababay

Esempio

{3,7,9}NB: le occorrenze di P in T possonoanche sovrapporsi (es. 7 e 9)

NB: le occorrenze di P in T possonoanche sovrapporsi (es. 7 e 9)

Exact matching: prime idee

Algoritmo “forza bruta”

Allinea il primo carattere di P con il primo carattere di T

Confronta, da sinistra a destra, i caratteri corrispondenti di P e T fino a quando trovi un mismatch o raggiungi la fine di P

Se hai raggiunto la fine di P, restituisci la posizione del carattere di T che corrisponde al primo carattere di P

Sposta P di un posto a destra

Se l’ultimo carattere di P va oltre la fine di T, termina l’esecuzione; altrimenti ripeti da 2

Esempio

T = xabxyabxyabxz

P = abxyabxz

x a zxbayb x y a b xT

zxba b x y aP

Allinea il primo carattere di P con il primo carattere di T

a b x y a b x z

a zb x y a b x

zxa b x y a b

Sposta P di un posto a destra...

zxba b x y a zxbaa b x y zxbaya b x

Se hai raggiunto la fine di P, restituisci la posizione del carattere di T che corrisponde al primo carattere di P => 6

xbayxa b z

L’ultimo carattere di P va oltre la fine di T. Termina l’esecuzione

Caratteristiche dell’algoritmo “forza bruta”

Non è necessaria una fase di pre-processing

Il pattern P viene sempre spostato di una posizione a destra

La complessità in tempo è O(nm)

NB: non sempre è necessario spostare P diuna sola posizione. Come aumentare lospostamento senza rischiare di perdere occorrenze?

Exact matching: preprocessing

Fase di pre-processing per

imparare la struttura “interna” del pattern P o del testo T

RIDURRE IL TEMPO DI ESECUZIONE

S = A A T G C A T T C G C T

Def.: un suffisso S[i…|S|] di una stringa S è una sottostringa che inizia alla posizione i e termina alla posizione finale di S

Esempio

Def.: un prefisso S[1…i] di una stringa S è una sottostringa che inizia alla posizione 1 di S e termina alla posizione i

Esempio

T g a c g a g a g a a g c g a t

P sa g a g a c a

Si supponga di essere nella seguente situazione con P in s+1

NB: all’interno del matching lungo q=5 esiste la sottostringaP[3..5] = aga che coincide con il prefisso P[1..3]

a g a g a c a

Si supponga di essere nella seguente situazione con P in sE’ evidente che conviene spostare P in

s’+1 = s+(q-k)+1

NB: all’interno del matching lungo 5 esiste la sottostringaP[3..5]=“aga” che coincide con il prefisso P[1..3]

NB: all’interno del matching lungo 5 esiste la sottostringaP[3..5]=“aga” che coincide con il prefisso P[1..3]NB: si è così sicuri che esiste un matching iniziale dilunghezza k=3 per il prefisso P[1..3]

NB: si è così sicuri che esiste un matching iniziale dilunghezza k=3 per il prefisso P[1..3]

Intuitivamente...

Dato che il prefisso P[1...q] coincide con la sottostringa T[s+1…s+q], ci si chiede quale sia il minimo spostamento s’>s tale che:

P[1...k] = T[s'+1…s'+k]

Ovviamente

s’ = s+q-k

NB: il confronto dei primi k caratteri di P è superfluoNB: il confronto dei primi k caratteri di P è superfluo

Formalmente...

Dato un pattern P[1, …, m], si calcola la sua funzione prefisso

NB: [q] è la lunghezza del più lungo prefisso di P cheè anche suffisso di P[1..q]

: {1,2,...,m} {0,1,...,m-1}

[q] = max{k: k<q e P[1..k] è suffisso di P[1..q]}

Algoritmo per il calcolo della funzione prefisso

m:=length(P);

(1):=1; k:=0;for q:=2 to m do

while P[k+1]P[q] dok:=[k];

if P[k+1]=P[q] then

k:=k+1;

[q]:=k; end

return ;end

Esempio di funzione prefisso per un pattern P

P[q] g a c g a g a g a a g c g a t

[q] 0 0 0 1 2 1 2 1 2 a 1 0 1 2 0

q 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

n:= length(T); m:=length(P);

:= precomputed prefix function of P; q:=0;

for i:=1 to n do

while q>0 and P[q+1]T[i] thenq:=[q];

if P[q+1]=T[i] then

q:=q+1;

if q=m then

print “pattern in i-m+1”;

q:=[q]; end

Algoritmo di Knuth-Morris-Pratt

Numero di matchesScansione da sx a dx

Il prossimo carattere è diversoIl prossimo carattere è uguale

Trovata occorrenza di P

Cerca nuova occorrenza

Caratteristiche dell’algoritmo KMP

E’ suddiviso in due fasi: pre-processing + ricerca effettiva

Sposta in genere il pattern P di più posizioni a destra

La complessità in tempo della fase di pre-processing è O(m)

La complessità in tempo della fase di ricerca è O(n)

Algoritmo di Knuth-Morris-Pratt

Complessità algoritmo K-M-P: O(m+n)

Algoritmo di Boyer-Moore

Idee generali

Il confronto tra il pattern e il testo avviene da destra a sinistra

Il numero dei confronti viene ridotto usando due euristiche

euristica del carattere discordante (bad character rule)

euristica del buon suffisso (good suffix rule)

NB: quando pattern e testo non coincidono si sceglie ilmassimo tra gli spostamenti proposti dalle due euristiche

P sa g a g a c a

Si supponga di essere nella seguente situazione con P in s

NB: il carattere P[4] coincide con il carattereT[s+7]

E’ evidente che conviene spostare P in

s’+1 = s+1+j-k

P s’a g a g a c a

E’ evidente che conviene spostare P in s’+1 = s+1+j-k

NB: il carattere P[4] coincide con il carattereT[s+7]

Intuitivamente...

Dato che esiste un j (1jm) per cui P[j] T[s+j], trovare il massimo k (1km), se esiste, tale che:

P[k] = T[s+j]

e spostare P in s’+1 tale che

s'+k = s+j

Formalmente...

Dato un pattern P, si trova la funzione carattere discordante :

NB: (i) è l’i-esimo simbolo dell’alfabeto NB: (i) è l’i-esimo simbolo dell’alfabeto

:{1, 2,..., ||} {1,2,...,m}

[i] = max{k: 1km e P[k] = i}

Algoritmo per il calcolo della funzione carattere discordante

m:=length(P);

foreach in do[]:=0;

for j:=1 to m do

[P[j]]:=j;return ;

Si verificano 3 casi...

Euristica del carattere discordante

CASO 1: il carattere discordante non appare nel pattern P

P sa t a t a c a

CASO 1: il carattere discordante non appare nel pattern P

P s+6a t a t a c a

lo spostamento è tale da allineare il primo carattere di P con il carattere di T successivo al carattere discordante

CASO 2: l’occorrenza più a destra in P del carattere discordante è in una posizione k minore dell’indice j che corrisponde al carattere di P allineato con il carattere discordante

P sa t g t a c a

CASO 2: l’occorrenza più a destra in P del carattere discordante è in una posizione k minore dell’indice j che corrisponde al carattere di P allineato con il carattere discordante

T g a c g a g a g a a g c g a tg

P s+3a t g t a c ag

lo spostamento è tale da allineare P[k] con il carattere discordante in T

CASO 3: l’occorrenza più a destra in P del carattere discordante è in una posizione k maggiore dell’indice j che corrisponde al carattere di P allineato con il carattere discordante

T g a c g a g g c g a g c g a t

P sa t g t a c g

CASO 3: l’occorrenza più a destra in P del carattere discordante è in una posizione k maggiore dell’indice j che corrisponde al carattere di P allineato con il carattere discordante

T g a c g a g g c g a g c g a t

P s+1a t g t a c g

si può solo effettuare lo spostamento di un posto a destra

T g a c g a g a c a c g c g a t

P sa a c g a c g

NB: la sottostringa P[2..5] coincide il suffissoP[5..7] e quindi con la sottostringa T[s+5..s+7]

E’ evidente che conviene spostare P in s’

P s’a a c g a c g

E’ evidente che conviene spostare P in s’

NB: la sottostringa P[2..5] coincide il suffissoP[5..7] e quindi con la sottostringa T[s+5..s+7]

NB: la sottostringa P[2..5] coincide il suffissoP[5..7] e quindi con la sottostringa T[s+5..s+7]NB: si è così sicuri che esiste un matching per lasottostringa P[2..5]

NB: si è così sicuri che esiste un matching per lasottostringa P[2..5]

Intuitivamente...

Dato che il suffisso P[j+1, m] coincide con la sottostringa T[s+j+1, s+m], occorre trovare, se esiste,la posizione k<j più a destra tale che:

P[k] P[j]

P[k+1, k+m-j] = T[s+j+1, s+m]

NB: il confronto dei caratteri di P da k a k+m-j è superfluoNB: il confronto dei caratteri di P da k a k+m-j è superfluo

s'+k = s+j

e spostare P in s’+1 tale che

Formalmente...

Dato un pattern P, si trova la funzione suffisso :

: {0,1,...,m-1} {0,1,...,m-1}

[j] = max{k: k<j+1, P[j+1,...,m] suffisso di P[1..[j]+m-j] e P[k] P[j]}

Algoritmo per il calcolo della funzione suffisso

m:=length(P); P’:=inverso(P);

:=funzione prefisso di P; //come KMP’:=funzione prefisso di P’; //come KMPfor j:=0 to m do

[j]:=m-[m];for l:=1 to m do

j:=m-’[l]; if [j] > l - ’[l] then

[j]:=l-’[l];end

return end

Euristica del buon suffisso

CASO 1: k non esiste

si sposta P fino a far coincidere un suo prefisso con un suffisso di T[s+j+1..s+m], o di m passi se nessun prefisso di P è suffisso di T[s+j+1..s+m]

CASO 2: k esiste

si sposta P fino del numero minimo di passi per far coincidere un suo prefisso proprio con un suffisso dell’occorrenza di P in T, o di m passi se questo non esiste

Euristica del buon suffisso + Euristica del carattere discordante (esempio)

P sa a c g a c g

l’euristica del carattere discordante genererebbe uno spostamento in s+1

P s+1a a c g a c gc

P sa a c g a c g

l’euristica del buon suffissso genererebbe uno spostamento in s+4

P s+4a a c g a c g

l’euristica del buon suffissso genererebbe uno spostamento in s+4 che risulta essere lo spostamento da effettuare

n:=length(T);m:=length(P);:=BadCharacterRule(P);:=GoodSuffixRule(P);s:=0;while s ≤ n-m do

begin j:=m; while j > 0 and P[j] = T[s+j] do

j:=j-1; if j = 0 then

stampa(“pattern in posizione s+1”);s:=s+[0];

else s:=s+max([j], j-[T[s+j]]);

/*Pre-processing*/

/*Scansioneda destra*/

/*Propostaeuristiche*/

Exact Matching: algoritmo di Boyer-Moore

f a i s s c n r n t s i l c r s h b s

a c m i n i u l c n l c

a c m i n i u lc n l c

Buon suffissoCar. discordante

......

s non valido

proposta del car. discordante

clncluinimcas + 3 proposta del buon

suffisso

Proposta vincente: carattere discordante

Caratteristiche dell’algoritmo BM

E’ suddiviso in due parti: pre-processing + ricerca effettiva

Sposta in genere il pattern P di più posizioni a destra

La fase di pre-processing è basata su due euristiche

Funziona “bene” se il pattern P è relativamente lungo e se l’alfabeto || è ragionevolmente grande

Caratteristiche dell’algoritmo BM

La complessità in tempo della fase di pre-processing è O(||+m)+O(m)=O(||+m)

La complessità in tempo della fase di ricerca è O(n-m+1)m=O(nm)

La complessità in tempo di BM è O(nm)

NB: nella pratica è più efficienteNB: nella pratica è più efficiente

UNIVERSITA DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA Corso di BIOINFORMATICA: TECNICHE...

Documents

Bioinformatica - molsim.sci.univr.itmolsim.sci.univr.it/2014_bioinfo2/genomica/01_Bioinformatica.pdf · La bioinformatica è la disciplina scientifica che cerca di risolvere problemi

Bioinformatica GeBiX

Practica5 Bioinformatica

Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento di sequenze 30/03/2011

Fondamenti di Bioinformatica e di Biologia di sistemi (c.i. 18 CFU) Modulo 1: Bioinformatica e Biostatistica (3+3*) Modulo 2: Genomica funzionale e strutturale

Bioinformatica Microarray

Bioinformatica =)

Informatica e Bioinformatica - Corso di Biologia Molecolare 2didattica.cribi.unipd.it/bioinfouno/2010_2011/lezioni/Dispensa_I.pdf · Informatica e Bioinformatica Insegnamento di Bioinformatica

Informatica e Bioinformatica – A. A. 2013-2014 1 Ripercorriamo velocemente i principali concetti di biologia indispensabili per capire la Bioinformatica:

INFORME BIOINFORMATICA

Cos è un database - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Cosa_sono_le... · 1 Cos’è un database Una banca dati è una collezione di informazioni,

14 - Analisi Immagini Biomedicali...Riconoscimento e recupero dell’informazione per bioinformatica Analisi Immagini Biomedicali Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento

UNIVERSITA DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA Corso di BIOINFORMATICA: TECNICHE DI BASE Prof. Giancarlo Mauri Lezione 4 Distanza di

CHIMICA COMPUTAZIONALE: PROGETTAZIONE DI …unina.stidue.net/Bioinformatica/Slide Bioinformatica/Pacchioni_p... · mo i segreti della natura. Il ruolo della teoria è quello di fornire

Bioinformatica Allineamento di sequenze e ricerca di similarità Dr. Giuseppe Pigola – pigola@dmi.unict.it

Mauri - Fenomeni Di Trasporto Unico

Genetica bioinformatica

Laboratorio Bioinformatica

Bioinformatica ed applicazioni di Bioinformatica ...Strutturale Parte 2: Bioinformatica Strutturale 11/04/2017 1 BIOINFORMATICA ed APPLICAZIONI di BIOINFORMATICA STRUTTURALE PLS Biotecnologie

UNIVERSITA DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA Corso di BIOINFORMATICA: TECNICHE DI BASE Prof. Giancarlo Mauri Lezione 1-2 Introduzione