12
Можно ограничить область

Алгоритмы в биоинформатике, осень 2015: Поиск подстрок

Embed Size (px)

Citation preview

Можно ограничить область

FASTA (Fast-All)

BLAST(Basic Local Alignment Search Tool)

1. Интересны только «редкие» слова.

2. Интересны только пары с весом, больше определенного порога.

3. Продолжаем пары до выравнивания, пока вес не начнет уменьшатся.

http://blast.ncbi.nlm.nih.gov/

e-value

E = Kmne−λS

Ожидаемое количество выравниваний с весом равным или большим S при условии поиска строки длины m в базе длины n.

BLAST4 ноября

http://blast.ncbi.nlm.nih.gov/

Проведите поиск с помощью BLAST (nucleotide blast) поиск случайной последовательности(длиной 100, 10 00, 100 000) в базе данных последовательностей нуклеотидов (nucleotide collection).

Поиск подстрок

Rabin-Karp

• Придадим символам числовые значения

• Для строки-запроса посчитаем функцию (hash):

ℎ𝑎𝑠ℎ 𝑄 = (𝑞0𝑝𝑛 + 𝑞0𝑝

𝑛−1 +⋯+ 𝑞𝑛𝑝0)

• Для каждой подстроки целевой строки также посчитаем эту функцию, причем:

ℎ𝑎𝑠ℎ 𝑆𝑖 = ℎ𝑎𝑠ℎ 𝑆𝑖−1 − 𝑠𝑖−1𝑝𝑛 ∗ 𝑝 + 𝑠𝑖+𝑛

Knuth-Morris-Pratt