34
1/34 Биоинформатика в синтезе генетических конструкций Павел Яковлев 23 июля 2014 Летняя школа по биоинформатике 2015

Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению

  • Upload
    others

  • View
    8

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению

1/34

Биоинформатика в синтезе генетических

конструкций

Павел Яковлев

23 июля 2014Летняя школа по биоинформатике 2015

Page 2: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению

2/34

Направленная эволюция

Page 3: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению

3/34

Секвенирование: in vitro → in silico

Page 4: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению

4/34

Дизайн белков

Page 5: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению

5/34

in silico?−→ in vitro

Page 6: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению

6/34

Polymerase Cycling Assembly

Page 7: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению

7/34

Комплементарность

2 водородные связи 3 водородные связи

Page 8: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению

8/34

Проблемы с PCA I

• Шпильки

Page 9: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению

9/34

Проблемы с PCA II

• Слабые связи

Page 10: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению

10/34

Проблемы с PCA III

• Кросс-активность

Page 11: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению

11/34

Переберем все варианты?

Количество вариантов кодирующих генов:

3100 ≈ 5 × 1047

Page 12: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению

12/34

План по спасению

• Понять, как сворачиваются нуклеиновые кислоты.

• Понять, когда связи будут рваться, а когда нет.

• На базе полученных знаний построить оценочнуюфункцию для группы олигов.

• Построить алгоритм, итеративно улучшающий имеющийсянабор олигов.

Page 13: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению

13/34

Как сворачиваются ДНК и РНК?

Page 14: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению

14/34

Более формально I

Последовательностость РНК:

S ∈ {A,C ,G ,U}∗, с длиной n = |S |.

Структура РНК:

P ⊆ {(i , j)|1 ≤ i ≤ j ≤ n, comp(Si ) = Sj}.

Page 15: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению

15/34

Более формально II

Будем называть две связи (i , j) и (i ′, j ′) пересекающимися(crossing), если

i < i ′ < j < j ′ или i ′ < i < j < j ′

Структура P является пересекающейся, если содержит хотя быодну пару пересекающихся связей. Прочие структуры будемназывать непересекающимися (non-crossing, nested).

Page 16: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению

16/34

Более формально III

При поиске структуры требуется определиться со следующимивопросами:

• Какую структуру считать корректной?

• с макисмальным количеством связей;

• с минимальной свободной энергией.

• Какой класс структур мы ищем?

• crossing;

• nested.

• Как мы хотим видеть ответ?

• набор наиболее вероятных структур;

• вероятность образования подструктур.

Page 17: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению

17/34

Простой выбор

Задача:

IN: Последовательность S

OUT: Одна nested структура P , максимизирующая количествосвязей.

Поиск crossing структур в общем случае – NP-hard.

Page 18: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению

18/34

Алгоритм Нуссинова I

Введем величину:

Ni ,j = max{|P | | P − структура строкиSi ,j}

В этом случае ответом на нашу задачу станет значение N1,n,которое вы постараемся вычислить методом динамическогопрограммирования.

Page 19: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению

19/34

Алгоритм Нуссинова II

В случае i = j мы будем иметь строки нулевой длины,соответственно:

Ni ,i = 0

Аналогично, структуру не может образовать строка сотрицательной длиной:

Ni ,j = 0, j < i

Как искать для всех прочих позиций?

• Требуется рассмотреть разлиные варианты образованияструктур между нуклеотидами Si и Sj .

Page 20: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению

20/34

Алгоритм Нуссинова III

Ni+1,j Ni+1,j−1 + ωi ,j

Ni ,j−1 maxk: i<k<j

Ni ,k + Nk+1,j

Page 21: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению

21/34

Алгоритм Нуссинова IV

Собираем:

Ni ,j = 0, j ≤ i

Ni ,j = max

S(i + 1, j − 1) + ωi ,j

S(i + 1, j)S(i , j − 1)max

k: i<k<jNi ,k + Nk+1,j

Вариант 3 укладывается в вариант 4, а вариант 2 можноуложить, немного изменив лимиты на k .

Page 22: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению

22/34

Алгоритм Нуссинова V

Ni ,j = max

{

S(i + 1, j − 1) + ωi ,j

maxk: i≤k<j

Ni ,k + Nk+1,j

G C A C G A C G

0 G

0 0 C

0 0 0 A

0 0 0 0 C

0 0 0 0 0 G

0 0 0 0 0 0 A

0 0 0 0 0 0 0 C

0 0 0 0 0 0 0 0 G

Page 23: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению

23/34

Алгоритм Нуссинова VI

Ni ,j = max

{

S(i + 1, j − 1) + ωi ,j

maxk: i≤k<j

Ni ,k + Nk+1,j

G C A C G A C G

0 1 G

0 0 0 C

0 0 0 0 A

0 0 0 0 1 C

0 0 0 0 0 0 G

0 0 0 0 0 0 0 A

0 0 0 0 0 0 0 1 C

0 0 0 0 0 0 0 0 G

Page 24: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению

24/34

Алгоритм Нуссинова VII

( ) . ( ) . ( )

G C A C G A C G

0 1 1 1 2 2 2 3 G

0 0 0 0 1 1 1 2 C

0 0 0 0 1 1 1 2 A

0 0 0 0 1 1 1 2 C

0 0 0 0 0 0 1 1 G

0 0 0 0 0 0 0 1 A

0 0 0 0 0 0 0 1 C

0 0 0 0 0 0 0 0 G

ACGA CGACG

Нахождение структуры: обратный проход от правого верхнегоугла до диагонали.

Page 25: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению

25/34

Проблемы простого решения

• Максимизация взаимодействующих пар не отвечаетреальности сворачивания.

• Взаимодействия влияют друг на друга, их нельзярассматривать независимо.

• Существуют более и менее вероятные структуры.

• У РНК может быть более одной устойчивой структуры.

Page 26: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению

26/34

MFE-fonding I

Будем определять структуру исходя из значения свободной

энергии высвобожденной в ходе формированиякомплементарных пар.

Свободная энергия Гиббса – величина, показывающаяизменение энергии в ходе химической реакции. Позволяетпонять, возможно ли принципиально дальнейшее протеканиехимической реакции.

G = U − TS(+PV )

U – внутренняя энергия;T – абсолютная температура;S – энтропия.

Page 27: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению

27/34

MFE-fonding II

• Будем предсказывать наиболее вероятную конформацию.

• Используем информауию об энергетическом статусеразличных типов петель.

• Свободная энергия – аддитивная величина, а потомуэнергия структуры есть сумма энергий ее петель:

E (S) =∑

L∈S

E (L)

Алгоритм впервые предложен Цукером (Zuker) в 1981 году.

Page 28: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению

28/34

MFE-fonding III

Page 29: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению

29/34

К олигонуклеотидам

• Модифицированный алгоритм Цукера.

• Дает одно решение, но численно определяет MFE длязаданной температуры, что позволяет оценивать качествоолигов.

• Простая модификация позволяет использовать его же дляоценки связывания нескольких олигонуклеотидов.

Page 30: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению

30/34

Genetic algorithm for genetics I

Page 31: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению

31/34

Genetic algorithm for genetics II

Вариант – улучшай худшего.Алгоритм:

• Сгенерировать большой репертуар вариантов.

• Разбить варианты на олиги и оценить их.

• Выбрать лучший вариант.

• Исходя из трех компонент оценки выбрать область солигами “худшего качества”.

• Методом Монте-Карло просемплирвоать область додостижения лучшего результата.

• Итеративно повторить необходимое количество раз сосменой области улучшения.

Page 32: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению

32/34

Features

• Работа с рандомизированными вариантами.

• Генерация библиотек.

• Поддержка встраивания в различные плазмиды.

• Поддержка переиспользования олигов и наличияконстантных фрагментов.

• Разбиение на фрагменты для сборки больших конструкций.

• Совместимость выхода с роботизированнымоборудованием синтеза, подготовки и постановки ПЦР.

Page 33: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению

33/34

Full-mRNA optimization

Page 34: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению

34/34

Q&A

Спасибо за внимание[email protected]