Весенний семестр
2017/2018 учебного года
Межфакультетский учебный курс
механико-математического факультета
«МАТЕМАТИЧЕСКИЕ МОДЕЛИ
В БИОИНФОРМАТИКЕ»
Преподаватели:
Василий Александрович Любецкий,
д.ф.-м.н., профессор кафедры математической
логики и теории алгоритмов механико-
математического факультета МГУ, заведующий
лабораторией «Математических методов и моделей
в биоинформатике» в Институте проблем передачи
информации им. А.А. Харкевича РАН
Александр Владиславович Селиверстов,
к.ф.-м.н., ведущий научный сотрудник той же
лаборатории ИППИ РАН
О преподавателях:
В.А. Любецкий –
http://lpcs.math.msu.su/~lyubetsky/ ,
http://lpcs.math.msu.su/~lyubetsky/mfk2017/http://lp
cs.math.msu.su/~lyubetsky/mfk2017/
(кафедра мех-мата МГУ),
http://lab6.iitp.ru/ru/pub/ (лаборатория ИППИ РАН),
[email protected] (эл. почта);
А.В. Селиверстов –
тот же адрес лаборатории, [email protected] (эл. почта).
Общий взгляд:
Специальность ВАК 03.01.09 называется
«Математическая биология, Биоинформатика».
Отрасли наук:
физико-математические науки,
биологические науки,
медицинские науки. Очень широко!
Частный взгляд: наш курс –
Прикладная математика в предметной области:
«молекулярные процессы в клетке и мол. эволюция»
Слова «математическая модель» означают:
«все, что сформулировано на точном языке»
(«формальном»).
В такой модели скрыта (часто очень нетривиальная)
вычислительная часть.
Так обстоит дело в математической/теоретической
физике, которая служит нам примером. (В ней
вычислительная часть не вынесена в название.)
Математическая биология имеет хорошую аналогию
с Математической физикой. Действительно, можно
(условно) сказать:
«Математическая биология» – математические и
информатические (=computer science) модели
(биологических) явлений, а
Биоинформатика – счёт этих моделей, т.е. создание
алгоритмов и компьютерных программ
и счёт, как таковой, на суперкомпьютере (=
распределённой вычислительной системе).
По сути это значит: (1) Подбор (биологических) ИС-
ХОДНЫХ ДАННЫХ, а для этого использование и/или
развитие уже готовых и/или создание новых Баз дан-
ных. Это – огромные Базы данных: длину генома х нуж-
но умножить на число y организмов, бывших или
нынешних или будущих, а их число очень быстро растёт
(за счёт автоматического секвенирования)!
Характерная длина генома – миллионы букв в 4х-
буквенном алфавите (например, бывает 17т – 3,1млд –
более 21млд букв)
(2) ИЗЛОЖЕНИЕ ОСНОВНЫХ ПОНЯТИЙ на строгом
языке («математическом», «формальном»).
(3) Создание МОДЕЛИ каждого биологического
явления на этом языке. (Сравните с ТеорФизикой.)
(4) АЛГОРИТМ и ПРОГРАММА для счёта в данной
модели.
(5) Сам СЧЁТ и ИНТЕРПРЕТАЦИЯ его результатов.
(6) СРАВНЕНИЕ полученных результатов с
экспериментальными данными, которые содержатся
в других базах данных и в статьях о биологических
экспериментах. И часто возвращение назад, к (1).
(«Мокрые» эксперименты – отдельная наука.)
background
ОНО же НА ЯЗЫКЕ
BACKGROUND модель
алгоритм,
программа
данные и
счёт
интерпрет
ация счёта
сравнение с
экспериментом
явление
???
По адресу http://lab6.iitp.ru/pres лежат примеры
математических и информатических задач
Биоинформатики
– о них будем рассказывать в курсе.
См. также, например, абстракты/статьи на сайте
http://lab6.iitp.ru/pub. Конечно, выбор этих задач и
ссылок в какой-то мере субъективен.
НАШ КУРС НЕ ЯВЛЯЕТСЯ: описанием и исследова-
нием стандартного набора полезных БД и программ!
NCBI (Национальный центр биотехнологической информации)
http://www.ncbi.nlm.nih.gov/
Содержит такие бесценные ресурсы как GenBank (аннотированную
коллекцию всех общедоступных последовательностей ДНК),
Reference Sequence (RefSeq) (неизбыточный хорошо аннотированный
и курируемый набор эталонных последовательностей геномов,
транскриптов и белков), PubMed и PubMed Central (PMC) (база данных
аннотаций биомедицинской тематики и архив с полными текстами
статей), Sequence Read Archive (SRA) (хранилище «сырых» данных с
секвенаторов «нового поколения») и мн. др., а также инструменты
для работы с ними, такие как Basic Local Alignment Search Tool
(BLAST) с многочисленными вариантами, Taxonomy Browser
(навигатор по устаревшей таксономии), Taxonomy Common Tree
(средство отображения таксономического дерева заданного набора
таксонов).
Ещё важные ресурсы:
Ensembl http://www.ensembl.org/ EuPathDB http://eupathdb.org/
OrthoMCL DB http://orthomcl.org/ UniProt http://www.uniprot.org/
Xfam (Pfam, Rfam etc.) http://xfam.org/ PhyloBayes и т.д.
Genomicus http://genomicus.biologie.ens.fr/
Ensembl содержит избранные полные геномы: позвоночных,
животных, растений, грибов, простейших, бактерий.
EuPathDB содержит геномы одноклеточных паразитов,
OrthoMCL DB содержит 1,5 миллиона белков из 150ти организмов
(представлены все виды жизни, включая вирусы), объединённые
в 125000 групп «одинаковых» (= ортологичных) белков,
UniProt содержит информацию о том, что делают белки (об их
функциях)
Pfam, Rfam etc содержат консервативные достаточно
самостоятельные трёхмерные участки (домены) белков и РНК,
повторы РНК
Genomicus содержат компьютерные программы для
исследования окрестностей генов (синтении) у позвоночных
Один из разделов важнейшей базы данных GenBank
(с него можно начать знакомство с
так сказать практической биоинформатикой):
http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.c
gi?mode=Undef&id=2759&lvl=3&keep=1&srchmode=1&un
lock)
НАШ КУРС НЕ ЯВЛЯЕТСЯ: «Введением в МолБиоло-
гию (Биологию), БиоХимию и т.п.». Не является докла-
дом на профессиональной конференции или, хотя с ме-
ньшей уверенностью скажу, циклом популярных лекций.
Он (как обычно) требует большого background из
биологии, химии, математики и т.д. Возникает
принципиальная трудность, свойственная вообще
междисциплинарным курсам!
Отсюда возникает «промежуточный, птичий» язык
изложения самой предметной области (т.е. молбио
клетки и мол эволюции).
Курс читается «для всех»; поэтому используется
«общекультурный» язык в ущерб точности/деталь-
ности и особенностям живых клеток и организмов.
Ответы на вопросы в письменной форме будем
приводить на следующей лекции или на сайте курса:
http://lpcs.math.msu.su/~lyubetsky/mfk2017/ .
Наконец, перейдём к описанию упомянутого
«точного языка», на котором будем говорить о
нашей «предметной области», которая состоит из
ГЕНОМИКИ и ФИЛОГЕНЕТИКИ
ГЕНОМИКА:
В курсе рассказывается, в основном, о
бактериях, археях, пластидах, митохондриях
(«прокариотических геномах»), и мы не касаемся
исключений, которых очень много в биологии.
Хотя все формы жизни поразительно
похожи и имеют сходные механизмы.
<Наряду с Большим взрывом, это кажется
важным.>
ДНК – последовательность в 4-буквенном алфавите {A,C,T,G}.
Каждая буква называется «нуклеотид». Например, в после-
довательности TTGACATGGCTATATAAGTCATGTTATACT
30 позиций нуклеотидов. Слово – короткая часть такой
последовательности (обычно, с дополнительной структурой).
ген 1 ген 2 ген 3
кодирует белок (фермент,
регуляторный фактор)
сигнал 2 сигнал 3
межгенный участок
кодирует белок –
«строительный кирпич»)
кодирует РНК (посред-
ник, фермент, часть
молекулы, помощник в
молекулярном процессе
межгенный участок
DNA
«Суть текущей жизни»: ген кодирует
молекулу («слово со структурой»),
ген считывается или не считывается по
сигналу обычно из межгенного участка.
Сигнал, в свою очередь, – слово или система
слов, часто с дополнительной структурой.
ГЕНОМ – несколько ДНК,
которые находятся в разных частях клетки,
которые называются митохондрией, пластидой,
ядром и т.д. (не все эти части присутствуют в
одной клетке); или даже
ДНК просто плавают в среде («цитоплазме»).
На самом деле:
ГЕНЫ И СИГНАЛЫ имеют направление (векторы)!
Наиболее важные для нас молекулы: нуклеотид-
ные (ДНК, РНК) и аминокислотные (белки).
Пример СИГНАЛА (=участка с определённым буквенным
составом и с направлением); примеры «промоторов»:
human CAAACCCCAAAGACA
frog ACRTTATA (R= A или G)
bacteria TTGACA -17..18- TATAAT -4..7- R
Много копий одной молекулы, называемой РНК-поли-
меразой, плавают вокруг ДНК. Промотор свободен,
если на нем не находится ни одной полимеразы (или
другой сущест молекулы). Связывание полимеразы
с промотором происходит, если в момент попытки
связывания промотор свободен:
Каждый промотор
характеризуется своей
интенсивностью λ:
вероятностью
попытки связывания
= 1–exp(–λ∙t)
Что такое: «связывание с промотором»?
Транскрипция – связывание с промотором молекулы, РНК-
полимеразы, и её движение по направлению промотора.
Когда полимераза движется, она копирует ДНК (включая и
все сонаправленные гены), по правилу «буква в букву»:
ДНК РНК, где РНК – слово «практически» в том же в
4-х буквенном алфавите {A, C, U, G} .
Что такое «чтение гена»? Это – сначала «транскрипция гена»
и иногда затем ещё «трансляция» результата транскрипции:
DNA
RNA
РНК-polymerase
gene
Ген «однократно транскрибирован», если
полимераза прошла его от начала до конца один раз.
При каждом гене находится как бы счётчик числа его
прохождений (=транскрипций) в единицу времени.
Частота чтения гена называется уровнем его
транскрипции. Показано одно транскрибирование.
DNA
Иногда чтение гена заканчивается
на транскрипции,
а иногда идёт дальше
и включает трансляцию.
Итак, ДНК – длинная последовательность, а РНК
короткая!
(как память у комп: на жёстком диске или
оперативная).
DNA
RNA
белок
другая машина: RIBOSOME
машина: POLYMERASE
promoter
Если за транскрипцией идёт трансляция, то РНК
называется мРНК. Тогда:
ген (на ДНК) мРНК (длиннее гена) белок
А именно, рибосома перекодирует РНК в 4х-буквен-
ном алфавите нуклеотидов {A,C,U,G} в слово в 20ти
буквенном алфавите
(буквы которого называются «аминокислотами»)
в соответствии с кодовой ТАБЛИЦЕЙ, единой для
всего живого (почти).
А именно, соседние тройки нуклеотидов (называе-
мые «кодонами») заменяются одной аминокислотой
согласно следующей Таблицы:
Кодирование:
от кодона
к амино-
кислоте:
БЕЛОК (последовательность в 20ти буквенном алф-
авите) образуется из мРНК с помощью рибосомы:
Сдвиг рамки считывания существенно меняет
кодируемый белок.
Внутри рамки считывания обычно отсутствуют стоп-кодоны
– UAG, UGA, UAA. (Хотя у микоплазм только два стоп-
кодона: UAG и UAA.)
Сдвиг рамки считывания может возникать после заверше-
ния транскрипции (сплайсинг или редактирование РНК).
Сдвиг рамки считывания возможен в ходе транскрипции как
двукратное чтение одного нуклеотида на ДНК (эксперимен-
тально установлено у спирохеты Treponema pallidum).
«СУТЬ текущей ЖИЗНИ» состоит в «перекодирова-
нии»: ДНК РНК (а иногда в) Белок!
Зачем эти ДВА ПЕРЕКОДИРОВАНИЯ?
ДНК с помощью закодированных в ней особых
белков («белковых ферментов») и особых РНК
(«рибозим») управляет химическими реакциями в
клетке, т.е. всей химической жизнью клетки, а
следовательно и всего организма, и всей жизни..
S1 S2 S3
F1 F2 F3
S0
FP
Субстраты S, …, S превращаются в продукт
FP с помощью
цепи (конвейера) ферментов F, …, F
Обычно ферментом – катализатором химической реак-
ции служит белок. Например, гены trpA и trpB кодируют
две субъединицы одного фермента, катализирующего
синтез триптофана (Trp) – одной из 20 аминокислот.
Эти два гена обычно расположены на ДНК друг за
другом.
в РНК скрыт ещё один важный аспект
– её ВТОРИЧНАЯ СТРУКТУРА:
Снизу показан участок РНК: жёлтая часть
называется «левым плечом», голубая часть
– «правым плечом»; между ними, – «петля».
Справа показано, как такой участок
сворачивается в форму «СПИРАЛИ».
Сотни, тысячи подобных спиралей образуют
геометрию РНК – ВТОРИЧНУЮ СТРУКТУРУ
РНК.
Итак, РНК – короткая последовательность
(=слово) вместе с богатой вторичной
структурой на ней.
Примеры простых вторичных структур
Пример: 3 гена и 4 промотора
Взаиморасположение генов и промоторов (и других
сигналов) может быть очень разнообразным.
В этом одна из трудностей
математического изучения транскрипции –
геометрия бывает очень разной
Еще пример: 10 генов и 4 промотора
Митохондриальный геном человека:
Митохондриальный геном лягушки:
Митохондриальный геном крысы:
РНК-полимераза ползёт по ДНК из неё выходит РНК:
Рибосома
ползёт по
мРНК и из
неё
выходит
белок:
Взаимодействие молекул в клетке: