Молекулярный филогенез
ancestor
descendant 1 descendant 2
Предположение: жизнь - монофилетична
Любые два организма имеют общего предка в прошлом
extinct
extant 1 extant 2
Дистанцию (в генетическом смысле) между двумя огранизмами расчитываема.
И эта дистанция может быть переведена во временную шкалу
(5 M лет)Общий предок
(120 M лет)Общий предок
(1,500 M лет)Общий предок
(1,500 M лет)
(120 M лет)
(5 M лет)
Древо Жизни (The Tree of Life Homepage (University of Arizona))http://tolweb.org/tree/phylogeny.html
2002
Задачи филогенеза
• Реконструкция достоверных генеалогических ветвей биологических сущностей
• Оценка времени расхождения организмов
• Хронометраж последовательности событий вдоль вектора эволюции
Источники информации и базы данных в Интернете
Типы баз данных
• Всеобъемлющие базы данных
• Организмоспецифические
• Молекулярноспецифические
• Дополнительные базы данных
Проблемы• Биологические базы данных росли последние 20 лет:
1. Избыточность: множественные записи.
2. Неверные последовательности и записи.
• Открытость (данные добавляются пользователями):1. Изменения вносятся владельцами записей.
2. Старые последовательности.
3. Неверные последовательности.
4. Неполные аннотации.
Полные базы данных
Большие базы данных ДНК, РНК и белков.
Примеры: GenBank, EMBL, swissprot.
Имеется обмен информацией между базами
NCBI (National center for biotechnology information)
NCBI
PubMed
Books
OMIM
Nucleotides
Proteins
GenomesTaxonomy
Structure
Domains
Exp’ profiles
NCBI - GenBank
• GenBank: открытая база данных нуклеотидных и аминокислотных последовательностей
• Источники информации: 1. Прямая подача от исследователей.
2. Литература.
3. Центры исследований последовательностей (Sanger, TIgr)
4. Обмен с другими базами (swiss-prot, PDB).
NCBI - GenBank
• GenBank поделён на подбазы:
1. Organism specific (Human, Bacteria, etc).
2. Molecule specific (DNA, RNA, protein).
3. Sequence specific (Genome, mRNA, ESTs etc).
EMBL
Параллельная GenBank база данных.
Swiss prot
База данных белков:
1. Очень хорошо аннотированная.
2. Отсутствует избыточность.
3. Имеются перекрёстные ссылки.
4. ID для нескольких связанных файлов белков
Организмоориентированные базы
Молекулоспецифические базы
• Базы даных, ориентированные на группы молекул
GtRDB: The Genomic tRNA Database
PDB – Protein Data Bank
• Главная база данных 3D структур белков
• Включает порядка 23,000 белковых структур.
• Белки организованы в группы, семейства и т.д.
• Имеет порядка 5600 точных структур.
SCOP - Structural Classification Of Proteins
• Организована в соответствии со структурными семействами белков.
• Иерархическая система.
Текстовый поиск
Общие принципы:
1. Все главные базы предоставляют удобные средства для тектового поиска.
2. Поиск по ключевым словам или полям.
3. Одновременный поиск в нескольких базах.
4. Дополнительные условия (дата, длина и т.д.).
NCBI - Entrez
• Entrez - поисковая машина для баз NCBI.
• Поиск начинается с выбора адекватной области для поикса (Nucleotide, белки).
• Можно использовать определители полей, логические операторы, условия и т.д.
NCBI - Entrez
Ограничения:
Эффективность поискаЭффективность: время и адекватные результаты!
SRS (Sequence Retrieval System).
• Исталлирована на множестве серверов.
• Имеет связи со многими базами данных.
• Предоставляет множество инструментов и служб для анализа.
• Позволяет сохранить результаты работы и анализа и продолжить работу локально.
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Проект ENCODEhttp://genome.ucsc.edu/