Upload
others
View
6
Download
0
Embed Size (px)
Citation preview
Bio4j: графовая базаданных
Алексей Алехин29 июля 2014
Что такое Bio4j?Bio4j — это биоинформатическая графовая база данных,содержащая информацию связанную с протеинами из
самых крупных открытых источников
Источники данных (SwissProt +
Trembl) (GO)
(50,90,100)
UniProt KB
Gene OntologyUniRefRefSeqNCBI TaxonomyExpasy Enzyme DB
Открытость!
Исходники распространяются под лицензией Интегрированны только открытые данные ( )Процесс разработки на абсолютно прозрачен
AGPLv3Open Data
GitHub
Базы данных в биологииОгромный объем взаимосвязанной ипересекающейся информациираспределённой по разным источниками хранящейся в реляционных базах данных,а иногда даже просто в CSV файлах
Это может быть приемлемо в простых задачах, но когда
количество разнородной информации увеличивается,модель данных становится слишком сложной
Это реальная схема базы данных GO
Реляционная модельВ реляционной модели отношение
Сущность ⇔ Таблицане является взаимным, что порождаетвспомогательные таблицыискуственные идентификаторыработу с таблицами представляющимисвязи, вместо работы с самими связями
Биология ≠ ТаблицаВозможно, биологическаяинформация не на на 100% графно уж точно не набор таблиц!
Графовые базы данныхДанные хранятся в соответствиисо своей семантической структуройПростота интеграции новых данныхведёт к масштабируемостиЛокальные индексы (vertex-centric)позволяют избежать проблем с вершинами,которые имеют слишком большоеколичество связей ( )supernode problem
Облачные технологии
Data as a ServiceУдобное взаимодействиемежду сервисамиБезопасное хранениелюбого объема данныхМасштабируемостьРентабельность
Bio4j=
Биологические данные+
Графовые БД+
Облако
Модель данных Bio4j2 × 108 вершин 40 типов109 связей 150 типов6 × 108 свойств (аттрибутов)
Структура Bio4jИнтегрированные данные имеют модульную структуру,
позволяющую выделить только интересующие части
Как Bio4j используется в Era7 — система аннотации бактериальных геномов — система метагеномного анализа
Сравнительная геномика, анализ сетей взаимодействиябелков, сборка геномов и т.д.
BG7MG7
Другие пользователи Bio4j
Ohio State UniversityИнтеграция и анализ Chip-seq данныхМоделирование геномной информациии регуляторных генетических сетей
Berkeley Phylogenomics Group
Графовая БД для геномного анализаразработанная на основе Bio4j
Внутреннее устройство Bio4j1. Абстрактная модель данных с чёткой типизацией2. Универсальная реализация с помощью 3. Конкретные реализации:
(в разработке) (планируется)
Blueprints
Neo4jTitanDBDynamoDBOrientDB
Различная топология графов на уровне хранилища,но единая модель данных в пользовательском коде
Немного технических деталейИсходный код на Java и Scala
для модульной системы для автоматизации
сборки кода, тестирования и релизов для совместной работы
и координации всего рабочего процесса
StatikaSBT
Git + Github
Кто разрабатывает Bio4jисследовательская группа
Ohnosequences!Era7 bioinformatics
руководитель проектаархитектура и технологииинтеграция данныхинтеграция данныхмодульная системаоблачная архитектура
Pablo ParejaEduardo Pareja-Tobes
Raquel TobesMarina ManriqueАлексей АлехинЕвдоким Ковач
КонтактыTwitter: Github: Google group: Linkedin:
@bio4jbio4j
bio4j-userbio4j
bio4j.com
Спасибо за внимание!
Исходники и последняя версия этой презентации на GutHub’е:github.com/laughedelic/bioinformatics-summer-school-2014