Bio4j: графовая база...

Preview:

Citation preview

Bio4j: графовая базаданных

Алексей Алехин29 июля 2014

Что такое Bio4j?Bio4j — это биоинформатическая графовая база данных,содержащая информацию связанную с протеинами из

самых крупных открытых источников

Источники данных (SwissProt +

Trembl) (GO)

(50,90,100)

UniProt KB

Gene OntologyUniRefRefSeqNCBI TaxonomyExpasy Enzyme DB

Открытость!

Исходники распространяются под лицензией Интегрированны только открытые данные ( )Процесс разработки на абсолютно прозрачен

AGPLv3Open Data

GitHub

Базы данных в биологииОгромный объем взаимосвязанной ипересекающейся информациираспределённой по разным источниками хранящейся в реляционных базах данных,а иногда даже просто в CSV файлах

Это может быть приемлемо в простых задачах, но когда

количество разнородной информации увеличивается,модель данных становится слишком сложной

Это реальная схема базы данных GO

Реляционная модельВ реляционной модели отношение

Сущность  ⇔  Таблицане является взаимным, что порождаетвспомогательные таблицыискуственные идентификаторыработу с таблицами представляющимисвязи, вместо работы с самими связями

Биология  ≠  ТаблицаВозможно, биологическаяинформация не на на 100% графно уж точно не набор таблиц!

Графовые базы данныхДанные хранятся в соответствиисо своей семантической структуройПростота интеграции новых данныхведёт к масштабируемостиЛокальные индексы (vertex-centric)позволяют избежать проблем с вершинами,которые имеют слишком большоеколичество связей ( )supernode problem

Облачные технологии

Data as a ServiceУдобное взаимодействиемежду сервисамиБезопасное хранениелюбого объема данныхМасштабируемостьРентабельность

Bio4j=

Биологические данные+

Графовые БД+

Облако

Модель данных Bio4j2 × 108 вершин 40 типов109 связей 150 типов6 × 108 свойств (аттрибутов)

Структура Bio4jИнтегрированные данные имеют модульную структуру,

позволяющую выделить только интересующие части

Как Bio4j используется в Era7 — система аннотации бактериальных геномов — система метагеномного анализа

Сравнительная геномика, анализ сетей взаимодействиябелков, сборка геномов и т.д.

BG7MG7

Другие пользователи Bio4j

Ohio State UniversityИнтеграция и анализ Chip-seq данныхМоделирование геномной информациии регуляторных генетических сетей

Berkeley Phylogenomics Group

Графовая БД для геномного анализаразработанная на основе Bio4j

Внутреннее устройство Bio4j1. Абстрактная модель данных с чёткой типизацией2. Универсальная реализация с помощью 3. Конкретные реализации:

(в разработке) (планируется)

Blueprints

Neo4jTitanDBDynamoDBOrientDB

Различная топология графов на уровне хранилища,но единая модель данных в пользовательском коде

Немного технических деталейИсходный код на Java и Scala

для модульной системы для автоматизации

сборки кода, тестирования и релизов для совместной работы

и координации всего рабочего процесса

StatikaSBT

Git + Github

Кто разрабатывает Bio4jисследовательская группа

Ohnosequences!Era7 bioinformatics

руководитель проектаархитектура и технологииинтеграция данныхинтеграция данныхмодульная системаоблачная архитектура

Pablo ParejaEduardo Pareja-Tobes

Raquel TobesMarina ManriqueАлексей АлехинЕвдоким Ковач

КонтактыTwitter: Github: Google group: Linkedin:

@bio4jbio4j

bio4j-userbio4j

bio4j.com

Спасибо за внимание!

Исходники и последняя версия этой презентации на GutHub’е:github.com/laughedelic/bioinformatics-summer-school-2014

Recommended