63
PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (1)

BIOLOGICZNE BAZY DANYCH (1)theta.edu.pl/wp-content/uploads/2018/04/PodstBioinf_wd3-1.pdf · BAZA DANYCH NCBI 1. NCBI 2. Dane gromadzone przez NCBI 3. ... Translacja DNA z genowych

  • Upload
    lytuong

  • View
    217

  • Download
    0

Embed Size (px)

Citation preview

PODSTAWY BIOINFORMATYKI

WYKŁAD 3

BIOLOGICZNE BAZY DANYCH (1)

BIOINFORMATYKA

HISTORIA

1. 1982 utworzenie bazy danych GenBank (NIH)

• dane ogólnodostępne

• sekwencje nukleotydów

2. Wprowadzenie sekwencji z projektu mapowania

genomu człowieka

3. … i innych genomów

4. Eksplozja danych – nowa dyscyplina nauki –

bioinformatyka

Copyright ©2017, J. Szyda & M. Mielczarek

GenBank (NCBI)

12. 1982 680 338 pz; 606 sekwencji

02. 2016 207 018 196 067 pz; 190 250 235 sekwencji

02. 2017 228 719 437 638 pz; 199 341 377 sekwencji

01. 2018 249 722 163 594 pz; 206 293 625 sekwencji

Copyright ©2017, J. Szyda & M. Mielczarek

SRA (NCBI) - DANE NGS

Copyright ©2017, J. Szyda & M. Mielczarek

BIOINFORMATYKA

BIOINFORMATYKA

• odbieranie

• przechowywanie

• analiza

• modelowanie

• dystrybucja

danych związanych z sekwencją DNA i białek

Copyright ©2017, J. Szyda & M. Mielczarek

BIOINFORMATYKA

IN VIVO IN VITRO IN SILICO

BADANIA BIOLOGICZNE

Copyright ©2017, J. Szyda & M. Mielczarek

BIOINFORMATYKA

GŁÓWNE DZIEDZINY BADAŃ

1. Analiza funkcji genów

• wpływ genów na obserwowane cechy

• interakcje pomiędzy genami

2. Badania ewolucyjne

• porównywanie sekwencji DNA

• spokrewnienie organizmów

• konstrukcja drzew filogenetycznych

• bioróżnorodność

3. Analiza struktury DNA

• predykcja genów

• porównywanie sekwencji DNA i białek

4. Modelowanie struktury białekCopyright ©2017, J. Szyda & M. Mielczarek

BIOINFORMATYKA

GŁÓWNE DZIEDZINY BADAŃ

Copyright ©2017, J. Szyda & M. Mielczarek

www.youtube.com/user/GenomeTV

BIOINFORMATYKA

Copyright ©2017, J. Szyda & M. Mielczarek

BIOINFORMATYKA

ROLA INTERNETU (dane i narzędzia)

1. Przykłady ogólnodostępnych baz danych

• PubMed

• OMIM

• KEGG

2. Przykłady ogólnodostępnych programów

• BLAST

• Haploview

Copyright ©2017, J. Szyda & M. Mielczarek

BIOINFORMATYKA

ROLA INTERNETU (dane dostępne dla wszystkich)

1. Darmowe

2. Wszędzie dostępne

3. Aktualne

4. Korygowane

problematyka ochrony danych

Copyright ©2017, J. Szyda & M. Mielczarek

BIOINFORMATYKA

OBSZARY ZASTOSOWAŃ

1. Medycyna

2. Farmaceutyka

3. Kryminalistyka

4. Rolnictwo

5. Ochrona środowiska

Copyright ©2017, J. Szyda & M. Mielczarek

PROJEKTY POZNANIA INNYCH GENOMÓW

CAŁKOWICIE ZSEKWENCJONOWANE GENOMY (historia)

w ogólnodostępnych bazach danych

• 1995 Hemophilus influenzae

• 1996 Saccharomyces cerevisiae ~12 Mb

• 1998 Caenorhabditis elegans

• 1998 Plasmodium falciparum ~23 Mb

• 1999 pierwszy chromosom człowieka

• 2000 Arabidopsis thaliana ~119 Mb

• 2000 Drosophila melanogaster ~180 Mb

• 2005 Mus musculus

Copyright ©2017, J. Szyda & M. Mielczarek

Genome (NCBI) - PROJEKTY POZNANIA INNYCH GENOMÓW

4 050

90 855

7 117

SprzedażMarzec 2017

Copyright ©2017, J. Szyda & M. Mielczarek

Styczeń 2018

5 003

126 842

13 009

Pierwszorzędowe (pierwotne): GenBank, PDB

• Surowe dane biologiczne, archiwa sekwencji lub dane

strukturalne wprowadzane do baz przez naukowców

Drugorzędowe (wtórne): SWISS-PROT, PIR

• Informacje przetworzone komputerowo, lub poprawione

ręcznie na podstawie oryginalnych informacji z

pierwszorzędowych baz danych

Specjalistyczne: FlyBase, baza danych HIV

• Specjalistyczne zagadnienia

BIOLOGICZNE BAZY DANYCH

Copyright ©2017, J. Szyda & M. Mielczarek

Xiong J.,

„Podstawy bioinformatyki”

Copyright ©2017, J. Szyda & M. Mielczarek

• Dane niekompletne (np. niekompletna adnotacja)

• Błędy:

- błędy technologii (np. sekwenatora),

zanieczyszczenia

- błędna adnotacja

• Rozprzestrzenianie błędów

• Wysoka redundacja informacji

(non-redundant RefSeq)

PUŁAPKI W BAZACH DANYCH

Copyright ©2017, J. Szyda & M. Mielczarek

BAZA DANYCH NCBI

1. NCBI

2. Dane gromadzone przez NCBI

3. Przegląd baz danych NCBI:

• Publikacje naukowe

• Projekty biologiczne

• OMIM: fenotypy człowieka

• Sekwencje DNA

• Geny

• Funkcje genów

• Polimorfizm pojedynczych nukleotydów

zawartość

metody

wyszukiwania

Copyright ©2017, J. Szyda & M. Mielczarek

NATIONAL CENTER FOR BIOTECHNOLOGY INFORMATION

NCBI

1. Utworzone w 1988

2. Dziedziny nauki: biologia molekularna, biochemia,

genetyka

3. Zadania

• Przechowywanie → bazy danych

• Analiza danych → oprogramowanie

• Udostępnianie baz danych i oprogramowania do

badań naukowych

• Koordynacja gromadzenia danych na poziomie

międzynarodowym

Copyright ©2017, J. Szyda & M. Mielczarek

NATIONAL CENTER FOR BIOTECHNOLOGY INFORMATION

www.ncbi.nlm.nih.gov/About/index.html

Copyright ©2017, J. Szyda & M. Mielczarek

DANE

NCBI

Bazy danych

• Zbiór zintegrowanych baz

danych

• Entrez

Literatura

• Artykuły naukowe (PubMed)

• Książki

• Grafika

• Podręczniki nt NCBI

Oprogramowanie

• Analiza sekwencji

• Manipulowanie danymi

• Analiza filogenetyczna

• ...

korzystanie wprowadzanie

Copyright ©2017, J. Szyda & M. Mielczarek

DANE

www.ncbi.nlm.nih.gov

danewprowadzanie

oprogramowanieliteratura

Copyright ©2017, J. Szyda & M. Mielczarek

BAZY DANYCH

www.ncbi.nlm.nih.gov/sites/gquery

Copyright ©2017, J. Szyda & M. Mielczarek

BAZY DANYCH

PubMed: Publikacja naukowe

Copyright ©2017, J. Szyda & M. Mielczarek

PubMed - PUBLIKACJE NAUKOWE

1. Artykuły naukowe

2. Streszczenia + pełne teksty

3. Zapytania tematyczne np. clinical queries

4. Liczba czasopism:

1. 03.2016: 35 712

2. 03.2017: 46 217

3. 01.2018: 46 508

5. Od 1950 roku

www.ncbi.nlm.nih.gov/sites/entrez?db=pubmed

PubMed - PUBLIKACJE NAUKOWE

WYSZUKIWANIE PROSTE - AUTOR

WYSZUKIWANIE PROSTE - FRAZA

1. Serch PubMed for genome: → 1 116 403

2. Serch PubMed for human genome: → 143 881

3. Serch PubMed for human genome chromosome 19: → 830

4. Serch PubMed for human genome HSA19 → 13

Copyright ©2017, J. Szyda & M. Mielczarek

PubMed - PUBLIKACJE NAUKOWE

WYSZUKIWANIE PRECYZYJNE – search builder

kryteria wyszukiwania

składnia zapytania

za

leżn

ci lo

gic

zn

e

Copyright ©2017, J. Szyda & M. Mielczarek

wyszukiwanie precyzyjne

PubMed - PUBLIKACJE NAUKOWE

STRUKTURA REKORDU

da

ne

bib

lio

gra

fic

zn

e

au

torz

y

str

eszczen

ie

pe

łny t

ek

st

podobne publikacje

cytowania

Copyright ©2017, J. Szyda & M. Mielczarek

PubMed - PUBLIKACJE NAUKOWE

ZAPYTANIA MEDYCZNE - clinical queries

Copyright ©2017, J. Szyda & M. Mielczarek

BAZY DANYCH

Books: książki

Copyright ©2017, J. Szyda & M. Mielczarek

Copyright ©2017, J. Szyda & M. Mielczarek

www.ncbi.nlm.nih.gov/sites/entrez?db=books

BAZY DANYCH

BioProject: projekty analiz biologicznych

Copyright ©2017, J. Szyda & M. Mielczarek

BioProject - PROJEKTY ANALIZ BIOLOGICZNYCH

www.ncbi.nlm.nih.gov/bioproject

Copyright ©2017, J. Szyda & M. Mielczarek

lista projektów

BioProject - PROJEKTY ANALIZ BIOLOGICZNYCH

Nr projektuNazwa

gatunkuKod gatunku

Rodzaj

projektuCel projektu

Data

zakończenia

Copyright ©2017, J. Szyda & M. Mielczarek

PRZYKŁADY OGRANICZEŃ

1. Search for bovine: → 1 904 1 560

2. Search for "Bos taurus" [ORGN]: → 937 741

3. Search for "Bos taurus" [ORGN] AND "Genome

sequencing" [project data type]: → 43 37

BioProject - PROJEKTY ANALIZ BIOLOGICZNYCH

Copyright ©2017, J. Szyda & M. Mielczarek

BioProject - PROJEKTY ANALIZ BIOLOGICZNYCH

Copyright ©2017, J. Szyda & M. Mielczarek

BioProject - PROJEKTY ANALIZ BIOLOGICZNYCH

www.ncbi.nlm.nih.gov/bioproject/

Copyright ©2017, J. Szyda & M. Mielczarek

ważne projekty

BioProject - PROJEKTY ANALIZ BIOLOGICZNYCH

www.ncbi.nlm.nih.gov/bioproject

Copyright ©2017, J. Szyda & M. Mielczarek

BAZY DANYCH

Taxonomy: zasoby danych dla gatunku

Copyright ©2017, J. Szyda & M. Mielczarek

Taxonomy

www.ncbi.nlm.nih.gov/sites/taxonomy/?term

Copyright ©2017, J. Szyda & M. Mielczarek

BAZY DANYCH

dbGaP: genotypy + fenotypy

Copyright ©2017, J. Szyda & M. Mielczarek

dbGaP

dbGaP

1. Dane ogólnodostępne

• Ogólne informacje o próbach danych

• Fenotypy

• Wyniki analizy asocjacyjnej, studiów klinicznych

2. Dane o ograniczonym dostępie

• Wartości fenotypów poszczególnych osobników

• Struktura spokrewnienia osobników

• Dodatkowe wyniki

www.ncbi.nlm.nih.gov/sites/entrez?db=gap

Copyright ©2017, J. Szyda & M. Mielczarek

dbGaP- zbiory danych

Dostępne

informacje

Liczebność

próby danych

Struktura

danych

Copyright ©2017, J. Szyda & M. Mielczarek

dbGaP- choroby

Fenotypy

Copyright ©2017, J. Szyda & M. Mielczarek

BAZY DANYCH

Gene: baza genów

Copyright ©2017, J. Szyda & M. Mielczarek

Gene – INFORMACJE O GENACH

Gene

1. Liczba genów: 17 089 516

2. Pierwszy wpis

• 30.07.2003

• Tuatara

www.ncbi.nlm.nih.gov/sites/entrez?db=gene

Copyright ©2017, J. Szyda & M. Mielczarek

BAZY DANYCH

SNP & dbVar

Copyright ©2017, J. Szyda & M. Mielczarek

SNP & dbVar - POLIMORFIZMY GENETYCZNE

745 SNP

www.ncbi.nlm.nih.gov/sites/entrez?db=snp

www.ncbi.nlm.nih.gov/dbvar/content/org_summary

Copyright ©2017, J. Szyda & M. Mielczarek

BAZY DANYCH

Protein: sekwencje aminokwasów

Copyright ©2017, J. Szyda & M. Mielczarek

Protein- INFORMACJE O BIAŁKACH

Protein

1. Sekwencje aminokwasów

2. Translacja DNA z genowych baz danych

3. Integracja informacji z różnych baz danych (poza NCBI)

• UniProt

• Protein Data Bank

www.ncbi.nlm.nih.gov/sites/entrez?db=protein

Copyright ©2017, J. Szyda & M. Mielczarek

BAZY DANYCH

OMIM: Fenotypy człowieka

Copyright ©2017, J. Szyda & M. Mielczarek

OMIM - ONLINE MENDELIAN INHERITANCE IN MAN

OMIM

1. Informacje o fenotypach ludzkich

2. Baza założona w latach 1960-tych (od 1985 online)

3. Zawartość stan 03.2016 / 03.2017 / 01.2018

1. Wpisy do bazy danych:

22 296 / 23 958 / 24 401

2. Fenotypy o znanym podłożu genetycznym:

4 085 / 4 957 / 5 162

3. Fenotypy o nieznanym podłożu genetycznym:

1 708 / 1 789 / 1 591

www.ncbi.nlm.nih.gov/sites/entrez?db=omim

Copyright ©2017, J. Szyda & M. Mielczarek

WYSZUKIWANIE PROSTE

OMIM - ONLINE MENDELIAN INHERITANCE IN MAN

WYSZUKIWANIE SPECYFICZNE

Copyright ©2017, J. Szyda & M. Mielczarek

OMIM Gene Map

OMIM - Online Mendelian Inheritance in Man

Copyright ©2017, J. Szyda & M. Mielczarek

OMIA - ONLINE MENDELIAN INHERITANCE IN ANIMALS

OMIA informacje o fenotypach zwierząt z wyłączeniem

człowieka, myszy i szczura

http://omia.angis.org.au/home/

Copyright ©2017, J. Szyda & M. Mielczarek

BAZY DANYCH - DGVa

www.ebi.ac.uk/dgva

Copyright ©2017, J. Szyda & M. Mielczarek

BAZY DANYCH - ENA

www.ebi.ac.uk/ena

Copyright ©2017, J. Szyda & M. Mielczarek

Magda Mielczarek 58Podstawy bioinformatyki 2015

FORMATY DANYCH

Po co?

Przykłady:

• FASTA

• FASTQ

• GenBank

• Newick

• SAM

• VCF

• BED

• … i inne

http://software.broadinstitute.org/software/igv/home

Mielczarek and Szyda 2016

Copyright ©2017, J. Szyda & M. Mielczarek

Xiong J.,

„Podstawy bioinformatyki”

GenBank

Copyright ©2017, J. Szyda & M. Mielczarek

• Prosty i popularny czytelny dla wielu programów

do analizy bioinformatycznej

• Zapis sekwencji kwasów nukleinowych oraz białek

>gi|52693750|dbj|AB175071.1| Neomys fodiens

mitochondrial cytb gene for cytochrome b, complete

cds

ATGACCAACTTTCGAAAAACCCATCCATTAATAAA

AATTCTTAACAACTCATTCATCGATCTCCCAGCCC

CATCAAACATTTCATCATGATGAAATTTCGGGTCC

CTTCTAGGATTGTGCCTAGTAATCCAGATCCTGA

CTGGCCTCTTTCTAGCAATACATTACACTTCAGAT

FASTA

Copyright ©2017, J. Szyda & M. Mielczarek

Identyfikator

sekwencjiopis

Symbol Description Bases represented

A Adenine A

1

C Cytosine C

G Guanine G

T Thymine T

U Uracil U

W Weak A T

2

S Strong C G

M aMino A C

K Keto G T

R puRine A G

Y pYrimidine C T

Bnot A (B comes after A)

C G T

3

D not C A G T

H not G A C T

V

not T (V comes after T and U)

A C G

NaNy base (not a gap)

A C G T 4 Copyright ©2017, J. Szyda & M. Mielczarek

aNy bases

Genom referencyjny Bos taurus (Zimin et al. 2009)

Copyright ©2017, J. Szyda & M. Mielczarek

PODSTAWY

BIOINFORMATYKI

GenBank

FASTA