35
Bioinformatyczne bazy danych

Bioinformatyczne bazy danych - UMCSserwisy.umcs.lublin.pl/michal.kalita/analiza/analiza...• Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych

  • Upload
    others

  • View
    9

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Bioinformatyczne bazy danych - UMCSserwisy.umcs.lublin.pl/michal.kalita/analiza/analiza...• Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych

Bioinformatyczne bazy danych

Page 2: Bioinformatyczne bazy danych - UMCSserwisy.umcs.lublin.pl/michal.kalita/analiza/analiza...• Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych

Bioinformatyka jest nauką integrującą różne dziedziny wiedzy

Czym jest bioinformatyka?

Gruca (2010)

Page 3: Bioinformatyczne bazy danych - UMCSserwisy.umcs.lublin.pl/michal.kalita/analiza/analiza...• Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych

Czym jest bioinformatyka?

Bioinformatyka obejmuje technologie wykorzystujące komputery do przechowywania, pozyskiwania i rozpowszechniania danych dotyczących takich makrocząsteczek biologicznych jak DNA, RNA czy białka oraz do manipulowania tymi danymi.

Luscombe i in. (2001)

Bioinformatyka jest interdyscyplinarną dziedziną nauki obejmującą:- rozwój metod obliczeniowych służących do badania struktury, funkcji i ewolucji genów, białek i całych genomów,- rozwój metod wykorzystywanych do zarządzania i analizy informacji biologicznej gromadzonej w toku badań genomicznych oraz badań prowadzonych z zastosowaniem wysokoprzepustowych technik eksperymentalnych.

Higgs, Attwood (2005)

Page 4: Bioinformatyczne bazy danych - UMCSserwisy.umcs.lublin.pl/michal.kalita/analiza/analiza...• Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych

Trochę historii…

1950 – metoda sekwencjonowania białek metodą degradacji Edmana

1965 – Zuckerkandl i Pauling – „Evolutionary divergence and convergence in proteins”; „Molecules as documents of evolutionary history”

1965 – Margaret Dayhoff – „Atlas of Protein Sequence and Structure”

1970 – pierwsze użycie terminu „bioinformatyka” jako badanie procesów informacyjnych w systemach biologicznych

1970 – opracowanie pierwszego algorytmu komputerowego do porównywania sekwencji białkowych (Needleman, Wunsch)

1971 – PDB (Protein Data Base) – baza krystalograficzna

1977 – sekwencjonowanie DNA (Sanger, Maxam, Gilbert)

1977 – sekwencja genomu bakteriofaga ΦX174

1977 – pierwszy pakiet programów komputerowych do analizy sekwencji DNA(Staden R. Sequence data handling by computer Nucleic Acids Res. 4, 4037-4051)

Page 5: Bioinformatyczne bazy danych - UMCSserwisy.umcs.lublin.pl/michal.kalita/analiza/analiza...• Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych

Gauthier et al. Briefings in Bioinformatics, 2018, 1–16

Page 6: Bioinformatyczne bazy danych - UMCSserwisy.umcs.lublin.pl/michal.kalita/analiza/analiza...• Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych

1979 – Los Alamos Sequence Database

1981 – EMBL Data Library (European Molecular Biology Laboratory) – pierwsze centralne depozytorium sekwencji nukleotydowych

1982 – GenBank – druga publiczna baza danych sekwencji nukleotydowych

1984 – DDBJ (DNA Data Bank of Japan)

1984 – PIR (Protein Information Resource) – pierwsza publiczna baza danych sekwencji białkowych

1985 – FASTP – program do porównywania sekwencji białkowych

1988 – FASTA – program do porównywania sekwencji nukleotydowych

1988 – Utworzenie NCBI (National Center for Biotechnology Information)

1990 – udostępnienie narzędzia BLAST (Basic Local Alignment Search Tool)

Page 7: Bioinformatyczne bazy danych - UMCSserwisy.umcs.lublin.pl/michal.kalita/analiza/analiza...• Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych

Przełom XX i XXI wieku – początek ery sekwencjonowania pełnych genomów

1995 genom Haemophilus influenzae1997 genom E. coli1997 genom drożdży S. cerevisiae1998 genom nicienia Caenorhabditis elegans1999 genom muszki owocowej2001 genom człowieka2005 genom szympansa

Rozwój metagenomiki, która zajmuje się uzyskiwaniem i analizą sekwencji genomowych całych populacji a nie pojedynczych osobników.

Trwające i zakończone duże projekty sekwencjonowania genomów:Mikrobiom przewodu pokarmowego człowieka – prawie 568 miliardów par zasad.Projekt sekwencjonowania 1000 genomów (ilość wygenerowanych danych przekroczyła 4TB)Projekt sekwencjonowania 100 000 genomów (Wielka Brytania)Projekt sekwencjonowania 100 000 genomów bakterii patogennychProjekt sekwencjonowania genomów 1000 guzów z 33 rodzajów nowotworów (próbki od 11 000 osób)

Page 8: Bioinformatyczne bazy danych - UMCSserwisy.umcs.lublin.pl/michal.kalita/analiza/analiza...• Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych

Biologiczne Bazy Danych

Baza danych to komputerowe archiwum wykorzystywane do przechowywania i organizowania danych w taki sposób, żeby zawarte w nich informacje można było w prosty sposób pobierać, wykorzystując różne kryteria wyszukiwania (Xiong, 2006).

Trzy kategorie biologicznych baz danych:Pierwszorzędowe (pierwotne) • Surowe dane biologiczne, archiwa sekwencji lub dane strukturalne wprowadzane do baz przez naukowców (GenBank, PDB)Drugorzędowe (wtórne) • Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych informacji z pierwszorzędowych baz danych (SWISS-PROT, PIR, Ref-Seq)

Specjalistyczne (Ribosomal Database Project, HIV Database, OMIM - Online Mendelian Inheritance in Man)

Page 9: Bioinformatyczne bazy danych - UMCSserwisy.umcs.lublin.pl/michal.kalita/analiza/analiza...• Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych

Ile jest biologicznych baz danych?

2020 – 1637 publiczne bazy danych 2017 – 17372012 – 1380…2001 – 281

Page 10: Bioinformatyczne bazy danych - UMCSserwisy.umcs.lublin.pl/michal.kalita/analiza/analiza...• Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych

Sekwencyjne Bazy Danych – Bazy Sekwencji Nukleotydowych

GenBank

Page 11: Bioinformatyczne bazy danych - UMCSserwisy.umcs.lublin.pl/michal.kalita/analiza/analiza...• Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych

Dwa kluczowe źródła bioinformatyczne – NCBi i EBI

http://www.ebi.ac.uk/

https://www.ncbi.nlm.nih.gov/

Metabazy: bazy danych kojarzące ze sobą rekordy z wielu typów baz

Page 12: Bioinformatyczne bazy danych - UMCSserwisy.umcs.lublin.pl/michal.kalita/analiza/analiza...• Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych

Uzyskiwanie danych z wielu baz (45) poprzez system Entrez(Global Cross-database NCBI search)

Page 13: Bioinformatyczne bazy danych - UMCSserwisy.umcs.lublin.pl/michal.kalita/analiza/analiza...• Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych
Page 14: Bioinformatyczne bazy danych - UMCSserwisy.umcs.lublin.pl/michal.kalita/analiza/analiza...• Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych

Podstawowe informacje o ostatniej wersji GenBank

Genetic Sequence Data BankJune 15 2020

NCBI-GenBank Flat File Release 238.0

Distribution Release Notes

427 823 258 901 bases, from 217 222 233 reported sequences (klasyczny GenBank)

(329 835 282 370 bases, from 213 383 758 reported sequences – June 15 2019)

8 501 494 606 348 bases, 1 787 640 846 sequences, for set-based (WGS/TSA/TLS) records

Pierwsza upubliczniona wersja GenBank (Release 3; December 1982) zawierała606 sekwencji o łącznej długości 680,338 zasad

Page 15: Bioinformatyczne bazy danych - UMCSserwisy.umcs.lublin.pl/michal.kalita/analiza/analiza...• Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych

Release 100, 15 April 1997 1274747 sequences, 842864309 bases

Page 16: Bioinformatyczne bazy danych - UMCSserwisy.umcs.lublin.pl/michal.kalita/analiza/analiza...• Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych

GENBANK AND WGS STATISTICS

Page 17: Bioinformatyczne bazy danych - UMCSserwisy.umcs.lublin.pl/michal.kalita/analiza/analiza...• Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych

GENBANK AND WGS STATISTICS

GenBankWGS

W październiku 2017 roku w bazie Sequence Read Archive (SRA) znajdowały się sekwencje o łącznej długości 14 x 1012 nukleotydów

Page 18: Bioinformatyczne bazy danych - UMCSserwisy.umcs.lublin.pl/michal.kalita/analiza/analiza...• Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych

Pułapki związane z korzystaniem z pierwotnych baz danych

- nie można traktować danych sekwencyjnych jako absolutnie niezmiennych i ostatecznych

- każda sekwencja w bazach jest wynikiem eksperymentu, czyli mniej lub bardziej dokładnego procesu sekwencjonowania (np. zanieczyszczone sekwencje pełnych genomów eukariotycznych sekwencjami pochodzenia bakteryjnego)

- problem wysokiej redundancji (nadmiarowości) danych

Page 19: Bioinformatyczne bazy danych - UMCSserwisy.umcs.lublin.pl/michal.kalita/analiza/analiza...• Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych

Pułapki związane z korzystaniem z pierwotnych baz danych.Rozwiązanie problemów:

RefSeq: drugorzędowa (wtórna) baza danych sekwencji -nieredundantna baza danych, w której połączono sekwencje identyczne z tych samych organizmów oraz fragmenty tej samej sekwencji w jeden rekord-sekwencje białkowe stworzone z jednej sekwencji DNA są ze sobą wyraźnie połączone jako powiązane rekordy-warianty sekwencji pochodzące z tego samego organizmu, charakteryzujące się bardzo niewielkimi różnicami, które mogą wynikać z błędów w sekwencjonowaniu traktuje się jako wyraźnie powiązane rekordy

Xiong (2006)

Page 20: Bioinformatyczne bazy danych - UMCSserwisy.umcs.lublin.pl/michal.kalita/analiza/analiza...• Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych

Analiza przykładowych rekordów bazy GenBank

U49845AF165912L00727

NM_001017963NC_012532.1

Numery dostępu sekwencji nukleotydowych w bazie GenBank:1 litera + 5 cyfr2 litery + 6 cyfrNp. sekwencje bezpośredniozgłaszane do bazy posiadają następujący prefiks:D, AB, LC DDBJ

V,X,Y,Z,AJ,AM, ENAFM,FN,HE,HF,HG,FO,LK,LL,LM,LN,LO,LR,LS,LT

U,AF,AY,DQ,EF, GenBankEU,FJ,GQ,GU,HM,HQ,JF,JN,JQ,JX,KC,KF,KJ,KM,KP,KR,KT,KU,KX,KY,MF,MG,MH,MK

Page 21: Bioinformatyczne bazy danych - UMCSserwisy.umcs.lublin.pl/michal.kalita/analiza/analiza...• Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych

Nag

łów

ek

Tab

ela

ce

ch

Sekwencja

wyświetlanie sekwencjiw formacie FASTA

Page 22: Bioinformatyczne bazy danych - UMCSserwisy.umcs.lublin.pl/michal.kalita/analiza/analiza...• Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych

Format FASTApowrót do formatu GenBank

> identyfikator sekwencji w formacie FASTA (pierwszy wiersz

zawierający opis sekwencji lub jej nazwę)

>sekwencja_1GCACCCGAGGGCCGGTTCCCCTCACAAAGACCAAG>sekwencja_2GTCAAGCGTCATTCTGCTGCCAAGCAACGTTGGAA>sekwencja_3AGCGCAAGGCGCAGATTGCCGCGATACGCCGGTCATCCGGCGATCTCGT...>sekwencja_n

Page 23: Bioinformatyczne bazy danych - UMCSserwisy.umcs.lublin.pl/michal.kalita/analiza/analiza...• Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych

RefSeq

The NCBI Handbook (2012)

Page 24: Bioinformatyczne bazy danych - UMCSserwisy.umcs.lublin.pl/michal.kalita/analiza/analiza...• Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych

Podział sekwencji zgodnie z ich typem lub pochodzeniem

Gruca (2010)

Page 25: Bioinformatyczne bazy danych - UMCSserwisy.umcs.lublin.pl/michal.kalita/analiza/analiza...• Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych

Sprawdź sekwencje o poniższych numerach dostępowych w sekwencyjnych bazach danych EMBL (ENA) i DDBJ:

AF165912L00727

NM_001017963NC_012532.1

Zapoznaj się z opcją wyświetlania rekordu w formie graficznejEMBL / NCBI.

Page 26: Bioinformatyczne bazy danych - UMCSserwisy.umcs.lublin.pl/michal.kalita/analiza/analiza...• Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych

Baza NCBI Gene

Znajdź geny przez:

Wolny tekst np. human muscular dystrophy

Niekompletną (częściową) nazwę i podanie więcej niż jednego gatunku np. transporter[title] AND ("Homo sapiens"[orgn] OR "Mus musculus"[orgn])

Numer chromosomu i symbol np. (II[chr] OR 2[chr]) AND adh*[sym]

Accession number np. M11313[accn]

Nazwę genu (symbol) np. PRNP[sym]

Publikację (PubMed ID) np. 11331580[PMID]

Ontologie Genów (GO) np. „retinol transporter activity"[GO]

Chromosom i gatunek np. X[CHR] AND human[ORGN]

Numery Enzyme Commission (EC) np. 5.1.1.1[EC]

Page 27: Bioinformatyczne bazy danych - UMCSserwisy.umcs.lublin.pl/michal.kalita/analiza/analiza...• Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych

Kwalifikatory wyszukiwaniaw bazie NCBI Nucleotide

Page 28: Bioinformatyczne bazy danych - UMCSserwisy.umcs.lublin.pl/michal.kalita/analiza/analiza...• Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych

Porady dotyczące korzystania z wyszukiwarki NCBI

• Operatory logiczne AND, OR i NOT powinny być zapisywane wielkimi literami. Domyślnie operator AND łączy dwa wprowadzone terminy.• Operatory logiczne działają od lewej do prawej. Jeśli dodasz nawiasy, wprowadzony do nich termin będzie potraktowany jako jedna jednostka.Porównaj wynik wyszukiwania Entrez Gene poniższymi frazami:

globin AND promoter OR enhancerglobin AND (promoter OR enhancer)

Zadania:1. Gen dla ludzkiego białka lysine demethylase zlokalizowany jest na chromosomie Y. Utwórz zapytanie do bazy NCBI Gene, które da jeden wynik dla właściwego genu.

2. W bazie NCBI Taxonomy znajdź identyfikator dla E. coli K12. Wykorzystując identyfikator i kwalifikator [taxid] znajdź w bazie NCBI Gene rekord dla genu repB, kodującego białko replikacyjne.

Page 29: Bioinformatyczne bazy danych - UMCSserwisy.umcs.lublin.pl/michal.kalita/analiza/analiza...• Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych

Baza ’Gene’ zadanie-Wyszukaj w bazie NCBI Gene ludzki gen BRCA1.Zapoznaj się z elementami rekordu w bazie ’Gene’-Podaj lokalizację chromosomową oraz liczbę eksonów genu BRCA1.-Podaj długość genu, mRNA i kodowanego białka wykorzystując dane z odpowiednich rekordów bazy RefSeq.-Sprawdź informacje dotyczące genu BRCA1 w bazie SNP (single nucleotidepolymorphism).-Korzystając z odpowiednich filtrów wyszukiwania sprawdź ile SNPów ma charakter mutacji ’frame shift’ a ile powoduje pojawienie się kodonu STOP.

Page 30: Bioinformatyczne bazy danych - UMCSserwisy.umcs.lublin.pl/michal.kalita/analiza/analiza...• Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych

Baza ’Nucleotide’ zadania:

1. Wyszukaj w bazie ’Nucleotide’ sekwencje o długości 1000 nt. Zawęź wyniki wyszukiwania do szympansa (użyj ’chimpanzee’ lub ’Pan troglodytes’)

2. Wyszukaj sekwencje nukleotydowe szczura w zakresie od 1500 do 2000 nukleotydów.

3. Znajdź sekwencje aminokwasowe białek krowy o ciężarze molekularnym od 5000 do 10000 Da.

4. Znajdź sekwencje aminokwasowe świni o długości 300 aminokwasów.

Page 31: Bioinformatyczne bazy danych - UMCSserwisy.umcs.lublin.pl/michal.kalita/analiza/analiza...• Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych

Narzędzie do zmiany formatu sekwencji

Emboss Seqret

http://www.ebi.ac.uk/Tools/sfc/emboss_seqret/

1. Wyszukaj w bazie GenBank sekwencję AF165912. Korzystając z opcji „Send” zapisz na komputerze plik z sekwencją w formacie GenBank (plik z rozszerzeniem .gb). Korzystając z narzędzia ’emboss seqret’ przekształć zapisaną sekwencję do formatu EMBL.

2. Wykorzystaj powyższe narzędzie do utworzenia pliku z sekwencją w formacie EMBL i GenBank z pliku w formacie .ab1(ćwiczenie 2 – sekwencja.ab1).

Page 32: Bioinformatyczne bazy danych - UMCSserwisy.umcs.lublin.pl/michal.kalita/analiza/analiza...• Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych

Pobieranie wielu sekwencji na podstawie ich numerów dostępowych

Batchentrez

https://www.ncbi.nlm.nih.gov/sites/batchentrez

Znajdź w bazie Pubmed artykuł opisujący ewolucję molekularną białkaOmpC bakterii z rodzaju Yersinia.

Otwórz pełną wersję artykułu. Poszukaj sekcji ’Supplementarymaterial’ i otwórz znajdujący się tam plik. Skopiuj wszystkie numerydostępowe sekwencji rozpoczynające się od ’KR’ dla gatunku Yersiniaintermedia. Utwórz plik tekstowy z pobranymi numerami. Wykorzystajutworzony plik do pobrania z bazy GenBank sekwencji w formacieFASTA.

Inny sposób to wykorzystanie kwalifikatora [accn].

Page 33: Bioinformatyczne bazy danych - UMCSserwisy.umcs.lublin.pl/michal.kalita/analiza/analiza...• Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych

Przeglądarki Genomów

NCBI Genome Data Viewerhttps://www.ncbi.nlm.nih.gov/genome/gdv/

ENSEMBLhttp://www.ensembl.org

USCShttps://genome.ucsc.edu/

Zapoznaj się z najnowszymi informacjami dotyczącymi genomu człowieka, korzystając z przeglądarki ENSEMBL i NCBI Genome Data Viewer.

Porównaj informacje z wydania GRCh 37 i GRCh 38

Page 34: Bioinformatyczne bazy danych - UMCSserwisy.umcs.lublin.pl/michal.kalita/analiza/analiza...• Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych

Guo i in. (2017) Genomics 109:83-90

Page 35: Bioinformatyczne bazy danych - UMCSserwisy.umcs.lublin.pl/michal.kalita/analiza/analiza...• Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych