Upload
marek-turnovec
View
411
Download
1
Embed Size (px)
DESCRIPTION
Přednáška v rámci specializační odborné stáže v molekulární genetice, pondělí 5. listopadu 2012, Ústav biologie a lékařské genetiky 2. LF UK a FN Motol, Praha
Citation preview
Využití internetových databází v Využití internetových databází v DNA diagnosticeDNA diagnostice
MUDr. Marek TurnovecMUDr. Marek Turnovec
Ústav biologie a lékařské genetikyÚstav biologie a lékařské genetikyUK 2. LF a FN MotolUK 2. LF a FN Motol
Pondělí 5. listopadu 2012Pondělí 5. listopadu 2012
Specializační odborná stáž v molekulární geneticeSpecializační odborná stáž v molekulární genetice
OsnovaOsnova
● základní pojmy, historiezákladní pojmy, historie
● databázové modely, relační databáze, SQLdatabázové modely, relační databáze, SQL
● klient-server, webklient-server, web
● sekvenční a genomové databáze, variace, NGSsekvenční a genomové databáze, variace, NGS
● lokus-specifické databáze, proteinové databázelokus-specifické databáze, proteinové databáze
● OMIM, PubMed, Entrez, API, toolkityOMIM, PubMed, Entrez, API, toolkity
● cytogenetické databázecytogenetické databáze
● klinicko-genetické databáze, Orphanetklinicko-genetické databáze, Orphanet
● databáze laboratoří v ČRdatabáze laboratoří v ČR
Definice pojmu „databáze“Definice pojmu „databáze“
● uspořádaná uspořádaná množina informacímnožina informací na paměťovém na paměťovém médiumédiu
● dnes obvykle v dnes obvykle v elektronické/digitální podoběelektronické/digitální podobě● systém pro správu datsystém pro správu dat
● ukládáníukládání● získávánízískávání● vyhledávánívyhledávání● (odstraňování)(odstraňování)● filtrování, sestavy, výpočty, statistika, etc.filtrování, sestavy, výpočty, statistika, etc.
● Create● Read● Update● Delete
„„Analogové“ databázeAnalogové“ databáze
obrázky: sxc.hu
● Různé seznamy – např. soupis adres, telefonní Různé seznamy – např. soupis adres, telefonní seznamseznam
● KatalogyKatalogy● Kartotéka („lístkovnice“) - 18. století, Carl LinnéKartotéka („lístkovnice“) - 18. století, Carl Linné● Děrné štítky, děrné páskyDěrné štítky, děrné pásky
Elektronické/digitální databázeElektronické/digitální databáze
● Elektromechanické stroje zpracovávaly děrné štítky již na Elektromechanické stroje zpracovávaly děrné štítky již na konci 19. stoletíkonci 19. století
● 1890 – sčítání lidu v USA1890 – sčítání lidu v USA
● Další rozvoj od poloviny 20. století společně s vývojem Další rozvoj od poloviny 20. století společně s vývojem počítačůpočítačů
● 1960 – COBOL1960 – COBOL● 1965 – síťové databáze pro sálové počítače1965 – síťové databáze pro sálové počítače● 1970 – E. F. Codd – relační databáze1970 – E. F. Codd – relační databáze● 1975 – SQL1975 – SQL
Univac 1108, rok 1964(Zdroj Wikipedia)
SŘBD?
Databázové modelyDatabázové modely
● „„plochý“ - flatplochý“ - flat● hierarchickýhierarchický● síťovýsíťový● relačnírelační● objektovýobjektový
SŘBD = systém řízení báze dat
DBMS = database management system
Flat fileFlat filevzorek jméno mutace1 mutace2
1 Jan N. F508del nenalezena
2 Petr V. F508del F508del
3 Eva M. nenalezena nenalezena
4 Josef P. CFTR del2,3 nenalezena
Relační modelRelační modelvzorek jméno mutace1 mutace2
1 Jan N. 2 1
2 Petr V. 2 2
3 Eva M. 1 1
4 Josef P. 3 1
mutace_id mutace_nazev
1 nenalezena
2 F508del
3 CFTR del2,3
CSV – comma separated valuesCSV – comma separated values
Příklady relačníchPříklady relačníchdatabázových systémůdatabázových systémů
● DB2 (IBM)DB2 (IBM)● InformixInformix● OracleOracle● Sybase SQL ServerSybase SQL Server● MySQL / MariaDBMySQL / MariaDB● PostgreSQLPostgreSQL● Microsoft SQL ServerMicrosoft SQL Server● JET Engine (Microsoft Office JET Engine (Microsoft Office AccessAccess))
SQL - SQL - SStructured tructured QQuery uery LLanguageanguage
SELECT * FROM SELECT * FROM vysledkyvysledky WHERE WHERE vzorekvzorek=1;=1;
SELECT * FROM SELECT * FROM vysledkyvysledky WHERE WHERE mutace1mutace1="nenalezena" AND ="nenalezena" AND mutace2mutace2="nenalezena";="nenalezena";
SELECT vzorek FROM SELECT vzorek FROM vysledkyvysledky WHERE WHERE mutace1mutace1="F508del" OR ="F508del" OR mutace2mutace2="F508del";="F508del";
INSERT INTO INSERT INTO vysledkyvysledky ( (vzorekvzorek, , jmenojmeno, , mutace1mutace1, , mutace2mutace2)) VALUES ("5", "Tereza M.", "nenalezena", "nenalezena") VALUES ("5", "Tereza M.", "nenalezena", "nenalezena")
vzorek jméno mutace1 mutace2
1 Jan N. F508del nenalezena
2 Petr V. F508del F508del
3 Eva M. nenalezena nenalezena
4 Josef P. CFTR del2,3 nenalezena
tabulka "vysledky"
NoSQL databázeNoSQL databáze
● pro dotazy se nepoužívá jazyk SQLpro dotazy se nepoužívá jazyk SQL● pro uchování velkých objemů dat, kde relace pro uchování velkých objemů dat, kde relace
nejsou tak důležiténejsou tak důležité● každý záznam může mít různou strukturukaždý záznam může mít různou strukturu● dobře škálovatelné (replikace na více strojů)dobře škálovatelné (replikace na více strojů)● kde se používají: Google, Amazon, Facebook, kde se používají: Google, Amazon, Facebook,
Twitter...Twitter...● CouchDB, MongoDBCouchDB, MongoDB
Nejrozšířenější databáze na světě... MS Excel :-)Nejrozšířenější databáze na světě... MS Excel :-)
● nějaký pěkný obrázek Excelu?nějaký pěkný obrázek Excelu?
Architektura klient-serverArchitektura klient-server
● Databáze běží centrálně na serveru● jednodušší správa (např. zálohování)● menší nároky na klientské počítače
● Přístup možný z více míst současně
Online a webové databázeOnline a webové databáze
● architektura klient-serverarchitektura klient-server● možnost přístupu odkudkolivmožnost přístupu odkudkoliv● obvykle stačí obyčejný prohlížečobvykle stačí obyčejný prohlížeč● API pro přístup z jiných systémůAPI pro přístup z jiných systémů
Genomové databázeGenomové databáze
● databáze tzv. referenčních sekvencídatabáze tzv. referenčních sekvencí● data z laboratoří z celého světa jsou zasílána data z laboratoří z celého světa jsou zasílána
do jedné ze 3 databází:do jedné ze 3 databází:● EMBL-Bank (Cambridge) - EMBL-Bank (Cambridge) - www.ebi.ac.uk/emblwww.ebi.ac.uk/embl● GeneBank (USA) - GeneBank (USA) - www.ncbi.nlm.nih.gov/genbankwww.ncbi.nlm.nih.gov/genbank● DDBJ (Japonsko) -DDBJ (Japonsko) - www.ddbj.nig.ac.jpwww.ddbj.nig.ac.jp
● dohoda na společném/kompatibilním formátudohoda na společném/kompatibilním formátu● obsah databází se každý den synchronizujeobsah databází se každý den synchronizuje
International Nucleotide Sequence International Nucleotide Sequence Database Collaboration Database Collaboration
www.insdc.orgwww.insdc.org
● ENA/EMBL/EBIENA/EMBL/EBI● European Nucleotide ArchiveEuropean Nucleotide Archive● European Molecular Biology LaboratoryEuropean Molecular Biology Laboratory● European Bioinformatics InstituteEuropean Bioinformatics Institute
● GeneBank / NCBI / NIHGeneBank / NCBI / NIH● National Center for Biotechnology InformationNational Center for Biotechnology Information● National Institute of HealthNational Institute of Health
● DDNJDDNJ● DNA Databank of JapanDNA Databank of Japan
„„Genome browsers“Genome browsers“
● slouží k prohlížení dat z genomových databázíslouží k prohlížení dat z genomových databází● „„stand-alone“ aplikacestand-alone“ aplikace● „„web-based“web-based“
● Ensembl (Sanger Institute a EBI)Ensembl (Sanger Institute a EBI)www.ensembl.orgwww.ensembl.org
● NCBI Map ViewerNCBI Map Viewerwww.ncbi.nlm.nih.gov/projects/mapviewwww.ncbi.nlm.nih.gov/projects/mapview
● UCSC Genome BrowserUCSC Genome Browsergenome.ucsc.edugenome.ucsc.edu
ArgoArgo
www.broadinstitute.org/annotation/argo/
EnsemblEnsembl
Ensembl – Homo SapiensEnsembl – Homo Sapiens
Ensemble Genomes (2009)Ensemble Genomes (2009)
BioMart
Download dat
Human Genome ProjectHuman Genome Project
● mezinárodní projekt pro určení sekvence mezinárodní projekt pro určení sekvence celého lidského genomu a mapování všech asi celého lidského genomu a mapování všech asi 20000 genů20000 genů
● 1990 zahájení projektu, plán byl na 1990 zahájení projektu, plán byl na 15 let15 let● rozpočet rozpočet 3 miliardy USD3 miliardy USD● 2000 první pracovní verze lidského genomu2000 první pracovní verze lidského genomu● 2003 „konečná“ verze2003 „konečná“ verze● 2006 sekvence posledního chromosomu (1) 2006 sekvence posledního chromosomu (1)
publikována v publikována v NatureNature
www.ncbi.nlm.nih.gov/snpwww.ncbi.nlm.nih.gov/snp
● spuštěno 1998, jako doplněk k GenBankspuštěno 1998, jako doplněk k GenBank
● databáze variací:databáze variací:● SNP (single nucleotide polymorphism)SNP (single nucleotide polymorphism)● short indels (insertion/deletion)short indels (insertion/deletion)● STR (short tandem repeat)STR (short tandem repeat)● MNP (multinucleotide polymorphism)MNP (multinucleotide polymorphism)● heterozygotní sekvenceheterozygotní sekvence● pojmenované variantypojmenované varianty
● přes 50 různých druhůpřes 50 různých druhů
● pro člověka více než 187 miliónů záznamůpro člověka více než 187 miliónů záznamů
● data je možné stáhnout pomocí FTPdata je možné stáhnout pomocí FTP
www.hapmap.orgwww.hapmap.org
● 2002 zahájení projektu2002 zahájení projektu
● USA, Kanada, VB, Čína, Japonsko, NigérieUSA, Kanada, VB, Čína, Japonsko, Nigérie
● 269 jedinců:269 jedinců:● 30x dítě + oba rodiče z Nigérie30x dítě + oba rodiče z Nigérie● 30x dítě + oba rodiče z Evropy30x dítě + oba rodiče z Evropy● 44 nepříbuzných Japonců (Tokyo)44 nepříbuzných Japonců (Tokyo)● 45 nepříbuzných Chanů 45 nepříbuzných Chanů
● SNP s frekvencí vyšší než 1 %SNP s frekvencí vyšší než 1 %
● možnost data stáhnout,možnost data stáhnout,prohlížeč na stránkách projektuprohlížeč na stránkách projektu
obrázky: Wikimedia Commons
http://www.broadinstitute.org/scientific-community/science/programs/medical-and-population-genetics/haploview/haploview
Win/Mac//Linux (Java)
www.1000genomes.orgwww.1000genomes.org
● 2008 – zahájení2008 – zahájení● cíle:cíle:
● nejpodrobnější databáze genetických variacínejpodrobnější databáze genetických variací● do 3 let osekvenovat celý genom alespoň 1000 do 3 let osekvenovat celý genom alespoň 1000
jedincůjedinců
● současný stav: osekvenovat 2000 genomůsoučasný stav: osekvenovat 2000 genomů
Next-generation sequencing (NGS)Next-generation sequencing (NGS)
● Sanger („old generation“) - dideoxynukleotidySanger („old generation“) - dideoxynukleotidy● pyrosekvenování (454)pyrosekvenování (454)● Solexa/Illumina – reverzibilní ukončující bázeSolexa/Illumina – reverzibilní ukončující báze● SOLiD Sequencing – ligaceSOLiD Sequencing – ligace● polovodičové sekvenování (Ion Torrent, Ion polovodičové sekvenování (Ion Torrent, Ion
Proton)Proton)
Genetický kódGenetický kódPrvní báze Druhá báze Třetí báze
U C A G
U UUU - fenylalanin UUC - fenylalanin UUA - leucin UUG - leucin
UCU - serin UCC - serin UCA - serin UCG - serin
UAU - tyrozin UAC - tyrozin UAA - stop kodön UAG - stop kodón
UGU - cystein UGC - cystein UGA - stop kodón UGG - tryptofan
UCAG
C CUU - leucin CUC - leucin CUA - leucin CUG - leucin
CCU - prolin CCC - prolin CCA - prolin CCG - prolin
CAU - histidin CAC - histidin CAA - glutamin CAG - glutamin
CGU - arginin CGC - arginin CGA - arginin CGG - arginin
UCAG
A AUU - isoleucin AUC - isoleucin AUA - isoleucin AUG - methionin
ACU - threonin ACC - threonin ACA - threonin ACG - threonin
AAU - kys. asparagová AAC - kys. asparagová AAA - lysin AAG - lysin
AGU - serin AGC - serin AGA - arginin AGG - arginin
UCAG
G GUU - valin GUC - valin GUA - valin GUG - valin
GCU - alanin GCC - alanin GCA - alanin GCG - alanin
GAU - kys. asparagová GAC - kys. asparagová GAA - kys. glutamová GAG - kys. glutamová
GGU - glycin GGC - glycin GGA - glycin GGG - glycin
UCAG
UniProtUniProt
● Universal Protein resourceUniversal Protein resource● Konsorcium:Konsorcium:
● EBIEBI● Swiss Institute of BioinformaticsSwiss Institute of Bioinformatics● Protein Information ResourceProtein Information Resource
www.uniprot.orgwww.uniprot.org
Specifické databázeSpecifické databáze
● Cystic Fibrosis Mutation DatabaseCystic Fibrosis Mutation Databasegenet.sickkids.on.cagenet.sickkids.on.ca
http://www.cftr2.org/
Z českých luhů a hájůZ českých luhů a hájů
Mendelian Inheritance in Men (MIM)Mendelian Inheritance in Men (MIM)
● katalog všech známých katalog všech známých genetických onemocněnígenetických onemocnění
● odkazy na geny (jsou-li známé)odkazy na geny (jsou-li známé)● Victor A. McKusickVictor A. McKusick● 1. vydání – 19661. vydání – 1966● 12. vydání – 199812. vydání – 1998● fenotypy i genyfenotypy i geny● až na pár výjimek neobsahuje až na pár výjimek neobsahuje
chromosomální aberacechromosomální aberace
Victor A. McKusickFoto: Wikipedia
MIM kódyMIM kódy1. číslice Rozsah Dědičnost
1 100000–199999 AD (před 1994)
2 200000–299999 AR (před 1994)
3 300000–399999 X-vázaná
4 400000–499999 Y-vázaná
5 500000–599999 mitochontriální
6 600000– AD (po 1994)
Symbol Význam
* gen o známé sekvenci
# fenotyp
+ gen + fenotyp
% fenotyp, lokus, ale ne sekvence
žádný symbol mendelovská dedičnost nejistá
^ odstraněný či přesunutý záznam
Online Mendelian Inheritance in MenOnline Mendelian Inheritance in Men
● online verze spravovaná NCBIonline verze spravovaná NCBI● časté aktualizacečasté aktualizace● oproti tištěné verzi více odkazů (do jiných oproti tištěné verzi více odkazů (do jiných
databází, literatura...)databází, literatura...)● těsné propojení na další služby NCBI (PubMed, těsné propojení na další služby NCBI (PubMed,
MapViewer...) MapViewer...)
www.ncbi.nlm.nih.gov/omimwww.ncbi.nlm.nih.gov/omim
PubMedPubMed
● online přístup do databáze MEDLINEonline přístup do databáze MEDLINE((MedMedical ical LiLiterature Analysis and Retrieval System Onterature Analysis and Retrieval System Onlineline))
● články od roku 1950články od roku 1950● asi 5000 časopisů (i některé české)asi 5000 časopisů (i některé české)● pro lepší výsledky hledání nutné jisté znalosti:pro lepší výsledky hledání nutné jisté znalosti:
● MeSH slovník, limitování a kombinování MeSH slovník, limitování a kombinování dotazů, etc.dotazů, etc.
www.ncbi.nlm.nih.gov/pubmedwww.ncbi.nlm.nih.gov/pubmed
EntrezEntrez
● portál pro vyhledávání v mnoha portál pro vyhledávání v mnoha biomedicínských databázíchbiomedicínských databázích
● sekvence (DNA, RNA), geny, variantysekvence (DNA, RNA), geny, varianty● proteiny a jejich strukturaproteiny a jejich struktura● OMIM, OMIAOMIM, OMIA● články v odborných časopisechčlánky v odborných časopisech● monografiemonografie
www.ncbi.nlm.nih.gov/Entrez
Bio* toolkityBio* toolkity
● BioPerl (1995)BioPerl (1995)● BioPython (1999)BioPython (1999)● BioJava (1999)BioJava (1999)
POSSUM WebPOSSUM Web
● dysmorfologická databázedysmorfologická databáze● >3000 syndromů>3000 syndromů● metabolické, chromosomální, skeletální i metabolické, chromosomální, skeletální i
vícečetné vadyvícečetné vady● aktualizace každý měsícaktualizace každý měsíc● fotografie, rtgfotografie, rtg● přístup přes web, nutný hardwarový klíčpřístup přes web, nutný hardwarový klíč● roční předplatné roční předplatné $300$300
www.possum.net.auwww.possum.net.au
London Medical DatabasesLondon Medical Databases
● The Winter-Baraitser Dysmorphology Database (WBDD)The Winter-Baraitser Dysmorphology Database (WBDD)
● více než 4450 syndromů – dysmorfologie, vícečetné vrozené více než 4450 syndromů – dysmorfologie, vícečetné vrozené vady, monogenní choroby, mikrodeleční syndromy, mentální vady, monogenní choroby, mikrodeleční syndromy, mentální retardaceretardace
● fotografie, možnost vyhledávání dle příznakůfotografie, možnost vyhledávání dle příznaků
● The Baraitser-Winter Neurogenetics Database (BWND)The Baraitser-Winter Neurogenetics Database (BWND)
● přes 4000 neurogenetických syndromůpřes 4000 neurogenetických syndromů● kromě fotografií i CT, MRI, EEGkromě fotografií i CT, MRI, EEG
● The London Ophthalmic Genetics Database (GENEEYE)The London Ophthalmic Genetics Database (GENEEYE)
● 2750 oftalmologických stavů s genetickým pozadím2750 oftalmologických stavů s genetickým pozadím
● £600 za 1 databázi, další updaty £200 ročně£600 za 1 databázi, další updaty £200 ročně
Seznam syndromůSeznam syndromů
Popis syndromuPopis syndromu
PříznakyPříznaky
Vyhledávání podle příznakůVyhledávání podle příznaků
LiteraturaLiteratura
Obrazová dokumentaceObrazová dokumentace
asi 20000 obrázků:fotografie, RTG,CT, MRI, EEG,mikrofotografie...
OrphanetOrphanet
● mezinárodní portál pro vzácná onemocnění mezinárodní portál pro vzácná onemocnění ((rare diseasesrare diseases) a „léčivé přípravky pro léčbu ) a „léčivé přípravky pro léčbu vzácných onemocnění“ (vzácných onemocnění“ (orphan drugsorphan drugs))
● vzácné onemocnění – vzácné onemocnění – prevalence < 1:2000prevalence < 1:2000● původně vznikl ve Francii, dnes projekt na původně vznikl ve Francii, dnes projekt na
Evropské úrovniEvropské úrovni● chtějí se připojit další země – Kanada, chtějí se připojit další země – Kanada,
Japonsko, Maroko...Japonsko, Maroko...● spolupráce na nové revizi MKNspolupráce na nové revizi MKN
www.orpha.net
Co Orphanet nabízí?Co Orphanet nabízí?
● 5954 vzácných onemocnění (k dubnu 2012)5954 vzácných onemocnění (k dubnu 2012)● ≈≈ polovina encyklopedicky zpracovanýchpolovina encyklopedicky zpracovaných
● klasifikaceklasifikace● léčiva pro vzácná onemocnění – ve všech léčiva pro vzácná onemocnění – ve všech
fázích vývoje/výrobyfázích vývoje/výroby● adresáře:adresáře:
● expertní klinická pracovištěexpertní klinická pracoviště● diagnostické a genetické laboratořediagnostické a genetické laboratoře● pacientské organizacepacientské organizace
www.orphanet.cz
Cytogenetické databázeCytogenetické databáze
● ECARUCA ECARUCA - - European Cytogeneticists Association European Cytogeneticists Association Register of Unbalanced Chromosome AberrationsRegister of Unbalanced Chromosome Aberrations
cytogenetické nálezy + klinické příznakycytogenetické nálezy + klinické příznaky
http://umcecaruca01.extern.umcn.nl:8080/ecaruca/http://umcecaruca01.extern.umcn.nl:8080/ecaruca/
● DECIPHERDECIPHER - - Database of Chromosomal Imbalance Database of Chromosomal Imbalance and Phenotype in Humans Using Ensembl Resourcesand Phenotype in Humans Using Ensembl Resources
získává data z různých bioinformatických zdrojů v získává data z různých bioinformatických zdrojů v souvislosti s nerovnováhou nalezenou u konkrétního souvislosti s nerovnováhou nalezenou u konkrétního pacientapacienta
http://decipher.sanger.ac.uk/http://decipher.sanger.ac.uk/
Databáze laboratoří v ČRDatabáze laboratoří v ČR
● cytogenetickécytogenetické laboratoře laboratoře● kontaktní údaje, prováděná vyšetřeníkontaktní údaje, prováděná vyšetření
● molekulárně-genetické molekulárně-genetické laboratořelaboratoře● kontaktní údajekontaktní údaje● vyšetřované geny, včetně OMIM kóduvyšetřované geny, včetně OMIM kódu● informace o akreditaci/certifikaci, kontrole kvalityinformace o akreditaci/certifikaci, kontrole kvality
● pracoviště pracoviště klinické genetikyklinické genetiky
www.slg.cz/pracovistewww.slg.cz/pracoviste
www.eddnal.com
GeneTestsGeneTests
● GeneReviewsGeneReviews● Laboratory DirectoryLaboratory Directory● Clinic directoryClinic directory● Educational materialsEducational materials
http://www.ncbi.nlm.nih.gov/sites/GeneTests/http://www.ncbi.nlm.nih.gov/sites/GeneTests/
Děkuji za pozornost.Děkuji za pozornost.
[email protected]@lfmotol.cuni.cz
[email protected]@turnovec.cz