Osnova

Embed Size (px)

DESCRIPTION

Osnova. 1. Bioinformatická data 1.1. Makromolekuly 1.2. Od DNA k proteinu 1.3. Proteiny 1.4. Databáze 2. Strojové učení v bioinformatice 2.1. Motivace 2.2. Význam řešení a jeho obtížnost 2.3. Oblasti aplikace. 3. Příklady problémů 3.1. Sekvence nukleotidů - identifikace genů - PowerPoint PPT Presentation

Citation preview

  • Osnova1. Bioinformatick data1.1. Makromolekuly1.2. Od DNA k proteinu1.3. Proteiny1.4. Databze

    2. Strojov uen v bioinformatice2.1. Motivace2.2. Vznam een a jeho obtnost2.3. Oblasti aplikace 3. Pklady problm3.1. Sekvence nukleotid - identifikace gen3.2. Proteinov sekvence3.3. Identifikace vznamnch mst ve struktue protein3.4. Klasifikace protein3.5. Principy proteinovch struktur3.6. Aminokyselinov zmna3.7. Analza experimentlnch dat

  • 1.1. Makromolekulynukleov kyselinyCTGCTGCTCTCCGGGGCCACGGCCACCGCTGCproteinyMNVLDSFINYYDSEKHAENAVIFLHGN

    kombinace ribozom (RNA + protein), glykoproteiny (sacharid + protein)

  • 1.2. Od DNA k proteinuDNA dlouhodob loit nvodu na ivotRNA aktuln vykonvan instrukceproteiny zajiuj vtinu chemie, regulace a st struktury

  • 1.2. Od DNA k proteinu - genyregulan sekykdujc st

  • 1.3. Protein se skldaj z aminokyselin (AA)

  • 1.3. Sekvence proteinuMSLGAKPFGEKKFIEIKGRRMAYIDEGTGDPILFQHGNPTSSYLWRNIMPHCAGLGRLIACDLIGMGDSDKLDPSGPERYAYAEHRDYLDALWEALDLGDRVVLVVHDWGSALGFDWARRHRERVQGIAYMEAIAMPIEWADFPEQDRDLFQAFRSQAGEELVLQDNVFVEQVLPGLILRPLSEAEMAAYREPFLAAGEARRPTLSWPRQIPIAGTPADVVAIARDYAGWLSESPIPKLFINAEPGALTTGRMRDFCRTWPNQTEITVAGAHFIQEDSPDEIGAAIAAFVRRLRPA

  • 1.3. Struktura proteinupteatomypovrch

  • 1.3. rovn strukturyPrimrn - sekvenceSekundrnKvarternTercirn topologie, souadnice

  • 1.4. Bioinformatick data - databzesekvencegenomick1proteinov2RNAstrukturyproteiny3RNAfunkcemutaceinterakce molekul, regulace, metabolick drhydatabze namench hodnot1www.ncbi.nlm.nih.gov/Genbank/2www.uniprot.org3www.pdb.org

  • 1.5. Co si odnst z voduDNA4 nukleotidy: a, c, g, tsekvence:gcatctcctggtaagcacatatgen pln pro vrobu proteingenom organismutisce a miliardy nukleotidstovky a destky tisc genproteinz 20 druh aminokyselindlka cca 100 400 aminokyselinsekvence: MLDAKQDCAWAYTLKGPstruktura

  • 2.1. Strojov uen v bioinformatice - motivacepesn vpoet nen monasnedostatek informac biomolekuly a jejich interakcejsou sloitje jich hodndatabze jsou voln dostupnsekvence >> struktura >> funkcepro 180 organism znme sekvenci celho genomu7.000.000 proteinovch sekvenc50.000 proteinovch struktur

  • 2.1. Nrst proteinovch sekvenc

  • 2.1. Nrst proteinovch struktur

  • 2.2. Vznam een a jeho obtnostVznam eenzkladn vzkumpraktick vyuitelnostobecn nstrojepesn pedpov pro malou komunitObtnost eennron pedzpracovnintegrace vpoetnch nstrojvolba algoritmujen pi novch problmechvbr atributmensloen sekvence

  • 2.3. Oblasti aplikace ML v bioinformatice 1genomikahledn gen (proteinov, RNA)regulan elementy

    urovn funkce genudodaten pravy genanalza mutac

    P. Larraaga et al. (2006) Machine learning in bioinformatics

  • 2.3. Oblasti aplikace ML v bioinformatice 2proteomikaklasifikace struktururovn funkce (Gene Ontology, Enzyme Commission number)urovn polohy v buce

    predikce struktury (lokln, hodnocen kvality pedpovdi, podle podobnosti)hodnocen komplexu protein mal molekulahodnocen komplexu protein proteinpredikce chovn proteinu (stabilita, rozpustnost, alergenicita)

    P. Larraaga et al. (2006) Machine learning in bioinformatics

  • 2.3. Oblasti aplikace ML v bioinformatice 3systmov biologiebiologick st (metabolick drhy, regulace genov exprese, mezibunn signalizace)grafy protein proteinovch interakcvlastnosti malch molekul (chemoinformatika)biologick aktivita obecnaktivita vzhledem k clov makromolekuleexperimentln datazpracovn obrazuvyhodnocen mnohorozmrnch dat (rozlien normlnch a rakovinn tkn) microarrays, hmotnostn spektrometrieindukce genovch regulanch st - microarraysdolovn znalost z textu

  • 3. Pklady problm

  • 3.1. Sekvence nukleotid identifikace genvznam petenho genomuGISMO1identifikace sekvenc kdujcch proteinyidentifikace znmch domn trnovac sadapozitivn: seky se sekvenc velmi podobnou profilu domnynegativn: ve stnu, s pekryvem vc ne 90 bpSVMfrekvence oligonukleotid dlky 3-9 (aaa, aac, ..., ttt)frekvence aminokyselin a jejich dvojic (AA, AC, ... YY)senzitivita = 94,3 %specificita = 94,3 %

    1Krause et. al (2007) GISMOgene identification using a support vector machine for ORF classification

  • 3.2. Proteinov sekvence(sekvence, pozice) tda(sekvence, pozice) reln sloJak pevst sekvenci na atributy?frekvence vskytu slov v okol pozice (AA, AC, AD, ..., YY)pohybliv oknopredikce vlastnosti pro pozici uprostedWARCKQMNVLDSFIN

  • 3.2. Neuronov st a sekvence

  • 3.2. Sekundrn struktura (SS) vodlokln uspodn aminokyselingeometrievodkov mstkyH: a-rouboviceE: b-listC: neuspodansamotn segment nen stabilnpesto je sekvence pro typ SS typick

  • 3.2. Sekundrn struktura PSIPREDPSIPRED1dvojice neuronovch stvstup: sekvencepedzpracovn: profil pbuznch sekvenc vstup: posloupnost C, H, E

    WARCKQMNVLDSFINYYDSEKHAENAVIFLHGNAASSYLWCCCEEEEEECCEEEEEEECCCCCCCEEEEECCCCCCHHHH6858999999668997799968987744429999999999 1 http://bioinf.cs.ucl.ac.uk/psipred/

  • 3.2. PSIPRED profil (PSI-BLAST PSSM)

    ARNDCQEGHILKMFPSTWYV1-1-1-2-3-20-2-3-212-160-3-2-1-2-112-1-2-2-2-3-1-1-2-2-3-3-1-3-48-1-1-4-3-33-1-1-2-3-20-2-3-212-160-3-2-1-2-114-1-2-1-2-1-2-2-3-331-20-1-203-3-225-2-2-4-4-1-2-3-4-324-320-3-3-1-2-1160-20-1-3-2-26-2-4-4-2-3-3-20-2-3-3-37-2-2-2-3-3-2-2-32-1-1-2-13-3-2-227-18-3-3-4-5-2-2-3-3-3-3-2-3-21-4-3-3112-39-2-155-301-10-3-40-3-3-20-1-4-3-310-1-3-3-3-1-3-3-4-342-310-3-3-1-3-1311-260-2-410-20-3-22-1-3-2-1-1-3-2-3120-20-1-3-2-26-2-4-4-2-3-3-20-2-3-3-313-2-2-4-4-1-2-3-4-324-320-3-3-1-2-11144-2-2-20-1-10-2-1-2-1-1-2-110-3-2015-201-1-300-28-3-3-1-2-1-2-1-2-32-3

  • 3.2. PSIPRED 1. neuronov sokno 15-ti aminokyselin15x21 vstup (20 AA + zatek nebo konec)75 neuron skryt vrstvy3 vstupn neurony (C, H, E)(0.2, 0.9, 0.1) pravdpodobn H (roubovice)

  • 3.2. PSIPRED 2. neuronov sokno 15-ti predikovanch SS15x4 vstup (3 vstupy 1. st + zatek nebo konec)60 neuron skryt vrstvy3 vstupn neurony odvozen konen predikce C, H, E a jej dvryhodnosti

    WARCKQMNVLDSFINYYDSEKHAENAVIFLHGCCCEEEEEECCEEEEEEECCCCCCCEEEEECC68589999996689977999689877444299

    CHE10,10,90,220,20,90,230,30,70,140,40,50,050,60,20,260,80,40,370,80,10,481,00,10,090,90,30,1100,80,40,3110,40,80,1120,80,50,2130,20,90,0140,10,30,3150,10,60,6

  • 3.2. PSIPRED testovn3-nsobn kov oventrnovac sada nesm obsahovat sekvence pbuzn tm z testovacQ3 = 76 (7,8) %Sov3 = 73,5 (12,7) %

  • 3.2. PSIPRED spnostjednoduchonlineCASP3 1998

  • 3.2. SS speciln situacesekvence + cirkulrn dichroizmus (CD) SS pozicstruktura + zmny sekvence + vsledn CD zmny SS pozic

    predikce pouze proteiny sloen pouze z alfa roubovic

  • 3.2. Dal strukturn charakteristiky sekvenceaccessible surface area (ASA)

    membrnov sekyvyuitpredikce struktury ze sekvencepredikce dsledku aminokyselinov zmny (nhrada struktury)hledn sekvenc podobnch struktue

  • 3.2. Vyuit SS a ASA predikce strukturyhttp://fold.it/portal/

  • 3.3. Identifikace vznamnch mst ve struktue proteinkter aminokyseliny jsoufosforylovnyglykosylovnymstem proteolytickho tpenkatalytickinteraguj s DNA, RNA, jinm proteinem(struktura proteinu, pozice) atributy tdavtinou lze odvozovat i z pouh sekvence

  • 3.4. Klasifikace proteinvstup: sekvencestrukturapedzpracovn: staen informac z databzehledn pbuznch proteinvpotycelkov (voln energie)pro pozice (evolun konzervovanost)vstup: tda (lokalizace v buce, topologie, funkce)

  • 3.5. Principy proteinovch strukturstruktura proteinusouadnice vech atomstrukturu neumme pedpovdt pesntopologie: uspodn sekundrnch elementv sekvencivzjemn poloha ve struktueklasifikacespn topologieklasifikace proteinovch struktur podle topologie SCOP11A. G. Murzin et al.: SCOP http://scop.berkeley.edu/

  • 3.5. Objevovn strukturnch princip proteinklasifikace novch struktur podle topologie (fold)popis druhu topologieTIM barel (SCOP): contains parallel b-sheet barrel, closed; n = 8; S = 8; strand order 12345678Dokeme definice generovat automaticky1?1Cootes, Muggleton, Sternberg (2003) The Automatic Discovery of Structural Principles Describing Protein Fold Space

  • 3.5. Topologie protein znalostn bze a pkladyinduktivn logick programovn, Progolznalostn bzeprotein p1 m 9 a-roubovicprotein p1 m skldan list sloen z 8 b-segmentprotein p1 m a-roubovici na pozici 2 kter se dotk b-segmentu na pozicpkladyprotein p1 je tim_barelprotein p1 nen globinprotein p1 nen rossman

  • 3.5. Topologie protein - uenProgol buduje pravidlakomprese pravidla f = p - n - cp pozitivn pklady pokryt pravidlemn negativn pklady pokryt pravidlemc dlka pravidla

    najdi pravidlo s maximln kompresvyma pozitivn pklady pokryt pravidlemopakuj se zbytkem pozitivnch pklad

  • 3.5. Topologie protein - vsledkyueno 45 topologiQ = 97 % (oproti 95 %)precision 77 %recall 55 %10 topologi s nejvtm potem pozitivnch pklad:precision 83 %recall 69 %

  • 3.5. Fold - imunoglobulinov foldSCOP: Sandwich; seven strands in two sheets; greek-key; some members of the fold have additional strandsILP: Has antiparallel sheets B and C; B has three strands, topology 123; C has four strands, topology 2134

  • 3.5. Fold - Rossmanv foldSCOP: Core: three layers, a/b/a; parallel b-sheet of six strands, order 321456ILP: Has between three and four helices; Has a-helix B as the second core element in the sequence; B contains a glycine residue in both its middle and N-terminal regionsOR Has a parallel sheet B of six strands with topology 321456; Has a-helices C and D as the seventh and the ninth core elements in the sequence respectively; C and D are in contact and parallel

  • 3.6. Dsledek aminokyselinov zmny (AAS)variabilita genotypu cca 1 %zmna nukleotidu me vyvolat aminokyselinovou substituci (AAS)AAS vyvol zmna funkce proteinuvtina je neutrlnch, ale nkter mohou zmnit funkci proteinu a tm i fenotyp organizmu

    LMLVLALYDYQEKSPREVTMKKGDILTLLNSTNKDAWKVEVNDRQGFVPAAYVKKLDLMLVLALYDYQEKSPREVTMKKGDILTLLNSTNKDWWKVEVNDRQGFVPAAYVKKLD

    Je dan AAS spojena s vym rizikem onemocnn?

  • 3.6. Dsledek mutace pro MLodlin charakteristiky AAS se vztahem k jej kodlivostipredikovan zmna voln energie proteinuevolun konzervovanostfrekvence vskytu AA v danm strukturnm nebo sekvennm kontextupesn matematick model neexistujevelikost systmuneznm interakceaplikaceprioritizace klinickch studiproteinov inenrstvcelogenomov analzy

  • 3.6. Dsledek mutace ze struktury AUTO-MUTEaminokyselina bod, triangulace (Delaunay)

    atributysklon AA vyskytovat se v danm prostedidentita 6 sousednch AAvoln prostor v okol (objem tystn)poloha (povrch, pod povrchem, hluboko)sekundrn struktura

  • 3.6. AUTO-MUTE - vsledky1790 lidskch AASnevyven sada: 458 neutral, 1332 disease associatedWeka, vybrn nhodn lesQ2 = 76 % (20-fold)nen nejlepvyaduje 6 sousednch aminokyselinzk vbr atribut, pesnost pjde snadno zlepit ...... ale pichz s originln sadou atribut

  • 3.6. SNAP1 - datanon-neutral: 40.641 AAS s experimentln prokzanm vlivem na funkci proteinuneutral: 14.334 neutrlnch + doplnno rozdly mezi pbuznmi proteiny80.000 pkladsekvence (MLKDEQHAGL...)mutace (A54L)dsledek (non-neutral/neutral)

    1Yana Bromberg, Burkhard Rost (2007) SNAP: predict effect of non-synonymous polymorphisms on function

  • 3.6. SNAP atributy 1

    vstup: sekvence (MALKRSD), AAS (G54W)komplexn pedzpracovn:sekvenn okno ky 21 aminokyselinpredikovan sekundrn strukturapredikovan povrch dostupn rozpoutdluzmna vlastnost AA (velikost, nboj)pravdpodobnost triplet LMNLA: LMN, MNL, NLA vs. LMI, MIL, ILA

  • 3.6. SNAP atributy 2vzorek podobnch sekvenc (vceetn zarovnn, PSSM)

    ARNDCQEGHILKMFPSTWYV-1-1-2-3-20-2-3-212-160-3-2-1-2-11

  • 3.6. SNAP neuronov sneuronov s trnovan na 80.000 AAS137 vstupnch, 45 skrytch uzl, 2 vstupndeleterious / non-neutral

    10 fold, zakzan sekvenn podobnost nad 21 %8 pro uen1 pro test zastaven1 pro krosvalidaci

  • 3.6. SNAP - vsledkyQ2 = 79 %

    Accuracynon-neutral = 76.3 0.8 Accuracyneutral = 82.0 2.4

    Coveragenon-neutral = 83.3 1.0 Coverageneutral = 74.7 2.2

  • 3.7. Analza experimentlnch datgenov exprese (microarrays)hmotnostn spektrometrie identifikace molekul

    Lancashire (2009) An introduction to artificial neural networks in bioinformatics-application to complex microarray and mass spectrometry datasets in cancer studiesAssareh et al. (2007) A novel ensemble strategy for classification of prostate cancer protein mass spectra

  • 4. MonografieBaldi P, Brunak S. Bioinformatics. The Machine Learning Approach. MIT Press 2001.Zhang Y, Rajapakse J C. Machine Learning in Bioinformatics. Wiley 2008.Durbin R, Eddy SR, Krogh A, et al. Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids. Cambridge University Press 1998.Gary B Fogel, David W Corne. Evolutionary Computation in Bioinformatics. Morgan Kaufmann 2002.Artificial Intelligence and Heuristic Methods in Bioinformatics Volume 183, NATO Science Series: Computer and Systems Sciences Edited. NATO, 2003.In Higgins D, Taylor W (Eds.). Bioinformatics. Sequence, Structure, and Databanks. Oxford University Press 2000.In Husmeier D, Dybowski R, Roberts S (Eds.). Probabilistic Modeling in Bioinformatics and Medical Informatics. Springer Verlag 2005.Jagota A. Data Analysis and Classification for Bioinformatics. Bioinformatics by the Bay Press 2000.In Jiang T, Xu X, Zhang MQ (Eds.). Current Topics in Computational Molecular Biology. The MIT Press 2002.Pevzner PA. Computational Molecular Biology. An Algorithmic Approach. MIT Press 2000.In Schlkopf B, Tsuda K, Vert J-P (Eds.). Kernel Methods in Computational Biology. The MIT Press 2004.In Seiffert U, Jain LC, Schweizer P (Eds.). Bioinformatics Using Computational Intelligence Paradigms. Springer Verlag 2005.In Wang JTL, Zaki MJ, Toivonen HTT (Eds.), et al. Data Mining in Bioinformatics. Springer-Verlag 2004.Wu CH, McLarty JW. Neural Networks and Genome Identification Elsevier 2000.

  • 4. asopisyBioinformaticsBMC BioinformaticsNucleic Acids ResearchMachine LearningJournal of Machine Learning ResearchIEEE Intelligent SystemsJournal of Computer-Aided Molecular DesignJournal of Molecular BiologyProteinsBriefings in Bioinformatics

  • 4. Tematick sla asopisWu CH, McLarty JW. Neural Networks and Genome Identification Elsevier 2000.Larraaga P, Menasalvas E, Pea JM, et al. Special issue in data mining in genomics and proteomics. Artificial Intelligence in Medicine 2003.Li J, Wong L, Yang Q. Special issue on data mining for bioinformatics. IEEE Intelligent Systems 2005.Ling CX, Noble WS, Yang Q. Special issue: Machine learning for bioinformatics-part 1. IEEE/ACM Transactions on Computational Biology and Bioinformatics 2005.