58
Methoden der Bioinformatik Einführung in Bash und Python Carl Herrmann IPMB Universität Heidelberg eilslabs – B080 – DKFZ [email protected]

Methoden der Bioinformatik - bioinfo.ipmb.uni-heidelberg.de · Methoden der Bioinformatik Einführung in Bash und Python Carl Herrmann IPMB Universität Heidelberg eilslabs – B080

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Methoden der BioinformatikEinführung in Bash und Python

Carl HerrmannIPMB Universität Heidelbergeilslabs – B080 – [email protected]

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

1922Leonard Thompson14 Jahre Typ 1 Diabetes

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

1922

Pankreasextrakte

Leonard Thompson14 Jahre Typ 1 Diabetes

Dr. Frederick Banting

520 mg/dl↓

120 mg/dl

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Welches Insulin sollte man dieser Patiente injizieren ?

1922

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Welches Insulin sollte man dieser Patiente injizieren ?

1951

1960

19681966 1967

FVNQHLCGSHLVEALYLVCGERGFFYTPKTGIVEQCCTSICSLYQLENYCN

FVNQHLCGSHLVEALYLVCGERGFFYTPKAGIVEQCCTSICSLYQLENYCN

FVNQHLCGSHLVEALYLVCGERGFFYTPKAGIVEQCCASVCSLYQLEHYCN

FVNQHLCGSHLVEALYLVCGERGFFYTPKAGIVEQCCTSICSLYQLENYCN

FVNQHLCGSHLVEALYLVCGERGFFYTPKAGIVEQCCASVCSLYQLENYCN

1968

VPTQRLCGSHLVDALYFVCGERGFFYSPKPIRELEPLLGIVEQCCHNTCSLANLEGYCN

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

FVNQHLCGSHLVEALYLVCGERGFFYTPKTGIVEQCCTSICSLYQLENYCNFVNQHLCGSHLVEALYLVCGERGFFYTPKAGIVEQCCTSICSLYQLENYCN

FVNQHLCGSHLVEALYLVCGERGFFYTPKTGIVEQCCTSICSLYQLENYCNFVNQHLCGSHLVEALYLVCGERGFFYTPKAGIVEQCCTSICSLYQLENYCN

FVNQHLCGSHLVEALYLVCGERGFFYTPKTGIVEQCCTSICSLYQLENYCNFVNQHLCGSHLVEALYLVCGERGFFYTPKAGIVEQCCASVCSLYQLENYCN

FVNQHLCGSHLVEALYLVCGERGFFYTPKTGIVEQCCTSICSLYQLENYCNFVNQHLCGSHLVEALYLVCGERGFFYTPKAGIVEQCCASVCSLYQLEHYCN

FVNQHLCGSHLVEALYLVCGERGFFYTPK­­­­­­­­TGIVEQCCTSICSLYQLENYCNVPTQRLCGSHLVDALYFVCGERGFFYSPKPIRELEPLLGIVEQCCHNTCSLANLEGYCN

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Werden Aminosäuren zufällig ausgetauscht ?

Warum haben einige Sequenzen mehr Veränderungen ?

Warum haben einige Teile der Proteine keine Mutationen ?

Verändern diese Mutationen die Funktion ?

Fragen ...

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

>sp|Q8WWZ7|ABCA5_HUMAN ATP-binding cassette sub-family A memberMSTAIREVGVWRQTRTLLLKNYLIKCRTKKSSVQEILFPLFFLFWLILISMMHPNKKYEEVPNIELNPMDKFTLSNLILGYTPVTNITSSIMQKVSTDHLPDVIITEEYTNEKEMLTSSLSKPSNFVGVVFKDSMSYELRFFPDMIPVSSIYMDSRAGCSKSCEAAQYWSSGFTVLQASIDAAIIQLKTNVSLWKELESTKAVIMGETAVVEIDTFPRGVILIYLVIAFSPFGYFLAIHIVAEKEKKIKEFLKIMGLHDTAFWLSWVLLYTSLIFLMSLLMAVIATASLLFPQSSSIVIFLLFFLYGLSSVFFALMLTPLFKKSKHVGIVEFFVTVAFGFIGLMIILIESFPKSLVWLFSPFCHCTFVIGIAQVMHLEDFNEGASFSNLTAGPYPLIITIIMLTLNSIFYVLLAVYLDQVIPGEFGLRRSSLYFLKPSYWSKSKRNYEELSEGNVNGNISFSEIIEPVSSEFVGKEAIRISGIQKTYRKKGENVEALRNLSFDIYEGQITALLGHSGTGKSTLMNILCGLCPPSDGFASIYGHRVSEIDEMFEARKMIGICPQLDIHFDVLTVEENLSILASIKGIPANNIIQEVQKVLLDLDMQTIKDNQAKKLSGGQKRKLSLGIAVLGNPKILLLDEPTAGMDPCSRHIVWNLLKYRKANRVTVFSTHFMDEADILADRKAVISQGMLKCVGSSMFLKSKWGIGYRLSMYIDKYCATESLSSLVKQHIPGATLLQQNDQQLVYSLPFKDMDKFSGLFSALDSHSNLGVISYGVSMTTLEDVFLKLEVEAEIDQADYSVFTQQPLEEEMDSKSFDEMEQSLLILSETKAALVSTMSLWKQQMYTIAKFHFFTLKRESKSVRSVLLLLLIFFTVQIFMFLVHHSFKNAVVPIKLVPDLYFLKPGDKPHKYKTSLLLQNSADSDISDLISFFTSQNIMVTMINDSDYVSVAPHSAALNVMHSEKDYVFAAVFNSTMVYSLPILVNIISNYYLYHLNVTETIQIWSTPFFQEITDIVFKIELYFQAALLGIIVTAMPPYFAMENAENHKIKAYTQLKLSGLLPSAYWIGQAVVDIPLFFIILILMLGSLLAFHYGLYFYTVKFLAVVFCLIGYVPSVILFTYIASFTFKKILNTKEFWSFIYSVAALACIAITEITFFMGYTIATILHYAFCIIIPIYPLLGCLISFIKISWKNVRKNVDTYNPWDRLSVAVISPYLQCVLWIFLLQYYEKKYGGRSIRKDPFFRNLSTKSKNRKLPEPPDNEDEDEDVKAERLKVKELMGCQCCEEKPSIMVSNLHKEYDDKKDFLLSRKVKKVATKYISFCVKKGEILGLLGPNGAGKSTIINILVGDIEPTSGQVFLGDYSSETSEDDDSLKCMGYCPQINPLWPDTTLQEHFEIYGAVKGMSASDMKEVISRITHALDLKEHLQKTVKKLPAGIKRKLCFALSMLGNPQITLLDEPSTGMDPKAKQHMWRAIRTAFKNRKRAAILTTHYMEEAEAVCDRVAIMVSGQLRCIGTVQHLKSKFGKGYFLEIKLKDWIENLEVDRLQREIQYIFPNASRQESFSSILAYKIPKEDVQSLSQSFFKLEEAKHAFAIEEYSFSQATLEQVFVELTKEQEEEDNSCGTLNSTLWWERTQEDRVVF

>sp|Q8K448|ABCA5_MOUSE ATP-binding cassette sub-family A member 5MATAIRDVGVWRQTRTLLLKNYLIKCRTKKSSVQEILFPLFFLFWLILVSMMHPNKKYEEVSDIELSPMDKFSLSNVILGYTPVTNITSSIMQRVSTDHLPKVIVTEEYANEKELVAASLSKSSNFVGVVFKDTMSYELRFFPEMIPVSSIYMNSREGCSKTCDAAQYWSLGFTVLQASIDAAIIQLKTNVSVWSELESTKAVIMGEAAVVEIDTFPRGVILIYLVIAFSPFGYFLAIHIVAEKEKKLKEFLKIMGLHDTAFWLSWVLLYASLIFLMSLLMAVIATASSLFPQSSSIVIFLLFFLYGLSSVFFALMLTPLFKKSKHVGVVEFFVTVVFGFVGLLIVLIESFPRSLVWLFSPLCQCAFLIGIAQVMHLEDFNEGALFSNLTEGPYPLIITIIMLALDSVFYVLLAVYLDQVIPGEFGLRRSSLYFLKPSYWSKNKRNYKELSEGNINGNISLNEIVEPVSSEFIGKEAIRISGIQKSYRKKTENVEALRNLSFDIYEGQITALLGHSGTGKSTLMNILCGLCPPSDGFASIYGHRVSEIDEMFEARKMIGICPQSDINFDVLTVEENLSILASIKGIPANNIIQEVQKVLLDLDMQAIKDNQAKKLSGGQKRKLSVGIAVLGNPKILLLDEPTAGMDPCSRHIVWNLLKYRKANRVTVFSTHFMDEADILADRKAVISQGMLKCVGSSIFLKSKWGIGYRLSMYIDRYCATESLSSLVRQHIPAAALLQQNDQQLVYSLPFKDMDKFSGLFSALDIHSNLGVISYGVSMTTLEDVFLKLEVEAEIDQADYSVFTQQPREEETDSKSFDEMEQSLLILSETKASSVSTMSLWKQQVSTIAKFHFLSLKRESKSVRAVLLLLLIFFAVQIFMFFLHHSFKNAVVPIKLVPDLYFLKPGDKPHKYKTSLLLQNSTDSDINGLIEFFAHQNIMVAMFNDSDYVSAAPHSAALNVVRSEKDYVFSAVFNSTMVYCLPVMMNIISNYYLYHLNVTEAIQTWSTPFIQEITDIVFKIELYFQAALLGIIVTAMPPYFAMENAENHKIKAYTQLKLSGLLPSAYWVGQAVVDIPLFFVVLILMLGSLFAFHHGLYFYPAKFLAVVFCLIAYVPSVILFTYIASFTFKKILNTKEFWSFIYSVTALACVAITETTFFLQYAVTAVFHYTFCIAIPIYPLLGCLISFIKGSWKNMPKNENTYNPWDRLLVAVIMPYLQCILWIFLLQHYEKIHGGRSIRKDPFFRALSQKAKNKKFPEPPINEDEDEDVKAERLKVKELMGCQCCEEKPAIMVCNLHKEYDDKKDFLHSRKTTKVATKYISFCVKKGEILGLLGPNGAGKSTVINTLVGDVEPTSGKIFLGDYGSHSSEDDESIKCMGYCPQTNPLWPDLTLQEHFEIYGAVKGMSPGDMKEVISRITKALDLKEHLQKTVKKLPAGIKRKLCFALSMLGNPQVTLLDEPSTGMDPRAKQHMWRAIRTAFKNKKRAALLTTHYMEEAEAVCDRVAIMVSGQLRCIGTVQHLKSKFGKGYFLEIKLKDWIENLEIDRLQREIQYIFPNASRQESFSSILAFKIPKEDVQSLSQSFAKLEEAKRTFAIEEYSFSQATLEQVFVELTKEQEEEDNSCGTLASTLWWERTQEDRVVF

Wir brauchen andere Werkzeuge als unsere Augenund unser Gehirn ...

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Bioinformatik

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Bioinformatik

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Biologiematik

Computational Biology

Systembiologie

in-silico Biologie

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Am Anfang waren Proteinmodelle ...

Al

Al

Al

Al

Al Al

Arg

Arg

Arg Arg

Arg

ThrThr

Thr

ThrThr

Thr

Thr « Suppe » von Aminosäuren ?Thr

Thr

Arg

Al

Thr

GemeinsameStruktur

Gemeinsame Struktur +Mikroheterogeneität ?

GemeinsameStruktur

Gemeinsame Struktur, aber welche ?

Fred Sanger, erste Sequenzierung des Insulinproteins1951/1952

Proteine habe eine einzigartige lineare Struktur

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Am Anfang waren Proteinmodelle ...Darstellung einer linearen Sequenz

Biomusik

Noten

Text

Bioliteratur

>sp|P42858|HD_HUMAN Huntingtin MATLEKLMKAFESLKSFQQQQQQQQQQQQQQQQQQQQQPPPPPPPPPPPQLPQPPPQAQPLLPQPQPPPPPPPPPPGPAVAEEPLHRPKKELSATKKDRVNHCLTICENIVAQSVRNSPEFQKLLGIAMELFLLCSDDAESDVRMVADECLNKVIKALMDSNLPRLQLELYKEIKKNGAPRSLRAALWRFAELAHLVRPQKCRPYLVNLLPCLTRTSKRPEESVQETLAAAVPKIMASFGNFANDNEIKVLLKAFIANLKSSSPTIRRTAAGSAVSICQHSRRTQYFYSWLLNVLLGLLVPVEDEHSTLLILGVLLTLRYLVPLLQQQVKDTSLKGSFGVTRKEMEVSPSAEQLVQVYELTLHHTQHQDHNVVTGALELLQQLFRTPPPELLQTLTAVGGIGQLTAAKEESGGRSRSGSIVELIAGGGSSCSPVLSRKQKGKVLLGEEEALEDDSESRSDVSSSALTASVKDEISGELAASSGVSTPGSAGHDIITEQPRSQHTLQADSVDLASCDLTSSATDGDEEDILSHSSSQVSAVPSDPAMDLNDGTQASSPISDSSQTTTEGPDSAVTPSDSSEIVLDGTDNQYLGLQIGQPQDEDEEATGILPDEASEAFRNSSMALQQAHLLKNMSHCRQPSDSSVDKFVLRDEATEPGDQENKPCRIKGDIGQSTDDDSAPLVHCVRLLSASFLLTGGKNVLVPDRDVRVSVKALALSCVGAAVALHPESFFSKLYKVPLDTTEYPEEQYVSDILNYIDHGDPQVRGATAILCGTLICSIL

[Takahashi & Miller, Genome Biology 2007]

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Proteinsequenzen entschlüsseln ...

MTQFDKQYNSIIKDIINNGISDEEFDVRTKWDSDGTPAHTLSVISKQMRFDNSEVPILTTKKVAWKTAIKELLWIWQLKSNDVNDLNMMGVHIWDQWKQEDGTIGHAYGFQLGKKNRSLNGEKVDQVDYLLHQLKNNPSSRRHITMLWNPDELDAMALTPCVYETQWYVKHGKLHLEVRARSNDMALGNPFNVFQYNVLQRMIAQVTGYELGEYIFNIGDCHVYTRHIDNLKIQMEREQFEAPELWINPEVKDFYDFTIDDFKLINYKHGDKLLFEVAV

VNNBM SSDII XZOWR TIEHI FQKNN WKCSS DGLHG GXEMJ IWKBA YZGWJ QTAHK AUSVR SCJTR OQ

Mignonne allons voir si la roseQui ce matin avait écloseSa robe pourpre au soleil Ursprung ? Funktion ? Struktur ?

Enigma

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

DNA-Sequenzen entschlüsseln

accg

attg

cgga

tc

tcggagcttagg

accgattgcggatc

accgattgcggatc

aaagggatcggat

accgattgcggatc

aattcggatcgg

ggattcgatcggattccggattaggcaaatc

ttattaggcataggattcgatcggatt

accgattgcggatc

agctaggacggatcgggaggattcggaggatcaggat

Stellt euch ein Puzzle mit6.000.000.000 Teilen vor ...

Wo auf dem Genom alignierendie Fragmente ?

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Die genomische Neuzeit

● 10 Machinen● 1.8 Terabasen in 3 Tagen● 18,000 Genome / Jahr● ”Factory-scale sequencing

technology”● Das Genom für 1000 $ ...

Illumina X-ten

3600000 kmlanger Text wenn in

Arial 12 geschrieben...

NGS = next-generation sequencing

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Die genomische Neuzeit...

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Die genomische Neuzeit...

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Die genomische Neuzeit ...

LogarithmischeSkala ...

Kosten sinkenMenge an Sequenzen nimmt zu ...

Human GenomeProject - 10 Jahre~ $3 Milliarden

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Die genomische Neuzeit ...

Nature Reviews Genetics 11, 685-696

Wo treten Mutationen auf ?Wo gibt es genomische Bruchpunkte ?Welche chromosomalen Veränderungen gibt es ?

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Big Data ...● 12 Tbytes pro Tag

● 10 Tbytes pro Tag

● Heidelberg DAC:5-10 Tbytes pro Tag

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

SequenzanalyseAlgorithmen um Sequenzen

zu entschlüsseln(Alignments ,

Multiple alignments,...)

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Daten ManagementWie kann man diese Information speichern / strukturieren ?

1965: 65 Proteinsequenzen

Diese Information muss numerisch erfasst werden → Datenbanken ; effiziente Formate

Margaret Dayhof2015: SwissProt

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Formate für biologische Sequenzen

>gi|56405477|gb|AY826204.1| Giardia intestinalis isolate NLH20 18S ribosomal RNA gene, partial sequenceTTCCGGTCGATCCTGCCGGAGCGCGACGCTCTCCCCAAGGACGAAGCCATGCATGCCCGCTCACCCGGGACGCGGCGGACGGCTCAGGACAACGGTTGCACCCCCCGCGGCGGTCCCTGCTAGCCGGACACCGCTGGCAACCCGGCGCCAAGACGTGCGCGCAAGGGCGGGCGCCCGCGGGCGAGCAGCGTGACGCAGCGACGGCCCGCCCGGGCTTCCGGGGCATCACCCGGTCGGCGCGGTCGCGGCGCGCCGAGGGCCCGACGCCTGGCGGAGAATCAGGGTTCGACTCCGGAGAGCAG

Beschreibungszeile, die mit « > » anfängt

Sequenz, auf mehreren Zeilen gebrochen

das Standardformat : FASTA

Dieses Format wird immer noch von den meisten Programmen(z.B. BLAST) erkannt und benutztFür hochdurchsatz Daten gibt es mitlerweile andere, effizientereFormate

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

@SRR540192.1580 IL34_5480:5:1:6425:1038/1CATCTTGGCCTCTGTGCAGCATTCCTTTCTCCATGGT+IIIIIIHIIIIIIHIIIIIIIIIIIIIIIHIIHIHID@SRR540192.1752 IL34_5480:5:1:7005:1052/1GCTCCCAGAAACCCAGGGCCACTGGCAGCTTCAGGGA+GGGGGGGBG@GGGGB@>D<GGGF@<?<?9??;(?:2(@SRR540192.1788 IL34_5480:5:1:10167:1053/1ATGGGCTTCCTCCGGCTTTCAGCCACCTGCGCCCTGC+GG@G>G@E3<B=B;B<E>EDEAAAB:B.:=>A?;[email protected] IL34_5480:5:1:5889:1093/1TGATCATCTGGCTGATGCGGTGACTGCCACCCTTGAG+IIGIIIIIIIIIIIIIDIIIGIIIHGHHHIIIIHIHD

Formate für NGS Daten

Beschreibungszeile, die mit « @ » anfängtKode der Maschine, auf der sequenziert wurde

« Read »FASTQ für rohe Daten «Qualität»

siGATA.6755134 16 chr1 16228 40 26M * 0 0 TCTCAGTCGCACACACGAGCCAGCAG BB:DEBD5BD@FFFDGFFGFGGGGGG AS:i:­4 XN:i:0 XM:i:1 XO:i:0 XG:i:0 NM:i:1 MD:Z:7T18 YT:Z:UUsiGATA.17439299 16 chr1 17478 42 26M * 0 0 CGAGCCGAGCCACCCGTCACCCCCTG BDBD?=FEFDFBEEDEECAFFDFGEG AS:i:0 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:0 MD:Z:26 YT:Z:UUsiGATA.11320345 0 chr1 87691 24 26M * 0 0 CTCTGCAAATCGCAATGCTTTGCATG GGGGGGGGGFGGGGGGGGGGGGGGGG AS:i:­5 XN:i:0 XM:i:1 XO:i:0 XG:i:0 NM:i:1 MD:Z:20G5 YT:Z:UU

BAM/SAM für alignierte reads

Read Nummer

Flag : ist das read korrekt aligniert ?

auf welchemChromosom

an welcherPosition

wie gut istdas Alignment ?

Gibt esmismatches ?

« Read » «Qualität»

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Daten visualisieren...

Genome Browser (IGV, UCSC Genome Browser)

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Daten visualisieren...

[Kim et al., PLOS One (2013)]

Circos Plots Daten→

Integration

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

BioinformatikEN

Daten ManagementSpeichern / Strukturieren / Verbreiten(Datenbanken, Informationsextraktion

Visualisierung)

SequenzanalyseAlgorithmen um Sequenzen

zu entschlüsseln(Alignments ,

Multiple alignments,...)

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Automatische Analyse von biomedizinischen Bildern

« Partikel tracking »

Segmentierung von Zellkernen

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Image Registration

[Wang & Chen, Scientific Reports 2014]

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

BioinformatikEN

Daten ManagementSpeichern / Strukturieren / Verbreiten(Datenbanken, Informationsextraktion

Visualisierung)

SequenzanalyseAlgorithmen um Sequenzen

zu entschlüsseln(Alignments ,

Multiple alignments,...)

BildverarbeitungExperimentelle Daten

erfassen / bearbeiten / filtern(Bildverarbeitung, ...)

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Sag mir, wer Deine Freunde sind

eigentlich weiss ich es schon ...

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

… und ich sage Dir ...

● … für wen du wählst● … ob Du eine geeignete Zielperson für RedBull

bist● … was Deine musikalischen Vorlieben sind

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Karte der Facebook Freundschaften von ProteinenInteraktionen

● … Funktion● … Gewebe Spezifizität● … Rolle in Krankheitsbildung

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Genregulation

EpigenetischeVeränderungen

TranskriptionsfaktorBindestellen

Gen-Expression

Zielgen

Tae-Kyung Kim et al. Nature (2010)

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Regulatorische Netzwerke

Oh, Min; Ahn, Jaegyoon; Yoon, Youngmi (2014)

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

BioinformatikEN

Daten ManagementSpeichern / Strukturieren / Verbreiten(Datenbanken, Informationsextraktion

Visualisierung)

SequenzanalyseAlgorithmen um Sequenzen

zu entschlüsseln(Alignments ,

Multiple alignments,...)

BildverarbeitungExperimentelle Daten

erfassen / bearbeiten / filtern(Bildverarbeitung, ...)

SystembiologieDarstellung integrierterbiologischer Prozesse ;

Netzwerkanalysen

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

BioinformatikEN

Daten ManagementSpeichern / Strukturieren / Verbreiten(Datenbanken, Informationsextraktion

Visualisierung)

SequenzanalyseAlgorithmen um Sequenzen

zu entschlüsseln(Alignments ,

Multiple alignments,...)

BildverarbeitungExperimentelle Daten

erfassen / bearbeiten / filtern(Bildverarbeitung, ...)

SystembiologieDarstellung integrierterbiologischer Prozesse ;

Netzwerkanalysen

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Einführung in Linux/ bash & Python

Bioinformatik @ MoBi... … eine lange Geschichte

BildverarbeitungTeil 1

SequenzanalyseTeil 13. FS

Einführung in die Biostatistik

4. FS

Bioinformatikder Genregulation

Python PraktikumBildverarbeitungTeil 2 SequenzanalyseAnalyse von NGS Daten

5. FS

Roland Eils Matthias Schlesner Karl Rohr Carl Herrmann

6. FS BildverarbeitungTeil 3

Anwendung : Machinenlernenund Genomik

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Teil 1 : Einführung in Bash / Python

Datum Thema Veranstaltung Ort Zeit

Do. 15/10 Einführung VL BQ 10-12

Fr. 16/10 Bash Üb. IPMB 10-11.30/11.30-13

Do. 22/10 Bash (cont.) Üb. IPMB 10-11 / 11-12

Fr. 23/10 Awk Üb. IPMB 10-11.30/11.30-13

Do. 29/10 Einf. Python VL BQ 10-12

Fr. 30/10 Python Üb. IPMB 10-11.30/11.30-13

Do. 5/11 Python Üb. IPMB 10-11 / 11-12

Fr. 6/11 Python Üb. IPMB 10-11.30/11.30-13

Do. 12/11 What else ? VL BQ 10-12

Fr. 13/11 Git Üb. IPMB 10-11.30/11.30-13

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Bioinformatik ist sehr vielseitig ….

… aber hat immer mit Komputern zu tun !

Wir müssen lernen, mit Komputernzu kommunizieren !

Programmieren→

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Nicht nur für Nerds ...

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Kluge Investition ...Er

trag

gebrauchte Zeit

per Hand / Excel

Computer

Lernphase ...

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Programmiersprachen

s'il te plait...!per favore ! s'il te plait...!

pliz !

● um dem Computer Befehle erteilen, wir müssen seine Sprache(n) sprechen

● viele unterschiedliche Programmiersprachen(C, C++, R , Perl, Java, Python, …)

● man kann im Prinzip jede Sprache benutzen…● … aber einige Sprachen sind besser für bestimmte Anwendungen

(rechenintensive Aufgaben, Text Verarbeitung,...)

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Zwei wichtige Kategorienman unterscheidet zwischen interpretierten Sprachen (a.k.a

Skripte) und kompilierten Sprachen

Beispiel : ein baskischer Sprecher möchte bei einer Konferenz einen Vortrag halten (auf Baskisch…); 2 Möglichkeiten

1)ihn bitten, seinen Text im voraus zu schicken, um ihn zu übersetzen und zu verteilenVorteil : die Konferenz wird flüssiger; man hat eine Kontrolle über den InhaltNachteil : eine Etappe mehr

2)einen Dolmetscher einstellen, der direkt übersetztVorteil : eine Etappe wenigerNachteil : langsamer

Kom

pilie

rung

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

 for (i=0;i<N;i++)

  {     printf(« Resultat : %f\n »,result[i]);  }

   

Code (ex. C)

Compiler

00001101010100101010101000101110001101010011010110100101010100010101010010010101010100101001010101010010100101010010010100101111101010010101010010101010011001001010010100100101010100101001

Fehler bei der Kompilierung

Fehler beim Ausführen

Ergebnis

Machinensprache

Kompilierung

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

 for ($i=0;$i<$N;$i++)

  {     print shift(@resultats);  }

   

Code (ex. Perl)

Fehler

Ergebnis

Interpreter

Interpretierung (Perl, Python,...)

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Programmieren ist eine Stilsache ...

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Programmiersprachen im MoBi● Perl

Larry Wall 1987 « scripting  langage » sehr gut für Bearbeitung von Textdateien→ sehr leistungsfähige reguläre Expressionen (um bestimmte Muster im Text zu

finden) Grosse Bibliothek von Funktionen → Bio-Perl immer noch sehr verbreitet unter Bioinformatikern (der älteren Generation…)

● Python ( Python Praktikum, 5. FS)→ Guido van Rossum, 1989 « scripting language », aber Objekt-orientiert sehr gut für Sequenzanalysen, dank vieler eingebauter Methoden gute alternative zu Perl, wird immer mehr eingesetzt natürlichere Syntax als Perl (sauberer ...)

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Programmiersprachen im MoBi● Java ( Bildverarbeitung, K. Rohr)→

James Gosling, Mike Sheridan, and Patrick Naughton, 1991 Objekt-orientierte Sprache Gleicher Code kann auf allen Plateformen mittels eine Virtuellen Machine

ausgeführt werden « very portable »→

Java code Java bytecodekompiliert kompiliertJava Virtual Machine

(JRE)

Spezifisch fürjede Computer-

Plateform (Windows, Linux, Mac OSX,...)

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Programmiersprachen im MoBi● R ( Einführung in die Biostatistik, 4. FS)→

wird sehr oft benutzt zur statistischen Analyse von Daten Sehr reichhaltige Bibliothek von Funktionen für biologische Daten (Bioconductor,

…) sehr gut, um Plots zu erstellen sehr gutes IDE (Integrated Development Environment) → RStudio

Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016

Gemeinsamkeiten● Alle Programmiersprachen benutzen zum grossen Teil die gleichen

Syntaxelemente 

Variablen Schleifen

Kontrolstrukturen

Funktionen