Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
Bevezetés a bioinformatikába 20092010 őszi félév, biológia BSC, levelező képzés
Bálint Balázs([email protected])
http://biotech.szbk.uszeged.hu/
Információ a kurzusról
I. elméleti alapok (az év végi vizsga anyaga)
II. az elméleti részhez tartozó gyakorlati munka (nem számon kért)
(szakirodalmazás, adatbázisbányászat szekvencia homológia keresés, fehérje térszerkezet vizsgálat, stb.)
Vizsga: írásban, tesztek / rövid választ igénylő kérdések
A bioinformatika definíciója
informatika
hardverek, szoftverek megválaszolandó kérdés, biológiai adat
biológia
Bioinformatika: biológiai adatok számítógépes analízise.
transzkriptomika
proteomika
biokémiai aktivitás
metabolikus útvonalak
Centrális dogma és a bioinformatika főbb területei a molekuláris biológiában
degradáció
DNSGén
transzkripció, RNS szerkesztés
RNS
degradáció
fehérje
transzláció, poszttranszlációs módosítás
metabolomika
genomika
a DNS a fő biológiai információhordozó
a baktérium módosítható (transzformálható)
Avery 1944
a transzformáló anyag DNS
proteáz
RNáz
DNáz
egér meghal
egér meghal
egér túlél
F. Griffith 1925-1928
Streptococcus pneumoniae
Hershey és Chase 1952
1., Escherichia colit fertőztek radioaktívan jelölt T2 fággala DNS P32vel, a fehérje burok S35tel jelölve(a DNSben nincs S, a fehérjében nincs P)
2., A baktériumhoz tapadt kiürült fág burkokat rázással leválasztották
3., A baktériumokat és a szabaddá vált fág burkokat centrifugálással elkülönítették
felülúszó, (S35 fág fehérje)
baktérium pellet, P32 (fág DNS)
DNS szerkezete (1953)
"Nem kerülte el a figyelmünket az, hogy az általunk feltételezett párosítási szabály egy másolási mechanizmust is sugall a genetikai anyag számára."
James Watson és Francis Crick
DNS replikáció
RNS szintézis (transzkripció)
Fehérje szintézis (transzláció)
Az univerzális genetikai kód
DNS: ATG RNS: AUG AS: Metionin
Második karakter
Harm
adik karakterEls
ő kar
akte
r
Hogyan nyerjük ki a szekvencia információt?
DNS Fehérje
Könnyen tisztíthatóNehezebben tisztítható
Stabil
Számos instabil fehérje létezik
Könnyebben, szekvenálható
A közvetlen fehérje szekvenálás igen nehéz feladat
A szekvencia információkat zömmel DNS molekuláról nyerik, amiket azután számítógéppel (in silico) fehérje szekvenciára fordítanak.
A DNS információ tartalmának megismerése – a kezdet kezdete
p h i - x - 1 7 45 3 8 6 b p
C D S 4
C D S 5
C D S 6
C D S 7
C D S 8
C D S 9
C D S 1 0
C D S 1 1
M i s c F e a t u r e 1
M i s c F e a t u r e 2
R e p O r i g i n 1
m R N A 1
m R N A 2
V a r i a t i o n 1
V a r i a t i o n 2
V a r i a t i o n 3
V a r i a t i o n 4
A p a L I ( 4 7 8 0 )
A v a I ( 1 6 3 )
P s t I ( 1 )
Frederick Sanger
• az első publikált teljes genom (1977)
• kb. 5000 nukleotid (!)
Sangerféle DNS szekvenálás elve
lánc termináció ddGTP jelenlétében termék keverék
P P
P
P
P
P
P
P
Sangerféle DNS szekvenálás elve
ddGTP ddTTP ddATP ddCTP
P
P
P
PP
P
P P
P
P
P
P
P
P
P
poliakrilamid gél
futtatás iránya:zseb
Egy igazi szekvenáló létra
5’ tcaactttgtcggcttgagaaagacctgggatctgggtat...
Szekvencia:
A technológia korlátai:
• emberpróbáló, extrém munkaigényes eljárás
• igen kicsi leolvasási hossz
• a termékek detektálása P32 izotóp segítségével
A Sangerféle DNS szekvenálás automatizálása
• A négyféle dideoxy nukleotid analóg egy reakcióban adva
• mind a négy ddNTP egyedi fluoreszcens festékkel jelölve
• a termékek méret szerinti elválasztása kapilláris oszlopon
• a detektor előtt elhaladó festékek sorrendje=> bázissorrend
• teljesen automatizált berendezés
• ~6001000 nukleotid hosszú DNS darabok olvashatóak
szekvenogram: festékintenzitások változása az időben
1995 Haemophilus influenzae genom szekvencia„Shotgun módszer”
DNS tisztítás
darabolás futtatás
ideális méretű darabok (1,52 kb) kinyerése
a genomi fragmentek plazmidokba ligálása
a plazmidok bejuttatása E. coliba
miden klónból plazmid tisztítás
inszert szekvenálása contig assembly
Könyvtárkészítés szükséges
• munkaigényes, időigényes, költséges folyamat
• egyenetlen lefedettség, a gazdára (E. coli) toxikus régiók teljesen kimaradnak
• a gazda genom nyomokban szennyeződésként megjelenhet
• különböző projektek közötti keresztszennyeződés könnyen előfordulhat
Alacsony áteresztőképesség
• az új szál szintézise és a bázissorrend meghatározása külön lépés
• kapilláris elektroforézis lépés szükséges
• kevéssé párhuzamosítható (max 96 kapilláris / berendezés)
• magas költség / szekvenálási reakció
A Sangerszekvenálásra alapozott shotgun módszer korlátai
Nincs szükség hagyományos genomi könyvtárra
• Közvetlenül a tisztított genomi DNS kerül a gépbe
• A gDNSt fizikailag törik, a fragmenteket hordozóhoz rögzítik, majd PCR
segítségével felsokszorozzák
Óriási átereszőképesség
• nagyfokú párhuzamosítás: akár többmillió szekvenálási reakció egyszerre
• az új szál szintézise és a nukleotid sorrend meghatározása egyidejűleg történik
• kisebb költség / szekvenálási reakció
Roche 454 FLXABI Solid Illumina Solexa
Új generációs szekvenálási technológiák
Elkészült genom szekvenciák statisztikája 2009
Bakteriális genom 1001 (714*)
Eukarióta genomok 74 (22*)
• Caenorhabditis elegans (talajlakó fonalféreg)
• Ecetmuslica (Drosophila melanogaster)
• Egér (Mus musculus)
• Ember (Homo sapiens)
• Kutya (Canis lupus familiaris)
• Lúdfű (Arabidopsis thaliana)
• Méh (Apis mellifera)
• Patkány (Rattus norvegicus)
• Rizs (Oryza sativa)
• Sertés (Sus scrofa)
• Szarvasmarha (Bos taurus)
• Szőlő (Vitis vinifera)
* 2008as adat
Összefogás a nukleinsav adatbankok között
EBI
GenBank
DDBJ
EMBL
EMBLEMBLNIGNIG
CIB
NCBINIHNIH
Japan Europe
USA
NIH: National Institute of Health > NCBI: National Center for Biotechnology Information > GenBank
NIG: National Institute of Genetics > CIB: Center of Information Biology > DDBJ
EMBL: European Molecular Biology Laboratory > EBI>European Bioinformatics Institute >EMBL
http://www.ncbi.nih.gov
http://www.ebi.ac.uk/embl
http://www.ddbj.nig.ac.jp
Mi az adatbázis?
– szabványosított adatszerkezet
– gyors összetett keresések végezhetőek /indexelés/
– rendszeresen frissített, naprakész /új kiadások/
– kapcsolatok más adatbázisok felé /kereszthivatkozások/
Megfelelő szoftverek kellenek, melyekkel
adat lekérdezés, adat frissítés, adat törlés, adat hozzáadás végezhető
számítógépes fájl strukturált adattartalommal
Hogyan épül fel egy adatbank?szabványosítás, szabványosítás, szabványosítás
Feladat:
• adatok tárolása: jól dokumentált szekvencia formátumban
• a nyers szekvenciákon kívül további fontos kiegészítő információkat tároljon (szekvencia leírása, eredete, típusa, hossza, stb. stb.)
• lehessen keresni ezekben a "kiegészítő" információkban
• kereshető legyen a szekvencia
• a kutatók új szekvenciákat küldhessenek be az adatbankba
• legyen lehetőség a hibajavításra (update)
• ne legyen redundáns
• minél inkább automatizált legyen
Adatbázisok
Az adatbázisok típusai
Elsődleges adatbázisok
• A kísérletezők eredeti elküldött adatai
• Közvetlen kísérleti eredményeket tartalmaznak
• Pl. GeneBank, GEO (génexpressziós adatbank)
Származtatott adatbázisok
• Elsődleges adatok analízisével nyert többletinformációkat tárol
• Hivatkozások az elsődleges adatbázis eredeti bejegyzéseire
• Néhány példa:
RefSNP(pontmutáció adatbank)
CDD (konzervált domain adatbázis),
PFAM (fehérje családok adatbázisa)
A GeneBank adatbázis
• 1979ben alapítva (Los Alamos).
• 1992 óta az NCBI gondozza (Bethesda).
• az adatbázis saját szekvencia formátuma a genebank
• szekvencia információ
• szekvenciákhoz kapcsolódó egyéb információk, annotációk
• kereszthivatkozások más adatbankok kapcsolódó bejegyzéseire
• az adatbázis divíziókra osztott:
~taxonómiaPRI főemlős szekvenciák ROD rágcsálók szekvenciái
PLN nővényi, gomba és alga BCT bakteriális
EST expresszált szekvencia darabkák (cDNS)
ENV környezeti mintákból nyert szekvenciák
PAT szabadalmakhoz kapcsolódó szekvenciák
szekvencia jellege
Töretlen, közel exponenciális növekedés
A GeneBank adatbázis gyarapodása
0
10
20
30
40
50
60
70
80
90
1980 1985 1990 1995 2000 2005 2010
Nukleotid(milliárd bp)
Szekvencia(millió db)
0
20
40
60
80
100
120
1980 1985 1990 1995 2000 2005 2010 2015
2009 október
LOCUS AF062069 3808 bp mRNA linear INV 23-OCT-2002DEFINITION Limulus polyphemus myosin III mRNA, complete cds.ACCESSION AF062069VERSION AF062069.2 GI:7144484KEYWORDS .SOURCE Limulus polyphemus (Atlantic horseshoe crab) ORGANISM Limulus polyphemus Eukaryota; Metazoa; Arthropoda; Chelicerata; Merostomata; Xiphosura; Limulidae; Limulus.REFERENCE 1 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE A myosin III from Limulus eyes is a clock-regulated phosphoprotein JOURNAL J. Neurosci. 18 (12), 4548-4559 (1998) MEDLINE 98279067 PUBMED 9614231REFERENCE 2 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (29-APR-1998) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USAREFERENCE 3 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (02-MAR-2000) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REMARK Sequence update by submitterCOMMENT On Mar 2, 2000 this sequence version replaced gi:3132700.
Egy GeneBank bejegyzés
LOCUS AF062069 3808 bp mRNA linear INV 23-OCT-2002DEFINITION Limulus polyphemus myosin III mRNA, complete cds.ACCESSION AF062069VERSION AF062069.2 GI:7144484KEYWORDS .SOURCE Limulus polyphemus (Atlantic horseshoe crab) ORGANISM Limulus polyphemus Eukaryota; Metazoa; Arthropoda; Chelicerata; Merostomata; Xiphosura; Limulidae; Limulus.REFERENCE 1 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE A myosin III from Limulus eyes is a clock-regulated phosphoprotein JOURNAL J. Neurosci. 18 (12), 4548-4559 (1998) MEDLINE 98279067 PUBMED 9614231REFERENCE 2 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (29-APR-1998) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USAREFERENCE 3 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (02-MAR-2000) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REMARK Sequence update by submitterCOMMENT On Mar 2, 2000 this sequence version replaced gi:3132700.
LOCUS AF062069 3808 bp mRNA linear INV 23-OCT-2002
Molekula típusDivízió
Módosítás DátumLókusz név
Hossz
Egy GeneBank bejegyzés lókusz
LOCUS AF062069 3808 bp mRNA linear INV 23-OCT-2002DEFINITION Limulus polyphemus myosin III mRNA, complete cds.ACCESSION AF062069VERSION AF062069.2 GI:7144484KEYWORDS .SOURCE Limulus polyphemus (Atlantic horseshoe crab) ORGANISM Limulus polyphemus Eukaryota; Metazoa; Arthropoda; Chelicerata; Merostomata; Xiphosura; Limulidae; Limulus.REFERENCE 1 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE A myosin III from Limulus eyes is a clock-regulated phosphoprotein JOURNAL J. Neurosci. 18 (12), 4548-4559 (1998) MEDLINE 98279067 PUBMED 9614231REFERENCE 2 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (29-APR-1998) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USAREFERENCE 3 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (02-MAR-2000) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REMARK Sequence update by submitterCOMMENT On Mar 2, 2000 this sequence version replaced gi:3132700.
ACCESSION AF062069VERSION AF062069.2 GI:7144484
A GeneBank azonosítók
Egyedi azonosító(fix)
GB azonosító(változhat!)
LOCUS AF062069 3808 bp mRNA linear INV 23-OCT-2002DEFINITION Limulus polyphemus myosin III mRNA, complete cds.ACCESSION AF062069VERSION AF062069.2 GI:7144484KEYWORDS .SOURCE Limulus polyphemus (Atlantic horseshoe crab) ORGANISM Limulus polyphemus Eukaryota; Metazoa; Arthropoda; Chelicerata; Merostomata; Xiphosura; Limulidae; Limulus.REFERENCE 1 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE A myosin III from Limulus eyes is a clock-regulated phosphoprotein JOURNAL J. Neurosci. 18 (12), 4548-4559 (1998) MEDLINE 98279067 PUBMED 9614231REFERENCE 2 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (29-APR-1998) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USAREFERENCE 3 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (02-MAR-2000) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REMARK Sequence update by submitterCOMMENT On Mar 2, 2000 this sequence version replaced gi:3132700.
SOURCE Limulus polyphemus (Atlantic horseshoe crab) ORGANISM Limulus polyphemus Eukaryota; Metazoa; Arthropoda; Chelicerata; Merostomata; Xiphosura; Limulidae; Limulus.
NCBI Taxonómia
GeneBank a szekvencia eredete (Atlanti tőrfarkú)
LOCUS AF062069 3808 bp mRNA linear INV 23-OCT-2002DEFINITION Limulus polyphemus myosin III mRNA, complete cds.ACCESSION AF062069VERSION AF062069.2 GI:7144484KEYWORDS .SOURCE Limulus polyphemus (Atlantic horseshoe crab) ORGANISM Limulus polyphemus Eukaryota; Metazoa; Arthropoda; Chelicerata; Merostomata; Xiphosura; Limulidae; Limulus.REFERENCE 1 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE A myosin III from Limulus eyes is a clock-regulated phosphoprotein JOURNAL J. Neurosci. 18 (12), 4548-4559 (1998) MEDLINE 98279067 PUBMED 9614231REFERENCE 2 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (29-APR-1998) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USAREFERENCE 3 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (02-MAR-2000) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REMARK Sequence update by submitterCOMMENT On Mar 2, 2000 this sequence version replaced gi:3132700.
REFERENCE 1 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE A myosin III from Limulus eyes is a clock-regulated phosphoprotein JOURNAL J. Neurosci. 18 (12), 4548-4559 (1998) MEDLINE 98279067 PUBMED 9614231
szakirodalom kereszthivatkozás
GeneBank referenciák
FEATURES Location/Qualifiers source 1..3808 /organism="Limulus polyphemus" /db_xref="taxon:6850" /tissue_type="lateral eye" CDS 258..3302 /note="N-terminal protein kinase domain; C-terminal myosin heavy chain head; substrate for PKA" /codon_start=1 /product="myosin III" /protein_id="AAC16332.2" /db_xref="GI:7144485" /translation="MEYKCISEHLPFETLPDPGDRFEVQELVGTGTYATVYSAIDKQA NKKVALKIIGHIAENLLDIETEYRIYKAVNGIQFFPEFRGAFFKRGERESDNEVWLGI EFLEEGTAADLLATHRRFGIHLKEDLIALIIKEVVRAVQYLHENSIIHRDIRAANIMF SKEGYVKLIDFGLSASVKNTNGKAQSSVGSPYWMAPEVISCDCLQEPYNYTCDVWSIG ITAIELADTVPSLSDIHALRAMFRINRNPPPSVKRETRWSETLKDFISECLVKNPEYR PCIQEIPQHPFLAQVEGKEDQLRSELVDILKKNPGEKLRNKPYNVTFKNGHLKTISGQBASE COUNT 1201 a 689 c 782 g 1136 tORIGIN 1 tcgacatctg tggtcgcttt ttttagtaat aaaaaattgt attatgacgt cctatctgtt 3781 aagatacagt aactagggaa aaaaaaaa//
/protein_id="AAC16332.2"/db_xref="GI:7144485"
fehérje adatbank kereszthivatkozás
A GeneBank tulajdonság tábla
>gi|7144484|gb|AF062069.2| Limulus polyphemus myosin III mRNA, complete cds TCGACATCTGTGGTCGCTTTTTTTAGTAATAAAAAATTGTATTATGACGTCCTATCTGTTGTTGTGTTACACAGGTACATATTAATAACAGGTAGCTAACGTACTTATATATACATATATATAATTGGTCTGTTACTTTCAGTTACTCCCTGACTTGTGATCCTACTTGTTGCTGTGTTATACAGGTATATATCACTAAAACAGACTGCTAACGTGCATATATTTATATATGTGTAGCTTTGTTAATGCTTTAACATGGAGTATAAGTGTATCAGTGAACATTTACCATTTGAGACTCTGCCTGATCCAGGTGATCGGTTTGAAGTACAAGAACTCGTTGGAACAGGAACTTATGCTACCGTATACTCAGCGATTGATAAGCAAGCAAACAAGAAGGTAGCGCTGAAGATTATAGGACACATTGCGGAAAATCTACTTGATATCGAAACTGAATATCGTATTTATAAAGCTGTCAATGGAATCAGTTTTTCCCCGAATTCCGTGGTGCTTTCTTCAAGCGTGGGGAACGAGAATCTGACAATGAGTATGGCTGGGAATTGAGTTTCTGGAAGAAGGGACAGCAGCTGACTTGCTTGCAACACACAGAAGGTTTGGAATTCACTTGAAGAAGACTTGATTGCTTTAATAATCAAGGAGGTTGTACGAGCTGTGCAGTACTTACATGAAAACAGCATTATCCACAGAGATATTCGTGCTGCCAATATAATGTTTTCTAAAGAGGGATATGTCAAATTAATTGACTTTGGTCTTTCTGCTTCAGTAAAGAACACGAACGGCAAAGCACAGTCTTCTGTGGGCTCCCCCTATTGGATGGCTCCTGAGGTGATATCCTGTGACTGTCTTCAAGAACCTTATAACTACACATGTGACGTTTGGTCTATGGAATAACTGCTATAGAATTAGCAGACACAGTGCCCTCACTTAGCGATATTCATGCTTTAGCGCCATGTTTCGGATTAACAGAAATCCTCCCCCTAGTGTTAAGAGGGAAACACGCTGGTCAGAAACATTGAAAGATTTTATCAGCGAATGTTTGGTGAAAAATCCCGAATATCGACCGTGTATCCAAGAAATTCCCCAACACCCATTTTT...
A GeneBank (GenePept) bejegyzés FASTA formátumban
További szekvencia formátumok
nameless_1 nameless_1 Length: 457 Nov 15, 2004 10:24 Check: 7178 .. 1 GGCGAAGATT CGGCCAGGCA AAGAAGAGCG CGACGAATGG GAGCATGTAG 51 CCATGGCTGT ATTCCTCCGT ACCCCATGCC CCAACCATGC GAGTCAAACC 101 TTCGTGAAAG ATCACCACGA GCAGCCCGAA GACGATGGCC ATCCACACGA 151 CGTGAATGAA CCGCGCCCTC CATGCGGTCC GCGGTTTTTC AATGATCGAA 201 AGGGAATCGG CAACTTGAGT GGAGTCAGTC ATATCAGGAG TCCCTTTGGG 251 AGATGCTTCA GAGAGCAAGG TTCGTTGCCT CGGACCTGCA TCACCCAACC 301 ATACAGATGC TCGGTTCGCG ACGGCCTGCG TTGATTGCGC TGAGGATACC 351 CGGTTCCAGT CCGTGCGACG ACCATTAATA AGGCGCTCCA CAGTTCCCGC 401 GGGACACTAG CCAACCGGGC AGTGTCCACT GGGCAGCGGG CAGGGTCTCC 451 CCCGGGA
GCG
ID nameless standard; DNA; UNC; 457 BP. SQ Sequence 457 BP; GGCGAAGATT CGGCCAGGCA AAGAAGAGCG CGACGAATGG GAGCATGTAG CCATGGCTGT 60 ATTCCTCCGT ACCCCATGCC CCAACCATGC GAGTCAAACC TTCGTGAAAG ATCACCACGA 120 GCAGCCCGAA GACGATGGCC ATCCACACGA CGTGAATGAA CCGCGCCCTC CATGCGGTCC 180 GCGGTTTTTC AATGATCGAA AGGGAATCGG CAACTTGAGT GGAGTCAGTC ATATCAGGAG 240 TCCCTTTGGG AGATGCTTCA GAGAGCAAGG TTCGTTGCCT CGGACCTGCA TCACCCAACC 300 ATACAGATGC TCGGTTCGCG ACGGCCTGCG TTGATTGCGC TGAGGATACC CGGTTCCAGT 360 CCGTGCGACG ACCATTAATA AGGCGCTCCA CAGTTCCCGC GGGACACTAG CCAACCGGGC 420 AGTGTCCACT GGGCAGCGGG CAGGGTCTCC CCCGGGA 457 //
EMBL \\\ ENTRY nameless_1 TITLE nameless_1 475 bases SEQUENCE 5 10 15 20 25 30 1 M S R T V T I E P V T R I E G H A R I T L Q L G D A G E V E 31 D A K F H L T Q F R G F E K F C E G R P Y R E M P A L T A R 61 T C G I C P V S H V L A S N K A C D H L L S V S I P P T G E 91 K L R R I I N L A Q L T Q S H A L S F F H L S S P D L L L G 121 W D S D P V S R N I F G V M R Q D P A L A K D G I R L R Q I 151 G Q T I I E T L G G K K I H P T W V V P G G V S E P L T Q E 181 K R D A M L K L I P E G L E I A K R T Y A F F K T L V P K F 211 K D E A N H F G S Q P T M F L S L V S P K G H L E H Y D G F 241 L R L K D A Q G R I L E D M V P P H E Y E R L I G E A V E D 271 F S Y M K F P Y Y K P H G Y P N G I Y R V G P L A R L N N V 301 D A C G T P Y A D V A L A E F H M L Q E S G P I A S S F H Y 331 H Y A R L V E I I Y A L E M M E R L L K D P T I L D A R V R 361 A R A R S N R Y E G I G V A E A P R G I L M H H Y R I D D E 391 G L I T W V N L I I A T G H N N L A M N Q S I R Q V A D A Y 421 V D G N N L Q E G M L N R V E A V I R C F D P C L S C A S H 451 A F G E M P L A I E L K D A T G R V V D T L R R G ///
PIR
Konverzió különféle szekvencia formátumok között
A különféle szekvencia formátumok könnyen átkonvertálhatóak egymásba
• „Seqret” program az EMBOSS csomagból
• http://cbi.labri.fr/outils/Pise/seqret.html
• helyileg telepített változattal
• (Bio)perl script segítségével
• EBI ReadSeq portálján
Második rész
Szekvencia evolúció
• A legtöbb DNS polimeráz nagyon hűen másol. (Az E. coli DNS polimeráza nagyjából egy hibát vét tízmillió nukleotidonként)
• Elegendő hosszú idő alatt számos pontmutáció
• Kromoszóma átrendeződéssel hirtelen, nagyobb változások (inszerció, deléció) történhetnek
• A DNS (vagy fehérje) szekvencia összehasonlításával evolúciós rokonsági fok is kimutatható:
rDNS szekvencia elemzés alapján felállított univerzális törzsfa
AT T
Változások a szekvenciákban
A
A
T
T
C
C
C
C
T
G
A
A
T
T
T
T
C
A
A
A
C
C
A
A
G
G
A
A
T
T
A
A
pontmutációk
A
A
T
T
C
C
C
C
G
A
T
T
A
A
A
C
C
A
A
G
G
A
A
T
T
A
A
inszerció / deléció
A
A
T
T
C
C
C
C
C C A A T A C
C
A
A
G
G
A
A
T
T
A
A
inverzió
T G G
Szekvencia evolúció
Homológ szekvenciák:
• hasonlóak
• közös ősre vezethetőek vissza
ortológ: a homológ fehérjék két külön fajban találhatók, a funkció általában azonos
Pl. szarvasmarha inzulin emberi inzulin
paralóg: a homológ fehérjék ugyanazon fajban találhatók (általában nem teljesen azonos funkció)
Pl. emberi hemoglobin A és hemoglobin B láncok
Analóg szekvenciák:
• hasonlóság közös evolúciós ős nélkül
közös ős
(paralelogramma)
leszármazott#2
(téglalap)
leszármazott#1(rombusz)
Homológia keresés a hőskorban: Dotplot
• A két szekvencia az X illetve Y tengelyre kerül
• Minden X pozíciót minden Y pozícióval összehasonlítunk
• Ahol egyezés van, oda egy pontot teszünk
• Az közös régiók átlós vonalként jelennek meg
zaj
Homológia keresés: szekvencia illesztés
• Nukleinsav vagy fehérje szekvenciák egymáshoz rendezése
• Nagyon sok illesztés lehetséges
• Melyik a legjobb? Valós hasonlóságot mutat? Tényleg homológ a két szekvencia?
Az illesztések kiértékeléséhez pontozási rendszer szükséges
actaccagttcatttgatacttctcaaataccattaccgtgttaactgaaaggacttaaagact
actaccagttcatttgatacttctcaaataccattaccgtgttaactgaaaggacttaaagact
actaccagttcatttgatacttctcaaataccattaccgtgttaactgaaaggacttaaagact
actaccagttcatttgatacttctcaaataccattaccgtgttaactgaaaggacttaaagact
actaccagttcatttgatacttctcaaataccattaccgtgttaactgaaaggacttaaagact
actaccagttcatttgatacttctcaaa
taccattaccgtgttaactgaaaggacttaaagact
actaccagttcatttgatacttctcaaa
taccattaccgtgttaactgaaaggacttaaagact
Szekvencia1
Szekvencia 2
actaccagttcatttgatacttctcaaa
taccattaccgtgttaactgaaaggacttaaagact
Negatív érték bünteti az eltéréseket:
A T C G
A 5 -4 -4 -4
T -4 5 -4 -4
C -4 -4 5 -4
G -4 -4 -4 5
Illeszkedik: 5Nem illeszkedik: 19
Score: 5 x 5 + 19 x (4) = 51
Szekvencia1
Szekvencia 2
actaccagttcatttgatacttctcaaa
taccattaccgtgttaactgaaaggacttaaagact
Homológia keresés: pontozás
A T G C
A 5 -4 -4 -4
T -4 5 -4 -4
G –4 -4 5 -4
C -4 -4 -4 5
Pont = 50
CCTCCTTTGT
CCTCCTTTGT555555555 5
CCTCCTTTGG
CCTCCCTTAG55455555 54 Pont = 32
Pro Leu
Pro Leu
A DNS pontozási rendszer hibája
Nem veszi figyelembe, hogy egy aminosavat több kodon is kódolhat (néma mutációk)
• Az aminosavaknak különböző fizikaikémiai tulajdonságaik vannak,ezek befolyásolják a kicserélhetőségüket
• Például a valin(V) és az izoleucin(I) kicserélhető egymásra
CP
GAVI
L
MF
YW H
KR
E Q
DNS
TCSH
S+S
pozitív
töltöttpoláris
alifás
aromás
kicsi
pici
hidrofób
Fehérje pontozási rendszer – a háttér
A: alanin, R: arginin, N: aszparagin, D: aszparaginsav, C: cisztein, Q: glutamin, E: glutaminsav, G: glicerin,
H: hisztidin, I: izoleucin, L: leucin, K: lizin, M: metionin, F: fenilalanin, P: prolin, S: serin, T: treonin,
W: triptofán, Y: tirozin
Fehérje pontozási rendszerek (mátrixok)
• pontszámot rendel az összes lehetséges aminosavaminosav cseréhez
• fehérje szekvenciák többszörös illesztésének vizsgálatából származó adatok
Blossum62es mátrix
Szekvencia illesztés: globális vagy lokális
Globális illesztés: a teljes szekvenciát igyekszik optimálisan elrendezni
Lokális: a legnagyobb jól illeszkedő közös szakaszt keresi meg
Σ 55 pont
Σ 50 pont
Természetesen a két módszer eltérő illesztést ad
BLAST: Basic Local Alignment Tool
• BLAST: egyszerű lokális szekvenciaillesztő eszköz
• az NCBI portálon hozzáférhető: http://blast.ncbi.nlm.nih.gov/Blast.cgi
• igen gyors, igen elterjedt
• alkalmas nagyméretű szekvencia adatbázisokban történő homológia keresésre
• program variációk:
szekvencia adatbázis program
nukleotid nukleotid blastn
fehérje fehérje blastp
transzlált nukleotid
fehérje blastx
fehérje transzlált nukleotid
tblastn
transzlált nukleotid
transzlált nukleotid
tblastn
BLAST: Basic Local Alignment Tool
keresett szekvencia
(query)
melyik adatbankban keressen
Választható fehérje blast adatbankok:
nr ismétlődéstől mentes, ~GenePept
refseq jól jellemzett, felülvizsgált adatok (NCBI)
swissprot jól jellemzett, felülvizsgált adatok (Swiss Institute)
pat szabadalmakhoz kacspolódó szekvenciák
pdb ismert 3Ds modellel rendelkező szekvenciák
env környezeti szekvenálások eredményei
Keresés folyamatban...
Becsült hátralévő idő (minimum)
Eredmények...
Fajok szerint rendezve
Pontszámszínkódtalálatok
Eredmények...
találat neve + hivatkozás találat leírása
megengedett csereazonos aminosavak
deléció (gap)
nem megengedett csere
E érték
Milyen információkat kaphatunk fehérje szekvenciák vizsgálatával
• A fő kérdés: mi az adott fehérje pontos szerepe, funkciója?
• Segítte a szekvencia ismerete a funkció meghatározásában?
Fehérje aminosav sorrend meghatározza a térszerkezetetAnfinsen, 1961
diszulfid hidak
hidrofób mag
katalitikus zseb
hidrofil oldalláncok
•Urea hatására az RNáz kicsapódik, (harmadlagos térszerkezete elvész)
•Az urea eltávolítása után az RNáz külső segítség nélkül visszanyerte a térszerkezetét, és az aktivitását!
Fehérje szekvencia analízis révén funkció jóslás
• Hasonló szekvencia keresése adatbázisban, ismert funkcióval
• Hasonló szekvencia keresése adatbázisban, ismert térszerkezettel
• Ismert funkcióval bíró domainek azonosítása az ismeretlen szekvencián
Pusztán szekvencia analízissel a fehérje funkcióját nem lehet megállapítani
A bioinformatikai vizsgálatok ötleteket, kiindulópontot adnak a kísérletes munkához
Funkció jóslás
Protein Data Bank
Kísérletesen meghatározott háromdimenziós fehérje szerkezeti modellekhttp://www.rcsb.org/pdb/home/home.do
Keresés a PDB adatbázisban
CDD konzervált domain adatbank
http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml
Domain: a fehérjén belüli részegység, amely jól definiált strukturális vagy funkcióbeli szerepet tölt be. Egy fehérjén belül gyakran több domaint találunk, amelyek együttesen járulnak hozzá a fehérje működéséhez
CDD konzervált domain adatbank találat
azonosított aktív központ, szubsztrát kötő helyek
azonosított domainek
NCBI portál – az információ özöne
EntrezEntrez
PopSet
Structure
PubMed
Books
3D Domains
Taxonomy
GEO/GDS
UniGene
Nucleotide
Protein
Genome
OMIM
CDD/CDART
Journals
SNP
UniSTS
PubMed Central
Entrez: az NCBI integrált keresőmotorja
Szakirodalmi adatbázis: Pubmed
• közel 5300 tudományos folyóirat cikkeinek összefoglalóiban kereshetünk
• a szabadon letölthető teljes cikkekre hivatkozás
• a megtalált összefoglaló munkákat (review article) külön is kilistázhatjuk
Szakirodalmi adatbázis: Pubmed
• különféle ikonok jelzik, hogy a megtalált teljes cikk hozzáférhetőe
ingyeneshozzáférés
Szakirodalmi adatbázis: Pubmed
Pubmed Central
• 500 szabadon, elektronikusan elérhető folyóirat
Map viewer
• interaktív genetikai térképek az elkészült és a folyamatban lévő genom projektekhez
Kulcsszavas keresés
találatok a kromoszómákon
Map viewer
Humángenetikai adatbázis OMIM
• Örökletes betegségekkel kapcsolatos információk
Rendszertani adatbázis (taxonómia)
Szabadon olvasható könyvek: NCBI Books
Szabadon olvasható könyvek: NCBI Books
Berg, Jeremy M.; Tymoczko, John L.; and Stryer, Lubert.New York: W. H. Freeman and Co.; c2002
Biochemistry
Cooper, Geoffrey M.Sunderland (MA): Sinauer Associates, Inc.; c2000 The Cell A Molecular Approach
Gilbert, Scott F.Sunderland (MA): Sinauer Associates, Inc.; c2000 Developmental Biology
Janeway, Charles A.; Travers, Paul; Walport, Mark; Shlomchik, MarkNew York and London: Garland Science; c2001
Immunobiology
Lodish, Harvey; Berk, Arnold; Zipursky, S. Lawrence; Matsudaira, Paul; Baltimore, David; Darnell, James E.New York: W. H. Freeman & Co.; c1999
Molecular Cell Biology
Coffin, John M.; Hughes, Stephen H.; Varmus, Harold E.Plainview (NY): Cold Spring Harbor Laboratory Press; c1997 Retroviruses
Egyéb hasznos adatbankok: BRENDA enzim adatbázis
Átfogó adatgyűjtemény enzimekről
• az enzim helye a metabolikus hálózatban
• az enzim által katalizált reakciók leírása
• előfordulás különféle élőlényekben, irodalmi hivatkozások
• aktivitás adatok, enzimkinetikai adatok
• optimális hőmérséklet, pH adatok
• gátlószerek hatása
http://www.brendaenzymes.org/
KEGG anyagcsere útvonal adatbázis
http://www.genome.jp/kegg/