Upload
yvette-schwartz
View
118
Download
0
Embed Size (px)
DESCRIPTION
Bioinformacinė ląstelės ir genetinio kodo samprata. Prof . Robertas Damaševičius KTU Programų inžinerijos katedra, Studentų 50-415 Email: robertas.damasevicius(at)ktu.lt. Informacijos samprata. Informacijos apibrėžimai: Žmogaus suvoktas objekto turinys, esamo pasaulio atspindys - PowerPoint PPT Presentation
Citation preview
Prof. Robertas DamaševičiusKTU Programų inžinerijos katedra,
Studentų 50-415Email: robertas.damasevicius(at)ktu.lt
Informacijos samprataInformacijos apibrėžimai:
Žmogaus suvoktas objekto turinys, esamo pasaulio atspindys
Žinių apie kokius nors faktinius duomenis visumaŽinių loginis rinkinys, padedantis pasiekti tam
tikrą tiksląIš anksto nežinomas pranešimas, perduodamas
ryšio kanalu (informacijos teorija) Matavimo vienetas:
dvejetainis bitas (viena iš 2 galimų sistemos būsenų)
Bioinformatika (B110M100) 2
Informacijos savybėsInformacija turi turinį, šaltinį ir adresatąInformacijai netinka adityvumo (sudėties)
principas, t.y. jei gauname tą pačią informaciją iš dviejų šaltinių, jos nebus dvigubai daugiau.
Informacijai netinka komutatyvumo (perstatymo) principas, t.y. informacija turi būti pateikiama tam tikra tvarka
Informacijos turinys nepriklauso nuo jos saugojimo būdų (laikmenų), taip pat nuo pateikimo formos.
Informacijos kiekio matavimas (1)Jeigu pranešime yra n simbolių, kiekvienas iš
kurių gali įgyti m reikšmių, tai pranešimą koduojančios struktūros informacinė talpa yra:
Informacinė talpa rodo maksimaliai galimą perduoti informacijos kiekį pranešime. Pvz., liet. abecėlėje yra 32 raidės, o 1 psl. telpa
1600 simboliai, vadinasi 1 psl. teksto gali būti 8kb informacijos
Bioinformatika (B110M100) 4
mnQ 2log
Informacijos kiekio matavimas (2)
Realiai perduodamas ar priimamas informacijos kiekis būna mažesnis, nes pranešimo simbolių tikimybės nebūna lygios
Tada informacijos kiekio įvertinimui gali būti naudojama informacijos entropija H, kuri suprantama kaip panaikintas atsitiktinio kintamojo būsenos neapibrėžtumo dydis (Šenono (Shannon) formulė):
pj yra būsenos (pranešimo simbolio) tikimybė.
Bioinformatika (B110M100) 5
m
jjj ppH
12log
Informacijos entropijos reikšmėPvz.: turime vieną simbolį, kuris
gali įgyti vieną iš 2 reikšmių (0 arba 1)
Entropija yra maksimali, kai tų reikšmių tikymybės yra lygios, t.y. mes negalime nuspėti tos reikšmės
Jeigu reikšmę galima prognozuoti, entropija artėja į nulį
Entropijos skaičiavimas yra svarbus ieškant funkciškai prasmingų DNR sekų fragmentų
Informacijos vaidmuoSisteminis požiūris:Informacija įgyja prasmę tik tam tikroje
sistemoje, kur šaltinis ir adresatas keičiasi pranešimais
Informacijos funkcijaSistemų valdymas, t.y. medžiagų, energijos
virsmų bei informacijos srautų nukreipimas reikiamu momentu reikiama kryptimi taip, kad būtų realizuotas sistemos valdymo posistemėje užfiksuotas tikslas bei programa
Organizuotos sistemos samprataOrganizuota sistema
Sistema, kuri apjungia materialiuosius medžiagų bei energijos virsmus ir nematerialiuosius informacinius procesus
Organizuotos sistemos dalysMedžiagų ir energijos virsmų (valdomoji)
posistemė: vyksta medžiagų ir/arba energijos kaita. Informacinio valdymo posistemė: valdomosios
posistemės grandims perduoda informaciją apie tai, kokiu laiko momentu kurios grandys turi atlikti savas funkcijas.
Bioinformatika (B110M100) 8
Organizuotos sistemos schema*
Bioinformatika (B110M100) 9
*(Kirvelis, 2001)
Lastelė kaip organizuota sistema*
*A. Che. Engineering Biologic Systems
Organizuotos sistemos požymiai
Sudėtinga nustatyti ribasAtviros sistemos, t.y. negali gyvuoti be aplinkos.Keičiasi laike (auga, sensta)Gali turėti atmintį (įgyja patirties)Gali turėti hierarchinę struktūrą, t.y. jos dalys t.p. gali
būti sudėtingos organizuotos sistemosRyšys tarp poveikių sistemai ir rezultatų nėra tiesinisSistema turi grįžtamuosius ryšius
Hierarchinė struktūra
Organizuotos sistemosModelis galioja:
Biosistemoms pradedant nuo ląstelės baigiant sudėtingais daugialąsčiais organizmais
Techninėms sistemoms (pvz., automobilis)Socialinėms sistemoms (pvz., organizacija,
ekonomika)
Informacinis gyvybės modelisGyvybė: informacijos kaupimo sistema, o biocheminiai procesai
yra tik priemonės informacinėms procedūroms vykdyti. Evoliucijos eigoje genetinė informacija yra kaupiama didinant
bei tobulinant DNR genetinę atmintį, kuri kaupia biologinės raidos informaciją.
Informacinio valdymo struktūros: Ląstelių veiklą derina hormoninės informacinio valdymo
struktūros Gyvūnai dar turi aukštesnio lygmens nervinį informacinio valdymo
posistemį Smegenų žievėje kaupiama kiekvieno gyvūno individualaus
gyvenimo informacija
Valdymo metu informacija yra apdorojama
Bioinformatika (B110M100) 14
Informacijos apdorojimasInformacijos apdorojimas gali būti suprantamas, kaip
informacijos kodavimas-dekodavimasKodavimas:
realaus dinaminio proceso būsenų atspindėjimas abstrakčia kodine forma stabilių būsenų atminties struktūroje
Pavyzdys : paveldimos informacijos užrašymas nukleotidų sekomis
Dekodavimas: stabilių būsenų atspindėjimas realiame dinaminiame
procese Pavyzdys : organizmo vystymasis pagal DNR užkoduotą
informacijąBioinformatika (B110M100) 15
Informacijos nešiklis ląstelėseInformacijos nešiklis ląstelių branduoliuose yra DNR
(dezoksiribonukleino rūgšties) molekulės, kuriose informacija koduojama nukleotidų išsidėstymu.
Žmogaus genomas yra užrašomas 3,2 milijardais simbolių (kodo abecėlėje yra 4 simboliai), todėl genomo informacijos talpis yra: Q = log2 43 200 000 000 = 6 400 000 000 bitų = 763 MB
Realiai informacijos kiekis ląstelėje yra mažesnis dėl perteklinės ir beprasmės informacijos, triukšmo ir pan.
Kai kuriuose virusuose nėra DNR molekulių, o informacijos nešikliai yra RNR molekulės.
Bioinformatika (B110M100) 16
By Michael Schroeder, Biotec, 2006 17
DNA – the molecule of life
http://www.ornl.gov/hgmis
18 /24
DNR cheminė sudėtis
(A)
(T)
(G)
(C)
DNR molekulės sudėtinės dalys(nukleotidai) DNR seka
DNR (Deoksiribonukleorūgštis) sudaryta iš heterociklinės azoto bazės ir angliavandenio deoksiribozės, kurie jungiasi į polinukleotidinę grandinę per fosforo rūgšties likutį tam tikru, kiekvienai individualiai DNR specifiniu nuoseklumu. Azoto bazės yra keturios: adeninas (A), guaninas (G), citozinas (C) ir timinas (T).
19
DNR sekosPrasmė: simboliškai atvaiduoja genetinę
informaciją saugomą DNR molekulėje Sintaksė: 4-raidžių abacėlė { A, C, G, T }Semantika: daugybė informacijos sluoksnių
(lizdinis kodas):Baltymus koduojantys genai Reguliatorinės sekosmRNA sekos atsakingos už baltymų struktūrąDNR išsukimo kryptį reguliuojančios sekos, ir
t.t..Virš 95% yra “junk DNA” (biologinė prasmė
neaiški)
Kas yra kodas?
Kodas: informacijos pervedimo į kitą formą (formatą) taysyklę
Kodavimas: gautos informacijos perrašymas į simbolius, kuriuos galima perduoti adresatui ryšio linija
Dekodavimas: užkoduotų simbolių transformavimas į gavėjui suprantamą formą
Pvz.: pašto kodas, brūšninis (BAR) kodas, Morzės kodas, kalbos abecėlė, dešimtainiai skaičiai, hieroglifai
Genetinis kodasInformatikoje kodas suprantamas kaip taisyklių
rinkinys, lentelė arba algoritmas, pagal kurį vienos sistemos informacija pervedama ar perverčiama (transliuojama) į kito tipo ar kitos sistemos informaciją
Genetinis kodas yra taisyklių rinkinys, nusakantis kaip nukleorūgščių (DNR ar RNR) azotinių bazių sekų tvarka užrašyta genetinė seka yra perrašoma į amino rūgščių seką
Genetinis kodas užrašo gyvųjų organizmų paveldimą informaciją naudojant 4-ių simbolių nukleorūgščių abėcėlę
Baltymų sintezės metu genetinis kodas yra perrašomas (transliuojamas) į 20-ties simbolių baltymų (aminorūgščių) kodą
Bioinformatika (B110M100) 21
DNR/RNR sekų abėcėlės kodai1 simbolio kodas Pavadinimas
A AdeninasC CitozinasG GuaninasT TiminasU Uracilas
Bioinformatika (B110M100) 22
Trijų azotinių bazių linijinė kombinacija - tripletas (arba kodonas) - apsprendžia tam tikrą amino rūgštį baltymo linijinėje struktūroje
Amino rūgščių kodaiAmino rūgštis 3 simbolių kodas 1 simbolio kodas
Alaninas ALA AArgininas ARG R
Aspartinė rūgštis ASP DAsparaginas ASN N
Cisteinas CYS CGlutamino rūgštis GLU E
Glutaminas GLN QGlicinas GLY G
Histidinas HIS HIzoleucinas ILE ILeucinas LEU LLisinas LYS K
Metioninas MET MFenilalaninas PHE F
Prolinas PRO PSerinas SER S
Treoninas THR TTriptofanas TRP WTirozinas TYR YValinas VAL V
Bioinformatika (B110M100) 23
Genetinės informacijos kodavimas/dekodavimas
Antroji kodono pozicija
T C A G
Pirmoji kodono pozicija
T
TTT [F]TTC [F]TTA [L]TTG [L]
TCT [S]TCC [S]TCA [S]TCG [S]
TAT [Y]TAC [Y]
TAA [STOP]TAG [STOP]
TGT [C]TGC [C]
TGA [STOP]TGG [W]
TCAG
Trečioji kodono pozicija
C
CTT [L]CTC [L]CTA [L]CTG [L]
CCT [P]CCC [P]CCA [P]CCG [P]
CAT [H]CAC [H]CAA [Q]CAG [Q]
CGT [R]CGC [R]CGA [R]CGG [R]
TCAG
A
ATT [I]ATC [I]ATA [I]
ATG [M]
ACT [T]ACC [T]ACA [T]ACG [T]
AAT [N]AAC [N]AAA [K]AAG [K]
AGT [S]AGC [S]AGA [R]AGG [R]
TCAG
G
GTT [V]GTC [V]GTA [V]GTG [V]
GCT [A]GCC [A]GCA [A]GCG [A]
GAT [D]GGAC [D]GAA [E]GAG [E]
GGT [G]GGA [G]GGA [G]GGG [G]
TCAGBioinformatika (B110M100) 24
Genetinio kodo savybėsKodas naudoja keturis simbolius – A (adeninas), C
(citozinas), G (guaninas), T (timinas). RNR molekulėje vietoje timino naudojamas kitas nukleotidas – uracilas (U).
Nukleotidai sudaro „žodžius“, vadinamus kodonais arba tripletais. Kiekvienas kodonas susideda iš 3 nukleotidų ir atitinka tam tikrą aminorūgštį.
Skirtukų tarp žodžių nėra.Kodonų seka atitinka aminorūgščių seką polipeptidinėje
grandinėjeGenetinis kodas yra perteklinis.
Kodavomo/ dekodavimo procedūros savybės (1)Pertekliškumas.
Turint 4 simbolių abecėlę, ja galima užkoduoti 64 skirtingus 3 simbolio ilgio žodžius.
Realiai koduojama tik 20 skirtingų amino rūgščių. Tai reiškia kad tai pačiai amino rūgščiai koduoti yra
naudojamas daugiau kaip vienas kodonas (trijų simbolių seka).
Tuo genetinės sekos yra panašios į kitas kalbas, kur tą patį veiksmą taip pat galima užrašyti skirtingais sakiniais.
Bioinformatika (B110M100) 26
Kodavomo/ dekodavimo procedūros savybės (2)Dekodavimo procedūra yra vienareikšmė, t.y.
pagal nukleotidų seką galima vienareikšmiškai nustatyti amino rūgščių seką:
Pvz., CUUGGUCCC yra leucinas-glicinas-prolinas. Kodavimo procedūra nėra vienareikšmė, t.y.
turint amino rūgščių seką negalima vienareikšmiškai atkurti pirmykštę nukleotidų seką.
Pvz., leuciną galima užrašyti UUA, UUG, CUU, CUC, CUA, CUG, gliciną - GGU, GGC, GGA, GGG, proliną - CCU, CCC, CCA, CCG. Vadinasi, 3 amino rūgščių seką galima užrašyti 6*4*4=96 būdais.
Bioinformatika (B110M100) 27
Kodų palyginimasSavybės Lietuvių kalba Morzės kodas Genetinis kodas
Naudojimas Žmonių bendravimui Informacijai perduoti telegrafu
Paveldimos informacijos kodavimui
Raidžių skaičius
32 raidės 2 pagrindiniai simboliai: taškas, brūkšnelis; 4 pagalbiniai simboliai (tarpai)
4 raidės: A, C, G, T (U)
Žodžio reikšmė
Mažiausias kalbos vienetas, turintis prasmę bei reikšmę
Viena paprastos abėcėlės raidė
Viena amino rūgštis
Žodžių ilgis Įvairaus ilgio - nuo 1 iki 31 raidės ar daugiau
Įvairaus ilgio 3 raidžių ilgio (kodonai arba tripletai)
Žodžių skirtukai
Skirtukai - tušti tarpeliai. Skirtukai - tarpeliai. Skirtukų nėra.
Sakinio reikšmė
Kalbinis vienetas, sudarytas iš vieno ar daugiau žodžių
Vieną žodis paprasta abėcėle Viena polipeptidinė grandinė
Sakinių skirtukai
Taškai, klaustukai, šauktukai
Ilgas tarpas (7 laiko vienetai) Tam tikros nukleotidų sekos, rodančios geno pradžią ir pabaigą
Perkodavimo tikslumas
Nevienareikšmis Tiksliai perkoduojama pirmyn ir atgal
Kodavimas nevienareikšmis
Bioinformatika (B110M100) 28
Organizuota biologinė sistema*
*Kirvelis
Baltymų sintezės procesasTranskripcija
RNR nukopijuoja geno, kurio pradžią žymi kodonas ATG, kopiją į mRNR. Ją sudaro viena geno spiralė, kurioje T yra pakeista U.
Transliavimas Ribosoma juda išilgai mRNR, nuskaito kodoną ir
iškviečia atitinkamą tRNR, kuri perneša nuskaitytą kodoną atitinkančią amino rūgštį. Enzimai prijungia amino rūgštį prie sintezuojamo baltymo ir atlaisvina tRNR.
Procesas kartojamas tol, kol aptinkamas pabaigos (STOP) kodonas (TAA, TAG arba TGA).
Bioinformatika (B110M100) 30
Informacinis požiūris į baltymų sintezės procesąPranešimo RNR (mRNR) kopijuojama geno dalis
veikia kaip programa, sudaryta iš atskirų baltymo gamybos instrukcijų.
Ribosoma veikia kaip centrinis procesorius, kuris skaito mRNR nukopijuotą geną ir įvykdo programą.
Transportavimo RNR (tRNR) veikia kaip įvesties/išvesties sistema.
Proceso įvestis (žaliava) yra amino rūgštys.Proceso išvestis (rezultatas) yra susintezuotas
baltymas.Bioinformatika (B110M100) 31
Lastelė – kompiuteris?
≈
Tiuringo mašinaPirmasis matematinis kompiuterio modelis
(1936 m. pasiūlė A. Turing)Turėjo didžiulę įtaką šiuolaikinio kompiuterio
architektūroms.Automatas, nuosekliai vykdantis begalinę
instrukcijų seką, bei įsimenantis būsenąSkirtingų instrukcijų bei būsenų kiekiai –
baigtiniai. Bet kurį per baigtinį laiką įvykdomą algoritmą
(procesą) galima realizuoti universalia Tiuringo mašina (Church-Turing tezė)
Tiuringo mašinos sandaraJuosta, padalinta į langelius,
kuriuose gali būti vienas iš naudojamos abėcėlės simbolių
Galvutė, kuri skaito ir rašo į langelį, taip pat gali judėti į abi puses
Būsenų registras, saugantis automato būseną. Būsenų skaičius baigtinis, pradinė būsena visada apibrėžta
Veiksmų lentelė, nusakanti kokį simbolį rašyti, į kurią pusę per vieną langelį pajudėti
Tiuringo mašinos veikimasValdo programa, sudaryta iš
instrukcijų (komandų) sekos. Kiekviena komanda nustato
sąlygą ir veiksmą, kuris atliekamas, jeigu sąlyga yra išpildoma
Mašina atlieka tokius veiksmus ant begalinės popieriaus juostos: "0" perrašo kaip "1", "1" perrašo kaip "0", pastumia juostą vieną žingsnį į
kairę, arbapastumia juostą vieną žingsnį į
dešinę
Tiuringo mašinos vaidmuoĮtakojo šiuolaikinių kompiuterių architektūrąĮtakojo dirbtinio intelekto teorijasKoncepcija labai panaši į genetinės informacijos
saugojimo ir nuskaitymo (DNR transkripcijos) procesus vykstančius gyvųjų organizmų ląstelėse
Tiuringo mašinos kodas panašus į DNR genetinį kodą
Tiuringo mašina ir DNR
*N.Sarafinienė
Pašto paslaugos veikimo modelis
Biologinių abstrakcijų modelis*
*A. Chen. Biological Layer Abstraction and Standards Hierarchy
TerminaiGenas: DNR molekulės fragmentas, koduojantis
informaciją apie polipeptido baltymo aminorūgščių seką
Genomas: visa organizmo DNR seka viename chromosomų rinkinyje
Genotipas: organizmo (ląstelės) genetinės informacijos (genų) visuma.
Genetinis kodas: sistema taisyklių, pagal kurias DNR arba RNR molekulėje nukleotidų sekomis užrašoma informacija, reikalinga baltymų sintezei
LiteratūraJin Xiong. Essential Bioinformatics, 2006.http://infoman.teikav.edu.gr/~stpapad/
EssentialBioinformatics.pdf
NEIL C. JONES AND PAVEL A. PEVZNER. AN INTRODUCTION TO BIOINFORMATICS ALGORITHMS
http://www.math-info.univ-paris5.fr/~lomn/Cours/BC/Publis/Complements/introductiontoBioinformaticsAlgorithms.pdf
Bioinformatika (B110M100) 41