41
Prof. Robertas Damaševičius KTU Programų inžinerijos katedra, Studentų 50-415 Email: robertas.damasevicius(at)ktu.lt

Bioinformacinė ląstelės ir genetinio kodo samprata

Embed Size (px)

DESCRIPTION

Bioinformacinė ląstelės ir genetinio kodo samprata. Prof . Robertas Damaševičius KTU Programų inžinerijos katedra, Studentų 50-415 Email: robertas.damasevicius(at)ktu.lt. Informacijos samprata. Informacijos apibrėžimai: Žmogaus suvoktas objekto turinys, esamo pasaulio atspindys - PowerPoint PPT Presentation

Citation preview

Page 1: Bioinformacinė ląstelės ir genetinio kodo samprata

Prof. Robertas DamaševičiusKTU Programų inžinerijos katedra,

Studentų 50-415Email: robertas.damasevicius(at)ktu.lt

Page 2: Bioinformacinė ląstelės ir genetinio kodo samprata

Informacijos samprataInformacijos apibrėžimai:

Žmogaus suvoktas objekto turinys, esamo pasaulio atspindys

Žinių apie kokius nors faktinius duomenis visumaŽinių loginis rinkinys, padedantis pasiekti tam

tikrą tiksląIš anksto nežinomas pranešimas, perduodamas

ryšio kanalu (informacijos teorija) Matavimo vienetas:

dvejetainis bitas (viena iš 2 galimų sistemos būsenų)

Bioinformatika (B110M100) 2

Page 3: Bioinformacinė ląstelės ir genetinio kodo samprata

Informacijos savybėsInformacija turi turinį, šaltinį ir adresatąInformacijai netinka adityvumo (sudėties)

principas, t.y. jei gauname tą pačią informaciją iš dviejų šaltinių, jos nebus dvigubai daugiau.

Informacijai netinka komutatyvumo (perstatymo) principas, t.y. informacija turi būti pateikiama tam tikra tvarka

Informacijos turinys nepriklauso nuo jos saugojimo būdų (laikmenų), taip pat nuo pateikimo formos.

Page 4: Bioinformacinė ląstelės ir genetinio kodo samprata

Informacijos kiekio matavimas (1)Jeigu pranešime yra n simbolių, kiekvienas iš

kurių gali įgyti m reikšmių, tai pranešimą koduojančios struktūros informacinė talpa yra:

Informacinė talpa rodo maksimaliai galimą perduoti informacijos kiekį pranešime. Pvz., liet. abecėlėje yra 32 raidės, o 1 psl. telpa

1600 simboliai, vadinasi 1 psl. teksto gali būti 8kb informacijos

Bioinformatika (B110M100) 4

mnQ 2log

Page 5: Bioinformacinė ląstelės ir genetinio kodo samprata

Informacijos kiekio matavimas (2)

Realiai perduodamas ar priimamas informacijos kiekis būna mažesnis, nes pranešimo simbolių tikimybės nebūna lygios

Tada informacijos kiekio įvertinimui gali būti naudojama informacijos entropija H, kuri suprantama kaip panaikintas atsitiktinio kintamojo būsenos neapibrėžtumo dydis (Šenono (Shannon) formulė):

pj yra būsenos (pranešimo simbolio) tikimybė.

Bioinformatika (B110M100) 5

m

jjj ppH

12log

Page 6: Bioinformacinė ląstelės ir genetinio kodo samprata

Informacijos entropijos reikšmėPvz.: turime vieną simbolį, kuris

gali įgyti vieną iš 2 reikšmių (0 arba 1)

Entropija yra maksimali, kai tų reikšmių tikymybės yra lygios, t.y. mes negalime nuspėti tos reikšmės

Jeigu reikšmę galima prognozuoti, entropija artėja į nulį

Entropijos skaičiavimas yra svarbus ieškant funkciškai prasmingų DNR sekų fragmentų

Page 7: Bioinformacinė ląstelės ir genetinio kodo samprata

Informacijos vaidmuoSisteminis požiūris:Informacija įgyja prasmę tik tam tikroje

sistemoje, kur šaltinis ir adresatas keičiasi pranešimais

Informacijos funkcijaSistemų valdymas, t.y. medžiagų, energijos

virsmų bei informacijos srautų nukreipimas reikiamu momentu reikiama kryptimi taip, kad būtų realizuotas sistemos valdymo posistemėje užfiksuotas tikslas bei programa

Page 8: Bioinformacinė ląstelės ir genetinio kodo samprata

Organizuotos sistemos samprataOrganizuota sistema

Sistema, kuri apjungia materialiuosius medžiagų bei energijos virsmus ir nematerialiuosius informacinius procesus

Organizuotos sistemos dalysMedžiagų ir energijos virsmų (valdomoji)

posistemė: vyksta medžiagų ir/arba energijos kaita. Informacinio valdymo posistemė: valdomosios

posistemės grandims perduoda informaciją apie tai, kokiu laiko momentu kurios grandys turi atlikti savas funkcijas.

Bioinformatika (B110M100) 8

Page 9: Bioinformacinė ląstelės ir genetinio kodo samprata

Organizuotos sistemos schema*

Bioinformatika (B110M100) 9

*(Kirvelis, 2001)

Page 10: Bioinformacinė ląstelės ir genetinio kodo samprata

Lastelė kaip organizuota sistema*

*A. Che. Engineering Biologic Systems

Page 11: Bioinformacinė ląstelės ir genetinio kodo samprata

Organizuotos sistemos požymiai

Sudėtinga nustatyti ribasAtviros sistemos, t.y. negali gyvuoti be aplinkos.Keičiasi laike (auga, sensta)Gali turėti atmintį (įgyja patirties)Gali turėti hierarchinę struktūrą, t.y. jos dalys t.p. gali

būti sudėtingos organizuotos sistemosRyšys tarp poveikių sistemai ir rezultatų nėra tiesinisSistema turi grįžtamuosius ryšius

Page 12: Bioinformacinė ląstelės ir genetinio kodo samprata

Hierarchinė struktūra

Page 13: Bioinformacinė ląstelės ir genetinio kodo samprata

Organizuotos sistemosModelis galioja:

Biosistemoms pradedant nuo ląstelės baigiant sudėtingais daugialąsčiais organizmais

Techninėms sistemoms (pvz., automobilis)Socialinėms sistemoms (pvz., organizacija,

ekonomika)

Page 14: Bioinformacinė ląstelės ir genetinio kodo samprata

Informacinis gyvybės modelisGyvybė: informacijos kaupimo sistema, o biocheminiai procesai

yra tik priemonės informacinėms procedūroms vykdyti. Evoliucijos eigoje genetinė informacija yra kaupiama didinant

bei tobulinant DNR genetinę atmintį, kuri kaupia biologinės raidos informaciją.

Informacinio valdymo struktūros: Ląstelių veiklą derina hormoninės informacinio valdymo

struktūros Gyvūnai dar turi aukštesnio lygmens nervinį informacinio valdymo

posistemį Smegenų žievėje kaupiama kiekvieno gyvūno individualaus

gyvenimo informacija

Valdymo metu informacija yra apdorojama

Bioinformatika (B110M100) 14

Page 15: Bioinformacinė ląstelės ir genetinio kodo samprata

Informacijos apdorojimasInformacijos apdorojimas gali būti suprantamas, kaip

informacijos kodavimas-dekodavimasKodavimas:

realaus dinaminio proceso būsenų atspindėjimas abstrakčia kodine forma stabilių būsenų atminties struktūroje

Pavyzdys : paveldimos informacijos užrašymas nukleotidų sekomis

Dekodavimas: stabilių būsenų atspindėjimas realiame dinaminiame

procese Pavyzdys : organizmo vystymasis pagal DNR užkoduotą

informacijąBioinformatika (B110M100) 15

Page 16: Bioinformacinė ląstelės ir genetinio kodo samprata

Informacijos nešiklis ląstelėseInformacijos nešiklis ląstelių branduoliuose yra DNR

(dezoksiribonukleino rūgšties) molekulės, kuriose informacija koduojama nukleotidų išsidėstymu.

Žmogaus genomas yra užrašomas 3,2 milijardais simbolių (kodo abecėlėje yra 4 simboliai), todėl genomo informacijos talpis yra: Q = log2 43 200 000 000 = 6 400 000 000 bitų = 763 MB

Realiai informacijos kiekis ląstelėje yra mažesnis dėl perteklinės ir beprasmės informacijos, triukšmo ir pan.

Kai kuriuose virusuose nėra DNR molekulių, o informacijos nešikliai yra RNR molekulės.

Bioinformatika (B110M100) 16

Page 17: Bioinformacinė ląstelės ir genetinio kodo samprata

By Michael Schroeder, Biotec, 2006 17

DNA – the molecule of life

http://www.ornl.gov/hgmis

Page 18: Bioinformacinė ląstelės ir genetinio kodo samprata

18 /24

DNR cheminė sudėtis

(A)

(T)

(G)

(C)

DNR molekulės sudėtinės dalys(nukleotidai) DNR seka

DNR (Deoksiribonukleorūgštis) sudaryta iš heterociklinės azoto bazės ir angliavandenio deoksiribozės, kurie jungiasi į polinukleotidinę grandinę per fosforo rūgšties likutį tam tikru, kiekvienai individualiai DNR specifiniu nuoseklumu. Azoto bazės yra keturios: adeninas (A), guaninas (G), citozinas (C) ir timinas (T).

Page 19: Bioinformacinė ląstelės ir genetinio kodo samprata

19

DNR sekosPrasmė: simboliškai atvaiduoja genetinę

informaciją saugomą DNR molekulėje Sintaksė: 4-raidžių abacėlė { A, C, G, T }Semantika: daugybė informacijos sluoksnių

(lizdinis kodas):Baltymus koduojantys genai Reguliatorinės sekosmRNA sekos atsakingos už baltymų struktūrąDNR išsukimo kryptį reguliuojančios sekos, ir

t.t..Virš 95% yra “junk DNA” (biologinė prasmė

neaiški)

Page 20: Bioinformacinė ląstelės ir genetinio kodo samprata

Kas yra kodas?

Kodas: informacijos pervedimo į kitą formą (formatą) taysyklę

Kodavimas: gautos informacijos perrašymas į simbolius, kuriuos galima perduoti adresatui ryšio linija

Dekodavimas: užkoduotų simbolių transformavimas į gavėjui suprantamą formą

Pvz.: pašto kodas, brūšninis (BAR) kodas, Morzės kodas, kalbos abecėlė, dešimtainiai skaičiai, hieroglifai

Page 21: Bioinformacinė ląstelės ir genetinio kodo samprata

Genetinis kodasInformatikoje kodas suprantamas kaip taisyklių

rinkinys, lentelė arba algoritmas, pagal kurį vienos sistemos informacija pervedama ar perverčiama (transliuojama) į kito tipo ar kitos sistemos informaciją

Genetinis kodas yra taisyklių rinkinys, nusakantis kaip nukleorūgščių (DNR ar RNR) azotinių bazių sekų tvarka užrašyta genetinė seka yra perrašoma į amino rūgščių seką

Genetinis kodas užrašo gyvųjų organizmų paveldimą informaciją naudojant 4-ių simbolių nukleorūgščių abėcėlę

Baltymų sintezės metu genetinis kodas yra perrašomas (transliuojamas) į 20-ties simbolių baltymų (aminorūgščių) kodą

Bioinformatika (B110M100) 21

Page 22: Bioinformacinė ląstelės ir genetinio kodo samprata

DNR/RNR sekų abėcėlės kodai1 simbolio kodas Pavadinimas

A AdeninasC CitozinasG GuaninasT TiminasU Uracilas

Bioinformatika (B110M100) 22

Trijų azotinių bazių linijinė kombinacija - tripletas (arba kodonas) - apsprendžia tam tikrą amino rūgštį baltymo linijinėje struktūroje

Page 23: Bioinformacinė ląstelės ir genetinio kodo samprata

Amino rūgščių kodaiAmino rūgštis 3 simbolių kodas 1 simbolio kodas

Alaninas ALA AArgininas ARG R

Aspartinė rūgštis ASP DAsparaginas ASN N

Cisteinas CYS CGlutamino rūgštis GLU E

Glutaminas GLN QGlicinas GLY G

Histidinas HIS HIzoleucinas ILE ILeucinas LEU LLisinas LYS K

Metioninas MET MFenilalaninas PHE F

Prolinas PRO PSerinas SER S

Treoninas THR TTriptofanas TRP WTirozinas TYR YValinas VAL V

Bioinformatika (B110M100) 23

Page 24: Bioinformacinė ląstelės ir genetinio kodo samprata

Genetinės informacijos kodavimas/dekodavimas

Antroji kodono pozicija

T C A G

Pirmoji kodono pozicija

T

TTT [F]TTC [F]TTA [L]TTG [L]

TCT [S]TCC [S]TCA [S]TCG [S]

TAT [Y]TAC [Y]

TAA [STOP]TAG [STOP]

TGT [C]TGC [C]

TGA [STOP]TGG [W]

TCAG

Trečioji kodono pozicija

C

CTT [L]CTC [L]CTA [L]CTG [L]

CCT [P]CCC [P]CCA [P]CCG [P]

CAT [H]CAC [H]CAA [Q]CAG [Q]

CGT [R]CGC [R]CGA [R]CGG [R]

TCAG

A

ATT [I]ATC [I]ATA [I]

ATG [M]

ACT [T]ACC [T]ACA [T]ACG [T]

AAT [N]AAC [N]AAA [K]AAG [K]

AGT [S]AGC [S]AGA [R]AGG [R]

TCAG

G

GTT [V]GTC [V]GTA [V]GTG [V]

GCT [A]GCC [A]GCA [A]GCG [A]

GAT [D]GGAC [D]GAA [E]GAG [E]

GGT [G]GGA [G]GGA [G]GGG [G]

TCAGBioinformatika (B110M100) 24

Page 25: Bioinformacinė ląstelės ir genetinio kodo samprata

Genetinio kodo savybėsKodas naudoja keturis simbolius – A (adeninas), C

(citozinas), G (guaninas), T (timinas). RNR molekulėje vietoje timino naudojamas kitas nukleotidas – uracilas (U).

Nukleotidai sudaro „žodžius“, vadinamus kodonais arba tripletais. Kiekvienas kodonas susideda iš 3 nukleotidų ir atitinka tam tikrą aminorūgštį.

Skirtukų tarp žodžių nėra.Kodonų seka atitinka aminorūgščių seką polipeptidinėje

grandinėjeGenetinis kodas yra perteklinis.

Page 26: Bioinformacinė ląstelės ir genetinio kodo samprata

Kodavomo/ dekodavimo procedūros savybės (1)Pertekliškumas.

Turint 4 simbolių abecėlę, ja galima užkoduoti 64 skirtingus 3 simbolio ilgio žodžius.

Realiai koduojama tik 20 skirtingų amino rūgščių. Tai reiškia kad tai pačiai amino rūgščiai koduoti yra

naudojamas daugiau kaip vienas kodonas (trijų simbolių seka).

Tuo genetinės sekos yra panašios į kitas kalbas, kur tą patį veiksmą taip pat galima užrašyti skirtingais sakiniais.

Bioinformatika (B110M100) 26

Page 27: Bioinformacinė ląstelės ir genetinio kodo samprata

Kodavomo/ dekodavimo procedūros savybės (2)Dekodavimo procedūra yra vienareikšmė, t.y.

pagal nukleotidų seką galima vienareikšmiškai nustatyti amino rūgščių seką:

Pvz., CUUGGUCCC yra leucinas-glicinas-prolinas. Kodavimo procedūra nėra vienareikšmė, t.y.

turint amino rūgščių seką negalima vienareikšmiškai atkurti pirmykštę nukleotidų seką.

Pvz., leuciną galima užrašyti UUA, UUG, CUU, CUC, CUA, CUG, gliciną - GGU, GGC, GGA, GGG, proliną - CCU, CCC, CCA, CCG. Vadinasi, 3 amino rūgščių seką galima užrašyti 6*4*4=96 būdais.

Bioinformatika (B110M100) 27

Page 28: Bioinformacinė ląstelės ir genetinio kodo samprata

Kodų palyginimasSavybės Lietuvių kalba Morzės kodas Genetinis kodas

Naudojimas Žmonių bendravimui Informacijai perduoti telegrafu

Paveldimos informacijos kodavimui

Raidžių skaičius

32 raidės 2 pagrindiniai simboliai: taškas, brūkšnelis; 4 pagalbiniai simboliai (tarpai)

4 raidės: A, C, G, T (U)

Žodžio reikšmė

Mažiausias kalbos vienetas, turintis prasmę bei reikšmę

Viena paprastos abėcėlės raidė

Viena amino rūgštis

Žodžių ilgis Įvairaus ilgio - nuo 1 iki 31 raidės ar daugiau

Įvairaus ilgio 3 raidžių ilgio (kodonai arba tripletai)

Žodžių skirtukai

Skirtukai - tušti tarpeliai. Skirtukai - tarpeliai. Skirtukų nėra.

Sakinio reikšmė

Kalbinis vienetas, sudarytas iš vieno ar daugiau žodžių

Vieną žodis paprasta abėcėle Viena polipeptidinė grandinė

Sakinių skirtukai

Taškai, klaustukai, šauktukai

Ilgas tarpas (7 laiko vienetai) Tam tikros nukleotidų sekos, rodančios geno pradžią ir pabaigą

Perkodavimo tikslumas

Nevienareikšmis Tiksliai perkoduojama pirmyn ir atgal

Kodavimas nevienareikšmis

Bioinformatika (B110M100) 28

Page 29: Bioinformacinė ląstelės ir genetinio kodo samprata

Organizuota biologinė sistema*

*Kirvelis

Page 30: Bioinformacinė ląstelės ir genetinio kodo samprata

Baltymų sintezės procesasTranskripcija

RNR nukopijuoja geno, kurio pradžią žymi kodonas ATG, kopiją į mRNR. Ją sudaro viena geno spiralė, kurioje T yra pakeista U.

Transliavimas Ribosoma juda išilgai mRNR, nuskaito kodoną ir

iškviečia atitinkamą tRNR, kuri perneša nuskaitytą kodoną atitinkančią amino rūgštį. Enzimai prijungia amino rūgštį prie sintezuojamo baltymo ir atlaisvina tRNR.

Procesas kartojamas tol, kol aptinkamas pabaigos (STOP) kodonas (TAA, TAG arba TGA).

Bioinformatika (B110M100) 30

Page 31: Bioinformacinė ląstelės ir genetinio kodo samprata

Informacinis požiūris į baltymų sintezės procesąPranešimo RNR (mRNR) kopijuojama geno dalis

veikia kaip programa, sudaryta iš atskirų baltymo gamybos instrukcijų.

Ribosoma veikia kaip centrinis procesorius, kuris skaito mRNR nukopijuotą geną ir įvykdo programą.

Transportavimo RNR (tRNR) veikia kaip įvesties/išvesties sistema.

Proceso įvestis (žaliava) yra amino rūgštys.Proceso išvestis (rezultatas) yra susintezuotas

baltymas.Bioinformatika (B110M100) 31

Page 32: Bioinformacinė ląstelės ir genetinio kodo samprata

Lastelė – kompiuteris?

Page 33: Bioinformacinė ląstelės ir genetinio kodo samprata

Tiuringo mašinaPirmasis matematinis kompiuterio modelis

(1936 m. pasiūlė A. Turing)Turėjo didžiulę įtaką šiuolaikinio kompiuterio

architektūroms.Automatas, nuosekliai vykdantis begalinę

instrukcijų seką, bei įsimenantis būsenąSkirtingų instrukcijų bei būsenų kiekiai –

baigtiniai. Bet kurį per baigtinį laiką įvykdomą algoritmą

(procesą) galima realizuoti universalia Tiuringo mašina (Church-Turing tezė)

Page 34: Bioinformacinė ląstelės ir genetinio kodo samprata

Tiuringo mašinos sandaraJuosta, padalinta į langelius,

kuriuose gali būti vienas iš naudojamos abėcėlės simbolių

Galvutė, kuri skaito ir rašo į langelį, taip pat gali judėti į abi puses

Būsenų registras, saugantis automato būseną. Būsenų skaičius baigtinis, pradinė būsena visada apibrėžta

Veiksmų lentelė, nusakanti kokį simbolį rašyti, į kurią pusę per vieną langelį pajudėti

Page 35: Bioinformacinė ląstelės ir genetinio kodo samprata

Tiuringo mašinos veikimasValdo programa, sudaryta iš

instrukcijų (komandų) sekos. Kiekviena komanda nustato

sąlygą ir veiksmą, kuris atliekamas, jeigu sąlyga yra išpildoma

Mašina atlieka tokius veiksmus ant begalinės popieriaus juostos: "0" perrašo kaip "1", "1" perrašo kaip "0", pastumia juostą vieną žingsnį į

kairę, arbapastumia juostą vieną žingsnį į

dešinę

Page 36: Bioinformacinė ląstelės ir genetinio kodo samprata

Tiuringo mašinos vaidmuoĮtakojo šiuolaikinių kompiuterių architektūrąĮtakojo dirbtinio intelekto teorijasKoncepcija labai panaši į genetinės informacijos

saugojimo ir nuskaitymo (DNR transkripcijos) procesus vykstančius gyvųjų organizmų ląstelėse

Tiuringo mašinos kodas panašus į DNR genetinį kodą

Page 37: Bioinformacinė ląstelės ir genetinio kodo samprata

Tiuringo mašina ir DNR

Page 38: Bioinformacinė ląstelės ir genetinio kodo samprata

*N.Sarafinienė

Pašto paslaugos veikimo modelis

Page 39: Bioinformacinė ląstelės ir genetinio kodo samprata

Biologinių abstrakcijų modelis*

*A. Chen. Biological Layer Abstraction and Standards Hierarchy

Page 40: Bioinformacinė ląstelės ir genetinio kodo samprata

TerminaiGenas: DNR molekulės fragmentas, koduojantis

informaciją apie polipeptido baltymo aminorūgščių seką

Genomas: visa organizmo DNR seka viename chromosomų rinkinyje

Genotipas: organizmo (ląstelės) genetinės informacijos (genų) visuma.

Genetinis kodas: sistema taisyklių, pagal kurias DNR arba RNR molekulėje nukleotidų sekomis užrašoma informacija, reikalinga baltymų sintezei

Page 41: Bioinformacinė ląstelės ir genetinio kodo samprata

LiteratūraJin Xiong. Essential Bioinformatics, 2006.http://infoman.teikav.edu.gr/~stpapad/

EssentialBioinformatics.pdf

NEIL C. JONES AND PAVEL A. PEVZNER. AN INTRODUCTION TO BIOINFORMATICS ALGORITHMS

http://www.math-info.univ-paris5.fr/~lomn/Cours/BC/Publis/Complements/introductiontoBioinformaticsAlgorithms.pdf

Bioinformatika (B110M100) 41