Bioinformacinė ląstelės ir genetinio kodo samprata

Preview:

DESCRIPTION

Bioinformacinė ląstelės ir genetinio kodo samprata. Prof . Robertas Damaševičius KTU Programų inžinerijos katedra, Studentų 50-415 Email: robertas.damasevicius(at)ktu.lt. Informacijos samprata. Informacijos apibrėžimai: Žmogaus suvoktas objekto turinys, esamo pasaulio atspindys - PowerPoint PPT Presentation

Citation preview

Prof. Robertas DamaševičiusKTU Programų inžinerijos katedra,

Studentų 50-415Email: robertas.damasevicius(at)ktu.lt

Informacijos samprataInformacijos apibrėžimai:

Žmogaus suvoktas objekto turinys, esamo pasaulio atspindys

Žinių apie kokius nors faktinius duomenis visumaŽinių loginis rinkinys, padedantis pasiekti tam

tikrą tiksląIš anksto nežinomas pranešimas, perduodamas

ryšio kanalu (informacijos teorija) Matavimo vienetas:

dvejetainis bitas (viena iš 2 galimų sistemos būsenų)

Bioinformatika (B110M100) 2

Informacijos savybėsInformacija turi turinį, šaltinį ir adresatąInformacijai netinka adityvumo (sudėties)

principas, t.y. jei gauname tą pačią informaciją iš dviejų šaltinių, jos nebus dvigubai daugiau.

Informacijai netinka komutatyvumo (perstatymo) principas, t.y. informacija turi būti pateikiama tam tikra tvarka

Informacijos turinys nepriklauso nuo jos saugojimo būdų (laikmenų), taip pat nuo pateikimo formos.

Informacijos kiekio matavimas (1)Jeigu pranešime yra n simbolių, kiekvienas iš

kurių gali įgyti m reikšmių, tai pranešimą koduojančios struktūros informacinė talpa yra:

Informacinė talpa rodo maksimaliai galimą perduoti informacijos kiekį pranešime. Pvz., liet. abecėlėje yra 32 raidės, o 1 psl. telpa

1600 simboliai, vadinasi 1 psl. teksto gali būti 8kb informacijos

Bioinformatika (B110M100) 4

mnQ 2log

Informacijos kiekio matavimas (2)

Realiai perduodamas ar priimamas informacijos kiekis būna mažesnis, nes pranešimo simbolių tikimybės nebūna lygios

Tada informacijos kiekio įvertinimui gali būti naudojama informacijos entropija H, kuri suprantama kaip panaikintas atsitiktinio kintamojo būsenos neapibrėžtumo dydis (Šenono (Shannon) formulė):

pj yra būsenos (pranešimo simbolio) tikimybė.

Bioinformatika (B110M100) 5

m

jjj ppH

12log

Informacijos entropijos reikšmėPvz.: turime vieną simbolį, kuris

gali įgyti vieną iš 2 reikšmių (0 arba 1)

Entropija yra maksimali, kai tų reikšmių tikymybės yra lygios, t.y. mes negalime nuspėti tos reikšmės

Jeigu reikšmę galima prognozuoti, entropija artėja į nulį

Entropijos skaičiavimas yra svarbus ieškant funkciškai prasmingų DNR sekų fragmentų

Informacijos vaidmuoSisteminis požiūris:Informacija įgyja prasmę tik tam tikroje

sistemoje, kur šaltinis ir adresatas keičiasi pranešimais

Informacijos funkcijaSistemų valdymas, t.y. medžiagų, energijos

virsmų bei informacijos srautų nukreipimas reikiamu momentu reikiama kryptimi taip, kad būtų realizuotas sistemos valdymo posistemėje užfiksuotas tikslas bei programa

Organizuotos sistemos samprataOrganizuota sistema

Sistema, kuri apjungia materialiuosius medžiagų bei energijos virsmus ir nematerialiuosius informacinius procesus

Organizuotos sistemos dalysMedžiagų ir energijos virsmų (valdomoji)

posistemė: vyksta medžiagų ir/arba energijos kaita. Informacinio valdymo posistemė: valdomosios

posistemės grandims perduoda informaciją apie tai, kokiu laiko momentu kurios grandys turi atlikti savas funkcijas.

Bioinformatika (B110M100) 8

Organizuotos sistemos schema*

Bioinformatika (B110M100) 9

*(Kirvelis, 2001)

Lastelė kaip organizuota sistema*

*A. Che. Engineering Biologic Systems

Organizuotos sistemos požymiai

Sudėtinga nustatyti ribasAtviros sistemos, t.y. negali gyvuoti be aplinkos.Keičiasi laike (auga, sensta)Gali turėti atmintį (įgyja patirties)Gali turėti hierarchinę struktūrą, t.y. jos dalys t.p. gali

būti sudėtingos organizuotos sistemosRyšys tarp poveikių sistemai ir rezultatų nėra tiesinisSistema turi grįžtamuosius ryšius

Hierarchinė struktūra

Organizuotos sistemosModelis galioja:

Biosistemoms pradedant nuo ląstelės baigiant sudėtingais daugialąsčiais organizmais

Techninėms sistemoms (pvz., automobilis)Socialinėms sistemoms (pvz., organizacija,

ekonomika)

Informacinis gyvybės modelisGyvybė: informacijos kaupimo sistema, o biocheminiai procesai

yra tik priemonės informacinėms procedūroms vykdyti. Evoliucijos eigoje genetinė informacija yra kaupiama didinant

bei tobulinant DNR genetinę atmintį, kuri kaupia biologinės raidos informaciją.

Informacinio valdymo struktūros: Ląstelių veiklą derina hormoninės informacinio valdymo

struktūros Gyvūnai dar turi aukštesnio lygmens nervinį informacinio valdymo

posistemį Smegenų žievėje kaupiama kiekvieno gyvūno individualaus

gyvenimo informacija

Valdymo metu informacija yra apdorojama

Bioinformatika (B110M100) 14

Informacijos apdorojimasInformacijos apdorojimas gali būti suprantamas, kaip

informacijos kodavimas-dekodavimasKodavimas:

realaus dinaminio proceso būsenų atspindėjimas abstrakčia kodine forma stabilių būsenų atminties struktūroje

Pavyzdys : paveldimos informacijos užrašymas nukleotidų sekomis

Dekodavimas: stabilių būsenų atspindėjimas realiame dinaminiame

procese Pavyzdys : organizmo vystymasis pagal DNR užkoduotą

informacijąBioinformatika (B110M100) 15

Informacijos nešiklis ląstelėseInformacijos nešiklis ląstelių branduoliuose yra DNR

(dezoksiribonukleino rūgšties) molekulės, kuriose informacija koduojama nukleotidų išsidėstymu.

Žmogaus genomas yra užrašomas 3,2 milijardais simbolių (kodo abecėlėje yra 4 simboliai), todėl genomo informacijos talpis yra: Q = log2 43 200 000 000 = 6 400 000 000 bitų = 763 MB

Realiai informacijos kiekis ląstelėje yra mažesnis dėl perteklinės ir beprasmės informacijos, triukšmo ir pan.

Kai kuriuose virusuose nėra DNR molekulių, o informacijos nešikliai yra RNR molekulės.

Bioinformatika (B110M100) 16

By Michael Schroeder, Biotec, 2006 17

DNA – the molecule of life

http://www.ornl.gov/hgmis

18 /24

DNR cheminė sudėtis

(A)

(T)

(G)

(C)

DNR molekulės sudėtinės dalys(nukleotidai) DNR seka

DNR (Deoksiribonukleorūgštis) sudaryta iš heterociklinės azoto bazės ir angliavandenio deoksiribozės, kurie jungiasi į polinukleotidinę grandinę per fosforo rūgšties likutį tam tikru, kiekvienai individualiai DNR specifiniu nuoseklumu. Azoto bazės yra keturios: adeninas (A), guaninas (G), citozinas (C) ir timinas (T).

19

DNR sekosPrasmė: simboliškai atvaiduoja genetinę

informaciją saugomą DNR molekulėje Sintaksė: 4-raidžių abacėlė { A, C, G, T }Semantika: daugybė informacijos sluoksnių

(lizdinis kodas):Baltymus koduojantys genai Reguliatorinės sekosmRNA sekos atsakingos už baltymų struktūrąDNR išsukimo kryptį reguliuojančios sekos, ir

t.t..Virš 95% yra “junk DNA” (biologinė prasmė

neaiški)

Kas yra kodas?

Kodas: informacijos pervedimo į kitą formą (formatą) taysyklę

Kodavimas: gautos informacijos perrašymas į simbolius, kuriuos galima perduoti adresatui ryšio linija

Dekodavimas: užkoduotų simbolių transformavimas į gavėjui suprantamą formą

Pvz.: pašto kodas, brūšninis (BAR) kodas, Morzės kodas, kalbos abecėlė, dešimtainiai skaičiai, hieroglifai

Genetinis kodasInformatikoje kodas suprantamas kaip taisyklių

rinkinys, lentelė arba algoritmas, pagal kurį vienos sistemos informacija pervedama ar perverčiama (transliuojama) į kito tipo ar kitos sistemos informaciją

Genetinis kodas yra taisyklių rinkinys, nusakantis kaip nukleorūgščių (DNR ar RNR) azotinių bazių sekų tvarka užrašyta genetinė seka yra perrašoma į amino rūgščių seką

Genetinis kodas užrašo gyvųjų organizmų paveldimą informaciją naudojant 4-ių simbolių nukleorūgščių abėcėlę

Baltymų sintezės metu genetinis kodas yra perrašomas (transliuojamas) į 20-ties simbolių baltymų (aminorūgščių) kodą

Bioinformatika (B110M100) 21

DNR/RNR sekų abėcėlės kodai1 simbolio kodas Pavadinimas

A AdeninasC CitozinasG GuaninasT TiminasU Uracilas

Bioinformatika (B110M100) 22

Trijų azotinių bazių linijinė kombinacija - tripletas (arba kodonas) - apsprendžia tam tikrą amino rūgštį baltymo linijinėje struktūroje

Amino rūgščių kodaiAmino rūgštis 3 simbolių kodas 1 simbolio kodas

Alaninas ALA AArgininas ARG R

Aspartinė rūgštis ASP DAsparaginas ASN N

Cisteinas CYS CGlutamino rūgštis GLU E

Glutaminas GLN QGlicinas GLY G

Histidinas HIS HIzoleucinas ILE ILeucinas LEU LLisinas LYS K

Metioninas MET MFenilalaninas PHE F

Prolinas PRO PSerinas SER S

Treoninas THR TTriptofanas TRP WTirozinas TYR YValinas VAL V

Bioinformatika (B110M100) 23

Genetinės informacijos kodavimas/dekodavimas

Antroji kodono pozicija

T C A G

Pirmoji kodono pozicija

T

TTT [F]TTC [F]TTA [L]TTG [L]

TCT [S]TCC [S]TCA [S]TCG [S]

TAT [Y]TAC [Y]

TAA [STOP]TAG [STOP]

TGT [C]TGC [C]

TGA [STOP]TGG [W]

TCAG

Trečioji kodono pozicija

C

CTT [L]CTC [L]CTA [L]CTG [L]

CCT [P]CCC [P]CCA [P]CCG [P]

CAT [H]CAC [H]CAA [Q]CAG [Q]

CGT [R]CGC [R]CGA [R]CGG [R]

TCAG

A

ATT [I]ATC [I]ATA [I]

ATG [M]

ACT [T]ACC [T]ACA [T]ACG [T]

AAT [N]AAC [N]AAA [K]AAG [K]

AGT [S]AGC [S]AGA [R]AGG [R]

TCAG

G

GTT [V]GTC [V]GTA [V]GTG [V]

GCT [A]GCC [A]GCA [A]GCG [A]

GAT [D]GGAC [D]GAA [E]GAG [E]

GGT [G]GGA [G]GGA [G]GGG [G]

TCAGBioinformatika (B110M100) 24

Genetinio kodo savybėsKodas naudoja keturis simbolius – A (adeninas), C

(citozinas), G (guaninas), T (timinas). RNR molekulėje vietoje timino naudojamas kitas nukleotidas – uracilas (U).

Nukleotidai sudaro „žodžius“, vadinamus kodonais arba tripletais. Kiekvienas kodonas susideda iš 3 nukleotidų ir atitinka tam tikrą aminorūgštį.

Skirtukų tarp žodžių nėra.Kodonų seka atitinka aminorūgščių seką polipeptidinėje

grandinėjeGenetinis kodas yra perteklinis.

Kodavomo/ dekodavimo procedūros savybės (1)Pertekliškumas.

Turint 4 simbolių abecėlę, ja galima užkoduoti 64 skirtingus 3 simbolio ilgio žodžius.

Realiai koduojama tik 20 skirtingų amino rūgščių. Tai reiškia kad tai pačiai amino rūgščiai koduoti yra

naudojamas daugiau kaip vienas kodonas (trijų simbolių seka).

Tuo genetinės sekos yra panašios į kitas kalbas, kur tą patį veiksmą taip pat galima užrašyti skirtingais sakiniais.

Bioinformatika (B110M100) 26

Kodavomo/ dekodavimo procedūros savybės (2)Dekodavimo procedūra yra vienareikšmė, t.y.

pagal nukleotidų seką galima vienareikšmiškai nustatyti amino rūgščių seką:

Pvz., CUUGGUCCC yra leucinas-glicinas-prolinas. Kodavimo procedūra nėra vienareikšmė, t.y.

turint amino rūgščių seką negalima vienareikšmiškai atkurti pirmykštę nukleotidų seką.

Pvz., leuciną galima užrašyti UUA, UUG, CUU, CUC, CUA, CUG, gliciną - GGU, GGC, GGA, GGG, proliną - CCU, CCC, CCA, CCG. Vadinasi, 3 amino rūgščių seką galima užrašyti 6*4*4=96 būdais.

Bioinformatika (B110M100) 27

Kodų palyginimasSavybės Lietuvių kalba Morzės kodas Genetinis kodas

Naudojimas Žmonių bendravimui Informacijai perduoti telegrafu

Paveldimos informacijos kodavimui

Raidžių skaičius

32 raidės 2 pagrindiniai simboliai: taškas, brūkšnelis; 4 pagalbiniai simboliai (tarpai)

4 raidės: A, C, G, T (U)

Žodžio reikšmė

Mažiausias kalbos vienetas, turintis prasmę bei reikšmę

Viena paprastos abėcėlės raidė

Viena amino rūgštis

Žodžių ilgis Įvairaus ilgio - nuo 1 iki 31 raidės ar daugiau

Įvairaus ilgio 3 raidžių ilgio (kodonai arba tripletai)

Žodžių skirtukai

Skirtukai - tušti tarpeliai. Skirtukai - tarpeliai. Skirtukų nėra.

Sakinio reikšmė

Kalbinis vienetas, sudarytas iš vieno ar daugiau žodžių

Vieną žodis paprasta abėcėle Viena polipeptidinė grandinė

Sakinių skirtukai

Taškai, klaustukai, šauktukai

Ilgas tarpas (7 laiko vienetai) Tam tikros nukleotidų sekos, rodančios geno pradžią ir pabaigą

Perkodavimo tikslumas

Nevienareikšmis Tiksliai perkoduojama pirmyn ir atgal

Kodavimas nevienareikšmis

Bioinformatika (B110M100) 28

Organizuota biologinė sistema*

*Kirvelis

Baltymų sintezės procesasTranskripcija

RNR nukopijuoja geno, kurio pradžią žymi kodonas ATG, kopiją į mRNR. Ją sudaro viena geno spiralė, kurioje T yra pakeista U.

Transliavimas Ribosoma juda išilgai mRNR, nuskaito kodoną ir

iškviečia atitinkamą tRNR, kuri perneša nuskaitytą kodoną atitinkančią amino rūgštį. Enzimai prijungia amino rūgštį prie sintezuojamo baltymo ir atlaisvina tRNR.

Procesas kartojamas tol, kol aptinkamas pabaigos (STOP) kodonas (TAA, TAG arba TGA).

Bioinformatika (B110M100) 30

Informacinis požiūris į baltymų sintezės procesąPranešimo RNR (mRNR) kopijuojama geno dalis

veikia kaip programa, sudaryta iš atskirų baltymo gamybos instrukcijų.

Ribosoma veikia kaip centrinis procesorius, kuris skaito mRNR nukopijuotą geną ir įvykdo programą.

Transportavimo RNR (tRNR) veikia kaip įvesties/išvesties sistema.

Proceso įvestis (žaliava) yra amino rūgštys.Proceso išvestis (rezultatas) yra susintezuotas

baltymas.Bioinformatika (B110M100) 31

Lastelė – kompiuteris?

Tiuringo mašinaPirmasis matematinis kompiuterio modelis

(1936 m. pasiūlė A. Turing)Turėjo didžiulę įtaką šiuolaikinio kompiuterio

architektūroms.Automatas, nuosekliai vykdantis begalinę

instrukcijų seką, bei įsimenantis būsenąSkirtingų instrukcijų bei būsenų kiekiai –

baigtiniai. Bet kurį per baigtinį laiką įvykdomą algoritmą

(procesą) galima realizuoti universalia Tiuringo mašina (Church-Turing tezė)

Tiuringo mašinos sandaraJuosta, padalinta į langelius,

kuriuose gali būti vienas iš naudojamos abėcėlės simbolių

Galvutė, kuri skaito ir rašo į langelį, taip pat gali judėti į abi puses

Būsenų registras, saugantis automato būseną. Būsenų skaičius baigtinis, pradinė būsena visada apibrėžta

Veiksmų lentelė, nusakanti kokį simbolį rašyti, į kurią pusę per vieną langelį pajudėti

Tiuringo mašinos veikimasValdo programa, sudaryta iš

instrukcijų (komandų) sekos. Kiekviena komanda nustato

sąlygą ir veiksmą, kuris atliekamas, jeigu sąlyga yra išpildoma

Mašina atlieka tokius veiksmus ant begalinės popieriaus juostos: "0" perrašo kaip "1", "1" perrašo kaip "0", pastumia juostą vieną žingsnį į

kairę, arbapastumia juostą vieną žingsnį į

dešinę

Tiuringo mašinos vaidmuoĮtakojo šiuolaikinių kompiuterių architektūrąĮtakojo dirbtinio intelekto teorijasKoncepcija labai panaši į genetinės informacijos

saugojimo ir nuskaitymo (DNR transkripcijos) procesus vykstančius gyvųjų organizmų ląstelėse

Tiuringo mašinos kodas panašus į DNR genetinį kodą

Tiuringo mašina ir DNR

*N.Sarafinienė

Pašto paslaugos veikimo modelis

Biologinių abstrakcijų modelis*

*A. Chen. Biological Layer Abstraction and Standards Hierarchy

TerminaiGenas: DNR molekulės fragmentas, koduojantis

informaciją apie polipeptido baltymo aminorūgščių seką

Genomas: visa organizmo DNR seka viename chromosomų rinkinyje

Genotipas: organizmo (ląstelės) genetinės informacijos (genų) visuma.

Genetinis kodas: sistema taisyklių, pagal kurias DNR arba RNR molekulėje nukleotidų sekomis užrašoma informacija, reikalinga baltymų sintezei

LiteratūraJin Xiong. Essential Bioinformatics, 2006.http://infoman.teikav.edu.gr/~stpapad/

EssentialBioinformatics.pdf

NEIL C. JONES AND PAVEL A. PEVZNER. AN INTRODUCTION TO BIOINFORMATICS ALGORITHMS

http://www.math-info.univ-paris5.fr/~lomn/Cours/BC/Publis/Complements/introductiontoBioinformaticsAlgorithms.pdf

Bioinformatika (B110M100) 41