View
50
Download
5
Category
Preview:
DESCRIPTION
Bioinformacinė ląstelės ir genetinio kodo samprata. Doc. Robertas Damaševičius KTU Programų inžinerijos katedra, Studentų 50-415 Email: damarobe @soften.ktu.lt. Informacijos samprata. Informacijos apibrėžimai: Žmogaus suvoktas objekto turinys, esamo pasaulio atspindys - PowerPoint PPT Presentation
Citation preview
Doc. Robertas DamaševičiusKTU Programų inžinerijos katedra,
Studentų 50-415Email: damarobe@soften.ktu.lt
Informacijos samprataInformacijos apibrėžimai:
Žmogaus suvoktas objekto turinys, esamo pasaulio atspindys
Žinių apie kokius nors faktinius duomenis visumaŽinių loginis rinkinys, padedantis pasiekti tam
tikrą tiksląIš anksto nežinomas pranešimas, perduodamas
ryšio kanalu (informacijos teorija) Matavimo vienetas:
dvejetainis bitas (viena iš 2 galimų sistemos būsenų)
Bioinformatika (B110M100) 2
Informacijos savybėsInformacija turi turinį, šaltinį ir adresatąInformacijai netinka adityvumo (sudėties)
principas, t.y. jei gauname tą pačią informaciją iš dviejų šaltinių, jos nebus dvigubai daugiau.
Informacijai netinka komutatyvumo (perstatymo) principas, t.y. informacija turi būti pateikiama tam tikra tvarka
Informacijos turinys nepriklauso nuo jos saugojimo būdų (laikmenų), taip pat nuo pateikimo formos.
Informacijos kiekio matavimas (1)Jeigu pranešime yra n simbolių, kiekvienas iš
kurių gali įgyti m reikšmių, tai pranešimą koduojančios struktūros informacinė talpa yra:
Informacinė talpa rodo maksimaliai galimą perduoti informacijos kiekį pranešime. Pvz., liet. abecėlėje yra 32 raidės, o 1 psl. telpa
1600 simboliai, vadinasi 1 psl. teksto gali būti 8kb informacijos
Bioinformatika (B110M100) 4
mnQ 2log
Informacijos kiekio matavimas (2)
Realiai perduodamas ar priimamas informacijos kiekis būna mažesnis, nes pranešimo simbolių tikimybės nebūna lygios
Tada informacijos kiekio įvertinimui gali būti naudojama informacijos entropija H, kuri suprantama kaip panaikintas atsitiktinio kintamojo būsenos neapibrėžtumo dydis (Šenono (Shannon) formulė):
pj yra būsenos (pranešimo simbolio) tikimybė.
Bioinformatika (B110M100) 5
m
jjj ppH
12log
Informacijos entropijos reikšmėPvz.: turime vieną simbolį, kuris
gali įgyti vieną iš 2 reikšmių (0 arba 1)
Entropija yra maksimali, kai tų reikšmių tikymybės yra lygios, t.y. mes negalime nuspėti tos reikšmės
Jeigu reikšmę galima prognozuoti, entropija artėja į nulį
Entropijos skaičiavimas yra svarbus ieškant funkciškai prasmingų DNR sekų fragmentų
Informacijos vaidmuoSisteminis požiūris:Informacija įgyja prasmę tik tam tikroje
sistemoje, kur šaltinis ir adresatas keičiasi pranešimais
Informacijos funkcijaSistemų valdymas, t.y. medžiagų, energijos
virsmų bei informacijos srautų nukreipimas reikiamu momentu reikiama kryptimi taip, kad būtų realizuotas sistemos valdymo posistemėje užfiksuotas tikslas bei programa
Organizuotos sistemos samprataOrganizuota sistema
Sistema, kuri apjungia materialiuosius medžiagų bei energijos virsmus ir nematerialiuosius informacinius procesus
Organizuotos sistemos dalysMedžiagų ir energijos virsmų (valdomoji)
posistemė: vyksta medžiagų ir/arba energijos kaita. Informacinio valdymo posistemė: valdomosios
posistemės grandims perduoda informaciją apie tai, kokiu laiko momentu kurios grandys turi atlikti savas funkcijas.
Bioinformatika (B110M100) 8
Organizuotos sistemos schema*
Bioinformatika (B110M100) 9
*(Kirvelis, 2001)
Lastelė kaip organizuota sistema*
*A. Che. Engineering Biologic Systems
Organizuotos sistemos požymiai
Sudėtinga nustatyti ribasAtviros sistemos, t.y. negali gyvuoti be aplinkos.Keičiasi laikeGali turėti atmintįGali turėti hierarchinę struktūrą, t.y jos dalys t.p. gali
būti sudėtingos organizuotos sistemosRyšys tarp poveikių sistemai ir rezultatų nėra tiesinisSistema turi grįžtamuosius ryšius
Hierarchinė struktūra
Organizuotos sistemosModelis galioja:
Biosistemoms pradedant nuo ląstelės baigiant sudėtingais daugialąsčiais organizmais
Techninėms sistemoms (pvz., automobilis)Socialinėms sistemoms (pvz., organizacija,
ekonomika)
Informacinis gyvybės modelisGyvybė: informacijos kaupimo sistema, o biocheminiai procesai
yra tik priemonės informacinėms procedūroms vykdyti. Evoliucijos eigoje genetinė informacija yra kaupiama didinant
bei tobulinant DNR genetinę atmintį, kuri kaupia biologinės raidos informaciją.
Informacinio valdymo struktūros: Ląstelių veiklą derina hormoninės informacinio valdymo
struktūros Gyvūnai dar turi aukštesnio lygmens nervinį informacinio valdymo
posistemį Smegenų žievėje kaupiama kiekvieno gyvūno individualaus
gyvenimo informacija
Valdymo metu informacija yra apdorojama
Bioinformatika (B110M100) 14
Informacijos apdorojimasInformacijos apdorojimas gali būti suprantamas, kaip
informacijos kodavimas-dekodavimasKodavimas:
realaus dinaminio proceso būsenų atspindėjimas abstrakčia kodine forma stabilių būsenų atminties struktūroje
Pavyzdys : paveldimos informacijos užrašymas nukleotidų sekomis
Dekodavimas: stabilių būsenų atspindėjimas realiame dinaminiame
procese Pavyzdys : organizmo vystymasis pagal DNR užkoduotą
informacijąBioinformatika (B110M100) 15
Informacijos nešiklis ląstelėseInformacijos nešiklis ląstelių branduoliuose yra DNR
(dezoksiribonukleino rūgšties) molekulės, kuriose informacija koduojama nukleotidų išsidėstymu.
Žmogaus genomas yra užrašomas 3,2 milijardais simbolių (kodo abecėlėje yra 4 simboliai), todėl genomo informacijos talpis yra: Q = log2 43 200 000 000 = 6 400 000 000 bitų = 763 MB
Realiai informacijos kiekis ląstelėje yra mažesnis dėl perteklinės ir beprasmės informacijos, triukšmo ir pan.
Kai kuriuose virusuose nėra DNR molekulių, o informacijos nešikliai yra RNR molekulės.
Bioinformatika (B110M100) 16
DNR molekulė
Bioinformatika (B110M100) 17
18 /24
DNR cheminė sudėtis
(A)
(T)
(G) (C)
DNR molekulės sudėtinės dalys DNR seka
DNR (Deoksiribonukleorūgštis) sudaryta iš heterociklinės azoto bazės ir angliavandenio deoksiribozės, kurie jungiasi į polinukleotidinę grandinę per fosforo rūgšties likutį tam tikru, kiekvienai individualiai DNR specifiniu nuoseklumu. Azoto bazės yra keturios: adeninas (A), guaninas (G), citozinas (C) ir timinas (T).
By Michael Schroeder, Biotec, 2006
19
DNA – the molecule of life
http://www.ornl.gov/hgmis
20
DNR sekosPrasmė: simboliškai atvaiduoja genetinę
informaciją saugomą DNR molekulėje Sintaksė: 4-raidžių abacėlė { A, C, G, T }Semantika: daugybė informacijos sluoksnių
(lizdinis kodas):Baltymus koduojantys genai Reguliatorinės sekosmRNA sekos atsakingos už baltymų struktūrąDNR išsukimo kryptį reguliuojančios sekos, ir
t.t..Virš 95% yra “junk DNA” (biologinė prasmė
neaiški)
Kas yra kodas?
Kodas: informacijos pervedimo į kitą formą (formatą) taysyklę
Kodavimas: gautos informacijos perrašymas į simbolius, kuriuos galima perduoti adresatui ryšio linija
Dekodavimas: užkoduotų simbolių transformavimas į gavėjui suprantamą formą
Pvz.: pašto kodas, brūšninis (BAR) kodas, Morzės kodas, kalbos abecėlė, dešimtainiai skaičiai, hieroglifai
Genetinis kodasInformatikoje kodas suprantamas kaip taisyklių rinkinys,
lentelė arba algoritmas, pagal kurį vienos sistemos informacija pervedama ar perverčiama (transliuojama) į kito tipo ar kitos sistemos informaciją
Genetinis kodas yra taisyklių rinkinys, nusakantis kaip nukleorūgščių (DNR ar RNR) azotinių bazių sekų tvarka užrašyta genetinė seka yra perrašoma į amino rūgščių seką
Genetinis kodas užrašo gyvųjų organizmų paveldimą informaciją naudojant 4-ių simbolių nukleorūgščių abėcėlę
Baltymų sintezės metu genetinis kodas yra perrašomas (transliuojamas) į 20-ties simbolių baltymų (aminorūgščių) kodą
Bioinformatika (B110M100) 22
Genetinio kodo savybėsDNR molekulė turi dvi grandines, bet informacija skaitoma tik
nuo vienos grandinės 5'→3' kryptimi.Kodas naudoja keturis simbolius – A (adeninas), C (citozinas),
G (guaninas), T (timinas). RNR molekulėje vietoje timino naudojamas kitas nukleotidas – uracilas (U).
Nukleotidai sudaro „žodžius“, vadinamus kodonais arba tripletais. Kiekvienas kodonas susideda iš 3 nukleotidų ir atitinka tam tikrą aminorūgštį.
Skirtukų tarp žodžių nėra.iRNR kodonų seka atitinka aminorūgščių seką polipeptidinėje
grandinėjeGenetinis kodas yra perteklinis.
DNR/RNR sekų abėcėlės kodai1 simbolio kodas Pavadinimas
A AdeninasC CitozinasG GuaninasT TiminasU Uracilas
Bioinformatika (B110M100) 24
Trijų azotinių bazių linijinė kombinacija - tripletas (arba kodonas) - apsprendžia tam tikrą amino rūgštį baltymo linijinėje struktūroje
Amino rūgščių kodaiAmino rūgštis 3 simbolių kodas 1 simbolio kodas
Alaninas ALA AArgininas ARG R
Aspartinė rūgštis ASP DAsparaginas ASN N
Cisteinas CYS CGlutamino rūgštis GLU E
Glutaminas GLN QGlicinas GLY G
Histidinas HIS HIzoleucinas ILE ILeucinas LEU LLisinas LYS K
Metioninas MET MFenilalaninas PHE F
Prolinas PRO PSerinas SER S
Treoninas THR TTriptofanas TRP WTirozinas TYR YValinas VAL V
Bioinformatika (B110M100) 25
Genetinės informacijos kodavimas/dekodavimas
Antroji kodono pozicija
T C A G
Pirmoji kodono pozicija
T
TTT [F]TTC [F]TTA [L]TTG [L]
TCT [S]TCC [S]TCA [S]TCG [S]
TAT [Y]TAC [Y]
TAA [STOP]TAG [STOP]
TGT [C]TGC [C]
TGA [STOP]TGG [W]
TCAG
Trečioji kodono pozicija
C
CTT [L]CTC [L]CTA [L]CTG [L]
CCT [P]CCC [P]CCA [P]CCG [P]
CAT [H]CAC [H]CAA [Q]CAG [Q]
CGT [R]CGC [R]CGA [R]CGG [R]
TCAG
A
ATT [I]ATC [I]ATA [I]
ATG [M]
ACT [T]ACC [T]ACA [T]ACG [T]
AAT [N]AAC [N]AAA [K]AAG [K]
AGT [S]AGC [S]AGA [R]AGG [R]
TCAG
G
GTT [V]GTC [V]GTA [V]GTG [V]
GCT [A]GCC [A]GCA [A]GCG [A]
GAT [D]GGAC [D]GAA [E]GAG [E]
GGT [G]GGA [G]GGA [G]GGG [G]
TCAGBioinformatika (B110M100) 26
Kodavomo/ dekodavimo procedūros savybės (1)Pertekliškumas.
Turint 4 simbolių abecėlę, ja galima užkoduoti 64 skirtingus 3 simbolio ilgio žodžius.
Realiai koduojama tik 20 skirtingų amino rūgščių. Tai reiškia kad tai pačiai amino rūgščiai koduoti yra
naudojamas daugiau kaip vienas kodonas (trijų simbolių seka).
Tuo genetinės sekos yra panašios į programavimo kalbas, kur tą patį veiksmą taip pat galima užrašyti skirtingais sakiniais.
Bioinformatika (B110M100) 27
Kodavomo/ dekodavimo procedūros savybės (2)Dekodavimo procedūra yra vienareikšmė, t.y.
pagal nukleotidų seką galima vienareikšmiškai nustatyti amino rūgščių seką:
Pvz., CUUGGUCCC yra leucinas-glicinas-prolinas. Kodavimo procedūra nėra vienareikšmė, t.y.
turint amino rūgščių seką negalima vienareikšmiškai atkurti pirmykštę nukleotidų seką.
Pvz., leuciną galima užrašyti UUA, UUG, CUU, CUC, CUA, CUG, gliciną - GGU, GGC, GGA, GGG, proliną - CCU, CCC, CCA, CCG. Vadinasi, 3 amino rūgščių seką galima užrašyti 6*4*4=96 būdais.
Bioinformatika (B110M100) 28
Kodų palyginimasSavybės Lietuvių kalba Morzės kodas Genetinis kodas
Naudojimas Žmonių bendravimui Informacijai perduoti telegrafu
Paveldimos informacijos kodavimui
Raidžių skaičius
32 raidės 2 pagrindiniai simboliai: taškas, brūkšnelis; 4 pagalbiniai simboliai (tarpai)
4 raidės: A, C, G, T (U)
Žodžio reikšmė
Mažiausias kalbos vienetas, turintis prasmę bei reikšmę
Viena paprastos abėcėlės raidė
Viena amino rūgštis
Žodžių ilgis Įvairaus ilgio - nuo 1 iki 31 raidės ar daugiau
Įvairaus ilgio 3 raidžių ilgio (kodonai arba tripletai)
Žodžių skirtukai
Skirtukai - tušti tarpeliai. Skirtukai - tarpeliai. Skirtukų nėra.
Sakinio reikšmė
Kalbinis vienetas, sudarytas iš vieno ar daugiau žodžių
Vieną žodis paprasta abėcėle Viena polipeptidinė grandinė
Sakinių skirtukai
Taškai, klaustukai, šauktukai
Ilgas tarpas (7 laiko vienetai) Tam tikros nukleotidų sekos, rodančios geno pradžią ir pabaigą
Perkodavimo tikslumas
Nevienareikšmis Tiksliai perkoduojama pirmyn ir atgal
Kodavimas nevienareikšmis
Bioinformatika (B110M100) 29
Organizuota biologinė sistema*
*Kirvelis
Baltymų sintezės procesasTranskripcija
RNR nukopijuoja geno, kurio pradžią žymi kodonas ATG, kopiją į mRNR. Ją sudaro viena geno spiralė, kurioje T yra pakeista U.
Transliavimas Ribosoma juda išilgai mRNR, nuskaito kodoną ir
iškviečia atitinkamą tRNR, kuri perneša nuskaitytą kodoną atitinkančią amino rūgštį. Enzimai prijungia amino rūgštį prie sintezuojamo baltymo ir atlaisvina tRNR.
Procesas kartojamas tol, kol aptinkamas pabaigos (STOP) kodonas (TAA, TAG arba TGA).
Bioinformatika (B110M100) 31
Informacinis požiūris į baltymų sintezės procesąPranešimo RNR (mRNR) kopijuojama geno dalis
veikia kaip programa, sudaryta iš atskirų baltymo gamybos instrukcijų.
Ribosoma veikia kaip centrinis procesorius, kuris skaito mRNR nukopijuotą geną ir įvykdo programą.
Transportavimo RNR (tRNR) veikia kaip įvesties/išvesties sistema.
Proceso įvestis (žaliava) yra amino rūgštys.Proceso išvestis (rezultatas) yra susintezuotas
baltymas.Bioinformatika (B110M100) 32
Lastelė – kompiuteris?
≈
Tiuringo mašinaPirmasis matematinis kompiuterio modelis
(1936 m. pasiūlė A. Turing)Turėjo didžiulę įtaką šiuolaikinio kompiuterio
architektūroms.Automatas, nuosekliai vykdantis begalinę
instrukcijų seką, bei įsimenantis būsenąSkirtingų instrukcijų bei būsenų kiekiai –
baigtiniai. Bet kurį per baigtinį laiką įvykdomą algoritmą
(procesą) galima realizuoti universalia Tiuringo mašina (Church-Turing tezė)
Tiuringo mašinos sandaraJuosta, padalinta į langelius,
kuriuose gali būti vienas iš naudojamos abėcėlės simbolių.
Galvutė, kuri skaito ir rašo į langelį, taip pat gali judėti į abi puses.
Būsenų registras, saugantis automato būseną. Būsenų skaičius baigtinis, pradinė būsena visada apibrėžta.
Veiksmų lentelė, nusakanti kokį simbolį rašyti, į kurią pusę per vieną langelį pajudėti
Tiuringo mašinos veikimasValdo programa, sudaryta iš
instrukcijų (komandų) sekos. Kiekviena komanda nustato
sąlygą ir veiksmą, kuris atliekamas, jeigu sąlyga yra išpildoma
Mašina atlieka tokius veiksmus ant begalinės popieriaus juostos: "0" perrašo kaip "1", "1" perrašo kaip "0", pastumia juostą vieną žingsnį į
kairę, arbapastumia juostą vieną žingsnį į
dešinę
Tiuringo mašinos vaidmuoĮtakojo šiuolaikinių kompiuterių architektūrąĮtakojo kai kurias filosofijos teorijas apie visatos
sandarą ir veikimo principusĮtakojo dirbtinio intelekto teorijasKoncepcija labai panaši į genetinės informacijos
saugojimo ir nuskaitymo (DNR transkripcijos) procesus vykstančius gyvųjų organizmų ląstelėse
Tiuringo mašinos kodas panašus į DNR genetinį kodą
Tiuringo mašina ir DNR
Ląstelės bioinformacinių struktūrų analogija su kompiuterio elementaisBioinformacinė struktūra
Analogiškas kompiuterio elementas
Funkcija
DNR Kietasis diskas Pastoviosios informacijos saugojimo terpė
mRNR Laisvosios prieigos atmintis (RAM)
Laikinosios informacijos saugojimo terpė
Genas Programa Saugomos konkretaus baltymo gamybos instrukcijos
Ribosoma Procesorius Skaito mRNR nukopijuotą geną ir atlieka baltymo surinkimo veiksmus
tRNR Įvesties/išvesties sistema Atlieka amino rūgščių pernešimąAmino rūgštys
Įvesties duomenys Baltymų gamybos žaliava
Baltymas Išvesties duomenys Baltymų sintezės galutinis produktas
Bioinformatika (B110M100) 39
Kompiuterio ir ląstelės palyginimas informacijos saugojimo požiūriuElektroninis kompiuteris Gyvoji ląstelėInformacija saugoma kietajame diske Informacija saugoma molekulėjeInformacija užrašoma naudojant 2 simbolių abecėlę: 0, 1
Informacija užrašoma naudojant 4 simbolių abecėlę: A, C, G, T
Patikimumas užtikrinamas saugant perteklinę informaciją
Patikimumą užtikrina dviguba spiralė
Informacija kietajame diske yra sudalinta į atskirus disko skirsnius
Informacija yra sudalinta į chromosomas.
Informacijos saugojimo pobūdis: WMRM (write many, read many)
Informacijos saugojimo pobūdis: WORM (write once, read many)
Informaciją nuskaitoma elektros signalų pagalba
Informacijos nuskaityma atlieka specialios cheminės medžiagos ( polimerazė)
Bioinformatika (B110M100) 40
Kompiuterio ir ląstelės palyginimas laikinosios informacijos saugojimo požiūriuElektroninis kompiuteris Gyvoji ląstelėInformacija perduodama tarp pastoviosios informacijos laikmenos (kaipiklio) ir laikinosios laikmenos ()
Transkripcijos procesas: dalis kopijuojama į mRNR
Laikinojoje informacijos laikmenoje informacija saugoma elektromagnetinių signalų pagalba
Laikinojoje informacijos laikmenoje informacija saugoma mRNR molekulinėje struktūroje
Informacija atvaizduojama skirtingais įtampos lygiais, pvz., 0V, -5V
Informacija atvaizduojama naudojant 4 nukleotidus: A, C, G, U
Bioinformatika (B110M100) 41
Kompiuterio ir ląstelės palyginimas informacijos transformavimo požiūriuElektroninis kompiuteris Gyvoji ląstelėPagrindinis kompiuterio funkcinis blokas yra programa, kuri turi savo įvestį ir išvestį
Pagrindinis ląstelės funkcinis blokas yra baltymas
Programa dirba su duomenimis Baltymai dirba su cheminėmis medžiagomis (dalyvauja kaip katalizatoriai cheminėse reakcijose, formuoja organizmo struktūrą, vykdo cheminių medžiagų kontrolę)
Kompiuterio programa yra sudaryta iš atskirų komandų arba sakinių
Baltymai yra sudaryti iš amino rūgščių
Programos pabaigą koduoja specialus simbolis, pvz., taškas arba failo pabaigos simbolis
Baltymų sekos pabaigas koduoja pabaigos kodonai
Procesoriaus komandas koduoja skirtingi elektros signalų įtampos lygmenys
Amino rūgštis koduoja mRNR sekos kodai
Bioinformatika (B110M100) 42
Komponentų hierarchija*
* E. Andrianantoandro et al. Synthetic biology: new engineering rules for an emerging discipline. Mol. Sys. Biol. 2006.
OSI tinklo modelisOSI (Open Systems Interconnect): tarpt. standartas ISO
7498Abstraktus ryšio protokolų, naudojamų ryšio ir
kompiuteriniuose tinkluose, aprašymasOSI modelis:
nusako, kaip teoriškai veikia tinklo komponentai, apibrėžia, kaip informacija turi būti perduodama
kompiuterių tinklais,nurodo, kaip programos turėtų bendrauti tinkle,suskirsto tinklo komponentų funkcijas į sluoksnius, bei
nurodo sąryšius tarp sluoksnių.aprašo 7 sluoksnius – funkcijų grupes. kiekvienas sluoksnis naudojasi žemesnio sluoksnio
paslaugomis ir teikia paslaugas aukščiau esančiam sluoksniui
OSI modelio sluoksniai (1)
OSI modelio sluoksniai (2)Taikymo lygis apibrėžia ryšio tinklo vartotojui teikiamas
paslaugasPrezentacijos lygis nusako duomenų kodavimo taisykles Sesijos lygis aprašo duomenų apsikeitimo tarp siuntėjo ir
gavėjo taisykles Transporto lygis užtikrina saugų duomenų perdavimą
ryšio kanalu, kuriame yra triukšmųTinklo lygis aprašo, kaip duomenų perdavimo ryšio kanalu
taisykles Ryšio lygis aprašo ryšį, tarp gretimų (tiesiogiai
bendraujančių) ryšio tinklo komponentų. Fizinis lygis aprašo fizinius perduodamo signalo ir terpės,
kuria jis perduodamas, parametrus.
OSI modelio universalumasPranašumas: kadangi informacijos perdavimas
vyksta tik tarp gretimų sluoksnių, tai gerokai supaprastina sudėtingų komunikacijos sistemų kūrimą
Universalumas: tas pats “sluoksniškumo” principas galioja ir kitoms sudėtingoms organizuotoms sistemoms kuriose reikia perduoti informaciją ryšio kanaluPvz: tradicinis paštas, biologinės sistemos
*N.Sarafinienė
Biologinių abstrakcijų modelis*
*A. Chen. Biological Layer Abstraction and Standards Hierarchy
TerminaiGenas: DNR molekulės fragmentas, koduojantis
informaciją apie polipeptido baltymo aminorūgščių seką
Genomas: visa organizmo DNR seka viename chromosomų rinkinyje
Genotipas: organizmo (ląstelės) genetinės informacijos (genų) visuma.
Genetinis kodas: sistema taisyklių, pagal kurias DNR arba RNR molekulėje nukleotidų sekomis užrašoma informacija, reikalinga baltymų sintezei
Recommended