BIOINFORMATIKA

BIOINFORMATIKA

Bevezetés

Biológiai alapok

Bioinformatika: Biológiai adatok (adathalmazok) kezelése, rendezése

Célja: Új következtetések levonása a biológiai rendszerek (élőlények) működésére vonatkozóan (és ezek gyakorlati hasznosítása/ ipar, orvoslás)

Bioinformatika

Tudomány (alap és alkalmazott kutatás)

Üzlet (biotechnológiai ipar, gyógyszeripar) $$$

A kísérleti módszerek fejlődése a biológiai információhalmazok exponenciális növekedéséhez

vezetett

1972: A Nature című tudományos folyóirat címlapján egy 174 bp hosszúságú DNS molekula szekvenciája (bázissorrendje) látható. Több éves kutatómunka eredménye.

Ma: Egy modern automatizált szekvenáló központban (pl. Sanger Centre) naponta akár több millió bázis sorrendjét is meghatározzák. Ilyen mennyiségű információ nyilván csak informatikai eszközökkel kezelhető.

HTS = High Throughput Screening (nagy áteresztőképességű) módszerek. Óriási információtömeget generálnak viszonylag rövid idő alatt.

A XXI. században a biológia módszertana alapvetően megváltozott: Informatika nélkül nem lehet a kísérleti eredményeket tárolni, feldolgozni, kiértékelni, értelmezni.

Az élő sejt (szervezet) mint információ forrás

„Statikus” információk: információhordozó makromolekulák leltára

Pl. DNS, RNS, Fehérje szekvenciák, fehérje térszerkezetek (koordináták)

„Dinamikus” információk: génkifejeződési mintázatok

Kölcsönhatási hálózatok

(microarray, 2D elektroforézis, yeast-two hybrid, egyéb high throughput módszerek)

Információáramlás a makromolekulák között

Centrális dogma

DNS RNS fehérje

genom transzkriptóma proteóma

transzkripciótranszláció

replikáció

reverz transzkripció

prionok

Systems biology: Rendszer-szemléletű biológia

Integráció:

Egyedi komponensek (pl. fehérjék) egyedi tulajdonságainak vizsgálata helyett a biológiai rendszer (pl. élő sejt) összes komponensét és azok összes kölcsönhatását tekinti egyszerre.

Az ismert egyedi kölcsönhatásokat mintegy „puzzle”-szerűen térbeli és időbeli hálózattá integrálni. Ez pont a fordítottja annak, mint amit a biológusok eddig egy évszázadon keresztül csináltak.

Metabolikus útvonalak

Szabályozási útvonalak

Kölcsönhatási hálózatok

Genom

Egy élőlény teljes genetikai állománya (össz. DNS tartalom)

Pl. ember: 23 (22+2) kromoszóma + mitokondriális DNS

A különböző élőlények genomjai szerkezetükben és információtartalmukban jelentősen eltérhetnek egymástól.

1.) Méret (kbp=1000bp, Mbp=106bp)

2.) Gének száma (génsűrűség= gének száma/genom mérete)

3.) Génszerkezet (intron-exon)

4.) Topológia (lineáris vs. cirkuláris)

C-érték paradoxonA genom mérete önmagában nem fokmérője a biológiai rendszerek

fejlettségének (összetettségének)

Organism # bp Time* # genes #bp/gene

phi-X174 5,386 bp 1.5 hours 9 598

Escherichia coli 4,639,221 bp 54 days 4,288 1,072

Saccharomyces cerevisiae 12,057,849 bp 140 days 6,269 1,923

Caenorhabditis elegans ~97,000,000 bp 3.1 years 19,427 5,079

Arabidopsis thaliana ~125,000,000 bp 4 years 25,498 4,902

Drosophila melanogaster ~180,000,000 bp 5.7 years 13,600 13,235

humans ~3,400,000,000 bp 108 years ~20,500 113,333

*TIME = the amount of time to read the entire genome, at a rate of 1 bp per second.

A gének számától függ egy élőlény komplexitása?

G-érték paradoxon

http://www.ncbi.nlm.nih.gov/cgi-bin/Entrez/framik?db=genome&gi=10126

http://www.genome.wisc.edu/

http://genome-www.stanford.edu/Saccharomyces/



http://www.wormbase.org/



http://sequence-www.stanford.edu/ara/ArabidopsisSeqStanford.html

http://fruitfly.berkeley.edu/




http://www.ornl.gov/hgmis/

A GÉN FOGALMA

Morgan, XX. század eleje: A gén a kromoszóma egy része (darabja), amely meghatározza az élőlény egy tulajdonságát (fenotípus).

Beadle és Tatum, 1940: egy gén - egy enzim hipotézis

egy gén – egy fehérje hipotézis

egy gén – egy polipeptid

Avery, 1944: A gének anyaga DNS.

Mai definíció: A gén egy olyan DNS szakasz, amely egy géntermék (polipeptid vagy RNS) szintéziséhez szükséges információt tárolja.

A szűken vett definíció csak a struktúrgént jelenti (polipeptid vagy RNS elsődleges szekvenciáját kódoló DNS), a tágabb definícióba beleértjük a regulátor szekvenciákat (promóterek, enhancerek, stb.) is.

Start kodon

ATG (Met)

Stop kodon

TAA, TAG, TGA

Srtuktúrgén

ORF: open reading frame

Eukarióták esetén intronokat is tartalmaz

5’ „nemkódoló” szakasz

promóter, enhancer, riboszómakötőhely, stb

3’ „nemkódoló” szakasz

poliadeniláció, transzkripciós

terminátor, stb.

A gén

RNS gének

Vannak gének, amelyek olyan RNS-ek szekvenciáját kódolják, amelyek nem fordítódnak le fehérjévé.

Riboszómális RNS (rRNS): A legintenzívebben átíródó gének közé tartoznak minden szervezetben (nucleolus = sejtmagvacska).

Transzfer RNS (tRNS): A fehérjeszintézishez (transzláció) nélkülözhetetlenek.

Kis nukleáris RNS (snRNS): RNS molekulák „érése” (splicing)

Kis nukleoláris RNS (snoRNS): 60-300 nt, rRNS processzálás, alternatív splicing, telomeráz RNS, stb.

Mikro RNS (miRNS): ~22 nt, Hosszabb prekurzorokból keletkeznek, génkifejeződést szabályozzák: RNS interferencia (Orvosi Nóbel díj, 2006)

Ezeknek a géneknek a felépítése jelentősen eltér a fehérjét kódoló gének felépítésétől, ezért sokkal nehezebb őket megtalálni a genomban.

Pl. az miRNS géneket csak néhány éve fedezték fel!

A DNS-ben 4 bázis (A,T,G,C) kódolja az információt.

Az RNS-ben szintén (A,U,G.C).

Három bázis (kódon) felel meg egy aminosavnak a fehérjeszintézis során.

Genetikai kód

A fehérjéket 20-féle aminosav alkotja.

A fehérjék elsődleges szerkezetében (szekvenciájában) kódolva van a háromdimenziós szerkezetük. A kód mibenléte nagyrészt ismeretlen.

Az információáramlás a makromolekulák között (különösen eukarióták esetén) nagyfokú diverzitás forrása

Ember: kb. 21000 gén genom

transzkripció

alternatív splicing

mRNS RNS editing

transzláció

Fehérje poszttranszlációs módosítás

Több mint egymillió különböző géntermék proteómaBonyolult anyagcsere hálózat

Splicing a β globin gén kifejeződése során

A splicing mechanizmusa

RNS szerkesztés / RNA editing

Apolipoprotein B 100 (513 kDa)

Apolipoprotein B 48 (250 kDa)

Az mRNS közepén egy stop kódon keletkezik. A transzláció félúton leáll.

CAA UAAcitozin

dezaminázGln Stop

Az eukarióta genom felépítése1.) Gének és szabályozó elemek:

exonok és intronok

transzkripciós szabályozó elemek (promóter, enhancer, terminátor, stb.)

replikációt szabályozó elemek (replikációs kezdőpont)

transzlációt szabályozó elemek (start, stop kodon)

rekombinációs szekvenciák

2.) Ismétlődő (repetitív szekvenciák):

highly repetitive sequences

simple sequence DNA centroméra, teloméra

satellite DNA

Az egér kromoszóma 10%-a. Kevesebb mint 10 bp ismétlődik több milliószor.

moderately repetitive transzpozonok (Alu repeat)

Az egér kromoszóma 20%-a. Néhány száz bázispár, néhány ezerszer ismétlődik.

Szekvenálási stratégiák

1.) Szisztematikus stratégia:

Térképezés restrikciós endonukleázokkal

Kis darabok szekvenálása Sanger módszerrel. A teljes DNS molekula összeállítása a térkép alapján. (Lassú de biztos módszer.)

2.) Sörétes puska (shotgun) stratégia:

A nagy DNS molekulák összetörése (mechanikai stressz, ultrahang) véletlenszerűen kis darabokra. Kis darabok szekvenálása. Kis darabokból az átfedések felhasználásával a teljes DNS molekula összeállítása (puzzle).

Problémák: Minimum 10-szer annyi nukleotidot kell leolvasni, mint a DNS mérete. (Még így is maradnak gap-ek.)

Az ismétlődő (repetitív) szekvenciák az összeállítást bizonytalanná teszik.

Sanger-féle szekvenálás

Automata DNS szekvenátor működési elve

A DNS klónozása

Génsebészet (genetic engineering): a DNS manipulálása (vágás/illesztés) speciális enzimekkel.

Restrikciós endonukleázok: Bakteriális eredetű enzimek. Egy adott DNS szekvenciát – ált. 4-6 bázis hosszúságú – ismernek fel a kettősszálú DNS molekulán belül és elhasítják azt.

Több száz különböző restrikciós endonukleázt ismerünk.

Elkészíthetjük a DNS restrikciós (fizikai) térképét.

A restrikciós fragmentumokat mesterséges hordozó (vektor) DNS-be ültetjük (ligáz enzim). Rekombináns DNS

A rekombináns DNS-t megfelelő gazdaszervezetben (pl. E. coli baktérium) több millió kópiában megsokszorozhatjuk. Klón

A rekombináns klón elegendő mennyiségű anyagot szolgáltat a DNS analízisére (pl. szekvenálás).

Restrikciós endonukleázok

Rekombináns DNS

Rekombináns plazmid konstrukció

Polimeráz láncreakció (PCR)

Vektor és gazdatörzs (baktérium) használata nélkül megsokszorozhatjuk (amplifikálhatjuk) a DNS-t.

A sejtmagban végbemenő DNS replikáció in vitro imitálása.

Tetszés szerinti DNS szakasz megsokszorozható.

A megsokszorozandó DNS-t határoló rövid szakaszok szekvenciáját ismerni kell.

Polimeráz láncreakció

A szekvencia adatbázisok rohamosan növekednek

Genom szekvenciák gének keresése/azonosítása (annotálás)

Géntermékek funkciójának jóslása/azonosítása (funkcionális genomika)

Hálózatok modellezése (systems biology)

Probléma: A szekvencia adatbázisok sokkal gyorsabban növekednek, mint az újonnan azonosított gének funkciójára vonatkozó adatok.

Még egy „egyszerű” élőlény esetén is nagyon sok az ismeretlen génszekvencia/funkció.

Élesztő genom project

A legjobban jellemzett eukariótának tartották, amikor 1996-ban meghatározták a genomszekvenciáját.

Ekkorra kb. 2000 gén volt kísérletesen jellemezve és még néhány ezer új génre számítottak.

Meglepetés: Az élesztő genom több mint 6000 gént tartalmaz és ezek egyharmada nem hasonlít semmilyen eddig ismert szekvenciához (orphans/ árvák).

Élesztő gomba / Saccharomyces cerevisiae

Documents

BIOINFORMATIKA