25
Univerzitet u Beogradu Matematiˇ cki fakultet Analiza rasporeda GC nukleotida u zavisnosti od pozicije u genomu bakterija familije Lactobacillus Seminarski rad iz Istraˇ zivanja podataka profesor: student: Nenad Miti´ c Aleksandar Nedeljkovi´ c 36/2009 Beograd, Jun 2013.

Analiza rasporeda GC nukleotida u zavisnosti od pozicije u …alas.matf.bg.ac.rs/~mi09036/files/ip.sem.pdf · 2013-06-26 · mle cnu kiselinu. Proizvodnja mle cne kiseline cini svoje

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Analiza rasporeda GC nukleotida u zavisnosti od pozicije u …alas.matf.bg.ac.rs/~mi09036/files/ip.sem.pdf · 2013-06-26 · mle cnu kiselinu. Proizvodnja mle cne kiseline cini svoje

Univerzitet u BeograduMatematicki fakultet

Analiza rasporeda GC nukleotida uzavisnosti od pozicije u genomubakterija familije Lactobacillus

Seminarski rad iz Istrazivanja podataka

profesor: student:Nenad Mitic Aleksandar Nedeljkovic 36/2009

Beograd, Jun 2013.

Page 2: Analiza rasporeda GC nukleotida u zavisnosti od pozicije u …alas.matf.bg.ac.rs/~mi09036/files/ip.sem.pdf · 2013-06-26 · mle cnu kiselinu. Proizvodnja mle cne kiseline cini svoje

Sadrzaj

1 Uvod 31.1 GC skew . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.2 FASTA format . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2 Bakterije familije Lactobacillus 5

3 Analiza rasporeda GC nukleotida u zavisnosti od pozicije 73.1 Kreiranje i punjenje tabele GCSKEW . . . . . . . . . . . . . . . . . . . . . 73.2 Analiza dobijenih podataka . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.2.1 NC 006375 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103.2.2 NC 006376 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.2.3 NC 006377 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123.2.4 NC 006529 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133.2.5 NC 006530 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143.2.6 NC 007930 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153.2.7 NC 008498 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.2.8 NC 008502 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173.2.9 NC 008503 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183.2.10 NC 013505 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.2.11 NC 013657 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203.2.12 NC 014558 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213.2.13 NC 015213 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.2.14 NC 017465 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

4 Zakljucak 24

5 Literatura 25

2

Page 3: Analiza rasporeda GC nukleotida u zavisnosti od pozicije u …alas.matf.bg.ac.rs/~mi09036/files/ip.sem.pdf · 2013-06-26 · mle cnu kiselinu. Proizvodnja mle cne kiseline cini svoje

1 Uvod

U molekularnoj biologiji i genetici, GC-sadrzaj (ili guanin-citozinski sadrzaj)je udeo azotnih baza u DNK molekulu koje su bilo guanin ili citozin (odmoguce cetiri baze, gde su preostale dve adenin i timin). Ovaj param-eter se moze odnositi na specificni fragment DNK ili RNK molekula, ilina ceo genom. U slucaju fragmenta genetickog materijala, GC-sadrzaj semoze odnositi na deo gena (domen), ceo gen, grupu gena (ili genski klaster),ili na nekodirajuci region. G (guanin) i C (citozin) podlezu specificnomvodonicnom vezivanju. Adenin se specificno vezuje za timin.

Odredjivanje GC sadrzaja

GC sadrzaj se obicno izrazava u procentima, a u nekim slucajevima kaoodnos.

Procentni GC-sadrzaj je

G + C

A + T + G + C∗ 100

dok je AT/GC odnosA + T

G + C

Sa pojavom visoko propusne DNK, genomske sekvence brojnih prokarotskihi eurokarotskih organizama su postali dostupni javnosti. Da bi se razumelaevolucija, struktura i funkcije genoma, vazno je znati opste kompozicionekarakteristike DNK. GC domen u DNK moze da pruzi mnogo bolji uvid urazumevanje organizacije i bioloske funkcije genoma.

1.1 GC skew

Postoje tri glavna pristupa za izracunavanje i graficki prikaz GC skew-a injegovih osobina. Ovo je najcesci i tradicionalan nacin da se kvantitativnooceni asimetrija kompozicija baze. Sledeca formula se koristi za izracunavanjepristrasnosti kompozicije nukleotida:

GCSkew =G− C

G + C

G i C predstavljaju ucestalost pojave ekvivalentne baze (guanina i citoz-ina) u odredjenom redosledu u definisanoj duzini. Strategija klizanja prozorase koristi za izracunavanje GC skew-a kroz genom. Na GC skew plotu pozi-tivna vrednost GC skew-a odgovara vodecem pramenu, a negativna vrednostodgovara zaostajucem pramenu. Osim toga mesto gde se GC skew znakmenja odgovara poreklu ili terminalu. Osa x predstavlja lokacije hromo-zoma, a y osa predstavlja vrednost GC skew-a. Glavna slabost ove metode

3

Page 4: Analiza rasporeda GC nukleotida u zavisnosti od pozicije u …alas.matf.bg.ac.rs/~mi09036/files/ip.sem.pdf · 2013-06-26 · mle cnu kiselinu. Proizvodnja mle cne kiseline cini svoje

je velicina prozora koja zavisi od velicine genoma. Dakle, izbor prave velicineprozora u velikoj meri utice na ishod iscrtavanja plota. Druge tehnike trebakombinovati sa GC Skew u cilju identifikovanja i pronalazenja porekla rep-likacije DNK sa vecom tacnoscu. Za genome vece velicine velicina prozoramora biti manja od duzine sekvence podeljene sa 10000 i velicina koraka morabiti veca od duzine sekvence podeljene sa 1000.

Slika 1. Indikacija porekla i terminus replikacije DNK pomocu GC skew-a ikumulativnog GC skew-a

1.2 FASTA format

U bioinformatici FASTA format je tekstualni format za predstavljanje sekvencinukleotida ili sekvenci peptida u kojima su nukleotidi i amino kiseline pre-dstavljeni jednim kodnim slovom. Format takodje omogucava da komentariprethode sekvenci. Format potice iz FASTA softverkog paketa ali je danaspostao standard u oblasti bioinformatike.

Sekvenca u FASTA formatu pocinje sa jednom linijom opisa, zatim lin-ijama sekvenci podataka. Rec nakon > simbola je identifikator sekvence, aostatak reda je opis (oba su opciona). Ne treba da postoji razmak izmedju> i prvog lova identifikatora. Preporucuje se da linije teksta budu krace od80 karaktera. Sekvenca se zavrsava ako druga linija pocinje sa >, jer pojavaovog simbola ukazuje na pocetak drugog niza. Jednostavan primer sekvenciu FASTA formatu:

>gi|116332681|ref|NC_008497.1| Lactobacillus brevis ATCC 367, complete genome

AACCTGTGGAAAACTTTTTTTCTTCATGCTACACTAGATTTACGTTTTCGTTTAAGGGGCCTCGTGCGCC

CAAACGAAATTAGGACGTAAACTAAAATAGGGGGAAACATCAGTGCCAGACATGTTAACTTTGTG...

4

Page 5: Analiza rasporeda GC nukleotida u zavisnosti od pozicije u …alas.matf.bg.ac.rs/~mi09036/files/ip.sem.pdf · 2013-06-26 · mle cnu kiselinu. Proizvodnja mle cne kiseline cini svoje

2 Bakterije familije Lactobacillus

Lactobacillus je bacil i pripada rodu Gram-pozitivnih fakultativnih anaer-obnih ili mikroaerofilnih stapicastih bakterija. Oni su glavni deo bakterijamlecne kiseline jer vecina njenih clanova konvertuje laktozu i druge secere umlecnu kiselinu. Proizvodnja mlecne kiseline cini svoje okruzenje kiselim isprecava rast nekih stetnih bakterija.

Neke vrste Lactobacillus bakterija koriste se u proizvodnji jogurta, sira,piva, vina, jabukovace i drugih fermentisanih namirnica, kao i hrane zazivotinje kao sto je silaza. Neki sojevi Lactobacillus bakterija i druge bakter-ije mlecne kiseline mogu imati potencijalna terapeutska svojstva, ukljucujucii prevenciju protiv raka. Rod Lactobacillus bakterija trenutno se sastoji odpreko 180 vrsta i obuhvata sirok spektar organizama. Mnogi laktobacili suneobicni u tome sto koriste homofermitativni metabolizam (tj. , samo oniproizvode mlecnu kiselinu iz secera za razliku od heterofermatitivnih lakto-bacila koji mogu da proizvedu bilo alkohol ili mlecnu kiselinu iz secera) i dasu aerotolerantni uprkos odsustvu respiratornog lanca.

U rezultatu narednog upita mozemo videti GC sadrzaj kompletnih genomai sekvenci Lactobacillus bakterija.

SELECT ORGANISM_NAME, DUZINA,

GC_COUNT, DECIMAL((GC_COUNT * 1.0)*100 / DUZINA,5,2) AS "GC Sadrzaj"

FROM SUMMARY_BCT

WHERE ORGANISM_NAME LIKE ’Lactob%’

ORGANISM_NAME DUZINA GC_COUNT GC Sadrzaj

-------------------------------------------------------- ------- -------- ----------

Lactobacillus plantarum WCFS1 3308273 1471086 44.46

Lactobacillus johnsonii NCC 533 1992676 689690 34.61

Lactobacillus plantarum WCFS1 1917 757 39.48

Lactobacillus plantarum WCFS1 2365 812 34.33

Lactobacillus plantarum WCFS1 36069 14727 40.83

Lactobacillus salivarius UCC118 20417 7985 39.10

Lactobacillus salivarius UCC118 44013 17421 39.58

Lactobacillus acidophilus NCFM 1993560 692056 34.71

Lactobacillus sakei subsp. sakei 23K 1884661 777566 41.25

Lactobacillus salivarius UCC118 1827111 601873 32.94

Lactobacillus salivarius UCC118 242436 77797 32.08

Lactobacillus delbrueckii subsp. bulgaricus ATCC 11842 1864998 927259 49.71

Lactobacillus brevis ATCC 367 2291220 1058976 46.21

Lactobacillus brevis ATCC 367 13413 5183 38.64

Lactobacillus brevis ATCC 367 35595 13709 38.51

Lactobacillus casei ATCC 334 29061 12253 42.16

Lactobacillus casei ATCC 334 2895264 1349757 46.61

Lactobacillus delbrueckii subsp. bulgaricus ATCC BAA-365 1856951 922651 49.68

Lactobacillus gasseri ATCC 33323 1894360 667944 35.25

Lactobacillus reuteri DSM 20016 1999618 777304 38.87

Lactobacillus helveticus DPC 4571 2080931 771547 37.07

Lactobacillus reuteri JCM 1112 2039414 792899 38.87

Lactobacillus fermentum IFO 3956 2098685 1080173 51.46

Lactobacillus casei BL23 3079196 1426767 46.33

Lactobacillus casei str. Zhang 36487 14649 40.14

Lactobacillus johnsonii FI9785 3471 1243 35.81

Lactobacillus plantarum JDM1 3197759 1428148 44.66

Lactobacillus rhamnosus GG 3010111 1405421 46.69

5

Page 6: Analiza rasporeda GC nukleotida u zavisnosti od pozicije u …alas.matf.bg.ac.rs/~mi09036/files/ip.sem.pdf · 2013-06-26 · mle cnu kiselinu. Proizvodnja mle cne kiseline cini svoje

Lactobacillus rhamnosus Lc 705 2968598 1387651 46.74

Lactobacillus rhamnosus Lc 705 64508 28061 43.50

Lactobacillus johnsonii FI9785 1755993 605566 34.48

Lactobacillus johnsonii FI9785 25652 7792 30.37

Lactobacillus crispatus ST1 2043161 753469 36.87

Lactobacillus casei str. Zhang 2861848 1331069 46.51

Lactobacillus plantarum subsp. plantarum ST-III 3254376 1450690 44.57

Lactobacillus plantarum subsp. plantarum ST-III 53560 20720 38.68

Lactobacillus amylovorus GRL 1112 2067702 789767 38.19

Lactobacillus delbrueckii subsp. bulgaricus ND02 2125753 1053475 49.55

Lactobacillus delbrueckii subsp. bulgaricus ND02 6223 2779 44.65

Lactobacillus acidophilus 30SC 7197 2524 35.07

Lactobacillus acidophilus 30SC 2078001 792713 38.14

Lactobacillus acidophilus 30SC 12568 4606 36.64

Lactobacillus amylovorus GRL 1112 33688 10723 31.83

Lactobacillus amylovorus GRL 1112 25284 9179 36.30

Lactobacillus buchneri NRRL B-30929 52697 20070 38.08

Lactobacillus buchneri NRRL B-30929 10798 4063 37.62

Lactobacillus buchneri NRRL B-30929 2506301 1113192 44.41

Lactobacillus buchneri NRRL B-30929 18513 7481 40.40

Lactobacillus kefiranofaciens ZW3 194769 66188 33.98

Lactobacillus kefiranofaciens ZW3 2113023 796523 37.69

Lactobacillus kefiranofaciens ZW3 46296 16678 36.02

Lactobacillus reuteri SD2112 2264399 883897 39.03

Lactobacillus reuteri SD2112 14173 5831 41.14

Lactobacillus reuteri SD2112 7047 2765 39.23

Lactobacillus reuteri SD2112 12160 4859 39.95

Lactobacillus reuteri SD2112 19059 7026 36.86

Lactobacillus ruminis ATCC 27782 2066652 898362 43.46

Lactobacillus sanfranciscensis TMW 1.1304 1298316 450541 34.70

Lactobacillus sanfranciscensis TMW 1.1304 58739 22097 37.61

Lactobacillus sanfranciscensis TMW 1.1304 18715 6759 36.11

Lactobacillus buchneri 2707 1045 38.60

Lactobacillus buchneri 3424 1313 38.34

Lactobacillus fermentum CECT 5716 2100449 1079619 51.39

Lactobacillus helveticus H10 2145899 789435 36.78

Lactobacillus helveticus H10 26484 9744 36.79

Lactobacillus delbrueckii subsp. bulgaricus 2038 1872918 930468 49.68

Lactobacillus amylovorus GRL1118 1894401 722670 38.14

Lactobacillus amylovorus GRL1118 4541 1554 34.22

Lactobacillus amylovorus GRL1118 78145 27721 35.47

Lactobacillus casei LC2W 3039042 1408912 46.36

Lactobacillus casei BD-II 3069926 1422544 46.33

Lactobacillus casei LC2W 38392 16369 42.63

Lactobacillus casei BD-II 57362 25068 43.70

Lactobacillus johnsonii DPC 6026 1966342 683919 34.78

Lactobacillus salivarius CECT 5713 44581 17556 39.38

Lactobacillus salivarius CECT 5713 20426 7903 38.69

Lactobacillus salivarius CECT 5713 1828169 601426 32.89

Lactobacillus rhamnosus GG 3005051 1403116 46.69

Lactobacillus rhamnosus ATCC 8530 2960339 1384357 46.76

Lactobacillus salivarius CECT 5713 242962 77740 31.99

Lactobacillus helveticus R0052 2129206 783459 36.79

Lactobacillus buchneri CD034 2500564 1109479 44.36

Lactobacillus buchneri CD034 56473 21317 37.74

Lactobacillus casei W56 3075780 1425293 46.33

Lactobacillus casei 56316 24620 43.71

6

Page 7: Analiza rasporeda GC nukleotida u zavisnosti od pozicije u …alas.matf.bg.ac.rs/~mi09036/files/ip.sem.pdf · 2013-06-26 · mle cnu kiselinu. Proizvodnja mle cne kiseline cini svoje

3 Analiza rasporeda GC nukleotida u zavisnosti odpozicije

3.1 Kreiranje i punjenje tabele GCSKEW

Prvo sto je neophodno jeste da katalogiziramo bazu IPSEM13 koja se nalazina udaljenom racunaru mq.matf.bg.ac.rs

db2 catalog tcpip node ipsem13 remote mq.matf.bg.ac.rs server 50000

db2 catalog db ipsem13 at node ipsem13

Nakon toga na bazi IPSEM13 kreirati sledecu tabelu:

create table studentip.gcskew

(

accession varchar(12) not null ,

part smallint not null ,

numb_of_intervals smallint not null ,

window smallint not null ,

window_size smallint not null ,

step smallint not null ,

position integer not null ,

G_number smallint not null ,

C_number smallint not null ,

T_number smallint not null ,

A_number smallint not null ,

GC_skew decimal(10,5) not null ,

cumulative_GC_skew decimal(10,5) not null ,

peak_GC smallint not null ,

cumulative_GC_peak smallint not null ,

peak_GC_sign character(1) ,

cumul_GC_peak_sign character(1) ,

AT_skew decimal(10,5) not null ,

cumulative_AT_skew decimal(10,5) not null ,

peak_AT smallint not null ,

cumulative_AT_peak smallint not null ,

peak_AT_sign character(1) ,

cumul_AT_peak_sign character(1) ,

virus_length integer ,

GC_skew_w_size decimal(10,5) ,

molecule varchar(10) ,

moleculetype varchar(10) ,

genbankdiv varchar(10) ,

primary key (accession,window,window_size,step,position)

);

7

Page 8: Analiza rasporeda GC nukleotida u zavisnosti od pozicije u …alas.matf.bg.ac.rs/~mi09036/files/ip.sem.pdf · 2013-06-26 · mle cnu kiselinu. Proizvodnja mle cne kiseline cini svoje

Sadrzaj skript fajla koji nam koriscenjem programa racunajgc.v3.c punidatoteku gcskew.load

racunajgc.v3 NC_006375.FAS NC_006375 100 100 19 19

racunajgc.v3 NC_006376.FAS NC_006376 100 100 23 23

racunajgc.v3 NC_006377.FAS NC_006377 100 100 360 360

racunajgc.v3 NC_006529.FAS NC_006529 100 100 204 204

racunajgc.v3 NC_006530.FAS NC_006530 100 100 440 440

racunajgc.v3 NC_007930.FAS NC_007930 100 100 2424 2424

racunajgc.v3 NC_008498.FAS NC_008498 100 100 134 134

racunajgc.v3 NC_008499.FAS NC_008499 100 100 355 355

racunajgc.v3 NC_008502.FAS NC_008502 100 100 290 290

racunajgc.v3 NC_008503.FAS NC_008503 100 100 140 140

racunajgc.v3 NC_008504.FAS NC_008504 100 100 95 95

racunajgc.v3 NC_008505.FAS NC_008505 100 100 747 747

racunajgc.v3 NC_008506.FAS NC_008506 100 100 472 472

racunajgc.v3 NC_008507.FAS NC_008507 100 100 142 142

racunajgc.v3 NC_011352.FAS NC_011352 100 100 364 364

racunajgc.v3 NC_012552.FAS NC_012552 100 100 34 34

racunajgc.v3 NC_013200.FAS NC_013200 100 100 645 645

racunajgc.v3 NC_013505.FAS NC_013505 100 100 256 256

racunajgc.v3 NC_013657.FAS NC_013657 100 100 375 375

racunajgc.v3 NC_014558.FAS NC_014558 100 100 535 535

racunajgc.v3 NC_014728.FAS NC_014728 100 100 62 62

racunajgc.v3 NC_015213.FAS NC_015213 100 100 71 71

racunajgc.v3 NC_015218.FAS NC_015218 100 100 125 125

racunajgc.v3 NC_015319.FAS NC_015319 100 100 336 336

racunajgc.v3 NC_015322.FAS NC_015322 100 100 252 252

racunajgc.v3 NC_015420.FAS NC_015420 100 100 526 526

racunajgc.v3 NC_015421.FAS NC_015421 100 100 107 107

racunajgc.v3 NC_015429.FAS NC_015429 100 100 185 185

racunajgc.v3 NC_015598.FAS NC_015598 100 100 1947 1947

racunajgc.v3 NC_015603.FAS NC_015603 100 100 462 462

racunajgc.v3 NC_015698.FAS NC_015698 100 100 141 141

racunajgc.v3 NC_015699.FAS NC_015699 100 100 70 70

racunajgc.v3 NC_015700.FAS NC_015700 100 100 121 121

racunajgc.v3 NC_015701.FAS NC_015701 100 100 190 190

Tabela se puni iz datoteke gcskew.load koja je prethodno dobijena koriscenjemprograma racunajgc.v3.c koji se koristi za racunanje GC skew-a po obrascu(G + C)/(G− C).

Tabelu GCSKEW punimo koriscenjem LOAD utility alata sledecim narebama:

LOAD CLIENT FROM .\gcskew.load OF DEL MODIFIED BY COLDEL,

FASTPARSE METHOD P (1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18,

19, 20, 21, 22, 23)

MESSAGES .\gcskew.load.izv

INSERT INTO studentip.gcskew (accession, part, numb_of_intervals,window, window_size,

step, position, G_number, C_number, T_number, A_number,

GC_skew, cumulative_GC_skew, peak_GC, cumulative_GC_peak,

peak_GC_sign, cumul_GC_peak_sign, AT_skew, cumulative_AT_skew,

peak_AT, cumulative_AT_peak, peak_AT_sign, cumul_AT_peak_sign)

NONRECOVERABLE INDEXING MODE AUTOSELECT;

8

Page 9: Analiza rasporeda GC nukleotida u zavisnosti od pozicije u …alas.matf.bg.ac.rs/~mi09036/files/ip.sem.pdf · 2013-06-26 · mle cnu kiselinu. Proizvodnja mle cne kiseline cini svoje

Da bi popunili i preostale atribute tabelu je neophodno azuriratinarednim naredbama:

update gcskew a

set (virus_length,molecule, moleculetype, genbankdiv)=(

select duzina, molekul, tipmolekula,genbankdiv

from summary_bct b

where a.accession=b.accession

);

commit;

RUNSTATS ON TABLE STUDENTIP.gcskew

ON ALL COLUMNS AND INDEXES ALL ALLOW WRITE ACCESS ;

commit;

update gcskew a

set (GC_skew_w_size)=(select gc_skew*(window_size)/duzina

from summary_bct b

where a.accession=b.accession);

ALTER TABLE STUDENTIP.GCSKEW ADD cumulative_gc_skew_w_size decimal(10,5);

update gcskew a

set (cumulative_gc_skew_w_size)=

(select cumulative_gc_skew*(window_size)/duzina

from summary_bct b

where a.accession=b.accession);

Brisemo poslednji prozor ukoliko je zbir G+C+T +A manji od 80% velicineprozora da bi smanjili gresku pri analiziranju podataka. To cinimo sledecomnaredbom:

DELETE FROM GCSKEW

WHERE (G_number+C_number+T_number+A_number) < 0.8 * window_size;

3.2 Analiza dobijenih podataka

U narednih nekoliko primera videcemo gc skew w size i cumulative gc skew w sizedijagrame nekoliko bakterija iz familije Lactobacillus.Osa y predstavlja vrednost izracunatu po formuli:

gc skew w size = gc skew · velicina prozora

duzina genoma

cumulative gc skew w size = cumulative gc skew · velicina prozora

duzina genoma

dok x osa predstavlja redni broj prozora.

9

Page 10: Analiza rasporeda GC nukleotida u zavisnosti od pozicije u …alas.matf.bg.ac.rs/~mi09036/files/ip.sem.pdf · 2013-06-26 · mle cnu kiselinu. Proizvodnja mle cne kiseline cini svoje

3.2.1 NC 006375

ACCESSION ORGANISM NAME %GC Sadrzaj DuzinaNC 006375 Lactobacillus plantarum WCFS1 39.49 1917

Minimum se dostize na samom pocetku i iznosi −0, 0011 nakon cegavrednost cumulative gc skew w size dijagrama raste i dostize maksimum nasamom kraju i iznosi 0, 17758. Za ovakav oblik dijagrama procentni GCsadrzaj iznosi 39.49%.

10

Page 11: Analiza rasporeda GC nukleotida u zavisnosti od pozicije u …alas.matf.bg.ac.rs/~mi09036/files/ip.sem.pdf · 2013-06-26 · mle cnu kiselinu. Proizvodnja mle cne kiseline cini svoje

3.2.2 NC 006376

ACCESSION ORGANISM NAME %GC Sadrzaj DuzinaNC 006376 Lactobacillus plantarum WCFS1 34.33 2365

Maksimum se dostize na 40% duzine genoma i iznosi 0,03922, potom slediminimum na 70% duzine genoma i iznosi −0, 04894 za kojim sledi jos jedanmaksimum na 90% duzine genoma koji iznosi 0.00052. Za ovakav oblik di-jagrama procentni GC sadrzaj je manji nego u pethodnom slucaju i iznosiiznosi 34.33%.

11

Page 12: Analiza rasporeda GC nukleotida u zavisnosti od pozicije u …alas.matf.bg.ac.rs/~mi09036/files/ip.sem.pdf · 2013-06-26 · mle cnu kiselinu. Proizvodnja mle cne kiseline cini svoje

3.2.3 NC 006377

ACCESSION ORGANISM NAME %GC Sadrzaj DuzinaNC 006377 Lactobacillus plantarum WCFS1 40.78 36069

Minimum se dostize na 10% duzine genoma i iznosi −0, 01157 nakon kogasledi maksimum na 45% duzine genoma i iznosi 0.01428. Na 90% duzinegenoma dostize se minimum koji iznosi −0.01241 .

12

Page 13: Analiza rasporeda GC nukleotida u zavisnosti od pozicije u …alas.matf.bg.ac.rs/~mi09036/files/ip.sem.pdf · 2013-06-26 · mle cnu kiselinu. Proizvodnja mle cne kiseline cini svoje

3.2.4 NC 006529

ACCESSION ORGANISM NAME %GC Sadrzaj DuzinaNC 006529 Lactobacillus salivarius UCC118 39.11 20417

Sa dijagrama vidimo da se na 30 i 50 procenata duzine genoma dostizuminimumi dok se maksimum dostize na samom kraju genoma. Za ovakavoblik dijagrama procentni GC sadrzaj iznosi 39.11%.

13

Page 14: Analiza rasporeda GC nukleotida u zavisnosti od pozicije u …alas.matf.bg.ac.rs/~mi09036/files/ip.sem.pdf · 2013-06-26 · mle cnu kiselinu. Proizvodnja mle cne kiseline cini svoje

3.2.5 NC 006530

ACCESSION ORGANISM NAME %GC Sadrzaj DuzinaNC 006530 Lactobacillus salivarius UCC118 39.58 44013

Ovaj dijagram je jako slican sa prvim dijagramom kada smo analiziralicumulative gc skew w size dijagram NC 006375 bakterije. Minimum se dostizena samom pocetku, a maksimum na samom kraju genoma. Cak je i procentniGC sadrzaj slican gotovo identican kao i u prvom slucaju i iznosi 39.58%.

14

Page 15: Analiza rasporeda GC nukleotida u zavisnosti od pozicije u …alas.matf.bg.ac.rs/~mi09036/files/ip.sem.pdf · 2013-06-26 · mle cnu kiselinu. Proizvodnja mle cne kiseline cini svoje

3.2.6 NC 007930

ACCESSION ORGANISM NAME %GC Sadrzaj DuzinaNC 007930 Lactobacillus salivarius UCC118 32.09 242436

Maksimum se dostize na 40% duzine genoma, a minimum na samom krajugenoma. Za ovakav oblik dijagrama procentni GC sadrzaj je manji nego usvim prethodnim slucajevima i iznosi 32.09%.

15

Page 16: Analiza rasporeda GC nukleotida u zavisnosti od pozicije u …alas.matf.bg.ac.rs/~mi09036/files/ip.sem.pdf · 2013-06-26 · mle cnu kiselinu. Proizvodnja mle cne kiseline cini svoje

3.2.7 NC 008498

ACCESSION ORGANISM NAME %GC Sadrzaj DuzinaNC 008498 Lactobacillus brevis ATCC 367 38.64 13413

Maksimum se dostize na samom pocetku genoma za kojim sledi niz od dvaminimuma na 20 i 60 procenata duzine genoma. Za ovakav oblik dijagramaprocentni GC sadrzaj iznosi 38.64%.

16

Page 17: Analiza rasporeda GC nukleotida u zavisnosti od pozicije u …alas.matf.bg.ac.rs/~mi09036/files/ip.sem.pdf · 2013-06-26 · mle cnu kiselinu. Proizvodnja mle cne kiseline cini svoje

3.2.8 NC 008502

ACCESSION ORGANISM NAME %GC Sadrzaj DuzinaNC 008502 Lactobacillus casei ATCC 334 42.16 29061

Maksimum je na samom pocetku genoma za kojim slede minimum na10% duzine genoma, maksimum na 20% duzine, minimum na 40% duzine,maksimum na 60% duzine genoma, minimum na 80% duzine genoma zakojim sledi maksimum na samom kraju genoma. Za ovakav oblik dijagramaprocentni GC sadrzaj iznosi 42.16%.

17

Page 18: Analiza rasporeda GC nukleotida u zavisnosti od pozicije u …alas.matf.bg.ac.rs/~mi09036/files/ip.sem.pdf · 2013-06-26 · mle cnu kiselinu. Proizvodnja mle cne kiseline cini svoje

3.2.9 NC 008503

ACCESSION ORGANISM NAME %GC Sadrzaj DuzinaNC 008503 Lactococcus lactis subsp. cremoris SK11 34.37 14041

Na pocetku imamo dva maksimuma (peek-a) na 25 i 35 procenata duzinegenoma, zatim imamo minimum na 60 procenata duzine genoma i dva peek-ana 80 procenata duzine genoma. Za ovakav oblik dijagrama procentni GCsadrzaj iznosi 34.37%.

18

Page 19: Analiza rasporeda GC nukleotida u zavisnosti od pozicije u …alas.matf.bg.ac.rs/~mi09036/files/ip.sem.pdf · 2013-06-26 · mle cnu kiselinu. Proizvodnja mle cne kiseline cini svoje

3.2.10 NC 013505

ACCESSION ORGANISM NAME %GC Sadrzaj DuzinaNC 013505 Lactobacillus johnsonii FI9785 30.38 74750

Minimum je na samom pocetku grafika, dok se maksimum dostize na70% duzine genoma. Za ovakav oblik dijagrama procentni GC sadrzaj iznosi30.38%.

19

Page 20: Analiza rasporeda GC nukleotida u zavisnosti od pozicije u …alas.matf.bg.ac.rs/~mi09036/files/ip.sem.pdf · 2013-06-26 · mle cnu kiselinu. Proizvodnja mle cne kiseline cini svoje

3.2.11 NC 013657

ACCESSION ORGANISM NAME %GC Sadrzaj DuzinaNC 013657 Lactococcus lactis subsp. lactis KF147 32.38 37510

Na grafiku se pojavljuju uzastopno minimum i maksimum na 40 % duzinegenoma, dok je minimum na samom kraju duzine genoma. Za ovakav oblikdijagrama procentni GC sadrzaj iznosi 32.38%.

20

Page 21: Analiza rasporeda GC nukleotida u zavisnosti od pozicije u …alas.matf.bg.ac.rs/~mi09036/files/ip.sem.pdf · 2013-06-26 · mle cnu kiselinu. Proizvodnja mle cne kiseline cini svoje

3.2.12 NC 014558

ACCESSION ORGANISM NAME %GC Sadrzaj DuzinaNC 014558 Lactobacillus plantarum ST-III 38.68 53560

Maksimum se dostize na samom pocetku genoma. Vrednost funkcije dija-grama monotono opada tako da se minimum dostize na samom kraju genoma.Za ovakav oblik dijagrama procentni GC sadrzaj iznosi 38.68% i jako je slicandijagramu bakterije NC 008498 ciji je procentni GC sadrzaj gotovo identicani iznosi 38.64%.

21

Page 22: Analiza rasporeda GC nukleotida u zavisnosti od pozicije u …alas.matf.bg.ac.rs/~mi09036/files/ip.sem.pdf · 2013-06-26 · mle cnu kiselinu. Proizvodnja mle cne kiseline cini svoje

3.2.13 NC 015213

ACCESSION ORGANISM NAME %GC Sadrzaj DuzinaNC 015213 Lactobacillus acidophilus 30SC 35.07 7197

Na 10 i 30 procenata duzine genoma dostizu se maksimumi dok se min-imum dostize na 80 procenata duzine genoma. Za ovakav oblik dijagramaprocentni GC sadrzaj iznosi 35.07%.

22

Page 23: Analiza rasporeda GC nukleotida u zavisnosti od pozicije u …alas.matf.bg.ac.rs/~mi09036/files/ip.sem.pdf · 2013-06-26 · mle cnu kiselinu. Proizvodnja mle cne kiseline cini svoje

3.2.14 NC 017465

ACCESSION ORGANISM NAME %GC Sadrzaj DuzinaNC 017465 Lactobacillus fermentum CECT 5716 51.39 2100449

Ovaj organizam ima najveci procentni GC sadrzaj iz Lactobacillus famil-ije bakterija i iznosi 51.39%. Sa dijagrama se vidi da postoji samo jedanmaksimum koji se nalazi na 52% duzine genoma i iznosi 0,02385.

23

Page 24: Analiza rasporeda GC nukleotida u zavisnosti od pozicije u …alas.matf.bg.ac.rs/~mi09036/files/ip.sem.pdf · 2013-06-26 · mle cnu kiselinu. Proizvodnja mle cne kiseline cini svoje

4 Zakljucak

Slika 2. Grafik sest razlicitih cumulative gc skew w size diagrama sarazlicitim GC%

Ono sto mozemo primetiti na osnovu dobijenih rezultata jeste da bakte-rija iz Lactobacillus familije koja ima najveci procentni GC sadrzaj (51.39%)jeste ona ciji je cumulative gc skew w size dijagram sa najmanjim brojempeek-ova to jest ona koja ima samo jedan maksimum i to na 50% duzinegenoma. Kod bakterija kao sto su NC 006375 i NC 006530 minimum sedostize na samom pocetku, a maksimum na samom kraju genoma i nji-hov preocentni GC sadrzaj je 39.49% odnosno 39.58%. Kod NC 014558 iNC 008498 bakterija maksimum se dostize na samom pocetku, a minimumna samom kraju genoma i njihov procentni GC sadrzaj je veoma slican iiznosi 38.68% odnosno 38.64%. Bakterije NC 007930 i NC 006376 imajunizi procentni GC sadrzaj (32.09% i 34.33%) i za njih je karakteristicno dase maksimum cumulative gc skew w size dijagrama dostize na 40% duzinegenoma. Kod NC 007930 bakterije minimum se dostize na samom krajuduzine genoma, dok se minimum NC 006376 bakterije dostize na 65% duzinegenoma za kojim sledi maksimum na samom kraju genoma pa samom timNC 006376 bakterija ima nesto veci procentni GC sadrzaj.

Rezultati pokazuju zapanjujucu raznolikost u GC sadrzaju medju Lacto-bacillus vrstama, u rasponu od 30.38% do 51.39%. Pokazano je da je genom-ski GC sadrzaj u korelaciji sa velikim brojem faktora [1]. Da li bakterija zivislobodno ili ne [2], sredine [3], aerobne baze [4], ukljucujuci i velicinu genoma[5] kod vrsta kao sto je Lactobacillus ciji je raspon izmedju 1.8 do 3.3 Mb uduzini. Ovo pokazuje da GC sadrzaj i velicina genoma Lactobacillus vrstamoze uticati na biolosku slozenost i adaptaciju ove vrste. Medjutim i daljeje nepoznato da li su korelacije navedenih faktora uticale na proces mutacije,ili je to uticaj prirodne selekcije.

24

Page 25: Analiza rasporeda GC nukleotida u zavisnosti od pozicije u …alas.matf.bg.ac.rs/~mi09036/files/ip.sem.pdf · 2013-06-26 · mle cnu kiselinu. Proizvodnja mle cne kiseline cini svoje

5 Literatura

[1] Hildebrand F, Meyer A, Eyre-Walker A: Evidence of Selection uponGenomic GC-Content in Bacteria. PLoS Genet 2010, 6(9):e1001107.doi:10.1371/journal.pgen.1001107.

[2] Woolfit M, Bromham L (2003) Increased rates of sequence evolu-tion in endosymbiotic bacteria and fungi with small effectivepopulation sizes. Mol Biol Evol 20: 15451555.

[3] Foerstner KU, von Mering C, Hooper SD, Bork P (2005) Environmentsshape the nucleotide composition of genomes. EMBO Rep 6:12081213.

[4] Naya H, Romero H, Zavala A, Alvarez B, Musto H (2002) Aerobiosisincreases the genomic guanine plus cytosine content (GC%) inprokaryotes. J Mol Evol 55: 260264.

[5] Bentley SD, Parkhill J: Comparative genomic structure of prokary-otes. Annu Rev Genet 2004, 38:771792.

[6] ftp://ftp.ncbi.nih.gov/genomes/Bacteria/

[7] http://en.wikipedia.org/wiki/Lactobacillus

[8] http://nucleix.mbu.iisc.ernet.in/prombase/index.htm

[9] http://tubic.tju.edu.cn/GC-Profile/

[10] http://genskew.csb.univie.ac.at/

25