Invloed van de genomische context op genexpressie van

Promotor: Prof. Dr. Y. Van de Peer

Begeleidster: Tineke Casneuf

Faculteit WetenschappenVakgroep Moleculaire Genetica

Departement Plant Systems Biology – VIB

Invloed van de genomische context op genexpressie vangedupliceerde genen.

James Cauwelier

Scriptie voorgelegd tot het behalen van de graad van licentiaat/master in de biotechnologie

Academiejaar 2005 - 2006

Promoter: Prof. Dr. Y. Van de Peer

Begeleidster: Tineke Casneuf

Faculteit wetenschappenVakgroep Moleculaire Genetica

Departement Plant Systems Biology – VIB

Invloed van de genomische context op genexpressie vangedupliceerde genen.

James Cauwelier

Scriptie voorgelegd tot het behalen van de graad van licentiaat/master in de biotechnologie

Academiejaar 2005 - 2006

Dankwoord

Bij het begin van deze thesis wil ik graag alle personen bedanken die me hebben geholpen

met de realisatie ervan.

Eerst wil ik Prof. Dr. Y. Van de Peer bedanken voor het opnemen van het promotorschap.

Mijn begeleidster, Tineke Casneuf, wil ik bedanken voor de begeleiding en het beantwoorden

van al mijn vragen gedurende het afgelopen jaar. Maar ook Stefanie De Bodt heeft me goed

geholpen in het promoteronderzoek, waarvoor ik haar wil bedanken.

Twee mensen wil ik hier speciaal vermelden. Mijn vriendin, die mij, ondanks de vele

eenzame uren die ik samen met de computer doorbracht, nog steeds even graag ziet en

steeds klaar staat bij problemen. Johan Vandekerkhove, mijn mentor en vriend, verdient hier

een speciale vermelding. Zonder hem zou mijn leven een héél andere wending genomen

hebben en ik bedank hem voor de begeleiding die ik van hem ontving.

Maar ook mijn grootouders wil ik hier niet vergeten. Zij hebben de rol van mijn ouders graag

op zich genomen en ik ben hen daar dankbaar voor. Een speciale plaats in mijn hart is voor

hen gereserveerd.

En last but not least, wil ik al mijn vrienden bedanken voor het tonen van interesse in mijn

werk, zelfs al meenden ze het niet.

Inhoudstafel

Dankwoord

Inhoudstafel

1 Doelstelling van de thesis ............................................................................................1

2 Literatuurstudie.............................................................................................................3

2.1 Alignering van sequenties .......................................................................................3

2.1.1 Inleiding...............................................................................................................................3

2.1.2 Substitutiematrices .............................................................................................................3

2.1.3 Sequentie-alignering...........................................................................................................4

2.2 Genduplicatie..........................................................................................................5

2.2.1 Mechanismen......................................................................................................................5

2.2.2 Identificatie van grootschalige genduplicaties ....................................................................8

2.2.3 Datering van genduplicatie met Ks....................................................................................11

2.3 Evolutie na duplicatie ............................................................................................12

2.3.1 Behoud van het gedupliceerde genetisch materiaal.........................................................13

2.3.2 Divergentie van gedupliceerde genen ..............................................................................13

2.4 Modelorganisme: Arabidopsis thaliana..................................................................15

2.5 Microarrays ...........................................................................................................17

2.5.1 Inleiding.............................................................................................................................17

2.5.2 Types en productie ...........................................................................................................18

2.5.3 Het meten van de genexpressie .......................................................................................20

2.5.4 Normalisatie van microarray data .....................................................................................21

3 Materiaal en methode..................................................................................................24

3.1 Algemeen overzicht ..............................................................................................24

3.2 Algemene technieken ...........................................................................................25

3.2.1 Perl....................................................................................................................................25

3.2.2 R en Bioconductor ............................................................................................................25

3.3 Detectie en klassificatie van ankerpunten .............................................................25

3.3.1 BLAST...............................................................................................................................25

3.3.2 Methode van Rost.............................................................................................................26

3.3.3 i-ADHoRe..........................................................................................................................26

3.3.4 i-ADHoRe2genedraw_real_TE.pl .....................................................................................28

3.3.5 rearrangement_search.pl..................................................................................................29

3.3.6 Onderverdelen in type herschikkingen .............................................................................32

3.3.7 Berekenen van de correlatie van genexpressie ...............................................................34

3.4 Promoteranalyse van gedupliceerde genen ..........................................................36

4 Resultaten....................................................................................................................38

4.1 Grootte van de ankerpunt groepen........................................................................38

4.1.1 Inleiding.............................................................................................................................38

4.1.2 Overzicht van de ankerpunt groepen ...............................................................................39

4.2 Correlatie van genexpressies................................................................................41

4.2.1 Analyse van alle herschikte en alle niet herschikte ankerpuntgenen...............................41

4.2.2 Analyse van herschikte en niet herschikte ankerpuntgenen ............................................42

4.2.3 Analyse van niet herschikte ankerpunten (enkel pseudogenen) en herschikte

ankerpunten (eiwitcoderende herschikking)...................................................................................43


ankerpunten (RNA coderende herschikking). ................................................................................44


ankerpunten (transposon coderende herschikking). ......................................................................45

4.2.6 Analyse van herschikte ankerpunten (RNA coderende herschikking) en herschikte

ankerpunten (eiwitcoderende herschikking)...................................................................................45

4.2.7 Analyse van herschikte ankerpunten (TP coderende herschikking) en niet herschikte

ankerpunten (zonder pseudogenen). .............................................................................................46

4.2.8 Analyse van herschikte ankerpunten (TP coderende herschikking) en herschikte

ankerpunten (RNA coderende herschikking). ................................................................................47

4.2.9 Analyse van herschikte ankerpunten die herschikt werden door deletie in vergelijking tot

die die herschikt werden door insertie............................................................................................48

4.3 Promoter-onderzoek. ............................................................................................50

4.3.1 Inleiding.............................................................................................................................50

4.3.2 Vergelijken van de aligneerbaarheid van het upstream gebied. ......................................50

4.3.3 Verband tussen de aligneerbaarheid van de promoterregio’s en de leeftijd van duplicatie52

4.3.4 De aligneerbaarheid van de promoterregio’s in functie van de correlatie van

genexpressie. .................................................................................................................................53

5 Discussie .....................................................................................................................56

5.1 Correlatie van genexpressie..................................................................................56

5.2 Promoter onderzoek .............................................................................................57

5.3 Besluit ...................................................................................................................58

6 Bijlagen ........................................................................................................................59

6.1 Bijlage A: microarray dataset ................................................................................59

6.2 Bijlage B: Lijst met afkortingen ..............................................................................63

6.3 Bijlage C: CD-ROM...............................................................................................64

7 Referenties...................................................................................................................65

1

1 Doelstelling van de thesis

Het erfelijk materiaal van ieder organisme is vervat in zijn DNA. Dit DNA bestaat uit

coderende regio’s (de genen) en niet coderende regio’s die een structurele of

regulerende rol kunnen vervullen. Ieder gen codeert over het algemeen voor een eiwit

en komt slechts éénmaal voor in een haploïd genoom, maar dit betekent niet dat ieder

gen uniek is. In het verleden zijn sommige genen meerdere malen gekopieerd geweest,

waardoor genfamilies onderscheiden kunnen worden die bestaan uit sterk op elkaar

lijkende gensequenties. Na duplicatie van één of meerdere genen kan mutatie ervoor

zorgen dat de sequenties van de genen gewijzigd worden, waardoor ze na verloop van

tijd minder op elkaar lijken en zelfs verschillende functies kunnen gaan uitvoeren. Enkel

die wijzigingen in sequentie die een voordeel betekenen voor de overleving en

algemene fitness van het organisme worden behouden in een populatie van dat

organisme.

Onderzoek heeft aangetoond dat genen zelfs grootschalige genoomduplicaties

frequent voorkomen, in het bijzonder bij planten (Adams KL and Wendel JF, 2005).

Deze verdubbeling van genetisch materiaal is een belangrijke factor in het genereren

van nieuwe functies door het leveren van extra ruw genetisch materiaal waarop selectie

kan inwerken (Ohno S., 1970). Het bij een duplicatie gevormd genetisch materiaal kan

ook voordelen bieden aan een organisme doordat deze zich beter kan aanpassen aan

veranderende omgevingsfactoren. Verder zijn gedupliceerde genen ook beter bestand

tegen mutatie (Gu Z. et al., 2003). Duplicatie, gevolgd door divergentie, kan

bijvoorbeeld aanleiding geven tot het ontstaan van nieuwe soorten. Hoe dit alles in zijn

werk gaat wordt momenteel nog onvoldoende begrepen. Divergentie van genexpressie

na herschikkingen1 van het gedupliceerde materiaal kan hier een rol in spelen maar of

dit zo is, werd nog niet onderzocht. Recent werd aangetoond dat de wijze van duplicatie

(groot- of kleinschalig) een rol speelt bij de divergentie van genexpressie (Casneuf et al.,

2006). Grootschalig gedupliceerde gensegmenten vertonen een hogere correlatie van

genexpressie dan genen die op kleinere schaal gedupliceerd werden en verspreid

voorkomen in het genoom (Casneuf et al., 2006). In deze thesis wordt verder ingegaan

op deze resultaten en nagegaan of herschikkingen van grootschalig gedupliceerde

1 Met herschikkingen bedoelt men het verwijderen (deletie)van DNA, invoegen van DNA (insertie),

omdraaien van DNA (inversie) waarbij de oriëntatie van de genen in dat stuk gewijzigd worden of

translocatie waarbij DNA verplaatst wordt naar een ander gebied van het genoom.

2

Fig. 1.1: Verstoring vaneen promoterregio doordeletie van hetstroomopwaarts gelegengen. Ieder zwart blokstelt een gen voor, terwijlde promoterregio schuingearceerd is.

regio’s in het DNA van de modelplant Arabidopsis thaliana verantwoordelijk zijn voor de

divergentie van genexpressie van homologe genen. Initieel worden gedupliceerde

regio’s opgespoord en onderverdeeld in lijsten van herschikte en niet herschikte

gedupliceerde genpaartjes. Vervolgens wordt de genexpressie nagegaan. Aan de hand

van deze sets van genpaartjes en hun genexpressie kan nagegaan worden of

herschikkingen in het genoom verantwoordelijk zijn voor de divergentie van

genexpressie van homologe genen. Figuur 1.1 toont twee homologe gebieden die

ontstaan zijn door een duplicatie en die oorspronkelijk elk twee genen bevatten (zwarte

balkjes). Voor elk gen ligt een promoterregio die instaat voor de controle van initiatie van

transcriptie (grijze balkjes). Deletie (segment B, figuur 1.1) of insertie (niet getoond) van

een stroomopwaarts gelegen gen kan de promoter verstoren. Aangezien dit gebied de

initiatie van transcriptie controleert, kunnen wijzigingen in dit gebied eventueel de

oorzaak zijn van divergentie van genexpressie.

Een tweede luik van deze thesis is het nader onderzoeken van de promoterregio’s van

enkele gedupliceerde genen om meer inzicht te verkrijgen in de wijze waarop

divergentie optreedt als gevolg van de verstoring van de promoterregio.

3

2 Literatuurstudie

2.1 Alignering van sequenties

2.1.1 Inleiding

Het aligneren van sequenties is het proces waarin twee sequenties tegenover elkaar

geplaatst worden, waarbij de overeenkomsten alsook de verschillen tussen beide

opgespoord worden. Dit alignement vertelt in welke mate twee sequenties gelijkaardig zijn.

Dit gebeurt door het paren van individuele karakters van de te aligneren sequenties, waarbij

het aantal onderbrekingen (“gaps”) en niet gealigneerde karakters zo klein mogelijk

gehouden wordt, zoals in het voorbeeld hieronder (Van De Peer Y., 2005).

Sequentie 1 A G C T T G - - C C T C G C A …Sequentie 2 A G – T T G T T C C T G G C A …

Omdat het praktisch niet haalbaar is om alle mogelijke alignementen van twee of meer

sequenties te overlopen, worden algoritmen ingeschakeld om een “beste alignement” te

selecteren. Voor een alignement van twee sequenties met een lengte van 300 nucleotiden,

zouden anders 10179 mogelijkheden overlopen moeten worden wat teveel computerkracht

vereist (Van De Peer Y., 2005).

In bovenstaand voorbeeld worden nucleotidensequenties vergeleken met een alfabet met 4

karakters (A, T, G en C), waardoor ieder karakter een kans van ¼ heeft om op gelijk welke

positie enkel op basis van toeval voor te komen. Daarom kan beter van een rijker alfabet

gebruik gemaakt worden omdat de kans dat een karakter per toeval voorkomt kleiner is

naarmate het alfabet meer uitgebreid is (Van De Peer Y., 2005). Bij het aligneren van

proteïne coderende sequenties wordt beter gebruik gemaakt van de AZ-sequentie dat een

alfabet gebruikt met 20 karakters, waardoor ieder karakter per toeval gemiddeld slechts 1/20

maal voorkomt. Voor het vergelijken van niet coderende sequenties, zoals promoterregio’s,

moet steeds de nucleotide-sequentie gebruikt worden, aangezien een dergelijke sequentie

niet tot een aminozuursequentie vertaald wordt.

2.1.2 Substitutiematrices

Twee sequenties die afkomstig zijn van dezelfde gemeenschappelijke voorouder divergeren

door het optreden van mutaties in de vorm van inserties, deleties en substituties. Voor

aminozuursequenties worden bepaalde substituties beter getolereerd dan andere omdat de

4

eigenschappen van het nieuwe aminozuur (bv. grootte, lading, hydrofobiciteit) gelijkaardig

zijn aan dat van het oude aminozuur . De functie van het genproduct wordt op die manier

minder gemakkelijk gewijzigd. Een substitutiematrix wordt samengesteld op basis van een

alignement van gekende aligneerbare sequenties waarin het geobserveerde aantal van een

bepaald aminozuurpaar vergeleken wordt met het aantal dat men op basis van toeval zou

verwachten (Henikoff and Henikoff, 1992). Men bekomt een matrix die waarden bevat voor

de aligneerbaarheid van aminozuurpaartjes in aminozuursequenties met een gelijkaardige

evolutionaire afstand en context. De bekomen aligneerbaarheid van aminozuurpaartjes

wordt dan verder gebruikt voor het opstellen van een alignement van sequentie (Henikoff

and Henikoff, 1992), waardoor eerder de verandering in eigenschappen van twee sequenties

vergeleken wordt in plaats van hun sequentie.

2.1.3 Sequentie-alignering

Alignementen kunnen berekend worden via verschillende algoritmen, zoals het algoritme van

(Needleman and Wunsch, 1970) en dat van (Smith and Waterman, 1981). Beide zijn

gebaseerd op het bouwen van een score-matrix, waarin sequentie 1 de X-as en sequentie 2

de Y-as voorstelt en de vakjes van de matrix een score bevatten voor elke aminozuurparing

in de matrix. De scores zelf worden berekend aan de hand van toegekende strafpunten bij

het openen van een leegte (“gap”) in het alignement of het verlengen van zo’n “gap”, samen

met punten voor het aligneren van een aminozuurpaar, berekend aan de hand van een

substitutiematrix. In de loop van het aligneringsproces worden op die manier leegtes

geïntroduceerd, om de uiteindelijk bekomen score zo hoog mogelijk te houden.

5

2.2 Genduplicatie

2.2.1 Mechanismen

Genduplicatie is het verdubbelen van een gen en kan op verschillende manieren tot stand

komen. Het volgende overzicht gaat in op enkele van die mechanismen.

Autopolyploïdie

Autopolyploïdie is de vorming van een

verdubbeld genoom als het gevolg van een fout

in de ontwikkeling van de gameten (Van de Peer

Y. and Meyer A., 2005). Dergelijke gameten met

een dubbel genoom bezitten steeds een even

aantal homologe chromosomen die bivalenten

kunnen vormen tijdens de meiose. Zo kunnen

nog steeds fertiele gameten gevormd worden na

een autopolyploïdie. Het organisme kan nog

steeds reproduceren, maar is niet meer in staat

om te kruisen met de oorspronkelijke diploïde

organismen. In het geval dat een dergelijke

kruissing zou optreden, worden gameten

gevormd met een oneven aantal homologe

chromosomen die niet in staat zijn om bivalenten

te vormen in de meiose en het organisme zou

zich niet kunnen reproduceren.

Figuur 2.1: In de profase I van de meiosewordt het aantal homologe chromosomengehalveerd. Deze homologen worden in deprofase II verdeeld over de gevormdegameten (links helft van de figuur). Als dooreen fout in de meiose de homologen nietgehalveerd worden in profase I, dan bekomtmen gameten met een dubbel aantalhomologen dan normaal (rechtse helft vande figuur).

6

Figuur 2.1 illustreert autopolyploïdie. Het toont een onderdeel van de meiose waarbij de

gepaarde homologe chromosomen (rood en zwart) na profase I in afzonderlijke nucleï

terecht komen (linker helft van de figuur) om daarna verdeeld te worden in 2 nieuwe nucleï

na profase II. Het resultaat is dat 4 nieuwe haploïde cellen gevormd worden. Wanneer de

meiose foutief verloopt (rechter helft van de figuur) en het genetisch materiaal na profase I

niet verdeeld wordt over 2 nucleï, zal de meiose 2 diploïde cellen produceren in plaats van 4

haploïde. De bevruchting met 2 diploïde geslachtscellen zal aanleiding geven tot een fertiel

tetraploïd organisme met verdubbeld genomisch materiaal.

Allopolyploïdie

Allopolyploïdie treedt op bij bevruchting tussen 2 organismen van een verschillende soort,

maar enkel wanneer na die bevruchting een verdubbeling optreedt van het genetisch

materiaal. In dat geval kunnen de homologe chromosomen nog correct verdeeld worden

over de gameten en aanleiding geven tot een nageslacht (Van de Peer Y. and Meyer A.,

2005).

Polyploidie is een belangrijk fenomeen bij de evolutie van planten (Adams and Wendel,

2005). Men neemt aan dat de meeste oude polyploïden op deze manier ontstaan zijn in

plaats van door autopolyploïdie (Spring, 2003).

Aneuploïdie

Aneuploïdie is een toestand waarbij meer of minder chromosomen aanwezig zijn dan de

normale set van chromosomen (Van de Peer Y. and Meyer A., 2005). Het chromosoom-

aantal is dan niet langer een exact meervoud van de haploïde set chromosomen, in

tegenstelling tot bij allopolyploïdie en autopolyploïdie. Een voorbeeld hiervan is het

“syndroom van Down”, dat veroorzaakt wordt door een trisomie van chromosoom 21 bij de

mens.

Segmentale duplicatie

Een segmentale duplicatie is de duplicatie van grote stukken DNA en is het gevolg van een

fout in het replicatieproces (Koszul et al., 2004).

7

Tandem duplicatie

Tandem duplicatie ontstaat door ongelijke crossing-over tijdens de meiose waarbij een stuk

DNA uitgewisseld wordt tussen twee homologe chromosomen (Van de Peer Y. and Meyer

A., 2005). Eén van de homologen zal een extra DNA segment bijkrijgen en het andere

homoloog zal datzelfde DNA segment verliezen. Omdat deze fout in overkruissing (“crossing

over”) locaal gebeurdt, blijven de duplicaten naast elkaar gelocaliseerd op het chromosoom

(Van de Peer Y. and Meyer A., 2005).

Retropositie

Bij retropositie wordt een genduplicaat gevormd op een nieuwe positie in het genoom.

Hiertoe wordt het gen op zijn originele plaats overgeschreven naar RNA, dat met behulp van

een reverse transcriptase aanleiding kan geven tot een DNA kopij. Een reverse

transcriptase katalyseert de polymerisatie van DNA vertrekkende van een RNA , dus tegen

de normale informatiestroom in (DNA RNA) . Omdat de RNA template enkel de

coderende sequentie van het gen bevat zonder de regulerende sequenties van de promoter,

wordt enkel het coderend gebied van het gen gedupliceerd. Het duplicaat wordt dus

afhankelijk van reeds aanwezige regulerende sequenties op zijn nieuwe positie in het

genoom (Long et al., 2003). Indien het duplicaat geen promoter meer heeft, kan het niet

worden afgeschreven en zal het eiwitproduct niet meer gevormd worden. In het geval een

gen niet langer aanleiding geeft tot een functioneel product, noemt men dit een pseudogen

en kan het verloren gaan. Wanneer een pseudogen noodzakelijk is voor de structuur van

het DNA in die regio kan de aanwezigheid ervan toch getolereerd worden. Een pseudogen

wordt dus niet zomaar verwijderd op basis van de afwezigheid van zijn product.

Laterale gen-transfer

Bij prokaryoten worden genen getransfereerd tussen organismen van dezelfde generatie

(laterale of horizontale gentransfer). Veelal leidt dit tot de uitwisseling van homologe genen

zonder dat die daarbij gedupliceerd worden, maar soms kan de transfer van nieuwe genen

zorgen voor het ontstaan van nieuwe fenotypes (Long et al., 2003). Ook bij eukaryoten doet

zich laterale gentransfer voor, maar in dat geval gaat het om organelgenen die volgens de

endosymbiont-hypothese afkomstig zijn van prokaryoten en doet de gentransfer zich voor

binnenin de eukaryote cel en niet tussen de cellen onderling.

8

2.2.2 Identificatie van grootschalige genduplicaties

Grootschalige genen volledige genoomduplicaties kunnen gedetecteerd worden

door het opsporen van gedupliceerde gebieden met geconserveerde gen-inhoud en

volgorde (= “colineariteit”) (Van de Peer Y. and Meyer A., 2005).

Eerst worden met BLASTp en de methode van Rost de gedupliceerde genen

opgespoord in het genoom en vervolgens wordt nagegaan welke gedupliceerde

genpaartjes samen gedupliceerd werden. Hiervoor wordt een “gene homology

matrix” (GHM) opgesteld waarbij twee segmenten ten opzichte van elkaar uitgezet

worden en gezocht wordt naar diagonale elementen die de samen gedupliceerde

genen aanduiden (figuur 2.2). Verder wordt onderzocht of de geobserveerde

diagonaliteit het gevolg kan zijn van louter toeval door het uitvoeren van een

permutatietest.

Wanneer een gedupliceerd blok geïdentificeerd wordt dat ontstaan is door eenzelfde

duplicatiegebeurtenis, worden de homologe genen van beide sequenties

“ankerpunten” genoemd.

2.2.2.1 i-ADHoRe

i-ADHoRe (Automatic Detection of Homologous Regions) is een tool om in groep

gedupliceerde genen op te sporen aan de hand van een paarsgewijze vergelijking

van genomische segmenten (Simillion et al., 2004). Hiervoor worden twee lijsten met

alle proteïne-coderende genen vergeleken en ze worden gerangschikt in de volgorde

die ze innemen op de te onderzoeken segmenten. Met BLASTp en de methode van

Rost worden eerst de homologe genparen geïdentificeerd en het resultaat hiervan

wordt opgeslagen in een (m x n)-matrix, waarbij m en n de lengte geven van de

gebruikte genlijsten. De bekomen matrix wordt de “gene homology matrix” (GHM)

genoemd omdat het alle gevonden homologen bevat (figuur 2.2). Ieder element in de

matrix stelt een gedetecteerd homoloog genpaar voor en kan positief of negatief zijn

afhankelijk van het feit of beide genen van het paar wel of niet dezelfde oriëntatie

bezitten op het genoom. Eenmaal deze matrix is samengesteld, kunnen

blokduplicaties geïdentificeerd worden als diagonale reeksen van ankerpunten, terwijl

de tandem repeats aanwezig zijn in horizontale of verticale reeksen. De tandem

repeats worden eerst herschikt tot één enkel gen, waarna clusters van diagonale

series van ankerpunten kunnen gedetecteerd worden die de paraloge gebieden

aangeven. Bij deze detectie van paraloge gebieden wordt gebruikt gemaakt van een

“maximum gap size” (G) en een “quality parameter” (Q) om te beslissen of clusters

van ankerpunten inderdaad een blokduplicatie vormen. Met een permutatietest wordt

nagegaan of de gevonden diagonaliteit significant en dus niet door toeval ontstaan is.

2.2.2

tandem duplicatie

blok duplicatie

inversie

Figuur 2.2: Een hypothetisch voorbeeld van een “Gene Homology Matrix” (GHM), waarbijde homologie wordt nagegaan tussen het genomisch segment op de x-as (segment nr. 1)en dat op de y-as (segment nr. 2). De grijze cellen stellen de ankerpunten voor, met anderewoorden de plaatsen waar het gen op de x-as het homoloog is van het gen op de y-as. Dediagonale gebieden van de matrix, inversies en tandem duplicaties zijn duidelijk zichtbaar.

(A) De originele organisatie van alle genen in hun genomische context, waarbij tandemduplicaties en inversies nog duidelijk zichtbaar zijn.

(B) Dezelfde GHM, maar na “tandem remapping” en het verwijderen van niet relevante datapunten (diegene die niet het gevolg zijn van een grootschalige duplicatie) mbv het ADHoRealgoritme. Ook geïnverteerde gebieden worden hermapt zodat diagonaliteit beterdetecteerbaar wordt.

(Gregory T., 2005; Van de Peer Y. and Meyer A., 2005) (bewerkt)

9

.2 Hidden en ghost duplications

Met de hierboven beschreven aanpak kunnen al heel wat duplicaties gevonden

worden, maar toch kan men de gevoeligheid van bovenstaande benadering nog

verbeteren (Simillion et al., 2002).

Wanneer onvoldoende gedupliceerde genen geclusterd kunnen worden over een

bepaald gebied, worden beide genomische regio’s niet als duplicaten beschouwd. Dit

betekent niet noodzakelijk dat deze geen duplicaat zijn van elkaar, want misschien

zijn ze zodanig herschikt dat de duplicatiegebeurtenis niet meer duidelijk

waarneembaar is. Om dergelijke duplicaties toch nog te herkennen kan het gebruik

van een derde segment uitkomst bieden.

Dit wordt voorgesteld in figuur 2.3 waarbij in het eerste voorbeeld een gewone

duplicatie voorgesteld wordt. In figuur 2.3.B kan de homologie tussen twee

segmenten (1 en 3) gedetecteerd worden met de hulp van een derde segment

(middelste segment) in hetzelfde organisme (organisme 1) en men noemt dit een

verborgen duplicatie (“hidden duplication”). In figuur 2.3.C wordt de homologie

tussen het 1ste en 3de segment op een gelijkaardige manier gedetecteerd, met dat

verschil dat het bijkomende segment (middelste segment) afkomstig is van een ander

organisme (organisme 2).

2.2.2

D

g

a

t

d

b

Figuur 2.3: Schematisch voorstelling van niet verborgen, verborgen (“hiddenduplication”) en spook duplicaties (“ghost duplication”)

(Van de Peer Y. and Meyer A., 2005) (bewerkt)

10

.3 Genomische profielen

oor rekening te houden met verborgen en spook duplicaties kan men de

evoeligheid voor de detectie van gedupliceerde segmenten verhogen (Simillion et

l., 2004). In gevallen van extreem verlies en/of herschikking van genen kan het

oevoegen van verborgen en spook duplicaties onvoldoende blijken om bepaalde

uplicaties te detecteren, maar kan het gebruik van een genomisch profiel uitkomst

ieden (Simillion et al., 2004).

11

Men begint, zoals voordien, met het opstellen van een GHM, waarbij een eerste

genomisch segment vergeleken wordt met een tweede segment. Als men besluit dat

beide segmenten homoloog zijn, dan worden deze samengevoegd tot een groep van

segmenten, een profiel. Voor het onderzoeken van een extra genomisch segment op

homologie met de segmenten in het profiel, worden de segmenten van het profiel

samen uitgezet op de x-as van de GHM en wordt het nieuwe segment uitgezet op de

y-as. De gevoeligheid van de detectie kan zo merkbaar verbeterd worden, want in

het profiel worden meer homologe genen gevonden dan met de standaard

benadering op basis van slechts één genomisch segment in de x-as (zie figuur 2.4).

Deze aanpak zorgt ervoor dat uitvoerig herschikte genomische segmenten toch nog

als homoloog gebied kunnen herkend worden. De bekomen groep van homologe,

gedupliceerde segmenten (de segmenten van het profiel) die ontstaan zijn door één

of meerdere duplicaties noemt men een multiplicon. Het multiplicatie niveau duidt op

het aantal colineaire genomische segmenten die in het multiplicon aanwezig zijn.

2.2.3 Datering van genduplicatie met Ks

De genetische code is degeneratief, wat wil zeggen dat verschillende codons voor hetzelfde

aminozuur coderen. Substituties van een nucleotide op de derde positie van een codon

resulteren veelal niet in een aminozuurverandering en worden synonieme substituties

Figuur 2.4: Verduidelijking vanhet gebruik van een profiel bijdetectie van gedupliceerdegensegmenten.

Het profiel bestaat hier uitgenomische segmenten A en B.Deze worden getest opcolineariteit met segment C.

Vergelijken van A met C levert 3homologe genparen (blauw).Vergelijken van B met C levert 2homologe genparen (rood).Vergelijken van C met het profiel(= A + B) levert 4 homologegenparen.

Vergelijken met een profiel levertsteeds minimaal even veelgenparen als in gelijk welk andergenomisch segment in het alsprofiel gebruikte multiplicon.

(Van de Peer and Meyer,2005)(herwerkt)

12

genoemd. Verondersteld wordt dat dergelijke substituties continu gebeuren en hun aantal

wordt als maat gebruikt voor de ouderdom van duplicatiegebeurtenissen (Hurst, 2002).

Hierbij moet opgemerkt worden dat in de realiteit toch selectie kan optreden op synonieme

substituties. Een voorbeeld hiervan volgt uit het feit dat codongebruik specifiek is voor een

organisme en het organisme hieraan aangepast is met een eigen specifieke concentratie van

tRNA’s. Daardoor kan de concentratie van die tRNA’s limiterend werken als het gebruik van

het corresponderend codon door synonieme substitutie verhoogd wordt.

De verstreken tijd sinds de duplicatiegebeurtenis, de “tijd van divergentie” (T) kan berekend

worden door T = Ks /2λ waarbij λ de gemiddelde snelheid van synonieme substitutie is en T

uitgedrukt wordt in “miljoen jaar geleden” (Van de Peer Y. and Meyer A., 2005).

2.3 Evolutie na duplicatie

Duplicatie van een gen resulteert in twee kopieën van datzelfde gen, waardoor de informatie-

inhoud van het gen nu dubbel aanwezig is (“redundantie”). Duplicatie zorgt op die manier

voor een toename van het ruw genetisch materiaal, dat na duplicatie gemakkelijker mutaties

accumuleert door het bufferende effect van de extra genkopij op eventuele nadelige

mutaties. Beide gensequenties evolueren na duplicatie waardoor ze divergeren in zowel

genexpressie als functie (Taylor and Raes, 2005). Het ontstaan van mutaties speelt een

grote rol in deze divergentie (Haldane, 1933).

Door mutatie ontstaan voordelige en nadelige allelen. Evolutie selecteert de voordelige

allelen waardoor deze verspreid worden in de populatie. Een nadelig allel wordt niet

verspreid in de populatie, maar ge-non-functionaliseerd (het verliest zijn functie) en verandert

in een pseudogen (Taylor J. S. and Raes J., 2005). Dit pseudogen kan vervolgens verwijderd

worden op voorwaarde dat het geen andere functie vervult (bv. een structurele functie). In

zeldzame gevallen kan het door mutatie ontstane allel ook voordelig zijn en behouden

worden. Het belang van grootschalige duplicaties voor evolutie werd in 1970 opgemerkt

door Ohno in zijn boek “Evolution by Gene Duplication”2. Volgens Ohno zou het niet

mogelijk geweest zijn om enkel met natuurlijk selectie de huidige diversiteit van organismen

te creëren vertrekkende van een bacterie. Uit die bacterie zouden dan enkel verscheidene

vormen van andere bacteriën kunnen ontstaan, terwijl voor de overstap naar meercelligen

meer ingrijpende veranderingen noodzakelijk zijn geweest, zoals duplicatie.

2 Ohno was niet de eerste om dit op te merken, zie Taylor & Raes (2005)

13

2.3.1 Behoud van het gedupliceerde genetisch materiaal

Het eventueel ontstaan van nieuwe voordelige genfuncties uit gedupliceerde genen is een

effect op lange termijn, maar een allel moet ook op korte termijn voordelig zijn voor het

organisme want anders kan het verloren gaan voordat voldoende mutaties kunnen

accumuleren (Van de Peer and Meyer, 2005).

Ten eerste kan het extra genetisch materiaal optreden als buffer tegen het nadelig

schommelen van omgevingsfactoren. Het organisme kan door zijn groter aantal

gedupliceerde genen beter omgaan met stress en veranderingen in zijn milieu, maar de

bijkomende gedupliceerde genen kunnen ook de nadelige effecten van mutaties teniet doen.

Wanneer zich een mutatie in een gen voordoet, is door duplicatie nog een andere correcte

kopij aanwezig die de functie kan uitvoeren waardoor het effect van de mutatie minder

ingrijpend is. Null mutaties zijn hiervan een voorbeeld waarbij het duplicaat de functie kan

overnemen (Gu et al., 2003).

2.3.2 Divergentie van gedupliceerde genen

Gedupliceerde genen accumuleren mutaties waardoor hun sequenties divergeren(Taylor J.

S. and Raes J., 2005). Bij divergentie zal de functie van het genproduct en/of het

expressiepatroon van het gen wijzigingen ondergaan. Bij divergentie van genexpressie zal

het genproduct onder andere omstandigheden of hoeveelheden geëxpresseerd worden,

zoals in een ander weefsel, of enkel onder stress.

2.3.2.1 Non-functionalisatie

De functie van het overgrote deel van gedupliceerde genen gaat verloren door het

proces van non-functionalisatie (Taylor J. S. and Raes J., 2005). Hierbij wordt het

functionele genproduct niet langer gevormd, bijvoorbeeld omdat door mutatie een

nieuw stopcodon is ontstaan in de coderende sequentie (figuur 2.7).

14

2.3.2.2 Neo-functionalisatie

In zeldzame gevallen kunnen door mutaties ook nieuwe functies ontstaan (Prince and

Pickett, 2002; Taylor and Raes, 2005), die voordien niet aanwezig waren, zoals een

nieuwe transcriptie-factor bindingsplaats in de regulatorische sequentie of een

wijziging in de actieve plaats van het genproduct waardoor dit bijvoorbeeld een ander

substraat zal accepteren (figuur 2.7).

2.3.2.3 Sub-functionalisatie

Als genen enkel geselecteerd worden op basis van aanwezigheid van voordelige of

nadelige mutaties, dan verwacht men dat de meeste gedupliceerde genen snel

verdwijnen als er niet snel nieuwe voordelige functies gevormd worden. Toch ligt het

aantal niet verdwenen gedupliceerde genen nog vrij hoog (Prince and Pickett, 2002),

wat betekent dat bepaalde mechanismen zorgen voor het behoud van gedupliceerde

genen zodat deze niet door non-functionalisatie verloren gaan.

Een mogelijke verklaring wordt geboden door het sub-functionalisatiemodel waarbij

aparte onderdelen van de gedupliceerde genen afzonderlijk mutaties accumuleren

terwijl hun functies elkaar aanvullen en samen de functies van het ancestrale gen

uitvoeren (Force et al., 1999; Taylor J. S. and Raes J., 2005). Dit mechanisme

Figuur 2.7: Na verloop van tijd accumuleren gedupliceerde genen mutaties waardoorde expressie en functie van de gedupliceerde genen divergeren. (“R” duidt op eenwijziging in een regulatorische sequentie, terwijl een wijziging van de coderendesequentie aangeduid wordt met een “C”)

(Taylor J. S. and Raes J., 2005)

15

baseert zich op het feit dat genen modulair kunnen opgebouwd zijn (zowel in

regulatorische als coderende regio’s), waarbij die verschillende modules instaan voor

onafhankelijke subfuncties. Een module in het ene gen kan dan als buffer optreden

tegen mutaties in de overeenkomstige subfunctie van zijn homoloog gen. Omdat

dergelijke gebufferde mutaties terzelfdertijd in beide kopijen van een gen optreden, is

de aanwezigheid van beide genen vereist (Force et al., 1999). Volgens dit model

zorgen mutaties eerder voor het behoud van gedupliceerde genen, dan de

verwijdering ervan zoals het geval is bij nonfunctionalisatie.

Een voorbeeld van subfunctionalisatie zijn transcriptiefactor bindingsplaatsen op de

promoter (Taylor and Raes, 2005). In de promoter van een gen kunnen verschillende

dergelijke bindingsplaatsen aanwezig zijn die de expressie van het gen onder

verschillende condities reguleren. Mutatie van één van die TF-bindingsplaatsen kan

voor een differentiële genexpressie zorgen.

Een tweede voorbeeld zijn transmembraanreceptoren die uit 3 domeinen bestaan,

een extracellulair receptor domein, transmembraan domein en intracellulair domein

met effector functie. Een mutatie in het receptor domein kan een gewijzigde

substraatsspecificiteit veroorzaken, terwijl de effector functie ongewijzigd blijft. Als na

duplicatie een dergelijke mutatie optreedt, dan zullen in het vervolg twee substraten

dezelfde intracellulaire actie uitlokken, één substraat voor elk van de duplicaten.

2.4 Modelorganisme: Arabidopsis thaliana

Arabidopsis thaliana, de zandraket, is een veelvoorkomende plant die een

gemeenschappelijke voorouder heeft met het herderstasje (Capsella bursa-pastoris). Het

behoort tot de Brassicaceae en is een angiosperm. Het volledig gesequeneerde genoom is

slechts ongeveer 125Mb groot (Arabidopsis Genome Initiative, 2000). De kleine

genoomsgrootte is een nuttige eigenschap voor onderzoeksdoeleinden, evenals de snelle

groei en beperkte omvang waardoor ze gemakkelijk in een labo te kweken zijn. Andere

voordelen voor het gebruik van A. thaliana in een labo zijn de efficiëntie van transformatie en

de overvloedige en snelle productie van zaden waardoor het eenvoudig en snel gecultiveerd

kan worden. Verder is het plantje op het gebied van ontwikkeling, reproductie en reactie op

stress analoog aan belangrijke voedingsgewassen, zoals soja, rijst, tarwe, rogge, maïs,

tomaat, katoen, aardappel en sorgum. Hierdoor is het reeds intens bestudeerd en is heel

wat informatie over A. thaliana publiek beschikbaar (The Institute for Genomic Research,

ZD).

16

Bij de analyse van de genomische sequentie van Arabidopsis thaliana is gebleken dat dit

genoom grootschalige genduplicaties of zelfs volledige genoomduplicaties heeft ondergaan

(Arabidopsis Genome Initiative, 2000). Door genverlies na duplicatie-gebeurtenissen gaat

veel colineariteit tussen de gedupliceerde regio’s verloren en wordt het moeilijker om

gedupliceerde gebieden als dusdanig te herkennen. Eerder werden reeds technieken

besproken om de gevoeligheid te verhogen in het zoeken naar in groep gedupliceerde

genen. Gebruik makend van deze technieken werden in A. thaliana homologe genomische

gebieden vaak in 5 tot 8 kopijen teruggevonden (Simillion et al., 2002). Dit impliceert drie

genoomduplicaties in de evolutionaire geschiedenis van A. thaliana. In deze thesis wordt

gezocht naar grootschalige duplicatiegebeurtenissen om onderzoek te doen naar de

divergentie van genexpressie na duplicatie. Arabidopsis thaliana, met zijn drie volledige

genoomduplicaties, vormt daarom een goede keuze voor dit onderzoek.

17

2.5 Microarrays

2.5.1 Inleiding

Microarrays zijn chips waarop enkelstrengig DNA van verschillende sequenties zijn gehecht

(Draghici, 2003). Door hybridisatie van de microarray met een doelwit-oplossing (cRNA of

cDNA), kan de expressie van duizenden genen in één experiment worden nagegaan waarbij

als het ware een snapshot van de mRNA inhoud van het organisme wordt gemaakt

(Draghici, 2003). Hierdoor zijn microarrays zéér waardevol in vele soorten onderzoek, zoals

bijvoorbeeld het onderzoek naar kanker. Bij kanker worden vele genen differentieel

geëxpresseerd in vergelijking met gezonde weefsels en met microarrays wordt het mogelijk

om kanker meer in detail te onderzoeken op expressieniveau van die differentieel

geëxpresseerde genen. Microarrays openen ook nieuwe deuren voor het ontwikkelen van

geneesmiddelen omdat het effect van een product op genexpressie van vele genen

terzelfdertijd kan worden nagegaan.

In deze thesis wordt microarray data gebruikt voor het berekenen van correlaties van

genexpressie van verschillende soorten gedupliceerde genen.

Figuur 2.8: Werking vaneen cDNA microarray.

Vertrekkende van eendoelwitweefsel wordteen mRNA extractieuitgevoerd om daarmeecDNA te bereiden datdan kan hybridiserenmet de probes van demicroarray.

(Draghici, 2003)

18

2.5.2 Types en productie

Het maken van een microarray is gesteund op één van twee principes waarbij ofwel de DNA

probes eerst worden aangemaakt en nadien op de microarray worden gehecht ofwel worden

de probes in situ gesynthetiseerd (Draghici, 2003). Bij de eerste aanpak kan ofwel met PCR

amplificatie het gewenste cDNA aangemaakt worden of kunnen oligonucleotiden synthetisch

aangemaakt worden. Het cDNA wordt nadien met een robot opgenomen en verdeeld op de

microarray.

De tweede aanpak, in situ synthese van de probes, wordt ondermeer toegepast bij Affymetrix

microarrays (GeneChip) en aangezien in deze thesis de data van dergelijke chips wordt

gebruikt, wordt het productieproces nader toegelicht in figuur 2.10 en figuur 2.11.

Figuur 2.9: Na het scannenvan de microarray wordt eenfiguur metintensiteitswaarden bekomendie later nog verwerkt wordt.Deze figuur toont hiervaneen voorbeeld van eenAffymetrix chip.

(Draghici, 2003)

19

De sequentie van iedere probe op dergelijke chips is volledig bekend, in tegenstelling tot

microarrays waar de probes niet in situ gesynthetiseerd worden. Belangrijke voordelen zijn

dat veel ruis vermeden wordt door het elimineren van verschillende stappen in het

productieproces (bv. clonering en spotten) en dat een onderscheid tussen nauw verwante

genen ook mogelijk is aangezien de probe-sequentie zelf gekozen wordt (Draghici, 2003).

De eerste stap is het aanhechten van synthetische linkers aan het glasoppervlak met

daarbovenop beschermende groepen die door belichting kunnen verwijderd worden. In de

daaropvolgende stap wordt met een lichtstraal een specifiek gebied op de array beschenen,

waardoor de bescherming van de fotogevoelige laag in dat gebied doorbroken wordt.

Vervolgens worden deoxynucleosides toegevoegd die zich op de onbeschermde regio’s

kunnen aanhechten. Het hele proces wordt herhaald, totdat op iedere spot het gewenste

oligonucleotide gesynthetiseerd is (Affymetrix, ZD; Draghici, 2003). De oligonucleotiden op

de array worden probes genoemd en zullen later hybridiseren met het doelwit (“target”).

Figuur 2.10: Affymetrix microarrays worden fotolithografisch aangemaakt waarbij met eenfotogevoelige maskerende laag gebieden worden afgeschermd, waarna basen op specifiekeplaatsen worden toegevoegd. Het herhalen van het proces van aanbrengen van bescherming,vernietigen van bescherming op specifieke plaatsen door belichting en aanhechten vandeoxynucleosiden op onbeschermde gebieden zorgt ervoor dat op iedere plaats van demicroarray het gewenste oligonucleotide bekomen wordt.

(Draghici, 2003)

20

Speciaal voor de Affymetrix technologie is een match/mismatch strategie waarbij

gecorrigeerd wordt voor achtergrond(Affymetrix, ZD; Draghici, 2003). Figuur 2.11 stelt deze

strategie schematisch voor. De match probe (PM of “perfect match”) is een sequentie

bestaande uit 25 nucleotiden die volledig complementair is met het gen dat door deze probe

moet gedetecteerd worden. De mismatch (MM) probe telt ook 25 nucleotiden en verschilt

van de match probe in slechts één nucleotide (de middelste), maar de hybridisatiecondities

worden zo gekozen dat zelfs bij een dergelijk klein verschil de target niet meer kan binden op

de mismatch probe. Beide probes liggen naast elkaar, want enkel dichtbij gelegen probes

geven een correcte schatting van het achtergrondsignaal. Een set van 16 tot 20 probe paren

(PM + MM), vormt een probeset die gebruikt wordt voor detectie van een gen. Eén gen

wordt door de Affymtrix technologie dus vertegenwoordigd door een set van match en

mismatch probes.

2.5.3 Het meten van de genexpressie

Bij het meten van genexpressie met behulp van microarrays vertrekt men van een weefsel

waarvan een mRNA extract bereid wordt. Men veronderstelt dat de concentratie van

aanwezige mRNA speciës een correcte maat vormt voor de activiteit van een gen en men wil

Figuur 2.11: Principe van de Affymetrix technologie. Wanneer het target-DNA volledigcomplementaire gebieden bevat ten opzichte van een probe, zal het daarop binden.Reactieomstandigheden worden zo gekozen, dat zelfs met één verschillend nucleotide in demismatch probe, hybridisatie niet meer mogelijk is. Verschillende match/mismatch paartjes (10)per gen zorgen ervoor dat zwakke signalen eenvoudiger te onderscheiden zijn ten opzichte vanachtergrond.

(Draghici, 2003)

21

met een microarray de aanwezigheid en hoeveelheid van verschillende mRNA speciës

terzelfdertijd bepalen. Twee algemene methodes worden hiervoor onderscheiden. Bij de

eerste wordt gebruik gemaakt van één (oligonucleotide microarray) en bij de tweede van

twee weefselextracten (cDNA microarray).

In het geval van de cDNA microarray wordt vertrekkende van beide weefselextracten eerst

een cDNA kopij gemaakt met reverse transcriptase (RT) en het mRNA weefselextract als

template (figuur 2.8). Bij de reverse transcriptie wordt gebruik gemaakt van fluorescent

gelabelde nucleotiden, waardoor het cDNA visualiseerbaar wordt door excitatie met licht van

de gepaste golflengte (Butte, 2002; Quackenbush, 2001). Voor beide mRNA extracten wordt

een afzonderlijk label gekozen, bijvoorbeeld cy3 en cy5. De cDNA targets worden

tegelijkertijd op dezelfde microarray chip gehybridiseert en kunnen afzonderlijk

gevisualiseerd worden door de golflengte van het gebruikt excitatielicht aan te passen.

In het geval van de oligonucleotide microarray wordt vertrekkende van één enkel

weefselextract een cDNA kopij gemaakt met reverse transcriptase, met dat verschil dat het

nu niet gemerkt wordt (Coe and Antler, ZD). Een merker wordt pas toegevoegd in de

daaropvolgende stap, waarbij door in vitro transcriptie een cRNA kopij gevormd wordt. Een

voorbeeld van dergelijke oligonucleotide microarrays is de GeneChip (Affymetrix, ZD). Bij

GeneChips wordt het target cRNA gemerkt met biotine en het is de bedoeling om via de

visualisatie van deze biotine-tags een absolute waarde te bekomen voor de genexpressie

van de geëxpresseerde genen.

Na detectie wordt door het verwerken van de foto’s (figuur 2.9) en preprocessing van de data

(achtergrond correctie en normalisatie) een absolute waarde bepaald voor de genexpressie

van de genen die corresponderen met de probes op de chip (Draghici, 2003). Een voorbeeld

van een ruwe ingescande foto’s waarop nog geen bewerkingen werden uitgevoerd, is

weergegeven in figuur 2.9 en dergelijke foto’s worden bij affymetrix genechips CEL-files

genoemd.

2.5.4 Normalisatie van microarray data

Een microarray experiment wordt uitgevoerd met als doel om biologisch significante variatie

in genexpressie te detecteren. De waargenomen variatie wordt hiertoe ingedeeld in twee

types, namelijk de interessante (biologische) variatie en de obscure variatie die het gevolg is

van ruis en systematische verschillen (Irizarry et al., 2003). De obscure variatie wil men

uiteraard vermijden of elimineren door gebruik te maken van replicatie en normalisatie.

22

Ruis treedt op bij alle microarray experimenten en is niet te vermijden. We kunnen de

effecten ervan alleen verminderen door eenzelfde experiment meerdere malen te herhalen

(replicatie) om zo een onderscheid te maken tussen biologisch significante variantie en

variantie ten gevolge van ruis (Draghici, 2003). Vele factoren geven ontstaan aan dit

fenomeen, zoals bv. mRNA bereiding, labeltype, vochtigheid, hybridisatie-omstandigheden,

…

Systematische verschillen tussen meerdere datasets zijn die verschillen die een bepaalde

wetmatigheid volgen en kunnen gecorrigeerd worden door middel van normalisatie. Die

normalisatie zorgt ervoor dat microarray data betrouwbaar kan vergeleken worden (Irizarry et

al., 2003). Een dergelijk systematisch verschil kan zich voordoen in de mRNA concentratie,

wanneer voor het ene experiment 5% meer RNA gebruikt werd voor de cDNA bereiding.

Een voorbeeld waar normalisatie vereist is, specifiek voor cDNA microarrays, is bij het

gebruik van verschillende fluorescente labels, waarbij de gemeten intensiteit van het eerste

label (bv. cy3), niet vergelijkbaar is met de gemeten intensiteit van het tweede label (bv. cy5)

(figuur 2.12) ten gevolge van een verschil in eigenschappen van de labels (Draghici, 2003).

In beide gevallen wordt nochtans hetzelfde weefselextract gebruikt bij de bereiding van de

target. Om te normaliseren voor dit verschil in intensiteit wordt de data in groepjes verdeeld

en worden een centraliteitsmaat (bv. gewogen gemiddelde) voor elk van de groepjes

berekend zoals voorgesteld in figuur 2.12. Aan de hand van de exponentiële curve van deze

gemiddelden wordt een afwijking van de ratio ten opzichte van 0 berekend om vervolgens te

corrigeren voor die afwijking. Deze normalisatie wordt LOWESS of LOESS normalisatie

(LOcally WEighted polynomial regreSSion) genoemd.

Als laatste moet ook opgemerkt worden dat het meten van expressiewaarden met behulp

van microarrays bestaande meer tijdsrovende analyses, zoals opzuivering van een eiwit en

spectroscopische concentratiebepaling, niet volledig kan vervangen want niet enkel de

transcriptie en translatie zijn van belang voor de goede werking van een genproduct

(Draghici, 2003). Vaak zijn post-translationele modificaties noodzakelijk voor het uitvoeren

van een functie en deze processen kunnen afhankelijk zijn van een groot aantal factoren die

niet in een microarray experiment in rekening kunnen gebracht worden (bv. correcte

opvouwing van het eiwit). Verder wordt bij het werken met microarrays verondersteld dat de

hoeveelheid mRNA direct proportioneel is met de hoeveelheid functioneel eiwit, maar ook dit

is niet altijd het geval, bijvoorbeeld wanneer de translatie vroegtijdig onderbroken wordt.

23

Figuur 2.12: Op de verticale as staat het logaritme van de verhouding van de intensiteiten,gemeten met twee verschillende fluorescente labels (log cy3/cy5) op hetzelfde mRNAweefselextract. Indien met beide labels dezelfde intensiteit gemeten wordt, zou men een ratio van0 bekomen, maar dit is niet het geval (linksboven). Normalisatie van deze afwijkende waardenvoor verschillende labels gebeurdt door het indelen van de data in groepen die gekenmerktworden door hun eigen gemiddeldes en varianties (rechtsboven). Vervolgens wordt eenexponentiële curve gepast door de gemiddeldes van de groepen (linksonder) om de afwijking vande ratio ten opzichte van 0 te bepalen. Op basis van die gevonden afwijking wordt een correctieuitgevoerd (rechtsonder).

(Draghici, 2003)

24

3 Materiaal en methode

3.1 Algemeen overzicht

Figuur 3.1: Deze figuur geeft een overzicht van de gebruikte technieken indeze thesis. De thesis is opgedeeld in drie onderdelen: a) het vinden van ingroep gedupliceerde genen en opdelen in soort herschikkingen; b) hetbekomen van expressie-waarden voor de te onderzoeken ankerpuntgenenen c) het onderzoeken van de aligneerbaarheid van de promoterregio’s vande gevonden ankerpuntgenen.

25

3.2 Algemene technieken

3.2.1 Perl

Perl (http://www.r-project.org) is een scripttaal die het gemakkelijk maakt om taken te

automatiseren, zo kunnen bijvoorbeeld grote hoeveelheden tekst gemanipuleerd worden

zoals kolommen verwijderen en verwisselen. Twee voorbeelden waarvoor perl in deze

thesis gebruikt wordt zijn het zoeken naar genpaartjes die aan specifieke voorwaarden

voldoen en het berekenen van correlatie coëfficiënten. Welke andere taken door middel van

perl-scripts geautomatiseerd werden, wordt duidelijk naarmate de bespreking van het

materiaal en methode vordert.

3.2.2 R en Bioconductor

Link: http://www.r-project.org

R is een gratis en open-bron statistisch software pakket met een modulaire opbouw.

Hiermee bedoelt men dat het programma uit een basis bestaat die verder aangevuld kan

worden met uitbreidingen, namelijk de modules, die specifieke functies verzorgen. De

gewenste modules kunnen eenvoudig geladen worden naargelang de behoeftes van de uit

te voeren analyse. Bioconductor (Gentleman et al., 2004) is eveneens een gratis en open-

bron software pakket, bestaande uit R-modules voor de analyse van genomische data. Voor

de analyse van Affymetrix CEL-files wordt in deze thesis een beroep gedaan op het “affy”

pakket van bioconductor.

3.3 Detectie en klassificatie van ankerpunten

3.3.1 BLAST

Link: http://www.ncbi.nlm.nih.gov/BLAST/

BLAST (Basic Local Alignment Search Tool) is een tool dat op zoek gaat naar aligneerbare

sequenties door het paarsgewijs aligneren van de sequenties (Altschul et al., 1990). Deze

alignering wordt gestart met het zoeken naar korte gelijkaardige woordjes in beide

sequenties en het blast algoritme probeert de alignering van dit woord te verlengen in beide

richtingen (5’ en 3’) totdat beide sequenties niet meer als voldoende gelijkaardig herkend

worden omdat teveel “gaps” in het alignement geïntroduceerd worden. Het zoeken naar

gelijkaardige sequenties steunt op het feit dat bepaalde mutaties in aminozuursequentie

beter geaccepteerd worden dan andere (Van de Peer, 2005). Dit is bijvoorbeeld het geval

als het aminozuur vervangen wordt door een ander, maar met gelijkaardige eigenschappen

http://www.r-project.org/

http://www.ncbi.nlm.nih.gov/BLAST/

26

(zoals grootte, lading) zodat die mutatie waarschijnlijk geen functiewijziging van het

genproduct teweeg brengt.

De kans dat een specifieke mutatie zich voordoet, kan met verschillende methodes berekend

worden en wordt daarna in een substitutiematrix opgeslaan. Deze substitutie-matrix wordt

door BLAST gebruikt om de similariteit van twee sequenties te bepalen en deze

gelijkaardigheid zal gebruikt worden om het alignement zo ver mogelijk te verlengen.

Verschillende BLAST algoritmes zijn beschikbaar:

- BLASTp voor het vergelijken van een proteïnesequentie met een proteïnedatabank,

- BLASTn voor het vergelijken van een nucleotidesequentie met een

nucleotidedatabank,

- BLASTx voor het vergelijken van een 6 leesraam-vertaling van een

nucleotidesequentie met een proteïnedatabank,

- tBLASTn voor het vergelijken van een proteïnesequentie met de 6 leesraam-vertaling

van een nucleotidedatabank en

- tBLASTx voor het vergelijken van een 6 leesraam-vertaling van een nucleotide-

sequentie met de 6 leesraam-vertaling van een nucleotidedatabank.

In deze thesis wordt enkel het BLASTp algoritme gebruikt. Hiermee wordt een proteïne

sequentie (query) vergeleken met andere proteïne sequenties, waarbij BLASTp eerst een

woord bestaande uit 3 aminozuren tracht te aligneren. Voor deze thesis wordt met BLASTp

gezocht naar alle homologe sequenties binnen het genoom van Arabidopsis thaliana om zo

groepen van genen te identificeren die samen gedupliceerd werden.

3.3.2 Methode van Rost

De methode van Rost is een methode die vertrekkende van een lijst van aligneerbare

sequenties (BLASTp output) homologe genen identificeert. Genen worden genen als

homoloog beschouwd indien ze meer dan 30% sequentie identiteit bezitten over een

aligneerbare regio van tenminste 150 aminozuren (Rost, 1999).

3.3.3 i-ADHoRe

De lijst van homologe genen is de input voor i-ADHoRe, samen met de chromosoomlijsten

van A. thaliana en andere parameters die in de athlevel2R.ini file terug te vinden zijn en

reeds in de literatuurstudie besproken werden (Simillion, 2005). i-ADHoRe geeft als output

een lijst met ankerpunten en hun beschrijving en maakt hierbij gebruik van de “map based

approach” en genomische profielen.

27

De door i-ADHoRe gebruikte parameters zijn (Simillion C., 2005):

- gap size: Geeft de maximum afstand die kan bestaan tussen de ankerpunten in een

cluster.

- cluster gap: Geeft de maximum afstand die kan bestaan tussen basisclusters van

ankerpunten. Deze basisclusters kunnen nadien samengevoegd worden indien ze

voldoende dicht bij elkaar voorkomen.

- Q value: Geeft de vereiste diagonale kwaliteit voor een gevonden ankerpuntcluster.

- ankerpunten: Geeft het minimaal aantal ankerpunten waaruit een cluster van

ankerpunten moet bestaan.

- waarschijnlijkheid cutoff: Geeft een maximum limiet voor de kans dat een gevonden

cluster door toeval ontstaan is en niet door een duplicatiegebeurtenis.

- enkel multiplicatieniveau 2: Bij het zoeken naar multiplicons van maximum niveau 2

worden geen profielen opgebouwd zoals in de literatuurstudie beschreven staat.

De in deze thesis gebruikte i-ADHoRe parameters3 zijn:

Gap size 25

Cluster gap 25

Q waarde 0,90

Ankerpunten 3

Waarschijnlijkheids cutoff 0,01

Enkel multiplicatieniveau 2 TRUE

»echo “./i-ADHoRe athlevel2R.ini” | cluster_job.pl i-ADHoRe

Dit commando start i-ADHoRe op een cluster, dit is een verzameling van computers die

samen werken alsof het één computer zou zijn, waarbij de taken over de verschillende

cluster-nodes (dit zijn de afzonderlijke computers van de cluster) verdeeld worden. De

output van i-ADHoRe wordt opgeslaan in de volgende tabellen4 (Simillion, 2005):

3 zie bijlagen op CD-ROM, map i-ADHoRe >> athlevel2R.ini

4 zie bijlagen op CD-ROM, map i-ADHoRe >> athlevel2R >> multiplicon_linair_plots >> output

28

– Multiplicons tabel: Beschrijft alle multiplicons5 voor ieder multiplicatieniveau.

Deze tabel wordt opgeslaan in de tekstfile multiplicons.txt.

– Ankerpunten tabel: Een opsomming van homologe genpaartjes met vermelding

van de vergeleken genomische segmenten voor multiplicons met

multiplicatieniveau 2. (anchorpoints.txt)

– Segmenten tabel: Geeft een overzicht van de segmenten die met elkaar

vergeleken worden in elk multiplicon. (segments.txt)

– Genen tabel: Bevat de positie van alle genen uit het configuratiebestand

(athlevel2R.ini) en info over de plaats van tandem repeats. (genes.txt)

– Lijst elementen: Een lijst van alle genen die voorkomen in de segmenten van de

multiplicons, samen met hun orientatie en positie. (list_elements.txt)

3.3.4 i-ADHoRe2genedraw_real_TE.pl

i-ADHoRe2genedraw_real_TE.pl is een perl script dat de output van i-ADHoRe neemt en

gebruikt om tekstfiles (zie bijlagen op cd-rom)6 te genereren voor ieder multiplicon met

multiplicatieniveau 2 met daarin:

– Een lijst met de elementen van het eerste segment met daarbij hun relatieve positie

op het segment, hun orientatie en hun naamcode (bv. At2g032570).

– Diezelfde lijst voor de genen van het tweede segment.

– Een lijst met ankerpunten die beide segmenten met elkaar verbindt via hun homologe

genpaartjes.

Vervolgens worden deze tekstfiles door hetzelfde script gebruikt om figuren te genereren (zie

bijlagen op cd-rom)7, waarin de genrelaties tussen beide genomische segmenten visueel

voorgesteld worden. Het volgende commando illustreert hoe dit script gebruikt kan worden:

5 Een groep van segmenten die homoloog zijn met elkaar, gevonden via de “map based approach”

met profiel (zoals besproken in de literatuurstudie).

6 Zie bijlagen op CD-ROM, map i-ADHoRe >> athlevel2R >> multiplicon_linair_plots

7 Zie bijlagen op CD-ROM, map i-ADHoRe >> athlevel2R >> multiplicon_linair_plots

29

»./i-ADHoRe2genedraw_real_Te.pl athlevel2R.iniTIGRv5_lists/coding_list.txtTIGRv5_lists/non_coding_list.txt

De “coding_list.txt” en “non_coding_list.txt” bestanden zijn lijsten met daarin de genen die

wel coderen voor een functioneel polyproteïne en die genen die dit niet doen (bv.

pseudogenen). Voor deze thesis wordt hiervoor de annotatie van TIGR5 gebruikt (The

Institute for Genomic Research, ZD).

i-ADHoRe2genedraw werd gebruikt omdat de gegenereerde tekstfiles een handig overzicht

geven van alle i-ADHoRe output die voor dit onderzoek gebruikt wordt. De output van i-

ADHoRe2genedraw wordt hiertoe ingelezen met behulp van een perl-script dat de data

zodanig formateerd om de manipulatie ervan in een MySQL database te vereenvoudigen.

Hiervoor werd fill_database.pl8 gebruikt die als output een aantal tabellen genereert die dan

geïmporteerd worden in de database.

»./fill_database.pl

Er worden vier tekstfiles gegenereerd:

– elements_info: Bevat informatie over alle genen van de homologe segmenten

in de gevonden multiplicons (hun start- en stopposities, oriëntatie en naam).

– segment_pairs: Bevat informatie over start- en stopposities van de

genomische segmenten die vergeleken werden en samen in een multiplicon

geplaatst werden op basis van gevonden homologie.

– elements_info_2_segment_pairs: Verbindt elements_info aan segment_pairs

met een gemeenschappelijke kolom (element_id) in de tabel. Aan de hand

van deze tabel kan opgezocht worden welke genen tot een bepaald

genomisch segment behoren, samen met hun oriëntatie en volgorde.

– gene_relations: Geeft de genrelaties weer voor een bepaald “segment paar”

(multiplicon van niveau 2).

3.3.5 rearrangement_search.pl

Eén van de doelstellingen van deze thesis is om de correlatie van genexpressie van groepen

van ankerpuntgenen te vergelijken. Hiertoe moet de lijst met ankerpuntgenen eerst

opgesplitst worden in subgroepen, bijvoorbeeld herschikte en niet herschikte

8 zie bijlagen op CD-ROM, map i-ADHoRe >> athlevel2R >> multiplicon_lineair_plots

30

ankerpuntgenen. Hiervoor werd een script geschreven dat aan de hand van de informatie in

de MySQL database op zoek gaat naar eventuele9 herschikkingen in de promoterregio van

de ankerpunten.

»./rearrangement_search.pl pseudogenes_list.txt

Om de herschikte ankerpunten te onderscheiden van de niet herschikte overloopt het script

eerst alle multiplicons (multiplicatieniveau 2) en in ieder multiplicon overloopt het script alle

elementen van het eerste genomische segment (segment A), zoals in figuur 3.1 aangeduid

wordt met een nummering van die elementen. Het script onderzoekt daarbij of een element

een ankerpunt is (groen of rood in figuur 3.1) of niet (zwart in figuur 3.1) en indien dit zo is,

controleert het dat ankerpunt op herschikkingen. Bij deze controle op herschikkingen van

een ankerpunt (fig. 3.2), wordt eerst de orientatie opgevraagd zodat de positie van de

promoterregio gekend is. De volgende stap is een controle van de eerstvolgende elementen

op segmenten A en B vertrekkende vanaf de promoterregio’s van de te onderzoeken

ankerpunt-genen. De gevonden genen moeten een ankerpunt zijn van elkaar en indien dit

niet het geval is, zijn de bestudeerde ankerpunten herschikt geweest sinds hun duplicatie.

9 In deze thesis wordt onderzocht of deze herschikkingen zich voordoen of niet en welke invloed zeuitoefenen op de genexpressie. We splitsen de lijst met ankerpunten dus in aparte lijsten waarvan wedenken dat deze wel of niet herschikkingen bevatten in de promoterregio. De benamingen “herschikt”en “niet herschikt” moeten eerder geïnterpreteerd worden als “eventueel herschikt” en “eventueel nietherschikt”.

Figuur 3.1: Om de correlatie van genexpressie te vergelijken tussen herschikte en niet herschikteankerpunten, moet eerst een onderscheid gemaakt worden tussen de verschillende groepen vanankerpuntgenen. Herschikte ankerpunten worden aangeduid in het rood en de niet herschikte inhet groen.

31

Maar bovenstaande test geeft geen sluitend bewijs voor het al dan niet voorkomen van een

herschikking. Want indien een genpaar geïnverteerd werd, moet nog gecontroleerd worden

indien de nabije genen ook nog steeds elkaars ankerpunt zijn en of deze genen geïnverteerd

werden in dezelfde inversiegebeurtenis (figuur 3.3). En alleen als blijkt dat deze door

dezelfde inversie geïnverteerd werden, wordt besloten dat de promoterregio’s niet verstoord

werden door herschikkingen.

1

2

Figuur 3.2: Illustreert hoe gecontroleerd wordt op herschikkingen in twee gedupliceerdesegmenten. (1) Wanneer beide genen upstream van het bestudeerde ankerpunt genpaar ookankerpunten zijn en bovendien elkaars ankerpunt zijn, kan nog geen herschikking vastgesteldworden. (2) In het andere geval, wanneer de genen direct stroomopwaarts van de ankerpuntenniet elkaars ankerpunt zijn, stelt men wel een herschikking vast.

32

De inversie-controle van het ankerpunt paar verloopt

3.3.6 Onderverdelen in type herschikkingen

Herschikkingen spelen een belangrijke rol in de evolutie (Sankoff, 2003) en in deze thesis

wordt de invloed van herschikkingen op divergentie van genexpressie nagegaan. Bij het

onderverdelen van de ankerpuntgenen in een lijst van herschikte en niet herschikte

ankerpunten, stellen zich echter een aantal problemen. Wanneer stroomopwaarts van een

ankerpuntgen een pseudogen gevonden wordt, is het niet langer mogelijk om dit ankerpunt

te klassificeren als wel of niet herschikt omdat niet geweten is of het gen in de promoterregio

van het gen van het andere segment hier het ankerpunt van was of niet. Wanneer deze

ankerpunten waren, zou het ankerpunt als niet herschikt moeten worden geïdentificeerd

aangezien de promoter waarschijnlijk niet verstoord zal worden door het niet functioneel

worden van het stroomopwaartse gen. Want alhoewel selectie op het pseudogen zal

wegvallen, blijft de promoterregio van het ankerpuntgen aanwezig en onverstoord. Om

rekening te kunnen houden met de aanwezigheid van dergelijke speciale gevallen, worden

de genen die deel uitmaken van de herschikking ingedeeld in de groepen “pseudogen”, “TP”

(transposon), “RNA” (RNA coderend) en “eiwitcoderende herschikkingen”. De mogelijkheid

om deze gevallen te onderscheiden wordt toegevoegd aan het rearrangement_search.pl

script.

Een tweede probleem stelt zich in het begin en einde van een gedupliceerd segment. Als

bijvoorbeeld het eerste gen een positieve oriëntatie bezit en ook een ankerpunt is, dan wordt

deze als herschikt geïdentificeerd omdat het upstream gen geen ankerpunt vormt. Omdat de

Figuur 3.3: Een inversiecontrole neemt het gen in de promoterregio van het ankerpunt paar op heteerste segment (hier A) en zoekt het homologe gen op het tweede segment om de absolutepositie van dat gen (positie 1) te kunnen vergelijken met de absolute positie (positie 2) van hetgen van het bestudeerde ankerpunt paar op dat tweede genomisch segment (B). Enkel waneerpositie 1 kleiner is dan positie 2 bij een negatieve orientatie van het eerste ankerpuntgen (groenA), zijn de genen in de promoterregio van het bestudeerde ankerpuntpaar door dezelfde inversiegeïnverteerd, op voorwaarde dat ook de orientatie van de genen in de promoterregio’stegengesteld is.

33

informatie van het upstream gen niet in de gebruikte database aanwezig is, kan geen

verdere indeling gebeuren op de type genen die deel uitmaken van de herschikking en de

ankerpunten met + oriëntatie in het begin en – oriëntatie op het einde van de gedupliceerde

segmenten worden daarom ingedeeld in de groep “RAND” en worden bij verdere

berekeningen buiten beschouwing gelaten.

Figuur 3.4: Een insertie kan opgespoord worden wanneer slechts één van beidegenen stroomopwaarts van het ankerpunt zelf geen ankerpunt is. A) Als het gen inde promoterregio van een ankerpuntgen zelf een ankerpunt is in A. thaliana endaarbij een homoloog heeft in populier, wordt aanvaard dat het homoloog metpopulier oorspronkelijk aanwezig was en dat het niet ankerpuntgen op het anderesegment (hier segment 1 van A) na duplicatie geïnsereerd werd.

B) Als één van de genen in de promoterregio van het bestudeerdeankerpuntgenpaar homoloog is met een gen van populier, maar zelf geen homoloogheeft in A. thaliana, wordt besloten dat het oorspronkelijke duplicaat verdwenen is(deletie).

34

Als laatste kan het type herschikking in eenvoudige gevallen verder onderzocht en

geklassificeerd worden op basis van deleties of inserties in de promoterregio. Deze

klassificatie wordt uitgevoerd met een perl script dat een lijst van “eenvoudige

herschikkingen” selecteert en in die lijst zoekt naar deleties en inserties door een vergelijking

te maken met gevonden homologen in populier (Populus trichocarpa). Het script is

gebaseerd op het feit dat Arabidopsis en populier een gemeenschappelijk voorouder

hebben, waarna ze apart zijn geëvolueerd. Pas na het ontstaan van beide organismen,

heeft Arabidopsis thaliana zijn laatste genoomduplicatie ondergaan (3R) en als een gen uit

Arabidopsis een homoloog bezit in populier, maar niet in Arabidopsis, wordt dit verklaard

door een deletie van het duplicaat in Arabidopsis.

Figuur 3.4 illustreert wat bedoeld wordt met deletie en insertie. Het zoeken naar deleties en

inversies gebeurt enkel bij eenvoudige herschikkingen, waarbij slechts één van de

promoterregio’s van de ankerpuntgenen eventueel herschikt is door slechts één insertie of

één deletie. Bij meer complexe herschikkingen is het niet meer mogelijk te bepalen welke

herschikking(en) zich hebben voorgedaan. Een stroomopwaarts gen is geïnsereerd,

wanneer het geen homoloog heeft in populier én Arabidopsis, terwijl het stroomopwaartse

gen op het andere segment wel een homoloog bezit in populier én Arabidopsis. Een

stroomopwaarts gen is gedeleteerd, wanneer het stroomopwaartse gen op het andere

segment wel een homoloog bezit in populier, maar niet in Arabidopsis.

3.3.7 Berekenen van de correlatie van genexpressie

3.3.7.1 Overzicht

Voor het berekenen van de correlaties van genexpressie, wordt microarray-data gebruikt.

Een overzicht van de gebruikte microarray dataset is beschikbaar in bijlage A. De volledige

dataset bestaat uit 153 Affymetrix GeneChip slides die tot 16 experimentreeksen behoren.

Iedere reeks bestaat uit een aantal experimentele condities (aangeduid met “e”) en

tenminste één controle-slide (aangeduid met “c”) die de wild type conditie (WT) voorstelt. De

microarray data is publiek beschikbaar vanaf het “Nottingham Arabidopsis Stock Centre”

(NASC, ZD).

Volgende stappen worden ondernomen voor het vergelijken van de correlaties van

genexpressie:

– Normalisatie van de microarray dataset dient om te corrigeren voor de systematische

verschillen, zoals reeds werd toegelicht in de literatuurstudie. Bij het uitvoeren van

de normalisatie wordt RMA gebruikt en deze wordt toegepast met R en bioconductor.

35

– Unieke probe-ID’s voor de microarray data worden geselecteerd. Aan de hand van

de gemeten intensiteitswaarden in de CEL-files wordt een waarde voor de expressie

van de genen in de lijsten van herschikte en niet herschikte ankerpuntgenen

bekomen. Het selecteren van probesets die uniek zijn voor één gen is noodzakelijk

om cross-hybridisatie te vermijden.

– Per experiment zijn een aantal slides aanwezig overeenkomstig met gekozen

experimentele condities, waarbij elke slide tenminste éénmaal gerepliceerd is.

Replicatie corrigeert voor de experimentele fout bij het uitvoeren van de hybridisatie

(Draghici, 2003). Van deze gerepliceerde experimenten wordt een gemiddeld

expressiesignaal berekend. Om te corrigeren voor effecten die het gevolg zijn van

een variatie in technologie in plaats van een biologisch verschil tussen planten, wordt

voor ieder gen bovendien de intensiteitswaarde van de wild type (controle-slide)

afgetrokken van dat van de behandelde plant. De gebruikte dataset bestaat hierna

uit 49 expressiewaarden per gen, terwijl de originele dataset met replicaten en

controles 153 microarrays bevat verdeeld over 16 experimenten10.

– Een perl script11 overloopt de lijst van herschikte en niet herschikte ankerpunten en

leest de genormaliseerde microarray data in om daarmee de spearman

correlatiecoëfficiënt te berekenen. De correlatie geeft dan aan in welke mate de

expressie van de ankerpuntgenen eenzelfde patroon volgen.

– In de laatste stap worden de correlatie coëfficiënten vergeleken met behulp van R om

te controleren of deze coëfficiënten significant verschillend zijn tussen de

afzonderlijke lijsten met ankerpuntgenen.

3.3.7.2 RMA

RMA staat voor “robust multi-array average” en is een verkennende data analyse van de

ruwe microarray data op het probe-niveau (Irizarry et al., 2003). Volgende bewerkingen

worden door RMA analyse uitgevoerd:

- achtergrond correctie

- normalisatie

- log-transformatie van de PM waarden

10 Zie bijlagen op CD-ROM: dataset.pdf

11 zie bijlagen op CD-ROM: rearrangement_search >> rearrangement_search.pl

36

De door RMA gebruikte normalisatie, is “quantile normalisation” en het doel hiervan is het

verwijderen van systematische verschillen tussen afzonderlijke microarray slides. Daartoe

probeert men om de distributie van probe intensiteiten voor iedere array in een set van

arrays identiek te maken (Bolstad et al., 2003; Irizarry et al., 2003). Het wordt dan mogelijk

om de gen expressie waarden van die slides met elkaar te vergelijken (Irizarry et al., 2003).

Log-getransformeerde waarden worden gebruikt voor de genexpressie door het variantie

stabiliserende effect van deze transformatie.

3.4 Promoteranalyse van gedupliceerde genen

In deze thesis wordt onderzocht of herschikkingen van gedupliceerde genen een invloed

kunnen hebben op divergentie van genexpressie. Een dergelijke herschikking kan de

promoterregio van ankerpuntgenen namelijk verstoren. Deze verstoring kan onderzocht

worden door het vergelijken van de promoterregio’s van wel en niet herschikte

ankerpuntgenen waarbij verwacht wordt dat de promoterregio’s van herschikte

ankerpuntgenen in mindere mate aligneerbaar zullen zijn dan die van niet herschikte

ankerpuntgenen.

De alignering van een ankerpunt genpaar gebeurt als volgt:

– 2000 bp van de promoterregio van beide ankerpuntgenen worden geselecteerd, te

beginnen vanaf het startcodon (startcodon zelf wordt niet geselecteerd). Wanneer

het stroomopwaartse gen zich dichterbij bevindt dan 2000 bp, wordt enkel de

sequentie tussen beide genen geselecteerd.

– De geselecteerde promoterregio’s van beide ankerpuntgenen worden gealigneerd

met de aligneringsmethode avid (Bray et al., 2003).

– “Vista” neemt de output van avid en selecteert die regio’s die minimaal 70% identiek

zijn aan elkaar over een minimale lengte van 10 bp en zet deze uit op een plot.

– Aangezien sommige promoterregio’s geen 2000 bp lang zijn, wordt het aantal

aligneerbare basenparen gedeeld door de lengte van de kleinste promoter om zo de

aligneerbaarheid van de promoterregio’s vergelijkbaar te maken. De berekende

waarde wordt het “% alignement” genoemd.

– Verdere analyse zoals het vergelijken van het % alignement van de verschillende

lijsten met ankerpuntgenen wordt in R uitgevoerd:

Histogrammen worden getekend die het % alignement van de promoterregio’s

vergelijkt voor herschikte en niet herschikte genparen om te controleren of

37

promoterregio’s van herschikte genparen minder geconserveerd zijn dan niet

herschikte.

Het aantal gealigneerde basen voorstellen in functie van de Ks om de relatie

tussen de leeftijd van de gedupliceerde genen en de

aligneerbaarheid/conservatie van de promoters na te gaan.

Het % alignement uitzetten in een densiteitsplot in functie van de correlatie

van genexpressie om te onderzoeken of de genexpressies van ankerpunten

genen met beter aligneerbare promoters meer gecorreleerd zijn.

38

4 Resultaten

4.1 Grootte van de ankerpunt groepen

4.1.1 Inleiding

In deze thesis wordt gezocht naar groepen van Arabidopsis thaliana genen die samen

gedupliceerd werden. Vervolgens worden deze ankerpuntgenen opgedeeld naargelang de

eventuele aanwezigheid van structurele herschikkingen in hun upstream gebied. Een

dergelijke herschikking kan de promoterregio wijzigen, en het is de invloed van dergelijke

herschikkingen dat in dit onderdeel onderzocht wordt.

Een verdere onderverdeling gebeurt naargelang het type gen dat aanwezig is in de directe

stroomopwaartse omgeving van een ankerpuntgenpaar:

- Herschikte ankerpuntgenen:

o RNA: Eén van de directe stroomopwaartse genen codeert voor een

functioneel RNA, zoals een tRNA.

o TP: Eén van de directe stroomopwaartse genen codeert voor een

transposeerbaar element.

o Eiwitcoderend: Beide directe stroomopwaartse genen coderen voor een eiwit

dat geen transposon activiteit vertoond.

- Niet herschikte ankerpuntgenen:

o Pseudogen: Eén van de directe stroomopwaartse genen codeert voor een

pseudogen.

o Zonder pseudogen: Beide directe stroomopwaartse genen coderen voor een

eiwit.

De groep met pseudogenen in de stroomopwaartse regio vormt een speciaal geval.

Eénmaal een gen gepseudogeniseerd wordt, kan zijn sequentie snel divergeren wat de

herkenning van een ankerpunt waartoe het pseudogen behoort moeilijker kan maken. Het is

dan niet langer mogelijk om het bestudeerde ankerpunt te herkennen als wel of niet

herschikt. Verwacht wordt dat bij niet herschikte ankerpunten met een pseudogen in hun

upstream regio, de promotorregio niet aangetast wordt en de pseudogenisatie geen invloed

heeft op divergentie van genexpressie. De onderverdeling van de groep met pseudogenen

is een arbitraire keuze omdat niet geweten is of dit pseudogen deel heeft uitgemaakt van een

39

Ankerpuntgroepen voor 3R

Herschikt (1) Niet herschikt (2)

met pseudogen (2.1)

zonder pseudogen (2.2)

RNA coderend (1.1)

TP coderend (1.2)

eiwit coderend (1.3)

niet herschikt ankerpunt. Bij de verdere analyses die uitgevoerd worden op de

bovenstaande groepen wordt hier rekening mee gehouden.

Enkel ankerpuntgenen van de 3R duplicatiegebeurtenis in A. thaliana worden in aanmerking

genomen. Voor andere duplicatiegebeurtenissen is volgens de door ons gekozen methode

onvoldoende data beschikbaar.

4.1.2 Overzicht van de ankerpunt groepen

De gevonden groepen van ankerpuntgenen zijn niet allemaal even groot. Omdat het verschil

in populatiegrootte belangrijk is voor de statistische analyse van de resultaten, worden de

populatiegroottes in tabel 4.1 weergegeven.

Type niet herschikte ankerpuntgenen Aantal paartjes van ankerpunten

Totaal 256

Zonder pseudogenen in de promoterregio 225

Enkel met pseudogenen in de promoterregio 31

Type wel herschikte ankerpuntgenen Aantal paartjes van ankerpunten

Totaal 1184

Figuur 4.1: Dit stelt de onderverdeling van ankerpuntgroepen voor zoals die vergeleken worden inonderstaande analyses. Enkel ankerpunten van de 3R duplicatiegebeurtenis behoren tot dezegroepen.

40

Zonder transposon of RNA gen in de

promoterregio

1058

Met transposon in de promoterregio 61

Met RNA gen in de promoterregio 65

Herschikking door deletie in de promoterregio 6

Herschikking door insertie in de promoterregio 6

Hierbij moet nog opgemerkt worden dat het aantal herschikkingen door deletie en insertie

enkel die situaties voorstellen, waarin een deletie of insertie nog eenvoudig herkend kan

worden. Met andere inserties en deleties wordt geen rekening gehouden.

Tabel 4.1: In de rechterkolom zijn de populatiegroottes van de bekomen datasets weergegeven.

41

4.2 Correlatie van genexpressies

Doel: Wat is de invloed van herschikkingen op de divergentie van genexpressie van

ankerpuntgenen?

Expressiedata van ankerpuntgenen wordt op grote schaal vergeleken, waarbij de nadruk

gelegd wordt op het zoeken van verschillen in genexpressie tussen groepen van herschikte

en niet herschikte ankerpuntgenen. Het vergelijken van de expressiedata gebeurt via de

correlatiecoëfficiënt van de genexpressie van ankerpuntgenen. Deze coëfficiënt geeft weer

in welke mate de expressie van beide ankerpuntgenen nog dezelfde is over alle bestudeerde

microarray experimenten.

De distributie van de correlatie coëfficiënten wordt vergeleken met behulp van ANOVA

(“analysis of variance”) voor de verschillende groepen in figuur 4.1. De analyse wordt

uitgevoerd voor ankerpunten met een Ks waarde die overeenstemt met de laatste

duplicatieronde in Arabidopsis thaliana (3R) omdat enkel voor die ronde voldoende data

bekomen werd. De Ks-waarde van de geanalyseerde ankerpuntgenen voor 3R ligt tussen

0,4 en 1,0.

De anova-test gaat na of de nulhypothese kan verworpen worden (H0 = de distributie van de

correlatie coëfficiënten is gelijk). Deze test wordt niet 1 maal, maar 10 000 maal uitgevoerd

op gesampelde populaties. De nulhypothese voor de totale populatie wordt verworpen

indien de nulhypothese in meer dan 95 % van het aantal sample testen verworpen kan

worden.

Het grote verschil in populatiegrootte van de verschillende datasets (zie tabel 4.1) vraagt om

een speciale aanpak. Populaties met een te groot verschil in populatiegrootte kunnen niet

meer op een statistisch correcte manier vergeleken worden. De oplossing is het gebruik van

“sampling” (staalname), waarbij de kleinere dataset vergeleken wordt met een even grote

dataset die bekomen werd door het random samplen van de grotere dataset. De grootte van

de gebruikte datasets zijn dan gelijk en de analyse leidt tot een betrouwbaar besluit.

Bij het vergelijken van de groepen ankerpunten, worden deze telkens met een nummer zoals

in figuur 4.1 weergegeven wordt.

4.2.1 Analyse van alle herschikte en alle niet herschikte ankerpuntgenen

In deze analyse worden alle herschikte (groep 1) en alle niet herschikte (groep 2)

ankerpuntgenen vergeleken. De lijst met herschikte ankerpunten bevat genpaartjes met een

42

eiwitcoderend, RNA coderend of TP (transposon) coderend gen in de upstream regio van het

ankerpunt genpaar.

ANOVA: hypothesen

H0 = de correlatiecoëfficiënt voor groepen 1 en 2 is gelijk

H1 = de correlatiecoëfficiënt voor groepen 1 en 2 is niet gelijk

Aantal testen die duiden op significant verschil tussen de correlatie coëfficiënten

5433 / 10000 testen

Gemiddelde correlatie coëfficiënt van één sample test

Herschikte ankerpunten (groep 1) Niet herschikte ankerpunten (groep 2)

0,306 ± 0,273 0,255 ± 0,287

Besluit: De nulhypothese kan niet verworpen worden omdat bij minder dan 95%, namelijk

54,33% van de sample testen een significant verschil in correlatie coëfficiënt gevonden

wordt. De correlatiecoëfficiënt van beide groepen ankerpuntgenen is gelijk.

95,0100005433

4.2.2 Analyse van herschikte en niet herschikte ankerpuntgenen

Bij deze analyse wordt enkel rekening gehouden met de ankerpunten die herschikt werden

met een eiwitcoderend gen (groep 1.3) en met de niet herschikte ankerpunten zonder

pseudogen (groep 2.2) in de promoterregio.

ANOVA: hypothesen

H0 = de correlatiecoëfficiënt voor groepen 1.3 en 2.2 is gelijk

H1 = de correlatiecoëfficiënt voor groepen 1.3 en 2.2 is niet gelijk


2995 / 10000 testen

43


Herschikte ankerpunten (eiwitcoderende

herschikking) (groep 1.3)

Niet herschikte (zonder pseudogenen) (groep

2.2)

0,303 ± 0,271 0,259 ± 0,295




95,0100002995

4.2.3 Analyse van niet herschikte ankerpunten (enkel pseudogenen) en

herschikte ankerpunten (eiwitcoderende herschikking).

Enkel de niet herschikte ankerpuntgenen met een pseudogen (groep 2.1) in het upstream

gebied worden vergeleken met de ankerpunten die herschikt zijn en geen transposon of RNA

coderend gen bevatten in hun upstream gebied (groep 1.3).

ANOVA: hypothesen




1244 / 10000 testen


Niet herschikte ankerpunten (enkel met

pseudogen in promoterregio) (groep 2.1)

Herschikte ankerpunten (herschikking enkel

door eiwitcoderende genen) (groep 1.3)

0,231 ± 0,227 0,303 ± 0,271

44




95,0100001244


herschikte ankerpunten (RNA coderende herschikking).

Enkel die herschikte ankerpunt genpaartjes waarbij de upstream gebied een RNA coderend

gen bevat (groep 1.1), worden vergeleken met de ankerpunt genpaartjes die een pseudogen

bezitten in hun upstream gebied (groep 2.1).

ANOVA: hypothesen




2660 / 10000 testen





door RNA-coderende genen) (groep 1.1)

0,231 ± 0,227 0,306 ± 0,273




95,0100002660

45


herschikte ankerpunten (transposon coderende herschikking).

Enkel die herschikte ankerpunt genpaartjes waarbij de upstream gebied een transposon

coderend gen bevat (groep 1.2), worden vergeleken met de ankerpunt genpaartjes die een

pseudogen bezitten (groep 2.1) in hun upstream gebied.

ANOVA: hypothesen




1218 / 10000 testen





door transposon-coderende genen) (groep

1.2)

0,231 ± 0,227 0,315 ± 0,248




95,0100001218

4.2.6 Analyse van herschikte ankerpunten (RNA coderende

herschikking) en herschikte ankerpunten (eiwitcoderende

herschikking).

Enkel die herschikte ankerpunt genpaartjes waarbij de upstream gebied een RNA coderend

gen bevat (groep 1.1), worden vergeleken met de ankerpunt genpaartjes die enkel

eiwitcoderende genen bevat (groep 1.3) in hun upstream gebied.

46

ANOVA: hypothesen




3293 / 10000 testen


Herschikte ankerpunten (enkel met RNA-

coderende gen(en) in promoterregio; groep

1.1)


door eiwitcoderende genen; groep 1.3)

0,306 ± 0,273 0,303 ± 0,271




95,0100003293

4.2.7 Analyse van herschikte ankerpunten (TP coderende herschikking)

en niet herschikte ankerpunten (zonder pseudogenen).

Deze analyse vergelijkt de herschikte ankerpunten met een transposon (groep 1.2) in hun

upstream gebied met de niet herschikte ankerpunten zonder pseudogenen (groep 2.2) in hun

upstream gebied.

ANOVA: hypothesen




47

1017 / 10000 testen


Herschikte ankerpunten (enkel met TP-

coderende gen(en) in promoterregio; groep

1.2)

Niet herschikte ankerpunten (zonder

pseudogenen; groep 2.2)

0,315 ± 0,248 0,259 ± 0,295




95,0100001017

4.2.8 Analyse van herschikte ankerpunten (TP coderende herschikking)

en herschikte ankerpunten (RNA coderende herschikking).

Deze analyse vergelijkt de herschikte ankerpunten met een transposon in hun upstream

gebied (groep 1.2) met de herschikte ankerpunten die een RNA coderend gen in hun

upstream regio (groep 1.1) bezitten.

ANOVA: hypothesen



48


0 / 10000 testen


Herschikte ankerpunten (met TP-coderende

gen(en) in promoterregio; groep 1.2)

Herschikte ankerpunten (met RNA-coderende

gen(en) in promoterregio; groep 1.1)

0,315 ± 0,248 0,306 ± 0,273


0% van de sample testen een significant verschil in correlatie coëfficiënt gevonden wordt.

De correlatiecoëfficiënt van beide groepen ankerpuntgenen is gelijk.

95,010000

0

4.2.9 Analyse van herschikte ankerpunten die herschikt werden door

deletie in vergelijking tot die die herschikt werden door insertie.

Deze analyse vergelijkt herschikte ankerpunt genpaartjes naargelang de wijze van

herschikking, namelijk insertie of deletie.

De onderstaande resultaten zijn weinig betrouwbaar, aangezien beide datasets slechts 6

ankerpunt genpaartjes groot zijn. Voor de volledigheid worden de bekomen resultaten toch

vermeld, alhoewel men moet opletten met het interpreteren van deze resultaten.

ANOVA: hypothesen

H0 = de correlatiecoëfficiënt voor groepen met deleties en groepen met inserties is gelijk

H1 = de correlatiecoëfficiënt voor groepen met deleties en groepen met inserties is niet gelijk


0 / 10000 testen

49


Herschikt door deletie Herschikt door insertie

0,274 ± 0,360 0,518 ± 0,300


0% van de sample testen een significant verschil in correlatie coëfficiënt gevonden wordt.

De correlatiecoëfficiënt van beide groepen ankerpuntgenen is gelijk.

95,010000

0

50

4.3 Promoter-onderzoek.

4.3.1 Inleiding

Met dit promotoronderzoek wordt nagegaan of de aligneerbaarheid van de promotorregio’s

een rol speelt in de correlatie van genexpressie van een ankerpunt genpaar. Verwacht wordt

dat bij herschikkingen van gedupliceerde genen de promotorregio verstoord wordt en

daardoor divergentie van genexpressie optreedt. In dat geval verwacht men dat een

verstoring van de promotorregio herkend kan worden door een verlaging van de

aligneerbaarheid van de upstream regio. Ver worden bij oudere duplicatiegebeurtenissen

meer herschikkingen en dus een lagere aligneerbaarheid van de promotorregio’s verwacht.

4.3.2 Vergelijken van de aligneerbaarheid van het upstream gebied.

Doel: Zorgen herschikkingen voor een verlaging van de aligneerbaarheid van de upstream

regio van ankerpunten?

Door het verschil is populatiegrootte van de datasets, wordt opnieuw gebruik gemaakt van

sampling.

ANOVA: hypothesen

H0 = de % aligneerbaarheid voor groepen met herschikkingen en groepen zonder

herschikkingen is gelijk

H1 = de % aligneerbaarheid voor groepen met herschikkingen en groepen zonder

herschikkingen is niet gelijk

Aantal testen die duiden op significant verschil tussen de aligneerbaarheid van de

promoterregio’s

340 / 10000

Gemiddelde % aligneerbaarheid

Herschikt (groep 1) Niet herschikt (groep 2)

0,456 ± 0,090 % 0,451 ± 0,090 %

51

Grafiek 4.1 toont de aligneerbaarheid van de promoterregio’s voor herschikte en niet

herschikte ankerpunt genpaartjes, waarbij de % aligneerbaarheid weergeeft in welke mate

de promoterregio’s van beide ankerpuntgenen aligneerbaar zijn en de frequentie de

hoeveelheid ankerpunt genpaartjes weergeeft met die aligneerbaarheid (uitgedruk in

procenten omdat de populatiegroottes verschillend zijn).

0

10

20

30

40

50

60

10 20 30 40 50 60 70 80 90 100

%aligneerbaarheid

freq

uen

tiei

e

niet herschikte ankerpunten

herschikte ankerpunten


3,40% van de sample testen een significant verschil in % aligneerbaarheid gevonden wordt.

De % aligneerbaarheid van de promotorregio’s van beide groepen ankerpuntgenen zijn

gelijk.

95,010000

340

Dit resultaat wordt grafisch voorgesteld in grafiek 4.1 waar beide curves eenzelfde verloop

volgen.

Grafiek 4.1: De grafiek stelt de aligneerbaarheid van de promoterregio’s van herschikte en nietherschikte ankerpunten voor.

4.3.3 Verband tussen de aligneerbaarheid van de promoterregio’s en de

leeftijd van duplicatie

Doel: Is er een correlatie tusen de leeftijd van duplicatie en de aligneerbaarheid van de

promotorregio’s van ankerpunten?

Verwacht wordt dat de aligneerbaarheid van een gedupliceerd genpaar afneemt naarmate

de duplicatie zich langer geleden voordeed en meer herschikkingen zijn opgetreden. Om dit

te onderzoeken wordt in de volgende grafieken de % aligneerbaarheid uitgezet in functie van

de Ks (synonieme substituties per synonieme site), die een maat is voor de leeftijd van de

duplicatiegebeurtenis.

In tegenstelling tot de vorige analyses, die zich beperkten tot 3R ankerpunten, wordt voor

deze analyse gebruik gemaakt van de volledige groep ankerpuntgenen. Een Ks cutoff van 5

wordt gebruikt om verstoring van de grafieken door outliers tegen te gaan.

Dealigneerbaarheid van depromotorregio'svangedupliceerde herschiktegenpaartjes in functievan de

leeftijd van deduplicatie (Ks) voor Ks< 5.

0

0,5

1

1,5

2

2,5

3

3,5

4

4,5

5

0 10 20 30 40 50 60 70 80% aligneerbaarheidvandepromotorregio's

Ks

Grafiek 4.2: In de x-as staat de relatieve aligneerbaarheid van de promoterregio’s van deankerpuntgenen, met andere woorden het aantal gealigneerde basen gedeeld door de lengte vande sequenties die vergeleken werden. In de y-as staat de overeenkomstige leeftijd van duplicatievan het ankerpunt genpaar, uitgedrukt in Ks.

Deze grafiek bestudeerdt enkel de herschikte gedupliceerde genpaartjes.

52

53

Dealigneerbaarheidvandepromotorregio'svangedupliceerdeniet herschiktegenpaartjes infunctievandeleeftijdvande

duplicatie (Ks) voor Ks<5.

0

0,5

1

1,5

2

2,5

3

3,5

4

0 10 20 30 40 50 60 70 80

% aligneerbaarheidvandepromotorregio's

Ks

Besluit: Grafieken 4.2 en 4.3 tonen dat de aligneerbaarheid van de promotorregio’s van

ankerpuntgenen niet wijzigt in functie van de leeftijd van hun duplicatie.

4.3.4 De aligneerbaarheid van de promoterregio’s in functie van de

correlatie van genexpressie.

Doel: Is de correlatie van genexpressie van ankerpuntgenen hoger voor ankerpunten met

beter aligneerbare promotorregio’s?

Verwacht wordt dat een hogere correlatie van genexpressie gecorreleerd is met beter

aligneerbare promoterregio’s van ankerpuntgenen. Dit wordt onderzocht in de

densiteitsplots van grafiek 4.4 waarbij donkerder kleuren een hogere densiteit van

datapunten voorstellen. Op de X-as staat de % aligneerbaarheid. De correlatie van

genexpressie op de Y-as is een maat voor de divergentie van genexpressie van

ankerpuntgenen nadat ze ontstaan zijn door duplicatie.

Grafiek 4.3: In de x-as staat de relatieve aligneerbaarheid van de promoterregio’s van deankerpuntgenen, met andere woorden het aantal gealigneerde basen gedeeld door de lengte vande sequenties die vergeleken werden. In de y-as staat de overeenkomstige leeftijd van duplicatievan het ankerpunt genpaar, uitgedrukt in Ks.

Deze grafiek bestudeerdt enkel niet herschikte gedupliceerde genpaartjes.

54

55

Besluit: Uit grafiek 4.4 blijkt, in tegenstelling tot wat verwacht wordt, dat de correlatie van

genexpressie van ankerpuntgenen niet gecorreleerd is met de aligneerbaarheid van hun

promotorregio’s.

Grafiek 4.4: De densiteitsplots vergelijken de aligneerbaarheid van de promoterregio’s (x-as)van de ankerpuntgenen met de correlatie van genexpressie van de ankerpuntgenen (y-as).

56

5 Discussie

5.1 Correlatie van genexpressie

De belangrijkste groepen van ankerpuntgenen die bestudeerd werden, zijn de groep met

herschikte en de groep met niet herschikte ankerpuntgenen. Bij de sample testen met

ANOVA kan de nulhypothese niet verworpen worden en moet men dus besluiten dat

verstoringen in de stroomopwaartse regio geen invloed hebben op de correlatie van

genexpressie. Indien bij herschikkingen de promoterregio van de ankerpunten aangetast

zou worden, verwacht men voor gewijzigde (herschikte) promoterregio’s van ankerpunten

een lagere aligneerbaarheid van de promoters evenals gedaalde correlatie van

genexpressie. Het feit dat het belang van een eventuele verstoring van de promotorregio

voor divergentie van genexpressie niet kan aangetoond worden in dit onderzoek, betekent

dat de globale genomische context van een genpaar waarschijnlijk belangrijker is voor de

expressie van hun genen dan een eventuele verstoring van de promoterregio. Hierbij wordt

bijvoorbeeld gedacht aan het verschil in expressie bij eu- versus heterochromatine, aan de

invloed van genomische locaties zoals telomeren, centromeren en aan histon versus inter-

histon gelocaliseerde genen. Een verschil in correlatie van genexpressie tussen in groep

gedupliceerde genen (ankerpunten) en op kleine schaal gedupliceerde genen werd reeds

aangetoond (Casneuf et al., 2006).

Bij ANOVA testen tussen andere groepen van ankerpuntgenen wordt hetzelfde resultaat

gevonden. Te weinig ANOVA testen12 duiden op een verschil in correlatie van genexpressie

en de nulhypothese (correlatie coëfficiënten zijn gelijk) kan niet verworpen worden.

De correlatie van genexpressie Bij het vergelijken van herschikkingen door insertie met

herschikkingen door deletie wordt gevonden dat de correlatie coëfficiënt tussen beide

groepen opnieuw gelijk is (0 / 10000 ANOVA testen duiden op een verschil). Ook in dit geval

kan de nulhypothese niet verworpen worden en moet ze aanvaard worden. Voorzichtigheid

is hier geboden gezien de beperkte populatiegrootte van beide groepen ankerpuntgenen.

12 De precieze hoeveelheden staan vermeld in het onderdeel “resultaten”. Omdat het om

verschillende groepen gaat, wordt naar het onderdeel “resultaten” verwezen in plaats van het aantal

hier expliciet te vermelden..

57

5.2 Promoter onderzoek

De aligneerbaarheid van de promoterregio’s van ankerpuntgenen werd met ANOVA en

sampling vergeleken voor herschikte en niet herschikte ankerpuntgenen. De resultaten

tonen dat de nulhypothese niet kan verworpen worden, de aligneerbaarheid van beide

groepen is dus gelijk. Slechts 3,4 % van de sample testen toont een verschil in

aligneerbaarheid, wat onvoldoende is om te besluiten dat de aligneerbaarheid verschillend

is.

De plots met de % aligneerbaarheid in functie van de Ks tonen, tegen de verwachtingen in,

aan dat de leeftijd van een ankerpunt (Ks) geen invloed heeft op de aligneerbaarheid van zijn

promoterregio’s. Verwacht wordt dat naarmate de duplicatiegebeurtenissen langer geleden

hebben plaatsgevonden, de aligneerbaarheid afneemt. Dit is niet af te leiden uit figuren 4.2

en 4.3. De mogelijkheid bestaat dat de duplicatiegebeurtenissen te lang geleden hebben

plaatsgevonden om een vergelijking van de aligneerbaarheid van de promoterregio’s toe te

laten aangezien de promoters reeds te veel gedivergeerd zijn.

De densiteitplots met de “% aligneerbaarheid” in functie van de correlatie van genexpressie

tonen dat de correlatie van genexpressie van een ankerpunt genpaar niet gecorreleerd is

met de aligneerbaarheid van de promoterregio’s van dat genpaar.

De methode die gebruikt wordt voor het onderzoeken van de aligneerbaarheid van de

promotorregio’s is avid. Het onderzoeken van de promotorregio’s met avid geeft

onverwachte resultaten en alternatieve methoden voor promotoranalyse kunnen gebruikt

worden om de resultaten te verifiëren. Alternatieve methoden kunnen andere zaken in

rekening brengen. Als voorbeeld hierbij kan men aanhalen dat avid veronderstelt dat de

aligneerbare sequenties in dezelfde volgorde en oriëntatie voorkomen en de methode legt zo

een beperking op zijn praktische toepassing (Bray et al., 2003). Aligneerbare, maar

getransloceerde of geïnverteerde sequenties worden gewoon genegeerd.

Een mogelijke verklaring voor de gevonden resultaten is de leeftijd van de

duplicatiegebeurtenissen. Indien de promotors van de ankerpuntgenen reeds sterk

gedivergeerd zijn, zal hun aligneerbaarheid misschien niet langer correleren met de leeftijd

van duplicatie. Wanneer ankerpuntgenen van een zéér recente grootschalige

duplicatiegebeurtenis van een andere plant13 bestudeerd wordt, kan een relatie tussen de

13 De in deze thesis bestudeerde grootschalige duplicatiegebeurtenis 3R in Arabidopsis thaliana is de

meest recente in deze plant. Voor meer recente grootschalige duplicaties kan dus enkel een beroep

gedaan worden op andere planten.

58

leeftijd van duplicatie en de aligneerbaarheid van promotorregio’s eventueel wel gevonden

worden.

5.3 Besluit

Dit thesisonderzoek toont aan dat herschikkingen van gedupliceerde genen na een

grootschalige duplicatiegebeurtenis niet verantwoordelijk zijn voor een verlaging van

correlatie van genexpressie. Bovendien is de ouderdom van de duplicatiegebeurtenis (Ks)

niet gecorreleerd met de aligneerbaarheid van de promoterregio’s van de ankerpuntgenen

voor die ankerpuntgenen van de laatste duplicatieronde (3R) in A. thaliana of is dit niet meer

zichtbaar door divergentie van de promoterregio’s. Ook is voor de ankerpunten geen

correlatie tussen de aligneerbaarheid van de promoterregio’s en de correlatie van

genexpressie vastgesteld.

59

6 Bijlagen

6.1 Bijlage A: microarray dataset

De dataset bevat 153 microarrays die tot 16 experimentreeksen behoren, bestaande uit een

aantal experimentele condities ("e") met telkens tenminste één controle-slide ("c", de wild

type). Alle microarrays zijn publiek beschikbaar vanaf het "Nottingham Arabidopsis Stock

Centre" (NASC).

Experiment Slide Naam Slide type correspondeert met controle…

1 A1.MILL.AIR.CEL c1A1.MILL.AIR.REP2.CEL c1A2.MILL.ETH.CEL e1 c1A2.MILL.ETH.REP2.CEL e1 c1A3.MILL.LL.CEL e2 c1A3.MILL.LL.REP2.CEL e2 c1A4.MILL.AIR.REP3.CEL c1A5.MILL.ETH.REP3.CEL e1 c1A6.MILL.LL.REP3.CEL e2 c1

2 A10.Warre.Wca.CEL e1 c1A11.Warre.6ca.CEL e6 c1A12.Warre.6ca.CEL e6 c1A13.Warre.3ca.CEL e9 c1A14.Warre.3ca.CEL e9 c1A15.Warre.2ca.CEL e4 c1A16.Warre.2ca.CEL e4 c1A17.Warre.Wdr.CEL e2 c1A18.Warre.Wdr.CEL e2 c1A19.Warre.6dr.CEL e7 c1A1.Warre.Wna.CEL c1A20.Warre.6dr.CEL e7 c1A2.Warre.Wna.CEL c1A3.Warre.6na.CEL e5 c1A4.Warre.6na.CEL e5 c1A5.Warre.3na.CEL e8 c1A6.Warre.3na.CEL e8 c1A7.Warre.2na.CEL e3 c1A8.Warre.2na.CEL e3 c1A9.Warre.Wca.CEL e1 c1

3 A1.Wilson.mla.CEL e1 c1A2.Wilson.mlb.CEL e2 c2A3.Wilson.lea.CEL c1A4.Wilson.Ler.CEL c2A1.GVB.Rep1.CEL e1 c1A1.Wilson.Rep2.CEL e1 c1

60

A2.GVB.Rep1.CEL e2 c2A2.Wilson.Rep2.CEL e2 c2A3.GVB.Rep1.CEL c1A3.Wilson.Rep2.CEL c1A4.GVB.Rep1.CEL c2A4.Wilson.Rep2.CEL c2

4 A1.WARRE.WTC.2..CEL c1A2.WARRE.WTW.CEL c1A3.WARRE.S6C.CEL e1 c1A4.WARRE.S6W.2..CEL e1 c1A5.WARRE.S2C.new..CEL e2 c1A6.WARRE.S2W.CEL e2 c1

5 Control.3.new.CEL c2Control.4..CEL c2Heat.3.new.CEL e3 c2Heat.4..CEL e3 c2Sen.3.new.CEL e4 c2Sen.4..CEL e4 c2

6 A1.1.cornah.icl.CEL e1 c1A1.2.cornah.icl.CEL e1 c1A1.3.cornah.icl.CEL e1 c1A2.1.cornah.irv.CEL e2 c1A2.2.cornah.irv.CEL e2 c1A2.3.cornah.irv.CEL e2 c1A3.1.cornah.msx.CEL e3 c1A3.2.cornah.msx.CEL e3 c1A3.3.cornah.msx.CEL e3 c1A4.1.cornah.wsx.CEL c1A4.2.cornah.wsx.CEL c1A4.3.cornah.wsx.CEL c1

7 A1.LLOYD.POH.CEL e1 c1A2.LLOYD.POH.CEL e1 c1A3.LLOYD.POH.CEL e1 c1A4.LLOYD.CON.CEL c1A5.LLOYD.CON.CEL c1A6.LLOYD.CON.CEL c1

8 A10.grevi.AT1.CEL e3 c1A11.grevi.AT2.CEL e3 c1A12.grevi.AT3.CEL e3 c1A1.grevi.CC1.CEL c1A2.grevi.CC2.CEL c1A3.grevi.CC3.CEL c1A4.grevi.AC1.CEL e1 c1A5.grevi.AC2.CEL e1 c1A6.grevi.AC3.CEL e1 c1A7.grevi.CT1.CEL e2 c1A8.grevi.CT2.CEL e2 c1

61

A9.grevi.CT3.CEL e2 c1

9 A1.Heggi.CAG.CEL c1A2.Heggi.CEG.CEL e3 c1A3.Heggi.HAG.CEL e2 c1A4.Heggi.HEG.CEL e1 c1A5.Heggi.CAW.CEL c1A6.Heggi.CEW.CEL e3 c1A7.Heggi.HAW.CEL e2 c1A8.Heggi.HEW.CEL e1 c1

10 A1.jones.WT1.CEL c1A2.jones.WT2.CEL c1A3.jones.rh1.CEL e1 c1A4.jones.rh2.CEL e1 c1

11 A1.deeke.tum.CEL e1 c1A2.deeke.Inf.CEL c1A3.deeke.tum.CEL e1 c1A4.deeke.Inf.CEL c1

12 A1.MUT.Top1.CEL e1 c1A2.MUT.Top2.CEL e1 c1A3.MUT.Base1.CEL e2 c2A4.MUT.Base2.CEL e2 c2A5.Turner.WT.Top1.CEL c1A6.WT.Top2.CEL c1A7.WT.Base1.CEL c2A8.WT.Base2.CEL c2

13 A1.Fille.WT.nodex.CEL c1A2.Fille.WT..dex.CEL e1 c1A3.Fille.ANGR4.12.CEL e2 c1A4.Fille.ANGR4.12.dex.CEL e3 c1A5.Fille.WTnodex.CEL c1A6.Fille.WT.dex.CEL e1 c1A7.Fille.ANGR4.12nodex.CEL e2 c1A8.Fille.ANGR4.12.dex.CEL e3 c1

14 A10.Smith.17.CEL c10 c9A11.Smith.21B.CEL c1 c10A1.Smith.21A.CEL c1 c10A2.Smith.22.CEL c2 c1A3.Smith.23.CEL c3 c2A4.Smith.1.CEL c4 c3A5.Smith.5.CEL c5 c4A6.Smith.8.45.CEL c6 c5A7.Smith.10.CEL c7 c6A8.Smith.11.CEL c8 c7A9.Smith.13.CEL c9 c8A10.smith.20h.CEL c10 c9A11.smith.24h.CEL c1 c10

62

A1.smith.00h.CEL c1 c10A2.smith.01h.CEL c2 c1A3.smith.02h.CEL c3 c2A4.smith.04h.CEL c4 c3A5.smith.08h.CEL c5 c4A6.smith.12h.CEL c6 c5A7.smith.13h.CEL c7 c6A8.smith.14h.CEL c8 c7A9.smith.16h.CEL c9 c8

15 A10.Bwoll.Col2.CEL e4 c1A1.Bwoll.COG.CEL c1A2.Bwoll.C5G.CEL e1 c1A3.Bwoll.COS.CEL c1A4.Bwoll.CSS.CEL e1 c1A5.BwolINGI.CEL e2 c1A6.Bwoll.NG2.CEL e2 c1A7.Bwoll.E11.CEL e3 c1A8.Bwoll.E12.CEL e3 c1A9.Bwoll.Col1.CEL e4 c1

16 A1.WILLA.CON.CEL c1A2.WILLA.ISOX.CEL e1 c1A1.willa.CON.REP2.CEL c1A1.willa.CON.REP3.CEL c1A2.willa.ISOX.REP2.CEL e1 c1A2.willa.ISOX.REP3.CEL e1 c1

63

6.2 Bijlage B: Lijst met afkortingen

– ANOVA

Analysis Of Variance:

– BLAST

Basic Local Alignment Search Tool

– GHM

Gene Homology Matrix: De homologie matrix die door i-ADHoRe gebruikt worden

voor het opsporen van in groep gedupliceerde genen.

– Ks

Het aantal synonieme substituties per synonieme site. Een synonieme substitutie is

hierbij een mutatie op veelal de derde positie van een codon die niet voor een

gewijzigde aminozuursequentie zorgt.

– MM

Mismatch: een probe bij de Affymetrix genechips die enkel in het middelste

nucleotide niet complementair is met de sequentie van het overeenkomstige gen.

– PCR

Polymerase Chain Reaction

– PM

Perfect Match: een probe bij de Affymetrix genechips die volledig complementair is

met de sequentie van het overeenkomstige gen.

– TIGR

The Institute of Genomic Research: Een “non-profit” centrum voor de ontcijfering en

analyse van genomische data.

– TP

Transposon: Een element die zichzelf kan kopiëren naar een andere positie in een

genoom.

– ZD

Zonder Datum: aanduiding bij referenties zonder datum

64

6.3 Bijlage C: CD-ROM

De CD-ROM met bijlagen bevindt zich in een hoesje dat op de achterkaft van deze bundel is

gekleefd. De CD-ROM bevat de files die vermeld worden in de tekst, alsook een pdf-versie

van deze thesis.

65

7 Referenties

1. Adams, K.L., and J.F. Wendel. 2005. Polyploidy and genome evolution in plants.Current Opinion Plant Biology 8:135-41.

2. Affymetrix. ZD. Affymetrix GeneChip array technology [Online]. Available byAffymetrix Inc. http://www.affymetrix.com/technology/index.affx.

3. Altschul, S.F., W. Gish, W. Miller, E.W. Myers, and D.J. Lipman. 1990. Basic localalignment search tool. J Mol Biol 215:403-10.

4. Arabidopsis Genome Initiative. 2000. Analysis of the genome sequence of theflowering plant Arabidopsis thaliana. Nature 408:796-815.

5. Bolstad, B.M., R.A. Irizarry, M. Astrand, and T.P. Speed. 2003. A comparison ofnormalization methods for high density oligonucleotide array data based on varianceand bias. Bioinformatics 19:185-93.

6. Bray, N., I. Dubchak, and L. Pachter. 2003. AVID: A global alignment program.Genome Res 13:97-102.

7. Butte, A. 2002. The use and analysis of microarray data. Nat Rev Drug Discov1:951-60.

8. Casneuf, T., S. De Bodt, J. Raes, S. Maere, and Y. Van de Peer. 2006. Nonrandomdivergence of gene expression following gene and genome duplications in theflowering plant Arabidopsis thaliana. Genome Biol 7:R13.

9. Coe, B., and C. Antler. ZD. Spot your Genes - An Overview of the MicroArray[Online] http://bioteach.ubc.ca/MolecularBiology/microarray/index.htm.

10. Draghici, S. 2003. Data analysis tools for DNA microarrays Chapman & Hall/CRC,Boca Raton.

11. Force, A., M. Lynch, F.B. Pickett, A. Amores, Y.L. Yan, and J. Postlethwait. 1999.Preservation of duplicate genes by complementary, degenerative mutations.Genetics 151:1531-45.

12. Gentleman, R.C., V.J. Carey, D.M. Bates, B. Bolstad, M. Dettling, S. Dudoit, B. Ellis,L. Gautier, Y. Ge, J. Gentry, K. Hornik, T. Hothorn, W. Huber, S. Iacus, R. Irizarry, F.Leisch, C. Li, M. Maechler, A.J. Rossini, G. Sawitzki, C. Smith, G. Smyth, L. Tierney,J.Y. Yang, and J. Zhang. 2004. Bioconductor: open software development forcomputational biology and bioinformatics. Genome Biol 5:R80.

13. Gregory T. 2005. The evolution of the genome Elsevier Inc.

14. Gu, Z., L. Steinmetz, X. Gu, C. Scharfe, R. Davis, and W. Li. 2003. Role of duplicategenes in genetic robustness against null mutations. Nature 421:63-66.

15. Gu Z., Steinmetz LM, Gu X, Scharfe C., Davis RW, and Li WH. 2003. Role ofduplicate genes in genetic robustness against null mutations. Nature 421:63-66.

16. Haldane, J.B.S. 1933. The Part Played by Recurrent Mutation in Evolution. TheAmerican Naturalist 67:5-19.

http://www.affymetrix.com/technology/index.affx

http://bioteach.ubc.ca/MolecularBiology/microarray/index.htm

66

17. Henikoff, S., and J.G. Henikoff. 1992. Amino acid substitution matrices from proteinblocks. Proc Natl Acad Sci U S A 89:10915-9.

18. Hurst, D.L. 2002. The Ka/Ks ratio: diagnosing the form of sequence evolution.TRENDS in Genetics 18:486-487.

19. Irizarry, R.A., B. Hobbs, F. Collin, Y.D. Beazer-Barclay, K.J. Antonellis, U. Scherf,and T.P. Speed. 2003. Exploration, normalization, and summaries of high densityoligonucleotide array probe level data. Biostatistics 4:249-64.

20. Koszul, R., S. Caburet, B. Dujon, and G. Fischer. 2004. Eucaryotic genomeevolution through the spontaneous duplication of large chromosomal segments.Embo Journal 23:234-43.

21. Long, M., E. Betrán, K. Thornton, and W. Wang. 2003. The origin of new genes:glimpses from the young and old. Nature Reviews Genetics 4:865-875.

22. NASC. ZD. Nottingham Arabidopsis Stock Centre [Online]http://www.arabidopsis.info/.

23. Needleman, S.B., and C.D. Wunsch. 1970. A general method applicable to thesearch for similarities in the amino acid sequence of two proteins. J Mol Biol 48:443-53.

24. Ohno S. 1970. Evolution by Gene Duplication Springer Verlag., New York.

25. Prince, V.E., and F.B. Pickett. 2002. Splitting pairs: the diverging fates of duplicatedgenes. Nat Rev Genet 3:827-37.

26. Quackenbush, J. 2001. Computational analysis of microarray data. Nature ReviewsGenetics 2:418-27.

27. Rost, B. 1999. Twilight zone of protein sequence alignments. Protein Engineering12:85-94.

28. Sankoff, D. 2003. Rearrangements and chromosomal evolution. Current Opinion inGenetics & Development 13:583-7.

29. Simillion, C. 2005. Documentation for i-ADHoRe v2.0. VIB - Ghent University.

30. Simillion, C., K. Vandepoele, Y. Saeys, and Y. Van de Peer. 2004. Building genomicprofiles for uncovering segmental homology in the twilight zone. Genome Research14:1095-106.

31. Simillion, C., K. Vandepoele, M.C. Van Montagu, M. Zabeau, and Y. Van de Peer.2002. The hidden duplication past of Arabidopsis thaliana. Proceedings of theNational Academy of Sciences 99:13627-32.

32. Smith, T.F., and M.S. Waterman. 1981. Identification of common molecularsubsequences. Journal of Molecular Biology 147:195-7.

33. Spring, J. 2003. Major transitions in evolution by genome fusions: from prokaryotesto eukaryotes, metazoans, bilaterians and vertebrates. Journal of Structural andFunctional Genomics 3:19-25.

http://www.arabidopsis.info/

67

34. Taylor, J.S., and Raes, J. 2005. Small-Scale Gene Duplications, p. 289-327, In G. T.R., ed. The evolution of the genome. Elsevier Inc.

35. The Institute for Genomic Research. ZD. The Institute for Genomic Research[Online] http://www.tigr.org.

36. Van de Peer, Y. 2005. GGS Course in Bioinformatics [Online]. Available by UGenthttp://bioinformatics.psb.ugent.be/intranet.php.

37. Van de Peer Y., and Meyer A. 2005. Large-Scale Gene and Ancient GenomeDuplications, p. 329-368, In G. T., ed. The evolution of the genome. Elsevier Inc.

http://www.tigr.org/

http://bioinformatics.psb.ugent.be/intranet.php

Documents

Invloed van de genomische context op genexpressie van