47
Statistisk analys av en genetisk studie av typ 2 diabetes Ingrid Haneklaus U.U.D.M. Project Report 2002:P2 Examensarbete i matematisk statistik, 20 poäng Handledare: Tom Britton och Holger Luthman, Karolinska Institutet Examinator: Tom Britton Februari 2002 Department of Mathematics Uppsala University

Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

Embed Size (px)

Citation preview

Page 1: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

Statistisk analys av en genetisk studie av typ 2 diabetes

Ingrid Haneklaus

U.U.D.M. Project Report 2002:P2

Examensarbete i matematisk statistik, 20 poäng

Handledare: Tom Britton och Holger Luthman, Karolinska Institutet

Examinator: Tom Britton

Februari 2002

Department of Mathematics

Uppsala University

Page 2: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

Sammanfattning I detta arbete har vi använt genetiska data från individer i ett isolerat område på Sardinien. För varje individ finns bl.a. genetiska data för vissa markörer på kromosomerna, varje markör utmärker en viss plats. Vi har undersökt hur den genetiska faktorn påverkar diabetes och till diabetes relaterade sjukdomar. Detta har vi undersökt med kopplingsanalys. Med hjälp av denna metod kan man se om det finns någon koppling mellan sjukdomen och någon av markörerna, d.v.s. om markörens plats i genomet har någon påverkan på sjukdomen. Resultaten visade att det finns svag koppling till vissa områden på några kromosomer. Vi fann starkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att finna stark koppling till en speciell gen hos individerna i detta datamaterial. Abstract In this master thesis we have used genetic data from individuals of an isolated area of Sardinia. For each individual there is data from many markers on the chromosomes, each marker is located on a specific locus on the chromosome. We have studied how the genetic factor influences diabetes and other phenotypes related to diabetes. The analysis was performed using linkage analysis. This method determines if there is linkage between the disease and any of the markers, i.e. if the locus of the marker has any influence on the disease. The analysis showed moderate linkage to some areas of some of the chromosomes. The most significant area was located on chromosome 5. The study also showed that it is hard to find highly significant linkage to any particular gene in the present data set.

1

Page 3: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

Tack till Jag vill tacka mina handledare på Karolinska Institutet i Stockholm, Holger Luthman och Ingrid Kockum, för att de hjälpt mig att förstå hur en genetisk studie genomförs. Jag vill även tacka Tom Britton som har varit min handledare på Matematiska Institutionen vid Uppsala Universitet, för att ha hjälpt mig med den matematiska delen av arbetet och gett mig vägledning om hur ett examensarbete ska utformas.

2

Page 4: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

Innehållsförteckning 1 Introduktion ........................................................................................................................ 4 2 Diabetes .............................................................................................................................. 5 3 Introduktion till genetik...................................................................................................... 6

3.1 Gener .............................................................................................................................. 6 3.2 Överkorsning.................................................................................................................. 7 3.3 IBS eller IBD.................................................................................................................. 9

4 Datamaterial ..................................................................................................................... 10 4.1 Från SAS till Arexis (filhantering)............................................................................... 11 4.2 Kontroll av data ............................................................................................................ 11

4.2.1 zGenStat ............................................................................................................... 11 4.2.2 SibError ................................................................................................................ 12

5 Kopplingsanalys ............................................................................................................... 13 5.1 Mappningsfunktioner ................................................................................................... 16 5.2 Signifikanstest .............................................................................................................. 18 5.3 Log-odds-ratio .............................................................................................................. 19

6 Allegro.............................................................................................................................. 23 6.1 Ett exempel................................................................................................................... 27

7 Resultat............................................................................................................................. 32 Bilaga 1 - Diagram…………………………..………………………………………...……………….34 Bilaga 2 - Linkageformat…………………………………………….……………………………….44 Referenser……………………………………………………………………………………………..…46

3

Page 5: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

1 Introduktion Antalet personer som får diabetes ökar hela tiden. Det finns flera orsaker, men en av de mest bidragande är att allt fler lider av övervikt. Övervikten beror i sin tur på för mycket fet mat och för lite motion. Det finns två olika typer av diabetes beroende på i vilken ålder sjukdomen bryter ut, typ 1 som även kallas ungdomsdiabetes och typ 2 som bryter ut först senare i livet och kallas åldersdiabetes. Förutom livsstil påverkas uppkomsten av diabetes också av ärftliga faktorer, d.v.s. vissa individer bär anlag för sjukdomen vilket gör att den lättare bryter ut. Detta arbete syftar till att undersöka den ärftliga delen av diabetes, d.v.s. vilka gener som påverkar diabetes och hur mycket. I undersökningen ingår familjer från Sardinien, där minst ett av barnen i vuxen ålder har fått diagnosen typ 2 diabetes. Vi har tittat på hur syskonpar i familjerna har ärvt generna från föräldrarna. I varje cell i kroppen finns 23 kromosompar, varav 22 kallas autosomala. Det 23:e paret är ett könskromosompar, som bestämmer vilket kön barnet får. Kvinnor har två s.k. X-kromosomer och män har en X-kromosom och en Y-kromosom. På kromosomerna, som är uppbyggda av DNA, finns generna. Generna bestämmer hur vi ska se ut och hur vår kropp ska fungera. Den egenskapen som en gen ger hos en individ kallas fenotyp, t.ex. ögonfärg. Hur generna ärvs bestäms under produktionen av könsceller, då sker s.k. överkorsningar mellan kromosomerna så att varje könscell får vissa gener från individens mamma och andra från individens pappa, vilket gör att könscellerna inte nödvändigtvis blir identisk med någon av föräldrarnas könsceller. För att se vilka gener som kan ha inverkan på diabetes använde vi oss av kopplingsanalys. Med kopplingsanalys kan man se om det finns en koppling mellan sjukdomen och en speciell gen. Vi använde en ickeparametrisk metod, som till skillnad från en parametrisk metod inte kräver vetskap om hur fördelningen för testet ser ut, och till hjälp hade vi ett genetiskt statistiskprogram, Allegro. Analyserna som utfördes var enpunktsanalyser, där endast en viss gen analyseras, och flerpunktsanalyser som även använder punkterna runtom den aktuella genen i analysen. Undersökningen har endast innefattat de autosomala kromosomparen. För att analysera könskromosomerna krävs andra metoder. Vi har undersökt sex olika fenotyper som alla är kvalitativa. Utöver diabetes utgör dessa fenotyper som i sin tur påverkar diabetes. AER – hur mycket/lite albumin levern filtrerar ut i blodet. hTG – hur mycket/lite triglycerider (blodfett) det finns i blodet. HT – visar om blodtrycket är högt eller lågt. lHDL – hur mycket/lite av det ”goda kolesterolet” som finns i blodet. UR – hur mycket/lite urinsyra det finns i urinen. NIDDM – visar om individen har diabetes eller inte. Efter att ha undersökt hela genuppsättningen för ca 770 individer för de sex fenotyperna fann vi viss koppling för fem av fenotyperna. På kromosom 1 och 3 hittade vi koppling för diabetes (NIDDM). På kromosom 5 gav Allegro koppling för högt värde på triglycerider (hTG). Det fanns även en viss koppling till högt triglyceridvärde på kromosom 8. Koppling till fenotypen AER fann vi på kromosomerna 4, 8 och 13, och på kromosom 22 fanns det koppling till högt blodtryck (HT). Vi fann ingen koppling till fenotypen UR på genomet.

4

Page 6: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

2 Diabetes Diabetes är en av de största folksjukdomarna. I hela världen finns ca 130 miljoner diabetiker. Detta antal kommer troligtvis att öka, bl.a. beroende på att allt fler blir överviktiga. Detta i sin tur beror av att vi rör oss mindre och att vi äter mer fet mat. När sjukdomen först upptäcktes, på 600-talet före Kristus, kallades den ”honungsurin”. Flera hundra år senare fick sjukdomen sitt nuvarande namn, diabetes. Det finns två sorters diabetes, typ 1 och typ 2. Typ 1 kallas även ungdomsdiabetes och brukar bryta ut före 35 års ålder. Typ 2 varianten uppkommer senare i livet. Undersökningar av enäggstvillingar visar att typ 2 diabetes är mer ärftligt än typ 1. Symtomen på sjukdomen är ökad törst, ökad mängd urin och trötthet. Avmagring och dimsyn kan också förekomma. Båda formerna av diabetes ger ökad risk för slaganfall och hjärtattacker. Diabetes kan också leda till blindhet. Vid typ 1 slutar bukspottkörteln helt att tillverka insulin, cellerna har förstörts av kroppens eget immunförsvar. Vid typ 2 har tillverkningen bara minskat. Insulinet behövs för att transportera socker in i kroppens celler. Om det saknas eller finns för lite insulin stannar sockret kvar i blodet. Detta medför att sockerhalten i blodet blir för hög och även att cellerna inte får någon energi. Om cellerna inte får den energi de behöver förbränner de kroppsfett. Då bildas ketoner, vilket kan ge syraförgiftning. Syraförgiftning kan leda till magont, illamående och kräkningar. För att minska sockerhalten filtreras sockret ut med urinen och urinen blir ”söt”. (Därav namnet honungsurin.) Namnet diabetes, som betyder rinna igenom, kommer av att då sockerhalten i blodet når en viss gräns måste det överflödiga sockret filtreras bort. Detta sker med urinen. En diabetiker som ofta har för mycket socker i blodet måste filtrera bort mycket socker och detta ökar mängden urin. Kroppen kan då liknas vid ett rör som vätskan rinner igenom. Diabetes kan också bero på att cellerna är insulinresistenta. Då är cellerna okänsliga för insulin. Insulinet kan inte användas för att transportera in sockret i cellerna och p.g.a. detta stiger sockerhalten i blodet. Med rätt behandling kan diabetiker leva ett normalt liv. Det är viktigt att tillföra kroppen rätt mängd insulin. Insulinet kan injiceras med sprutor eller tas som tabletter. Det är också viktigt att äta rätt. För att hålla blodsockerhalten på en jämn nivå är det bra att äta varierad kost och se till att sprida ut måltiderna över dagen.

5

Page 7: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

3 Introduktion till genetik

3.1 Gener Generna finns på kromosomerna i cellens kärna, och är uppbyggda av DNA. Människan har 22 par autosomala kromosomer, och ett könskromosompar. En kromosom består av två DNA-strängar som är snurrade runt varandra som en spiral, även kallad dubbelhelix.

Figur 1: Två DNA-strängar som är snurrade runt varandra, de bildar på så sätt en dubbelhelix.

I varje position av DNA-strängen finns en av fyra nukleotider: Guanin, Cytosin, Adenin och Tymin (förkortas G, C, A och T). Varje kromosom består av en kromatid och en centromer. Ett kromosompar består av två kromosomer som tillsammans kallas systerkromatider. De två kromatiderna är sammankopplade med centromererna.

Kromosompar

centromer

systerkromatider

Figur 2: Ett kromosompar består av två systerkromatider och en centromer.

En kromosom består av ca 130 miljoner nukleotider. En gen, som endast är en liten del av kromosomen, består av ca 1000 nukleotider. Genen bestämmer vilka proteiner som ska bildas i cellen. Allel är ett annat namn för en variant av en gen som ger en viss egenskap och varje gen har en väldefinierad plats som kallas lokus. I varje cell i kroppen finns 23 kromosompar. Varje par (förutom könskromosomerna) består av två kromosomer som har samma genetiska lokus och struktur, den ena kommer från mamman och den andra kommer från pappan, de två kromosomerna sägs vara homologa. Om en individ har lika alleler, för ett visst lokus, på de båda systerkromatiderna säger man att den är homozygot för lokuset, motsatsen kallas

6

Page 8: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

heterozygot. Ett exempel är genen för ögonfärg. Om ett barn har fått anlag för bruna ögon av mamman och blå ögon från pappan är barnet heterozygot för det lokuset. Om det i stället skulle ha fått anlagen för bruna ögon av båda föräldrarna är barnet homozygot. Begreppet genotyp specificerar genuppsättningen. Genotypen bestämmer sedan, eventuellt med andra faktorer, individens tillstånd, detta kallas fenotyp. Blå ögon är ett exempel på en fenotyp. Vid varje celldelning i kroppen duplikerar sig krosomerna så att den nya cellen blir en exakt kopia av den gamla cellen, detta kallas mitos.

3.2 Överkorsning Under meiosen (se Figur 3a), tillverkning av könsceller, paras de homologa kromosomerna ihop och dupliceras. De bildar ett par med två systerkromatider. De homologa paren samlar ihop sig till s.k. tetrader, ett kromosompar från individens mamma och ett från pappan. Sedan delas de homologa paren upp i två nya celler, så att det blir ett kromosompar i varje cell. Slutligen delas även dessa celler upp i två nya celler med en kromosom från varje par. Vid varje meios bildas fyra nya könsceller med en enkel kromosomuppsättning i varje cell.

Figur 3a: Bild på meios (Campbell, 1999, sid 231)

7

Page 9: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

Då de homologa kromosomparen bildar en tetrad kan det ske slumpmässiga överkorsningar mellan kromosomparen (se Figur 3b). Detta gör att kromosomerna får nya kombinationer av alleler och att avkommornas könceller inte blir identiska med föräldrarnas.

Figur 3b: Bild på meios med överkorsning (Campbell, 1999, sid 234) Eventuella överkorsningar sker under metafasen (metaphase).

Gener som ligger nära varandra på kromosomen skiljs sällan åt vid överkorsning, men när avståndet ökar mellan generna ökar också chansen för att det sker en överkorsning mellan dem. Gener som ligger på olika kromosomer kan ses som oberoende av varandra, d.v.s. sannolikheten för överkorsning på en kromosom är inte beroende av om det skett en överkorsning på en annan kromosom. Mer om detta kan t.ex. läsas i Gonick L, Wheelis M, (1996) och Haines J, Pericak-Vance M, (1998).

8

Page 10: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

3.3 IBS eller IBD För varje gen ärver barnen en allel från mamman och en från pappan, till kromosomerna i kromosomparen. Syskonen i en familj kan sinsemellan antingen ärva samma allel eller olika alleler från föräldrarna. Vid kopplingsanalys studeras hur allelerna delas av syskonen. Genom att bestämma hur allelerna har ärvts kan man bestämma vilken allel som ger uttryck för en viss fenotyp. I vårt fall har vi tittat på hur syskonpar har ärvt sina alleler. Syskon kan dela alleler IBS (Identity-By-State) eller IBD (Identity-By-Descent). Alleler som delas IBS är lika alleler men de kommer inte nödvändigtvis från samma förälder. För att allelen ska vara IBD måste den komma från samma förälder och även från samma kromosom hos den föräldern d.v.s. från samma mor- eller farförälder. En allel som är IBD är även IBS, men det omvända behöver inte gälla. Exemplet i Figur 4 visar hur syskon kan dela alleler IBS och IBD givet föräldrarnas genotyper. Män brukar symboliseras med kvadrater och kvinnor med cirklar. Familjen i Figur 4 består av mamma, pappa och två söner.

IBS eller IBD

acab

1. ac ac2. ac aa3. ac ab4. bc aa

IBS IBD2 21 11 00 0

Figur 4: Ett exempel där vi vet föräldrarnas genotyper. Eftersom varje syskon ärver en allel från mamman och en från pappan finns det fyra olika kombinationer för hur syskonen kan ha ärvt allelerna. Figuren visar hur många alleler som ärvts IBS resp IBD för vart och ett av de fyra möjliga syskonkonfigurationerna.

Det blir fyra olika kombinationer för hur syskonen kan ärva allelerna. I första fallet har båda syskonen allelerna a och c, det betyder att båda allelerna delas IBS. Genom att titta på hur föräldrarna ser ut och att vi vet att en allel kommer från mamman och en kommer från pappan kan vi se att båda allelerna även delas IBD, vilket kommer av att c-allelen måste komma från pappan och a-allelen måste komma från mamman. I fall 3 delas a-allelen IBS men den kommer inte från samma förälder så den delas inte IBD. Det första barnet har fått a-allelen från mamman och det andra barnet har fått sin a-allel från pappan. Alla individer, oavsett om de är släktingar eller inte kan dela 0, 1 eller 2 alleler IBS.

9

Page 11: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

4 Datamaterial Materialet kommer från ett visst isolerat område på Sardinien. Området har tills helt nyligen varit genetiskt homogent, d.v.s. isoleringen har gjort att det har inte kommit in så mycket nya genetiska anlag. Detta gör det lättare att undersöka hur genetiska sjukdomar har ärvts. Datamaterialet bestod av 2496 personer, varav 1469 kontrollpersoner. De som inte var kontrollpersoner bestod av 323 familjer. I vår undersökning har vi tittat på hur olika kombinationer av syskonpar i familjerna har ärvt anlag från föräldrarna. I de 323 familjerna fanns det 876 syskon och 151 andra släktingar. Av syskonen hade 775 typ 2 diabetes. Undersökningen omfattar familjer där minst ett av barnen som vuxen har fått diagnosen typ 2 diabetes och både föräldrar och mor-farföräldrarna är födda på Sardinien. I materialet finns endast barnens genuppsättning, med undantag av några enstaka föräldrar. I beräkningarna används endast de syskon som är sjuka. I materialet finns förutom värden på alla fenotyper även identitetsnummer, födelseår, längd, vikt och BMI-värdet för individen. BMI betyder Body Mass Index och är ett mått som visar om individen är överviktig eller underviktig. Värdet beräknas enligt:

22 mkg

längdvikt

BMI > 30 visar på övervikt. Övervikt har visat sig vara relaterat till diabetes, många som har diabetes lider också av fetma. Vi har valt att endast använda fenotyper med kvalitativa värden, d.v.s. där det går att bestämma om en person är sjuk eller frisk utifrån ett fastställt gränsvärde. Om individen är sjuk bestäms sedan beroende på om dennes mätvärde är över eller under gränsvärdet. För vissa fenotyper är individen sjuk om värdet överstiger gränsvärdet och frisk om värdet underskrider detta, för andra fenotyper gäller det omvända. Värdet 0 står för frisk och 1 för sjuk. Alla fenotyperna har någon trolig påverkan på diabetes, antingen direkt eller indirekt. Fenotyper: AER – hur mycket albumin som njuren släpper ut. Albunim är en stor molekyl, om njuren inte klara av att hålla kvar en så stor molekyl, är filtreringen dålig och njuren är i dåligt skick. Albuminvärdet testas i blodet. HT – högt blodtryck (hypertension). Diabetes ökar risken för högt blodtryck. Vid diabetes höjs blodsockerhalten, för att få ner halten späs blodet ut med vätska och volymen blir större. Detta gör att trycket ökar. lHDL – lågt värde av ”det goda kolesterolet”. Lagom mycket kolesterol är bra för kroppen. Kolesterolet finns i cellvägar och cellmembran. Om det finns för mycket kolesterol i blodet kan det leda till hjärt och kärlsjukdomar. HDL hjälper till att transportera bort överflödigt kolesterol från cellerna till levern där det bryts ner. Höga HDL-värden är bra. hTG – högt triglyceridvärde. Triglycerider är blodfetter som används som bränsle i kroppen, för mycket blodfetter ökar risken för hjärt och kärlsjukdomar. NIDDM – diabetes. Om individen har diabetes.

10

Page 12: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

UR – Urinsyra. Urinsyran visar hur mycket aminosyror det finns i urinen. Mycket aminosyror betyder att njurens filtrering inte fungerar, d.v.s. att den släpper ut för mycket ämnen. Vi har gjort analyser för varje fenotyp för sig, d.v.s. en individ räknas som sjuk för varje enskild fenotyp oberoende av de andra fenotyperna.

4.1 Från SAS till Arexis (filhantering) Innan själva analysen kördes krävdes en hel del databashantering. Nedan kommer en kort av beskrivning av vilka filhanteringsformationer vi utförde. Alla data fanns i en SAS-databas, men för att lättare kunna analysera materialet skulle allt läggas in i den nya Arexisbasen, från den kan man sedan exportera filer i s.k. linkageformat (se Bilaga 2 – Linkageformat). Linkageformatet behövs för att kunna använda de olika programmen vi använt. För att kunna lägga in det i Arexisbasen var vi först tvungna att ändra formatet. Detta gjordes i Excel. Från SAS-basen exporterades datan till Excel, där vi ändrade formatet, som sedan importerades till Arexisbasen. Vi började med att lägga in familjerna och individerna, d.v.s. varje familj fick ett nummer och varje individ fick ett personligt identitetsnummer. Sedan lade vi in alla markörer och alla individernas genotyper. Slutligen importerade vi de fenotyper vi valt att använda i analysen. Sedan exporterades data i Linkageformat.

4.2 Kontroll av data För att kontrollera att exporteringen från SAS-format till Arexis-format blev rätt utförd, så att vi fått med all data och att allt hamnat på rätt ställe, använde vi zGenStat och SibError. Vi har också kontrollerat kvaliteten på materialet och tagit bort delar som inte innehåller tillräcklig information för att kunna göra en bra analys.

4.2.1 zGenStat zGenStat använde vi för att bl.a. kontrollera att släktskapet stämde i familjerna, att barnen hade rätt föräldrar och syskonen verkligen var syskon, d.v.s. att det var teoretiskt möjligt att barnen kan ha en viss genuppsättning givet vilka gener föräldrarna har och att syskonen kan dela dessa alleler. Vi kontrollerade också att varje individ har rätt antal alleler. I zGenStat kan man göra ett homozygositetstest, det är ett test som ger förväntade antalet heterozygota respektive homozygota individer och det observerade antalet heterozygota och homozygota individer, för varje markör. Antalet förväntade homozygota beräknas genom att allelfrekvensen för varje markör kvadreras. Homozygositettestet för kromosom 11: Observed Expected Observed Expected Marker Homozygotes Homozygotes Heterozygotes Heterozygotes P< D11S1984 81 79,02 349 350,98 0,8049 D11S2362 106 108,17 339 336,83 0,8105 D11S1999 100 89,58 358 368,42 0,2195 ATA34E08 78 69,92 234 242,08 0,2729 D11S2371 145 140,29 300 304,71 0,631 D11S2002 72 83,30 293 281,70 0,1588 D11S2000 62 57,22 269 273,78 0,4871 D11S1998 160 151,26 302 310,74 0,386

Tabell 1: Utskrift från homozygositetstest för kromosom 11.

11

Page 13: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

P-värdet är beräknat med Pearsons �2-test, som testar antalet heterozygota mot antalet homozygota. Testet har utförts enligt Pearsons �2-test (se Kap 5.2 om Signifikanstest), nu är N antalet heterozygota + antalet homozygota, d.v.s. antalet individer, och R är antalet homozygota individer. p är här andelen förväntade homozygota, vilket ger ett p-värde med signifikans enligt �2–fördelningen med en frihetsgrad. För vissa markörer fanns det ett stort bortfall, d.v.s. att det saknas mätvärden från många individer. Eftersom det är svårt att göra bra analyser för dessa markörer tog vi bort dem ur materialet. De markörer som hade data för färre än 186 individer, 30 % av det största antalet individer, togs bort. Vi tog även bort markörer med ett p<0,0001, ty dessa markörer har inte signifikanta fördelningar för homozygota och heterozygota.

4.2.2 SibError SibError är ett annat program som kan användas för att kontrollera så att familjestrukturerna stämmer, d.v.s. att det föräldrarna teoretiskt sett kan vara föräldrar till barnen givet barnens genotyper. Programmet beräknar antalet alleler som syskonen delar IBD och jämför sedan med det förväntade antalet alleler. Detta kan göras för ett stort antal markörer. Teststatistikan är approximativt normalfördelad under nollhypotesen, d.v.s. ingen koppling (se Kap 5 om Kopplingsanalys). Låt Z vara det observerade antalet alleler delade IBD. E(Z) är då väntevärdet och Var(Z) är variansen vilket ger att teststorheten är:

)()(

ZVarZEZT �

Detta gör att man kan beräkna p-värdet och upptäcka signifikans med normalfördelningen. För att få största tillförlitlighet är det bäst med oberoende markörer, men då markörerna ofta är beroende (d.v.s. de ligger på samma kromosom) kan man lösa problemet genom att använda avstånden mellan markörerna. Avstånden måste vara omgjorda till rekombinationsfaktorer (se Kap 5.1 om Mappningsfunktioner). Syskon som delar alla alleler antas vara homozygota tvillingar. Vi hittade två tvillingpar i vårt material. För varje par tog vi bort en individ, detta p.g.a. att båda individerna har exakt samma genuppsättning och om båda skulle vara med skulle det ge en överrepresentation för de generna.

12

Page 14: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

5 Kopplingsanalys Kopplingsanalys används för att se hur två lokus är kopplade till varandra. Om de två lokusen som ska analyseras ligger på olika kromosomer är de inte kopplade, d.v.s. det är lika stor sannolikhet att allelerna på lokusen har ärvts från samma förälder som att den ena kommer från mamman och att den andra kommer från pappan. Om lokusen i stället ligger nära varandra är det större sannolikhet att allelerna kommer från samma förälder, d.v.s. kopplingen mellan två lokus ökar ju mindre avståndet är mellan dem. För att kunna utföra en kopplingsanalys måste avståndet, m, mellan två lokus bestämmas. Avståndet definieras som det förväntade antalet överkorsningar mellan dem under meiosen. Avståndet mäts i Morgan, en Morgan definieras som det avstånd som ger 1 förväntad överkorsning. Markörer används för att räkna överkorsningar. Varje markör finns vid ett visst lokus på kromosomen, och utgör en del av DNA-strängen som är lätt att känna igen. Sedan kan man titta på om det skett några överkorsningar mellan två markörer. Detta ser man genom att titta på om den ena markören kommer från mamman och den andra kommer från pappan. Då har det skett ett udda antal överkorsningar mellan markörerna. Om det är ett jämt antal överkorsningar ser det ut som den är ickerekombinant. En kromosom som det inte skett några överkorsningar på kallas ickerekombinant. Den är identisk med den ena förälderns ena kromosom. Om kromosomen är rekombinant har det skett minst en överkorsning. Figur 5 visar skilnaden mellan en rekombinant och en ickerekombinant kromosom (mellan två markörer).

Ickerekombinant - Rekombinant

Markör 1

Markör 2

Ickrekombinantkromosom

Rekombinantkromosom

Figur 5: Bilden visar delar av kromosomer mellan två markörer. Den grå färgen symboliserar att den delen kommer från individens pappa och den vita delen visar att den kommer från mamman.

På den rekombinanta kromosomen har det skett en överkorsning, d.v.s. den första markören kommer från mamman och den andra kommer från pappan. Alla överkorsningar sker mellan kromosomer som inte är systerkromatider (se Figur 6), d.v.s. vid meiosen måste överkorsningar ske mellan mammans och pappans kromosomer och inte mellan pappans två homologa duplicerade kromosomer eller mammans kromosomer. Det betyder att antalet överkorsningar på ett kromosompar är lika med antalet överkorsningar på hela tetraden.

13

Page 15: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

En Tetrad

systerkromatider systerkromatider

1 2 3 4

Figur 6: Två homologa duplicerade kromosomer (se meios Figur 3a) ger två kromosompar som tillsammans bildar en tetrad. Eventuella överkorsningar kommer inte att ske mellan systerkromatider, d.v.s. inte mellan kromatid 1 och kromatid 2 eller kromatid 3 och kromatid 4. En överkorsning kan i stället ske mellan t.ex. kromatid 1 och kromatid 3.

Om det inte sker någon överkorsning kommer alla nya könsceller vara ickerekombinanta.

Ingen överkorsning

Markör 1

Markör 2

Figur 7: Vid varje meios bildas fyra könsceller, om det inte skett någon överkorsning kommer delarna mellan de två aktuella markörerna antingen helt komma från pappan eller helt från mamman. Grått symbiloserar att delen kommer från pappan och vitt från mamman.

Det ger fyra ickerekombinanta kromosomer. Två stycken som kommer från pappa och två som kommer från mamma (se Figur 7). Om det i stället sker ett udda antal överkorsningar, måste den ena systerkromatiden i paren ha ett udda antal och den andra ha ett jämt antal. Det ger att hälften av kromosomerna blir rekombinanta och den andra hälften blir ickerekombinanta. Sannolikheten att få en

14

Page 16: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

rekombinant kromosom är då ½. Figur 8 illustrerar hur det kan se ut då det sker en överkorsning.

Udda antal överkorsningar

Markör 1

Markör 2

Figur 8: Här har det skett en överkorsning. Det ger att det blir två rekombinanta kromosomer och två ickerekombinanta.

Vid varje meios bildas då två rekombinanta och två ickerekombinanta. Om det sker ett jämt antal överkorsningar så blir alla kromosomerna antingen rekombinanta eller alla ickerekombinanta (se Figur 9a och Figur 9b), båda varianterna är lika sannolika så sannolikheten för att få en rekombinant kromosom är även i detta fall ½.

Jämt antal överkorsningar- alla rekombinanta

Markör 1

Markör 2

Figur 9a: Här har det skett två överkorsningar, alla kromosomer är rekombinanta.

15

Page 17: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

Jämt antal överkorsningar- alla ickerekombinanta

Markör 1

Markör 2

Figur 9b: Här har det skett fyra överkorsningar, alla är ickerekombinanta.

I exemplet (Figur 9b) där alla blir ickerekombinanta har det skett fyra överkorsningar, men markör 1 och markör 2 på varje kromosom kommer fortfarande från samma förälder, de är därför ickerekombinanta för dessa markörer. Om det sker minst en överkorsning mellan två lokus är sannolikheten för rekombination ½. Alltså är sannolikheten att få en rekombinatant könscell ½. Detta ger att rekombinationsfaktorn �, som är sannolikheten för rekombination, kan beräknas enligt (Sham P.,1998, sid 54):

� = p21

där p är sannolikheten för minst en överkorsning. Kan även skrivas om med p = 1-p0:

� = � �0121 p�

där p0 är sannolikheten för att det inte sker någon överkorsning. Sannolikheten för att det ska ske en överkorsning växer med avståndet. Avståndet mellan två markörer kan skattas med hjälp av mappningsfunktioner.

5.1 Mappningsfunktioner

Mappningsfunktioner gör om avståndet mellan lokus till rekombinationsfaktorn �. Det finns flera olika mappningsfunktioner. De bygger på samma rekombinationsfaktor, men har olika värden på p0. En är Morgans mappningsfunktion. (Sham P., 1998, sid 54). Den kan användas för små avstånd, 0<m<1/2, där m är avståndet mellan två lokus mätt i Morgan. Den bygger på att det endast sker en överkorsning i intervallet, och att sannolikheten minskar med avståndet. Avståndet m är det förväntade antalet överkorsningar på en kromatid. En överkorsning på en kromatid ger två överkorsningar på hela tetraden, ty vid överkorsning måste två kromatider

16

Page 18: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

byta segment med varandra. Det ger att det förväntade antalet överkorsningar på hela tetraden är 2m. Och detta i sin tur ger att p0 = 1-2m.

� = � 0121 p� � m =

Om det är längre avstånd mellan lokusen kan man använda sig av Haldane´s funktion. Den bygger på att överkorsningar sker enligt en Poissonprocess med intensitet 1, d.v.s. att det i genomsnitt sker en överkorsning per enhet. Poissonprocessen har inget minne, så för varje punkt på kromosomen är det lika stor sannolikhet för överkorsning, oberoende vad som hänt innan. Mappningsavståndet, m, är definierat som det förväntade antalet överkorsningar per kromatid, vilket ger att det förväntade antalet överkorsningar per kromosompar är 2m. Det ger:

0p = � �!02 02 me m�

= e m2�

� = � �0121 p� =

2

2me�

�1

och inversen

m = � ��21ln21

� .

För att enkelt kunna beräkna antalet överkorsningar måste föräldrarna vara informativa, d.v.s. de måste vara dubbelt heterozygota för det lokus som ska undersökas.

Dubbelt heterozygot

ab12

cd34

ad24

d4

b2

c3

a1

Figur 10: Exemplet visar en familj med mor- och farföräldrar, mamma, pappa och en son. Föräldrarna är dubbelt heterozygota, d.v.s. de har inte lika alleler på någon utav platserna. Bokstäverna anger tillståndet vid en markör och siffrorna tillståndet vid en annan markör.

I exemplet i Figur 10 är föräldrarna dubbelt heterozygota. Bokstäverna står för första allelen och siffrorna står för nästa allel. I det här fallet är det lätt att se vilka alleler som kommer från vilken förälder. Om mamman i stället hade haft a och 1-alleler på båda sina kromosomer kan det vara svårt att bestämma vilken av dessa alleler som barnet fått. Och det blir ännu svårare om även pappen har lika alleler. Då måste man titta på de olika möjliga sätten som barnet kan

17

Page 19: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

ha ärvt allelerna, den ena från mamman och den andra från pappan. I exemplet har det, vid bildandet av mammans könsceller, skett en överkorsning mellan mormors och morfars kromosomer. Detta ger att barnet, från mamman, får anlag både från mormor och morfar, medans barnet endast får anlagen från farfar från pappas sida.

5.2 Signifikanstest Vid kopplingsanalys är nollhypotesen, H0, att det inte finns någon koppling. Med detta menas att aktuell markör ligger långt från alla sjukdomsrelaterade gener, d.v.s. att det inte finns någon koppling mellan markören och sjukdomslokuset. Under H0 gäller att, rekombinationsfaktorn � = �0 = ½. För att visa på koppling måste � vara signifikant mindre än ½. � finns i intervallet [0, ½]. Detta följer av att om det är långt mellan lokusen som ska undersökas är det lika stor sannolikhet att det skett en överkorsning som att det inte skett en överkorsning. Vilket ger att det största värdet för � är ½. Och då avståndet är mindre mellan lokusen minskar � p.g.a. att sannolikheten för att det ska ske en överkorsning minskar med avståndet. Det finns olika metoder för att beräkna signifikans. Om man från materialet kan beräkna antalet rekombinanta och antalet ickerekombinanta kan man kontrollera nollhypotesen genom att använda rekombinationsfrekvensen, som är en skattning av � (Sham P., 1998 sid 63). Rekombinationsfrekvensen, f, är andelen observerade rekombinanta individer, vilket ger att f = R/N. R är antalet rekombinanta och N är antalet individer. Ju mindre f blir ju mindre sannolikt är det att H0 är sann. Under ett visst värde på f, som beror på signifikansnivån, förkastas H0. En annan metod är Pearsons �2-test. Testet kan användas vid en undersökning med n oberoende försök, där varje försök kan utfalla på r olika sätt med resp. sannolikhet p1, p2,…, pr. En hypotes H0 kan sedan sättas upp för att undersöka sannolikheterna. Som teststorhet används (Blom G., 1998, sid 136):

T = � �

��

r

i i

ii

npnpx

1

2

Testet är enkelsidigt och har r-1 frihetsgrader, vilket ger att H0 förkastas om T > �2(r-1). Testet kan användas för att kontrollera andelen rekombinanta. I det fallet är r = 2, ,

och ½ eftersom � ½. Rx �1

RNx ��2 �� 21 pp �

Teststatistikan är:

T = � � � �2

22

2 22

NNRN

NNR ��

� = � �N

RN 22�

För R/N < ½ gäller signifikans enligt �2(1)-fördelningen. (Andelen rekombinanta bör aldrig överstiga ½. Om detta sker kan det vara något fel på antingen beräkningarna eller på materialet.) Pearsons �2-test använde vi för att kontrollera att andelen homozygota individer i vårt materiel stämde överens med det förväntade antalet homozygota. (se Kap 4.2.1 om zGenStat).

18

Page 20: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

5.3 Log-odds-ratio Ett annat sätt att testa signifikans vad gäller rekombinant och ickerekombinant är att använda ”likelihooden”. Med likelihooden kan man sedan definiera en LOD-funktion (log-odds-ratio), som används vid kopplingsanalys. Låt R (antalet rekombinanta) vara en stokastisk variabel. Rekombination sker med sannolikheten � och försöket upprepas N oberoende gånger vilket ger att R � Bin(N, �) . Likelihooden blir då:

� ��L = �� ���

RN

� � RNR �

��� 1

Detta ger ”log-likelihoodfunktionen”:

� ��Lln = +���

����

RN

ln � � � ��� ��� 1lnln RNR

För nollhypotesen gäller att � = �0 = ½, det ger

� �0ln �L = � �21L = ln +���

����

RN

� �2/1lnN

Och för ML-skattningen, då � = R/N ˆ

� ��̂ln L = +���

����

RN

ln � � ��

���

�����

���

NRRN

NRR 1lnln

Då � < ½ gäller att ˆ � � � �� �0lnˆln2 �� LL � är asymptotiskt �2-fördelad med 1 frihetsgrad (Sham P., 1998, sid 64). Likelihoodfunktionen kan sedan användas för att ta fram en LOD-funktionen, som är en loglikelihoodkvot. Av tradition används 10-logaritmen. Den definieras som:

� �xz = � �� ��

��

0

ˆlog

LL x = � � � �01010 logˆ �� LL x �log

där x motsvarar en viss position, lokus, på kromosomen. Det lokuset jämförs sedan med nollhypotesen då � = �0 = ½, d.v.s. ingen koppling. Då LOD-värden för flera familjer beräknas brukar man säga att det finns koppling mellan sjukdomslokuset och den undersökta positionen om z(x)>3 (Nyholt D.R., 2000). Detta är endast en tumregel för hur man ska tolka LOD-värden, det finns olika signifikansnivåer beroende på vad man analyserar. Här används andelen rekombinanta och ickerekombinanta för att ta fram ett LOD-värde, men man kan även beräkna det med hjälp av hur barnen i familjer delar alleler IBD. Om man har tillgång till syskon eller andra släktrelationer kan man använda sig av en bättre analysmetod. Då vi gjort våra beräkningar har vi använt hur syskonparen i familjen delar alleler IBD. (För att en allel ska delas IBD måste båda syskonen ha denna allel och den måste komma från samma förälder och även från samma kromosom hos den föräldern.)

19

Page 21: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

Alleldelningen för 0, 1 resp 2 alleler IBD är under nollhypotesen � � � � � �� �02

01

00 ,, PPP = ( .25, 0.5,

0.25). Låt x0, x1, x2 vara de observerade antalet syskonpar med respektive antal alleler IBD, då blir de skattade sannolikheterna för andelen delade alleler � � � nxPP 0210 ,ˆ,ˆ, � där n . Då beräknas LOD-värden på följande sätt: 210 xxx ���

�nxnxP 21 ,ˆ

� �� � � � � �� �

� �� �25.0,50.0,25.0

,,log

,,

ˆ,ˆ,ˆlog 210

02

01

00

210

LnxnxnxL

PPPLPPPL

LOD ��

Om vi t.ex. har ett datamaterial där antalet syskonpar är 100, x0= 10, x1=30 och x2=60, ger det att � � � 6.0,3.0,1.0ˆ,ˆ,ˆ

210 �PPP � . Enligt Haines J., Pericak-Vance M., 1998, sid 284 blir därför:

18,1225,05,025,06,03,01,0log 603010

603010

����

����

��LOD

LOD-värdet blir större för markörer nära sjukdomslokuset, d.v.s. där det finns koppling mellan sjukdomen och markören. Det blir så eftersom alla individer som undersöks är sjuka och om merparten individer har samma allel vid en viss markör är det troligt att sjukdomsgenen ligger nära markören. I vårt material har vi bara barnens genotyper. Detta medför att det exakta antalet alleler som delas IBD inte alltid kan beräknas, utan i stället måste skattas. LOD-funktionen går att använda även fast inte all information om föräldrarna finns. Från barnens genuppsättning kan man ta fram alla möjliga kombinationer av genuppsättningar som föräldrarna kan ha. Sedan beräknar man sannolikheten för rekombination hos barnen, beroende på föräldrarnas genotyp. Bayes sats kan användas för att beräkna sannolikheterna för föräldrarnas olika varianter av genotyper givet barnens genotyper. Bayes sats (Blom G., 1984, sid 36):

� � � �� �

� � � �

� � � ���

jjj

iiii ApABp

ApABpBp

BApBAp .

� BAP i � , som är sannolikheten för att föräldrarna ser ut på ett visst sätt givet barnens

genotyper, beräknas eftersom vi inte vet hur föräldrarna ser ut. � BAP i � beräknas med Bayes

sats, där � �jABP lätt beräknas eftersom barnen ärver, oberoende av varandra, en allel från

vardera föräldern och detta görs med samma sannolikhet för båda föräldrarna. skattas med hela populationens allelfrekvenser för alla möjliga .

� iAP �

iAEtt enkelt exempel för att illustrera:

20

Page 22: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

B a y e s S a ts

??

1 2 1 3

Figur 11: Ett exempel där vi vet vilka alleler barnen har vid en viss markör, men vi vet inte hur föräldrarna ser ut. Vi använder Bayes sats för att beräkna sannolikheten för att föräldrarnas alleler ser ut på ett visst sätt.

I Figur 11 har barn 1 allel 1 och 2 och barn 2 har allel 1 och 3. Antag att det bara finns tre möjliga alleler för det här lokuset och att allelfrekvenserna för dessa alleler är 0.3 för allel 1, 0.2 för allel 2 och 0.5 för allel 3. Det finns då två olika varianter på genuppsättninger som föräldrarna kan ha, antingen har den ena allel 1 på båda kromosomerna och den andra allel 2 och 3, eller så har den ena föräldern allele 1 och 2 och den andra har 1 och 3. Första fallet (m=1-1, p=2-3) betecknas här A1 och det andra fallet (m=1-2, p=1-3) A2 och B = (b1=1-2, b2=1-3). Det har ingen inverkan om vi byter plats på m och p, d.v.s. det spelar ingen roll vilken av föräldrarna som har vilka alleler bara det finns möjlighet att barnen kan ha de bestämda allelerna.

� � � � 018,05,02,012

3,03,032,111 ������

����

������� pmpAp

� � � � � � 41

2132,1131,21

2

211 ����������� pmbbpABp

� � � � 036,05,03,012

2,03,012

31,211 ������

����

������

����

����� pmpAp

� � � � � � 161

2131,2131,21

4

212 ����������� pmbbpABp � 1ABp � och � 2ABp � blir olika p.g.a. att då gäller vet vi inte vilken av mammans 1-alleler

som barnen har fått, det enda vi vet är att de har fått en 1-allel från mamman och en utav pappans alleler. Då i stället gäller vet vi att barn 1 måste ha fått 1-allelen av pappan och 2-allelen från mamman och att barn 2 har fått allel 1 från mamman och allel 3 från pappan.

1A

2A

Vi kan nu beräkna sannolikheten för att m=1-1 och p=2-3 betingat på hur barnen ser ut.

� �� � � �

� � � � 32

036,0161018,041018,04111

1 �

���

���

�i

ii ApABpApABp

BAp

Sannolikheten att föräldrarna ser ut på det här sättet givet barnens genotyper är alltså 2/3.

21

Page 23: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

Vi summerar sedan antalet alleler som delas IBD för de olika föräldramöjlgheterna, , och viktar med

iA� BAp i � vilket ger andelen alleler som delas IBD. Dessa andelar kan sedan

användas för att beräkna LOD-värdet för familjen. Med stora och många familjer kan det bli svårt att beräkna LOD-värdet för hand, därför använde vi ett program som heter Allegro.

22

Page 24: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

6 Allegro För utförandet av kopplingsanalysen har vi använt det genetiska statestikprogrammet Allegro. Programmet beräknade koppling för 285 markörer utspridda på kromosompar 1 till 22. Könskrosomerna har vi inte tagit med i analysen, eftersom dessa kromosomer kräver en speciell analys. Följande presentation är baserad på Gudbjartsson D., Jonasson K., Frigge M., Kong A. Allegro är ett program som är utvecklat för att klara av genetiska statistiska analyser, det är snabbt och kräver inte så mycket minne. Det är baserat på samma funktioner som GeneHunter (se http://linkage.rockefeller.edu/soft/gh/), men algoritmerna har förbättrats och metoderna är snabbare. Allegro kan beräkna LOD-värden, (log-odds-ratio), dels parametriska och dels LOD-värden baserade på hur allelerna delas IBD. För att kunna beräkna parametriska LOD-värden krävs att det finns en modell, d.v.s. att man har vetskap om hur fördelningen för testet ser ut. Det är inte alltid fallet och då kan man använda en ickeparametrisk metod. Vi har använt den ickeparametriska metoden, som är baserad på hur allelerna delas IBD. Programmet klarar av stora och många familjer och kan även använda många markörer. En arvsvektor, v, beräknas för att se hur generna ärvts från föräldrarna till barnen. Arvsvektorn, v, beräknas för varje markör. Vektorn har längd 2m, där m står för non-founders, i vårt fall barnen, och består endast av 0:or och 1:or. Varje individ har två alleler för varje markör, en från mamman och en från pappan. De första två siffrorna avser första individen, nästa två avser individ nummer två o.s.v.. Om pappans allel kommer från farfar står det 1 på första platsen, och om den kommer från farmor står det en 0:a, på andra platsen kan man läsa av från vilken av mammans föräldrar allelen kommer, d.v.s. det står 1 om allelen kommer från morfar och 0 om den kommer från mormor. Ett exempel:

Släktträd

cd ab gh ef

ac fh

ah ch

Barn 1 Barn 2

Figur 12: Släktträdet ger information om vilka alleler de tre generationerna har och hur de har ärvt. (Fyrkanter är män och cirklarna är kvinnor.)

I släktträdet ovan (Figur 12) finns fullständig information om genotyperna för mor-far-föräldrar, föräldrar och barn. I det här fallet blir arvsvektorn för barnen:

23

Page 25: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

v = (0, 1, 1, 1 ) De två första positionerna i v står för det vänstra barnet och de två sista för det högra barnet. Första siffran är 0 eftersom allel a kommer från farmor. Andra siffran är 1 eftersom den allelen kommer från morfar. För det andra barnet kommer c från farfar (ger 1) och h från morfar (ger 1). Antalet alleler som syskonen delar IBD kan lätt beräknas med hjälp av v, om syskonen har samma siffra på samma position (första eller andra) delar de den allelen IBD. I Figur 12 delar barnen 1 allel IBD. Det finns olika sätt i Allegro att dela upp syskonen i grupper för att beräkna IBD. En variant som vi har använt är att dela upp dem i par, vi tar med alla syskonpar där båda syskonen är sjuka. Då det finns tre eller fler syskon som är sjuka kommer varje syskon att vara med i flera syskonparkombinationer. För senare analys måste man ha en ”scoringfunktion”, för paruppdelningen gäller:

pairS = � ��qp

pq vS,

Vi summerar över alla par (p,q) med sjuka syskon i en viss familj. är antalet alleler som delas IBD av syskon p och q. S

pqSpair ger då antalet alleler som alla de olika

syskonparkombinationer i familjen delar IBD. I exemplet ovan delar syskonparet 1 allel IBD, d.v.s. allelen som betecknats med ett h. Spair beräknas för varje vektor v. En individ får antingen sin mormors eller sin morfars allel från mamman med 50 % chans vardera. De olika syskon ärver alleler oberoende av varandra. Chansen att två syskon fått sin mammas allel från samma morförälder är således 0,5. Exakt samma resonemang gäller för pappans gen. Detta gör att � �5,0,2 ���� pnBinIBDpqS . Om antalet IBD-delade alleler blir större än det förväntade kan man misstänka att det finns en koppling med sjukdomen vid den markören, eftersom alla är sjuka. d.v.s. om många individer har samma allel vid en viss markör och dessa individer också är sjuka är det troligt att en sjukdomsallel ligger nära markören. På så sätt kan man koppla en sjukdom till en plats på genomet. Det finns många olika typer av kopplingsanalyser. Vi har använt enpunkts- och flerpunktsanalyser. Vid enpunktsanalyser analyseras endast en markör åt gången, men det är egentligen en tvåpunktsanalys eftersom man då analyserar både markören och sjukdomslokuset. Flerpunktsanalysen tar även med de markörerna som ligger runt den aktuella markören i beräkningarna. För flerpunktsanalysen definieras NPL (non-parametric linkage):

NPL = �

ii

iii Z

Där = iZi

iiS�

��

och iZ = � � � �iv

ki vZgvpi

� ,

24

Page 26: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

i summerar över alla familjer och för familj i. pairi SS � i� är väntevärdet för och �iS i är

standardavvikelsen. iZ är det förväntade värdet av och är den standardiserade formen

av . (Med standardiserad form menas att har väntevärde 0 och standardavvikelse 1.) iZ iZ

iS iZ iZ

1

summeras över alla vektorer vi. är en vikt som kan beräknas med avseende på antalet sjuka syskon för varje familj. Vi har dock valt att vikta alla familjer lika, d.v.s. vi har satt � för alla familjer.

i�

�i

Eftersom antalet alleler varje syskonpar delar IBD, Spq, är likafördelade � �5,0,2 �� pnBin under nollhypotesen och parvis oberoende (hur många IBD ett syskonpar delar är oberoende av hur många ett annat syskonpar av de sjuka syskonen delar, även om de har en gemensam individ) gäller:

i� = � �pairSE = = ���

����

��

qpqpSE

,, � ��

qpqpSE

,, = antalet syskonpar*n*p = antalet syskonpar

2i� = � �pairSVar = Var = �

��

����

��

qpqpS

,, � ��

qpqpSVar

,, = antalet syskonpar*n*p*(1-p)

= antalet syskonpar / 2 I exemplet i Figur 12 finns det två syskon som är sjuka i familjen, d.v.s. ett syskonpar. Vilket ger att =1 och � 21�� För att beräkna iZ behövs � kgvp � som är sannolikheten för en viss arvsvektor v för en familj

givet en viss genotyp gk vid lokus k. � kgvp � kan beräknas med hjälp av Bayes sats enligt:

� �� � � �

� �� �vgp

gpvpvgp

gvp kk

kk ��

Detta gäller eftersom � � nvp 221

� för alla v, där n är antalet syskon.

� vgp k � kan beräknas med hjälp av allelfrekvenserna enligt:

� � ���

f

iak i

vgp2

1

där f avser founder (föräldrarna) och ai står för allel nummer i och � är allelfrekvensen för de olika allelerna. Summationen går över alla möjliga alleluppsättnigar som föräldrarna kan ha. Sannolikheten för att föräldrarna och barnen har just de allelerna vid detta lokus som visas i Figur 12 givet arvsvektorn v kan således beräknas enligt:

� � hfca

f

iak i

vgp ����� �����

2

1

.

Denna beräkning blev enkel eftersom vi vet vilka alleler föräldrarna har. Om vi inte vetat detta hade det blivit flera termer att summera ihop.

25

Page 27: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

Om IBD informationen är komplett, d.v.s. man har all information om hur syskonen delar allelerna IBD, är Z = Z och NPL är under nollhypotesen approximativt normalfördelat med väntevärde 0 och varians 1. Men då man inte vet allt om IBD delningen blir variansen mindre än 1 (Gudbjartsson D., Jonasson K., Frigge M., Kong A.). Genom att införa linjära- och exponentiella sannolikhetsmodeller för arvsvektorn v kan man lösa problemet med att man inte säkert vet variansen. Modellerna ger snarlika NPL värden. Den linjära modellen ser ut på följande sätt:

� ��ivp = � �� �

���

��� ��

i

iiiii

vSc

���1

Och den exponentiella modellen beräknas enligt:

� ��ivp = � �� �� �

���

��� �

i

iiiiii

vSrc

���� exp

där ri(�) är en normaliseringskonstant som ser till att � )( �ivp =1. Och ci är är sannolikheten

för arvsvektorn vi under nollhypotesen som är in22

1 , där är antalet syskon i familj i. Detta

följer av att under nollhypotesen har alla v-vektorer samma sannolikhet och det finns olika vektorer. � är en faktor som visar den genetiska effekten, den är 0 under

nollhypotesen. Den visar hur alleldelningen ser ut. Positivt värde på �, som betyder att fler alleler delas IBD än förväntat, gör att v-vektorer med många IBD får stor sannolikhet. Negativt värde, som i sin tur betyder att det är färre IBD än förväntat, gör i stället att vektorer med många IBD får liten sannolikhet.

in

in22

I våra beräkningar har vi valt att använda den linjära modellen. Allegro beräknar LOD-värden enligt:

LOD = � �

� �0

ˆlog10

��

gp

gp =

� �� ��

�i i

i

gp

gp

0

ˆlog10

� � � �� � � ��

��

i

i

v iii

v iii

i vpgvp

vpgvp

0

ˆlog10

� � � �� �� ��

���

i

i

v iii

v iii

i cgvp

vpgvp �̂

log10

= � � � �� �� �

i i iviii c

vpgvpi

1logˆlog 1010 �

Med den linjära modellen kan LOD-funktionen skrivas:

26

Page 28: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

LOD = � �� �

iii Z��̂1log10

�̂ är det � som maximerar � �gp � som definieras av: � ��gp = � � � ��

ivvpvgp �

När maximeras måste � � � 0��vp vara satisfierat för samtliga familjer och samtliga v

eftersom alla arvsvektorer måste vara möjliga. Detta kan ibland begränsa skattningen � som annars skulle kunna bli .

ˆ��

LOD-värdet för givet lokus är �2-fördelade med en frihetsgrad. För att bestämma signifikans har vi använt följande gränser: Nominell koppling ( p<0.05) LOD>=0.5875 Suggestive koppling (p<0.00074) LOD>=2.2 Signifikant koppling (p<0.000022) LOD>=3.6 p-värdena ovan har valts enligt Lander E och Kruglyak L, 1995, där hänsyn har tagits till att många test på genomet utförs simultant. En motivering för hur LOD-värdena erhållits följer nedan. Eftersom testet endast är signifikant då 0 < � < 0,5 har det endast en svans, så under nollhypotesen gäller att 2 är LOD*10ln � �12

� -fördelad med sannolikheten ½ och 0 med sannolikheten ½ (Nyholt D.R., 2000). LOD-värdet för respektive p-värde beräknas med

� � � �LODP 21*21 2

�� �� �LOD*10ln .

Då p-värdet är 0,00074 blir � �� � 00148,000074,0*212��� xP � och det i sin tur ger att

� �� � 99852,0 2�00148,0112

���� xP � . Från -fördelningen fås att x = 10,10333 och LOD-värdet kan sedan beräknas:

2,219399,210ln2

10333,10���LOD

Det är viktigt att kontrollera tecknet på �. Om den är negativ betyder det att det är mindre alleldelning än förväntat, men det kan ge höga värden på LOD utan att det tyder på koppling.

6.1 Ett exempel För att göra beräkningarna enkla använder vi endast en familj. I familjen finns det fyra syskon och tre av syskonen är sjuka (har diabetes). Barnens genuppsättning ser för en viss markör ut på följande sätt (Barnen markerade med grått är sjuka):

27

Page 29: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

1, 2 1, 3 1, 3 1, 2

? ?

Figur 13: Ett exempel där vi endast vet vilka alleler barnen har. Tre av de fyra syskonen har diabetes. Barnen markerade med grått är sjuka.

Allelfrekvenserna i hela populationen för allel 1, allel 2 resp allel 3 antas vara �1 = 0,1, �2 = 0,2 och �3 = 0,3 och 0,4 för övriga alleler. För att barnen ska kunna se ut på det här sättet kan vi anta att föräldrarna har följande alleler vid markören:

1, 2 1, 3 1, 3 1, 2

1, x 2, 3

1 2x 3

Figur 14: För att barnen ska kunna ha de alleler de har kan vi anta att föräldrarna och mor- och farföräldrarna ser ut som i figuren. x symboliserar att mormor kan ha vilken allel som helst.

De olika genptyperna för barnen är 1-2 och 1-3, detta medför att ena föräldern måste ha en etta och den andra måste ha allel 2 och 3. Vi kan då, utan inskränkning, anta att 1:an kommer från farfar och 2:an från morfar och 3:an från mormor (se Figur 14). Farmor kan då ha en godtycklig allel vi lokuset. Detta ger att det finns två sätt på vilket föräldrarna kan se ut. Antingen har farmor en 1-allel eller så har hon inte 1-allelen (d.v.s. vilken som helst av de andra allelerna). Eftersom det är tre av syskonen som är sjuka i familjen kommer arvsvektorn att innehålla sex element. De två första siffrorna avser första barnet, där första siffran är 1 om allelen kommer från farfar och 0 om den kommer från farmor, andra siffran talar om varifrån den andra allel kommer, från morfar eller mormor. Nästa två siffror talar om vilka alleler som det andra barnet har ärvt. Och de två sista siffrorna avser det sista barnet. Om farmor har 1-allelen finns det åtta möjliga arvsvektorer.

28

Page 30: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

� �

� �

� �

� �11,00,1101,00,1101,10,1111,10,11

4

3

2

1

vvvv

� �

� �

� �

� �11,00,0101,00,0101,10,0111,10,01

8

7

6

5

vvvv

Då v är givet är g helt bestämt så när som på föräldrarna och deras genuppsättning. � �vgp kan då beräknas med populationsallelfrekvenserna. För det här alternativet är � � 32

21 ���� ���

iavgp . Och om farmor har en annan allel än allel 1 finns endast 1 möjlig v-vektor:

� �11,10,119 �v Och det ger � � � � 3211 1 ����� ����

iavgp Genom att titta på arvsvektorerna kan iv � �ipair vS bestämmas. Om vi t.ex. tittar på arvsvektorn ser vi att syskon 1 och syskon 2 delar 1 allel IBD. Detta kan utläsas av att båda syskonen har en 1:a på första platsen som betyder att båda har ärvt den allelen från farfar, syskon 1 har sedan en 1:a för den andra allelen och syskon 2 har en 0:a, det betyder att de inte delar den allelen IBD. På samma sätt kan man avläsa att syskon 1 och syskon 3 delar 2 alleler IBD och att syskon 2 och syskon 3 delar 1 allel IBD. Vilket ger att

1v

� � 41 �vS pair . Vi kan sedan utföra liknande beräkningar för samtliga v och får då att:

� �

� �

� �

� �

� �

� �

� �

� �

� � 4

242

222

24

9

8

7

6

5

4

3

2

1

vS

vSvSvS

vSvSvS

vSvS

pair

pair

pair

pair

pair

pair

pair

pair

pair

Sedan beräknar vi väntevärde och varians för Spair:

233*5,0*5,0*2_***

33*5,0*2_**

���

���

syskonparantaletqpn

syskonparantalpn

29

Page 31: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

Fortsättningsvis beräknar vi � genom att maximera ˆ � ��gp = � � � ��v

vpvgp � .

Vi har valt att använda den linjära modellen, som säger att � ��vp = � �� �

���

��� ��

��� vSc pair1 ,

där 1�� eftersom det endast är en familj och 641

21

21

62 ��� nc eftersom det finns tre sjuka

syskon i familjen. Detta ger att:

� ��gp = � � � ��v

vpvgp � = � � � � � � � ��

��

��

� ���

���

���

��

23321

23321

23321

23341

6432

21 �������

� � � � � � � �

���

��

� ���

���

���

��

23321

23341

23321

23321

6432

21 ������� � �

��

��

� ��

2334

641 3211 ����

� � � � � �

23641

641

23644

648 3211321132

2132

21 ���������������� �

���

För att finna � som maximerar ˆ � �gp � räcker att maximera termer som innehåller � , d.v.s. ˆ

� �� �321122

1 14 �������� ��

003,0*3 � . Vi sätter sedan in allelfrekvenserna i uttrycket och får då

� . Vilket ger att � �gp � maximeras av stora � .

Dock måste � � 0ˆ ��vp för alla v, detta ger en övre begränsning på � . Kravet att ˆ � � 0ˆ ��vp är

uppfyllt för alla v då det är uppfyllt för det minsta � �vS pair . I det här exemplet är det minsta � � 2�vS pair

� � � � 023

ˆ1

2332ˆ

1ˆ ����

����

�vp

vilket ger att 23�� , och eftersom det ska vara en övre begränsning gäller att 2

3ˆ �� .

Lod-värdet beräknas sedan med den linjära modellen, LOD = � �Z��̂1log10 �

� � � ���

9

1iii vZgvpZ , där � �

� �

��

ipairi

vSvZ

Och � �� �� ��

ii

jj vgp

vgpgvp

För alternativet då farmor har 1-allelen blir, då i 8,...,1�

� �� �

0588,00102.00006,0

18 3211322

1

322

1��

��

�������

���

gvp i

Och då hon har en annan allel gäller, då i : 9�

30

Page 32: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

� � � �

� �5294,0

0102,00054,0

181

3211322

1

211��

��

�������

����

gvp i

Detta ger:

� � � � � � � � � � � � � � � ���

��

� ��

��

��

� ��

��

��

��

��

��

��

23345294,0

2332

2334

2332

2332

2332

2332

2332

23340588,0Z

625,0�

Nu kan vi beräkna LOD-värdet:

� � 247,0625,0*231log10 ���LOD Eftersom LOD-värdet är större än noll tyder det på att det finns viss koppling till mellan sjukdomslokuset och den aktuella markören. Givetvis kan man inte dra några säkra slutsatser då beräkningarna endast sker med en familj. I examensarbetet har vi gjort på motsvarande sätt, men med många familjer. I dessa fall blir skattningen � verkligen det värde som maximerar likelihooden och randvilkoret att

ˆ

� � 0��vp gäller då för detta � . ˆ

31

Page 33: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

7 Resultat En sammanställning av LOD-värden från Allegro gjorde vi i form av diagram (se Bilaga 1 - Diagram). För att lättare kunna titta på resultaten har vi delat upp de sex fenotyperna i två grupper med tre i varje grupp. På varje diagram finns alltså tre fenotyper. Ena gruppen är: AER–Njurens albuminfiltrering HT – högt blodtryck, hTG – höga triglyseridvärden och den andra är: lHDL-låga värden av det goda kolesterolet NIDDM-diabetes UR-urinsyra. För varje fenotyp har vi gjort både enpunktsanalyser och flerpunktsanalyser. De prickade kurvorna visar enpunktsanlyserna, varje punkt är en markör, och de heldragna linjerna är flerpunktsanalyser. LOD-värdesskalan finns på y-axeln och x-axeln visar kromosomens längd mätt i cM (centi Morgan). Vi har valt att redovisa LOD-värden beräknade med den linjära modellen och med lika vikter för alla familjer. För att begränsa antalet diagram har vi endast med de fenotyper och kromosomer som har uppvisat viss koppling. Det är intressant att titta på de markörer där både enpunkts och flerpunktsanalysen visar på koppling. Oftast ger enpunktsanalysen ett högre värde. Om LOD-värdet är högt i en punkt i enpunktsanalysen och noll i de runt om bör man undersöka detta värde, det kan vara så att den genetiska faktorn, �, är negativ. Då är antalet alleler delade IBD mindre än förväntat och då gäller inte koppling. För fenotypen hTG (se Bilaga 1, Diagram 6) har vi funnit det högsta LOD-värdet nämligen 2.1343, d.v.s. nästan suggestiv koppling, som är resultatet från enpunktsanalysen. Man kan också se att flerpunktsanalysen ger nästan lika högt värde. Detta tillsammans med att markörerna i närheten visar höga LOD-värden styrker resultatet om koppling mellan markören och höga triglyseridvärden. I diagrammet kan man även se att kromosom 5 har en längd på 181 cM och att den aktuella markören ligger på 125.03 cM. I Tabell 2 nedan finns en sammanställning av vilka fenotyper vi funnit koppling för. I diagrammen (se Bilaga 1 - Diagram) kan man även se var på kromosomen markörerna finns. Fenotyp Kromosom Markör LOD �̂ AER 4 D4S1644 1,4082 0,7071 D4S1625 0,8925 0,7071 8 GATA12B06 1,1411 0,6984 10 D10S123 1,1677 0,7071 13 GGAA29H03 1,7464 0,7071 D13S325 1,4919 0,7071 16 D16S403 1,0322 0,2906 HT 10 D10S1239 1,1136 0,4469

32

Page 34: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

18 D18S843 1,0402 0,4606 22 D22S683 1,9478 0,6573 hTG 5 D5S816 2,1343 0,7071 D5S820 1,1360 0,7071 7 D7S1818 1,1832 0,7071 GATA73D10 1,0169 0,7071 8 D8S373 1,8410 0,7071 lHDL 2 D2S1356 0,75 0,7071 3 D3S3050 0,7850 0,7071 D3S1744 0,6829 0,7071 D3S2398 1,0612 0,7071 11 D11S236 0,9227 0,7071 NIDDM 1 D1S1660 1,4429 0,2863 4 D4S2366 0,7827 0,2256 D4S2368 0,8078 0,2233 7 D7S1818 0,9960 0,3536 D7S2212 0,8686 0,2691 9 D9S925 1,0060 0,1956 17 D17S1293 1,0436 0,2565 19 D19S589 1,1331 0,2294 22 D22S445 1,7995 0,2947

Tabell 2: Sammanställning av LOD-värden för de fem fenotyperna som visade signifikans. Fenotypen UR visade inga signifikanta värden och finns då inte med i tabellen.

2.1343, som var det högsta LOD-värdet vi fann, ger endast nominiell koppling. Men det var förväntat att vi inte skulle finna så stark koppling till någon av markörerna. Denna förutsats grundades på det har gjorts flera undersökningar, som har visat liknande resultat. För vissa kromosomer kan man dock se nominiell eller suggestiv koppling i flera skilda studier, några exempel är kromosom 1, kromosom 12 och kromosom 20. Detta indikerar att dessa områden av DNA kan vara relaterade till typ 2 diabetes (Lindgren C.M., Hirschhorn J.N, 2001). Det har alltså visat sig vara svårt att genom kopplingsanalys se säker koppling mellan typ 2 diabetes och ett visst lokus.

33

Page 35: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

Bilaga 1 - Diagram

Chr1

0

0,5

1

1,5

2

2,5

0 50 100 150 200 250 300

cM

LOD

lHDL Enpunkt

lHDL Flerpunkt

NIDDM Enpunkt

NIDDM Flerpunkt

UR Enpunkt

UR Flerpunkt

Diagram 1: Kromosom 1, resultaten för fenotyperna lHDL, NIDDM och UR Diagram 1: Kromosom 1, resultaten för fenotyperna lHDL, NIDDM och UR.

Chr2

0

0,5

1

1,5

2

2,5

0 50 100 150 200 250 300

cM

LOD

lHDL Enpunkt

lHDL Flerpunkt

NIDDM Enpunkt

NIDDM Flerpunkt

UR Flerpunkt

UR Enpunkt

Diagram 2: Kromosom 2, resultaten för fenotyperna lHDL, NIDDM och UR.

34

Page 36: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

Chr3

0

0,5

1

1,5

2

2,5

0 50 100 150 200 250

cM

LOD

lHDL Flerpunkt

lHDL Enpunkt

NIDDM Flerpunkt

NIDDM Enpunkt

UR Flerpunkt

UR Enpunkt

Diagram 3: Kromosom 3, resultat från fenotyperna lHDL, NIDDM och UR.

Chr4

0

0,5

1

1,5

2

2,5

0 50 100 150 200

cM

LOD

AER Enpunkt

AER Flerpunkt

HT Enpunkt

HT Flerpunkt

hTG Flerpunkt

hTG Enpunkt

Diagram 4: Kromosom 4, resultat från fenotyperna AER, HT och hTG.

35

Page 37: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

Chr4

0

0,5

1

1,5

2

2,5

0 50 100 150 200

cM

LOD

lHDL Enpunkt

lHDL Flerpunkt

NIDDM Enpunkt

NIDDM Flerpunkt

UR Enpunkt

UR Flerpunkt

Diagram 5: Kromosom 4, resultaten från fenotyperna lHDL, NIDDM och UR.

Chr5

0

0,5

1

1,5

2

2,5

0 50 100 150 200

cM

LOD

AER Enpunkt

AER Flerpunkt

HT Enpunkt

HT Flerpunkt

hTG Enpunkt

hTG Flerpunkt

Diagram 6: Kromosom 5, resultat från fenotyperna AER, HT och hTG.

36

Page 38: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

Chr7

0

0,5

1

1,5

2

2,5

0 50 100 150 200

cM

LOD

AER Enpunkt

AER Flerpunkt

HT Enpunkt

HT Flerpunkt

hTG Enpunkt

hTG Flerpunkt

Diagram 7: Kromosom 7, resultat från fenotyperna AER, HT och hTG.

Chr7

0

0,5

1

1,5

2

2,5

0 50 100 150 200

cM

LOD

lHDL Enpunkt

lHDL Flerpunkt

NIDDM Enpunkt

NIDDM Flerpunkt

UR Enpunkt

UR Flerpunkt

Diagram 8: Kromosom 7, resultat från fenotyperna lHDL, NIDDM och UR.

37

Page 39: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

Chr8

0

0,5

1

1,5

2

2,5

0 20 40 60 80 100 120 140 160 180

cM

LOD

AER Enpunkt

AER Flerpunkt

HT Enpunkt

HT Flerpunkt

hTG Enpunkt

hTG Flerpunkt

Diagram 9: Kromosom 8, resultat från fenotyperna AER, HT och hTG.

Chr9

0

0,5

1

1,5

2

2,5

0 20 40 60 80 100 120 140

cM

LOD

lHDL Enpunkt

lHDL Flerpunkt

NIDDM Enpunkt

NIDDM Flerpunkt

UR Enpunkt

UR Flerpunkt

Diagram 10: Kromosom 9, resultat från fenotyperna lHDL, NIDDM och UR.

38

Page 40: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

Chr10

0

0,5

1

1,5

2

2,5

0 50 100 150 200

cM

LOD

AER Enpunkt

AER Flerpunkt

HT Enpunkt

HT Flerpunkt

hTG Enpunkt

hTG Flerpunkt

Chr10

0

0,5

1

1,5

2

2,5

0 50 100 150 200

cM

LOD

AER Enpunkt

AER Flerpunkt

HT Enpunkt

HT Flerpunkt

hTG Enpunkt

hTG Flerpunkt

Diagram 11: Kromosom 10, resultat för fenotyperna AER, HT och hTG.

Chr11

0

0,5

1

1,5

2

2,5

0 20 40 60 80 100 120 140

cM

LOD

lHDL Enpunkt

lHDL Flerpunkt

NIDDM Enpunkt

NIDDM Flerpunkt

UR Enpunkt

UR Flerpunkt

Diagram 12: Kromosom 11, resultaten för fenotyperna lHDL, NIDDM och UR.

39

Page 41: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

Chr13

0

0,5

1

1,5

2

2,5

0 20 40 60 80 100 120

cM

LOD

AER Enpunkt

AER Flerpunkt

HT Enpunkt

HT Flerpunkt

htG Enpunkt

hTG Flerpunkt

Diagram 13: Kromosom 13, resultat från fenotyperna AER, HT och hTG.

Chr16

0

0,5

1

1,5

2

2,5

0 20 40 60 80 100 120

cM

LOD

AER Enpunkt

AER Flerpunkt

HT Enpunkt

HT Flerpunkt

hTG Enpunkt

hTG Flerpunkt

Diagram 14: Kromosom16, resultat från fenotyperna AER, HT och hTG.

40

Page 42: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

Chr17

0

0,5

1

1,5

2

2,5

0 20 40 60 80 100 120

cM

LOD

lHDL Enpunkt

lHDL Flerpunkt

NIDDM Enpunkt

NIDDM Flerpunkt

UR Enpunkt

UR Flerpunkt

Diagram 15: Kromosom 17, resultat från fenotyperna lHDL, NIDDM och UR.

Chr18

0

0,5

1

1,5

2

2,5

0 20 40 60 80 100

cM

LOD

AER Enpunkt

AER Flerpunkt

HT Enpunkt

HT Flerpunkt

hTG Enpunkt

hTG Flerpunkt

Diagram 16: Kromosom 18, resultat från fenotyperna AER, HT och hTG.

41

Page 43: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

Chr19

0

0,5

1

1,5

2

2,5

0 20 40 60 80 100

cM

LOD

lHDL Enpunkt

lHDL Flerpunkt

NIDDM Enpunkt

NIDDM Flerpunkt

UR Enpunkt

UR Flerpunkt

Diagram 17: Kromosom 19, resultaten från fenotyperna lHDL, NIDDM och UR.

Chr22

0

0,5

1

1,5

2

2,5

0 5 10 15 20 25 30 35

cM

LOD

AER Enpunkt

AER Flerpunkt

HT Enpunkt

HT Flerpunkt

hTG Enpunkt

hTG Flerpunkt

Diagram 18: Kromosom 22, resultaten från fenotyperna AER, HT och hTG.

42

Page 44: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

Chr22

0

0,5

1

1,5

2

2,5

0 5 10 15 20 25 30 35

cM

LOD

lHDL Enpunkt

lHDL Flerpunkt

NIDDM Enpunkt

NIDDM Flerpunkt

UR Enpunkt

UR Flerpunkt

Diagram 19: Kromosom 22, resultat från fenotyperna lHDL, NIDDM och UR.

43

Page 45: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

Bilaga 2 – Linkageformat Linkageformatet ger tre filer. En pedigreefil som ger information om familjestrukturen och hur individernas genuppsättning ser ut. En datafil där det finns data om hur kromosomerna ser ut, t.ex. avstånd mellan markörerna och allelefrekvenser. Slutligen får man en mappningsfil som byter identitesnummer för varje individ mot ett nytt enklare nummer. Vid våra beräkningar har vi endast använt pedigreefilerna och datafilerna. Nedan kommer en kort sammanfattning av hur filerna ser ut och vad de har för funktion. Ped-filen: Kolumn 1: familjenr Kolumn 2: idnr Kolumn 3: pappa Kolumn 4: mamma Kolumn 5: kön Kolumn 6: om individen är sjuk eller inte (0 betyder att det inte finns information, 1 står för

frisk och 2 för sjuk.) Kolumn 7 och vidare ger vilken allel som finns vid markören. Allelerna ska numreras med heltal. Alla individer måste ha två alleler, en från varje kromosom.

Kolumn 1 Kolumn 2 Kolumn 3 Kolumn 4 Kolumn 5 Kolumn 6 Kolumn 7 Kolumn 8 1 1 0 0 1 0 2 8 2 2 6 5 2 2 7 8 2 3 6 5 1 1 2 4 2 4 6 5 2 1 4 7 2 5 0 0 2 0 0 0 2 6 0 0 1 0 0 0 2 7 6 5 2 2 4 7 3 8 11 10 2 2 2 2 3 9 11 10 1 1 2 8 3 10 0 0 2 0 0 0 3 11 0 0 1 0 0 0

Tabell 3: Utskrift av en pedigreefil. Datafilen: Rad 1: första siffran är hur många lokus det finns, den första är sjukdomslokuset så det ska vara ett mer än antal markörer. Den andra nollan talar om om sjukdomslokuset är könsberoende, 0 betyder att det inte är det. Rad 2: 0 0.0 0.0 0 << mutsys, mut male, mut female, disequilibrium Rad 3: 1 2 3 4 5 6 7 8 9 10 11 … Allelerna i ordning. Rad 4: 1 2 Är alltid 1 2, räknar alltid med att sjukdomslukuset har två alleler. Rad 5: 0.99 0.01 Sjukdomslokusets allelefrekvens Rad 6: 1 Trovärdighetsklass Rad 7: 0 0 1.00 Genomslagskraften Rad 8: 3 11 # D1S468 första markören och antal alleler Rad 9: 0 0.02597 0 0 0.00649 0 0.18182 0.03247 0.00649 0.51299 0.23377 allelfrekvens

44

Page 46: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

19 0 0 5 << no loci, risk locus, sexlinked (if 1), program code (5=MLINK) 0 0.0 0.0 0 << mutsys, mut male, mut female, disequilibrium 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 1 2 << affection, no of alleles 0.99 0.01 << gene freq, disease 1 << no of liability classes 0 0 1.00 << penetrance 3 14 # D1S1612 0.03118 0.3828 0.10108 0.03226 0.05806 0.05591 0.0828 0.11828 0.09355 0.03763 0.00323 0.00323 0 0 (Fler markörer…) 0 0 << sex difference, interfernce (if 1 or 2)

10 13.71 26.81000 15.85000 3.07 13.83 12.53000 11.67000 38.19 9.17000 14.57 36.82 6.02000 7.7 7.22 6.28000 5.39000 29.48 << recomb values

1 0.1 0.45 Tabell 4: Utskrift av en datafil.

Mappningsfil: Byter identitetsnumret mot ett nytt nummer: Individual mappings: ==================== Identity Number -------- ------ SA000-1 1 SA010-41 2 SA010-42 3 SA010-44 4 SA010-9002 5 SA010-9001 6 SA010-43 7 SA101-447 8 SA101-448 9

Tabell 5: Utskrift av en mappningsfil.

45

Page 47: Statistisk analys av en genetisk studie av typ 2 diabetes310163/FULLTEXT01.pdfstarkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att

Referenser Blom G. (1984) Sannolikhetsteori med tillämpningar, Studentlitteratur, Lund. Blom G., Hollmqvist B (1998): Statistikteori med tillämpningar. Studentlitteratur, Lund. Campbell R. M, (1999) Biology, Benjamin/Cummings. Dudewicz E., Mishra S., (1988) Modern Matematical Statistics, Wiley. Gelder E., Wagner M., (1998) A Test Statistic to Detect Errors in Sib-Pair Relationships, American Journal Human Genetics 62:181-188. Gonick L., Wheelis M., (1996) Genetik i bild och bubblor, Institutionen för tillämpad miljövetenskap Göteborgs Universitet. Gudbjartssom D., Jonasson K., Frigge M., Kong A., Fast multipoint linkage analysis and the program Allegro. Gudbjartsson D., Jonasson K., (1999) Allegro Version 1.0 Manual, Reykavik. Haines J., Pericak-Vance M., (1998) Approaches to Gen Mapping in Complex Human Diseases, Wiley-Liss. Kryglyak L., Lander E., (1995) Complete Multipoint Sib-Pair Analysis of Qualitative and Quantitativa Traits, American Journal Human Genetics 57:439-454. Kryglyak L., Lander E, (1995) Genetic dissection of complex traits: guidelines for interpreting and reporting linkage results, Nature Genetics 11:241-247. Lindgren C.M., Hirschhorn J.N., (2001) The genetics of type 2 diabetes, The Endocrinologist 11:178-187. Nyholt D. R., (2000) All LODs are not created equaly, American Journal Human Genetics, 67:282-288. Sham P., (1998) Statistics in human genetics, Arnold Applications of Statistics.

46