Lezione 11-12 Martedì 23-XI-2010 ore 14:00-15:00 aula 6a Genomica corso di laurea a.a. 2010-2011 biotecnologie industriali

Lezione 11-12 Martedì 23-XI-2010 ore 14:00-15:00

aula 6a

Genomicacorso di laurea

a.a. 2010-2011 biotecnologie industriali

i polimorfismi in tutte le specie

interesse per la biodiversità

coltivazioni ed allevamenti riducono i polimorfismi per effetto della selezione delle specie e varietà più convenienti ed utili per la produzione

studio dei polimorfismi come marcatori neutrali per l’analisi di popolazioni

ribaltamento fenotipo / genotipo / fenotipo

studio dei polimorfismi associati ai fenotipi nella genomica

parliamo di wgs nella specie umana

WGS wide genome screening perchè ci sono i polimorfismi e perchè si conosce l’intero genoma

gli studi sulla specie umana derivano dal fatto che sono utili sia a livello di conoscenze di base di biologia che per l’applicazione alla patologia

negli organismi modello di laboratorio si fanno altri tipi di esperimento che sull’umano non si può come nei topi transgenici ecc.

analisi del genoma tramite wgs (wide genome screening)

cosa significa e come si fa

devono essere noti i marcatori SNPs o VNTR con una densità nota,

distribuzione omogenea ed alta densità (≠ risoluzione)

ultimi metodi a densità media di un marcatore / 500bp

più marcatori più risoluzione necessità di nuove tecniche

J.N.Hirschhorn & M.J.DalyNature Reviews Genetics vol.6; Febr.2005Genome-wide association studies for common diseases and complex traits

analisi genomiche

approccio globale sull’intero genoma

sull’uomo: analisi di associazione con fenotipi

vari approcci mappare geni o loci: per malattie genetiche e tratti quantitativi

tramite: la strategia di studio dei geni candidati e genome wide studies

in entrambe i casi si usa “linkage mapping”o genome wide association studies

quando si usa un metodo e quali vantaggi hanno

con quali obbiettivi

analisi della variabilità genetica di popolazione

linkage disequilibrium LD associazione con marcatori e triadi o famiglie (iniziata per malattie Mendeliane)

analisi di associazione dei fenotipi e patologie confronto casi controlli

brevetti sui genomi?

si possono brevettare solo strutture artificiali,caso mai un test, ma non sequenze o organismi

si può discutere sul micoplasma sintetico

non sulle varianti alleliche naturali

si è dovuti arrivare a definire patrimonio dell’umanità, ciò che ovviamente è di tutti

beni inalienabili: aria e acqua, chi li inquina dovrebbe ripulirli

i limiti degli studi di linkagegrande utilità per studi di malattie monogeniche Mendeliane

uso di markers che segregano nelle famiglie col gene della malattia

per definizione malattie monogeniche hanno alta penetranza

i marcatori della malattia cosegregano entro 10-20 Cm (ci sono poche varianti polimorfiche a causa della selezione negativa)

è stato applicato anche per malattie non monogeniche con regioni con forte linkage per varianti che aumentano la suscettibilità alla malattia: infiammaz.intest, Diabete 1, schizofr. successi parziali che spiegano solo parte (non arrivano oltre a tre volte il rischio) essendo multifattoriali con 30x di rischio

due diverse metodologiewide genome scr. association: analisi frequenze caso controllo

analisi di lnkage disequilibrium: famiglie grandi, triadi, popolazioni inbred, popolazioni omogenee

per definizione sappiamo che c’è linkage

tre marcatori con 6 alleli: A a B b C caplotipi con freq uguali, se in disequilibrio aumenta la frequenza di uno degli aplotipi rispetto agli altri

esiste disequilibrio per effetto della mutazione recente al’interno della stessa coorte

motivazione delle carenze

- bassa ereditabilità dei tratti genetici più complessi - mancanza di loci (markers) a meno di 10 cM per avere informazione più completa- definizione precisa del fenotipo- inadeguatezza del piano di indagine sperimentale- gli studi devono essere molto estesi (molti campioni-famiglie)- complicazione nel verificare molti tratti genetici quantitativi che partecipano solo in una piccola parte al fenotipo patologico, i singoli polimorfismi possono avere solo un peso limitato nel determinare il rischio della malattia

- varianti comuni possono aumentare il rischio di due volte o meno e non essere sotto selezione negativa forte

basse frequenze non visibili per linkage

questi marcatori con un aumento di rischio di sole due volte o meno si possono osservare solo su grandi popolazioni e quindi non su linkage in famiglie per la bassa frequenza che hanno.

sarebbero necessari studi su milioni di gemelli o famiglie

nessun studio di genome wide linkage ha evidenziato nel diabete type 2 la regione PPARG che è significativa

alleli comuni e ache rari partecipano alle malattie comuni ed ai tratti quantitativi, linkage ha bassa efficienza a trovare alleli comuni a bassa penetranza

necessità di strategie alternative

linkage mapping e gw association

“linkage mapping” efficientissimo per malattie monogenicheMendeliane

le malattie monogeniche hanno una selezione negativa forte perciò varianti rare (morbidità e mortalità alte e precoci), alta penetranza per definizione, i markers cosegregano entro 10-20 cM

successo in alcune malattie multifattoriali: Inflam Bowel dis (IBD); Shizofrenia, Diabete tipo I

analisi dei geni candidatiEthnic difference in patients with type 2 diabetes mellitus in inter-East Asian populations: a systematic review and meta-analysis focusing on gene polymorphism.Takeuchi M, Okamoto K, Takagi T, Ishii H. J Diabetes. 2009 Dec;1(4):255-62.

BACKGROUND: We previously reported that the fasting serum insulin level was significantly lower in Japanese patients than in Korean and Chinese patients, and showed evidence that a difference in the dietary component would be one of the most influential factors for the ethnic difference. However, it is well known that type 2 diabetes mellitus (T2DM) results from the interaction between genetic predispositions and environmental risk factors. Therefore, we investigated ethnic differences by focusing on gene polymorphism, possibly related to T2DM in Japanese, Korean, and Chinese subjects.

METHODS: Data sources included MEDLINE and EMBASE between January 2001 and October 2008. We conducted a search for articles containing minor allele frequency (MAF) in the gene polymorphisms of peroxisome proliferator-activated receptor-γ (PPARG), inward-rectifying potassium channel Kir6.2 (KCNJ11), Calpain 10 (CAPN10), and transcription factor 7-like 2 (TCF7L2). The pooled odds ratio was calculated by using a fixed-effects model with the Mantel-Haenszel method after confirming statistical evidence of homogeneity across the ethnicities using the Breslow-Day test.

RESULTS: The Breslow-Day test revealed that there were no statistically significant differences between ethnicities in pooled odds ratios for the gene polymorphisms in PPARG (P = 0.828), KCNJ11 (P = 0.194), CAPN10 (P = 0.090), and TCF7L2 (P = 0.376). Also, pooled odds ratios of each gene polymorphism in East Asians were 0.645 for PPARG (P = 0.000), 1.168 for KCNJ11 (P = 0.000), 0.967 for CAPN10 (P = 0.759), and 1.386 for TCF7L2 (P = 0.000).

CONCLUSION: The results of this study and our previous studies suggest that behavioral and environmental risk factors have a more significant impact on ethnic difference in East Asian patients with T2DM compared with genetic predispositions.

analisi dei geni candidati

selezionati o da regioni di linkage o da evidenze che mostrano il rischio

tecnica più comune è il risequenziamento del gene candidato nei pazienti e controlli

si cerca la variante o il set di varianti che sono più frequenti o assenti nei soggetti ammalatispesso vengono sequenziate le regioni codificanti ed esoni

analisi di geni candidatisistema alternativo al LD

per appartenenza a regioni in LD

per evidenze che riguardano/influenzano la patologia

analisi più comune con resequencing di pazienti e controlli(ricerca delle varianti che sono più presenti o assenti nella patologia)

analisi spesso ristretta a regioni codificanti o a singolo esone come il gene recettore per la “melanocortin-4” implicato in una piccola percentuale dell’obesità giovanile

alcuni alleli introvabili con LD

alleli a bassa suscettibilità non possono essere trovatia meno di screening con 106 individui

es. variante Pro 12 Ala del gene proliferativo recettore g attivato del perossisoma PPARG

rischio doppio per diabete tipo 2

mai potrebbe essere trovato per LD (link diseq)solo con screening su oltre un milione di soggetti

ragionevole credere che le malattie comuni siano determinate da alleli comuni, rari e tratti con effetto quantitativo, necessaria strategia complementare

esempioCohen and colleagues have successfully applied the resequencing approach to high-priority candidate genes in which severe loss-of function variants cause Mendelian disorders of lipid metabolism; they found that these genes also harbour less severe but still relatively rare missense variants that are associated with high, but not extreme, levels of high-density lipoprotein.

Rare loss-of-function mutations in ANGPTL family members contribute to plasma triglyceride levels in humans. Romeo S, Yin W, Kozlitina J, Pennacchio LA, Boerwinkle E, Hobbs HH, Cohen JC. J Clin Invest. 2009 Jan;119(1):70-9.

Common Single-Nucleotide Polymorphisms Act in Concert to Affect Plasma Levels of High-Density Lipoprotein Cholesterol. Spirin V, Schmidt S, Pertsemlidis A, Cooper RS, Cohen JC, Sunyaev SR.Am J Hum Genet. 2007 Oct 19;81(6). [

Multiple rare variants in NPC1L1 associated with reduced sterol absorption and plasma low-density lipoprotein levels. Cohen JC, Pertsemlidis A, Fahmi S, Esmail S, Vega GL, Grundy SM, Hobbs HH. Proc Natl Acad Sci U S A. 2006 Feb 7;103(6):1810-5.

association studies

Association studies using common allelic variants are cheaper and simpler than the complete resequencing of candidate genes, and have been proposed as a powerful means of identifying the common variants that underlie complex traits. In their simplest form, association studies compare the frequency of alleles or genotypes of a particular variant between disease cases and controls.

Alternative approaches include using family-based controls to avoid the potential problem of population stratification.

case control studies

confronto di frequenze alleliche tra i soggetti patologici o con 1 fenotipo e le frequenze della popolazione di controllo

problemi di stratificazione:

come si devono scegliere le 2 popolazioni da controllare?

I paesi oltreoceano hanno popolazioni miste (melting pot) e devono essere pesate le componenti della popolazione di controllo di riferimento e non tutti gli africani o gli europei sono uguali, cioè non basta prendere dei neri e dei bianchi come riferimento.Esiste una statistica apposta per questo:

tests di caso-controlli

METHODS: Data sources included MEDLINE and EMBASE between January 2001 and October 2008. We conducted a search for articles containing minor allele frequency (MAF) in the gene polymorphisms of peroxisome proliferator-activated receptor-γ (PPARG), inward-rectifying potassium channel Kir6.2 (KCNJ11), Calpain 10 (CAPN10), and transcription factor 7-like 2 (TCF7L2). The pooled odds ratio was calculated by using a fixed-effects model with the Mantel-Haenszel method after confirming statistical evidence of homogeneity across the ethnicities using the Breslow-Day test.

una meta analisi fatta su dati di letteratura pubblicati:(andatevi a vedere cosa è una meta-analisi)Ethnic difference in patients with type 2 diabetes mellitus in inter-East Asian populations: a systematic review and meta-analysis focusing on gene polymorphism.Takeuchi M, Okamoto K, Takagi T, Ishii H. J Diabetes. 2009 Dec;1(4):255-62.

candidate gene association limits

Candidate-gene association studies have identified many of the genes that are known to contribute to susceptibility to common disease. Such studies are greatly facilitated by using indirect LINKAGE-DISEQUILIBRIUM (LD)-based methods.

However,candidate-gene studies rely on having predicted the identity of the correct gene or genes, usually on the basis of biological hypotheses or the location of the candidate within a previously determined region of linkage.Even if these hypotheses are broad (for example, involving thetesting of all genes in the insulin-signalling pathway), they will, at best, identify only a fraction of genetic risk factors, even for diseases in which the pathophysiology is relatively well understood.When the fundamental physiological defects of a disease are unknown, the candidate-geneapproach will clearly be inadequate to fully explain the genetic basis of the disease.

genome wide association approachdefinizione: studio di associazione causale di varianti genetiche con una rassegna del genoma.Non ci sono preconcetti sulla regione genomica delle varianti.Il metodo sfrutta la forza dell’associazione senza avere una ipotesi sull’identità del gene causale.E’ un metodo non “bias” (sapete cosa vuol dire?)cioè privo di una preferenza di scelta, anche in presenza di evidenze convincenti contrarie sulla funzione e localizzazione dei geni causali.Deve essere un metodo capace di trovare appunto i geni che potrebbero sfuggire ad una indagine del tipo gene-candidato in cui si suppone l’associazione di un metabolismo ai suoi geni correlati come predisponenti. Qui è l’opposto: ricerca dei geni non correlabili sulla base delle evidenze note.

base statistica per WGSEstimating haplotype frequencies by combining data from large DNA pools with database information.

We assume that allele frequency data have been extracted from several large DNA pools, each containing genetic material of up to hundreds of sampled individuals. Our goal is to estimate the haplotype frequencies among the sampled individuals by combining the pooled allele frequency data with prior knowledge about the set of possible haplotypes. Such prior information can be obtained, for example, from a database such as HapMap. We present a Bayesian haplotyping method for pooled DNA based on a continuous approximation of the multinomial distribution. The proposed method is applicable when the sizes of the DNA pools and/or the number of considered loci exceed the limits of several earlier methods. In the example analyses, the proposed model clearly outperforms a deterministic greedy algorithm on real data from the HapMap database. With a small number of loci, the performance of the proposed method is similar to that of an EM-algorithm, which uses a multinormal approximation for the pooled allele frequencies, but which does not utilize prior information about the haplotypes. The method has been implemented using Matlab and the code is available upon request from the authors.

Gasbarra D, Kulathinal S, Pirinen M, Sillanpää MJ.University of Helsinki, Helsinki.IEEE/ACM Trans Comput Biol Bioinform. 2011 Jan-Mar;8(1):36-44.

metodi disponibili per analisi throughput

perchè Genome Wide ass. studies

“approaches to mapping the genes that underlie common disease and quantitative traits fall into two categories: CANDIDATE-GENE studies, which use either association or resequencing approaches,and genome-wide studies, which include both LINKAGEMAPPING and genome-wide association studies. The approaches and their advantages and disadvantages are summarized in TABLE 1.

In this review,we discuss these approaches and present arguments as to why genome wide association studies might be advantageous for identifying the genetic variants associated with commondisease. One fundamentally different approach, ADMIXTURE MAPPING**, is not discussed here but has been described elsewhere7–10.”

** studi su campioni di popolazioni mescolate es: America (USA, Brasile ecc.) il problema è il controllo di riferimento

nelle patologie non Mendeliane o fenotipi multi fattoriali

bassa penetranza: aumenta la necessità di ampiezza del campione per la significatività della statistica

ricerca in coorti ad origine limitata e popolazioni isolate

es. Sardegna, Giappone, Foresta Amazzonica ecc.

analisi dei geni identificati per confronto

esempio dei gemelliInfl Bowel Disease solo 2x il rischio per fattori noti

il calcolo totale del rischio è 30x

quindi il n. di fattori ignoti è molto grande

quali cause: bassa ereditabilità di tratti genetici complessi

copertura parziale dei markers con microsatelliti

definizione imprecisa dei fenotipi

protocolli di studio non adeguatamente potenti

necessità di studi estesi di geni candidati (più difficili?)

da regioni di 10 cM (~106 bp) al gene

dalla regione di linkage per arrivare al gene

analisi dei geni presenti

possibili geni candidati per funzione

sequenziamento e ricerca degli alleli

nel caso di mutazioni non ci potrà essere disequilibrium

il sistema è anche poco efficiente per trovare le varianti genetiche che hanno poco effetto sulla malattia

effetti quantitativi

tratti con effetti quantitativi con architetture complesse influenzano il fenotipo con la somma e le interazioni tra fattori ambientali e genetici

le singole varianti alleliche hanno poca influenza

le varianti comuni freq >1% possono dare suscettibilità

resistono alla selezione negativa per la bassa influenzane sono stati trovati con un aumento di rischio = 2x

limiti degli studi gene candidato

l’ipotesi biologica, fisiopatologica,

testare tutti i geni del pathway insulin-signalling dipendente identificazione solo di una frazione dei fattori genetici di rischiononostante le buone conoscenze biologiche

in assenza di conoscenze fondamentali fisiopatologiche della patologia in esame il sistema è inadeguato (cercare l’ago nel pagliaio senza la calamita o metal detector)

studi di associazione

in assenza di certezze fisiopatologiche della malattia l’analisi dei geni candidati non è possibile

uso di varianti alleliche comuni meno caro del risequenziamento

efficiente per evidenziare regioni complesse

analisi per confronto delle varianti caso/controllo

uso alternativo del controllo con analisi famiglia/malato

wgs per associazione

si cercano le regioni associate “in linkage” con gli alleli possibili dei geni implicati (niente a che fare con LD)

bassa penetranza per la presenza di molti fattori

analisi di campioni sempre maggiori per gli alleli rari

assenza di presunte regioni preferenziali, no biasassenza di evidenze della collocazione e funzione dei geni coinvolti

miglioramento delle tecniche

essenziale per sveltire analisi molto estese

database di 96 dbSNPs umani con frequenze > 1% costi attuali ~0.001 $ x genotipo = 500 $ per individuo

varie tecniche adottate, la maggior parte con PCR e ibridazione su chip array

presenza di aplotipi e LD

“ENCODE” encyclopedia of DNA elements

esistenza di lunghi tratti di genoma in LD

alta predittività degli SNPs vicini (o recenti o senza ricombinazione)

conosciute le regioni in LD (aplotipi) si riducono gli SNPs da analizzare

si deve analizzare la porzione di genoma a basso LD

nascita della Hap Map data

poche centinaia di migliaia di SNPs per mappare l’intero genoma

mappa degli aplotipi determina le regioni di LD e blocchi di genoma con gli stessi alleli che non ricombinano

nelle popolazioni antiche come in Africa ci sono meno LDsono necessari più SNPs (c’è stato più tempo per ricombinazione, i gruppi etnici del resto del mondo partono da alcuni colli di bottiglia con meno alleli e meno aplotipi

approccio missenso

scelta degli SNPs missenso in regioni codificanti

1-2 SNPs in media per gene riduce a 30-60 x103 il n.tot. di SNPs

la ricerca di tutti gli SNPs dei geni prevede invece il resequencing bidirezionale di 3x105 esoni x 48 soggetti~306 sequenziamenti

possibile solo con i nuovi metodi di sequenziamento massivo

possibili paradossi: linkage di SNP missenso con variante di regione regolativa (RR)es. CTLA4 cytotoxic T-lymphocyte-associated protein 4 Thr17Ala in LD con RR polimorfica non codificante in associazione + forte con autoimmunità

metodi esistenti (alcuni con brevetto)

Company Method of allele discrimination Method of detection Number of assays detected simultaneously

Third Wave PCR, cleavase Fluorescence; plate reader 1 (multiplexed 100-fold at PCR stage only)

Sequenom PCR, primer extension Mass spectrometry 7–12

ABI PCR, primer extension Fluorescence; gel electrophoresis 48

Illumina Oligo ligation, generic PCR Fluorescence; tags on beads 1.536

Parallele Gap closure, generic PCR Fluorescence; tags on array 10.000

Affymetrix Generic PCR, hybridization Fluorescence; hybridization to array 10,000–100,000

Perlegen PCR, hybridization Fluorescence; hybridization to array 100,000+

Selected commercially available high-throughput genotyping platforms

approcci diversi su topo

esperimento per fare topi transgenici in ogni parte del genoma trascritta e tradotta (esoni)creare una collezione (library) di cellule embrionali ricombinanti in ogni gene

la prospettiva nel restante 95% del genoma

genoma si ricomincia da capo

nell’interattoma va inserito il genoma e si allargano le prospettive

nuove tecniche, metodi, strumenti

da chi è diretto il movimento della

cromatina cercare di capire come si muove (attiva o passiva)

analisi in vivo con microscopia

i movimenti fuori dal territorio cromosomico controllati da actina-miosina in topi transgenici [Curr Biol. 2006 Apr

18;16(8):825-31.]

effetto “looping out” dal territorio cromosomico dipendente dal tipo cellulare: Hoxd di topo ha il “looping” sull’asse antero-posteriore ma non negli abbozzi degli arti,

effetto di ricollocamento nel territorio nucleare del crms X dopo inattivazione di Xist, ma i territori crms non sono barriere per la trascrizione da parte della pol. II

tabella 1 GWS

*candidate-gene studies; ‡ genome wide studies

Documents

Lezione 11-12 Martedì 23-XI-2010 ore 14:00-15:00 aula 6a Genomica corso di laurea a.a. 2010-2011 biotecnologie industriali