29
nksjonelle tilordninger i kjølvannet a Arabidopsis genomprosjektet Per Winge stip. Biologisk inst

Funksjonelle tilordninger i kjølvannet av Arabidopsis genomprosjektet

  • Upload
    makoto

  • View
    26

  • Download
    0

Embed Size (px)

DESCRIPTION

Funksjonelle tilordninger i kjølvannet av Arabidopsis genomprosjektet. Per Winge stip. Biologisk inst. Organell genomer fra mitokondrie og kloroplast. Størrelse: 14 - 200 Kb. C-verdi: Mengden av nukleært DNA i en ikke replikert haploid nukleus. - PowerPoint PPT Presentation

Citation preview

Page 1: Funksjonelle tilordninger i kjølvannet av  Arabidopsis  genomprosjektet

Funksjonelle tilordninger i kjølvannet av Arabidopsis genomprosjektet

Per Wingestip. Biologisk inst

Page 2: Funksjonelle tilordninger i kjølvannet av  Arabidopsis  genomprosjektet

Definisjoner:

Hva er et genom?

Det nukleære genom. Størrelse 30-100,000 Mb

Alt nukleært DNA i celle kjernen.

Organell genomer fra mitokondrie og kloroplast. Størrelse: 14 - 200 Kb

C-verdi: Mengden av nukleært DNA i en ikke replikert haploid nukleus.

Regnes ofte i pg og er kjent for mange organismer. http://www.genomesize.com/

organismeestimert størrelse

(million baser)estimert antall

generGjennomsnittlig gen tetthet

Menneske 3000 38,000 1 gen per 100,000 baserM. Musculus (mus) 3000 30,000 1 gen per 100,000 baserDrosophila (banan flue) 135.6 13,000 1 gen per 13,781 baserArabidopsis (plante) 100 25,000 1 gen per 4000 baserC. elegans (nematode) 97 19,000 1 gen per 5079 baserS. cerevisiae (gjær) 12.1 6034 1 gen per 2005 baserE. coli (bakterie) 4.67 3237 1 gen per 1443 baserH. influenzae (bakterie) 1.8 1740 1 gen per 1034 baser

Page 3: Funksjonelle tilordninger i kjølvannet av  Arabidopsis  genomprosjektet

Proteom Det komplette sett av proteiner kodet i fra et genom

Proteomics Studier av proteiner uttrykk fra et genom.

Transkriptom Det komplette sett av RNA som blir transkribert i fra et genom.

Eukromatin De gen rike områdene i fra et genom.

Heterokromatin Kompakte, gen fattige områder av et genom.

BAC ”Bacterial Artificial Chromosome”. Et ”kunstig” bakterielt kromosom som benyttes som kloningsvektor.

EST ”Expressed sequence tag”. En kort DNA sekvens som kommer i fra et mRNA.

mRNA blir revers transkribert til cDNA

og deretter sekvensert.

Page 4: Funksjonelle tilordninger i kjølvannet av  Arabidopsis  genomprosjektet

Prokaryot Enkeltcellet organisme uten cellekjerne og med enkel intern struktur.

Eukaryot En organisme (enkeltcellet / multicellulær) som har en kompleks intern struktur inkludert en celle kjerne.

Protist Eukaryoter som ikke kan grupperes under planter, dyr eller sopp/gjær.

Ortholog Gen som forblir ”uforandret” også etter en arts dannelse. Har vanligvis samme lokus i beslektede organismer.

Paralog Et gen som har oppstått som følge av en gen duplikajon.

Page 5: Funksjonelle tilordninger i kjølvannet av  Arabidopsis  genomprosjektet

Hvordan er slektskapet mellom levende organismer?

Sammenligninger av ribosomal RNA og konserverte proteiner har vist at prokaryote organismer kan deles in i to hovedgrupper:bakterier og archaea bakterier.

Levende organismer kan derfor deles inn i tre domener:Bakterier, Archaea og Eukaryoter.

Archaea bakteriene kan videre sub-inndeles i Crenarchaeota og Euryarchaeota.

Flere av Archaea bakteriene er såkalte ekstremofile. Dvs. de lever under ekstreme

betingelser, høy temperatur eller i omgivelser med høyt saltinnhold, lav Ph osv.

Page 6: Funksjonelle tilordninger i kjølvannet av  Arabidopsis  genomprosjektet

De tidligste eukaryote cellene oppsto sansynligvis som en hel celle fusjon /symbiose mellom en archaea bakterie og en eubakterie, (1.6 – 2.1 milliarder år siden).

Dette ga opphavet til en amitokondriell (uten mitokondrie) eukaryot celle.

De mest primitive eukaryote organismene, archeaprotister som Giardia (Diplomonader)og trichomonader (Parabasalidea), mangler mitokondrier, nukleoli, peroxisomer, oghar et relativt primitivt cytoskjellet. De beveger seg ved hjelp av flageller og flimmerhår.

Page 7: Funksjonelle tilordninger i kjølvannet av  Arabidopsis  genomprosjektet

Slektskapet mellom ulike grupper av protister er fremdeles uklartmen molekylær fylogenetiske studier begynner å gi noen svar.

Amitokondrielle protister er de mest avvikende og peker seg ut somden gruppen som oppsto først.

Hypotese:

Opphavet til mitokondrielle eukaryoter.

Amitokondrielle protister begynte å leve isymbiose med en alfa-proteo bakterie,endosymbiont teorien. Gener fra bakterielltgenom ble enten deletert eller overført tilden eukaryote cellekjernen.

En viktig konsekvens av denne symbiosener at de tidlige eukaryote cellene, som mestsannsynlig var begrenset til en anaerobmetabolisme, nå kunne foreta aerobiskrespirasjon.

Senere har enkelte protister som lever somanimalske parasitter mistet mitokondrieneog blitt sekundært amitokondrielle, foreksempel ulike mikrosporidia.

Page 8: Funksjonelle tilordninger i kjølvannet av  Arabidopsis  genomprosjektet

Sammenligning av komplette genom i fra eubakterier, archea bakterier og eukaryoterviser at eukaryote proteiner som inngår i prosesser som replikasjon av DNA,transkripsjon av mRNA, translasjon samt organisering av endoplasmatisk retikulumer nærmere beslektet med proteiner fra archaea enn fra bakterier.

Eukaryote proteiner som inngåri metabolisme, detoksifisering ogregulering av ionebalanse er nærmerebeslektet med bakterielle proteiner.

Mitokondriet oppsto sansynligvissom et resultat av en symbiosemellom en alfa-proteobakterie ogen tidlig eukaryot celle

Page 9: Funksjonelle tilordninger i kjølvannet av  Arabidopsis  genomprosjektet

Viridiplantae inkluderer ulike grønnalgersamt høyere planter (landplanter).

Viridiplantae ser ut til å ha oppstått somen endo-symbiose mellom en cyanobakterieog en primitiv eukaryot med mitokondrier.

Rester av denne symbiosen finner en i dagi kloroplastene og slektskapet mellomkloroplast proteiner og cyanobakterieproteiner er nært.

En rekke av de opprinnelige kloroplastgenene (cyanobakterie genene) er senereoverført til kjernen. I Arabidopsis thalianaer over 1000 proteiner (av ~ 25,000 totalt)nært beslektet med proteiner enfinner i cyanobakterier.

Streptophyta

Prasinophytes

Chlorophyceae

Trebouxiophyceae

Ulvophyceae

Chlorokybales

Klebsormidiales

Zygnematales

Charales

Coleochaetales

Embryophytes(landplanter)

Page 10: Funksjonelle tilordninger i kjølvannet av  Arabidopsis  genomprosjektet

De mest primitive landplantene (embryofyta) er sannsynligvis levermosene(Marchantiofyta) og det er antatt at de har eksistert i over 480 millioner år.

Frø planter

Page 11: Funksjonelle tilordninger i kjølvannet av  Arabidopsis  genomprosjektet

De første frøplanter oppsto for rundt380 millioner år siden og blomsterplanter har kun eksistert i ca 200millioner år.

En frøbladet og to frøbladet planteroppsto for ca 120-150 millioner år siden.

Vaskulære planter oppsto for ca. 420 millioner år siden.

Inndeling av frøplanter på grunnlag av molekylære data.

Eudicots kan videre sub-inndeles i tostore familier, ”Asterids” (f. eks. tomat)og ”Rosids” (f. eks. Arabidopsis).Disse to gruppene oppsto for ca 90millioner år siden.

Page 12: Funksjonelle tilordninger i kjølvannet av  Arabidopsis  genomprosjektet

Tilhører Brassicaceae familien og ligger under ordenen Capparales.Nært beslektede planter er f. eks. raps og kål.

Arabidopsis thaliana har i flere år vært en av modell organismeneinnen plante biologi. Dette er på grunn av flere faktorer.

Arabidopsis thaliana, vårskrinneblom

Arabidopsis thaliana har en kort livssyklus, ca. 6 uker i fra spiring til den utvikler modne frø.

Den er enkel å dyrke, er liten av vekst (ca. 30 cm høy), og trenger lite dyrkningsplass.

Arabidopsis thaliana er en selv-pollinator, dvs. en trenger ikke manuelt å pollinere blomstene (ev. være avhengig av insekt pollinatorer). Kryss-pollinering er også relativt sjelden.Det er derfor lett å opprettholde ”rene linjer”.

Den lar seg lett transformere med jord bakterien Agrobacterium tumefaciens som kan brukes til å overføre ulike gen konstruksjoner.

Page 13: Funksjonelle tilordninger i kjølvannet av  Arabidopsis  genomprosjektet

Arabidopsis er ”diploid” og har et genom på ca. 125 mega baser.

Inneholder lite repetert DNA og i over 10 år har det eksistert relativtgode genetiske kart.

Det finnes et stort utvalg av Arabidopsis mutanter som kan fås i frafrøbanker / ”Stock center” i USA og England.

T-DNA “knockout” linjer. Hvor T-DNA fra Agrobakteriumvektor er satt inn i kjent og ukjente gener og inaktivert disse.(Stort potensiale for den som vil drive med “reverse-genetics”.

Over 10,000 full lengde cDNA kloner er tilgjengelige.

BAC kloner fra hele genomet er tilgjengelige.

Arabidopsis thaliana, vårskrinneblom

Page 14: Funksjonelle tilordninger i kjølvannet av  Arabidopsis  genomprosjektet

Arabidopsis ble i Desember 2000 denførste planten hvor ”hele” genomet(minus enkelte centromer regioner)ble oppklart / sekvensert.

Arabidopsis genomet består av 5kromosom som varierer i fra 17.5til 29.1 mega baser.

Sekvenseringen av Arabidopsis bleforetatt av et internasjonalt konsortium”The Arabidopsis Genome Initiative”i tidsrommet 1996-2000. Mestepartenble sekvensert de siste 2 årene.

Page 15: Funksjonelle tilordninger i kjølvannet av  Arabidopsis  genomprosjektet

På grunn av at gode genetiske kart eksisterte for Arabidopsis og at genomet var relativt liteble en ”mapping” basert sekvenseringsstrategi benyttet. Dvs. det ble laget et genomisk BAC bibliotek, hvor overlappende kloner ble identifisert ved hjelp av RFLP analyser og hybridisering eller ved PCR av ”sequence-tagged sites” (STS) og Southern blotting.

BAC klonene (ca. 50-100 kb.) bleenkeltvis kuttet opp i småbiter ogklonet over i plasmid vektorer(1-3 Kb) og deretter sekvensert.Overlappende sekvenser blederetter satt sammen til sekvensav hele BAC klon var komplett.

BAC kloner ble shotgun sekvensert.

Page 16: Funksjonelle tilordninger i kjølvannet av  Arabidopsis  genomprosjektet

Resultatet fra sekvenseringen viste at Arabidopsis thaliana genomet var rundt125 mega baser og inneholdt rundt 25,000 gener. Dvs. flere gener enn man fanti de to invertebrate organismene; nematoden Caenorhabditis elegans(ca. 19,000 gener) og i bananflua Drosophila melanogaster (ca. 13,500 gener).

Selv om sekvensen til genomet er kjent er det fremdeles mye arbeid som gjenstår.Å sette sammen alle exon i et gen korrekt, samt å finne start / stopp ogbeskrivelse av protein er ikke trivielt. Denne prosessen, som kalles forannotering, er i mange tilfeller gjort av dataprogram og er ofte unøyaktig.

Etter at dataprogrammet har funnet et mulig gen og korresponderende proteinblir det sjekket mot gen / protein databasene: GenBank NCBI), EMBL.Protein domene struktur kan analyseres gjennom Pfam databasen (Sanger Centre).

Videre annotering av gen / protein.GeneOnthology: Grupperer protein i henhold til funksjon, Metabolisme, Cellesyklus regulering, DNA reparajon osv.

Page 17: Funksjonelle tilordninger i kjølvannet av  Arabidopsis  genomprosjektet

BlastP analyse. Score E Value Sequences producing significant alignments:

gi|2352084|gb|AAB68776.1| (U96613) serine/threonine kinase ... 1324 0.0gi|12061243|gb|AAG45491.1| (AY013245) 36I5.3 [Oryza sativa] 659 0.0gi|3114674|gb|AAC15972.1| kinase [Dictyostelium discoideum] ... 282 1e-74gi|7302511|gb|AAF57595.1| CG7097 [Drosophila melanogaster] ... 272 2e-71gi|12643529|sp|O00506|ST25_HUMAN SERINE/THREONINE PROTEIN K... 271 2e-71

Protein sekvens.

>gi|2352084|gb|AAB68776.1MDHNSPKSRRSRKPEPKPDIYSTFVVHSDSDSDQGRDRDKRKAKPEEDENVDLYATMVYKGDSDGEGEEDDDDDSMLPPLLKRLPKDFGGGASLDYDDDDGDESGDFGTMIVKTDRSSHSKKNSPYSSKPRMGVSPRRRARGGDEESSDEEDEEEDDDDDDGDYGTFVVKSKDKKGKKKDKEIDMTTMGRAVASMQKSNFGGKTRKLDPSSSSSKLHGEDNRKMQQQNSKMSTTSLPDSITREDPTTKYEFLNELGKGSYGSVYKARDLKTSEIVAVKVISLTEGEEGYEEIRGEIEMLQQCNHPNVVRYLGSYQGEDYLWIVMEYCGGGSVADLMNVTEEALEEYQIAYICREALKGLAYLHSIYKVHRDIKGGNILLTEQGEVKLGDFGVAAQLTRTMSKRNTFIGTPHWMAPEVIQENRYDGKVDVWALGVSAIEMAEGLPPRSSVHPMRVLFMISIEPAPMLEDKEKWSLVFHDFVAKCLTKEPRLRPTAAEMLKHKFVERCKTGASAMSPKIEKSRQIRATMALQAQSVVAPSLEDTSTLGPKSSEELGITVPSKPPQNSTEAPLTSTLNRQHITGNTVLAGEGGDFGTMIVHGEDETEESDSRSQLVREKESSSSQFEGVPREFPGEELPDSWIHDKKKPPAIDLPVEASISQSMQASSSHEHRTKLHNIAGTQMEGGSDASGSTLKNETVGRKAFALQDKLWSIYAAGNTVPIPFLRATDISPIALLSENMIGGMQQDGNGTVAVEALQELFTSSDPQSKKGRRGQNEMPLPPSVYQRLTTSSSLMNLAQVLAYHRACYEEMPLQELQATQEQQTIQNLCDTLRTILRL

Domain Start End Bits Evalue Alignment Modepkinase 249 503 310.10 2e-90 Align ls

Eksempel på analyse av et protein

Page 18: Funksjonelle tilordninger i kjølvannet av  Arabidopsis  genomprosjektet

Kun 10-15 % av genene i Arabidopsis thaliana er annotert og karakteriserteksperimentelt (ikke maskinelt).Over 30% av genene er uklassifiserte, hypotetiske, ”ukjente”.

Page 19: Funksjonelle tilordninger i kjølvannet av  Arabidopsis  genomprosjektet

Sammenligning av Arabidopsis genom med ulike andre kjente genom

Page 20: Funksjonelle tilordninger i kjølvannet av  Arabidopsis  genomprosjektet

Sammenligningen mellom Arabidopsis thaliana genomet og de kjente genomene fra cyanobakterier, gjær, bananflue og nematode, viser bl. a.

Antall gener som er involvert i cellulær kommunikasjon og signaloverføringer en hel del høyere i multicellulære organismer.

Planter har utviklet en rekke unike transkripsjonsfaktorer som ikke finnes i animalia / fungi.

En rekke av Arabidopsis proteinene som er inkludert i kategoriene energi og metabolisme har høy homologi med bakterielle proteiner (cyanobakterium).

Arabidopsis inneholder rundt 11000 typer genfamiler eller ”singletons”, noe som er relativt likt det vi finner i Drosophila og C. elegans.

Arabidopsis og planter generelt har utviklet unike signaltransduksjonsspor som en ikke finner i animalia og gjær. Arabidopsis har f. eks. ikke komponenter som inngår i de kjente signalsporene:

- Reseptor tyrosin kinaser / ras ”pathway”

- Nukleære steroid hormon reseptorer

- Wingless / wnt

- Notch / lin12

- JAK / STAT signal sporet

Page 21: Funksjonelle tilordninger i kjølvannet av  Arabidopsis  genomprosjektet

Arabidopsis genomet inneholder en rekke store duplikasjoner og gener som erduplisert i tandem. Dette betyr at mange gener har en eller flere paraloger.

Omfanget av disse duplikasjonene er så store at enkelte har foreslått at forløperentil Arabidopsis thaliana var tetraploid og at den senere har blitt ”diploidisert”.

Page 22: Funksjonelle tilordninger i kjølvannet av  Arabidopsis  genomprosjektet

Nærmere studier av disse duplikasjonene tyder på at de skyldes fem (eller flere)store duplikasjoner (ev. genom duplikasjoner) som skjedde for ca. 50, 100, 140,170 og 200 millioner år siden.

Disse duplikasjonene korresponderer ganske bra med tidsepokene når f. eks “monocots”(en frøbladet) og “dicots” (to frøbladet) oppsto (ca. 120 - 150 millioner år siden) ellernår splittelsen mellom ”rosids” og ”asterids” oppsto (ca. 90 millioner år siden).

Med bakgrunn i denne informasjonen kan en nå ha en viss oversikt overhva en kan forvente å finne i andre planter.

Informasjonen i fra Arabidopsis genomet viser også hvor dynamisk plantegenomene er. Store rearrangeringer av genomene (duplikasjoner og delesjoner)er vanlige og ekspansjon av genfamilier gjenom tandem duplikasjoner er vanlig.

Chr II

Chr IIIGene duplications

T17A516

Page 23: Funksjonelle tilordninger i kjølvannet av  Arabidopsis  genomprosjektet

T19K4140

T19K4130

T19K4110

T19K4100 ARAC6

T19K470

T19K460

T19K450

T19K440

T19K430

T19K420

T19K410

Histidinekinase

ARAC1 VPS35

FH3PAD2-

likeMS5-like ARAC11VPS35

Ascorbateperoxydase

Thaumatinhomologues

II

III

Gene duplications

IV

Chromosome10000 20000 30000 40000 500000

AtCrn

ARAC9II

T17A516

F4I118

F4I119

CLV1 ARAC5 VPS35Anther-specific proline rich proteins

I

Putative anti-fungal proteins

ARAC4TUB5

I

ARAC2 AtCrn

V

Eksempel på gen duplikasjoner i Arabidopsis thaliana

Page 24: Funksjonelle tilordninger i kjølvannet av  Arabidopsis  genomprosjektet

Gener som inngår i DNA replikasjon og DNA reparasjon er forholdsvis nærtlokalisert på kromosom. Tilfeldighet eller har plantegenomet fremdeles enoperon lignende struktur / gener samlet i større regulon.

Det er indikasjoner på at gener er lokalisert i ”funksjonelle” gen “cluster”,DNA reparasjon, planteforsvar, metabolske spor osv.

Å plassere gener som inngår i samme prosesser fysisk nær hverandre kan av ogtil være fordelaktig. Ko-regulering av gen transkripsjon for eksempel.

Andre observasjoner:

- Cdc42, regulator av cellepolaritet og signaltransduksjon

- Cdc25 fosfotyrosin fosfatase, celledelings-regulator

- Bcl2, apoptose regulator

- DH domene proteiner, Rho guanin utbyttingsfaktorer

Gener en ikke finner i Arabidopsis men som eksisterer i gjær og animalia:

- Ras GTPase (signaltransduksjon)

- Rel / NF-kappaB family

- Septin GTPase (celle deling)

Page 25: Funksjonelle tilordninger i kjølvannet av  Arabidopsis  genomprosjektet

Hva nå? ”Big ideas from a small plant”

I de neste 1-3 årene:

Man vil prøve å generere knockout mutanter av de fleste genene i Arabidopsis.Disse metodene er basert på at T-DNA ev. et transposon setter seg inn i etgen og slår ut funksjonen. Over halvparten av genene er tilgjengelige som T-DNAknockout allerede i dag.

riboflavin kinase T-DNA knockout

Page 26: Funksjonelle tilordninger i kjølvannet av  Arabidopsis  genomprosjektet

Gener som ikke lar seg slå ut ved standard T-DNA eller transposon knockoutvil bli forsøkt nedregulert ved hjelp av RNA interferens (RNAi).

RNA avhengigRNA polymerase

Page 27: Funksjonelle tilordninger i kjølvannet av  Arabidopsis  genomprosjektet

Stor skala analyser av genekspresjon ved hjelp av DNA mikroarrays erallerede i gang og vil være et nyttig verktøy for å få oversikt over hvilkegener som er uttrykt i de enkelte vev, indusert og ikke indusert.

Page 28: Funksjonelle tilordninger i kjølvannet av  Arabidopsis  genomprosjektet

Hvor går Arabidopsis forskningen de neste 3-10 årene.

Stor skala analyse av protein interaksjoner, ved bruk av gjær to hybrid system. Analyse av protein interaksjonsnettverk

Start mRNAsyntese

Seleksjons gen

Kryssing av to gjær stammer som uttrykkerto proteiner som er fusjonert til “bait” og“pray” proteiner. Vellykket protein-interaksjon setter i gang transkripsjon avseleksjonsgener som gjør at gjær kan dyrkespå et seleksjonsmedium.

Page 29: Funksjonelle tilordninger i kjølvannet av  Arabidopsis  genomprosjektet

Lage komplette samlinger av full lengde cDNA.Pr. dato er over 10,000 cDNA kloner tilgjengelige.Uvurderlige for protein interaksjonsstudier.

Bestemme tre dimensjonale strukturer av allegrupper av proteiner. Med økende antall kjenteprotein strukturer er det mulig at de fleste 3Dstrukturer kan modelleres med stor grad avnøyaktighet allerede om 3-5 år.

Bestemme biologisk funksjon for ”alle” proteiner.

Hvor går Arabidopsis forskningen de neste 3-10 årene.

Karakterisere cis regulatoriske sekvenser i alle gener.Dvs. stor skala promoter analyser.

Utvikle bioinformatikk verktøy, visualiseringog modelleringsmetoder som integrerer ”all”biologisk informasjon fra Arabidopsis.”The virtual plant”.