3
192 BIOspektrum · 2/04 · 10. Jahrgang Special Integrierte „Functional Genomics“ Pipeline im NGFN Ruth Wellenreuther 1 , Holger Sültmann 1 , Rainer Pepperkok 2 , Annemarie Poustka 1 , Stefan Wiemann 1 1 Abteilung Molekulare Genomanalyse, Deutsches Krebsforschungszentrum, Heidelberg 2 Cell Biology and Cell Biophysics Programme, European Molecular Biology Laboratory, Heidelberg Abb. 1: Die integrierte „Functional Genomics“ Pipeline verknüpft die molekulare und Zell-basierte Genfunktionsanalyse mit RNA Expressionsanalyse, sowie Proteomics. Ziel ist die Aufklärung der Funktionen und Krankheits- relevanz von Genen und Proteinen Nach der Sequenzierung des menschlichen Genoms steht die Funktionsanalyse im Fokus der Genomforschung. Wir haben im NGFN eine in Europa einzigartige Pipeline aufgebaut, in der experimentelle Hoch- durchsatz-Ansätze modular verknüpft sind. Ziel ist die Aufklärung der Funktion und möglichen Krankheitsrelevanz bisher uncharakterisierter Gene. Ausgehend von Volle-Länge-cDNA-Klonen wird die intra- zelluläre Lokalisation und der Einfluss der Proteine auf krankheitsrelevante zelluläre Prozesse, die Gen-Expression in Patienten- geweben, sowie die Interaktion mit anderen Proteinen untersucht. Die Ergeb- nisse aus diesen experimentellen Ansätzen werden zusammen mit weiteren öffentlich zugänglichen Informationen durch eine zentrale Bioinformatik integriert und präsentiert. Einleitung und Fragestellung Die Sequenz des menschlichen Genoms ist weitgehend entschlüsselt. Kennen wir nun alle Gene und Genprodukte, oder de- ren Aktivität(en) innerhalb der Zellen und des Organismus? Die Zahl der Gene und Genprodukte ist noch immer ungewiss, um- so mehr deren Funktionen oder gar ihre Krankheitsrelevanz. Für die Beantwortung der offenen Fragen durch funktionelle Ge- nomforschung spielen cDNAs eine ent- scheidende Rolle. Volle-Länge-(FL-) cDNAs, die die komplette Protein-kodie- rende Sequenzinformation enthalten, sind sowohl für die Genidentifizierung, als auch für funktionelle Analysen unabdingbar. Die funktionelle Genomforschung ist auf Hoch- durchsatz-Analysen ausgelegt. Demzufolge werden FL-cDNAs für sehr viele Gene be- nötigt, idealerweise steht für jedes Gen und jede Spleißvariante eine FL-cDNA zur Ver- fügung. Genau dieses Ziel verfolgt das Deut- sche cDNA-Konsortium bereits seit 1995 im Rahmen des Deutschen Humangenompro- jektes (DHGP). Durch systematische cDNA-Sequenzierung und -Analyse werden neue Gene identifiziert und eine FL-cDNA- Ressource etabliert. Auf der Basis dieser Ressource wurde seit 2001 im Nationalen Genomforschungs-Netz (NGFN) eine „Functional Genomics“-Pipeline aufgebaut, Special: Functional Genomics

Special: Functional Genomics Integrierte „Functional ... · 192 BIOspektrum· 2/04· 10. Jahrgang Special Integrierte „Functional Genomics“ Pipeline im NGFN Ruth Wellenreuther

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Special: Functional Genomics Integrierte „Functional ... · 192 BIOspektrum· 2/04· 10. Jahrgang Special Integrierte „Functional Genomics“ Pipeline im NGFN Ruth Wellenreuther

192

BIOspektrum · 2/04 · 10. Jahrgang

Special

Integrierte „Functional Genomics“ Pipeline im NGFN

Ruth Wellenreuther1, Holger Sültmann1, Rainer Pepperkok2, Annemarie Poustka1, Stefan Wiemann1

1Abteilung Molekulare Genomanalyse, Deutsches Krebsforschungszentrum, Heidelberg

2Cell Biology and Cell Biophysics Programme, European Molecular Biology Laboratory, Heidelberg

Abb. 1: Die integrierte „Functional Genomics“Pipeline verknüpft die molekulare undZell-basierte Genfunktionsanalyse mit RNAExpressionsanalyse, sowie Proteomics. Ziel istdie Aufklärung der Funktionen und Krankheits-relevanz von Genen und Proteinen

Nach der Sequenzierung des menschlichenGenoms steht die Funktionsanalyse imFokus der Genomforschung. Wir haben imNGFN eine in Europa einzigartige Pipelineaufgebaut, in der experimentelle Hoch-durchsatz-Ansätze modular verknüpft sind.Ziel ist die Aufklärung der Funktion undmöglichen Krankheitsrelevanz bisheruncharakterisierter Gene. Ausgehend vonVolle-Länge-cDNA-Klonen wird die intra-zelluläre Lokalisation und der Einfluss derProteine auf krankheitsrelevante zelluläreProzesse, die Gen-Expression in Patienten-geweben, sowie die Interaktion mitanderen Proteinen untersucht. Die Ergeb-nisse aus diesen experimentellen Ansätzenwerden zusammen mit weiteren öffentlichzugänglichen Informationen durch einezentrale Bioinformatik integriert undpräsentiert.

Einleitung und Fragestellung

� Die Sequenz des menschlichen Genomsist weitgehend entschlüsselt. Kennen wirnun alle Gene und Genprodukte, oder de-ren Aktivität(en) innerhalb der Zellen unddes Organismus? Die Zahl der Gene undGenprodukte ist noch immer ungewiss, um-so mehr deren Funktionen oder gar ihreKrankheitsrelevanz. Für die Beantwortungder offenen Fragen durch funktionelle Ge-nomforschung spielen cDNAs eine ent-scheidende Rolle. Volle-Länge-(FL-)cDNAs, die die komplette Protein-kodie-rende Sequenzinformation enthalten, sindsowohl für die Genidentifizierung, als auchfür funktionelle Analysen unabdingbar. Diefunktionelle Genomforschung ist auf Hoch-durchsatz-Analysen ausgelegt. Demzufolgewerden FL-cDNAs für sehr viele Gene be-

nötigt, idealerweise steht für jedes Gen undjede Spleißvariante eine FL-cDNA zur Ver-fügung. Genau dieses Ziel verfolgt das Deut-sche cDNA-Konsortium bereits seit 1995 imRahmen des Deutschen Humangenompro-jektes (DHGP). Durch systematischecDNA-Sequenzierung und -Analyse werdenneue Gene identifiziert und eine FL-cDNA-Ressource etabliert. Auf der Basis dieserRessource wurde seit 2001 im NationalenGenomforschungs-Netz (NGFN) eine„Functional Genomics“-Pipeline aufgebaut,

Special: Functional Genomics

��

Page 2: Special: Functional Genomics Integrierte „Functional ... · 192 BIOspektrum· 2/04· 10. Jahrgang Special Integrierte „Functional Genomics“ Pipeline im NGFN Ruth Wellenreuther

194

BIOspektrum · 2/04 · 10. Jahrgang

Special

in der verschiedene experimentelle Hoch-durchsatz-Ansätze modular verknüpft sind.Die Module arbeiten synergistisch zusam-men mit dem Ziel der systematischen Ana-lyse der Funktion und Krankheitsassoziationvon Genen und Genprodukten (WIEMANN

et al., 2003). Dabei konzentrieren wir uns auffolgende Fragestellungen: Welche Gene undSpleißformen fehlen noch zur Kenntnis al-ler humanen Gene? Wo im Organismus übendiese Gene und Genprodukte ihre Funktionaus? In welchen biochemischen Prozessenund Signalwegen sind die Genprodukte in-volviert? Mit welchen Krankheiten sindsie assoziiert, und welche der Gene undProteine eignen sich als Targets für Di-agnostik oder Therapie?

Modul 1 – Das Deutsche cDNA-Konsortium

Acht Institutionen gründeten1995 das weltweit zweite Pro-jekt seiner Art zur systemati-schen Analyse von cDNAs zurIdentifizierung bis dato unbe-kannter Gene (WIEMANN et al.,2001): Das Deutsche cDNA-Konsortium wird gebildet vondrei Firmen (AGOWA GmbH –Rolf Wambutt, Medigenomix GmbH– Birgit Ottenwälder, Qiagen GmbH – An-dré Bahr), drei Zentren der Helmholtz Ge-meinschaft (DKFZ – Annemarie Poust-ka, GBF – Helmut Blöcker, GSF – Wer-ner Mewes), einer Universität (HeinrichHeine Universität Düsseldorf – KarlKöhrer), sowie dem EMBL (Wilhelm An-sorge) als internationale Einrichtung. DieZielsetzung des Konsortiums als einem vonmittlerweile drei Projekten vergleichbarerGröße weltweit, neben der Mammalian Ge-ne Collection in den USA, und dem FLJ-Projekt in Japan, ist die Hochdurchsatz Klo-nierung und Sequenzierung von humanenGenen auf der Basis von cDNA. Die Analy-se und Annotation der cDNA-Sequenzenfindet inzwischen in einer globalen Koope-ration statt (IMANISHI et al., im Druck). DasDeutsche cDNA-Konsortium hat bisher cir-ca 560.000 cDNA-Klone hergestellt, von de-nen über 230.000 als ESTs sequenziert wur-den. Kürzlich wurde die Zahl von 12.000Klonen überschritten, die in voller Länge se-quenziert sind. Diese cDNAs decken ins-gesamt 40,3 Megabasen an Sequenz ab(http://mips.gsf.de/projects/cdna), was in et-wa der Länge der humanen Chromosom 21Sequenz entspricht. Die Sequenzen desKonsortiums werden in die EMBL/Gen-bank/DDBJ Datenbanken eingegeben, undsämtliche Klone sind über das DeutscheRessourcenzentrum für Genomforschung(RZPD – www.rzpd.de) verfügbar.

amplifizieren die ORFs aus FL-cDNAs odervia RT-PCR, und klonieren sie in „Entry-Vektoren“ des Gateway-Klonierungssystems(Invitrogen). Einmal kloniert und Sequenz-verifiziert, können die ORFs schnell und ef-fizient in Expressionsvektoren umkloniertwerden, die für die verschiedenen Funk-tionsanalysen geeignet sind. Dies sind Ex-pressionssysteme in Säuger-Zellen, in Bak-terien, sowie in Baculovirus- und Hefe-Sys-temen. Derzeit liegen mehr als 1.200 ORFsals Entry-Klone vor. Diese Klone markierenden Startpunkt für die Funktionsanalyse-Pi-peline.

Modul 2 – Intrazelluläre Protein-Lokalisierung

Die Umgebung eines Proteins determiniertseine möglichen Interaktionen mit Prote-inen, DNA oder anderen Molekülen, und

damit die Funktion(en) des Proteins. Wiruntersuchen daher die intrazelluläre Loka-lisation, indem wir die Proteine als Fusions-proteine mit dem Grün-fluoreszierendenProtein (GFP) in Zellen exprimieren. DaLokalisierungssignale, wie Signalpeptide,innerhalb eines Proteins sowohl am N- alsauch am C-Terminus liegen können, wird je-

der ORF als N-terminales, und separatauch als C-terminales Fusionsprotein

exprimiert. Maskiert der Fluores-zenzanteil des Fusionsproteins ei-nes der Konstrukte das Signal, lo-kalisiert das Protein falsch. In ei-

nem Zell-basierten Assay wird eineartifizielle Lokalisierung zwar zu

zellulären Effekten führen, diesewerden jedoch ebenso artifiziellsein. Die Kenntnis der „richti-gen“ Lokalisierung, sowie des

Expressionskonstrukts, dasdiese korrekte Lokalisierunghervorruft, ist daher auch für

funktionelle Ansätze zwingendnotwendig. Bisher wurden hier über

650 Proteine eindeutig lokalisiert. Diemikroskopischen Abbildungen sowie diemanuelle Interpretation werden über einWeb-Interface in die Projektdatenbank ein-gegeben, diese Daten sind on-line verfügbar

(www.dkfz.de/LIFEdb).

Modul 3 – Zell-basierte Assays

Automatisierte Zell-basierte Assays bildenden zentralen Bestandteil der Funktions-analyse-Pipeline. Sie liefern Aussagen, inwelchen biochemischen Prozessen und Sig-nalwegen die von den ORFs kodierten Pro-teine beteiligt sind. Bei der Auswahl derAssays steht die Krankheits-Relevanz imVordergrund. Bereits etabliert sind Assays,mit denen der Einfluss auf die Zellprolife-ration, die Apoptose, den MAP-Kinase-Sig-nalweg und Ca2+-vermittelte Signalübertra-gung, sowie den Protein-Transport unter-sucht wird. Weitere Assays sind in der Ent-wicklung. Um aus den funktionellen Assayseinen möglichst großen Informationsgewinnzu erzielen, werden die Proteine sowohl imüberexprimierten (Expressionsvektoren) alsauch im ausgeschalteten (RNA interference)Zustand untersucht.

Entscheidend für die statistische Ver-wertbarkeit der Daten, und um letztlich ein-deutige Kandidaten für weiterführende Ana-lysen in der Target Identifzierung und Vali-dierung zu definieren, ist insbesondere dieArt der Datenakquirierung, sowie die Zahlder analysierten Zellen. In diesem Projektwurde ein „high-content screening“-Mik-roskop entwickelt, das automatisch mikro-skopische Bilder im 96well-Maßstab akqui-riert und für die Analyse und Interpretation

Abb. 2: Die Partnerinstitute in der „FunctionalGenomics“ Pipeline, die am DKFZ koordiniertwird

Um Gene im Hochdurchsatz funktionellzu charakterisieren, müssen ihre Protein-ko-dierenden offenen Leserahmen (ORFs)möglichst effizient in verschiedensteExpressionsvektoren kloniert werden. Wir

��

��

Page 3: Special: Functional Genomics Integrierte „Functional ... · 192 BIOspektrum· 2/04· 10. Jahrgang Special Integrierte „Functional Genomics“ Pipeline im NGFN Ruth Wellenreuther

196

BIOspektrum · 2/04 · 10. Jahrgang

Special

am Computer bereitstellt (LIEBEL et al.,2003). Ferner wird ein FACS-System ver-wendet, das die fehlende räumliche Auflö-sung mit einem höheren Durchsatz und ei-ner größeren Zahl analysierter Zellen kom-pensiert. Beide Systeme werden komple-mentär eingesetzt. Weder in Überexpres-sionsexperimenten, noch bei der siRNA-ver-mittelten gezielten Ausschaltung der endo-gen exprimierten Proteine werden sämtlicheZellen transfiziert. Auch ist z.B. das Expres-sionsniveau in den transfizierten Zellenunterschiedlich, was zu konzentrationsab-hängigen Effekten der jeweiligen Proteineführt. So wird selbst ein Aktivator der Zell-Proliferation meist zum Inhibitor, wenn er inextremen Mengen exprimiert ist. Die Ana-lyse einer großen Zahl von Zellen in jedemAssay, sowie eine angepasste statistischeAuswertung sind daher notwendig. Bei derEntwicklung statistischer Tools konnte da-bei auf Erfahrungen aus anderen Hoch-durchsatz-Technologien (z.B. HUBER et al.,2002) aufgebaut werden.

Modul 4 – Expressionsanalyse

Das Wissen um das „wo“ und „wann“ imOrganismus ein Gen natürlicherweise ex-primiert wird, und um seine Dysregulierungin Erkrankungen ermöglichen Erkenntnissezum Aufspüren von Krankheits-Assoziatio-nen. Ein wesentlicher Bestandteil der Funk-tionanalyse-Pipeline besteht daher darin, fürjedes Gen ein Expressionsmuster in einemSet von Normalgeweben, sowie in ver-schiedenen Krankheitszuständen (z.B.Krebs, Herz-Kreislauf, Infektion) zu erstel-len. Hierzu verwenden wir zum einen DNA-Microarrays, insbesondere in der Tumorana-lyse (BOER et al., 2001), und zum anderenquantitative „real-time“ RT-PCR. Fernerwerden Gene, die aufgrund ihres Expres-sionsmusters und/oder funktioneller Infor-mationen aus anderen Experimenten derPipeline auffällig sind, mittels RNA in situHybridisierung untersucht, um die Zell-typen zu ermitteln, in denen die Gene ex-primiert sind.

Modul 5 – Proteomanalyse

Die Frage nach Interaktionspartnern vonProteinen ist von zentraler Bedeutung in derAnalyse von Proteinfunktionen und für dasAufdecken von Krankheitsmechanismen.Die Gen-basierte Proteomanalyse in der Pi-peline fokussiert sich auf die Analyse vonProtein-Protein-Interaktionen mittels desHefe 2-hybrid Systems und der Immunprä-zipitation mit nachgeschalteter Massen-spektrometrie. Ein weiterer Schwerpunktder Proteomanalyse ist die Expression vonProteinen in E.coli und Baculovirus-Syste-

men, deren Reinigung und Applikation inChip-basierten Funktionsassays. Hier wer-den insbesondere mögliche Substrate vonProteinkinasen identifiziert.

Modul 6 – Datenintegration undInterpretation

Ohne eine kompetente Bioinformatik kön-nen die experimentellen Module nicht sinn-voll verknüpft werden. Die Bioinformatikerstreckt sich über drei Ebenen. Diese sind1. LIMS Systeme zur Prozesskontrolle, undDatenbanken zur Datenverwaltung (BAN-NASCH et al., 2004), 2. Analyse-Tools z.B. zurautomatisierten Meta-Analyse der Sequen-zen (DEL VAL et al., 2004), zur statistischenAufarbeitung der Primärdaten, und zur Vi-sualisierung der prozessierten Daten, und 3.Datenintegration über Einzelexperimenteund -ansätze hinweg zum übergreifenden„Data mining“, sowie zur Präsentation undPublikation (www.dkfz.de/LIFEdb). Diesedrei Ebenen sind etabliert, und werden wei-ter ausgebaut.

Die Zukunft der Pipeline

In den vergangen Jahren hat sich die „Func-tional Genomics“ Pipeline als fester Be-standteil in der Deutschen und Internatio-nalen Wissenschaftslandschaft etabliert. ImNGFN ist sie als Kernkompetenz manifes-tiert. Auf internationaler Ebene hat sie durchdie systematische Verknüpfung von Gen-Identifizierung mit der Hochdurchsatz-Funktionsanalyse einen Standard gesetzt,der inzwischen ansatzweise insbesondere inJapan kopiert wird. Im Rahmen des NGFN-2 (2004–2007) ist ein Ausbau mit neuen Part-nern und Schwerpunkten vorgesehen, derdie internationale Bedeutung festigen underweitern, und die Ausrichtung verstärkt hinzur Identifizierung von Krankheitsassozia-tionen und der Validierung von therapeuti-schen Targets vorantreiben wird. Obwohlerst seit drei Jahren im Aufbau, ist bereits ei-ne Zahl von insbesondere Krebs-relevan-ten Kandidaten-Genen und Proteinen iden-tifiziert, die derzeit in detaillierten Analysenweiterentwickelt werden.

Literatur

Bannasch, D. et al. (2004): LIFEdb: A database forfunctional genomics experiments integrating informationfrom external sources, and serving as a sample trackingsystem. Nucleic Acids Res 32: D505–508

Boer, J. M. et al. (2001): Identification and classifica-tion of differentially expressed genes in renal cell carcino-ma by expression profiling on a global human 31,500-ele-ment cDNA array. Genome Res 11: 1861–1870

Del Val, C. et al. (2004): High-throughput proteinanalysis integrating bioinformatics and experimental as-says. Nucleic Acids Res 32: 742–748

Huber, W. et al. (2002): Variance stabilization appliedto microarray data calibration and to the quantification ofdifferential expression. Bioinformatics 18 Suppl 1:S96–S104

Imanishi et al. (2004): Integrative annotation of 21,037human genes validated by full-length cDNA clones. PLoSBiology: Im Druck

Liebel, U. et al. (2003): A microscope-based screeningplatform for large-scale functional protein analysis in in-tact cells. FEBS Lett 554: 394–398

Simpson, J. C. et al. (2000): Systematic subcellular lo-calization of novel proteins identified by large scale cDNAsequencing. EMBO Rep 1: 287–292

Wiemann, S. et al. (2001): Toward a Catalog of Hu-man Genes and Proteins: Sequencing and Analysis of 500Novel Complete Protein Coding Human cDNAs. GenomeRes 11: 422–435

Wiemann, S. et al. (2003): The German cDNA Net-work: cDNAs, functional genomics and proteomics.J Struct Funct Genom 4: 87–96

Korrespondenzadresse:

PD Dr. Stefan WiemannAbteilung Molekulare GenomanalyseDKFZIm Neuenheimer Feld 580D-69120 HeidelbergTel.: 06221-42 4702Fax: 06221-4252 [email protected]

��