Haeseler, Liebers - Molekulare Evolution

Die Bände der Reihe Fischer Kompakt gliedern sich in vier Abschnitte.

Der GRUNDRISS gibt eine bündige Gesamtdarstellung des Themas.

Die VERTIEFUNGEN geben die Möglichkeit, verschiedene Facetten, die

im Grundriss angesprochen werden, genauer kennen zu lernen. Das

GLOSSAR erläutert zentrale Begriffe. Die LITERATURHINWEISE geben

Empfehlungen für weitere Lektüren. Laufend aktualisierte Hinweise

des Autors auf interessante Texte und Links sind im Internet zu fin

den unter www.fischer-kompakt.de/molekulare-evolution

S.109 Die Markierungen in der Marginalspalte, zusammen mit Her

vorhebungen im Text, verweisen auf einen entsprechenden

Abschnitt in den Vertiefungen.

Originalausgabe

Veröffentlicht im Fischer Taschenbuch Verlag,

einem Unternehmen der S. Fischer Verlag GmbH,

Frankfurt am Main, Mai 2003

Gestaltungskonzept/Umschlag/Satz:

Wolff Kommunikation, Frankfurt am Main

Grafiken: von Solodkoff, Neckargemünd

Druck und Bindung: Clausen & Bosse, Leck

Printed in Germany

ISBN 3-596-15365-4

www.fischer-kompakt.de/molekulare-evolution

MOLEKULARE EVOLUTION

GRUNDRISS

1.Einige Grundlagen der Vererbung .......................................3

DNA-ein Bote aus der Vergangenheit .......................................3

Die DNA und ihr Code ..............................................................5

Gene und Genom ....................................................................7

Die Protein-Biosynthese .........................................................10

2.Veränderungen einer DNA-Sequenz im Laufe der Zeit .....14

Mutationen in einer DNA-Sequenz .........................................14

Evolution einer DNA-Sequenz.................................................17

Lücken und Ergänzungen in DNA-Sequenzen .......................22

3. Eine kleine Baumschule .......................................................25

AllgemeineTerminologie .........................................................25

Phylogenetische Klassifikation ...............................................28

Die Zahl der Bäume ................................................................31

4. Molekulare Phylogenie ........................................................32

Maximum-Parsimonie .............................................................36

Distanzbasierte Methoden ......................................................41

Maximum-Likelihood ...............................................................45

Experimentelle und theoretische Phylogenien.........................48

Der Bootstrap .........................................................................55

5.Gen-Bäume in der Phylogenie ............................................56

Gen-Bäume in Spezies-Bäumen ............................................56

Widersprüche zwischen Gen-Bäumen und Spezies-Bäumen .58

Auswirkungen von Gen-Duplikationen auf Gen-Bäume ..........63

Gen-Duplikationen als Motor

der physiologischen Feinabstimmung .....................................64

6. Gen-Bäume in Populationen ...............................................66

Rekonstruktion der Populationsgeschichte

anhand von DNA-Sequenzen..................................................68

Die Genealogie einer Stichprobe

Wann lebte der jüngste Vorfahre

............................................70

der menschlichen Population? ................................................72

Demographie...........................................................................76

Wo kommen wir her? .............................................................85

7. Die Zukunft.............................................................................87

VERTIEFUNGEN

Molekulare Techniken.................................................................91

Genetische Drift ......................................................................100

Die neutrale Theorie der molekularen Evolution .......................101

Die molekulare Uhr ...................................................................103

Der Coalescent-Prozess...........................................................105

Die genetische Variabilität einer Population ............................109

Das Jukes-Cantor-Modell der Sequenzevolution .....................110

Wer sind die nächsten Verwandten der Wale? Ein nicht

sequenzbasierter Ansatz zur Aufklärung der Phylogenie .........112

»Fossile DNA« - eine Zeitreise in die Vergangenheit ..............115

ANHANG

Glossar ....................................................................................122

Literaturhinweise.......................................................................127

GRUNDRISS

1 EINIGE GRUNDLAGEN DER VERERBUNG

DNA - ein Bote aus der Vergangenheit

Die Menschheit ist nicht nur daran interessiert, ihre Zukunft zu deu

ten, sondern auch ihre Herkunft zu rekonstruieren. Zentrale Fragen

sind: Wo kommen wir her? Wie ordnen wir uns in die belebte Welt

ein? Und wie können wir alle Lebewesen in einem einheitlichen

Schema gruppieren, das uns hilft die Vielfalt des Lebens auf der Erde

und ihre Genese zu verstehen?

Carl von Linne (1707-1778) »sortierte« die Natur und gab den meis

ten Tieren und Pflanzen mittels der binären Nomenklatur eine syste

matische Zuordnung. Die Dynamik in der Entstehung der Vielfalt

blieb jedoch verborgen. Erst ein Jahrhundert später, auf einem Tref

fen der Londoner Linne an Society am 1. Juli 1858, haben Charles Dar

win (1809 -1882) und Alfred Rüssel Wallace (1823 -1913) ihre Ideen

zur Entstehung der Arten vorgetragen. Im Jahr darauf publizierte

Darwin sein bahnbrechendes Buch On the Origin of Species. Darwins

Theorie basierte entscheidend auf der Weitergabe von vererbbaren

Merkmalen. Die zugrunde liegenden Mechanismen waren zu dieser

Zeit jedoch noch unklar. Erst 1944 gelang dem amerikanischen Team

um Oswald Theodore Avery (1877 - 1955) der eindeutige Nachweis,

dass die Desoxyribonukleinsäure (desoxyribonucleic acid, abgekürzt

DNA) die erblichen Eigenschaften von den Eltern auf die Nachkom

men überträgt.

Vererbung beruht also auf einer stofflichen Weitergabe in Form

einer Umsetzung von Molekülen. Die DNA besteht aus vier Grund

bausteinen, nämlich den Basen Adenin (A), Cytosin (C), Guanin (G)

3

Einige Grundlagen der Vererbung

S.91

und Thymin (T). Die Molekular-Genetik beschreibt, wie aus der se

quentiellen Abfolge dieser vier Grundbausteine der gesamte Bau

plan für einen vollständigen Organismus entsteht und wie die Wei

tergabe der genetischen Information erfolgt. Da die DNA in fast

allen Lebewesen als Träger der Erbinformation fungiert, sind die ge

fundenen Prinzipien für die Umsetzung der genetischen Informa

tion in den Phänotypen nahezu allgemeingültig.

Rasch wurde klar, dass die DNA nicht nur für die Weitergabe der

Eigenschaften von Eltern auf ihre Kinder verantwortlich ist. Sie ist

auch ein »Dokument der Evolutionsgeschichte«, so Emile Zucker

kandl und Linus Pauling. Die DNA, die in heute lebenden Organismen

zu finden ist, gab in grauer Vorzeit ein Vorfahr an den Nächsten wei

ter. Im Laufe dieser Weitergabe wurde die DNA modifiziert. Nicht

mehr benötigte Segmentabschnitte gingen verloren, neue Sequenz-

abschnitte wurden erworben und wieder andere Abschnitte erfuh

ren kleine Veränderungen, da der Prozess der Informationsweiterga

be nicht fehlerfrei ist. Welche Modifizierungen auch immer eine

DNA erfahren hat, die heutigen Organismen zeigen Spuren dieser

Änderungen in ihrem Genom. Die Forschung zur molekularen Evolu

tion versucht diesen Prozess zu rekonstruieren und die Mechanis

men herauszuarbeiten, die zu der heutigen Vielfalt der Organismen

geführt haben.

Besonders in den letzten Jahrzehnten wurden völlig neue For

schungstechniken entwickelt. Beispiele sind die Klonierung von

DNA-Segmenten, die Sequenzierung der DNA und die Polymerase-

Kettenreaktion (PCR) (Molekulare Techniken). Mit der rasanten Ent

wicklung dieser molekularbiologischen Techniken gelang es, ein

detailliertes und immer umfassenderes Bild von den der Evolution

zugrunde liegenden Mechanismen zu entwickeln.

Insbesondere bei der Frage nach einem biologischen System der

Organismen erweist sich die Analyse von DNA- und Aminosäure

sequenzen als eine wertvolle Methode, um sowohl die Verwandt

4

Die DNA und ihr Code

Schaftsverhältnisse zwischen nah verwandten Arten zu studieren,

als auch einen Baum zu rekonstruieren, der die Evolutionsgeschichte

aller Organismen der Erde darstellt.

Die DNA und ihr Code

Die genetische Zusammensetzung eines Organismus wird im We

sentlichen durch die Nukleinsäuren bestimmt. Sie enthalten den

Bauplan, der die verschiedenen Bauphasen im Organismus steuert

und der als Kopie an die nächste Generation weitergegeben wird. Es

gibt in den Zellen zwei Arten von Nukleinsäuren, die Desoxyribonu

kleinsäure (DNA) und die Ribonukleinsäure (RNA). Nukleinsäuren

sind Makromoleküle. Ihre Grundbausteine sind Nukleotide, die ket

tenförmig miteinander verbunden sind. Jedes Nukleotid ist aus drei

Molekülen aufgebaut: einer stickstoffhaltigen, heterozyklischen Ba

se (N), einem Zucker (Z) und einer Phosphorsäure (P) (Abbildung la).

Als Zuckerbaustein dient bei der DNA die Desoxyribose, bei der

RNA ist es die Ribose. Als Basenanteile treten die Pyrimidinderivate

Thymin (T) und Cytosin (C) (einfache Ringstruktur) und die Purinde

rivate Adenin (A) und Guanin (G) (doppelte Ringstruktur) auf (Abbil

dung 1b). In der RNA kommt statt Thymin die Base Uracil (U) vor, die

chemisch nah verwandt ist mit Thymin.

Ein vollständiges DNA-Molekül besteht aus zwei gegenläufigen

Polynukleotid-Strängen (Abbildung 1c). Diese sind über Wasserstoff

brücken-Bindungen zu einem Doppelstrang so verknüpft, dass sich

immer Thymin beziehungsweise Cytosin des einen Strangs mit Ade

nin beziehungsweise Guanin vom anderen Strang paaren (Watson

Crick-Basenpaarung). Dabei werden zwischen Adenin und Thymin

zwei Wasserstoffbrücken-Bindungen (A=T) ausgebildet, zwischen

Guanin und Cytosin sind es drei (G==C). Zusätzlich sind diese zwei

Polynukleotid-Stränge noch spiralförmig umeinander gewunden,

und es entsteht die charakteristische Gestalt der DNA-Doppelhelix.

5


Abb.1: Schematischer Aufbau der DNA

In einer Nukleinsäure sind mehrere tausend Nukleotide zu einem

langen, unverzweigten Strang angeordnet. Die genetischen Infor

mationen werden in der unterschiedlichen Abfolge der vier Basen

entlang der jeweiligen Sequenz kodiert.

Die genetische Information einer DNA-Sequenz wird in der Pro

tein-Biosynthese an die Eiweißmoleküle (Proteine) weitergegeben,

die wiederum die spezifischen Merkmale eines Organismus prägen.

Die Bausteine der Proteine sind zwanzig verschiedene Aminosäuren;

am Aufbau der Nukleinsäuren hingegen sind nur die vier Basen be

teiligt. Zur Kodierung der zwanzig Aminosäuren sind daher spezifi

sche »Codewörter« notwendig. Sie geben an, aus welchen Nukleoti

den die Aminosäuren bestehen. Eine einfache Überlegung zeigt, dass

mindestens drei Nukleotide (zum Beispiel ACG) notwendig sind, um

6

Gene und Genom

alle Aminosäuren zu kodieren. Aus vier Nukleotiden können nur 16

Kombinationen von Zweiergruppen (zum Beispiel GC), wohl aber 64

Kombinationen von Dreiergruppen (wie CGA) gebildet werden. Je

weils drei Nukleotide lassen sich also zu einem Wort aus drei Buch

staben oder in der Sprache der Molekularbiologie zu einem Codon

oder Triplett zusammenfassen. So stehen genügend Wörter zur Ver

fügung, um jede Aminosäure durch die Abfolge von drei Nukleotiden

zu verschlüsseln. Die Übersetzung der Tripletts der DNA in Amino

säuren der mRNA zeigt Abbildung 2.

Die meisten Aminosäuren werden durch mehrere Tripletts kodiert.

So dienen als Codon für die Aminosäure Serin (Ser) die sechs Wörter

AGC, AGU, UCU, UCC, UCA oder UCG. Man spricht daher von der Re

dundanz des genetisches Codes. Eindeutig kann nämlich nur von der

DNA- beziehungsweise RNA-Sequenz auf die Aminosäure geschlos

sen werden, nicht jedoch umgekehrt von der Aminosäure auf die

Nukleotid-Sequenz. Lediglich für Tryptophan (Trp) und Methionin

(Met) gibt es allein ein einziges Schlüsselwort, nämlich UGG respek

tive AUG. Das AUG-Triplett hat weiterhin die Funktion eines so

genannten Startcodons, das den Beginn der kodierenden Sequenz

anzeigt. Jedes neu synthetisierte Protein beginnt also mit Methio

nin. Zu den so genannten Stoppcodons UGA, UAA, und UAG gehören

keine Aminosäuren. Diese Tripletts beenden die Protein-Biosynthese.

Gene und Genom

Der DNA-Strang enthält viele tausend Nukleotide. Aber nur einige

Abschnitte der DNA tragen die Informationen für den Bauplan eines

Organismus in sich. Diese Abschnitte heißen Gene. Sie enthalten die

Informationen zur Herstellung von spezifischen Proteinen und sind

daher im Wesentlichen für die Gestalt eines Lebewesens verant

wortlich. Für die Herstellung der Proteine müssen die Gene ihre Ko

dierung weitergeben, sie bilden die kodierende DNA.

7


Darüber hinaus gibt es in dem DNA-Strang zwischen den kodieren

den Bereichen weitere, häufig sehr lange Abschnitte, die keine Infor

mationen zur Herstellung von Proteinen tragen. Damit differenziert

sich der DNA-Strang in verschiedene Domänen: Gene, die ihre Kodie

rung weitergeben, bilden die funktionellen Bereiche der DNA. Die

anderen Abschnitte, die keine Kodierung tragen und daher auch

keine Kodierung weitergeben, bilden die nicht-kodierende DNA. Letz

tere machen bei den Lebewesen, die einen echten Zellkern haben

(Eukaryoten), den Großteil des Genoms aus (siehe Abbildung 3).

Seit langem bekannt ist die Unterteilung des Genoms in Chromo

somen. Im Kern einer menschlichen Körperzelle befinden sich 22 au

tosomale Chromosomen (griechisch auto = selbst, soma = Körper).

Sie steuern hauptsächlich die körpereigenen Prozesse. Die Chromo

somen unterscheiden sich in Form und Größe und liegen je zweimal

vor. Ein Pärchen gleichartiger Chromosomen heißt homolog (überein

stimmend). Hinzu kommen die Geschlechtschromosomen X und Y.

Bei männlichen Individuen gibt es ein X- und ein Y-Chromosom, bei

weiblichen Individuen zwei X-Chromosomen. Zellen, in denen die

Chromosomen doppelt vorliegen, heißen diploid (zweifach). Eine

diploide Zelle des Menschen enthält daher immer 46 Chromosomen,

zweimal 22 homologe Autosomen und zwei Geschlechtschromoso

men, entweder XY bei männlichen oder XX bei weiblichen Organis

men. In den menschlichen Keimzellen (Spermien und Ei) ist die

Anzahl der Chromosomen halbiert, sie enthalten nur je einen auto

somalen Chromosomensatz (n=22) und von den Geschlechtschro

mosomen entweder das Y- oder das X-Chromosom. In den reifen Ge

schlechtszellen befinden sich daher 23 Chromosomen. Im Gegensatz

zu den diploiden Körperzellen sind die Keimzellen haploid (einfach).

Die molekulare Differenzierung des menschlichen Genoms ist erst

in den letzten Jahren aufgeklärt worden. Nach der vollständigen Be

stimmung der Abfolge und Anzahl der Nukleotide wurde mit Er

staunen festgestellt, dass ca. 97% der drei Milliarden Basen nicht

8

Gene und Genom

Abb.2: Der genetische Code für die mRNA. Die Codons sind von innen nach außen

zu lesen und geben die Basenabfolge der mRNA-Codons wieder. Außerhalb des

Kreises stehen die Aminosäuren, die vom Triplett kodiert werden.

kodierende DNA sind. Sich vielfach wiederholende Abschnitte (re

petitive DNA) mit bisher unbekannter Funktion machen ca.40% des

gesamten Genoms aus. In der Forschung werden sie je nach Länge

als SINE, LINE oder Satelliten-DNA bezeichnet. Lediglich 3% des

menschlichen Genoms sind kodierende DNA. Neben den schät

9


zungsweise 30000-40000 Genen sind auch regulatorische Se

quenzen und spezielle RNA-Moleküle bei der Synthese von Proteinen

wichtig.

Das eukaryotische Genom enthält neben den im Zellkern lokali

sierten Chromosomen (auch Kern-DNA genannt) zusätzliche extra

chromosomale DNA, die in den Mitochondrien der Zellen vorkommt.

Sie heißt mitochondriale DNA (mtDNA). Beim Menschen handelt es

sich hierbei um ein kleines, ca. 16000 Basenpaare langes, ringförmi

ges DNA-Molekül. Die mtDNA wird in der Regel maternal vererbt.

Nur die Mütter geben das Mitochondrien-Genom an ihre Kinder

weiter, die väterliche mtDNA wird nicht vererbt. Im Unterschied zur

Kern-DNA ist die Abfolge der kodierenden Abschnitte nahezu lücken

los. Der einzige nicht-kodierende Abschnitt ist die Kontroll region

(Abbildung 3). Sie steuert die Replikation (originalgetreue Nachbil

dung) des ringförmigen Genoms. Eine weitere Eigenheit der mito

chondrialen DNA besteht darin, dass es nach dem derzeitigen Wis

sensstand so gut wie keine Rekombination gibt, das heißt es findet

kein Austausch zwischen verschiedenen DNA-Abschnitten statt. Die

se Tatsache macht die mtDNA besonders geeignet für evolutions

biologische Analysen.

Pflanzen besitzen noch ein weiteres, extra-chromosomales Ge

nom, das in den Plastiden der Zellen vorkommt und daher Plastiden-

Genom heißt. Zu den Plastiden zählen unter anderem die grünen

Chloroplasten, die maßgeblich für die Photosynthese verantwortlich

sind sowie die rötlich bis gelben Chromoplasten der reifen Früchte

und Blüten. Das Plastiden-Genom ist ebenfalls ringförmig geschlos

sen und hat eine Länge von 85000-190000 Basenpaaren.

Die Protein-Biosynthese

Ein Gen trägt die Information zur Bildung eines spezifischen Eiweiß

moleküls (Protein). Diese sind vorwiegend aus Aminosäuren aufge

10


Abb.3: Anteil kodierender und nicht-kodierender DNA im menschlichen Genom

11


baut. Ganz ähnlich wie bei der DNA bestimmt die Abfolge der Amino

säuren in der Proteinsequenz die charakteristischen Eigenschaften

dieses Proteins. Da die Gene in der Abfolge ihrer Nukleinsäuren die

Informationen zum Aufbau der Proteine enthalten, muss es einen

Mechanismus geben, der die Abfolge dieser Nukleinsäuren eines

Gens in eine Abfolge von Aminosäuren übersetzt. Dieser Vorgang ist

die Protein-Biosynthese, sie verläuft in zwei Schritten.

Bei den Eukaryoten befindet sich die DNA im Zellkern. Die Eiweiß

synthese erfolgt aber außerhalb des Zellkerns an den Ribosomen im

Cytoplasma. Daher muss in einem ersten Schritt die Information aus

dem Kern durch die Kernhülle zu den Ribosomen im Cytoplasma

transportiert werden. Diese Übertragung übernimmt ein einsträngi

ges RNA-Molekül. Da dieses die »Botschaft« nach außen überträgt,

heißt das Molekül messenger-RNA (mRNA oder Boten-RNA). Die

mRNA wird im Zellkern an der Kern-DNA gebildet. Die Basenfolge

(die genetische Information) der Kern-DNA wird dabei auf das neu

gebildete mRNA-Molekül übertragen (kopiert). Dieser erste Schritt

der Protein-Biosynthese wird Transkription (Abbildung 4) genannt.

Anstelle von Thymin in der DNA wird in die mRNA jedoch die Base

Uracil eingebaut.

Die mRNA gelangt durch die Kernporen in das Cytoplasma. Jetzt

beginnt der zweite Schritt in der Übertragung der genetischen Infor

mation der Kern-DNA auf die Proteinbildung. Im Cytoplasma heften

sich zwei Teile eines Ribosoms an die mRNA an und bilden ein funk

tionsfähiges Ribosom. Zugleich binden weitere RNA-Moleküle je

eine bestimmte, in den Zellen frei existierende Aminosäure an sich.

Diese RNA-Moleküle nennt man transfer-RNA oder tRNA. Sie trans

portieren die Aminosäuren zum Ribosom, wo sie unter Mitwirkung

der mRNA zu einem Polypeptid verknüpft werden. Die Reihenfolge,

in der die Aminosäuren zu einem bestimmten Protein zusammenge

setzt werden, wird durch die Abfolge der Codons in der mRNA

bestimmt. Dieser zweite Schritt, die Übersetzung der in der Basen

12


Abb.4: Die Teilprozesse der Protein-Biosynthese

abfolge der mRNA gespeicherten genetischen Information in eine

Abfolge von Aminosäuren in einem Protein, heißt Translation. Die

Stoppcodons auf der mRNA beenden die Translation. Das Polypeptid

und die tRNA verlassen die Ribosomen, die anschließend in ihre

Untereinheiten zerfallen.

13

Veränderungen einer DNA-Sequenz im Laufe der Zeit

2 VERÄNDERUNGEN EINER DNA-SEQUENZ IM LAUFE DER ZEIT

Mutationen in einer DNA-Sequenz

Die Vererbung der Eigenschaften eines Organismus auf seine Nach

kommen beruht auf der Bildung einer genauen Kopie der DNA. Die

Natur hat für diese Replikation der DNA viele Vorkehrungen getrof

fen, um den Kopierprozess möglichst fehlerfrei zu gestalten. Den

noch kommt es zu Fehlern. Die so genannten Mutationen (Verände

rungen) entstehen sowohl bei der Replikation als auch spontan durch

umweltbedingte Faktoren, wie beispielsweise radioaktive Strahlung

oder chemische Stoffe in der natürlichen und industriellen Umwelt.

Mutationen sind die entscheidende Kraft im Evolutionsgeschehen.

Sie sind zum einen verantwortlich für die genetischen Unterschiede

zwischen Individuen. Zum anderen sind Mutationen der Motor für

die Mannigfaltigkeit beziehungsweise Vielgestaltigkeit des Lebens,

die dann auf dem Prüfstand der Selektion auf ihre Lebensfähigkeit

getestet wird. Aus dieser Vielfalt der Mutationen interessieren in der

Erforschung der molekularen Evolution nur jene Veränderungen, die

sich in den Geschlechtszellen (Keimbahn) manifestieren. Nur diese

Mutationen werden an die Nachkommen sich sexuell fortpflanzen

der Organismen weitergegeben. Veränderungen, die andere Körper

zellen betreffen (somatische Mutationen), werden nicht vererbt und

sind daher für die Rekonstruktion der molekularen Evolutionsge

schichte ohne Bedeutung.

Mittlerweile sind eine Vielzahl unterschiedlicher Mutationstypen

bekannt. So kann in einer DNA-Sequenz ein Nukleotid durch ein an

deres ersetzt werden (Punktmutation). Nur wenn die Reparaturme

chanismen der Zelle diese Änderung nicht erkennen und korrigieren,

sprechen wir von einer Substitution. Typische Substitutionen sind

14

Mutationen in einer DNA-Sequenz

Abb.5: Schema der möglichen Nukleotidsubstitutionen

die vielen Einzel- oder Single-Nukleotid-Polymorphismen (abgekürzt

SNP), die im Zuge der Sequenzierung des menschlichen Genoms

gefunden wurden.

Nukleotidsubstitutionen treten als Transitionen und Transversio

nen auf. Eine Transition ist ein Basenaustausch zwischen Pyrimidi

nen (Cytosin ļ Thymin) oder zwischen Purinen (Adenin ļ Guanin).

Bei der Transversion kommt es zu einem Austausch zwischen einer

Purin- und einer Pyrimidinbase (Abbildung 5).

Für das Auftreten einer Transversion gibt es prinzipiell zwei Mög

lichkeiten, für eine Transition existiert hingegen nur eine Option.

Daher liegt der Schluss nahe, dass Transversionen zweimal häufiger

vorkommen als Transitionen. Beim Auszählen der Unterschiede zwi

schen nah verwandten Sequenzen bestätigt sich diese einfache An

nahme jedoch nicht. Transitionen finden wesentlich häufiger statt

als Transversionen. Diese Tatsache muss bei der Analyse von DNA-

Sequenzen berücksichtigt werden.

15


Hat der Austausch eines Nukleotids keinen Einfluss auf die kodierte

Aminosäure (siehe Abbildung 2), handelt es sich um eine synonyme

Substitution. Dagegen ändert eine nicht-synonyme Substitution die

Aminosäure. Synonyme Substitutionen erfolgen meist an den drit

ten Codonpositionen, die im Wesentlichen die Redundanz des gene

tischen Codes bestimmen.

Außerdem gehen im Verlauf der Zeit Stückchen der DNA verloren

(Deletion) oder werden hinzugewonnen (Insertion). Die Einheit einer

Deletion oder Insertion kann ein einzelnes Nukleotid sein, oder es

können auch ganze Abschnitte von Nukleotiden sein. Darüber hin

aus gibt es großräumige Veränderungen des genetischen Materials

wie Translokationen und Inversionen, bei denen ganze Chromoso

men-Abschnitte verlagert oder verdreht werden. Erstaunlicherweise

ist die Natur so flexibel, dass eine solche Umgruppierung von DNA-

Abschnitten nicht zwangsläufig zur Funktionsunfähigkeit des be

troffenen Organismus führen muss.

Einer der wichtigsten genetischen Prozesse in der Evolution ist die

Duplikation (Verdopplung) von Genen oder ganzer genomischer

Abschnitte. Dadurch erhält der Organismus zwei Kopien desselben

Gens. Eine der beiden Kopien kann eine neue Funktion bekommen

oder aber seine Funktionsfähigkeit verlieren. Ein klassisches Beispiel

sind die wiederholten Genduplikationen in der Superfamilie des Glo

bingens, die sowohl den Sauerstofftransport in den Muskeln (Myo

globin) als auch im Blut (Hämoglobin) regulieren. Dabei werden die

sehr unterschiedlichen Sauerstoff-Bedürfnisse im Embryo respektive

im erwachsenen Organismus berücksichtigt. Andere DNA-Abschnit

te sind ganz ähnlich wie die Globingene aufgebaut, aber sie funktio

nieren nicht, weil sie durch Deletionen und Insertionen unter

brochen sind. Diese »Karikaturen« aktiver Gene werden Pseudogene

genannt.

16

Evolution einer DNA-Sequenz


Mutationen verändern die Basenabfolge der DNA-Sequenz. Bei jeder

Substitution ändert sich durch den Austausch eines Nukleotids auch

die in der DNA gespeicherte Information. Als eine zentrale Annahme

gilt in der molekularen Evolutionstheorie, dass diese Änderungen ei

nem stochastischen, das heißt einem Zufallsprozess unterliegen. Zu

jedem gegebenen Zeitpunkt ist es möglich, dass eine Substitution

erfolgt und ein Nukleotid der Sequenz durch ein anderes ersetzt

wird. Prinzipiell sind solche Ersetzungen an jeder Position eines

DNA-Stranges möglich. Es gibt allerdings bestimmte, meist konser

vative Regionen in der DNA-Sequenz, in denen eine einzige Substitu

tion bereits die Funktion des resultierenden Proteins beeinträchtigt.

Hierzu zählt etwa die Änderung der Raumstruktur eines Moleküls,

die möglicherweise eine verringerte Bindungsaffinität für bestimm

te Gase oder Mineralien bewirkt. Ist eine Mutation nachteiligfür den

Träger, wird aufgrund der reduzierten Fitness (weniger oder keine

Nachkommen) diese Mutation wieder verloren gehen. Bei neutralen

Substitutionen entscheidet der Zufall, ob die neue Mutante in der

Population fixiert wird (Die neutrale Theorie der Molekularen Evolu

tion, Genetische Drift). Die Auswertung von Aminosäure-Sequenzen

zeigt, dass verschiedene Proteine unterschiedliche Substitutionsra

ten haben, wobei es noch einen deutlichen Unterschied zwischen

synonymen und nicht-synonymen Austauschen gibt (Tabelle 1). So

zählen die Histone, die in den Kernen aller Tier- und Pflanzenzellen

vorkommen und die dichte Verpackung des Genoms im Zellkern ge

währleisten, zu den höchst konservierten Genen überhaupt. Vom

Histon 3 und Histon 4 ist keine nicht-synonyme Substitution be

kannt. Die Gene aus der Globinfamilie zeigen geringe (D-Globin,

Myoglobin) bis moderate (E-Globin) Austauschraten.

Die Substitutionsraten in Tabelle i sind Schätzungen. Es ist nicht

möglich, eine DNA-Sequenz über eine Milliarde Jahre zu beobachten

S.101

S.100

17


Tabelle 1: Substitutionsraten für fünf proteinkodierende Gene. Die Rate ist als mitt

lere Zahl an Substitutionen pro Position und pro 1 Milliarde Jahre angegebene AS

= Aminosäure.

und die in dieser Zeit erfolgenden Substitutionen in der Keimbahn

mitzuzählen. Vorteilhaft wäre es zwar, wäre die Zahl der Substitutio

nen in diesem Zeitraum doch ein Maß für die Evolutionsgeschwin

digkeit des Sequenzabschnittes, und die Substitutionsrate ließe sich

direkt berechnen. Zum Glück stellen Mathematiker Modelle der Se

quenzevolution bereit, um die Substitutionsrate zu ermitteln.

Für das Entwickeln eines solchen Modells soll angenommen wer

den, dass sowohl die ursprüngliche Sequenz als auch die heutige Se

quenz und zudem die dazwischenliegende Zeitspanne bekannt sind.

Unter der Annahme, dass nur Substitutionen erfolgten, kann dann

jeder Position der heutigen Sequenz ihre Position in der ursprüng

lichen Sequenz zugeordnet werden (Abbildung 6). Unterscheidet

sich ein »heutiges« Nukleotid von dem Nukleotid der ursprünglich

en Sequenz, fand mit Sicherheit an dieser Position mindestens ein

Austausch statt. Da nur das Endprodukt und das Anfangsprodukt

bekannt sind, können an dieser Position aber auch zwei, drei, vier und

mehr Substitutionen stattgefunden haben.

Sind zwei Nukleotide an einer Position gleich, können dennoch im

Laufe der Zeit zwei, drei, vier und mehr Mutationen eingetreten sein,

18


Abb.6: Modell für die Veränderung einer DNA-Sequenz im Laufe der Zeit.

Zwischen einer Vorfahr-Sequenz und einer heutigen Sequenz sind acht Generatio

nen vergangen. Punkte stehen für identische Basen, ein Strich (-) markiert eine

Deletion, das heißt den Verlust eines Nukleotids. Pfeile symbolisieren jeweils eine

Substitution (schwarzer Pfeil = Transition, grüner Pfeil = Transversion) beziehungs

weise Deletion (grauer Pfeil). Die Veränderungen führen zu unterschiedlichen

Ergebnissen, das sind einfache (*) und multiple ($) Substitutionen, Rückmutatio

nen (§) oder Deletionen (-).

eventuell aber auch gar keine. Wird also nur die Zahl der unter

schiedlichen Nukleotidpaare registriert, dann wird die Zahl der Sub

stitutionen unterschätzt. Die Wahrscheinlichkeit für diese mehrfa

chen (multiplen) Substitutionen hängt von der betrachteten

Zeitspanne und von der Substitutionsrate der Sequenz ab. Je weni

ger Zeit vergangen ist und je kleiner die Substitutionsrate ist, desto

unwahrscheinlicher sind multiple Ereignisse an einer Position.

Um aus der beobachteten Zahl an unterschiedlichen Nukleotidpo

sitionen zwischen zwei Sequenzen auf die Zahl der tatsächlich statt

gefundenen Mutationen zu schließen, sind in den letzten Jahrzehn

ten eine Vielzahl von mathematischen Modellen entwickelt worden.

Abbildung 7 zeigt für das Jukes-Cantor-Modell der Sequenzevolution

den Zusammenhang zwischen der Anzahl an stattgefundenen und

der Anzahl an beobachteten Substitutionen. Die schwarze treppen

19

S.110


förmige Kurve stellt die jeweils bis zu einem bestimmten Zeitpunkt

ausgezählten Substitutionen dar. Die lineare Kurve der tatsächlichen

Substitutionen (mit weißen Symbolen) berücksichtigt die nicht be

obachtbaren Parallel- und Rückmutationen. Aus der Kurve der be

obachteten Substitutionen muss also auf die Kurve der tatsäch

lichen Substitutionen geschlossen werden. Es wird also nach einer

Funktion, nämlich der Korrekturkurve gesucht, die aus der Anzahl der

beobachteten Substitutionen die tatsächliche Anzahl an Basenaus

tauschen bestimmt.

Auch wenn die mathematischen Details von Modell zu Modell

variieren, zeigen die Korrekturkurven (siehe Abbildung 7) bei allen

Modellen dennoch einen ähnlichen Verlauf: Haben erst wenig

Substitutionen stattgefunden, gibt es einen linearen Zusammen

hang zwischen stattgefundenen und beobachteten Substitutionen.

Nimmt die Anzahl der Substitutionen zu, nimmt die Steigung des

Graphen ab. Schließlich erreicht die Kurve die so genannte Sätti

gung. Der Unterschied zwischen einer Ursprungssequenz und ihrem

Nachfahren ist dann im Mittel genauso groß wie zwischen zwei zu

fälligen, nicht miteinander verwandten Sequenzen. Alle Spuren der

gemeinsamen Vergangenheit zwischen Ursprungs- und Nachfah

ren-Sequenz sind damit ausgelöscht.

Anders als im mathematischen Modell ist in der molekularen Evo

lutionsforschung die ursprüngliche Sequenz, das heißt die Vorfahr-

Sequenz der heutigen Sequenz, unbekannt. Für die benutzten Sub

stitutionsmodelle ist dies auch gar nicht notwendig. Es reicht, zwei

heutige DNA-Sequenzen zu kennen, von denen mit Sicherheit fest

steht, dass sie auf eine gemeinsame Vorfahrensequenz zurückge

hen. Aus einem Vergleich der zwei Sequenzen wird die Anzahl der

variablen Positionen (beobachteten Substitutionen) ermittelt. Dann

kommen Korrekturkurven wie in Abbildung 7 zur Anwendung. Sie

erlauben Rückschlüsse über die Anzahl der tatsächlich stattgefunde

nen Substitutionen, die zwischen der gemeinsamen Vorfahr

20


Abb.7: Jukes-Cantor-Modell der Sequenzevolution

21


Sequenz und den heutigen Sequenzen stattgefunden haben. Nicht

abschätzen lässt sich die Zeit, in der sich die heutigen Sequenzen aus

ihrer gemeinsamen Vorfahr-Sequenz entwickelt haben. Daher kann

nicht ohne weiteres eine Substitutionsrate wie in Tabelle i angege

ben werden. Ursache dieser Beschränkung ist die strenge Proportio

nalität d ~ P · t

zwischen der Anzahl d der Substitutionen und dem Produkt aus Sub

stitutionsrate P der Sequenz und der evolutionären Zeitspanne t. Um aus der Anzahl der Substitutionen auf die Substitutionsrate zu

schließen, sind Informationen über den Zeitpunkt erforderlich, an

dem sich die beiden heutigen Sequenzen aus einer Vorfahr-Sequenz

entwickelt haben. Als Kalibrierungspunkte eignen sich die aus fossi

len Befunden gewonnenen Zeitpunkte für die Aufspaltung der je

weiligen Arten.

Die vorangegangenen Betrachtungen stellen die Grundprinzipien

eines Sequenzmodells der Evolution vor. Beim Vergleich biologischer

Daten zeigt sich jedoch, dass Transitionen wesentlich häufiger erfol

gen als Transversionen. Diese Beobachtung wird bei weiterführen

den Substitutionsmodellen bedacht. Zusätzlich können die Modelle

berücksichtigen, dass einige Positionen aufgrund funktioneller

Zwänge - wie einer bestimmten Raumstruktur des Proteins - lang

samer evolvieren als andere.

Lücken und Ergänzungen in DNA-Sequenzen

Bei der Analyse von DNA-Sequenzen stellte sich heraus, dass im Mu

tationsgeschehen nicht nur Substitutionen vorkommen. Auch Inser

tionen und Deletionen treten selbst in kodierenden Regionen auf. Sie

können dabei zum Teil eine erhebliche Größenordnung erreichen. In

einem Vergleich zweier Sequenzen zeigen sich daher nicht nur Po

sitionen mit unterschiedlicher Nukleotidpaarung, sondern die Se

22

Lücken und Ergänzungen in DNA-Sequenzen

quenzen haben darüber hinaus aufgrund von Insertionen und Dele

tionen (kurz Indels) auch verschiedene Längen. Anhand der Buch

stabenabfolgen der DNA-Sequenzen ist nicht zu erkennen, wo und

wie viele Indels erfolgt sind. Ein Problem der molekularen Evolution

ist die Rekonstruktion dieser Indels, um so sicherzustellen, dass bei

der Auszählung der paarweisen Nukleotidunterschiede auch tat

sächlich orthologe, das heißt ursprungsgleiche Positionen verglichen

werden. Die Prozedur, jene Stellen zu lokalisieren, an denen In

sertionen respektive Deletionen stattgefunden haben, erhielt den

Fachterminus Alignierung. Ergebnis der Prozedur ist das Alignement.

Dies erinnert mit seinem lateinischen Wortstamm linea an das Ab

stecken einer Linie, in der etwas angeordnet werden soll. Ziel eines

Sequenzalignements ist es, die Sequenzen so untereinander zu

schreiben, dass sie die gleiche Länge haben und dabei orthologe

Positionen einander zugeordnet werden. Dazu müssen die Indels

(die verlorenen oder hinzugewonnenen Stückchen DNA) mit erfasst

werden. Hierfür dient das Zeichen »-«, das als Lücke (gap) eingefügt

wird, sozusagen als Platzhalter für fehlende Nukleotide.

Bei einer Beschränkung auf zwei Sequenzen lässt sich das Problem

in einem so genannten dot-plot in Form einer Matrix veranschau

lichen (Abbildung 8). Die erste Zeile des dot-plot repräsentiert die

Sequenz i aus Abbildung 6, die erste Spalte die Sequenz 2 aus Abbil

dung 6. Stimmen die Nukleotide an einem Positionspaar der Se

quenzen überein, wird das entsprechende Feld mit einem Punkt (dot)

markiert. Stimmen sie nicht überein, bleibt das Feld frei. Dann sucht

man durchgehende oder »geknickte« Diagonalen. Lange Diagonalen

deuten auf Regionen, in denen beide Sequenzen sehr ähnlich bezie

hungsweise identisch sind. Das Ziel der Auswertung solcher dotplots besteht darin, den optimalen (»besten«) Weg durch diese

Matrix zu finden, der möglichst viele identische Nukleotidpaare auf

sammelt und so zu durchgehenden Diagonalen führt, ohne unnötig

viele Indels einzubauen, welche die »Knicke« verursachen. Dazu wer

23


Abb.8: Evolution der Sequenz aus Abbildung 6 in Form eines dot-plot

den computergestützte Algorithmen verwendet, die aus der Vielzahl

an möglichen Wegen den optimalen bestimmen.

Die biologischen Mechanismen für Insertionen und Deletionen

sind noch nicht ausreichend verstanden, daher sind die derzeitigen

Methoden der Sequenzalignierung noch sehr heuristisch. In prakti

schen evolutionsbiologischen Anwendungen findet meist eine Nach

bearbeitung des Ergebnisses durch »visuelle Begutachtung« statt.

Dies ist besonders dann der Fall, wenn mehr als zwei Sequenzen in

einem so genannten multiplen Sequenzalignement verglichen oder

aneinander ausgerichtet werden.

Bei einem paarweisen Alignement zweier Sequenzen gehen Posi

tionspaare auf eine gemeinsame Vorfahrposition zurück. Einem

multiplen Alignement liegt die Annahme zugrunde, dass jeweils

eine Spalte des multiplen Alignements auf eine gemeinsame Vor

fahrposition zurückgeht. Paarweise und multiple Sequenzaligne

ments sind der Ausgangspunkt für phylogenetische und popula

tionsbiologische Studien.

24

Eine kleine Baumschule

Abb. 9: Ein schematischer Baum mit den wichtigsten anatomischen Begriffen

3 EINE KLEINE BAUMSCHULE

Allgemeine Terminologie

Die in diesem Buch verwendeten Begriffe veranschaulicht Abbildung

9. Mathematiker und Biologen haben sehr unterschiedliche Vorstel

lungen von einem Baum. So sprechen die Mathematiker von Kanten

und Knoten (abgeleitet aus der Grafentheorie), während Biologen

Äste und Verzweigungen vor Augen haben (ganz wie bei Bäumen in

der Natur). Im phylogenetischen Kontext ist ein Baum (Dendro

gramm) eine mathematische Konstruktion, welche die stammesge

schichtlichen Verwandtschaftsverhältnisse (Phylogenie) einer Grup

pe von Lebewesen widerspiegelt.

Ein Stammbaum besteht aus Knoten (Verzweigungspunkten), die

durch Kanten (Äste) miteinander verbunden sind. Die äußeren Kno

25


ten (endständiges Taxon oder OTU, Abkürzung für Operational Taxonomic Unit) repräsentieren Organismen, für die reale Daten (zum

Beispiel DNA-Sequenzen oder morphologische Messwerte) vorlie

gen. Innere Knoten symbolisieren hypothetische Vorfahren für jene

Taxa, die sich in einem anschließenden Speziations- beziehungs

weise Aufspaltungsprozess in zwei Tochterlinien geteilt haben. Der

Vorfahre aller im Datensatz enthalten DNA-Sequenzen oder Orga

nismen ist die Wurzel des Baums. In der phylogenetischen Systema

tik wird die Wurzel auch als Stammart bezeichnet. Ein Baum mit

einer Wurzel heißt gewurzelter Baum.

Knoten und Kanten eines Baumes enthalten eine Vielzahl von In

formationen. So wird zum Beispiel beim Maximum-Parsimonie-Ver

fahren jedem inneren Knoten ein diskreter Merkmalszustand, zum

Beispiel eine DNA-Sequenz, zugeordnet. Viele Verfahren berechnen

auch die evolutionäre Zeit, die zwischen zwei Aufspaltungsereignis

sen verstrichen ist, die sich in der Länge einer Kante (Astlänge) wi

derspiegelt.

Während äußere Knoten (endständige Taxa) mit einer äußeren

Kante verbunden sind, laufen auf innere Knoten drei oder mehr Kan

ten zu. Wenn ein Knoten genau drei Kanten hat, besitzt er einen Vor

fahren und zwei Nachfahren. In diesem Fall spricht man von einer

dichotomen (zweigeteilten) Verzweigung. Enthält ein Baum an den

inneren Knoten ausschließlich dichotome Verzweigungen, ist er voll

ständig aufgelöst. Gibt es an einem inneren Knoten mehr als zwei

Nachfahren, ist dies eine polytome, das heißt vielfache Verzweigung.

Polytomien symbolisieren entweder die zeitgleiche Aufspaltung in

mehrere Nachfahren oder eine noch nicht geklärte Beziehung zwi

schen den untersuchten Organismen. Im zweiten Fall fand die Auf

spaltung nicht zwangsläufig zum gleichen Zeitpunkt statt, sondern

die Abfolge der Ereignisse ist noch unsicher. In der Regel ist es sehr

unwahrscheinlich, dass sich mehr als zwei phylogenetische Linien

zum exakt gleichen Zeitpunkt aufspalten. Daher kann in den meis

26

Allgemeine Terminologie

Abb.10: Verschiedene Topologien mit der dazugehörigen Kurzschreibweise in

Klammernotation

ten Fällen davon ausgegangen werden, dass es zwar eine dichotome

Baumstruktur gibt, die herangezogenen Merkmale aber die zeitliche

Abfolge der Aufspaltung nicht auflösen können.

Es gibt zahlreiche Möglichkeiten der Baumdarstellung (Abbildung

10). Nicht immer unterscheiden sich die Bäume in ihrer Topologie,

das heißt in ihrem Verzweigungsmuster. Manchmal sind es lediglich

verschiedene grafische Darstellungen, da sich die Kanten eines Bau

mes um jeden inneren Knoten beliebig drehen lassen, ohne dass sich

die relativen Beziehungen zwischen denTaxa ändern.

Phylogenetische Bäume können computerfreundlich in Klammer

notation dargestellt werden (Abbildung 10). Jeder innere Knoten

(jeder clade) ist durch ein Klammerpaar repräsentiert, das alle Nach

kommen dieses Knotens einschließt. Alle Nachkommen eines inne

ren Knotens bezeichnet man manchmal auch als Cluster. So stehen

in den drei linken Bäumen in Abbildung 10 die Klammern (D,E) und

(A,B,C) für die oberen Knoten und die Klammer ((D,E) (A,B,C)) für die

Wurzel. Mit dieser einfachen Schreibweise lässt sich die Topologie je

des Baumes darstellen. Was hier noch fehlt, sind Informationen über

die Kantenlängen und damit über die evolutionären Zeiten. Compu

27


S.103

terprogramme, die phylogenetische Bäume berechnen, speichern

neben der Topologie auch die Länge jeder Kante.

Für die Darstellung unterschiedlicher evolutionärer Fragestellun

gen gibt es auch unterschiedliche Bäume. Die einfachste Form ist

das Cladogramm, das lediglich die relativen Beziehungen der Taxa

zueinander darstellt. Die Kantenlänge ist hierbei ohne jede Bedeu

tung. Ein Phylogramm enthält zusätzliche Informationen über die

Länge der Kanten, zum Beispiel die Anzahl an Substitutionen. Solche

Bäume werden auch als additive oder metrische Bäume bezeichnet.

Im Dendrogramm sind die äußeren Knoten alle gleich weit von der

Wurzel entfernt. Ein Dendrogramm ist also ein Spezialfall des Phylo

gramms. Dendrogramme werden benutzt, um unter Verwendung

der molekularen Uhr die Evolutionszeiten der einzelnen Organismen

darzustellen.

Im gewurzelten Baum wird ein Knoten als Wurzel deklariert (siehe

Abbildung 9), der hypothetische Vorfahre aller untersuchten Lebe

wesen. Ein gewurzelter Baum hat folglich eine Lesrichtung, die pa

rallel zur evolutionären Zeit verläuft. Somit gibt es eine eindeutige

Beziehung zwischen älteren Vorfahren (deren Knoten näher an der

Wurzel stehen) und jüngeren Nachkommen (deren Knoten weiter

von der Wurzel entfernt sind).

Phylogenetische Klassifikation

Bezüglich der Abstammung einzelner Organismen oder Taxa gibt es

drei Szenarien, die in Abbildung 11 durch grüne Linien gekennzeich

net sind.

Eine monophyletische Gruppe (griechisch monophylos = aus einem

Stamme) (Abbildung 11a) ist von einem gemeinsamen Vorfahren ab

leitbar und enthält sämtliche Nachkommen der Stammart. Ein Bei

spiel hierfür sind Mensch und Schimpanse, die als Schwesterarten

oder nächste Verwandten bezeichnet werden. Weitere Monophyla

28

Phylogenetische Klassifikation

sind etwa die Gruppe der Säugetiere, die Gruppe der Wirbeltiere oder

die Gruppe der Vögel.

Eine paraphyletische Gruppe (griechisch para = abweichend) (Ab

bildung 11b) umfasst nicht alle Nachkommen einer Stammart. Ein

Beispiel sind die Reptilien. Traditionell schließen sie nur die Schild

kröten, Eidechsen und Krokodile ein. Dagegen gehören die Vögel

nicht zu den Reptilien, obwohl sie die nächsten Verwandten der Kro

kodile sind (Archosaurier).

Eine polyphyletische Gruppe (Abbildung nc) umfasst Arten oder

Taxa, die nicht direkt verwandt sind, sondern aus zwei oder mehr Ent

wicklungslinien stammen. Aufgrund von Konvergenz in bestimm

ten, meist morphologischen Merkmalen, wurden sie in eine Gruppe

zusammengefasst. So bilden etwa die Geier der Alten Welt und der

Neuen Welt eine polyphyletische Gruppe. Die jeweilige Schwester

gruppe sind die Störche beziehungsweise die Greifvögel. Die Geier

der Alten und Neuen Welt sind sich aber darin ähnlich, dass sie Aas

fresser sind, einen typischen Hakenschnabel haben und ihr Kopfge

fieder reduziert ist.

Ungewurzelte Bäume haben keine Zeitachse, so dass die Vorfah

ren-Nachkommen-Beziehungen nicht geklärt sind. Zur Berechnung

der Bäume erzeugen viele Computerprogramme nur ungewurzelte

Bäume. Ein Ausweg ist die Einbeziehung einer Außengruppe.

Ein Beispiel hierfür ist der ungewurzelte Baum für Mensch, Schim

panse, Gorilla und Orang-Utan in Abbildung 12. Er hat fünf Kanten

(i bis 5). Soll hieraus ein gewurzelter Baum entstehen, kann die Wur

zel an jede der fünf Kanten platziert werden. Vier der fünf Wurzelun

gen sind aber biologisch sinnlos, da Mensch, Schimpanse und Gorilla

im Verhältnis zum Orang-Utan eine monophyletische Gruppe sind,

die sich aus einer gemeinsamen Stammart entwickelt haben. Wenn

also bekannt ist, dass eine Gruppe von Organismen monophyletisch

ist, so kann, durch Hinzufügen einer weiteren Art, die nicht diesem

Monophylum angehört, der Baum gewurzelt werden. Diese Art wird

29


Abb.11: Mögliche Schwestergruppen-Beziehungen in einem Baum

30

Die Zahl der Bäume

Abb.12: Gewurzelte und ungewurzelte Bäume. Aus einem ungewurzelten Vier

Sequenzen-Baum lassen sich fünf gewurzelte Bäume ableiten. Die Anzahl gewur

zelter Bäume resultiert aus der Zahl der Kanten (1-5). M = Mensch, S = Schimpan

se, G = Gorilla, O = Orang-Utan.

als Außengruppe bezeichnet. Der Orang-Utan ist daher die Außen

gruppe für Mensch, Schimpanse und Gorilla.

Die Zahl der Bäume

Die Rekonstruktion eines phylogenetischen Baumes ist ein immen

ses Problem, weil allein schon die Anzahl der möglichen Verzwei

gungsmuster mit der Anzahl der untersuchten Organismen expo

31


nentiell wächst. Interessieren nur zwei Sequenzen, zum Beispiel von

Mensch und Schimpanse, so gibt es lediglich einen einzigen Baum

(Abbildung 13, Mitte oben). Wird als dritte Sequenz der Gorilla einbe

zogen (schwarzer Pfeil in Abbildung 13), gibt es - unter der Annahme,

dass keine Information über die Lage der Wurzel vorliegt - auch nur

einen Baum. Sobald als vierte Sequenz der Orang-Utan hinzukommt,

entstehen jedoch drei mögliche Bäume (grüne Pfeile in Abbildung^).

Die Topologie der drei ungewurzelten Vier-Spezies-Bäume hängt da

von ab, an welche Kante diese Sequenz eingefügt wird. Für eine fünfte

Sequenz, etwa die des Gibbon, stehen dann drei Bäume mit jeweils

fünf Kanten zur Verfügung. (In Abbildung 13 sind nur die fünf

Bäume für die untere Gruppe eingezeichnet.) Somit können für fünf

Sequenzen insgesamt 15 verschiedene Fünf-Spezies-Bäume (mit sie

ben Kanten) erzeugt werden. Für eine sechste Sequenz stehen dann

15 Bäume mit je sieben Kanten zur Verfügung, so dass insgesamt 105

Sechs-Spezies-Bäume erzeugt werden können. Für zehn Sequenzen

gibt es bereits 2 027 025 verschiedene Verzweigungsmöglichkeiten.

Für 22 Sequenzen stehen 3,2-io23 Bäume zur Auswahl und jeder muss

als mögliche Hypothese über die Verwandtschaftsverhältnisse ge

prüft werden. Allgemein berechnet sich die Zahl der Bäume für n›3

Sequenzen aus der Formel

B(n) = 1 · 3 · 5 · ... · (2n–5).

4 MOLEKULARE PHYLOGENIE

Die Evolution einer DNA-Sequenz als Träger der Erbinformation und

als Bote dieser Information in die nächste Generation erfordert El

tern und Nachkommen dieser Eltern. Durch den lückenlosen Fortbe

stand einer Ahnenreihe, auch Linie genannt, können die jeweiligen

Gene beziehungsweise DNA-Sequenzen »weiterleben« und ihre Ge

32

Molekulare Phylogenie

Abb.13: Genese von ungewurzelten Bäumen am Beispiel der Primaten (M =

Mensch, S = Schimpanse, G = Gorilla, O = Orang-Utan und B = Gibbon). Für zwei

Sequenzen (M, S) gibt es nur eine Topologie, den Zwei-Sequenzen-Baum. Auch drei

Sequenzen (M, S, G) lassen sich nur in einem einzigen Baum darstellen. Vier

Sequenzen ergeben drei mögliche Topologien, nämlich (M,S)(G,O), (M,O)(G,S) und

(O,S)(M,G) mit jeweils fünf Kanten. Wird eine fünfte Sequenz (B) einbezogen, kann

diese an jeder Kante eingefügt werden, so dass es insgesamt 15 mögliche Topolo

gien gibt.

33


S.115

S.105

schichte an nachfolgende Generationen weitergeben. Hat ein Indivi

duum keine Nachfahren, stirbt dessen Linie aus und mit ihr gehen

alle in der DNA enthaltenen Informationen verloren. Ausgehend von

einer heutigen Sequenz lassen sich daher kontinuierliche Ahnenrei

hen rückwärts in der Zeit konstruieren, von einer Generation zur vor

herigen.

Die heutigen DNA-Sequenzen sind jeweils das Produkt ihrer indivi

duellen Ahnenreihe (»Fossile DNA«). So unterschiedlich Lebewesen

auch sind, letztlich gehen sie auf einen gemeinsamen Ursprung zu

rück. Daher werden DNA-Sequenzen verschiedener Individuen frü

her oder später auf eine gemeinsame Vorfahr-Sequenz treffen. Man

sagt auch, bei einer rückwärtigen Verfolgung in die Vergangenheit

verschmelzen die Linien, was im Englischen durch den Begriff Coales

cent ausgedrückt wird. Diese sehr abstrakt und vage anmutende Be

hauptung findet eine formale Rechtfertigung in der Populationsge

netik (Coalescent-Prozess).

Rezente DNA-Linien verschmelzen »beim Marsch in die Vergan

genheit«, bis nur noch eine DNA-Linie vorhanden ist. Das ist der

jüngste gemeinsame Vorfahre aller Linien, der most recent common ancestor, kurz MRCA. In Abbildung 14 ist die Phylogenie von sechs

heutigen RNA-Sequenzen Si bis S6 dargestellt. Dabei stehen Si für

die Sequenz des Menschen, S2 für die Bäckerhefe, S3 für die Nackt

samer-Pflanze Gnetum, S4 für ein Halobakterium, S5 für eine Blaual

ge und S6 für das Bakterium Escherichia coli. Begibt man sich in dem

Baum dieser sechs Taxa entgegen der Zeitachse, trifft man in der Ver

gangenheit (ganz links) auf den MRCA der dargestellten sechs

Sequenzen.

Der Prozess kann auch von der Vergangenheit in die Gegenwart

betrachtet werden: Ausgehend von einem einzigen Vorfahren, dem

MRCA, spalten sich die Linien im Laufe der Zeit in dessen Nachkom

men auf. Dieser Vorgang wird als Divergenz bezeichnet. Im phyloge

netischen Kontext heißt dies, dass sich die Nachkommen einer

34


Abb.14: Divergenz und Coalescent als komplementäre Prozesse in einem Sequenz

baum. Der Baum (links) zeigt die geschichtliche Verwandtschaft zwischen den

Sequenzen: Die grünen Kreise stehen für hypothetische Vorfahr-Sequenzen. Die

weißen Kreise repräsentieren Vorfahr-Sequenzen, die keine heutigen Nachfahren

haben. Die sechs Sequenzen (rechts) mit einer Länge von 24 Basenpaaren (Zahlen

über dem Alignement) sind ein Ausschnitt eines viel längeren Alignements mit

2335 Basenpaaren je Sequenz. Schwarz dargestellte Nukleotide weichen von dem

häufigsten Nukleotid an der entsprechenden Position ab. * zeigt nicht-variable

Spalten an.

gemeinsamen Stammart durch unterschiedlich verlaufende, zur Art

bildung führende Entwicklung voneinander unterscheiden.

Mit der Zeit werden Substitutionen, Insertionen und Deletionen

die ursprüngliche Sequenz graduell verändern. Diese Änderungen

werden über die Ahnenreihe an die rezenten Sequenzen weiterge

geben. In einem multiplen Sequenzalignement sind sie als variable

Spalten sichtbar, in Abbildung 14 sind dies zum Beispiel die Spalten 1

bis 7, 9,14,15 und weitere.

35


Abb.15a: Beispiel für vier Sequenzen mit je 11 Nukleotiden.

S.112

Die Aufgabe der molekularen Phylogenie ist es, anhand des multi

plen Alignements die nicht beobachtbare Evolutionsgeschichte der

Sequenzen zu rekonstruieren. Einen auf Sequenzen basierenden

Baum nennen wir hier Sequenz-Baum oder Gen-Baum, auch wenn

ihm keine kodierenden Sequenzen zugrunde liegen (siehe im Gegen

satz dazu Ein nicht sequenzbasierter Ansatz zur Aufklärung der Phy

logenie). Um unter den möglichen Bäumen einen geeigneten Baum

zu ermitteln, ist die Definition eines Qualitätskriteriums notwendig.

Die Mathematiker sprechen von einer Zielfunktion. Sie gibt für jeden

der möglichen Bäume an, wie gut er das Kriterium erfüllt. Die Auf

gabe besteht nun darin, ein Rechenschema zur Auswertung der Ziel

funktion anzugeben und dann den besten Baum zu finden. Aus der

Vielzahl möglicher Zielfunktionen werden drei populäre Kriterien

und die dazugehörigen Methoden vorgestellt.

Maximum-Parsimonie

Unter dem Gesichtspunkt einer maximalen Sparsamkeit wählt man

den Baum als besten aus, der die Variabilität in einem Alignement

mit der minimalen Anzahl an Substitutionen erklärt. Nach dem

36

Maximum-Parsimonie

Abb.15b: Die drei Möglichkeiten für ungewurzelte Vier-Sequenzen-Bäume.

c-e: Parsimonische Interpretation für die Spalten 2, 11 und 6. Grüne Kanten zeigen

Substitutionen an.

37


lateinischen parsimonia für Sparsarnkeit heißt dieses Kriterium Maxi

mum-Parsimonie-Kriterium.

Maximum-Parsimonie wurde schon früh zur Baumrekonstruktion

vorgeschlagen. Inzwischen gibt es zahlreiche Modifikationen des

Grundalgorithmus, die aber alle mit dem Problem des Beweises der

Minimalität des gefundenen Ergebnisses kämpfen. Als philosophi

sche Rechtfertigung für das »Prinzip der Sparsamkeit« wird oft der

mittelalterliche Scholastiker William of Ockham (1290-1349) heran

gezogen. Seiner Auffassung nach ist eine Hypothese die beste, wenn

sie nur so wenig Annahmen wie möglich macht. Das (evolutionäre)

Parsimonie-Prinzip geht also davon aus, dass die Evolution von einer

Ursequenz mit möglichst wenig Nukleotidaustauschen zu einer

heutigen Sequenz stattfand. Ob dies eine realistische Annahme über

den Verlauf der Evolution ist, bleibt gerade für DNA - oder Aminosäu

re-Sequenzen eine unbeantwortete Frage. Möchte man sich nicht

auf ideologische Vorstellungen berufen, so genügt als Begründung

für das Sparsamkeitsprinzip die biologische Beobachtung, dass Sub

stitutionen im Aligemeinen sehr seltene Ereignisse sind und es

unwahrscheinlich ist, dass die gleiche Position mehrfach mutiert.

Wie lässt sich die Anzahl an Substitutionen berechnen? Vereinfa

chend wird zunächst vorausgesetzt, dass alle Positionen im Aligne

ment unabhängig voneinander evolvieren. Die Gesamtzahl an Sub

stitutionen eines Baumes ist somit die Summe der Basenaustausche

pro Position. Die Berechnung der Substitutionen wird zur besseren

Übersichtlichkeit vorerst für nur vier Sequenzen erklärt (Abbildung

15a), für die es drei ungewurzelte Bäume gibt (Abbildung 165b).

Spalte 1 und Spalte 10 sind nicht variabel, dem Parsimonie-Prinzip

folgend sind diese Positionen nicht mutiert. In Spalte 2 weicht die

Sequenz 1 (G) von den drei anderen Sequenzen (C) ab. Das Maximum

Parsimonie-Prinzip erfordert immer die kleinste Anzahl von Substi

tutionen. Unabhängig von der Wahl des Baumes (Abbildung 15c) gibt

es nur eine Substitution (grün dargestellte Kante), wenn man an den

38

Maximum-Parsimonie

Abb.16: Das Prinzip des Neighbor-Joining für die sechs Sequenzen Si - S6 aus

Abb.13.

a) Die sternförmige Phylogenie als Ausgangspunkt, ›V‹ ist die hypothetische Vor

fahr-Sequenz

b) Gruppierungvon S5 und S6 (›A‹ als hypothetischer Vorfahr)

c) Gruppierung von ›A‹ und S4 (›ß‹ als hypothetischer Vorfahr)

d) Gruppierung von Si und S2 (›C‹ als hypothetischer Vorfahr)

39


inneren Knoten ein C annimmt. Bei dem Maximum-Parsimonie-Prin

zip sind solche Spalten phylogenetisch nicht informativ, denn sie

können aufgrund der gleichen Anzahl an Substitutionen keinen

Baum als den sparsamsten bestimmen. Die gleiche Situation trifft

für die Spalten 3,4 und 5 zu. Setzt man an die inneren Knoten ein T

(Spalte 3) beziehungsweise A (Spalten 4 und 5), ist wiederum nur

jeweils ein Basenaustausch erforderlich, um das Sequenzmuster in

dieser Spalte zu erklären. Auch hier hat die Baumtopologie keinen

Einfluss auf die Anzahl an Substitutionen. In Spalte 11 erfordert das

Sparsamkeitsprinzip für die zwei inneren Knoten jeweils ein T (Ab

bildung i5d). Dann werden für jeden der drei Bäume zwei Substitu

tionen (zwei grün dargestellte Kanten) benötigt. Daher ist auch die

se Spalte phylogenetisch nicht informativ.

Interessant werden erst die Spalten 6,7,8 und 9. Je nach gewählter

Baumtopologie erfordern diese unterschiedlich viele Substitutionen.

Diese Spalten sind somit phylogenetisch informativ. Abbildung 15c

zeigt beispielhaft die Situation für Spalte 6. Man erkennt: Baum 1 be

nötigt eine Substitution, Baum 2 und Baum 3 brauchen jeweils zwei

Substitutionen.

Die Gesamtzahl an Substitutionen für das komplette Alignement

mit seinen 11 Spalten in Abbildung 15a berechnet sich wie folgt:

Baum 1: 0+1+1+1+1+1+1+2+2+0+2 = 11 Substitutionen

Baum 2: 0+1+1+1+1+2+2+2+1+0+2 = 13 Substitutionen

Baum 3: 0+1+1+1+1+2+2+1+2+O+2 = 13 Substitutionen

Damit ist für das vorliegende Alignement Baum 1 der sparsamste

oder der Maximum-Parsimonie-Baum.

Nach diesem einfachen Beispiel mit nur vier Sequenzen soll der

Maximum-Parsimonie-Baum für die sechs Sequenzen in Abbildung

14 ermittelt werden. Hierfür muss die Anzahl der Substitutionen für

alle 105 möglichen Gen-Bäume berechnet werden. Dies ist nur mit

Computerprogrammen möglich. Werden diese Bäume nach dem

40

Distanzbasierte Methoden

Maximum-Parsimonie-Kriterium bewertet, so zeigt sich, dass die

kleinste Anzahl an Substitutionen 25 ist. Davon gibt es aber fünf

Bäume. Es lässt sich nun keine weitere Aussage darüber treffen, wel

cher dieser fünf Bäume die »wahre« Phylogenie widerspiegelt. An

ders ist das Ergebnis, wenn von den sechs Sequenzen alle 2335

Basenpaare (in der Abbildung nicht gezeigt) in die Rechnung einbe

zogen werden. Dann gibt es nur einen einzigen Maximum-Parsimo

nie-Baum. Dies zeigt, dass sich die Beziehungen zwischen den

Sequenzen nur verlässlich rekonstruieren lassen, wenn es viele Se

quenzinformationen (lange Sequenzen mit Tausenden von Basen-

paaren) gibt.

Da mit der Anzahl der Sequenzen die Anzahl der Bäume exponen

tiell wächst, ist ein systematisches Evaluieren aller Möglichkeiten für

nur zehn Sequenzen (2027025 Bäume) selbst mit sehr schnellen

Computern und vertretbarem Zeitaufwand kaum noch möglich. Um

dennoch sparsame Bäume für möglichst viele Sequenzen zu rekon

struieren, werden so genannte heuristische Suchverfahren einge

setzt. Dabei wird mit einem beliebigen Startbaum begonnen und

die Anzahl an Substitutionen berechnet. Anschließend wird die To

pologie des Startbaumes zufällig geändert und die Anzahl der Sub

stitutionen für den neuen Baum bestimmt. Ist die Zahl kleiner, wird

das Verfahren mit dem neuen Baum wiederholt. Ist die Zahl größer,

wird auf den ursprünglichen Baum zurückgegriffen und dieser er

neut geändert. Der kürzeste gefundene Baum wird als Parsimonie-

Baum bezeichnet. Mit diesem Verfahren, von dem es viele Varianten

gibt, lassen sich auch für viele hundert Sequenzen Parsimonie-

Bäume bestimmen.


Bei zwei weiteren Kriterien finden die von Joseph Louise Lagrange

(1736-1813) und Carl Friedrich Gauß (1777-1855) entwickelten Me

41


S.110

thoden der mathematischen Ausgleichsrechnung für Näherungs

werte Eingang in die Welt der molekularen Evolution. Im Mittel

punkt stehen dabei das Gauß'sche Prinzip der kleinsten Quadrate

und das von Ronald A. Fisher (1890-1962) explizit eingeführte Maxi

mum-Likelihood-Prinzip.

Auf dem Prinzip der kleinsten Quadrate beruhen Distanzverfahren.

Für die Rekonstruktion eines Gen-Baumes aus einem Alignement

ermitteln diese Verfahren die evolutionäre Distanz (d) der Sequen

zen in einem Baum und die berechnete Distanz (e) zweier Sequen

zen. Für jeden Baum bildet man von den Differenzen dieser Distan

zen die Quadrate, summiert diese und fragt nach dem Baum mit der

kleinsten Summe für diese Quadrate. Der optimale Baum hat die

kleinste Summe.

In mathematischer Schreibweise nehmen diese Überlegungen die

folgende Form an: Distanzbasierte Methoden berechnen die Distanz

dij (Jukes-Cantor-Modell) für alle Sequenzpaare {i,j} eines Aligne

ments. Das Ergebnis ist eine Distanzmatrix (Tabelle 2). Aus dieser Ma

trix wird ein Baum rekonstruiert, der die Anzahl der Substitutionen,

das heißt die Distanz zwischen allen Sequenzpaaren, wiedergibt.

Was bedeutet »die Distanz zwischen allen Sequenzpaaren wieder

geben«? In einem Baum gibt es stets einen eindeutigen Weg oder

Pfad, der zwei endständige Taxa, vertreten durch die Sequenzen i und j, miteinander verbindet. Auf diesem Weg hat jede Kante eine

bestimmte Länge, beispielsweise die Anzahl an Substitutionen. Die

Summe der Substitutionen, die evolutionäre Distanz eij eines Se

quenzpaares {i,j}, sollte im Idealfall gleich der berechneten Distanz

dij dieses Sequenzpaars sein.

Ein Baum ist dann optimal, wenn die evolutionäre Distanz aller Se

quenzpaare nur geringfügig von den Einträgen in der Distanzmatrix

abweicht. Da die berechnete Distanz dij immer nur eine Annäherung

an die unbekannte evolutionäre Distanz eij ist, wird der Betrag der

Abweichung dy-ey fast immer größer Null sein. Eine Möglichkeit, die

42


Tabelle 2: Distanzmatrix für die Sequenzen Si bis S6 aus Abbildung 13. Der untere

Teil der Matrix zeigt die Anzahl der beobachteten Unterschiede für den in Abbil

dung 13 dargestellten Sequenzausschnitt von 24 Basenpaaren, der obere Teil die

Anzahl der Unterschiede für das gesamte Alignement mit 2335 Positionen.

Abweichung der evolutionären Distanzen für einen Baum T von der

Distanzmatrix zu quantifizieren, ist das Kriterium der kleinsten Qua

drate R(T) mit

Der optimale Baum hat den kleinstmöglichen Wert R. Für drei Sequenzen gibt es nur einen Baum mit drei Kanten. Aus

den Distanzen d12, d13, d23 (grüne Linien) lassen sich die optimalen

Kantenlängen k1, k2, k3 (schwarze Linien) des Baumes wie folgt be

rechnen:

k1 = 1/2 (d12 + d13 – d23)

k2 = 1/2 (d12 + d23 – d13)

k3 = 1/2 (d13 + d23 – d12)

43


Setzt man die evolutionären Distanzen e12 = k1 + k2, e13 = k1 + k3 und

e23 = k2 + k3, so wird R(T) = 0. Für vier oder mehr Sequenzen ist R(T) im

Allgemeinen größer Null. Die Berechnung von R(T) für einen Baum T ist mit Methoden der mathematischen Optimierung relativ einfach.

Es ist jedoch unmöglich, alle Bäume zu evaluieren und den Baum mit

minimaler quadratischer Abweichung zu finden. Daher werden wie

bei Maximum-Parsimonie auch bei den distanzbasierten Methoden

Näherungsverfahren angewendet.

Das bekannteste solcher approximativer Verfahren ist das Neigh

bor-Joining, was sich als »Zusammenfügen der nächsten Nachbarn«

übersetzen lässt. Neighbor-Joining ist ein Clusterungs- oder Grup

pierungsverfahren: Ähnliche Paare von Sequenzen werden zu einer

Gruppe (einem Cluster) zusammengefasst und anschließend wie

ein Taxon behandelt. Als Qualitätskriterium dient die Gesamtlänge

L(T) des Baumes T. Das ist die Summe aller Kantenlängen, die mit

dem Prinzip der kleinsten Quadrate geschätzt wurden. Ziel ist es, ei

nen Baum mit möglichst kleiner Gesamtlänge L(T) zu finden. Dieses

Qualitätskriterium wird Minimale Evolution genannt.

Im Folgenden wird das Neighbor-Joining auf das Beispiel der sechs

Sequenzen in Abbildung 15 angewandt, wobei alle 2335 Basenpaare

in die Rechnung einbezogen werden. Ausgangspunkt für das Neigh

bor-Joining ist ein sternförmiger Gen-Baum (Abbildung 16a). Die

sechs Sequenzen Si bis S6 stammen von derselben Vorfahr-Sequenz

›V‹ ab.

Basierend auf der Distanzmatrix (Tabelle 2) wird anschließend am

Computer die Länge aller Bäume berechnet, in denen zwei Sequen

zen einen von ›V‹ verschiedenen Vorfahren haben. Aus diesen Bäumen

wird der kürzeste Baum ausgewählt. In dem Beispiel in Abbildung

i6b ergibt die Computerrechnung für die Gruppierung der

Sequenzen S5 und S6 den kürzesten Baum. Die Sequenzen S5 und S6

sind nun Nachbarn. Ihr hypothetischer Vorfahr wird ›A‹ genannt. In

der weiteren Computeranalyse wird das Cluster S5 und S6 durch ›A‹

44

Maximum-Likelihood

ersetzt. Der Datensatz für die weiteren Rechnungen verringert sich

damit um eine Sequenz.

Mit den verbleibenden fünf »Sequenzen« S1, S2, S3, S4, ›A‹ beginnt

die Prozedur von neuem. Es wird wiederum zuerst das Cluster aus

zwei Sequenzen gesucht, das den kürzesten Baum ergibt. Für die

fünf Sequenzen wird der kürzeste Baum bei der Gruppierung der

Sequenzen ›A‹ und S4 gefunden. Deren hypothetischer Vorfahr wird

›B‹ genannt (Abbildung 16c). Damit reduziert sich der Datensatz auf

vier Einträge, nämlich S1, S2, S3, ›B‹.

Im folgenden Schritt werden die Sequenzen Si und S2 gruppiert

und durch ›C‹ ersetzt (Abbildung i6d). Der Baum ist damit vollständig

aufgelöst und das Neighbor-Joining-Verfahren beendet.

Neighbor-Joining ist ein schnelles Verfahren zur Baumrekonstruk

tion. Es ist möglich, bis zu 300 Sequenzen in einen Neighbor-Joining-

Baum umzurechnen. Es lässt sich aber nicht überprüfen, ob der

gefundene Baum der optimale Baum ist. Simulationsstudien zeigen,

dass Neighbor-Joining mit großer Wahrscheinlichkeit den richtigen

Baum rekonstruiert.

Maximum-Likelihood

Maximum-Likelihood-Methoden versuchen, unter den möglichen

Bäumen und einem Modell der Sequenzevolution den Baum zu

bestimmender mit höchster Wahrscheinlichkeit zu den beobachte

ten Sequenzen führt. Dieser Baum wird der Maximum-Likelihood-

Baum genannt.

Für das zugrunde liegende Prinzip wird zunächst auf das einfache

Alignement aus vier Sequenzen in Abbildung 15a und Baum 1 (Abbil

dung 15b) zurückgegriffen. Jede der elf Spalten wird zuerst einzeln

betrachtet.

Spalte 1 hat das Muster AAAA. Theoretisch kann an den inneren

Knoten des Baumes 1 jeweils eines der vier Nukleotide A,C,G,T ste

45


S.110

hen. Welche Kombination von Nukleotiden ist die wahrscheinlichs

te? Zunächst wird ein Modell der Sequenzevolution ausgewählt,

etwa das Jukes-Cantor-Modell. In diesem Modell ist die Wahrschein

lichkeit P, dass ein Nukleotid x unverändert erscheint

Pxx(d) = (1/4) + (3/4) · e-4d/3

wobei d die Zahl der Substitutionen ist. Die Wahrscheinlichkeit für

das Auftreten verschiedener Nukleotide x und y ist

PXy(d) = (1/4) – (1/4) · e-4d/3.

Damit kann für Spalte 1 die Wahrscheinlichkeit (P1) für das Muster

AAAA berechnet werden, wenn beide inneren Knoten jeweils das

Nukleotid A tragen und der Baum i mit den Kantenlängen (Substi

tutionen) k1, k2, k3, k4 und k5 bekannt ist. Mathematisch heißt dies

P1(AAAA|AA) = (1/4) {PAA(k1) PAA(k2) PAA(k5) PAA(k3) PAA(k4)} .

Da die Nukleotide x beziehungsweise y an den inneren Knoten nicht

bekannt sind, berechnet sich die gesamte Wahrscheinlichkeit für das

Muster AAAA in Spalte 1 als

P1 = P1(AAAA) = (1/4) P1 (AAAA|xy)}.

Mit den verbleibenden Spalten wird genauso verfahren. Für das

gesamte Alignement (A) mit seinen elf Spalten ist die totale Wahr

scheinlichkeit Ptot über den Baum 1 (T1) und seinen fünf Kanten das

Produkt aus den Wahrscheinlichkeiten für jede einzelne Spalte. Es

gilt also

Ptot (A|T1, k1, k2, k3, k4, k5) = P1 · P2 · P3 · P4 · ... · P11.

In der Realität sind aber weder der Baum noch seine Kantenlängen

bekannt. Einzig die Sequenzen liegen als Endprodukt der Evolution

vor. Daher wird die letzte Gleichung als Wahrscheinlichkeits- oder

Likelihood-Funktion mit den Parametern Baumtopologie und Kan

46

Maximum-Likelihood

tenlänge bezeichnet. Sie ermittelt für jede Kombination von Para

metern die Cesamtwahrscheinlichkeit. Gesucht ist nun die Parame

terkombination, bei der die Likelihood-Funktion maximal wird.

Der in Abbildung 14 dargestellte Baum (links) ist der Maximum

Likelihood-Baum für sechs Sequenzen, wenn das gesamte Aligne

mentvon 2335 Basenpaaren zugrunde gelegt wird. Werden hingegen

nur die 24 dargestellten Spalten analysiert, ist der aus dieser kleinen

Anzahl resultierende Baum biologisch unsinnig. Schon dieses kleine

Beispiel mit sechs Sequenzen macht deutlich, welche Herausforde

rung die Maximum-Likelihood-Methode darstellt. Dank schneller

Computer und der Entwicklung intelligenter Suchstrategien können

derzeit Maximum-Likelihood-Bäume für bis zu fünfzig Sequenzen

berechnet werden. Für eine realistische Anwendung ist dies aber

noch zu wenig.

Der erhöhte Aufwand der Maximum-Likelihood-Methoden ist

aber gerechtfertigt, da nun erstmals das methodische Inventar der

Statistik für die weitere Analyse zur Verfügung steht. Der Vergleich

der Maximum-Likelihood-Werte für verschiedene Modelle der Se

quenzevolution erlaubt eine gesicherte Aussage darüber, welches

Modell das bessere ist. Vereinfacht gilt: Je größer der Likelihood-Wert

ist, desto wahrscheinlicher spiegelt das gewählte Modell für einen

bestimmten Baum die Evolution der Sequenzen wider. Darüber hin

aus liefern Maximum-Likelihood-Methoden wichtige Informationen

über die evolutionären Parameter der Sequenzen. Sie geben zum Bei

spiel Antworten darauf, welche Spalten im Alignement schnell und

welche langsam evolvieren oder wie groß das Transitions-Transver

sions-Verhältnis ist. Es wird also nicht nur ein Gen-Baum rekonstru

iert, sondern zusätzlich ein Evolutionsmodell für das Alignement

vorgeschlagen.

47


Experimentelle und theoretische Phylogenien

Es wurden drei Verfahren zur Baumrekonstruktion vorgestellt, um

aus einem Sequenzalignement einen Baum zu rekonstruieren. Die

ungeklärte Frage ist jedoch, ob der rekonstruierte Baum mit der tat

sächlichen Phylogenie der Sequenzen übereinstimmt. Wie in jeder

naturwissenschaftlichen Disziplin gibt es zwei potentielle Fehler

quellen: Der erste Fehler ist der zufällige Fehler (random error), der

auftritt, weil nur ein endliches Alignement zur Verfügung steht. Die

ser Fehler kann durch die Vergrößerung der Stichprobe (längere

Sequenzen) minimiert werden. Der zufällige Fehler wurde am Bei

spiel der sechs Sequenzen in Abbildung 14 bereits demonstriert. Nur

aus hinreichend langen Sequenzen lassen sich biologisch sinnvolle

Bäume rekonstruieren. Der zweite Fehler ist der systematische Feh

ler (systematic error). Er tritt dann auf, wenn beispielsweise das

gewählte Modell der Sequenzevolution nicht mit den Daten über

einstimmt. Unabhängig von der Art des Fehlers kann ein rekonstru

ierter Gen-Baum falsch sein, weil die Verzweigungsstruktur (Topolo

gie) nicht stimmt oder die Kantenlängen falsch geschätzt wurden.

Solche Fehler sind in der Regel nicht aufzudecken, da das Evolu

tionsgeschehen und somit das Entstehen eines Gen-Baumes nicht

beobachtet wird. Eine Ausnahme ist die »Sequenzevolution im Rea

genzglas«. Im Labor lassen sich zum Beispiel Viren über mehrere tau

send Generationen kultivieren. Durch Zugabe von Mutagenen, die

künstlich die Mutationsrate erhöhen, werden experimentelle Phylo

genien erzeugt.

Forscher erstellten mit acht Taxa die in Abbildung 17 gezeigte Phy

logenie. Um den Baum zu wurzeln, wurde ein weiteres Taxon als Au

ßengruppe hinzugezogen (in Abbildung 17 nicht gezeigt). Für die

neun Sequenzen gibt es 135135 Bäume. Die Wahrscheinlichkeit, aus

diesen Tausenden von Bäumen die »wahre« Phylogenie zu erraten,

ist verschwindend gering. Bei der computergestützten Rekonstruk

48


Abb.17: Experimentelle Phylogenie des Bakteriophagen T7. Acht Taxa (1-8) des Bak

teriophagen T7 wurden im Labor gezüchtet. Die Mutationsraten wurden künstlich

erhöht. Die Wurzel des Baumes W repräsentiert den Wildtyp, von dem die Experi

mente ausgehen. Die Kantenlängen sind proportional zur Anzahl der Substitutio

nen (Zahlen an den Kanten). Um den Baum zu wurzeln, wurde in die Rechnung

eine Außengruppe hinzugezogen, die aber nicht dargestellt ist.

tion der Phylogenie ermittelten zwar alle Verfahren die richtige To

pologie, aber keine Methode bestimmte die richtigen Kantenlängen.

Dies zeigt, dass auch bei realen, biologischen Daten die Kantenlän

gen möglicherweise einem gewissen Fehler unterworfen sind.

Da das Erstellen experimenteller Phylogenien sehr aufwändig ist,

wird die Verlässlichkeit der Baumrekonstruktionsverfahren auch an

hand theoretischer Phylogenien überprüft. Dabei wird ein Gen-

Baum vorgegeben, für den dann die Sequenzevolution auf dem Com

puter simuliert wird. Das Ergebnis dieser »künstlichen Evolution« ist

ein simuliertes Sequenzalignement, das anschließend mit verschie

49


denen Methoden der Baumrekonstruktion untersucht wird. Somit

lassen sich unterschiedliche Evolutionsszenarien für verschiedene

Baumrekonstruktionsverfahren evaluieren. Hierbei treten Unter

schiede in der Verlässlichkeit der einzelnen Methoden für die Baum

rekonstruktion zutage.

Mit der Untersuchung theoretischer Phylogenien gelang dem ame

rikanischen Wissenschaftler Joe Felsenstein eine sehr bedeutende

Entdeckung. Sie heißt heute nach ihrem Entdecker die Felsenstein

zone. Diese Zone kennzeichnet den Bereich, in dem Methoden zur

Baumrekonstruktion einen systematischen Fehler aufweisen, wobei

die Ausdehnung und Lage der Zone von der jeweiligen Methode

abhängen. Abbildung 18c zeigt eine solche Felsensteinzone für das

Maximum-Parsimonie-Prinzip. Wie kommt die dort dargestellte

Zone zustande und welche Aussage macht sie?

Dem Computer werden folgende Informationen vorgegeben (Ab

bildung i8a): eine theoretische Phylogenie mit den vier Taxa 1 bis 4

und eine Kombination von zwei Kantenlängen (k1 und k2). Die innere

Kante des Baumes sowie die Kanten zu den Sequenzen 2 und 4 sind

dabei gleich lang (k1), ebenso die Kantenlängen der Sequenzen 1 und

3 (k2). Für die zwei Kantenlängen k1 und k2 wird ein k1-k2-Diagramm

erstellt.

Dann wird am Computer die Sequenzevolution simuliert, wobei

jede Kombination der Kantenlängen (k1, k2) erlaubt ist. Um den zufäl

ligen Fehler der Baumrekonstruktion klein zu halten, sind die simu

lierten Sequenzen möglichst lang. Anschließend wird aus diesem

Alignement der Maximum-Parsimonie-Baum berechnet (zum Bei

spiel Abbildung 18b) und mit der theoretischen Phylogenie (Abbil

dungi8a) verglichen.Sind die Bäume verschieden,wird im Diagramm

für das zugehörige k1-k2-Wertepaar ein grüner Punkt eingetragen.

Stimmen sie überein, wird kein Punkt eingetragen.

Die Simulationen werden Tausende Male wiederholt. Die Menge

aller grünen Punkte im k1-k2-Diagramm ergibt die Felsensteinzone.

50


Abb.18: Die Felsensteinzone

a) Eine theoretische Phylogenie mit vier Taxa (1-4) und zwei unterschiedlichen

Kantenlängen (k1 und k2)

b) Rekonstruierter Maximum-Parsimonie-Baum, basierend auf einem simulierten

Sequenzalignement.

c) Der Parameterraum der Kantenlängen k1 und k2. Die grün schattierte Region ist

die Felsensteinzone, in der ein falscher Baum rekonstruiert wird.

Diese Zone kennzeichnet die Region im theoretischen Raum aller

Kantenlängen eines Baumes, in der Maximum-Parsimonie einen sys

tematischen Fehler aufweist. Ist k2 deutlich größer als k1, so wird der

in Abbildung i8b dargestellte Baum rekonstruiert werden. Das heißt,

Sequenzen mit hoher Substitutionsrate werden zu einem Cluster

zusammengefasst. Dieses Phänomen wird als »Anziehungskraft

zwischen langen Kanten« (long-branch-attraction) bezeichnet.

Felsensteinzonen, also systematische Fehler, gibt es bei jeder

Methode zur Baumrekonstruktion. Für distanzbasierte Rekonstruk

51


tionsverfahren ist bekannt, dass sie bei mangelnder Korrektur für

multiple Substitutionen fehlerhaft werden. Es bleibt eine spannende

Frage der molekularen Evolutionstheorie, die Felsensteinzone auch

für andere Methoden zu charakterisieren.

Auch in biologischen Daten gibt es aufgrund der »Anziehungskraft

zwischen langen Kanten« Hinweise auf falsch rekonstruierte Bäu

me. Ein gut untersuchtes Beispiel ist der Stammbaum der Säugetiere

(Sau), Vögel (Vö), Krokodile (Kr) und Eidechsen (Ei). Morphologische

Befunde liefern eindeutige Hinweise, dass Vögel und Krokodile eine

monophyletische Gruppe bilden, die Archosaurier (grün hinterlegt in

Tabelle 3) hingegen werden im Maximum-Parsimonie-Baum der 18S

rRNA-Sequenzen Vögel mit den Säugetieren in eine Schwestergrup

pe eingeteilt.

In Tabelle 3 sind in der linken Spalte und der obersten Zeile die drei

möglichen Phylogenien für die vier Arten vorgegeben, wobei die

Kantenlängen kt und k2 in allen Bäumen gleich bleiben. Die klassi

sche Phylogenie ((Vö,Kr) (Säu,Ei)) ist grün unterlegt. Für jeden der

drei theoretisch möglichen Bäume (linke Spalte) werden Tausende

von Sequenzalignements simuliert und mit der Maximum-Parsimo

nie-Methode die Baumtopologie rekonstruiert (oberste Zeile). In den

fett markierten Kästchen stimmen die theoretische und rekonstru

ierte Topologie überein.

Die erste vorgegebene (theoretische) Topologie ((Kr,Ei) (Vö,Säu))

wird zu 100% von den simulierten Daten rekonstruiert, daher wer

den die anderen zwei Topologien ((Vö,Ei) (Säu,Kr)) und ((Vö,Kr) (Säu,

Ei)) niemals gefunden. Die zweite vorgegebene Topologie wird mit

Maximum-Parsimonie nur in 15% der Fälle richtig rekonstruiert,

während in 80% der Fälle der Baum rekonstruiert wird, bei dem die

zwei langen Kanten (Vö und Säu) zusammenlaufen. Die dritte vorge

gebene Topologie (die klassische Phylogenie) wird sogar nur in 7,5

von hundert Fällen gefunden, die (Vö,Säu)-Topologie macht 85%

aller Fälle aus.

52


Abb.19: Gen-Bäume in Spezies-Bäumen. Die Entwicklung eines Gen-Baums (grün)

findet innerhalb eines Spezies-Baums (schwarz) statt.

Unabhängig von der vorgegebenen (theoretischen) Phylogenie re

konstruiert Maximum-Parsimonie mit hoher Wahrscheinlichkeit den

Baum ((Krokodile, Eidechsen) (Vögel, Säugetiere)). Eine mögliche Er

klärung für diese Diskrepanz liefert die Felsensteinzone. Der Maxi

mum-Parsimonie-Baum, basierend auf 18S rRNA-Sequenzen, hat

zwei lange Kanten (Tabelle 3). Eine Kante führt zu den Vögeln, die

zweite zu den Säugetieren. Krokodile und Eidechsen befinden sich

an kurzen Kanten und sind nur durch eine kurze, innere Kante von

53


Tabelle 3: Drei mögliche Stammbäume für Vögel (Vö), Säugetiere (Säu), Eidechsen

(Ei) und Krokodile (Kr).

Die linke Spalte zeigt die vorgegebenen, theoretischen Phylogenien. Die oberste

Zeile zeigt die mit Maximum-Parsimonie rekonstruierten Topologien, basierend

auf simulierten Sequenzalignements. Die Prozentzahlen geben an, wie oft die vor

gegebene Baumtopologie im simulierten Alignement gefunden wurde. Grün

unterlegt ist die klassische Phylogenie. Die Kantenlängen sind proportional zur

Zahl der Substitutionen und basieren auf 18S rRNA-Sequenzen.

Säugetieren und Vögeln getrennt (siehe Abbildung 18). So sehen

typischerweise Bäume aus, deren Topologie durch long-branchattraction geprägt wurde. Mit Maximum-Parsimonie-Methoden

rutscht die Baumrekonstruktion in die Felsensteinzone, das heißt die

langen Kanten werden als Cluster erkannt, sie ziehen sich an. Die ver

wandtschaftlichen Beziehungen zwischen den vier Gruppen lassen

sich daher anhand der vorliegenden Daten nicht klären.

54

Der Bootstrap

Welche Auswege gibt es aus der Felsensteinzone? Zum einen ist es

hilfreich, weitere Arten in die Analyse aufzunehmen, um die langen

Kanten aufzubrechen. Zum anderen sollten zusätzliche Bereiche des

Genoms sequenziert werden. Dieses Beispiel zeigt, dass Einzelergeb

nisse durchaus fehlerhaft sein können und nicht jede am Computer

berechnete Phylogenie zwangsläufig die »wahre« Evolution wider

spiegelt. Daher ist es auch bei molekularen Merkmalen wichtig,

mehrere Gene oder Sequenzen zu analysieren und die Ergebnisse

mit den Befunden aus der Morphologie oder Verhaltensbiologie ab

zugleichen.

Der Bootstrap

Die phylogenetische Analyse des Datensatzes aus Abbildung 14 hat

gezeigt, dass die Stichprobengröße, also die Länge eines Sequenz

alignements, wesentlich für die verlässliche Rekonstruktion eines

Gen-Baumes ist. Die Frage stellt sich, wie gut der rekonstruierte

Baum die Verwandtschaftsverhältnisse wiedergibt. Wenn die Se

quenzen lang genug sind, sollte im Prinzip der wahre Baum rekon

struiert werden. Was kann getan werden, um den stochastischen

Fehler aufgrund der Stichprobengröße in einer Phylogenie abzu

schätzen? Eine Möglichkeit besteht darin, mehrere Stichproben aus

der Gruppe, an deren Phylogenie man interessiert ist, zu analysieren

und die resultierenden Gen-Bäume zu vergleichen. Die Variation in

der Kollektion der Bäume liefert dann Informationen darüber, wie

stabil beispielsweise eine bestimmte phylogenetische Gruppierung

(Cluster) ist. Da die Bearbeitung vieler Stichproben in der Regel sehr

teuer und zeitaufwändig ist, werden heute so genannte Bootstrap-

Verfahren aus der Statistik angewendet, um den Stichprobenfehler

abzuschätzen. Beim Bootstrap wird eine zufällige Stichprobe durch

wiederholtes Ziehen mit Zurücklegen aus den bereits erhobenen

Daten generiert. Dabei entstehen zahlreiche künstliche Stichproben,

55


die Pseudoreplikate genannt werden. In der phylogenetischen Ana

lyse werden aus einem multiplen Sequenzalignement (zum Beispiel

Abbildung 7 und Abbildung 14) zufällig Spalten ausgewählt, die beim

nachfolgenden Ziehen einer weiteren Spalte erneut zur Verfügung

stehen. Diese Prozedur wird so lange wiederholt, bis die ursprüngli

che Länge des Alignements erreicht ist. Für dieses Pseudoreplikat

wird dann ein Gen-Baum ermittelt. Typischerweise werden auf diese

Weise 1000 bis 10000 Gen-Bäume bestimmt. Kommt ein Cluster in

allen Gen-Bäumen vor, so sagt man, die Gruppierung hat einen Boots-

trap-Wert von 100%; das heißt der Stichprobenfehler ist anschei

nend so klein, dass die rekonstruierte Gruppierung die wahre Phylo

genie der entsprechenden Taxa widerspiegelt. Cluster, die einen

geringeren Bootstrap-Wert haben, typischerweise < 90%, werden

durch die Daten nicht sehr stark gestützt und bedürfen einer weite

ren Analyse durch zusätzliche Sequenzen. Liegt der Bootstrap-Wert

eines Clusters unter 50%, so kann es zu widersprüchlichen Ver

wandtschaftsbeziehungen im Baum kommen. Solche Gruppierun

gen sind dann in einem Gen-Baum mit äußerster Vorsicht zu inter

pretieren.

5 GEN-BÄUME IN DER PHYLOGENIE

Gen-Bäume in Spezies-Bäumen

In einem biologischen Stammbaum soll die Aufspaltung von Arten

(lateinisch spezies) nachgezeichnet werden. Die Artbildung wird in

der Biologie als Phylogenese bezeichnet. »Phylogenese ist die wie

derholte Aufspaltung von Populationen durch irreversible geneti

sche Divergenz und der daraus resultierende Prozess der Entstehung

von Organismengruppen unterschiedlichen Verwandtschaftsgra

des.« Stammbäume werden daher auch Spezies-Bäume genannt.

Ein Spezies-Baum zeigt somit die zeitliche Abfolge der Aufspaltungs

Gen-Bäume in Spezies-Bäumen

Abb.20: Widersprüchliche Säugetier-Phylogenien: a) klassischer Spezies-Baum,

b) Gen-Baum basierend auf komplett sequenzierten Mitochondriengenomen.

ereignisse zwischen verschiedenen Populationen oder Arten. Im Ge

gensatz dazu zeichnet ein Gen-Baum nur die Historie eines Gens

oder eines DNA-Abschnitts nach. Dabei wird in der Fortpflanzungs

gemeinschaft die Weitergabe des Sequenzabschnitts von einem

Individuum auf das nächste rekonstruiert.

Der Gen-Baum entwickelt sich gewissermaßen im Spezies-Baum

(Abbildung 19) und sollte im Idealfall die Abfolge der Aufspaltungs

ereignisse für verschiedene Arten wiedergeben.

In den letzten Jahrzehnten wurden zahlreiche Gen-Bäume erstellt.

Die Analyse einzelner Gen-Bäume führte mitunter zu sehr überra

schenden Ergebnissen, die nicht immer mit den klassischen Spezies-

Bäumen übereinstimmen. Ein prominentes Beispiel sind die ver

wandtschaftlichen Beziehungen zwischen den Säugetieren. Dazu

zählen die Kloakentiere (Schnabeltier und Schnabeligel), die Beutel

tiere und die höheren Säugetiere mit echter Plazenta (Eutheria). Die

klassische Phylogenie nimmt an, dass die Beuteltiere die nächsten

Verwandten der höheren Säugetiere sind; die Kloakentiere hätten

sich demzufolge vorher abgespaltet (Abbildung 20a). Anhand der

57

Gen-Bäume in der Phylogenie

vollständig sequenzierten, mitochondrialen DNA wurde ein alterna

tiver Gen-Baum vorgeschlagen (Abbildung 20b). Der Gen-Baum zeigt,

dass Beuteltiere und Kloakentiere eine Schwestergruppe bilden. Ent

gegen der klassischen Lehre wären demzufolge die Beuteltiere nicht

näher mit den höheren Säugetieren verwandt.

Noch mehr Verwirrung erzeugten die unterschiedlichen Möglich

keiten für einen Gen-Baum von Mensch, Schimpanse und Gorilla

(Abbildung 21). Die Analyse von 45 unabhängigen Genen ergab drei

Gen-Bäume und damit drei Möglichkeiten für Schwestergruppen.

Im Ergebnis von 27 Genanalysen (60%) gehören Mensch und Schim

panse zweifelsfrei einer Schwestergruppe an (Abbildung 21a). Die

alternativen Schwestergruppierungen Schimpanse und Gorilla re

spektive Mensch und Gorilla werden nur von jeweils neun Gen-Bäu

men (20%) unterstützt, die aber ebenfalls hohe Bootstrap-Werte

erhalten. Wie lassen sich diese unterschiedlichen Ergebnisse für die

drei Gen-Bäume von Mensch, Schimpanse und Gorilla erklären?

Widersprüche zwischen Gen-Bäumen und Spezies-Bäumen

Abbildung 22 zeigt in grüner Farbe die drei möglichen Gen-Bäume,

die in dem Spezies-Baum ((Mensch, Schimpanse) Gorilla) vorkom

men können. Für jeden Drei-Spezies-Baum sind zwei Aufspaltungs

oder Artbildungsprozesse notwendig. In dem hier vorgestellten Bei

spiel gehen Paläontologen davon aus, dass sich der Gorilla in einem

1. Artbildungsprozess vor ca. 7-8 Millionen Jahren von der gemein

samen Stammart (Mensch-Schimpanse-Gorilla) abspaltete. Der 2.

Aufspaltungsprozess fand vor ca. 5-6 Millionen Jahren statt. Das

bedeutet, dass die Zeit zwischen dem ersten und zweiten Aufspal

tungsereignis nur sehr kurz war und die gemeinsame Stammart von

Mensch und Schimpanse nur schätzungsweise 1-3 Millionen Jahre

existierte.

58


Abb.2i: Die drei Gen-Bäume von Mensch, Schimpanse und Gorilla.

Die Zahlen geben an, wie oft das jeweilige Verzweigungsmuster unterstützt wird.

Werden nun die drei Gen-Bäume betrachtet, ergibt sich folgendes

Bild: Im ersten Szenario (Abbildung 22a) verschmelzen die Sequen

zen von Mensch und Schimpanse bei einer rückwärtigen Betrach

tung in die Vergangenheit zeitgleich mit dem 2. Aufspaltungsereig

nis. Die gemeinsame Linie von Mensch und Schimpanse existierte in

ihrer Stammart M-S so lange, bis sie mit der Gorilla-Linie zum Zeit

punkt des i. Aufspaltungsereignisses verschmolz. Zum Zeitpunkt U existierten sowohl im Spezies-Baum als auch im Gen-Baum nur zwei

Arten beziehungsweise Linien, die eine in der Stammart von Mensch

und Schimpanse (M-S) und die zweite im Gorilla. In dieser Situation

stimmen die Topologien von Gen-Baum und Spezies-Baum überein.

Die Stammart von Mensch und Schimpanse (M-S) existierte aber

nur kurze Zeit. Es kann vorkommen, dass die Sequenzen beider Arten

nicht verschmelzen. Diese Möglichkeit ist in den Bildern b und c dar

gestellt. Zum Zeitpunkt t1 existierten formal bereits zwei Spezies,

59


nämlich die Stammart Mensch und Schimpanse (M-S) und der Gorilla.

Im Gen-Baum sind aber noch alle drei Linien vorhanden. In einer

solchen Situation entscheidet allein der Zufall, welches Sequenz-

Paar zuerst verschmilzt und somit die Schwestergruppen definiert.

Es können zuerst die Linien von Schimpanse und Gorilla verschmel

zen, aber ebenso können die Linien von Mensch und Gorilla zuerst

verschmelzen. In beiden Fällen weicht der Gen-Baum vom Spezies-

Baum ab.

Der Zeitpunkt der Verschmelzung von Linien, das Coalescent-Ereig

nis, ist für jedes Gen unterschiedlich und kann weit in der Vergan

genheit liegen. Die Stammart von Mensch und Schimpanse (M-S)

kann eine oder zwei Linien enthalten, während in der Stammart von

Mensch, Schimpanse und Gorilla (M-S-G) entweder eine, zwei oder

noch alle drei Linien vorhanden sein können.

In der Fachsprache wird hierfür der Begriff lineage sorting (Sortie

rung der Linien) verwendet. Ist die Anzahl der Linien zu jedem Zeit

punkt identisch mit der Anzahl der Arten (wie in Abbildung 22a), gibt

es keine Diskrepanz zwischen dem Gen-Baum und dem Spezies-

Baum. Man sagt, dass die Linien »aussortiert« sind. Ist im Gegensatz

dazu, wie in Abbildung 22b und c, die Anzahl der Linien an einem

bestimmten Zeitpunkt größer als die Anzahl an Arten, ist die Sortie

rung der Linien noch nicht abgeschlossen. Man sagt, dass das »Line

age Sorting« unvollständig ist. Zum Zeitpunkt t, existieren jeweils

drei Linien, aber nur zwei Arten, nämlich die Stammart Mensch-

Schimpanse (M-S) und der Gorilla.

Abb.22: Der Spezies-Baum für Mensch, Schimpanse und Gorilla (schwarz) mit den

drei möglichen Gen-Bäumen (grün). Gezeigt sind das Alter der zwei Aufspal

tungsereignisse (gestrichelte Linie) in Millionen Jahren, die gemeinsame Stamm

art (M-S) von Mensch und Schimpanse zum Zeitpunkt t1 sowie die gemeinsame

Stammart (M-S-G) von Mensch, Schimpanse und Gorilla.

a) Der Gen-Baum von Mensch (M), Schimpanse (S) und Gorilla (G) ist identisch

zum Spezies-Baum, b) und c) Die Gen-Bäume sind verschieden vom Spezies-Baum

und kommen mit gleicher Wahrscheinlichkeit vor (siehe Abb. 21).

60


61


Abb.23: Einfluss einer Gen-Duplikation auf den Gen-Baum von Mensch und

Schimpanse. Die Verdopplung des Gens o erzeugt zwei Kopien, das Gen a und das

Gen b. Bei späterer Speziation enthalten Mensch und Schimpanse je ein Set der

Gene a und b. Der Spezies-Baum von Mensch und Schimpanse enthält zwei Gen-

Bäume, einen vom Gen a (grau) und einen zweiten vom Gen b (grün).

Dieses kleine Beispiel mit drei Arten zeigt bereits, dass es zu einem

Spezies-Baum mehr als einen Gen-Baum geben kann. Anders ausge

drückt bedeutet dies, dass es in der Molekularen Evolution keine

»Ein-Spezies-Baum-Ein-Gen-Baum«-Beziehung gibt. Widersprüche

sind im Besonderen dann zu erwarten, wenn die Aufspaltungsereig

nisse zwischen zwei oder mehreren Arten in relativ kurzer Zeit ablie

fen. Prinzipiell gilt, dass bei der Rekonstruktion von Gen-Bäumen

mehrere unabhängige Gene oder DNA-Sequenzen analysiert wer

den sollten. Dies ist dann besonders wichtig, wenn es Unstimmig

keiten zwischen der klassischen Phylogenie und den molekularen

Befunden gibt.

62

Auswirkungen von Gen-Duplikationen auf Gen-Bäumen

Auswirkungen von Gen-Duplikationen auf Gen-Bäume

Ist im Verlauf der Evolution ein Gen verdoppelt (dupliziert) worden,

kann dies ebenfalls zu einer Diskrepanz zwischen Gen-Baum und

Spezies-Baum führen. Das grundsätzliche Phänomen wird in Abbil

dung 23 veranschaulicht, in der wieder das Beispiel Mensch-Schim

panse herangezogen wird.

In der gemeinsamen Stammart von Mensch und Schimpanse (M-S)

wird das vorhandene Gen 0 dupliziert, es entstehen zwei Kopien

(Gen a und Gen b). Diese können im Verlaufe der Evolution in ganz

unterschiedlichen Regionen des Genoms fixiert werden und sich

zusätzlich in ihrer Funktion deutlich voneinander unterscheiden.

Spaltet sich die Stammart M-S in Mensch und Schimpanse, so erhält

jede Art jeweils ein Set der verdoppelten Gene. Im Menschen nen

nen wir sie aM und bM, im Schimpansen aS und bS. In dem resultie

renden Spezies-Baum von Mensch und Schimpanse gibt es zwei

Gen-Bäume, einen für das Gen a (grau) und einen zweiten für das

Gen b (grün).

Zur Unterscheidung der relativen Beziehungen zwischen den ori

ginalen und kopierten Genen werden in der molekularen Evolutions

biologie die Fachausdrücke homolog, ortholog und paralog verwen

det.

Homologe Sequenzen ähneln sich in ihrem Aufbau und ihrer

Struktur (griechisch homos = gleichartig, entsprechend). Obwohl seit

der Duplikation des Vorfahr-Gens 0 viel Zeit vergangen ist, lassen

sich noch Gemeinsamkeiten zwischen den vier Genen UM, as, bM und

Verkennen.

Orthologe Sequenzen haben den gleichen Ursprung (griechisch

orthos = richtig). Die Gene aM und aS gehen auf das gemeinsame Vor

fahren-Gen a zurück, die Gene bM und bS auf das Vorfahren-Gen b.

Dementsprechend sind die Gen-Pärchen (aM, aS) und (bM, bS) ortho

63


log zueinander. Wird der Gen-Baum anhand orthologer Sequenzen re

konstruiert, ist er in diesem Beispiel mit dem Spezies-Baum identisch.

Paraloge Sequenzen haben keinen gemeinsamen Ursprung (grie

chisch para = abweichend). In Abbildung 23 gilt dies für die Kombi

nation der Gene aM und bS sowie für die der Gene bM und aS . Wenn

die untersuchten Gene bekannt sind, mag es trivial erscheinen, para

loge Sequenzen zu erkennen. In der Forschung ist die Funktion der

untersuchten Gene oft nicht bekannt, und dann können die Ähnlich

keiten ihrer Sequenzen dazu führen, dass fälschlicherweise ein

gemeinsamer Ursprung angenommen wird. Bleibt die Paralogie

unerkannt, kann der rekonstruierte Gen-Baum vom Spezies-Baum

abweichen.

Ein Ausweg besteht darin, nur solche Gene zu analysieren, die in

einfacher Kopie vorliegen (single-copy Gene). Soll zum Beispiel unter

sucht werden, ob ein menschliches Gen in einfacher oder mehrfa

cher Kopie vorliegt, kann in der Datenbank des kompletten mensch

lichen Genoms nach homologen Sequenzen gesucht werden. Findet

sich im gesamten Genom keine ähnliche Sequenz, so liegt das Gen

wahrscheinlich in einfacher Kopie vor. Die Situation verkompliziert

sich, wenn Gene nach ihrer Duplikation wieder verloren gehen (Dele

tionen). Es besteht dann kaum eine Chance, dass die Orthologie be

ziehungsweise Paralogie von Sequenzen erkannt wird.

Gen-Duplikationen als Motor der physiologischen Feinabstimmung

Das Wissen um Gen-Duplikationen ist zum einen wichtig für die kor

rekte Rekonstruktion von Stammbäumen. Andererseits offenbaren

Gen-Duplikationen faszinierende Einsichten in die Dynamik der

molekularen Evolution. Mit der Duplikation eines Gens gehen oft

Änderungen der Funktion sowie vielfache Spezialisierungen in einer

oder sogar in beiden Kopien einher.

64

Gen-Duplikationen als Motor der physiologischen Feinabstimmung

In der Proteinfamilie der Globin-Gene ist dieses Phänomen sehr gut

studiert (Abbildung 24).GIobine sind für den Sauerstoff-Haushalt im

Organismus verantwortlich. Bereits vor 600-800 Millionen Jahren

wurde das »Ur-Globin-Gen« dupliziert. Die verdoppelten Gene diffe

renzierten sich zum Myoglobin und zur Familie der »Ur«-Hämoglo

bine. Das Myoglobin-Gen befindet sich beim Menschen auf dem

Chromosom 22. Es reguliert die Speicherung des Sauerstoffs in den

Muskeln.

Vor 450-500 Millionen Jahren bildeten sich durch Duplikation des

»Ur«-Hämoglobins die Familie der D-Globine und der E-Globine. Das

Hämoglobin ist verantwortlich für den Transport des Sauerstoffs im

Blut.

Die Familie der D-Globine, die beim Menschen auf dem Chromo

som 16 liegt, besteht aus den vier funktionellen Genen -, D1, D2 und

T1 sowie drei Pseudogenen (<-, <D1, <D2). Pseudogene haben

keine Funktion, aber weisen noch immer die Strukturmerkmale von

Genen auf. Das d-Gen entstand vor mehr als 300 Millionen Jahren

und wird nur im Embryo aktiviert. Die Aufspaltung in das T1-Gen und

die D-Gene fand vor 260 Millionen Jahren statt. Der Zeitpunkt für die

Entstehung des D1- und D2-Gens ist derzeit ungeklärt, da die Se

quenzen nahezu identisch sind. Da aber beide Gene auch in den

Affen vorkommen, sollten sie vor wenigsten 20 Millionen Jahren ent

standen sein. Das Alter der Pseudogene lässt sich nicht schätzen.

Die E-Globin-Familie befindet sich auf dem Chromosom 11. Es um

fasst die fünf funktionellen Gene H, GJ, AJ, E und G sowie das Pseu

dogen <E. Im Menschen wird das e-Gen in der frühen Embryonal

entwicklung aktiviert (1.-8. Schwangerschaftswoche), während die

zwei J-Gene für den Sauerstoff-Transport im heranwachsenden

Fötus (ab der 9.Schwangerschaftswoche) verantwortlich sind. Die E-und G-Gene werden erst im erwachsenen Menschen aktiviert.

Die Aufspaltung der E-Globin-Gene begann vor 150-200 Millionen

Jahren.

65


An diesem Beispiel wird deutlich, dass Gen-Duplikationen dem un

terschiedlichen Sauerstoffbedarf in der Entwicklung des mensch

lichen Organismus bereits auf molekularer Ebene Rechnung tragen.

Gen-Duplikationen können also zu einer erstaunlichen Feinabstim

mung in der Physiologie beitragen. Inzwischen ist die Evolutionsge

schichte weiterer Gen-Familien rekonstruiert worden, wie beispiels

weise die der Homöobox- (Hox-) Gene. Sie steuern die embryonale

Segmentierung des Körpers entlang der Kopf-Schwanz-Achse. Zu

den bemerkenswertesten Ergebnissen der Forschung der letzten

Jahre gehörte es, dass Hox-Gene bei fast allen Tieren einschließlich

des Menschen und sogar bei Pflanzen zu finden sind. Es stellte sich

sogar heraus, dass Fliegen, denen das für die Entstehung des Auges

verantwortliche homöotische Gen einer Maus eingepflanzt wurde,

ein zusätzliches Facettenauge entwickelten. Offenbar sind die Gene,

welche die Entwicklung der Augen einleiten, bei Säugetieren und

Insekten sehr ähnlich. In naher Zukunft sind auf diesem Sektor noch

viele spannende Ergebnisse zu erwarten, die unser Verständnis über

das molekulare Evolutionsgeschehen erweitern werden.

6 GEN-BÄUME IN POPULATIONEN

Gen-Bäume sind auch für die Aufklärung der Verwandtschaftsver

hältnisse zwischen den Individuen einer Art beziehungsweise Popu

lation von großer Bedeutung. Das Aufstellen solcher Bäume öffnet

ein völlig neues Feld für die Erforschung der molekularen Evolu

tionstheorie. Das Paradebeispiel sind die Ergebnisse der Untersu

chungen zur jüngeren Geschichte des modernen Menschen. Anhand

von DNA-Sequenzen konnten Wissenschaftler die Geschichte des

modernen Menschen neu interpretieren.

Abb.24: Gen-Baum der menschlichen Globin-Gene. Grüne Kreise symbolisieren

jeweils eine Gen-Duplikation; Datierung in Millionen Jahren.

66

Gen-Bäume in Populationen

67


Rekonstruktion der Populationsgeschichte anhand von DNA-Sequenzen

Die Geschichte einer Population wird anhand der Sequenzen einer

Stichprobe von zufällig ausgewählten Individuen untersucht. Dafür

werden bevorzugt die variablen Regionen des Genoms untersucht,

denn nur hier gibt es überhaupt eine Chance, dass sich die Sequen

zen zwischen den Individuen einer Population unterscheiden. Für die

Populationsgeschichte des Menschen und anderer Tierpopulationen

wird dafür bevorzugt die Kontrollregion des Mitochondrien-Genoms

analysiert. Aus dem resultierenden Sequenzalignement wird mit

den in Kapitel 4 dargestellten Methoden ein Gen-Baum berechnet.

Im Unterschied zu einem phylogenetischen Datensatz sind die Se

quenzen zwischen den Individuen eines Populations-Alignements

entweder sehr ähnlich oder häufig sogar identisch (Abbildung 25b).

Daher braucht man keine komplizierten Methoden wie Maximum-

Likelihood oder distanzbasierte Methoden, um multiple Substitutio

nen im Alignement zu korrigieren. Maximum-Parsimonie reicht aus,

um den Gen-Baum zu bestimmen.

Ein Beispiel soll dies veranschaulichen. Gegeben sei eine über die

Zeit konstante Population. Aus der heutigen Generation werden

zufällig acht Individuen, A bis H, ausgewählt und für jedes Individu

um die gleiche Region im Genom sequenziert.

Die Analyse der Sequenzen ergibt folgendes Bild (Abbildung 25a):

Die Sequenz S1 wurde in den drei Individuen A, B und C gefunden. Die

Sequenz S2 war in den zwei Individuen G und H präsent, während die

drei verbleibenden Sequenzen S3, S4 und S5 nur in jeweils einem

Individuum vorkommen.

Für die Rekonstruktion des Gen-Baums (Abbildung 25b) ist nur die

Anzahl der unterschiedlichen Sequenzen relevant; für das Beispiel

also die fünf Sequenzen S1 bis S5. Die Häufigkeit der einzelnen Se

quenzen wird im Gen-Baum vernachlässigt, oder wie in Abbildung

68

Rekonstruktion der Populationsgeschichte

Abb.25a: Sequenz-Alignement einer Stichprobe von acht Individuen (A-H).

Abb.25b: Maximum-Parsimonie-Baum der fünf unterschiedlichen Sequenzen S1

bis S5. Insgesamt sind fünf Mutationen, m1 bis m5, für die Rekonstruktion not

wendig. Der kleine weiße Kreis zeigt eine in der Population nicht gefundene

Sequenz an.

25b lediglich durch die Größe der Knoten symbolisiert. Wie oft eine

Sequenz in einer Stichprobe gefunden wurde, liefert aber wichtige

Informationen über die genetische Vielfalt innerhalb der Population.

Die Verzweigungsstruktur des Gen-Baums spiegelt die verwandt

schaftlichen Beziehungen zwischen den unterschiedlichen Sequen

69


S.103

S.105

zen wider. Insgesamt sind fünf Mutationen (m1 bis m5) nötig, um die

Variabilität im Sequenz-Alignement zu erklären. Die Sequenzen S2

und S3 stehen im Gen-Baum an inneren Knoten (Abbildung 25b). Sie

sind damit »gleichzeitig« rezente Sequenzen (die in der heutigen Po

pulation vorkommen) als auch Vorfahr-Sequenzen für die anderen

Individuen. Diese Doppelfunktion einer Sequenz als Vorfahr-Sequenz

und als rezente Sequenz ist typisch für die Analyse populationsge

netischer Datensätze.

Die Individuen mit einer identischen Sequenz, nämlich A, B und C

(Si) sowie G und H (S2) sind in jeweils einem Knoten vereinigt. Die

Verwandtschaftsstruktur zwischen den Individuen innerhalb eines

Knotens lässt sich mit dem bisherigen Methoden besteck nicht auf

klären. Um etwas über die Geschichte einer Population auszusagen,

sind wiederum statistische Methoden notwendig.


Der Gen-Baum in Abbildung 25b zeigt die verwandtschaftlichen

Beziehungen zwischen den fünf Sequenzen Si bis S5. Wie kann die

Verwandtschaftsstruktur zwischen den Individuen bestimmt wer

den? Wo liegt die Wurzel des Gen-Baums, also der jüngste gemein

same Vorfahre (MRCA) der Stichprobe und wann lebte er? Diese Fra

gen werden bei der phylogenetischen Rekonstruktion durch das

Hinzuziehen einer Außengruppe beziehungsweise durch die mole

kulare Uhr beantwortet. In einer Population mit vielen Sequenzen

muss der Prozess der Vorfahrenfindung am Computer modelliert

werden (Coalescent-Prozess). Die resultierenden Bäume heißen

Genealogien, abgeleitet von dem griechischen Wort genealogia für

Geburt beziehungsweise Abstammung. Im Gegensatz zur genba

sierten Stammbaumrekonstruktion sind in einer Genealogie weder

das Verzweigungsmuster noch die Kantenlängen feste Größen. Es

wird angenommen, dass die Genealogie im Verlauf der Evolution

70


Abb.26: Drei mögliche Genealogien für die Individuen A, B und C.

zufällig entstanden ist. Was heißt dies für das Beispiel in Abbildung

25? Die Individuen A, B und C haben die gleiche Sequenz S1. Abbil

dung 26 zeigt die drei gleichwahrscheinlichen Topologien ((A, B) C),

((A, C) B), (A (B, C)). Darin sind die Verzweigungsmuster und die Zeit

punkte, an denen die Sequenzen ihren jüngsten gemeinsamen Vor

fahren finden, unterschiedlich. Die Zeit kann in der Anzahl der Gene

rationen gemessen werden.

Für die acht untersuchten Individuen A bis H aus der konstanten

Population zeigt Abbildung 27 eine mögliche Genealogie. Jedes Indi

viduum ist durch einen Kreis dargestellt, jede Zeile repräsentiert die

Individuen beziehungsweise Gene einer Generation. Der Zeitpfeil

läuft von der Vergangenheit in die Gegenwart und ist ein Maß für

die Anzahl an Generationen. Die hypothetischen Zeitpunkte für das

Auftreten der fünf Mutationen m1 bis m5 sind eingezeichnet. Der

weiße Kreis an der Basis der Genealogie zeigt den jüngsten gemein

samen Vorfahren aller acht Sequenzen. Wie für die phylogenetischen

71


S.105

Bäume gilt auch bei den Genealogien, dass die Anzahl der Bäume

mit der Anzahl der Individuen exponentiell ansteigt.

Wann lebte der jüngste Vorfahre der menschlichen Population?

In Abbildung 27 wird ein weiteres Phänomen deutlich: Die Zeit zum

jüngsten gemeinsamen Vorfahren (MRCA) hängt sowohl von der

Stichprobengröße als auch der Populationsgröße ab. Die Zeit bis zum

MRCA wird in einer großen Stichprobe beziehungsweise Population

größer sein als in einer kleineren, da mehr Sequenzen zu einem ge

meinsamen Vorfahren verschmelzen müssen. Dabei wird diese Zeit

in der Anzahl an Generationen zwischen der heutigen Population

und deren MRCA gemessen.

Werden nur die drei Individuen A, B und C aus Abbildung 27 be

trachtet, wird deren gemeinsamer Vorfahre bereits nach zwölf Gene

rationen gefunden. Dies gilt auch, wenn nur eine kleine Population

untersucht wird. Für acht untersuchte Individuen ist die Zeit zum

MRCA entsprechend größer. In dem dargestellten Beispiel (Abbil

dung 27) nämlich wird der jüngste gemeinsame Vorfahre nach fünf

zig Generationen gefunden. Dasselbe gilt für eine große Population.

Eine theoretische Überlegung aus dem Coalescent-Prozess zeigt,

dass in einer Population konstanter Größe die Zeit TMRCA bis zum

jüngsten gemeinsamen Vorfahren nach folgender Gleichung be

rechnet wird

TMRCA = 2G (1-1/n) .

Darin ist n die Stichprobengröße und G die Populationsgröße für das

untersuchte Gen, das heißt die Anzahl der Kopien eines Gens in einer

Population. Ist die untersuchte Stichprobe nicht zu klein, vereinfacht

Abb.27: Eine mögliche Genealogie für acht Individuen

72


73


Tabelle 4: Alter des jüngsten gemeinsamen Vorfahren (MRCA) in einer Population

mit konstanter Populationsgröße N

sich die Gleichung zu

TMSCA § 2G.

Überraschenderweise entspricht somit die Zeit bis zum jüngsten

gemeinsamen Vorfahren der doppelten Populationsgröße G für das

untersuchte Gen.

In einer Säugetier-Population der Größe N wird angenommen, dass

die Anzahl der reproduzierenden Weibchen (NW) gleich der Anzahl

der reproduzierenden Männchen (Nm) ist. Dann gilt

N = NW + Nm

und

NW = Nm = N/2.

In Tabelle 4 wird für eine solche Population zunächst die Anzahl der

untersuchten Gene im Mitochondrien-Genom, auf den Y- respektive

X-Chromosomen sowie den autosomalen Chromosomen berechnet.

Einfache Überlegungen führen zu folgenden Ergebnissen: Für die

74


Tabelle 5: Geschätzte Zeiten zum jüngsten gemeinsamen Vorfahren (MRCA) für

unterschiedliche Genregionen des modernen Menschen

Gene auf dem Mitochondrien-Genom, die nur über die mütterlichen

Linien vererbt werden, entspricht die Populationsgröße G der Anzahl

der Weibchen in der Population (G = Nw). Für Gene auf dem Y-Chro

mosom,das nur bei den Männchen vorkommt und zwar in einfacher

Kopie, ist die Populationsgröße G gleich der Anzahl der Männchen

(Nm) in der Population (G = Nm). Für Gene, die sich auf dem X-Chro

mosom befinden, berechnet sich die Populationsgröße G aus der

doppelten Anzahl der Weibchen in einer Population (die zwei X-

Chromosomen besitzen) plus der Anzahl der Männchen (die nur ein

X-Chromosom tragen). Für die Populationsgröße dieser Gene gilt

dann G = 2 Nw + Nm. Für alle autosomalen Gene, die sowohl bei den

Männchen als auch bei den Weibchen in doppelter Kopie vorliegen,

berechnet sich die Populationsgröße zu G = 2 (Nw + Nm). Aus der Populationsgröße für jedes Gen lassen sich nach der obi

gen Näherung TMRCA § 2G und der Gleichung Nw = Nm = N/2 die Zeiten

bis zum jüngsten gemeinsamen Vorfahren einer heutigen Popu

lation angeben (Tabelle 4). Die Gene auf dem Mitochondrien-Genom

sowie die Gene auf dem Y-Chromosom werden nach N Generatio

nen ihren jeweiligen Vorfahren finden. Die Gene auf dem X-Chromo

75


som und die autosomalen Gene brauchen eine drei- respektive vier

mal so lange Zeit. Sie finden ihren gemeinsamen Vorfahren erst

nach 3N respektive nach 4N Generationen. Das führt zu einem be

deutenden Schluss: Der gemeinsame Vorfahre einer Population ist je

nach Lage der untersuchten Sequenz im Genom unterschiedlich alt.

Daraus ergibt sich die überraschende Konsequenz: Für die Gesamt

heit der Gene einer Population gibt es keinen gemeinsamen Zeit

punkt für das Auftreten des jüngsten gemeinsamen Vorfahren.

Obwohl diese theoretischen Vorhersagen für idealisierte Popula

tionen entwickelt wurden, treffen sie auch bei der Analyse verschie

dener Regionen im Genom des modernen Menschen erstaunlich gut

zu (Tabelle 5).

Daraus folgt: Die genetischen Vorfahren des modernen Menschen

haben je nach Lage des untersuchten Gens oder der untersuchten

Sequenz zu sehr unterschiedlichen Zeiten gelebt. Wir heutigen Men

schen sind genetische Mosaiktypen, die auf ganz verschiedene Vor

fahren zurückgehen. Die Vorstellung einer »Eva« oder eines »Adams«,

aus denen der moderne Mensch entstanden sei, ist auf genetischer

Ebene nicht zu rechtfertigen. Jeder DNA-Abschnitt hat seine eigene

»Eva« respektive seinen eigenen »Adam«. Darüber hinaus waren die

jeweiligen genetischen »Evas« und »Adams« zu ihrer Zeit auch nicht

allein, sondern stets Mitglieder einer Population. Daraus folgt, dass

die Zeitpunkte der jüngsten gemeinsamen Vorfahren nicht notwen

digerweise mit dem Zeitpunkt der Entstehung des modernen Men

schen korrelieren.

Demographie

Bislang wurde der Coalescent-Prozess nur in Populationen mit kon

stanter Größe betrachtet. Wie ändert sich die Genealogie, wenn sich

die Größe der Population ändert? Wie kann die demographische Ge

schichte aus einem Alignement erschlossen werden?

76

Demographie

Die Demographie einer (menschlichen) Population beschreibt ihre

»Bevölkerungsentwicklung« im Laufe der Zeit. Als illustrative Bei

spiele unterschiedlicher Bevölkerungsentwicklung und ihr Einfluss

auf die Genealogien werden exemplarisch drei Szenarien vorgestellt,

die in Abbildung 28 zusammengefasst sind.

Abbildungen 28a und b zeigen jeweils eine typische Genealogie

für acht Sequenzen einer kleinen Population (G = 2500) und einer

viermal größeren Population (G = 10000). Von diesen Populationen

nehmen wir an, dass ihre Größe, die durch das graue Feld symboli

siert ist, konstant bleibt. Im dritten Fall (Abbildung 28c) wächst eine

kleine ursprüngliche Population (G = 500) innerhalb von 800 Gene

rationen auf G = 10 000 Gene. Die Population hat sich in 800 Gene

rationen um das Zwanzigfache vergrößert, was einer Wachstumsrate

von 0,375% pro Generation entspricht. Eine solche Populationsge

schichte wird unter dem Begriff bottleneck, »Flaschenhals«, zusam

mengefasst. Optisch entsteht annähernd der Eindruck einer nach

unten geöffneten Flasche, wobei nur wenige Individuen in dem Fla

schenhals lebten.

Für die konstanten Populationen (Abbildung 28a, b), die dem

Wright-Fisher-Modell entsprechen, berechnet man die Zeit zum

MRCA (Coalescent-Prozess) mit 4375 beziehungsweise 17 500 Gene

rationen. Die zufälligen Genealogien (Abbildung 28) stimmen gut

mit den Erwartungswerten überein. Für größere Stichproben wird

sich die Zeit zum MRCA dem Wert 2G nähern.

Ändert sich die Populationsgröße im Laufe der Zeit (Flaschenhals-

Beispiel), so lässt sich die erwartete Zeit bis zum MRCA nicht mehr

berechnen. Man muss auf Computersimulationen zurückgreifen. Im

gezeigten Beispiel (Abbildung 28c) vergehen 2800 Generationen bis

zum MRCA. Die Zeit zum jüngsten gemeinsamen Vorfahren ist in der

Flaschenhals-Population viel kleiner als in den beiden konstanten

Populationen. Die Genealogie der Flaschenhals-Population, deren

Demographie seit 2000 Generationen identisch mit der großen Po

77

S.105


S.109

pulation ist, wird also im Flaschenhals extrem verkürzt. Durch die

Verkleinerung der Populationsgröße kommt es zu einer Beschleuni

gung des Coalescent-Prozesses, der die noch vorhandenen Linien

innerhalb kurzer Zeit (im Beispiel 800 Generationen) zusammen

schmelzen lässt.

Wie wirkt sich die veränderte Gestalt der Genealogie auf die gene

tische Variabilität einer Population aus? Es wird angenommen, dass

jede Substitution an einer neuen Position der Sequenz stattfindet

und dass es keine Rückmutationen gibt (infinite-sites-model). Die

grünen Balken in Abbildung 28 zeigen die Verteilung der Substitu

tionen auf die Genealogien. Als Maß für die genetische Variabilität

einer Stichprobe wird die Verteilung der paarweisen Unterschiede

zwischen den Sequenzen und die Zahl der variablen Positionen im

Alignement herangezogen.

Zur Bestimmung der Häufigkeitsverteilung paarweiser Unter

schiede in einer Stichprobe wird für jedes Paar von Sequenzen die

Anzahl der unterschiedlichen Positionen ausgezählt und in einem

Balkendiagramm aufgetragen. Man zählt also aus, wie viele Se

quenzpaare identisch sind (Anzahl der Unterschiede gleich Null),

und wie viele sich an einer, zwei, drei,... Positionen unterscheiden.

Abbildung 29 zeigt die Verteilung der paarweisen Sequenzunter-

schiede für die drei Genealogien aus Abbildung 28, nämlich a) für die

kleine, konstante Population (G = 2500), b) für die große, konstante

Population (G = 10000) und c) für die Flaschenhals-Population.

Bei der kleinen, konstanten Population (a) ist die Verteilung der

paarweisen Unterschiede sehr weit gestreut. Es gibt Sequenzen, die

relativ nah verwandt miteinander sind und daher wenige Unter

schiede haben. Andererseits gibt es auch viele Sequenzpaare, die

sechs oder mehr Unterschiede zeigen. Dies sind gerade jene Se

quenzpaare, die ihren gemeinsamen Vorfahren vor etwa 5000 Gene

rationen hatten. In der großen, konstanten Population (b) sieht die

Verteilung der paarweisen Unterschiede ähnlich aus, allerdings sind

78

Demographie

Abb.28: Der Einfluss der demographischen Geschichte auf die Genealogie. Die Ent

wicklung der Populationsgröße wird durch die graue Fläche symbolisiert. Die Zeit

wird in Generationen gemessen.

a) Genealogie einer kleinen Population, b) Genealogie einer großen Population,

c) bottleneck-Population.

die absoluten Unterschiede zwischen den Sequenzen größer. Auch

hier gibt es eine Reihe von Sequenzen, die nah miteinander ver

wandt sind, während die nicht näher verwandten Sequenzen bis zu

32 Unterschiede haben (vergleiche Abbildung 28b). Die Flaschen

hals-Population (c) hat eine eingipfelige Verteilung. Das Maximum

der Verteilung liegt bei zwei bis drei Unterschieden. Die Verteilung

ähnelt der bekannten Gauß'schen Glockenkurve.

79


Offensichtlich beeinflusst die Genealogie nicht nur die Zahl der Un

terschiede, sondern auch die Form der Distanzverteilung. Die Gene

alogien konstanter Populationen sind gekennzeichnet durch zwei

lange Kanten oder Linien, die zum MRCA verschmelzen. Auf diesen

Linien sammeln sich viele Substitutionen an. Sequenzpaare, deren

gemeinsamer Vorfahre mit dem MRCA der gesamten Genealogie

zusammenfällt, werden also sehr viele Sequenzunterschiede tragen.

Sequenzpaare, deren gemeinsamer Vorfahre wesentlich jünger ist,

werden sich sehr ähnlich sein. Dies erklärt im Beispiel der konstan

ten Populationen die Streuung der paarweisen Distanzen und die

irreguläre Form ihrer Verteilung.

Die Genealogie der Flaschenhals-Population hat nicht das tiefe

Verzweigungsmuster wie die Populationen mit konstanter Größe.

Nach 2000 Generationen schmilzt die Populationsgröße innerhalb

von 800 Generationen auf G = 500. Die Wartezeit zum MRCA der

Stichprobe wird extrem verkürzt, so dass die Zahl an Substitutionen

in diesem Zeitraum dramatisch reduziert ist. Im gezeigten Beispiel

finden im eigentlichen Flaschenhals keine Substitutionen statt. Die

Distanz zwischen den Sequenzen wird also im Wesentlichen durch

die Zeit bis zum Flaschenhals (ca. 2000 Generationen) bestimmt.

Dies erklärt die glockenförmige Verteilung der paarweisen Distan

zen in einer Flaschenhals-Population.

Die Betrachtung der paarweisen Distanzverteilung einer Stichpro

be liefert also einen anschaulichen Hinweis auf die demographische

Geschichte einer Population. Konstante Populationen haben eine ir

reguläre Distanzverteilung und Flaschenhals-Populationen eine

glockenförmige Distanzverteilung.

Abb.29: Häufigkeitsverteilung der paarweisen Distanzen für drei Populationen

mit unterschiedlicher demographischer Geschichte: a) kleine, konstante Popula

tion; b) große, konstante Population (beachte anderen Maßstab!); c) Flaschenhals-

Population; die Sequenzen sind Abbildung 28 entnommen, die Zahlen an den Pfei

len geben die mittlere Anzahl der paarweisen Unterschiede an.

80

Demographie

81


Abb. 30: Gen-Baum der Menschenaffen. Das auf dem X-Chromosom gelegene Gen

Xq13 wurde in 70 Menschen, 30 Schimpansen, 11 Gorillas und 14 Orang-Utans

untersucht.

Um die anschauliche Deutung statistisch abzusichern, sind eine Rei

he von Tests entwickelt worden. Dazu berechnet man zunächst die

mittlere Zahl an paarweisen Unterschieden. Die Sequenzen der zwei

konstanten Populationen unterscheiden sich im Mittel an 4,9 Posi

tionen in der kleinen Population und 17,7 Positionen in der großen Po

pulation. Hingegen beträgt der mittlere Unterschied zwischen den

Sequenzen der Flaschenhals-Population 2,9 Positionen. Nun liefert

der Mittelwert allein keinen Hinweis auf die Demographie, da die 2,9

unterschiedlichen Positionen auch mit einer kleinen Populationsgrö

ße erklärt werden können (Genetische Variabilität einer Population).

Die mittleren paarweisen Distanzen einer Stichprobe müssen also

mit einem weiteren Maß für genetische Variabilität verglichen wer

den. Hier bietet sich die Zahl an variablen Positionen Sn im Aligne

ment an, die im infinite-sites-model gleich der Anzahl der stattge

fundenen Substitutionen (grüne Balken in Abbildung 28) ist. klein groß bottleneck Im Beispiel findet man S8 = 13, S8 = 38 und s8 = 10. Die

kleine Population hat annähernd ein Drittel der genetischen Variabi

lität der großen Population. Theoretisch erwartet man viermal mehr

variable Positionen in der großen Population. Da es sich beim Coales

S.109

82

Demographie

Abb.31: Zwei Hypothesen zur Evolution des modernen Menschen Homo sapiens.

cent- und beim Substitutions-Prozess um Zufallsereignisse handelt,

sind Abweichungen von den erwarteten Werten wahrscheinlich.

Die Flaschenhals-Population hat mit zehn Substitutionen bezie

hungsweise variablen Positionen nur ein Viertel der genetischen

Variabilität der großen, konstanten Population. Im Vergleich zur klei

nen Population hat die sprunghaft gewachsene Population nur et

was weniger variable Positionen. Wenn die Demographie der Fla

schenhals-Population unbekannt ist, würde man aufgrund der zehn

variablen Positionen folgern, dass die Flaschenhals-Population eine

ähnliche Populationsgeschichte wie die kleine Population hat; ange

sichts der heutigen Populationsgröße von G = 10000 ein erstaunli

ches Ergebnis.

Die Zahl der variablen Positionen allein gibt also ebenso wie die

mittlere paarweise Distanz keine Information über die demographi

sche Entwicklung einer Population. Die geringe Zahl an variablen

Positionen kann auch mit einer kleinen Populationsgröße erklärt

83


werden. Nur der Vergleich zwischen den mittleren paarweisen Dis

tanzen und der Anzahl der variablen Positionen liefert einen Test, der

die demographische Geschichte einer Population aufdeckt und so

mit eine statistisch fundierte Aussage über die Demographie er

laubt. Dieser Test basiert auf der Tatsache, dass sich aus der mittle

ren paarweisen Distanz und der Anzahl an variablen Positionen die

Populationsgröße einer konstanten Population bestimmen lässt.

Weichen die beiden geschätzten Populationsgrößen signifikant von

einander ab, so kann die Populationsgröße nicht konstant geblieben

sein.

Da sowohl die mittlere Distanz als auch die Zahl der variablen Posi

tionen in einem Sequenzalignement leicht zu bestimmen sind, er

staunt es nicht, dass die Aufdeckung der demographischen Ge

schichte mittels Sequenzstichproben aus einer Population weite

Verbreitung gefunden hat. Zumal in jüngster Vergangenheit die

Analysemethoden wesentlich genauer geworden sind als die hier

vorgestellte, sehr einfache Methode.

Mit diesem Ansatz wurde in den letzten Jahren insbesondere die

Populationsgeschichte des modernen Menschen genauer unter

sucht. Bei der vergleichenden Analyse der genetischen Variabilität

des modernen Menschen und seines nächsten Verwandten, dem

Schimpansen, zeigte sich überraschenderweise, dass die genetische

Variabilität der Schimpansen rund viermal größer ist als die des

Menschen. Bedenkt man, dass der moderne Mensch weltweit ver

breitet ist und mit sechs Milliarden Menschen eine im Vergleich zum

Schimpansen gigantische Populationsgröße hat, liegt die Erklärung

nahe, dass der Mensch in seiner jüngsten Vergangenheit gewaltig

angewachsen ist. Dieses Wachstum hat vor ungefähr 100 000

200 000 Jahren begonnen. Abbildung 30 zeigt den Gen-Baum für

den Menschen und die drei nächstverwandten Menschenaffen. Er

basiert auf Sequenzen des Xq13-Gens, das auf dem X-Chromosom

liegt. An der Verzweigungstiefe innerhalb der vier untersuchten Ar

84

Wo kommen wir her?

Abb.32: Schematische Illustration des geographischen Ursprungs der modernen

Menschen. Die Sequenzen von sechs Afrikanern (A1 bis A6) stehen basal zu den

vier nicht-afrikanischen Sequenzen (E7 bis E10), die von Eurasiern und Amerika

nern stammen.

ten zeigt sich, dass der Mensch mit seinem relativen Alter von ca. 0,5

Millionen Jahren sowohl der jüngste Vertreter der untersuchten Ar

ten ist als auch die geringste genetische Vielfalt trägt. Die Menschen

haben sich also als letzte Form der großen Menschenaffen etabliert

und wir sind alle miteinander näher verwandt, als das für die einzel

nen Populationen der Schimpansen, Gorillas oder Orang-Utans der

Fall ist.

Wo kommen wir her?

Die geographische Herkunft der modernen Menschen ist noch

immer ein Rätsel, was vor allem an der Lückenhaftigkeit der Fossil

85


funde liegt. Dass die Wiege der Hominiden, das heißt alle heutigen

Menschen zusammen mit den ausgestorbenen Vor- und Frühmen

schen, in Afrika steht, ist mittlerweile unumstritten. Bezüglich der

weiteren Besiedlung und Ausbreitung des modernen Menschen ste

hen sich zwei Hypothesen gegenüber, nämlich das Multiregionale

Modell und das Arche-Noah-Modell (Abbildung 31).

Nach dem Multiregionalen Modell entstand die geographische

Vielfalt der heutigen Menschen schon vor ein bis zwei Millionen Jah

ren, als sich Homo erectus von Afrika aus über die anderen Kontinente

ausbreitete. Die charakteristischen Merkmalsunterschiede zwi

schen den heutigen Großgruppen wie Afrikaner, Asiaten oder

Europäer haben sich demnach in einem sehr langen Zeitraum in den

entsprechenden Regionen herausgebildet. Die genetische Ähnlich

keit aller modernen Menschen wird damit erklärt, dass durch Kreu

zungen zwischen benachbarten Populationen ein anhaltender Gen

fluss durch das gesamte geographische Verbreitungsgebiet des

Menschen entstand.

Im Arche-Noah-Modell wird davon ausgegangen, dass sich nur

eine kleine Population des Homo erectus in Afrika zum Homo sapiens entwickelte. Nur diese Homo-sapiens-Population verließ vor etwa

100000 bis 200000 Jahren Afrika und besiedelte nachfolgend die

gesamte Welt. Alle Nachfahren des Homo erectus, einschließlich des

in Mitteleuropa lebenden Neandertalers, starben aus, ohne zum

Genpool der heutigen Menschen beizutragen. Nach dieser Hypothe

se, die auch Out-of-Africa-Modell genannt wird, sind die heutigen

Menschen viel näher verwandt, als nach dem Multiregionalen Mo

dell angenommen werden muss.

Die Molekulargenetik hat sich ebenfalls der Frage angenommen,

wo der geographische Ursprung des modernen Menschen liegt.

Dazu wurden bisher Hunderte von mitochondrialen DNA-Sequen

zen nahezu aller Volksgruppen analysiert. Sämtliche Untersuchun

gen stützen das Arche-Noah-Modell. In Abbildung 32 wurden zufäl

86

Die Zukunft

lig zehn Sequenzen von heutigen Menschen herausgegriffen. Sechs

von ihnen (A1 bis A6) stammen aus Afrika, die restlichen vier (E7 bis

E10) aus Eurasien und Amerika. Der Gen-Baum wurde mit der Se

quenz des Schimpansen gewurzelt.

Wie lässt sich dieser Baum bezüglich des geographischen Ur

sprungs der heutigen Menschheit interpretieren? In Afrika gibt es

zum einen die Sequenzen A1, A2 und A3, die im Gen-Baum basal ste

hen und nicht näher mit den verbleibenden Sequenzen A4, A5 und

A6 verwandt sind. Diese letzen drei afrikanischen Sequenzen sind

näher mit den eurasischen und amerikanischen Sequenzen E7 bis

E10 verwandt als mit den afrikanischen Sequenzen Ai bis A3. Daraus

folgt, die sechs afrikanischen Sequenzen sind nicht monophyletisch.

Die sparsamste Erklärung für den dargestellten Baum nach dem Par-

simonie-Prinzip ist ein geographischer Ursprung der zehn zufällig

ausgewählten Menschen in Afrika. Das legt den Schluss nahe, dass

der moderne Mensch vor etwa 100000 bis 200000 Jahren in Afrika

entstanden ist und sich anschließend über die ganze Welt verbreitet

hat. Dieses Modell wird auch dadurch erhärtet, dass sich das grund

sätzliche Verzweigungsmuster des Gen-Baums auch dann nicht

ändert, wenn außer den bisherigen zehn Sequenzen weitere mito

chondriale DNA-Sequenzen hinzugezogen oder zusätzlich Genregio

nen des X- respektive Y-Chromosoms analysiert werden.

7 DIE ZUKUNFT

Mit der Ansammlung molekulargenetischer Daten erlebt die Rekon

struktion der Stammesgeschichte einen Aufschwung, der weit über

die klassische Phylogenie als Wissenschaft von der Klassifikation des

Lebenden hinausgeht. Sequenzdaten werden auch in Zukunft eine

bedeutende Rolle bei der Aufklärung der verwandtschaftlichen Be

ziehungen zwischen den Organismen spielen und dabei die Daten

87

Die Zukunft

aus der Morphologie, Ontologie, Ethologie und geographischer Ver

breitung der Taxa ergänzen.

Die Erkenntnis, dass Gen-Bäume die Phylogenie der Organismen

widerspiegeln, hat in den 70er Jahren zur Rekonstruktion des univer

sellen Baums des Lebens geführt (siehe Abbildung auf der letzten

Seite). Von besonderem Interesse sind dabei die basalen Verzwei

gungsmuster zwischen den drei großen Reichen des Lebens. Im Ein

zelnen sind dies die Archaebakterien, die sehr ursprüngliche (grie

chisch arche = Anfang) Bakterien sind und an extremen Standorten

wie Salzseen oder heißen Quellen vorkommen. Weiterhin die echten

Bakterien (Eubakterien), aus denen sich zum Beispiel die Darmflora

zusammensetzt, und die Eukaryoten. Letztere sind Organismen, die

einen echten Zellkern enthalten und zu denen unter anderem die

Pflanzen, Pilze, Tiere und wir Menschen gehören.

Der auf der letzten Seite abgebildete Baum beruht auf der Analyse

eines einzigen Moleküls, nämlich der kleinen Untereinheit der ribo

somalen RNA (small subunit ribosomal RNA, abgekürzt SSU rRNA).

Dieses Molekül kommt in allen Organismen vor und evolviert sehr

langsam. Die Sequenzen lassen sich daher auch noch zwischen so

unterschiedlichen Gruppen wie Bakterien und Säugetieren alignie

ren. Die universelle Phylogenie spiegelt die Unterteilung in die drei

großen Reiche Archaebakterien, Eubakterien und Eukaryoten wider.

Diese Dreiteilung wird auch durch andere biochemische Befunde

gestützt. Außerdem wurde die Endosymbinontentheorie bestätigt.

Diese Theorie geht davon aus, dass die Mitochondrien und Chloro

plasten der heutigen Eukaryoten einst eigenständige kleine, bakte

rienähnliche Zellen waren. Sie wurden in einem frühen Stadium der

Evolution von den Vorläufern der Eukaryoten aufgenommen. In der

universellen Phylogenie sind Bakterien (zum Beispiel Agrobacterium tumefaciens und Escherichia coli) die nächsten Verwandten der Mito

chondrien, die mit Hilfe von Sauerstoff aus organischer Nahrung

Energie gewinnen. Die Chloroplasten sind aller Wahrscheinlichkeit

88

Die Zukunft

nach aus Blaualgen (Cyanobakterien) hervorgegangen, die ihrerseits

Photosynthese betreiben, das heißt Strahlungsenergie des Sonnen

lichts in chemisch gebundene Energie umwandeln.

Der anfängliche Optimismus, mit der kleinen Untereinheit der ri

bosomalen RNA über ein universelles Werkzeug zur phylogeneti

schen Rekonstruktion zu verfügen, wurde im Laufe der Jahre er

schüttert. Verschiedene Gene führen nicht notwendigerweise zu

den gleichen Bäumen. Selbst wenn zufällige Effekte bei der Erhebung

der Daten vernachlässigt werden, ist die Idee von einem universellen

Baum des Lebens (tree of life) in der naiven Form, nach der alle heu

tigen Lebewesen auf einen gemeinsamen Vorfahren zurückgehen,

so nicht haltbar.

Die Evolution einzelner Gene lässt sich in den meisten Fällen mit

einem phylogenetischen Baum beschreiben, im Extremfall hat aber

jedes Gen seinen eigenen Baum. Zusätzliche Effekte wie Gendupli

kationen, unvollständiges Aussortieren der Linien (lineage sorting) oder horizontaler Gentransferführen dazu, dass es zu einem Spezies-

Baum oft viele Gen-Bäume gibt. Eine spannende Frage bleibt, wie

sich aus einer Kollektion verschiedener Gen-Bäume ein allgemein

gültiger »Speziationsbaum« rekonstruieren lässt.

Eine weitere Besonderheit kennzeichnet die Evolution der Bakte

rien. Während Eukaryoten hauptsächlich durch Veränderung ihrer

vorhandenen genomischen Information evolvieren, haben Bakterien

anscheinend einen großen Teil ihrer genetischen Diversität durch

Einverleibung von DNA-Abschnitten verwandtschaftlich weit ent

fernter Organismen erworben. Dieses Phänomen bezeichnet man

als horizontalen Gentransfer. Durch die Sequenzierung ganzer Geno

me ist offensichtlich geworden, dass Genduplikation und horizonta

ler Gentransfer wesentliche Motoren der bakteriellen Evolution sind.

Die zur Verfügung stehenden Daten deuten darauf hin, dass kein

Organismus immun ist gegen horizontalen Gentransfer. Dabei wer

den Gene, die eine zentrale Rolle im Stoffwechsel spielen, oder Gene,

89

Die Zukunft

die vollständige biochemische Stoffwechselwege kodieren, aber

auch Teile der Transkriptions- und Translationsmaschinerie und so

gar ribosomale Proteine und ribosomale RNA von einem Organis

mus in einen phylogenetisch weit entfernten Organismus transfe

riert. Hier müssen neuartige Methoden in der molekularen Evolution

entwickelt werden, um die komplexe Dynamik des Evolutionsge

schehens besser zu verstehen.

Der universelle Baum des Lebens wird sicher eines Tages durch ein

Netzwerk ersetzt werden, in dem die vielfältigen Transferereignisse

auf molekularem Niveau besser dargestellt werden als indem stren

gen, dichotomen Baum, der auf der letzten Seite abgebildet ist. Erste

Schritte zu solchen Analysen wurden unternommen, aber der »Baum

des Lebens« wird eines der ganz spannenden Felder zukünftiger For

schung bleiben.

Auch mit der Sequenzierung ganzer Genome werden neue Her

ausforderungen an die molekulare Evolutionstheorie gestellt. Bis

lang wurde hauptsächlich die Evolution einzelner Gene untersucht.

Ganze Genome erfordern die Analyse einer heterogenen Sammlung

von DNA-Sequenzen, die aus kodierenden und nicht-kodierenden

Genen, repetitiver DNA, regulatorischen Sequenzen (siehe Abbil

dung 3) usw. besteht. Unser mikroskopischer Blick auf einzelne Gene

wird durch die Betrachtung ganzer Genome enorm erweitert. Neue

Fragen sind dabei beispielsweise, ob die Evolution in verschiedenen

Teilen des Genoms, zum Beispiel auf unterschiedlichen Chromoso

men, verschieden abläuft und falls ja, warum?

Die Analyse solcher Fragen erfordert die Entwicklung neuer Algo

rithmen. Das Alignement ganzer genomischer Sequenzbereiche wird

rechentechnisch aufwändiger, da die Sequenzen länger und hetero

gener sind und Inversionen und Translokationen das Bild zusätzlich

verkomplizieren. Neue effiziente Algorithmen sowie eine erweiterte

Theorie der molekularen Evolution müssen entwickelt werden und

werden derzeit auch intensiv bearbeitet.

90

Molekulare Techniken

VERTIEFUNGEN


Das mittlerweile sehr umfangreiche Wissen über die Struktur und

Evolution von Genen und DNA- beziehungsweise RNA-Sequenzen

geht einher mit den rasanten technischen Entwicklungen auf dem

Gebiet der Molekularbiologie. Aus jedem Organismus kann im Labor

die gesamte DNA beziehungsweise RNA isoliert und analysiert wer

den. Fast alle gentechnischen Anwendungen beruhen auf der Kennt

nis der genauen Abfolge der Nukleotide (Nukleotidsequenzen) in

den Organismen. Für eine solche Sequenzanalyse reicht ein einziges

DNA-Molekül nicht aus, dafür sind einige tausend Kopien des DNA-

Moleküls erforderlich. Stehen nur wenige DNA-Moleküle zur Verfü

gung, müssen diese zunächst vervielfältigt werden. Handelt es sich

dabei um einen relativ großen DNA-Abschnitt, nutzt man das ver

hältnismäßig aufwändige und langwierige Klonieren. Kleinere DNA-

Abschnitte können mit Hilfe der Polymerase-Kettenreaktion (PCR) in

relativ kurzer Zeit millionenfach kopiert werden.

Bei vielen molekularen Techniken werden - wie bei den Stoffwech

selvorgängen im lebenden Organismus - spezielle Enzyme (gekenn

zeichnet durch die Endung -ase) verwendet, wobei es für jedes Ver

fahren ein Temperaturoptimum gibt. Grundlegende Operationen in

der Molekularbiologie sind:

• Isolieren der DNA aus einem Organismus,

• Trennen eines DNA-Strangs in zwei Einzelstränge,

• Vervielfältigen eines DNA-Abschnittes mit Polymerasen,

• Ausschneiden von DNA-Fragmenten mit Endonucleasen,

• Verbinden zweier DNA-Moleküle mit Hilfe von DNA-Ligasen,

• Übertragen von DNA-Molekülen in Bakterienzellen,

91

91


92 • Zerschneiden von DNA-Strängen mit Restriktionsenzymen,

• Auftrennen von DNA-Fragmenten durch Gel-Elektrophorese,

• Bestimmen der DNA-Sequenz mit Hilfe einer Sequenziermaschine.

Das Klonieren dient der Vervielfältigung großer DNA-Abschnitte. Die

hierzu erforderlichen Arbeitsschritte sind in Abbildung 33 schema

tisch dargestellt. Im ersten Schritt zerschneiden Restriktionsenzyme

die DNA an spezifischen, nur wenige Nukleotide langen Erkennungs

sequenzen. Das Alul-Enzym erkennt zum Beispiel die Sequenz AGCT,

das EcoRI-Enzym die Sequenz GAATTC. Die resultierenden DNA-Frag

mente sind bis zu 50000 Basenpaare lang.

Anschließend werden die zahlreichen DNA-Fragmente getrennt.

Dazu sind Überträger-Moleküle (Vektoren) notwendig, die ebenfalls

aus DNA bestehen. Die gebräuchlichsten Vektoren sind Plasmide.

Hierbei handelt es sich um kleine ringförmige DNA-Moleküle, die

aus dem Zellplasma von Bakterien oder Hefen isoliert werden. Die zu

trennenden DNA-Fragmente werden in die Plasmide eingebaut.

Dazu werden die ringförmigen Bakterien-Plasmide aufgeschnitten,

um die fremden DNA-Abschnitte in die ursprüngliche Plasmid-DNA

einzubinden. Dieser Schritt heißt Ligation. Das so entstandene

Hybrid-Molekül wird anschließend in eine lebende Bakterienzelle

eingeschleust. Dieser Umwandlungsprozess der Bakterienzelle heißt

Transformation. Die Bakterienzelle enthält nun zusätzlich zu ihrer

eigenen Bakterien-DNA das fremde DNA-Hybrid-Molekül. Die Trans

formation ist der entscheidende Schritt im Trennungsvorgang der

ursprünglichen DNA-Fragmente, da jede Bakterienzelle nur ein Hyb

rid-Molekül aufnimmt und somit die Fragmente in den Bakterien

zellen räumlich voneinander getrennt werden.

In einem weiteren Schritt, der eigentlichen Klonierung, wird je

weils eine transformierte Bakterienzelle auf einer Nährst off platte

angezüchtet, wobei sich die Bakterien durch Zellteilung sehr schnell

vermehren. Bei diesem Prozess entstehen zahlreiche identische Ko

92


pien der Bakterienzelle: die Klone. Die in den Bakterienzellen enthal

tenen DNA-Hybrid-Moleküle werden auf diesem Wege ebenfalls ver

vielfältigt. Zur weiteren Untersuchung werden die Hybrid-Moleküle

aus den Bakterienzellen isoliert. Schließlich werden aus der riesigen

Anzahl der DNA-Hybrid-Moleküle die ursprünglichen DNA-Fragmen

te wieder freigesetzt, die nun in genügender Anzahl für weiterfüh

rende Forschungen zur Verfügung stehen.

Da sich transformierte Bakterienzellen problemlos züchten und

lagern lassen, stehen jederzeit beliebige Mengen eines gewünsch

ten DNA-Fragments zur Verfügung. Eine solche Sammlung von DNA-

Fragmenten eines Genoms wird Genombibliothek genannt.

Eine schnellere und vielseitigere Möglichkeit zur Vervielfältigung

kleinster Mengen spezifischer DNA-Abschnitte ist die Polymerase-

Kettenreaktion (PCR). Die PCR hat die Molekularbiologie in zweifa

cher Weise grundlegend revolutioniert: Zum einen lassen sich DNA-

Fragmente im Reagenzglas vervielfältigen. Der aufwändige Umweg

über die Einschleusung in lebende Bakterienzellen entfällt. Zum an

deren sind nur winzige Mengen an Ausgangs-DNA notwendig.

Kleinste Reste von Hautschuppen, Haaren oder Blut reichen aus, um

genügende Mengen an neu synthetisierter DNA zu gewinnen.

Das Prinzip der PCR ist die Vervielfältigung eines DNA-Abschnittes

mit Hilfe der DNA-Polymerase. Dieses Enzym synthetisiert DNA. Im

lebenden Organismus ist es unter anderem für die Reparatur und die

Vervielfältigung der DNA bei der Zellteilung verantwortlich.

Bei der PCR wird selektiv ein DNA-Abschnitt vervielfältigt. Eine

zwingende Voraussetzung für die Anwendung der PCR ist die Kennt

nis über die Abfolge der Nukleotide in den beiden Randzonen des

DNA-Abschnitts. Vor der PCR werden für diese zwei Regionen die

dazu passenden komplementären Basen als Startermoleküle syn

thetisch hergestellt. Diese kurzen Nukleotid-Moleküle heißen Primer.

Sie sind etwa zwanzig Basenpaare lang und lagern sich während der

PCR an die Randzonen an. Dies geschieht allerdings nur, wenn der

93

93


94

94


DNA-Doppelstrang zuvor in die beiden Einzelstränge aufgetrennt wurde. Die PCR umfasst somit drei Schritte (Abbildung 34):

(1) Denaturierung des DNA-Abschnitts in zwei Einzelstränge,

(2) Anlagerung von zwei Startermolekülen (Primer) an die

Randzonen und

(3) DNA-Synthese der komplementären Stränge zu neuen

vollständigen Doppelsträngen dieses DNA-Abschnitts.

Jeder Arbeitsschritt der PCR erfordert eine andere Temperatur. Die

Steuerung der Temperatur übernimmt ein Wärmebad oderThermo

cycler. Dieses Gerät reguliert außer der Temperatur auch die Zeit

dauer der einzelnen Schritte und die Anzahl der Wiederholungen.

Der »PCR-Cocktail«, in dem die Reaktionen stattfinden, enthält die

Ausgangs-DNA, die zwei zuvor synthetisch hergestellten Primer, die

DNA-Polymerase sowie die vier DNA-Bausteine A, G, C und T.

Im Thermocycler wird das Reaktionsgemisch einem dreistufigen

Temperaturregime unterworfen. Für die Denaturierung der DNA ist

eine Temperatur von 94°C erforderlich. Erst dann lösen sich die Was

serstoffbrückenbindungen zwischen den Doppelsträngen der Aus-

gangs-DNA auf. Es bilden sich Einzelstränge. Nach dem Abkühlen

auf Temperaturen von 5O-55°C lagern sich die zwei Primer an die

Bindungsstellen in den Randzonen an. Dann synthetisiert das Enzym

DNA-Polymerase den jeweils komplementären DNA-Strang. Da sich

stets nur die Nukleotide Cytosin und Thymin sowie Guanin und Ade

nin verbinden, dienen die zwei getrennten DNA-Stränge als Matrizen

für die Bildung von zwei neuen, vollständigen DNA-Strängen.

Das Temperaturoptimum dieser Reaktion liegt bei 68°C.

Aufgrund der hohen Temperaturen benötigt die PCR hitzestabile

Enzyme. Die DNA-Polymerase wird aus Bakterien isoliert, die in hei

ßen Quellen leben. Diese Enzyme verfügen über spezielle Schutzme

Abb.33: Die wichtigsten Schritte beim Klonieren

95

95


96

Abb.34: Prinzip der Polymerase-Kettenreaktion (PCR)

chanismen, so dass sie auch bei extremen Temperaturen noch aktiv

sind. Das am häufigsten verwendete Enzym ist die Taq-Polymerase.

Diese Bezeichnung leitet sich vom Namen des Bakteriums ab, das

Thermus aquaticus heißt.

Der Zyklus aus Denaturierung, Primeranlagerung und DNA-Syn

these wird 25-40 Mal wiederholt. Alle neu synthetisierten DNA-

Fragmente stehen den nachfolgenden Vermehrungszyklen wieder

als Ausgangs-DNA zur Verfügung. Dies erklärt den exponentiellen

Zuwachs an DNA und den Namen »Kettenreaktion«. Bei optimalen

Bedingungen werden in einer PCR-Reaktion theoretisch nach 25 Wie

96


derholungen 225 Kopien eines gewünschten DNA-Fragments synthe

tisiert. In Wirklichkeit sind es »nur« 105 bis 106 Kopien. Daher reichen

selbst kleinste Ausgangsmengen an DNA, im Extremfall nur ein ein

ziges DNA-Fragment, um genügende Mengen an DNA-Kopien für

die weitere Analyse zu synthetisieren. Als Vervielfältigungsmethode

erreicht die PCR ihre Grenzen dann, wenn die Länge der DNA-Ab

schnitte 5000 bis 8000 Basenpaare überschreitet. Sie ist also nur für

die Vermehrung relativ kurzer DNA-Abschnitte geeignet.

Bei der DNA-Sequenzierung wird die genaue Abfolge der Nukleoti

de entlang eines DNA-Strangs bestimmt. Hierfür gibt es verschiede

ne Verfahren. Heute wird meist die Kettenabbruch-Methode ange

wandt, die Frederick Sanger und Kollegen in den 1970er Jahren

entwickelten. Das Grundprinzip ist die enzymatische Synthetisie

rung eines DNA-Strangs und erinnert in seinen Grundzügen an die

Polymerase-Kettenreaktion (PCR). Auch bei der DNA-Sequenzierung

werden die drei Schritte (1) Denaturierung, (2) Primeranlagerung und

(3) DNA-Synthese durchlaufen. Das Raffinierte an der Methode nach

Sanger ist der gezielte Einsatz von vier »Stopp-Nukleotiden« (Dide

soxynukleotide). Ihnen fehlt eine OH-Gruppe am Zuckerrest. Die

Stopp-Nukleotide werden zwar von der Polymerase noch an der zu

gehörigen Stelle in den neu synthetisierten DNA-Strang eingebaut,

aber die Synthese bricht danach ab. So erklärt sich auch der Name

Kettenabbruch-Methode. Für die spätere Entschlüsselung der DNA-

Sequenz gibt es unterschiedliche Markierungssysteme für die

Stopp-Nukleotide. So kann etwa an jedes der vier Stopp-Nukleotide

ein jeweils anderer Fluoreszenz-Farbstoff gebunden werden.

Ein weiterer Unterschied zur Polymerase-Kettenreaktion besteht

darin, dass nur ein Primer, nämlich der Sequenzier-Primer, verwendet

wird. Bei der PCR dienen beide Einzelstränge als Matrizen für die neu

synthetisierte DNA. Bei der DNA-Sequenzierung lagert sich der

Sequenzier-Primer nur an einen der beiden DNA-Stränge an, der

damit als Matrize für die Neusynthese dient. Der zweite Strang wird

97

97


98 nicht analysiert. Die Sequenzierung der DNA verläuft daher aus

schließlich in eine Richtung.

Damit enthält der »Sequenzier-Cocktail« bei der Kettenabbruch-

Methode die zu sequenzierende DNA, einen Sequenzier-Primer (P),

das Enzym Polymerase, die vier DNA-Bausteine A, G, C und T sowie

in geringer Konzentration - die vier farbig markierten Stopp-Nukleo

tide.Wie bei der PCR wird dieses Gemisch im Thermocycler nachein

ander drei unterschiedlichen Reaktionsbedingungen ausgesetzt.

Nach der Denaturierung lagert sich der Sequenzier-Primer (P) an

einen der beiden DNA-Stränge an. Im dritten Schritt wird der kom

plementäre DNA-Strang synthetisiert. Die DNA-Synthese endet,

wenn ein Stopp-Nukleotid eingebaut wird. Bei 25 bis 35 Wiederho

lungszyklen darf davon ausgegangen werden, dass sich an jedes Nu

kleotid der Ausgangs-DNA ein passendes Stopp-Nukleotid anlagert.

Dadurch entstehen aus den ursprünglichen, gleich langen DNA-

Strängen zahlreiche neue DNA-Fragmente unterschiedlicher Länge.

Ein kleines Beispiel soll das Prinzip der Kettenabbruch-Methode

veranschaulichen: Gegeben sei der zu analysierende DNA-Strang

TAGGTACT. Im Ergebnis der DNA-Sequenzierung entstehen die acht

verschieden langen, jeweils neu synthetisierten DNA-Fragmente T,

TA, TAG, TAGG, TAGGT, TAGGTA, TAGGTAC und TAGGTACT, die jeweils

an den Sequenzier-Primer (P) gebunden sind. Die Länge der verschie

denen DNA-Fragmente lässt sich mit Hilfe der Gel-Elektrophorese

bestimmen. Abbildung 35a zeigt das Gemisch aus den acht verschie

den langen DNA-Fragmenten. Dieses Gemisch wird in Abbildung 35b

auf ein Sequenzier-Gel gegeben. Zum Auftragen der Probe enthält

der obere Rand des Gels Vertiefungen oder Kerben. Am unteren Rand

des Gels befindet sich der Laser, der die Farbmarkierungen erkennt

und diese Signale über einen Detektor an den Computer weiterlei

tet. Für das Auftrennen der unterschiedlich langen DNA-Fragmente

entsprechend ihrer Masse nutzt man die Bewegung elektrisch gela

dener Körper in einem elektrischen Feld. Dazu wird an das Gel eine

98


99

Abb.35: Auftrennung von DNA-Fragmenten in einem Sequenzier-Gel.

a) Gemisch von unterschiedlich langen DNA-Fragmenten nach der DNA-Sequen

zierung; P kennzeichnet den Sequenzier-Primer, die vier Stopp-Nukleotide sind far

big markiert.

b) Auftragen der Probe auf das Sequenzier-Gel.

c) Trennung der DNA-Fragmente im elektrischen Feld und Signalempfang durch

einen Laser.

Spannung angelegt (Abbildung 35c). Da die DNA negativ geladen ist,

bewegen sich alle DNA-Fragmente von der Kathode (-) zur Anode

(+), nur verschieden schnell. Die kurzen und damit leichteren Frag

mente wandern am schnellsten, während die längeren und somit

schwereren Fragmente entsprechend langsamer sind. Daher erfolgt

im elektrischen Feld das Sortieren der zahlreichen, unterschiedlich

langen DNA-Fragmente nach ihrer jeweiligen Länge. Die kürzesten

99

Genetische Drift

100 Fragmente (P-T, P-TA, P-TAC.) kommen zuerst am Laser an, die län

geren Fragmente später.

Der Laser regt die vier verschiedenen Fluoreszenz-Farbstoffe an, die

an die jeweiligen Stopp-Nukleotide gebunden sind. Die vier unter

schiedlichen Lichtimpulse werden von der Sequenziermaschine auto

matisch registriert und in die Sequenz-Datei des zu analysierenden

DNA-Strangs umgeschrieben. Pro Durchlauf lassen sich DNA-Frag

mente mit einer Länge von 600 bis 800 Basenpaaren analysieren.

Genetische Drift

Die Idee der genetischen Drift ist einer der Grundbausteine für die

Theorie der neutralen Evolution. Sie verdient es, genauer erläutert zu

werden. In einer Population existiert ein Gen typischerweise in ver

schiedenen Versionen (so genannte Allele), die sich in ihrer DNA-

Sequenz unterscheiden. In Abwesenheit anderer evolutionär wirksa

mer Faktoren wie Selektion, Mutation und Migration erwartet man,

dass die Allelfrequenzen in jeder Generation gleich sind. Da Popula

tionen eine endliche Größe haben, kommt es bei der Weitergabe der

Allele einer Elterngeneration an ihre Nachkommen zu zufälligen Än

derungen der Allelfrequenzen. Einige Individuen werden keine Nach

kommen haben, ihre Allele sterben aus. Andere Individuen haben

mehrere Nachkommen, die entsprechenden Allele werden in der

nächsten Generation häufiger vertreten sein. Daraus ergeben sich

Schwankungen in der Nachkommenzahl pro Individuum, die zwi

schen den jeweiligen Generationen zu unterschiedlichen Allelfre

quenzen führen.

Dieser Zufallsprozess heißt (zufällige) genetische Drift. Er wurde

von Sewall Wright (1889-1988) beschrieben, einem der Urväter der

theoretischen Populationsgenetik. Zufällige Schwankungen in den

Allelfrequenzen führen dazu, dass letztendlich nur ein Allel in der

Population fixiert wird. Die Population verliert durch Drift ihre gene

100

Die neutrale Theorie der Molekularen Evolution

tische Variabilität. In einer kleinen Population geschieht dies schnel

ler als in einer sehr großen Population.


Motoo Kimura (1924-1994) formulierte 1968 die neutrale Theorie

der Molekularen Evolution, um das Ausmaß an Variabilität in einer

Population auf molekularem Niveau zu erklären. Die Theorie besagt,

dass der Großteil der Substitutionen neutral sind, das heißt sie

haben keinen Einfluss auf die Anzahl der Nachkommen des betrof

fenen Individuums.

Das heißt aber nicht, dass es keine Selektion gibt. Kimura postu

lierte lediglich, dass die Mehrzahl der Basenaustausche auf moleku

larem Niveau nicht adaptiv, das heißt für das Individuum nicht vor

teilhaft sind. Finden solche vorteilhaften Mutationen statt, dann

führt dies zu einer besseren Anpassung an die herrschenden Um

weltbedingungen, und die Nachkommen dieser Individuen verbrei

ten sich schneller durch die Population (so genannte positive oder

Darwinsche Selektion). Diese seltenen Mutationen wurden von Ki

mura nicht weiter untersucht. Auch schädliche (deleterious) Muta

tionen wurden von Kimura nicht betrachtet, da sie schnell aus der

Population verschwinden. Individuen, die schädliche Mutationen

tragen, sterben entweder sehr schnell oder haben keine respektive

schlecht angepasste Nachkommen. Diese Form der Selektion heißt

in der Fachsprache negative oder reinigende Selektion (purifying selection). Schädliche Mutationen sind für die Mehrzahl der Veränderungen im

Genom verantwortlich, während sie die genetische Variabilität einer

Population nur unwesentlich beeinträchtigen. Es sind die vorteilhaf

ten und neutralen Substitutionen, die für die Evolution einer Popula

tion wichtig sind. Welchen genauen Anteil dabei die neutralen Sub

stitutionen haben, wird nach wie vor unter Fachleuten diskutiert.

101

101


102 Für die neutrale Mutante eines Gens kann nicht die natürliche Se

lektion als treibende Kraft der Evolution herangezogen werden. Neu

trale Mutanten können allein durch die Wirkung des Zufalls in einer

Population fixiert werden, das heißt alle Individuen der Population

sind nach einiger Zeit Träger dieser Mutation. Die Evolutionsrate gibt

die Geschwindigkeit an, mit der eine neutrale Mutante in der Popu

lation fixiert wird.

Überraschenderweise hat die Größe der Population keinen Einfluss

auf die Evolutionsgeschwindigkeit. In einer Wright-Fisher-Population

ist die Evolutionsrate gleich der Substitutionsrate.

Die im Lauf der letzten Jahrzehnte angesammelten molekularen

Daten ermöglichen es, die von der Theorie vorhergesagten Effekte zu

überprüfen.

Da die Evolutionsrate im neutralen Fall nur von der Rate abhängt,

mit der neutrale Substitutionen auftreten, bestimmt die Substitu

tionsrate die Evolutionsgeschwindigkeit. Betrachtet man Gene, bei

denen die meisten Aminosäuren für die Funktion des resultierenden

Proteins wichtig sind, so sind die meisten Mutationen schädlich und

werden sofort durch negative Selektion eliminiert. In einem solchen

Szenario ist nur ein kleiner Anteil aller auftretenden Mutationen

selektiv neutral. Allgemein gilt für protein-codierende Sequenzen,

dass die Substitutionsrate an nicht-synonymen Positionen kleiner

als an synonymen Positionen ist (siehe Tabelle 1). Ursache dafür ist,

dass nur die nicht-synonymen Substitutionen die Aminosäure-Se

quenz ändern und somit unter Umständen zu einem funktionsunfä

higen Protein führen. Im Gegensatz dazu haben Pseudogene, das

heißt funktionslos gewordene DNA-Abschnitte, die höchste Evolu

tionsrate.

Kimuras Modell der neutralen Evolutionstheorie ist nicht unum

stritten, hat aber aufgrund seiner Einfachheit und seiner quantitati

ven Natur den Vorteil, dass es testbare Vorhersagen macht, die sich

anhand molekularer Daten überprüfen lassen. Stimmen die Daten

102

Die molekulare Uhr

mit den Vorhersagen überein, so kann dies als ein Erfolg der Theorie

gewertet werden. Eine klassische Vorhersage der neutralen Theorie

ist die Existenz einer molekularen Uhr.

Die molekulare Uhr

Emile Zuckerkandl und Linus Pauling (1901-1994) machten 1965 die

Aufsehen erregende Entdeckung, dass die Unterschiede zwischen

Aminosäuresequenzen proportional zur Aufspaltungszeit der Arten

sind (Abbildung 36). Sie schlugen daher vor, dass für jedes Protein die

Evolutionsrate mehr oder weniger konstant in der Zeit ist. Eine Be

obachtung, die sicher auch Kimura bei der Formulierung der neutra

len Theorie inspiriert hat.

Mit einer molekularen Uhr und der Kenntnis der Evolutionsrate

können Aufspaltungsereignisse von Arten ohne fossile Funde datiert

werden. Da die Anzahl der Substitutionen (d) proportional zum Pro

dukt aus der Zeit (t) seit dem Aufspaltungsereignis und der Evolu

tionsrate (m) der Sequenz ist, kann man die Beziehung

d = 2 · P · t

benutzen, um anhand zweier rezenter Sequenzen entweder die Zeit

(t) oder die Evolutionsrate (P) zu schätzen. Die Evolutionsrate einer

Art kann dann beispielsweise benutzt werden, um für andere Arten,

bei denen die paläontologischen Aufspaltungszeiten unbekannt

sind, die Aufspaltungszeit zu ermitteln.

Die Evolutionsrate für die nicht-synonymen Substitutionen des D-Hämoglobins beträgt P = 0,56 · 10-9 Substitutionen pro Position und

Jahr. Der Vergleich der a-Hämoglobin-Sequenzen zwischen Mensch

und Ratte ergibt d = 0,093 Substitutionen pro Position. Somit haben

sich die Hämoglobin-Sequenzen von Mensch und Ratte vor

t = 0,093 / (2 · 0,56 · 10-9) = 80 000 000

103

102

Die molekulare Uhr

104

Abb.36: Lineare Beziehung zwischen paläontologischen Aufspaltungszeiten und

der Substitutionsrate verschiedener Proteine.

Jahren aufgespalten. Die Einfachheit dieser Idee und ihre universelle

Anwendbarkeit hat in den folgenden Jahren zu einer Flut von Datie

rungen geführt, die vorher nicht möglich waren. Zu den spektakulärs

ten Ergebnissen der Datierung mit Hilfe der molekularen Uhr gehö

ren die Schätzungen der Aufspaltungszeiten für Prokaryoten und

Eukaryoten (2,0 bis 2,6 Milliarden Jahre), für Pflanzen, Pilze und Tiere

(1,0 bis 1,2 Milliarden Jahren) sowie für Mensch und Schimpanse (5,0

Millionen Jahre). Die geschätzte Aufspaltungszeit für Mensch und

Schimpanse widersprach dramatisch den damaligen paläontologi

schen Schätzungen, die von 15 Millionen Jahren ausgingen.

Mit der zunehmenden Anzahl an ausgewerteten Sequenzen

(meistens Aminosäuresequenzen) wurde die Existenz der molekula

ren Uhr ein wenig abgeschwächt. Kimura schrieb 1983:

»For each protein, the rate of evolution in terms of amino acid sub

stitutions is approximately constant per year per site for various

104

Der Coalescent-Prozess

lines, as long as the function and tertiary structure of the molecule

remains essentially unaltered.«

Wenn ein Gen beispielsweise seine Funktion oder Teile seiner Funk

tionalität verliert beziehungsweise eine neue biologische Funktion

erhält, greift der zweite Teil von Kimuras Zitat. Die Funktionsände

rung des Gens führt zu einer Änderung der funktionellen Beschrän

kungen, die auf das Gen wirken. Eine Konsequenz ist eine Änderung

der Substitutionsrate.

Die Diskussion über die Existenz einer molekularen Uhr ist auch

heute noch nicht abgeschlossen. Eine Reihe von Hypothesen wurden

und werden diskutiert, um Abweichungen von der molekularen Uhr

zu erklären. Die Hypothesen lassen sich grob in zwei Klassen eintei

len: (1) Replikations-abhängige Faktoren wie Generationszeit und

Effizienz der DNA-Reparatur und (2) Replikations-unabhängige Fak

toren wie Grundstoffwechsel, Körpergröße und Umwelteinflüsse.

Welchen Einfluss die jeweiligen Faktoren tatsächlich haben, wird

noch kontrovers diskutiert. Sicher ist, dass sowohl (1) als auch (2) ver

schieden starke Abweichungen von der molekularen Uhr verursa

chen. Daher ist es extrem schwierig, den Beitrag eines einzelnen Fak

tors zu ermitteln.


Der Coalescent-Prozess beschreibt die Entstehung einer Genealogie

in einer Population beim Zurücklaufen in der Zeit und ist somit eine

theoretische »Umkehrung« der genetischen Drift, bei der das Schick

sal einzelner Sequenzen vom Jetzt-Zeitpunkt aus in die Zukunft ver

folgt wird. Beim Coalescent-Prozess verfolgt man das Schicksal von

Sequenzen vom Jetzt-Zeitpunkt zurück in die Vergangenheit.

Entscheidend beim Coalescent-Prozess ist das Verschmelzen von

Linien (Individuen oder homologe Sequenzabschnitte). Zum Zeit

punkt des Verschmelzens »entsteht« der gemeinsame Vorfahre der

105

105


106 verschmolzenen Linien. Startet man mit vielen Kopien eines Gens, so

nimmt deren Anzahl aufgrund der Verschmelzung einzelner Kopien

im Laufe der Zeit ab. Letztendlich wird es einen einzigen gemeinsa

men Vorfahren aller Linien geben (most recent common ancestor, abgekürzt MRCA). Solange keine Rekombination stattfindet, ent

steht durch den Coalescent-Prozess ein Baum, die so genannte Ge

nealogie. Diese Genealogie beschreibt die zufällige Verwandtschaft

einer Stichprobe von Genkopien. Im Gegensatz zu einem phylogene

tischen Baum, der eine einzige Realisierung eines geschichtlichen

Prozesses ist, ist die Genealogie immer zufällig.

Die große Popularität von Genealogien basiert auf der Tatsache,

dass sich nicht nur evolutionäre Prozesse wie Selektion und Drift, son

dern auch unterschiedliche demographische Faktoren, wie Wachs

tum oder Schrumpfung einer Population aus den verschiedenen Ver

zweigungsmustern ableiten lassen. Anders ausgedrückt: Aus einer

Genealogie beziehungsweise deren Verzweigungsmuster kann auf

diejenigen Prozesse geschlossen werden, die der Population ihre heu

tige Struktur verliehen haben. Umgekehrt lassen sich populations

genetische Phänomene (etwa die Ausbreitung erblicher Krankhei

ten) mithilfe der Coalescent-Theorie sehr einfach auf dem Computer

simulieren. Die Tatsache, dass sich auch komplizierte evolutionäre

Szenarien mittels effizienter Computerprogramme simulieren las

sen, die dann mit den tatsächlichen Daten verglichen werden, macht

den Coalescent-Prozess mit seinen Modifikationen zu einem der

wichtigsten Werkzeuge der Populationsgenetik.

Der mathematische Grundgedanke der Coalescent-Theorie wird hier

vereinfacht dargestellt. Eine Grundvoraussetzung ist, dass sich die

Population nach dem Wright-Fisher-Modell entwickelt. Das Wright-

Fisher-Modell ist gewissermaßen das Null-Modell der Populations

biologie, es macht die folgenden vereinfachenden Annahmen: Es sei

G die Anzahl der Kopien eines Gens in einer Population. G ist in jeder

Generation gleich groß, so dass die Population in ihrer Größe weder

106


wächst noch schrumpft. Die Paarung zwischen den einzelnen Mit

gliedern der Population ist zufällig und wird nicht von Selektionsfak

toren oder geographischer Isolierung beeinflusst. In der Fachsprache

wird hierfür der Begriff Panmixie (Allmischung) verwendet. Zwi

schen einer Vorfahrengeneration und deren Nachkommen gibt es

keine Überlappung, das heißt dass sich immer nur die Individuen

einer Generation paaren. Die Anzahl der Nachkommen pro Individu

um ist zufällig. Einige Individuen haben keine Nachkommen, andere

haben genau einen, zwei oder mehrere Nachfahren. Die Gesamtan

zahl der Nachkommen ist aber in jeder Generation gleich groß.

Selektion findet nicht statt. Jedes Individuum hat mit der gleichen

Wahrscheinlichkeit Nachkommen, der Reproduktionserfolg ist daher

eine zufällige Größe.

Werden diese Annahmen erfüllt, lässt sich beispielsweise die mitt

lere Zeitspanne (gemessen in der Zahl der Generationen) berechnen,

bis zwei zufällig ausgewählte Individuen beziehungsweise Gene I1

und I2 ihren gemeinsamen Vorfahren finden. Es ist klar, dass I1 von

einer der G-Kopien der Vorgängergeneration abstammt. Mit Wahr

scheinlichkeit 1/G stammt I2 auch von genau diesem Vorfahren ab.

Tritt dieses Ereignis ein, so liegt der gemeinsame Vorfahre (MRCA)

der beiden Gene nur eine Generation zurück. Mit einer Wahrschein

lichkeit von 1–1/G haben I1 und I2 verschiedene Vorfahren. Ihr MRCA

liegt dann wenigstens zwei Generationen zurück.

Die eben angestellte Überlegung kann für die direkten Vorfahren

von I1 und I2 wiederholt werden. Die Eltern von I1 und I2 haben mit

der Wahrscheinlichkeit 1/G ihren MRCA in der Vorgängergeneration

oder mit der Wahrscheinlichkeit 1-1/G verschiedene Vorfahren. So

mit ist die Wahrscheinlichkeit, dass I1 und I2 ihren MRCA in der 2. Vor

fahrgeneration haben

(1 – 1/G) · (1/G).

Daraus lässt sich die Wahrscheinlichkeit P2(i) berechnen, nach der I1

107

107


108 und I2 in der i-ten Vorfahrgeneration verschmelzen. Sie ist

P2(i) = (1-1/G)i-1 – (1/G) für i = 1,2,...

Dies ist die geometrische Verteilung mit dem Parameter 1/G. Für die

geometrische Verteilung ist der Mittelwert gerade G. Es werden also

durchschnittlich G Generationen bis zum MRCA benötigt.

Wie lange dauert es, bis eine Stichprobe von drei Genen ihren

MRCA gefunden hat? Wieder genügt es, den Übergang von der heu

tigen Generation zur Elterngeneration zu betrachten. Abbildung 37

zeigt die möglichen Verschmelzungsereignisse für drei Gene.

Die Wahrscheinlichkeit für wenigstens eine Verschmelzung ist die

Summe der Einzelwahrscheinlichkeiten in Abbildung 37. Man erhält

3(G-1)/G2 + 1/G2 § 3/G.

Der erste Summand gibt die Wahrscheinlichkeit für genau eine Ver

schmelzung an, es bleiben also zwei Linien übrig (Abbildung 37 links).

Der zweite Summand steht für das sehr unwahrscheinliche Ereignis,

dass die drei Linien gleichzeitig verschmelzen (Abbildung 37 rechts).

Da simultane Verschmelzungen sehr unwahrscheinlich sind, wird

der zweite Summand nicht weiter berücksichtigt. Daraus folgt, dass

mit der Wahrscheinlichkeit 5/G pro Generation ein Verschmelzungs

ereignis stattfindet. Die Wartezeit bis zum ersten Verschmelzungs

ereignis beträgt nun G/3 Generationen. Die Stichprobe ist von drei

Linien auf zwei Linien verkleinert.

In einer zufälligen Stichprobe von n Genkopien aus einer Popula

tion gibt es n·(n-1)/2 mögliche Gen-Paare, die einen gemeinsamen

Vorfahren in der vorhergegangenen Generation haben können. Ist n im Verhältnis zu G klein, dann ist die Wahrscheinlichkeit für das erste

Coalescent- beziehungsweise Verschmelzungs-Ereignis in der i-ten

Generation

108

Die genetische Variabilität einer Population

für i = 1, 2, ... Die mittlere Wartezeit Tn bis zwei von n Linien ver

schmelzen ist somit

Tn = 2·G/n·(n-1).

Je größer die Stichprobe, desto schneller findet das erste Coalescent

ereignis statt, da T2 = G, T3 = G/3, T4 = G/6 usw.

Hat ein Coalescentereignis stattgefunden, startet der Prozess der

Verschmelzung von Linien mit n-1 Linien neu. Bis die letzten beiden

Linien verschmolzen sind, vergehen also

TMRCA = Tn + Tn-1 + ... + T2 =

2·G·{1/n·(n-1) + 1/(n-1)·(n-2) + ... 1} = 2·G·(1-1/n) § 2·G

Generationen. Nach 2G Generationen sind alle Linien auf ihren

MRCA, ihren gemeinsamen Vorfahren, zurückgeführt.

Computersimulationen machen es heute möglich, den Coales

cent-Prozess auch für Populationen zu modellieren, die nicht wie das

einfache Wright-Fisher-Modell evolvieren. Dafür ist dann die mathe

matische Behandlung des Modells in vielen Fällen nicht mehr mög

lich.

Die genetische Variabilität einer Population

Im Allgemeinen bezeichnet man mit genetischer Variabilität oder

genetischen Polymorphismen (Vielgestaltigkeit) das Vorhandensein

verschiedener Zustände eines vererbbaren Merkmals in einer Popu

lation. Polymorphismen gibt es auf den unterschiedlichsten Ebenen,

zum Beispiel morphologische Varianten in einer Population, chromo

somale Variabilität, verschiedene Allele eines Proteins und letztend

lich auch Nukleotidvariationen auf dem DNA-Niveau. Die Variabilität

zeichnet die Spuren der Evolutionsgeschichte in einer Population

109

109

Das Jukes-Cantor-Modell der Sequenzevolution

110 nach. Die genetische Variabilität eines Gens in einer Population kann

nur während der Zeitspanne vom MRCA bis heute entstanden sein.

Im Wright-Fisher-Modell stehen also 2G Generationen zur Verfü

gung. Da das Wright-Fisher-Modell sehr einfach ist, kann die erwar

tete Variabilität auf dem Sequenzniveau berechnet werden.

Ein Maß für die genetische Variabilität in einer Stichprobe von n

Sequenzen ist das arithmetische Mittel der paarweisen Sequenz-

unterschiede (D), wenn das infinite-sites-model zugrunde liegt. Das

arithmetische Mittel kann leicht anhand der Daten berechnet wer

den. Theoretische Überlegungen zeigen, dass

(1) D = 2 · G · P = TMRCA · P

ist, wobei P die Substitutionsrate pro Sequenz und Generation ist.

Die genetische Variabilität, gemessen als mittlerer paarweiser Se

quenzunterschied, wird also bestimmt durch die Anzahl der Genko

pien in der Population und die Mutationsrate. Je mehr Kopien eines

Gens vorhanden sind, umso größer ist die Variabilität.

Anstelle der erwarteten Anzahl an paarweisen Unterschieden

kann auch die erwartete Anzahl an variablen Positionen Sn in einer

Stichprobe von n Sequenzen bestimmt werden. Es gilt

(2) Sn = 2·G·P·(1+1/2 + 1/3 +... +1/(n-1)).

Die Formeln (1) und (2) gelten nur für Populationen mit Wright-Fisher-

Modell. Sn ist dabei proportional zu D und die Proportionalitätskon

stante (1 + 1/2 +1/s + ...+1/(n-1)) hängt von der Stichprobengröße ab.


In den letzten Jahren wurden eine Vielzahl von Modellen zur Se

quenzevolution entwickelt, die zum Ziel haben, den Prozess des Nu

kleotidaustausches realistischer abzubilden. Getrieben wurden und

werden diese Entwicklungen durch die ständige Akkumulation von

110


111

Abb.37: Mögliche Verschmelzungsereignisse (zwei Gene verschmelzen und das

dritte nicht; alle drei Gene verschmelzen) für drei Gene mit den jeweiligen Wahr

scheinlichkeiten.

neuen Sequenzdaten. So ergaben die Auswertungen beispielsweise,

dass Transitionen wahrscheinlicher sind als Transversionen, dass die

Basenhäufigkeiten in unterschiedlichen Regionen des Genoms vari

ieren, dass einzelne Positionen eine hohe Mutationsrate haben, wäh

rend andere Positionen invariabel sind. Diese Beobachtungen kön

nen alle in ein einheitliches Evolutionsmodell integriert werden, das

dann bei der Auswertung beliebiger Sequenzalignements zur Verfü

gung steht.

Um die prinzipielle Idee von Substitutionsmodellen zu erläutern,

wird hier das relativ einfache Jukes-Cantor-Modell vorgestellt. Für

eine mathematische Handhabbarkeit werden eine Reihe von Verein

fachungen gemacht: Die vier Nukleotide kommen mit gleicher Häu

figkeit vor und alle Substitutionen (Transitionen und Transversionen)

sind gleich wahrscheinlich. Daraus folgt, dass Nukleotid-Austausche

an jeder Position der Sequenz mit gleicher Wahrscheinlichkeit auf

treten. Findet eine Substitution statt, so wird das vorhandene

Nukleotid durch eines der drei anderen Nukleotide mit gleicher Rate

a ersetzt, wobei a zum Beispiel in Jahren gemessen wird. Eine Posi

tion in der Sequenz evolviert mit der Gesamtrate r=3D. Der Parame

111

Wer sind die nächsten Verwandten der Wale?

112 terrist die Evolutionsrate pro Position und Jahr. Er ist typischerweise

so klein, dass rauch als Wahrscheinlichkeit für eine Substitution pro

Jahr interpretiert werden kann. Innerhalb von t Jahren finden daher

im Mittel r · t Substitutionen an einer Position statt. Dann ist

Pxx(d) = 1/4 + (3/4) exp[-4·d/3]

die Wahrscheinlichkeit für ein identisches Nukleotidpaar, wenn d Substitutionen stattgefunden haben. Mit dieser Gleichung kann aus

der Wahrscheinlichkeit für ein identisches Nukleotidpaar die Zahl

der tatsächlich stattgefundenen Substitutionen berechnet werden

d = –(3/4) ln [1–(4/3)·p)]

wobei p = 1-Pxx(d) die Wahrscheinlichkeit für ein verschiedenes Nu

kleotidpaar ist. Diese Formel ist die so genannte Jukes-Cantor-Kor

rekturformel zur Berechnung der Zahl an Substitutionen aus den

beobachteten Unterschieden.

Die Berechnung zeigt, dass für zwei Sequenzen nur die Zahl der

Substitutionen geschätzt werden kann, aber nicht die Evolutionsra

te r oder die Zeit W. In der Praxis wird für zwei Sequenzen der Wert von p geschätzt,

indem die Zahl unterschiedlicher Nukleotidpaare durch die Länge

der alignierten Sequenzen geteilt wird; p eingesetzt in die Jukes

Cantor-Korrekturformel ergibt die geschätzte Zahl an stattgefunde

nen Substitutionen.

Wer sind die nächsten Verwandten der Wale? Ein nicht-sequenzbasierter Ansatz zur Aufklärung

der Phylogenie

Neben der sequenzbasierten Rekonstruktion von Stammbäumen

können auch andere genetische Merkmale für die Untersuchung der

verwandtschaftlichen Beziehungen von Organismen herangezogen

112


113

Abb.38: Cladogramm der Paarhufer und Wale (Cerartidactyla).

Die Pfeile markieren jeweils die Insertion eines SINEs oder LINEs.

werden. Ausgezeichnete Kandidaten sind zum Beispiel die SINEs und

LINEs der Eukaryoten (siehe Abbildung 3). SINEs sind repetitive DNA-

Abschnitte von 80-400bp Länge, wohingegen die LINEs von einigen

loo bis zu einigen 1000bp lang sind. SINEs und LINEs sind von tRNAs

abgeleitete Retrotransposons, das heißt »bewegliche« genetische

Elemente, die zur Selbstreplikation in der Lage sind. Anders als bei

der Transkription von Genen, bei der die DNA-Sequenz in mRNA um

geschrieben wird, dient hier eine tRNA-Sequenz als Matrize für die

zu synthetisierende DNA. Deshalb werden die transponierbaren Ele

113


114 mente als Retrotransposons (retro = rückwärts) bezeichnet. Die repli

zierten SINEs oder LINEs werden dann zufällig in das Genom des

Organismus integriert. Meist - aber nicht immer! -findet dieser Ein

bau in einer nicht-kodierenden Region statt. SINEs und LINEs verhal

ten sich dann selektiv neutral. Es wird angenommen, dass Insertio

nen von SINEs und LINEs einmalige, irreversible Prozesse sind und es

daher sehr unwahrscheinlich ist, dass sie mehrfach unabhängig von

einander an der gleichen Stelle im Genom eingebaut werden. Wenn

sie einmal an einem bestimmten Ort im Chromosom vorkommen,

gehen sie im Verlauf der Evolution so gut wie nie verloren. Ausnah

men sind großräumige Deletionen ganzer genomischer Abschnitte.

Die Anwesenheit identischer SINEs oder LINEs in relativ nah ver

wandten Lebewesen ist daher ein starkes Indiz für einen gemeinsa

men Vorfahren. Solche Daten werden durch eine 0-1-Matix reprä

sentiert: Ein Transposon ist entweder vorhanden (i) oder nicht

vorhanden (o). Für diese Datenmatrix lässt sich dann mittels Maxi-

mum-Parsimonie der zugehörige Baum bestimmen, wobei die Merk

male nun die Insertion eines SINEs oder LINEs sind und nicht die

Substitution eines Nukleotids. Da die Insertion eines SINEs oder

LINEs an einer Stelle im Genom ein einmaliges Ereignis ist und sogar

der ursprüngliche Zustand (keine Insertion) bekannt ist, eignen sich

auf Parsimonie basierte Rekonstruktionsmethoden sehr gut dazu,

den zugehörigen Baum zu rekonstruieren.

Ein bekanntes Anwendungsbeispiel ist die Aufklärung der ver

wandtschaftlichen Beziehung von Walen (Cetacea) und Paarhufern

(Artiodactyla) mittels Retrotransposons. Anhand morphologischer

und paläontologischer Daten wurde bisher vermutet, dass Wale die

Schwestergruppe der Paarhufer sind. Der in Abbildung 38 dargestellte

Baum basierend auf der Analyse von 21 verschiedenen SINEs und

LINEs zeigt, dass die Wale eine monophyletische Gruppe innerhalb

der Paarhufer (Artiodactyla) sind und die Schwestergruppe zu den

Flusspferden (Hippopotamus) bilden. Bisher übersehene oder unbe

114

»Fossile DNA« - eine Zeitreise in die Vergangenheit

achtete morphologische Ähnlichkeiten zwischen Flusspferden und

Walen stützen die Schwestergruppen-Hypothese: etwa das Fehlen

von Körperhaaren, die Aufzucht der Jungen unter Wasser und die

Unterwasserkommunikation. Es wurde daher vorgeschlagen, die

Paarhufer unter Einschluss der Wale in der umbenannten Ordnung

Cerartiodactlya zusammenzufassen.

Dennoch sind SINEs und LINEs nicht der Weisheit letzter Schluss,

da es auch die gleichen Probleme wie bei der sequenzbasierten

Baumrekonstruktion gibt. Dazu zählen vor allem das unvollständige

Aussortieren der Linien (incomplete lineage sorting). Auch SINE- und

LINE-Bäume können sich vom Spezies-Baum unterscheiden. In dem

speziellen Beispiel der Paarhufer und Wale werden die einzelnen

Kanten des Baumes durch mehrere SINEs gestützt, die an ganz ver

schiedenen Stellen im Genom liegen und jeweils die gleiche Ver

zweigung stützen. Zusätzlich gibt es eine sehr hohe Kongruenz zwi

schen dem Auftreten der SINEs und LINEs und der sequenzbasierten

Phylogenie (15 mitochondriale und nukleare Gene), so dass es un

wahrscheinlich ist, dass der vorgeschlagene Baum nicht auch der

Spezies-Baum ist.

»Fossile DNA« – eine Zeitreise in die Vergangenheit

DNA ist ein sehr instabiles Molekül, das durch Wasser oder Sauer

stoff abgebaut wird. Dabei kommt es an den Nukleotiden unter

anderem zur hydrolytischen Abspaltung von Stickstoff-Gruppen

(= Deaminierung) oder ganzen Purinbasen (= Depurinierung). Im le

benden Säugetier ereignen sich spontane Deaminierungen schätz

ungsweise 400 Mal pro Tag, die aber von dem Enzym DNA-Glyko

sylase sofort erkannt und repariert werden. Zusätzlich bilden sich

aus den Nebenprodukten der Atmungskette und beim Einwirken

ionisierender Strahlung zum Beispiel aus der Atmosphäre (= Hinter

115

115


116

Abb.39: Geologische Zeittafel (in Millionen Jahren) mit angeblichen Nachweisen

über fossile DNA. Gesicherte Funde gibt es nur aus dem Quartär (bis maximal

100000 Jahre).

grundstrahlung) freie Radikale, die zu oxidativen Basenschädigun

gen führen. Auch hier gibt es in den lebenden Zellen mehrere Repa

raturwege, um schwere Schäden zu vermeiden. Nach dem Tod eines

Organismus und dem Aussetzen jeglicher Reparaturmechanismen

ist es daher unwahrscheinlich, dass DNA über lange Zeiträume un

beschädigt erhalten bleibt.

116


Theoretische Studien haben gezeigt, dass aufgrund kumulativer

Umwelteinflüsse die DNA nach 100000 Jahren zerstört beziehungs

weise nicht mehr »abrufbar« ist. Unter sehr speziellen Umweltbe

dingungen wird dieser Abbau allerdings verzögert. Dazu zählen vor

allem Kälte, Trockenheit und Sauerstoffmangel. Dies erklärt, warum

fossile und subfossile Funde aus Gletschern und dem Packeis der Pole

sowie aus Permafrost-Böden beziehungsweise sauerstofffreien Ein

schlüssen in Mooren trotz ihres Alters noch hinreichend viel DNA liefern.

Trotz dieser vielen Einschränkungen wurde dennoch versucht, alte

DNA zu sequenzieren. Die ersten Arbeiten an Museumsstücken be

gannen in den 1980er Jahren. In der Arbeitsgruppe von Allan Wilson

(1934-1991) an der Universität Berkeley, Kalifornien, wurde 1984

erfolgreich DNA aus einem 140 Jahre alten Quagga kloniert. Diese

Zebraart aus dem südlichen Afrika war vor ca. 120 Jahren ausgestor

ben. Als nächstes wurde in Schweden DNA aus 2400 Jahre alten

ägyptischen Mumien amplifiziert. Allerdings war die Klonierung

wenig effizient, da zum einen große Mengen an Ausgangs-DNA

benötigt wurden und es viele Kopierfehler gab.

Erst mit der Erfindung der PCR wurde es möglich, kleinste Mengen

an DNA zu vervielfältigen. Damit begann eine neue Ära in der Biolo

gie; prähistorische Funde ließen sich nun auch mit molekularen

Techniken bearbeiten. Mit der Untersuchung von alter, »fossiler«

DNA wurde die Molekularbiologie um die zeitliche Dimension berei

chert. Die Ergebnisse erlauben Einblicke in die molekulare Vergan

genheit der Organismen. Die Fachrichtung, die molekulare Metho

den mit der traditionellen Ahnenkunde verbindet, wird auch als

Molekulare Archäologie bezeichnet.

Kurz nach der Etablierung der PCR berichteten 1992 kalifornische

Wissenschaftler über die erfolgreiche Isolierung und Vervielfälti

gung kurzer DNA-Bruchstücke aus einer 25-40 Millionen Jahre alten

Bienenart (Proplebeia dominicana). Die Biene war im dominikani

schen Bernstein eingeschlossen. Wenig später erlangten Termiten

117

117


118 und Käfer aus libanesischem Bernstein vergleichbare Berühmtheit,

deren Alter sogar auf bis zu 135 Millionen Jahre geschätzt wurde (Ab

bildung 39). 1994 gelang angeblich ein weiterer Durchbruch, näm

lich die Sequenzierung eines 170 Basenpaare langen DNA-Ab

schnitts aus einem 80 Millionen Jahre alten Dinosaurier-Knochen.

Weitere Forschungsgruppen berichteten über die DNA-Isolierung

aus 8-18 Millionen Jahre altem Pflanzenmaterial, darunter Magno

lien-Blätter aus limnischen Sedimenten in Idaho (USA).

All diese Ergebnisse wurden vom wissenschaftlichen Publikum teils

mit Begeisterung, teils mit größter Zurückhaltung aufgenommen.

Die Hauptkritik bestand darin, dass keine ausreichenden Vorkehrun

gen gegen Kontamination getroffen wurden und nicht eine einzige

DNA-Isolierung von unabhängigen Labors bestätigt werden konnte.

In den 1990er Jahren zeigte eine Arbeitsgruppe des Naturhistori

schen Museums London, dass sämtliche alte DNA aus in Bernstein

eingeschlossenen Insekten Artefakte sind. Die tatsächlich amplifi

zierte DNA stammte aus anderen, mit den untersuchten Objekten

nicht näher verwandten Arten. Selbst viel jüngere Insekten, die im

weichen Copal (Vorform des Bernsteins) eingebettet sind, enthalten

keine DNA. Da Bernstein gasdurchlässige Mikroporen besitzt, wird

die eingeschlossene DNA im Laufe der Jahrmillionen durch Oxida

tionsprozesse zersetzt. Daher sind im Bernstein die Bedingungen für

die Konservierung von DNA ausgesprochen schlecht, wenngleich

Insekten und anderes organisches Material makroskopisch sehr gut

erhalten bleiben. Bei der Dinosaurier-DNA haben mehrere Forscher

gruppen nachgewiesen, dass die vermeintliche fossile Sequenz ein

menschliches Pseudogen ist. Es handelt sich dabei um mitochondri

ale DNA-Fragmente, die in das nukleare Genom des Zellkerns inkor

poriert wurden. Die Fremd-DNA wurde von den Forschern im Labor

ins Reagenzglas übertragen.

Dass die Ergebnisse mit alter DNA anfänglich viel Skepsis hervor

riefen, ist daher gut zu verstehen. Mittlerweile sind die Schwierig

118


keiten aber erkannt worden und allgemein akzeptierte, strenge

Richtlinien sollen helfen, solche Irrtümer in Zukunft zu verhindern.

Eine Erfolgsgeschichte bei der Analyse alter DNA zeichnet sich bei

der Sequenzierung von DNA aus 50000-100000 Jahre alten Über

resten ab. Einige Forschergruppen haben die verwandtschaftlichen

Beziehungen von ausgestorbenen Arten zu ihren rezenten Vertre

tern analysiert. Zu nennen sind hier unter anderem die mitochondri

alen DNA-Studien (mtDNA) am australischen Beutelwolf. Diese zu

Beginn des 20. Jahrhunderts ausgestorbene Art ist näher mit den

Beuteltieren des australischen Kontinents verwandt als mit süd

amerikanischen Beutelraubtieren, denen sie morphologisch sehr

ähnlich sind. Ebenso liefert die fossile mtDNA Hinweise, dass Neu

seeland zweimal von Vorfahren flugunfähiger, straußenartiger Vögel

besiedelt wurde (Abbildung 40). Die Kiwis und die bereits ausge

storbenen Moas sind keine Schwestergruppe, was bislang aufgrund

morphologischer Untersuchungen angenommen wurde. Die Vor

fahren der Moas haben Neuseeland wahrscheinlich in einer ersten

Immigrationswelle vor ca. 80 Millionen Jahren besiedelt, als sich die

Inseln vom Urkontinent Gondwana abtrennten. Die Entwicklungsli

nie der Kiwis scheint sich erst später, vor ca. 30 Millionen Jahren, von

der des australischen Emus abgespalten zu haben. Die Kiwis erreich

ten Neuseeland erst während einer zweiten Immigrationswelle.

Die umfangreichen und gut konservierten fossilen Funde aus den

arktischen Permafrostböden erlauben nun auch Untersuchungen zu

populationsgenetischen Aspekten. Damit lässt sich ein Bild von der

genetischen Komposition einzelner Populationen vor und während

der letzten Eiszeit rekonstruieren, die dann mit den Daten der heuti

gen Populationen in Verbindung gebracht werden. Die mitochondri

alen DNA-Linien der Alaska-Braunbären, die heute in getrennten

geographischen Regionen vorkommen, haben vor ca. 30000 Jahren

in derselben Population zusammengelebt. In einer anderen Studie

wurde die mtDNA von 191 rezenten Pferden mit der von 16 fossilen

119

119


120

Abb.40: Stammbaum der flugunfähigen Straußenvögel, basierend auf mitochon

drialen DNA-Sequenzen

Pferden aus Nordamerika, Estland und Schweden verglichen. Der äl

teste Knochenfund war 28000 Jahre alt. Die Untersuchungen zeig

ten, dass ein Großteil der ursprünglichen Variabilität der Pferde bei

120


ihrer mehrfachen Domestizierung erhalten blieb. Wieder andere Un

tersuchungen befassen sich mit der Populationsstruktur der vor et

wa 10000 Jahren ausgestorbenen Höhlenbären und deren Bezie

hungen zu heutigen Braunbären oder untersuchen die veränderte

Evolutionsrate bei Adelie-Pinguinen im antarktischen Eis.

Großes Aufsehen haben die Untersuchungen von lange verstorbe

nen oder bereits fossilisierten Menschen erregt, weil gerade damit

unsere eigene Geschichte im Spiegel der Zeit beleuchtet wird. Wie

bereits erwähnt, wurde mit den ägyptischen Mumien ein erster

Meilenstein gelegt. Kurze Zeit später folgte die Analyse des ca.5000

Jahre alten Tiroler Eismannes, genannt Ötzi. 1997 wurde die erste Se

quenz eines Neandertalers veröffentlicht. Hierbei handelte es sich

um das Typus-Exemplar aus dem Neandertal bei Düsseldorf. Die mi

tochondriale DNA-Sequenz des Neandertalers ist in der heutigen

menschlichen Weltpopulation nicht mehr vertreten, sondern spal

tete sich vor ca. 500000 Jahren von der Linie zum modernen Men

schen ab, lange bevor der jüngste gemeinsame Vorfahre (MRCA) des

modernen Menschen Homo sapiens sapiens lebte, der ca. 170000

Jahre alt ist. Diese Ergebnisse sind eine weitere Bestätigung für die

Arche-Noah-Theorie. Mittlerweile sind DNA-Sequenzen zweier wei

terer Neandertaler ermittelt worden, welche die bisherigen Ergeb

nisse untermauern.

Mit der alten oder fossilen DNA ist die molekulare Evolution in

neue Dimensionen der phylogenetischen Analysen vorgestoßen,

auch wenn Spekulationen über einen Jurassic Park oder die Wieder

belebung bereits ausgestorbener Arten sicher nicht im Bereich der

technischen Möglichkeiten liegen.

121

121

Alignement dot-plot

GLOSSAR

Alignement - Besteht aus zwei Sequenzen, die durch Einführung

eines Extra-Zeichens (»-«) auf gleiche Länge gebracht werden.

s.S.23f.,45ff.,76

Allel - Verschiedene Zustandsformen eines Gens, die auf dem glei

chen chromosomalen Abschnitt liegen. s. S. 100

Außengruppe - Ein Taxon, das sich von einer Gruppe anderer Taxa

abspaltete, bevor diese untereinander divergierten. s. S. 29,49, 70

Baumtopologie - Verzweigungsmuster eines phylogenetischen

Baumes. s. S. 40,46,54

bottleneck - (Flaschenhals) drastische Verkleinerung einer Popula

tion. s. S. 77,79

Codon - Nukleotidtriplett in der DNA beziehungsweise mRNA, das

eine Aminosäure festlegt oder das Ende einer Polypeptidkette sig

nalisiert (Stopp-Codon). s .S. 7,9,12

Clusterungsmethoden -Verfahren zum Gruppieren und Klassifizie

ren von Objekten (Lebewesen), die durch eine Menge von Eigen

schaften (Spalten im Sequenzalignement) beschrieben werden.

s. S. 44

Dichotomie-Aufspaltung einer Linie in zwei neue Linien. s.S.25

dot-plot - Einfache graphische Darstellung zum Vergleich zweier

Sequenzen. s. S. 23f.

122

Evolutionsrate lineage sorting

Evolutionsrate - Geschwindigkeit, mit der eine Mutation in einer

Population fixiert wird. s. S. 702f., 112,121

Genealogie - Gen-Baum, der die Verwandtschaftsverhältnisse von

Allelen eines Gens in einer Population beschreibt. s. S. 70ff.,76ff., 105f.

Gen-Baum -Stammbaum eines Gens. s. S. 36,42, 55ff.

Genom - Die gesamte DNA eines Organismus. Bei Eukaryoten

umfasst dies auch die nicht im Kern vorkommende Mitochondrien-

und Plastiden-DNA. s. S. 4,7ff.,74ff.

Homolog- Die untersuchten Merkmale gehen auf einen gemeinsa

men Vorfahren zurück. s. S. 8, 63f., 105

Indel - Extra-Zeichen, das in ein Sequenzalignement eingeführt

wird, um die während der Evolution aufgetretenen Insertionen oder

Deletionen anzuzeigen. s. S. 22f.

infinite-site-model - DNA-Substitutionsmodell, bei dem jede Posi

tion einer Sequenz nur einmal mutiert. s. S. 78, 82,110

Intron - Nicht-kodierende DNA zwischen den Exons eines Gens.

s. S. 11

Klonierung - Selektive Vermehrung eines gewünschten DNA-Frag

ments. Dabei entstehen zahlreiche identische Moleküle (= Klone),

die alle von einem einzigen Vorläufer abstammen. s. S. 4,92,117

lineage sorting - Ursprüngliche Polymorphien bleiben über Artauf

spaltungsereignisse erhalten. s. S. 60, 89, 775

123

Linie Ortholog

Linie - Lückenloser Fortbestand einer Ahnenreihe. s. S. 23,32,59f.

Minimale Evolution - Distanzbasierte Baumrekonstruktionsmetho

de, s. S. 44

Modell der Sequenzevolution - Mathematische Beschreibung des

Substitutionsprozesses. s .S. 21,45f., 110f.

Monophyletische Gruppe - Umschließt alle Nachfahren des MRCA

einer Gruppe. s. S. 28ff., 52, 114

MRCA (most recent common ancestor) - Der jüngste gemeinsame

Vorfahre einer Kollektion von Sequenzen, Individuen oder Arten.

s. S. 37, 70, 72

Negative Selektion - Eliminierung nachteiliger Mutanten aus einer

Population. s. S. 102

Neighbor-Joining - Clusterungsverfahren zur Rekonstruktion von

distanzbasierten Bäumen. s. S. 39,44f.

Nicht-synonyme Substitution - Der Austausch eines Nukleotids im

Codon führt zu einer Änderung der Aminosäure. s. S. 76

Nukleotid - Eine Base (Adenin, Cytosin, Guanin, Thymin oder Uracil),

die mit einem Zuckermolekül (Ribose oder Desoxyribose) und einer

Phosphatgruppe verbunden ist. s. S. 5, 7,14ff.

Ortholog - Nennt man zwei Gene, wenn sie aufgrund eines Spezia

tionsereignisses entstanden sind. s. S. 63

124

Paralog Substitutionsmodelle

Paralog - Nennt man zwei Gene, wenn sie aufgrund einer Gendupli

kation entstanden sind. s. S. 63

Paraphyletische Gruppen - Enthalten nicht alle Nachkommen einer

Stammart. s. S .29f.

PCR (Polymerase Chain Reaction) - Enzymatische Vervielfältigung

eines DNA-Abschnittes unter Verwendung von zwei Oligonukleotid-

Primern. s. S. 4,93ff., 117

Polyphyletische Gruppen - Enthalten alle Nachkommen verschiede

ner Stammarten, wobei nicht alle Nachfahren des gemeinsamen

Vorfahren der Stammarten in der Gruppe vorkommen. s. S.29f.

Polytomie - Eine Stammart produziert gleichzeitig mehr als zwei

neue Linien. s. S. 25f.

Positive Selektion - Beschreibt das Phänomen, dass sich eine besser

angepasste Mutation in der Population ausbreitet. s. S. 101

Schwestergruppe - Die zu einer monophyletischen Gruppe nächst

verwandte monophyletische Gruppe in einem dichotomen Baum,

s. S. 30, 58, 114

Spezies-Baum - Stammbaum, der die Aufspaltungsfolge einer

Artengruppe darstellt. s. S. 53, 56ff., 115

Stammart - Die Vorfahrenart, aus der eine monophyletische Gruppe

entsteht, s. S. 26,28f., 58ff.

Substitutionsmodelle - Austausch eines Nukleotids oder einer Amino

säure wird mittels mathematischer Modelle beschrieben. s. S. 22, 111

125

Substitutionsrate Zufälliger Fehler

Substitutionsrate - Mittlere Anzahl von Nukleotid- oder Aminosäu

reaustauschen. s. S. 17ff.,51, 102

Synonyme Substitution - Der Austausch eines Nukleotids im Codon

führt nicht zu einer Änderung der kodierten Aminosäure. s. S. 16

Systematischer Fehler- Fehler unterschiedlichster Art, die unabhän

gig von der Stichprobengröße zu einer Verzerrung des Ergebnisses

führen. s. S. 48,50f.

Transition - Basenaustausch zwischen Purinen (Adenin vs. Guanin)

oder zwischen Pyrimidinen (Thymin vs. Cytosin). s. S. 15,47, 110

Transversion - Austausch zwischen einer Purin- und einer Pyrimidin

base. s. S. 75, 19, 22

Wright-Fisher-Modell - Das Nullmodell der mathematischen Popu

lationsbiologie. s. S. 77,106, 109f.

Zufälliger Fehler - Abweichungen, die aufgrund der Zufallsauswahl

der erhobenen Daten entstehen. s.S. 48

126

Literaturhinweise

ALLGEMEINE REFERENZEN

Avise J. C: PhylogeographyrThe History and For

mation of Species. Harvard University Press

2OOO, Cambridge, Massachusetts.

Graur, D. und Li,W.-H.: Fundamentals of Molecular

Evolution, 2nd edition. Sinauer Associates

2000, Sunderland, MA.

Hillis, D. M. et al. (Hg.): Molecular Systematics.

2. Auflage. Sinauer Associates 1998, Sunder

jand, MA.

Kimura, M.:The neutral theory of molecular

evolution. Cambridge University Press 1983,

Cambridge.

Klein, J., und Takahata, N.: Where Do We Come

from: The Molecular Evidence of Human

Descent. Springer-Verlag 2002, Heidelberg.

Knippers, R.: Molekulare Genetik. Thieme Verlag

2001, StuttgartLewin, B-: Genes VII. Oxford

University Press

2000, Oxford.

Li, W.-H.: Molecular Evolution. Sinauer

Associates

1997, Sunderland, AAA.

Nelson, D. und Cox, M.: Lehninger Biochemie.

3. Auflage, Springer-Verlag 2001, Berlin.

Net, M. und Kumar, S.: Molecuiar Evolution and

Phylogenetics. Oxford University Press 2000,

New York.

Pagel, M. D. fHg.): Enydopedia of Evolution.

Volume l und 2. Oxford University Press 2002,

Oxford.

Page, R. D. M. und Holmes, E. C: Molecuiar

Evolution: A phyiogenetic approach. Blackwell

Science 1998, Oxford.

Swofford, D. L et al.: Phyiogenetic inference.

In-. Molecular Systematics, 2. Auflage.

Hillis D M., et al. (Hg.), Seiten 407-514, Sinauer

Associates 1996, Sunderland, MA.

Wageie,J.-W.:Grundlagen der Phylogenetischen

Systematik. Verlag Dr. Friedrich Pfeil 2000,

München.

SPEZIELLE ARBEITEN

Austin, J. i. et al.: Palaeontology in a molecular

world: the research for authentic ancient DNA.

Trends in Ecology and Evolution 12 (1997):

303-306.

Cann, R. L, et a!.: Mitochondrial DNA and human

evolution. Nature 325 (1987): 31-36.

Dayhoff, M.O.Atlas of Protein Sequences and

Structure, Vol. 5, Natl. Biomed. Res. Found. 1972,

Washington, DC.

Donnelly, P., und Tavare, S.: Coalescence and

Genealogical Structure under Neutrality. Ann.

Rev. Genet. 20 (1995): 410-421.

Fitch, W. M.: Toward defining the course of evolution:

Minimum change for a specific tree topology. Syst. Zoo!.

20 (1971): 406-416.

von Haesele^A., et al̂ Thegenetical archaeology

of the human genome. Nature 14 (1996):

135-140.

Hillis, D. M. et al.: Experimental Phylogenetics:

Generation of a known phylogeny Science 255

(1992) : 589-592.

Hofreiter, M. et at.: Ancient DNA. Nature Reviews

Genetics 2 (2001): 353-359.

Hudson, R. R.: Gene genealogies and the coalescent

process. Oxford surveys in evoiutionary

biology-7 (ig9o),i-44.

Janke, A., et ai.:The mitochondrial genome of a

monotreme - the platypus (Ornithorhynchus

anatinus)J.Mol. Evol.42 (1996): 153-159.

Jukes, T. H. und Cantor, CR.: Evolution of protein

molecules. In: Mammalian protein metabolism. H. N.

Munro (Hg.), 21-132. Academic Press

1969, New York.

Kaessmann, H., et al. DNA sequence variation in

a non-coding region of low recombination on

the human X chromosome. Nature 22 (1999):

78-81.

Kaessmann, H.: Great ape DNA sequences reveal

a reduced diversity and an expansion in

humans. Nature Genetics 27 (2001): 155-156.

127

Literaturhinweise

Mullis, K. 8., und Faloona, F.: Specific synthesis of

DNA in vitro via a polymerase catalyzed chain

reaction. Methods Enzyrmo!. 155 {1987):

335-350.

Muse, S.V. und Weir, B. S,: Testing for equality of

evolutionary rates. Genetics 132 (1992): 269276.

Nikaido, M. et al.: Phylogenetic relationships

among cetartiodactyis based from evidence

from SlNEs and LINES: Hippopotamuses are

the closest extant relatives of the whales Proc.

Natl. Acad. Sei. 96 (1999): 10261-10266.

Nordborg, M.:Coatescent Theory, in: The Handbook

of Statistical Genetics, D.J. Balding et al.

(Hg.}, 179-212, Chichester 2001.

Ou, C.-Y. et al.:Mofecular Epidemiology of HIV

transmission in a dental practice. Science 256

(1992): 1165-1171.

Pamilo, N., ur›d Nei, M.: Relationships between

gene trees and species trees. Mol. Biol. Evol. 5

(1988): 568-583.

Saitou N-, und Nei, M.:The neighbor-joining

method: A new method for reconstructing

phylogenetic trees. Mol. Biol. Evot. 4 (1987):

406-425.

5arich,V M. und Wilson, A.C.: Immunological

time scale for hominid evolution. Science 158

(19 67} :i 200-1203.

Satta,Y.,et al.: DNA archives and our nearest

relative: The trichotomy problem revisited. Moi.

Phyl. Evol. 5 (2000): 259-275.

Tajima, F.: The effect of change in population size

on DNA polymorphisms. Genetics 123 (1989):

597-601.

Tajima, F,; Statistical Tests for testing the neutral

mutation hypothesis by DNA polymorphism.

Genetics 123 (1986): 585-595.

Vigilant, L, et al.: African population and the evolution of

human mitochondria! DNA. Science

253 (1991): 1503-1507.

Watterson, G.A.: On the number of segregating

sites in genetica! models without recombination. Theor.

Pop. Biol. 7 (1975): 256-276.

Woese C. R.;The universal ancestor. Proc. Natl.

Acad. Sei. 95: (1998): 6854-6859.

Zuckerkandl, E., und Pauling, L: Evolutionary

divergence and convergence in proteins. In

Evolving genes and proteins. V. Bryson und HJ.

Vogel (Hg.), 97-166. Academic Press 1965, New

York.

Danksagung Unser Dank geht an alle, die unser Vorhaben aktiv unterstützt haben. Für ihre Geduld bedanken wir uns besonders bei Ulrike Friedrichs und Andreas Heibig. Ganz besonders herzlich danken wir Klaus Liebers, der mit seiner Sorgfalt und reichen Erfahrung wesentlich zum Gelingen des Vorhabens beigetragen hat.

Abbildungsnachweise: Abb. 4 nach: Bayrhuber, H. und Kuli, U. (Hg,). Linder Biologie, 1989; Abb. 9 u. 11

nach: Page, R. D. M. und Holmes, E. C, 1998; Abb. 17 nach: Hitiis, D, M. et al.,1992; Abb. 24 nach: Li, W.-H.,

1997; Abb. 30 nach: Kaessmann, H„ 2001; Abb. 31 nach: Weber, U. (Hg.): Biologie Oberstufe, 2001; Abb. 32

nach: von Haese!er, A., et al., 1996; Abb. 36 nach: Graur, D. und Li, W.-H., 2000; Abb. 38 nach: Nikaido, M.

et al., 1999; Abb. 39 nach: Austin, j. J. et al., 1997; Abb. 40 nach: Pääbo, S.: DNA aus alter Zeit. Spektrum

der Wissenschaft, Januar 1994; Abb. U3 nach: Pagel M. D. (Hg.), 2002. Da mehrere Rechteinhaber trotz

aller Bemühungen nicht feststellbar oder erreichbar waren, verpflichtet sich der Verlag, nachträglich

geltend gemachte rechtmäßige Ansprüche nach den üblichen Honorarsätzen zu vergüten.

Documents

Haeseler, Liebers - Molekulare Evolution