Upload
telosgrapheni007
View
68
Download
2
Embed Size (px)
Citation preview
Die Bände der Reihe Fischer Kompakt gliedern sich in vier Abschnitte.
Der GRUNDRISS gibt eine bündige Gesamtdarstellung des Themas.
Die VERTIEFUNGEN geben die Möglichkeit, verschiedene Facetten, die
im Grundriss angesprochen werden, genauer kennen zu lernen. Das
GLOSSAR erläutert zentrale Begriffe. Die LITERATURHINWEISE geben
Empfehlungen für weitere Lektüren. Laufend aktualisierte Hinweise
des Autors auf interessante Texte und Links sind im Internet zu fin
den unter www.fischer-kompakt.de/molekulare-evolution
S.109 Die Markierungen in der Marginalspalte, zusammen mit Her
vorhebungen im Text, verweisen auf einen entsprechenden
Abschnitt in den Vertiefungen.
Originalausgabe
Veröffentlicht im Fischer Taschenbuch Verlag,
einem Unternehmen der S. Fischer Verlag GmbH,
Frankfurt am Main, Mai 2003
Gestaltungskonzept/Umschlag/Satz:
Wolff Kommunikation, Frankfurt am Main
Grafiken: von Solodkoff, Neckargemünd
Druck und Bindung: Clausen & Bosse, Leck
Printed in Germany
ISBN 3-596-15365-4
MOLEKULARE EVOLUTION
GRUNDRISS
1.Einige Grundlagen der Vererbung .......................................3
DNA-ein Bote aus der Vergangenheit .......................................3
Die DNA und ihr Code ..............................................................5
Gene und Genom ....................................................................7
Die Protein-Biosynthese .........................................................10
2.Veränderungen einer DNA-Sequenz im Laufe der Zeit .....14
Mutationen in einer DNA-Sequenz .........................................14
Evolution einer DNA-Sequenz.................................................17
Lücken und Ergänzungen in DNA-Sequenzen .......................22
3. Eine kleine Baumschule .......................................................25
AllgemeineTerminologie .........................................................25
Phylogenetische Klassifikation ...............................................28
Die Zahl der Bäume ................................................................31
4. Molekulare Phylogenie ........................................................32
Maximum-Parsimonie .............................................................36
Distanzbasierte Methoden ......................................................41
Maximum-Likelihood ...............................................................45
Experimentelle und theoretische Phylogenien.........................48
Der Bootstrap .........................................................................55
5.Gen-Bäume in der Phylogenie ............................................56
Gen-Bäume in Spezies-Bäumen ............................................56
Widersprüche zwischen Gen-Bäumen und Spezies-Bäumen .58
Auswirkungen von Gen-Duplikationen auf Gen-Bäume ..........63
Gen-Duplikationen als Motor
der physiologischen Feinabstimmung .....................................64
6. Gen-Bäume in Populationen ...............................................66
Rekonstruktion der Populationsgeschichte
anhand von DNA-Sequenzen..................................................68
Die Genealogie einer Stichprobe
Wann lebte der jüngste Vorfahre
............................................70
der menschlichen Population? ................................................72
Demographie...........................................................................76
Wo kommen wir her? .............................................................85
7. Die Zukunft.............................................................................87
VERTIEFUNGEN
Molekulare Techniken.................................................................91
Genetische Drift ......................................................................100
Die neutrale Theorie der molekularen Evolution .......................101
Die molekulare Uhr ...................................................................103
Der Coalescent-Prozess...........................................................105
Die genetische Variabilität einer Population ............................109
Das Jukes-Cantor-Modell der Sequenzevolution .....................110
Wer sind die nächsten Verwandten der Wale? Ein nicht
sequenzbasierter Ansatz zur Aufklärung der Phylogenie .........112
»Fossile DNA« - eine Zeitreise in die Vergangenheit ..............115
ANHANG
Glossar ....................................................................................122
Literaturhinweise.......................................................................127
GRUNDRISS
1 EINIGE GRUNDLAGEN DER VERERBUNG
DNA - ein Bote aus der Vergangenheit
Die Menschheit ist nicht nur daran interessiert, ihre Zukunft zu deu
ten, sondern auch ihre Herkunft zu rekonstruieren. Zentrale Fragen
sind: Wo kommen wir her? Wie ordnen wir uns in die belebte Welt
ein? Und wie können wir alle Lebewesen in einem einheitlichen
Schema gruppieren, das uns hilft die Vielfalt des Lebens auf der Erde
und ihre Genese zu verstehen?
Carl von Linne (1707-1778) »sortierte« die Natur und gab den meis
ten Tieren und Pflanzen mittels der binären Nomenklatur eine syste
matische Zuordnung. Die Dynamik in der Entstehung der Vielfalt
blieb jedoch verborgen. Erst ein Jahrhundert später, auf einem Tref
fen der Londoner Linne an Society am 1. Juli 1858, haben Charles Dar
win (1809 -1882) und Alfred Rüssel Wallace (1823 -1913) ihre Ideen
zur Entstehung der Arten vorgetragen. Im Jahr darauf publizierte
Darwin sein bahnbrechendes Buch On the Origin of Species. Darwins
Theorie basierte entscheidend auf der Weitergabe von vererbbaren
Merkmalen. Die zugrunde liegenden Mechanismen waren zu dieser
Zeit jedoch noch unklar. Erst 1944 gelang dem amerikanischen Team
um Oswald Theodore Avery (1877 - 1955) der eindeutige Nachweis,
dass die Desoxyribonukleinsäure (desoxyribonucleic acid, abgekürzt
DNA) die erblichen Eigenschaften von den Eltern auf die Nachkom
men überträgt.
Vererbung beruht also auf einer stofflichen Weitergabe in Form
einer Umsetzung von Molekülen. Die DNA besteht aus vier Grund
bausteinen, nämlich den Basen Adenin (A), Cytosin (C), Guanin (G)
3
Einige Grundlagen der Vererbung
S.91
und Thymin (T). Die Molekular-Genetik beschreibt, wie aus der se
quentiellen Abfolge dieser vier Grundbausteine der gesamte Bau
plan für einen vollständigen Organismus entsteht und wie die Wei
tergabe der genetischen Information erfolgt. Da die DNA in fast
allen Lebewesen als Träger der Erbinformation fungiert, sind die ge
fundenen Prinzipien für die Umsetzung der genetischen Informa
tion in den Phänotypen nahezu allgemeingültig.
Rasch wurde klar, dass die DNA nicht nur für die Weitergabe der
Eigenschaften von Eltern auf ihre Kinder verantwortlich ist. Sie ist
auch ein »Dokument der Evolutionsgeschichte«, so Emile Zucker
kandl und Linus Pauling. Die DNA, die in heute lebenden Organismen
zu finden ist, gab in grauer Vorzeit ein Vorfahr an den Nächsten wei
ter. Im Laufe dieser Weitergabe wurde die DNA modifiziert. Nicht
mehr benötigte Segmentabschnitte gingen verloren, neue Sequenz-
abschnitte wurden erworben und wieder andere Abschnitte erfuh
ren kleine Veränderungen, da der Prozess der Informationsweiterga
be nicht fehlerfrei ist. Welche Modifizierungen auch immer eine
DNA erfahren hat, die heutigen Organismen zeigen Spuren dieser
Änderungen in ihrem Genom. Die Forschung zur molekularen Evolu
tion versucht diesen Prozess zu rekonstruieren und die Mechanis
men herauszuarbeiten, die zu der heutigen Vielfalt der Organismen
geführt haben.
Besonders in den letzten Jahrzehnten wurden völlig neue For
schungstechniken entwickelt. Beispiele sind die Klonierung von
DNA-Segmenten, die Sequenzierung der DNA und die Polymerase-
Kettenreaktion (PCR) (Molekulare Techniken). Mit der rasanten Ent
wicklung dieser molekularbiologischen Techniken gelang es, ein
detailliertes und immer umfassenderes Bild von den der Evolution
zugrunde liegenden Mechanismen zu entwickeln.
Insbesondere bei der Frage nach einem biologischen System der
Organismen erweist sich die Analyse von DNA- und Aminosäure
sequenzen als eine wertvolle Methode, um sowohl die Verwandt
4
Die DNA und ihr Code
Schaftsverhältnisse zwischen nah verwandten Arten zu studieren,
als auch einen Baum zu rekonstruieren, der die Evolutionsgeschichte
aller Organismen der Erde darstellt.
Die DNA und ihr Code
Die genetische Zusammensetzung eines Organismus wird im We
sentlichen durch die Nukleinsäuren bestimmt. Sie enthalten den
Bauplan, der die verschiedenen Bauphasen im Organismus steuert
und der als Kopie an die nächste Generation weitergegeben wird. Es
gibt in den Zellen zwei Arten von Nukleinsäuren, die Desoxyribonu
kleinsäure (DNA) und die Ribonukleinsäure (RNA). Nukleinsäuren
sind Makromoleküle. Ihre Grundbausteine sind Nukleotide, die ket
tenförmig miteinander verbunden sind. Jedes Nukleotid ist aus drei
Molekülen aufgebaut: einer stickstoffhaltigen, heterozyklischen Ba
se (N), einem Zucker (Z) und einer Phosphorsäure (P) (Abbildung la).
Als Zuckerbaustein dient bei der DNA die Desoxyribose, bei der
RNA ist es die Ribose. Als Basenanteile treten die Pyrimidinderivate
Thymin (T) und Cytosin (C) (einfache Ringstruktur) und die Purinde
rivate Adenin (A) und Guanin (G) (doppelte Ringstruktur) auf (Abbil
dung 1b). In der RNA kommt statt Thymin die Base Uracil (U) vor, die
chemisch nah verwandt ist mit Thymin.
Ein vollständiges DNA-Molekül besteht aus zwei gegenläufigen
Polynukleotid-Strängen (Abbildung 1c). Diese sind über Wasserstoff
brücken-Bindungen zu einem Doppelstrang so verknüpft, dass sich
immer Thymin beziehungsweise Cytosin des einen Strangs mit Ade
nin beziehungsweise Guanin vom anderen Strang paaren (Watson
Crick-Basenpaarung). Dabei werden zwischen Adenin und Thymin
zwei Wasserstoffbrücken-Bindungen (A=T) ausgebildet, zwischen
Guanin und Cytosin sind es drei (G==C). Zusätzlich sind diese zwei
Polynukleotid-Stränge noch spiralförmig umeinander gewunden,
und es entsteht die charakteristische Gestalt der DNA-Doppelhelix.
5
Einige Grundlagen der Vererbung
Abb.1: Schematischer Aufbau der DNA
In einer Nukleinsäure sind mehrere tausend Nukleotide zu einem
langen, unverzweigten Strang angeordnet. Die genetischen Infor
mationen werden in der unterschiedlichen Abfolge der vier Basen
entlang der jeweiligen Sequenz kodiert.
Die genetische Information einer DNA-Sequenz wird in der Pro
tein-Biosynthese an die Eiweißmoleküle (Proteine) weitergegeben,
die wiederum die spezifischen Merkmale eines Organismus prägen.
Die Bausteine der Proteine sind zwanzig verschiedene Aminosäuren;
am Aufbau der Nukleinsäuren hingegen sind nur die vier Basen be
teiligt. Zur Kodierung der zwanzig Aminosäuren sind daher spezifi
sche »Codewörter« notwendig. Sie geben an, aus welchen Nukleoti
den die Aminosäuren bestehen. Eine einfache Überlegung zeigt, dass
mindestens drei Nukleotide (zum Beispiel ACG) notwendig sind, um
6
Gene und Genom
alle Aminosäuren zu kodieren. Aus vier Nukleotiden können nur 16
Kombinationen von Zweiergruppen (zum Beispiel GC), wohl aber 64
Kombinationen von Dreiergruppen (wie CGA) gebildet werden. Je
weils drei Nukleotide lassen sich also zu einem Wort aus drei Buch
staben oder in der Sprache der Molekularbiologie zu einem Codon
oder Triplett zusammenfassen. So stehen genügend Wörter zur Ver
fügung, um jede Aminosäure durch die Abfolge von drei Nukleotiden
zu verschlüsseln. Die Übersetzung der Tripletts der DNA in Amino
säuren der mRNA zeigt Abbildung 2.
Die meisten Aminosäuren werden durch mehrere Tripletts kodiert.
So dienen als Codon für die Aminosäure Serin (Ser) die sechs Wörter
AGC, AGU, UCU, UCC, UCA oder UCG. Man spricht daher von der Re
dundanz des genetisches Codes. Eindeutig kann nämlich nur von der
DNA- beziehungsweise RNA-Sequenz auf die Aminosäure geschlos
sen werden, nicht jedoch umgekehrt von der Aminosäure auf die
Nukleotid-Sequenz. Lediglich für Tryptophan (Trp) und Methionin
(Met) gibt es allein ein einziges Schlüsselwort, nämlich UGG respek
tive AUG. Das AUG-Triplett hat weiterhin die Funktion eines so
genannten Startcodons, das den Beginn der kodierenden Sequenz
anzeigt. Jedes neu synthetisierte Protein beginnt also mit Methio
nin. Zu den so genannten Stoppcodons UGA, UAA, und UAG gehören
keine Aminosäuren. Diese Tripletts beenden die Protein-Biosynthese.
Gene und Genom
Der DNA-Strang enthält viele tausend Nukleotide. Aber nur einige
Abschnitte der DNA tragen die Informationen für den Bauplan eines
Organismus in sich. Diese Abschnitte heißen Gene. Sie enthalten die
Informationen zur Herstellung von spezifischen Proteinen und sind
daher im Wesentlichen für die Gestalt eines Lebewesens verant
wortlich. Für die Herstellung der Proteine müssen die Gene ihre Ko
dierung weitergeben, sie bilden die kodierende DNA.
7
Einige Grundlagen der Vererbung
Darüber hinaus gibt es in dem DNA-Strang zwischen den kodieren
den Bereichen weitere, häufig sehr lange Abschnitte, die keine Infor
mationen zur Herstellung von Proteinen tragen. Damit differenziert
sich der DNA-Strang in verschiedene Domänen: Gene, die ihre Kodie
rung weitergeben, bilden die funktionellen Bereiche der DNA. Die
anderen Abschnitte, die keine Kodierung tragen und daher auch
keine Kodierung weitergeben, bilden die nicht-kodierende DNA. Letz
tere machen bei den Lebewesen, die einen echten Zellkern haben
(Eukaryoten), den Großteil des Genoms aus (siehe Abbildung 3).
Seit langem bekannt ist die Unterteilung des Genoms in Chromo
somen. Im Kern einer menschlichen Körperzelle befinden sich 22 au
tosomale Chromosomen (griechisch auto = selbst, soma = Körper).
Sie steuern hauptsächlich die körpereigenen Prozesse. Die Chromo
somen unterscheiden sich in Form und Größe und liegen je zweimal
vor. Ein Pärchen gleichartiger Chromosomen heißt homolog (überein
stimmend). Hinzu kommen die Geschlechtschromosomen X und Y.
Bei männlichen Individuen gibt es ein X- und ein Y-Chromosom, bei
weiblichen Individuen zwei X-Chromosomen. Zellen, in denen die
Chromosomen doppelt vorliegen, heißen diploid (zweifach). Eine
diploide Zelle des Menschen enthält daher immer 46 Chromosomen,
zweimal 22 homologe Autosomen und zwei Geschlechtschromoso
men, entweder XY bei männlichen oder XX bei weiblichen Organis
men. In den menschlichen Keimzellen (Spermien und Ei) ist die
Anzahl der Chromosomen halbiert, sie enthalten nur je einen auto
somalen Chromosomensatz (n=22) und von den Geschlechtschro
mosomen entweder das Y- oder das X-Chromosom. In den reifen Ge
schlechtszellen befinden sich daher 23 Chromosomen. Im Gegensatz
zu den diploiden Körperzellen sind die Keimzellen haploid (einfach).
Die molekulare Differenzierung des menschlichen Genoms ist erst
in den letzten Jahren aufgeklärt worden. Nach der vollständigen Be
stimmung der Abfolge und Anzahl der Nukleotide wurde mit Er
staunen festgestellt, dass ca. 97% der drei Milliarden Basen nicht
8
Gene und Genom
Abb.2: Der genetische Code für die mRNA. Die Codons sind von innen nach außen
zu lesen und geben die Basenabfolge der mRNA-Codons wieder. Außerhalb des
Kreises stehen die Aminosäuren, die vom Triplett kodiert werden.
kodierende DNA sind. Sich vielfach wiederholende Abschnitte (re
petitive DNA) mit bisher unbekannter Funktion machen ca.40% des
gesamten Genoms aus. In der Forschung werden sie je nach Länge
als SINE, LINE oder Satelliten-DNA bezeichnet. Lediglich 3% des
menschlichen Genoms sind kodierende DNA. Neben den schät
9
Einige Grundlagen der Vererbung
zungsweise 30000-40000 Genen sind auch regulatorische Se
quenzen und spezielle RNA-Moleküle bei der Synthese von Proteinen
wichtig.
Das eukaryotische Genom enthält neben den im Zellkern lokali
sierten Chromosomen (auch Kern-DNA genannt) zusätzliche extra
chromosomale DNA, die in den Mitochondrien der Zellen vorkommt.
Sie heißt mitochondriale DNA (mtDNA). Beim Menschen handelt es
sich hierbei um ein kleines, ca. 16000 Basenpaare langes, ringförmi
ges DNA-Molekül. Die mtDNA wird in der Regel maternal vererbt.
Nur die Mütter geben das Mitochondrien-Genom an ihre Kinder
weiter, die väterliche mtDNA wird nicht vererbt. Im Unterschied zur
Kern-DNA ist die Abfolge der kodierenden Abschnitte nahezu lücken
los. Der einzige nicht-kodierende Abschnitt ist die Kontroll region
(Abbildung 3). Sie steuert die Replikation (originalgetreue Nachbil
dung) des ringförmigen Genoms. Eine weitere Eigenheit der mito
chondrialen DNA besteht darin, dass es nach dem derzeitigen Wis
sensstand so gut wie keine Rekombination gibt, das heißt es findet
kein Austausch zwischen verschiedenen DNA-Abschnitten statt. Die
se Tatsache macht die mtDNA besonders geeignet für evolutions
biologische Analysen.
Pflanzen besitzen noch ein weiteres, extra-chromosomales Ge
nom, das in den Plastiden der Zellen vorkommt und daher Plastiden-
Genom heißt. Zu den Plastiden zählen unter anderem die grünen
Chloroplasten, die maßgeblich für die Photosynthese verantwortlich
sind sowie die rötlich bis gelben Chromoplasten der reifen Früchte
und Blüten. Das Plastiden-Genom ist ebenfalls ringförmig geschlos
sen und hat eine Länge von 85000-190000 Basenpaaren.
Die Protein-Biosynthese
Ein Gen trägt die Information zur Bildung eines spezifischen Eiweiß
moleküls (Protein). Diese sind vorwiegend aus Aminosäuren aufge
10
Die Protein-Biosynthese
Abb.3: Anteil kodierender und nicht-kodierender DNA im menschlichen Genom
11
Einige Grundlagen der Vererbung
baut. Ganz ähnlich wie bei der DNA bestimmt die Abfolge der Amino
säuren in der Proteinsequenz die charakteristischen Eigenschaften
dieses Proteins. Da die Gene in der Abfolge ihrer Nukleinsäuren die
Informationen zum Aufbau der Proteine enthalten, muss es einen
Mechanismus geben, der die Abfolge dieser Nukleinsäuren eines
Gens in eine Abfolge von Aminosäuren übersetzt. Dieser Vorgang ist
die Protein-Biosynthese, sie verläuft in zwei Schritten.
Bei den Eukaryoten befindet sich die DNA im Zellkern. Die Eiweiß
synthese erfolgt aber außerhalb des Zellkerns an den Ribosomen im
Cytoplasma. Daher muss in einem ersten Schritt die Information aus
dem Kern durch die Kernhülle zu den Ribosomen im Cytoplasma
transportiert werden. Diese Übertragung übernimmt ein einsträngi
ges RNA-Molekül. Da dieses die »Botschaft« nach außen überträgt,
heißt das Molekül messenger-RNA (mRNA oder Boten-RNA). Die
mRNA wird im Zellkern an der Kern-DNA gebildet. Die Basenfolge
(die genetische Information) der Kern-DNA wird dabei auf das neu
gebildete mRNA-Molekül übertragen (kopiert). Dieser erste Schritt
der Protein-Biosynthese wird Transkription (Abbildung 4) genannt.
Anstelle von Thymin in der DNA wird in die mRNA jedoch die Base
Uracil eingebaut.
Die mRNA gelangt durch die Kernporen in das Cytoplasma. Jetzt
beginnt der zweite Schritt in der Übertragung der genetischen Infor
mation der Kern-DNA auf die Proteinbildung. Im Cytoplasma heften
sich zwei Teile eines Ribosoms an die mRNA an und bilden ein funk
tionsfähiges Ribosom. Zugleich binden weitere RNA-Moleküle je
eine bestimmte, in den Zellen frei existierende Aminosäure an sich.
Diese RNA-Moleküle nennt man transfer-RNA oder tRNA. Sie trans
portieren die Aminosäuren zum Ribosom, wo sie unter Mitwirkung
der mRNA zu einem Polypeptid verknüpft werden. Die Reihenfolge,
in der die Aminosäuren zu einem bestimmten Protein zusammenge
setzt werden, wird durch die Abfolge der Codons in der mRNA
bestimmt. Dieser zweite Schritt, die Übersetzung der in der Basen
12
Die Protein-Biosynthese
Abb.4: Die Teilprozesse der Protein-Biosynthese
abfolge der mRNA gespeicherten genetischen Information in eine
Abfolge von Aminosäuren in einem Protein, heißt Translation. Die
Stoppcodons auf der mRNA beenden die Translation. Das Polypeptid
und die tRNA verlassen die Ribosomen, die anschließend in ihre
Untereinheiten zerfallen.
13
Veränderungen einer DNA-Sequenz im Laufe der Zeit
2 VERÄNDERUNGEN EINER DNA-SEQUENZ IM LAUFE DER ZEIT
Mutationen in einer DNA-Sequenz
Die Vererbung der Eigenschaften eines Organismus auf seine Nach
kommen beruht auf der Bildung einer genauen Kopie der DNA. Die
Natur hat für diese Replikation der DNA viele Vorkehrungen getrof
fen, um den Kopierprozess möglichst fehlerfrei zu gestalten. Den
noch kommt es zu Fehlern. Die so genannten Mutationen (Verände
rungen) entstehen sowohl bei der Replikation als auch spontan durch
umweltbedingte Faktoren, wie beispielsweise radioaktive Strahlung
oder chemische Stoffe in der natürlichen und industriellen Umwelt.
Mutationen sind die entscheidende Kraft im Evolutionsgeschehen.
Sie sind zum einen verantwortlich für die genetischen Unterschiede
zwischen Individuen. Zum anderen sind Mutationen der Motor für
die Mannigfaltigkeit beziehungsweise Vielgestaltigkeit des Lebens,
die dann auf dem Prüfstand der Selektion auf ihre Lebensfähigkeit
getestet wird. Aus dieser Vielfalt der Mutationen interessieren in der
Erforschung der molekularen Evolution nur jene Veränderungen, die
sich in den Geschlechtszellen (Keimbahn) manifestieren. Nur diese
Mutationen werden an die Nachkommen sich sexuell fortpflanzen
der Organismen weitergegeben. Veränderungen, die andere Körper
zellen betreffen (somatische Mutationen), werden nicht vererbt und
sind daher für die Rekonstruktion der molekularen Evolutionsge
schichte ohne Bedeutung.
Mittlerweile sind eine Vielzahl unterschiedlicher Mutationstypen
bekannt. So kann in einer DNA-Sequenz ein Nukleotid durch ein an
deres ersetzt werden (Punktmutation). Nur wenn die Reparaturme
chanismen der Zelle diese Änderung nicht erkennen und korrigieren,
sprechen wir von einer Substitution. Typische Substitutionen sind
14
Mutationen in einer DNA-Sequenz
Abb.5: Schema der möglichen Nukleotidsubstitutionen
die vielen Einzel- oder Single-Nukleotid-Polymorphismen (abgekürzt
SNP), die im Zuge der Sequenzierung des menschlichen Genoms
gefunden wurden.
Nukleotidsubstitutionen treten als Transitionen und Transversio
nen auf. Eine Transition ist ein Basenaustausch zwischen Pyrimidi
nen (Cytosin ļ Thymin) oder zwischen Purinen (Adenin ļ Guanin).
Bei der Transversion kommt es zu einem Austausch zwischen einer
Purin- und einer Pyrimidinbase (Abbildung 5).
Für das Auftreten einer Transversion gibt es prinzipiell zwei Mög
lichkeiten, für eine Transition existiert hingegen nur eine Option.
Daher liegt der Schluss nahe, dass Transversionen zweimal häufiger
vorkommen als Transitionen. Beim Auszählen der Unterschiede zwi
schen nah verwandten Sequenzen bestätigt sich diese einfache An
nahme jedoch nicht. Transitionen finden wesentlich häufiger statt
als Transversionen. Diese Tatsache muss bei der Analyse von DNA-
Sequenzen berücksichtigt werden.
15
Veränderungen einer DNA-Sequenz im Laufe der Zeit
Hat der Austausch eines Nukleotids keinen Einfluss auf die kodierte
Aminosäure (siehe Abbildung 2), handelt es sich um eine synonyme
Substitution. Dagegen ändert eine nicht-synonyme Substitution die
Aminosäure. Synonyme Substitutionen erfolgen meist an den drit
ten Codonpositionen, die im Wesentlichen die Redundanz des gene
tischen Codes bestimmen.
Außerdem gehen im Verlauf der Zeit Stückchen der DNA verloren
(Deletion) oder werden hinzugewonnen (Insertion). Die Einheit einer
Deletion oder Insertion kann ein einzelnes Nukleotid sein, oder es
können auch ganze Abschnitte von Nukleotiden sein. Darüber hin
aus gibt es großräumige Veränderungen des genetischen Materials
wie Translokationen und Inversionen, bei denen ganze Chromoso
men-Abschnitte verlagert oder verdreht werden. Erstaunlicherweise
ist die Natur so flexibel, dass eine solche Umgruppierung von DNA-
Abschnitten nicht zwangsläufig zur Funktionsunfähigkeit des be
troffenen Organismus führen muss.
Einer der wichtigsten genetischen Prozesse in der Evolution ist die
Duplikation (Verdopplung) von Genen oder ganzer genomischer
Abschnitte. Dadurch erhält der Organismus zwei Kopien desselben
Gens. Eine der beiden Kopien kann eine neue Funktion bekommen
oder aber seine Funktionsfähigkeit verlieren. Ein klassisches Beispiel
sind die wiederholten Genduplikationen in der Superfamilie des Glo
bingens, die sowohl den Sauerstofftransport in den Muskeln (Myo
globin) als auch im Blut (Hämoglobin) regulieren. Dabei werden die
sehr unterschiedlichen Sauerstoff-Bedürfnisse im Embryo respektive
im erwachsenen Organismus berücksichtigt. Andere DNA-Abschnit
te sind ganz ähnlich wie die Globingene aufgebaut, aber sie funktio
nieren nicht, weil sie durch Deletionen und Insertionen unter
brochen sind. Diese »Karikaturen« aktiver Gene werden Pseudogene
genannt.
16
Evolution einer DNA-Sequenz
Evolution einer DNA-Sequenz
Mutationen verändern die Basenabfolge der DNA-Sequenz. Bei jeder
Substitution ändert sich durch den Austausch eines Nukleotids auch
die in der DNA gespeicherte Information. Als eine zentrale Annahme
gilt in der molekularen Evolutionstheorie, dass diese Änderungen ei
nem stochastischen, das heißt einem Zufallsprozess unterliegen. Zu
jedem gegebenen Zeitpunkt ist es möglich, dass eine Substitution
erfolgt und ein Nukleotid der Sequenz durch ein anderes ersetzt
wird. Prinzipiell sind solche Ersetzungen an jeder Position eines
DNA-Stranges möglich. Es gibt allerdings bestimmte, meist konser
vative Regionen in der DNA-Sequenz, in denen eine einzige Substitu
tion bereits die Funktion des resultierenden Proteins beeinträchtigt.
Hierzu zählt etwa die Änderung der Raumstruktur eines Moleküls,
die möglicherweise eine verringerte Bindungsaffinität für bestimm
te Gase oder Mineralien bewirkt. Ist eine Mutation nachteiligfür den
Träger, wird aufgrund der reduzierten Fitness (weniger oder keine
Nachkommen) diese Mutation wieder verloren gehen. Bei neutralen
Substitutionen entscheidet der Zufall, ob die neue Mutante in der
Population fixiert wird (Die neutrale Theorie der Molekularen Evolu
tion, Genetische Drift). Die Auswertung von Aminosäure-Sequenzen
zeigt, dass verschiedene Proteine unterschiedliche Substitutionsra
ten haben, wobei es noch einen deutlichen Unterschied zwischen
synonymen und nicht-synonymen Austauschen gibt (Tabelle 1). So
zählen die Histone, die in den Kernen aller Tier- und Pflanzenzellen
vorkommen und die dichte Verpackung des Genoms im Zellkern ge
währleisten, zu den höchst konservierten Genen überhaupt. Vom
Histon 3 und Histon 4 ist keine nicht-synonyme Substitution be
kannt. Die Gene aus der Globinfamilie zeigen geringe (D-Globin,
Myoglobin) bis moderate (E-Globin) Austauschraten.
Die Substitutionsraten in Tabelle i sind Schätzungen. Es ist nicht
möglich, eine DNA-Sequenz über eine Milliarde Jahre zu beobachten
S.101
S.100
17
Veränderungen einer DNA-Sequenz im Laufe der Zeit
Tabelle 1: Substitutionsraten für fünf proteinkodierende Gene. Die Rate ist als mitt
lere Zahl an Substitutionen pro Position und pro 1 Milliarde Jahre angegebene AS
= Aminosäure.
und die in dieser Zeit erfolgenden Substitutionen in der Keimbahn
mitzuzählen. Vorteilhaft wäre es zwar, wäre die Zahl der Substitutio
nen in diesem Zeitraum doch ein Maß für die Evolutionsgeschwin
digkeit des Sequenzabschnittes, und die Substitutionsrate ließe sich
direkt berechnen. Zum Glück stellen Mathematiker Modelle der Se
quenzevolution bereit, um die Substitutionsrate zu ermitteln.
Für das Entwickeln eines solchen Modells soll angenommen wer
den, dass sowohl die ursprüngliche Sequenz als auch die heutige Se
quenz und zudem die dazwischenliegende Zeitspanne bekannt sind.
Unter der Annahme, dass nur Substitutionen erfolgten, kann dann
jeder Position der heutigen Sequenz ihre Position in der ursprüng
lichen Sequenz zugeordnet werden (Abbildung 6). Unterscheidet
sich ein »heutiges« Nukleotid von dem Nukleotid der ursprünglich
en Sequenz, fand mit Sicherheit an dieser Position mindestens ein
Austausch statt. Da nur das Endprodukt und das Anfangsprodukt
bekannt sind, können an dieser Position aber auch zwei, drei, vier und
mehr Substitutionen stattgefunden haben.
Sind zwei Nukleotide an einer Position gleich, können dennoch im
Laufe der Zeit zwei, drei, vier und mehr Mutationen eingetreten sein,
18
Evolution einer DNA-Sequenz
Abb.6: Modell für die Veränderung einer DNA-Sequenz im Laufe der Zeit.
Zwischen einer Vorfahr-Sequenz und einer heutigen Sequenz sind acht Generatio
nen vergangen. Punkte stehen für identische Basen, ein Strich (-) markiert eine
Deletion, das heißt den Verlust eines Nukleotids. Pfeile symbolisieren jeweils eine
Substitution (schwarzer Pfeil = Transition, grüner Pfeil = Transversion) beziehungs
weise Deletion (grauer Pfeil). Die Veränderungen führen zu unterschiedlichen
Ergebnissen, das sind einfache (*) und multiple ($) Substitutionen, Rückmutatio
nen (§) oder Deletionen (-).
eventuell aber auch gar keine. Wird also nur die Zahl der unter
schiedlichen Nukleotidpaare registriert, dann wird die Zahl der Sub
stitutionen unterschätzt. Die Wahrscheinlichkeit für diese mehrfa
chen (multiplen) Substitutionen hängt von der betrachteten
Zeitspanne und von der Substitutionsrate der Sequenz ab. Je weni
ger Zeit vergangen ist und je kleiner die Substitutionsrate ist, desto
unwahrscheinlicher sind multiple Ereignisse an einer Position.
Um aus der beobachteten Zahl an unterschiedlichen Nukleotidpo
sitionen zwischen zwei Sequenzen auf die Zahl der tatsächlich statt
gefundenen Mutationen zu schließen, sind in den letzten Jahrzehn
ten eine Vielzahl von mathematischen Modellen entwickelt worden.
Abbildung 7 zeigt für das Jukes-Cantor-Modell der Sequenzevolution
den Zusammenhang zwischen der Anzahl an stattgefundenen und
der Anzahl an beobachteten Substitutionen. Die schwarze treppen
19
S.110
Veränderungen einer DNA-Sequenz im Laufe der Zeit
förmige Kurve stellt die jeweils bis zu einem bestimmten Zeitpunkt
ausgezählten Substitutionen dar. Die lineare Kurve der tatsächlichen
Substitutionen (mit weißen Symbolen) berücksichtigt die nicht be
obachtbaren Parallel- und Rückmutationen. Aus der Kurve der be
obachteten Substitutionen muss also auf die Kurve der tatsäch
lichen Substitutionen geschlossen werden. Es wird also nach einer
Funktion, nämlich der Korrekturkurve gesucht, die aus der Anzahl der
beobachteten Substitutionen die tatsächliche Anzahl an Basenaus
tauschen bestimmt.
Auch wenn die mathematischen Details von Modell zu Modell
variieren, zeigen die Korrekturkurven (siehe Abbildung 7) bei allen
Modellen dennoch einen ähnlichen Verlauf: Haben erst wenig
Substitutionen stattgefunden, gibt es einen linearen Zusammen
hang zwischen stattgefundenen und beobachteten Substitutionen.
Nimmt die Anzahl der Substitutionen zu, nimmt die Steigung des
Graphen ab. Schließlich erreicht die Kurve die so genannte Sätti
gung. Der Unterschied zwischen einer Ursprungssequenz und ihrem
Nachfahren ist dann im Mittel genauso groß wie zwischen zwei zu
fälligen, nicht miteinander verwandten Sequenzen. Alle Spuren der
gemeinsamen Vergangenheit zwischen Ursprungs- und Nachfah
ren-Sequenz sind damit ausgelöscht.
Anders als im mathematischen Modell ist in der molekularen Evo
lutionsforschung die ursprüngliche Sequenz, das heißt die Vorfahr-
Sequenz der heutigen Sequenz, unbekannt. Für die benutzten Sub
stitutionsmodelle ist dies auch gar nicht notwendig. Es reicht, zwei
heutige DNA-Sequenzen zu kennen, von denen mit Sicherheit fest
steht, dass sie auf eine gemeinsame Vorfahrensequenz zurückge
hen. Aus einem Vergleich der zwei Sequenzen wird die Anzahl der
variablen Positionen (beobachteten Substitutionen) ermittelt. Dann
kommen Korrekturkurven wie in Abbildung 7 zur Anwendung. Sie
erlauben Rückschlüsse über die Anzahl der tatsächlich stattgefunde
nen Substitutionen, die zwischen der gemeinsamen Vorfahr
20
Evolution einer DNA-Sequenz
Abb.7: Jukes-Cantor-Modell der Sequenzevolution
21
Veränderungen einer DNA-Sequenz im Laufe der Zeit
Sequenz und den heutigen Sequenzen stattgefunden haben. Nicht
abschätzen lässt sich die Zeit, in der sich die heutigen Sequenzen aus
ihrer gemeinsamen Vorfahr-Sequenz entwickelt haben. Daher kann
nicht ohne weiteres eine Substitutionsrate wie in Tabelle i angege
ben werden. Ursache dieser Beschränkung ist die strenge Proportio
nalität d ~ P · t
zwischen der Anzahl d der Substitutionen und dem Produkt aus Sub
stitutionsrate P der Sequenz und der evolutionären Zeitspanne t. Um aus der Anzahl der Substitutionen auf die Substitutionsrate zu
schließen, sind Informationen über den Zeitpunkt erforderlich, an
dem sich die beiden heutigen Sequenzen aus einer Vorfahr-Sequenz
entwickelt haben. Als Kalibrierungspunkte eignen sich die aus fossi
len Befunden gewonnenen Zeitpunkte für die Aufspaltung der je
weiligen Arten.
Die vorangegangenen Betrachtungen stellen die Grundprinzipien
eines Sequenzmodells der Evolution vor. Beim Vergleich biologischer
Daten zeigt sich jedoch, dass Transitionen wesentlich häufiger erfol
gen als Transversionen. Diese Beobachtung wird bei weiterführen
den Substitutionsmodellen bedacht. Zusätzlich können die Modelle
berücksichtigen, dass einige Positionen aufgrund funktioneller
Zwänge - wie einer bestimmten Raumstruktur des Proteins - lang
samer evolvieren als andere.
Lücken und Ergänzungen in DNA-Sequenzen
Bei der Analyse von DNA-Sequenzen stellte sich heraus, dass im Mu
tationsgeschehen nicht nur Substitutionen vorkommen. Auch Inser
tionen und Deletionen treten selbst in kodierenden Regionen auf. Sie
können dabei zum Teil eine erhebliche Größenordnung erreichen. In
einem Vergleich zweier Sequenzen zeigen sich daher nicht nur Po
sitionen mit unterschiedlicher Nukleotidpaarung, sondern die Se
22
Lücken und Ergänzungen in DNA-Sequenzen
quenzen haben darüber hinaus aufgrund von Insertionen und Dele
tionen (kurz Indels) auch verschiedene Längen. Anhand der Buch
stabenabfolgen der DNA-Sequenzen ist nicht zu erkennen, wo und
wie viele Indels erfolgt sind. Ein Problem der molekularen Evolution
ist die Rekonstruktion dieser Indels, um so sicherzustellen, dass bei
der Auszählung der paarweisen Nukleotidunterschiede auch tat
sächlich orthologe, das heißt ursprungsgleiche Positionen verglichen
werden. Die Prozedur, jene Stellen zu lokalisieren, an denen In
sertionen respektive Deletionen stattgefunden haben, erhielt den
Fachterminus Alignierung. Ergebnis der Prozedur ist das Alignement.
Dies erinnert mit seinem lateinischen Wortstamm linea an das Ab
stecken einer Linie, in der etwas angeordnet werden soll. Ziel eines
Sequenzalignements ist es, die Sequenzen so untereinander zu
schreiben, dass sie die gleiche Länge haben und dabei orthologe
Positionen einander zugeordnet werden. Dazu müssen die Indels
(die verlorenen oder hinzugewonnenen Stückchen DNA) mit erfasst
werden. Hierfür dient das Zeichen »-«, das als Lücke (gap) eingefügt
wird, sozusagen als Platzhalter für fehlende Nukleotide.
Bei einer Beschränkung auf zwei Sequenzen lässt sich das Problem
in einem so genannten dot-plot in Form einer Matrix veranschau
lichen (Abbildung 8). Die erste Zeile des dot-plot repräsentiert die
Sequenz i aus Abbildung 6, die erste Spalte die Sequenz 2 aus Abbil
dung 6. Stimmen die Nukleotide an einem Positionspaar der Se
quenzen überein, wird das entsprechende Feld mit einem Punkt (dot)
markiert. Stimmen sie nicht überein, bleibt das Feld frei. Dann sucht
man durchgehende oder »geknickte« Diagonalen. Lange Diagonalen
deuten auf Regionen, in denen beide Sequenzen sehr ähnlich bezie
hungsweise identisch sind. Das Ziel der Auswertung solcher dotplots besteht darin, den optimalen (»besten«) Weg durch diese
Matrix zu finden, der möglichst viele identische Nukleotidpaare auf
sammelt und so zu durchgehenden Diagonalen führt, ohne unnötig
viele Indels einzubauen, welche die »Knicke« verursachen. Dazu wer
23
Veränderungen einer DNA-Sequenz im Laufe der Zeit
Abb.8: Evolution der Sequenz aus Abbildung 6 in Form eines dot-plot
den computergestützte Algorithmen verwendet, die aus der Vielzahl
an möglichen Wegen den optimalen bestimmen.
Die biologischen Mechanismen für Insertionen und Deletionen
sind noch nicht ausreichend verstanden, daher sind die derzeitigen
Methoden der Sequenzalignierung noch sehr heuristisch. In prakti
schen evolutionsbiologischen Anwendungen findet meist eine Nach
bearbeitung des Ergebnisses durch »visuelle Begutachtung« statt.
Dies ist besonders dann der Fall, wenn mehr als zwei Sequenzen in
einem so genannten multiplen Sequenzalignement verglichen oder
aneinander ausgerichtet werden.
Bei einem paarweisen Alignement zweier Sequenzen gehen Posi
tionspaare auf eine gemeinsame Vorfahrposition zurück. Einem
multiplen Alignement liegt die Annahme zugrunde, dass jeweils
eine Spalte des multiplen Alignements auf eine gemeinsame Vor
fahrposition zurückgeht. Paarweise und multiple Sequenzaligne
ments sind der Ausgangspunkt für phylogenetische und popula
tionsbiologische Studien.
24
Eine kleine Baumschule
Abb. 9: Ein schematischer Baum mit den wichtigsten anatomischen Begriffen
3 EINE KLEINE BAUMSCHULE
Allgemeine Terminologie
Die in diesem Buch verwendeten Begriffe veranschaulicht Abbildung
9. Mathematiker und Biologen haben sehr unterschiedliche Vorstel
lungen von einem Baum. So sprechen die Mathematiker von Kanten
und Knoten (abgeleitet aus der Grafentheorie), während Biologen
Äste und Verzweigungen vor Augen haben (ganz wie bei Bäumen in
der Natur). Im phylogenetischen Kontext ist ein Baum (Dendro
gramm) eine mathematische Konstruktion, welche die stammesge
schichtlichen Verwandtschaftsverhältnisse (Phylogenie) einer Grup
pe von Lebewesen widerspiegelt.
Ein Stammbaum besteht aus Knoten (Verzweigungspunkten), die
durch Kanten (Äste) miteinander verbunden sind. Die äußeren Kno
25
Eine kleine Baumschule
ten (endständiges Taxon oder OTU, Abkürzung für Operational Taxonomic Unit) repräsentieren Organismen, für die reale Daten (zum
Beispiel DNA-Sequenzen oder morphologische Messwerte) vorlie
gen. Innere Knoten symbolisieren hypothetische Vorfahren für jene
Taxa, die sich in einem anschließenden Speziations- beziehungs
weise Aufspaltungsprozess in zwei Tochterlinien geteilt haben. Der
Vorfahre aller im Datensatz enthalten DNA-Sequenzen oder Orga
nismen ist die Wurzel des Baums. In der phylogenetischen Systema
tik wird die Wurzel auch als Stammart bezeichnet. Ein Baum mit
einer Wurzel heißt gewurzelter Baum.
Knoten und Kanten eines Baumes enthalten eine Vielzahl von In
formationen. So wird zum Beispiel beim Maximum-Parsimonie-Ver
fahren jedem inneren Knoten ein diskreter Merkmalszustand, zum
Beispiel eine DNA-Sequenz, zugeordnet. Viele Verfahren berechnen
auch die evolutionäre Zeit, die zwischen zwei Aufspaltungsereignis
sen verstrichen ist, die sich in der Länge einer Kante (Astlänge) wi
derspiegelt.
Während äußere Knoten (endständige Taxa) mit einer äußeren
Kante verbunden sind, laufen auf innere Knoten drei oder mehr Kan
ten zu. Wenn ein Knoten genau drei Kanten hat, besitzt er einen Vor
fahren und zwei Nachfahren. In diesem Fall spricht man von einer
dichotomen (zweigeteilten) Verzweigung. Enthält ein Baum an den
inneren Knoten ausschließlich dichotome Verzweigungen, ist er voll
ständig aufgelöst. Gibt es an einem inneren Knoten mehr als zwei
Nachfahren, ist dies eine polytome, das heißt vielfache Verzweigung.
Polytomien symbolisieren entweder die zeitgleiche Aufspaltung in
mehrere Nachfahren oder eine noch nicht geklärte Beziehung zwi
schen den untersuchten Organismen. Im zweiten Fall fand die Auf
spaltung nicht zwangsläufig zum gleichen Zeitpunkt statt, sondern
die Abfolge der Ereignisse ist noch unsicher. In der Regel ist es sehr
unwahrscheinlich, dass sich mehr als zwei phylogenetische Linien
zum exakt gleichen Zeitpunkt aufspalten. Daher kann in den meis
26
Allgemeine Terminologie
Abb.10: Verschiedene Topologien mit der dazugehörigen Kurzschreibweise in
Klammernotation
ten Fällen davon ausgegangen werden, dass es zwar eine dichotome
Baumstruktur gibt, die herangezogenen Merkmale aber die zeitliche
Abfolge der Aufspaltung nicht auflösen können.
Es gibt zahlreiche Möglichkeiten der Baumdarstellung (Abbildung
10). Nicht immer unterscheiden sich die Bäume in ihrer Topologie,
das heißt in ihrem Verzweigungsmuster. Manchmal sind es lediglich
verschiedene grafische Darstellungen, da sich die Kanten eines Bau
mes um jeden inneren Knoten beliebig drehen lassen, ohne dass sich
die relativen Beziehungen zwischen denTaxa ändern.
Phylogenetische Bäume können computerfreundlich in Klammer
notation dargestellt werden (Abbildung 10). Jeder innere Knoten
(jeder clade) ist durch ein Klammerpaar repräsentiert, das alle Nach
kommen dieses Knotens einschließt. Alle Nachkommen eines inne
ren Knotens bezeichnet man manchmal auch als Cluster. So stehen
in den drei linken Bäumen in Abbildung 10 die Klammern (D,E) und
(A,B,C) für die oberen Knoten und die Klammer ((D,E) (A,B,C)) für die
Wurzel. Mit dieser einfachen Schreibweise lässt sich die Topologie je
des Baumes darstellen. Was hier noch fehlt, sind Informationen über
die Kantenlängen und damit über die evolutionären Zeiten. Compu
27
Eine kleine Baumschule
S.103
terprogramme, die phylogenetische Bäume berechnen, speichern
neben der Topologie auch die Länge jeder Kante.
Für die Darstellung unterschiedlicher evolutionärer Fragestellun
gen gibt es auch unterschiedliche Bäume. Die einfachste Form ist
das Cladogramm, das lediglich die relativen Beziehungen der Taxa
zueinander darstellt. Die Kantenlänge ist hierbei ohne jede Bedeu
tung. Ein Phylogramm enthält zusätzliche Informationen über die
Länge der Kanten, zum Beispiel die Anzahl an Substitutionen. Solche
Bäume werden auch als additive oder metrische Bäume bezeichnet.
Im Dendrogramm sind die äußeren Knoten alle gleich weit von der
Wurzel entfernt. Ein Dendrogramm ist also ein Spezialfall des Phylo
gramms. Dendrogramme werden benutzt, um unter Verwendung
der molekularen Uhr die Evolutionszeiten der einzelnen Organismen
darzustellen.
Im gewurzelten Baum wird ein Knoten als Wurzel deklariert (siehe
Abbildung 9), der hypothetische Vorfahre aller untersuchten Lebe
wesen. Ein gewurzelter Baum hat folglich eine Lesrichtung, die pa
rallel zur evolutionären Zeit verläuft. Somit gibt es eine eindeutige
Beziehung zwischen älteren Vorfahren (deren Knoten näher an der
Wurzel stehen) und jüngeren Nachkommen (deren Knoten weiter
von der Wurzel entfernt sind).
Phylogenetische Klassifikation
Bezüglich der Abstammung einzelner Organismen oder Taxa gibt es
drei Szenarien, die in Abbildung 11 durch grüne Linien gekennzeich
net sind.
Eine monophyletische Gruppe (griechisch monophylos = aus einem
Stamme) (Abbildung 11a) ist von einem gemeinsamen Vorfahren ab
leitbar und enthält sämtliche Nachkommen der Stammart. Ein Bei
spiel hierfür sind Mensch und Schimpanse, die als Schwesterarten
oder nächste Verwandten bezeichnet werden. Weitere Monophyla
28
Phylogenetische Klassifikation
sind etwa die Gruppe der Säugetiere, die Gruppe der Wirbeltiere oder
die Gruppe der Vögel.
Eine paraphyletische Gruppe (griechisch para = abweichend) (Ab
bildung 11b) umfasst nicht alle Nachkommen einer Stammart. Ein
Beispiel sind die Reptilien. Traditionell schließen sie nur die Schild
kröten, Eidechsen und Krokodile ein. Dagegen gehören die Vögel
nicht zu den Reptilien, obwohl sie die nächsten Verwandten der Kro
kodile sind (Archosaurier).
Eine polyphyletische Gruppe (Abbildung nc) umfasst Arten oder
Taxa, die nicht direkt verwandt sind, sondern aus zwei oder mehr Ent
wicklungslinien stammen. Aufgrund von Konvergenz in bestimm
ten, meist morphologischen Merkmalen, wurden sie in eine Gruppe
zusammengefasst. So bilden etwa die Geier der Alten Welt und der
Neuen Welt eine polyphyletische Gruppe. Die jeweilige Schwester
gruppe sind die Störche beziehungsweise die Greifvögel. Die Geier
der Alten und Neuen Welt sind sich aber darin ähnlich, dass sie Aas
fresser sind, einen typischen Hakenschnabel haben und ihr Kopfge
fieder reduziert ist.
Ungewurzelte Bäume haben keine Zeitachse, so dass die Vorfah
ren-Nachkommen-Beziehungen nicht geklärt sind. Zur Berechnung
der Bäume erzeugen viele Computerprogramme nur ungewurzelte
Bäume. Ein Ausweg ist die Einbeziehung einer Außengruppe.
Ein Beispiel hierfür ist der ungewurzelte Baum für Mensch, Schim
panse, Gorilla und Orang-Utan in Abbildung 12. Er hat fünf Kanten
(i bis 5). Soll hieraus ein gewurzelter Baum entstehen, kann die Wur
zel an jede der fünf Kanten platziert werden. Vier der fünf Wurzelun
gen sind aber biologisch sinnlos, da Mensch, Schimpanse und Gorilla
im Verhältnis zum Orang-Utan eine monophyletische Gruppe sind,
die sich aus einer gemeinsamen Stammart entwickelt haben. Wenn
also bekannt ist, dass eine Gruppe von Organismen monophyletisch
ist, so kann, durch Hinzufügen einer weiteren Art, die nicht diesem
Monophylum angehört, der Baum gewurzelt werden. Diese Art wird
29
Eine kleine Baumschule
Abb.11: Mögliche Schwestergruppen-Beziehungen in einem Baum
30
Die Zahl der Bäume
Abb.12: Gewurzelte und ungewurzelte Bäume. Aus einem ungewurzelten Vier
Sequenzen-Baum lassen sich fünf gewurzelte Bäume ableiten. Die Anzahl gewur
zelter Bäume resultiert aus der Zahl der Kanten (1-5). M = Mensch, S = Schimpan
se, G = Gorilla, O = Orang-Utan.
als Außengruppe bezeichnet. Der Orang-Utan ist daher die Außen
gruppe für Mensch, Schimpanse und Gorilla.
Die Zahl der Bäume
Die Rekonstruktion eines phylogenetischen Baumes ist ein immen
ses Problem, weil allein schon die Anzahl der möglichen Verzwei
gungsmuster mit der Anzahl der untersuchten Organismen expo
31
Eine kleine Baumschule
nentiell wächst. Interessieren nur zwei Sequenzen, zum Beispiel von
Mensch und Schimpanse, so gibt es lediglich einen einzigen Baum
(Abbildung 13, Mitte oben). Wird als dritte Sequenz der Gorilla einbe
zogen (schwarzer Pfeil in Abbildung 13), gibt es - unter der Annahme,
dass keine Information über die Lage der Wurzel vorliegt - auch nur
einen Baum. Sobald als vierte Sequenz der Orang-Utan hinzukommt,
entstehen jedoch drei mögliche Bäume (grüne Pfeile in Abbildung^).
Die Topologie der drei ungewurzelten Vier-Spezies-Bäume hängt da
von ab, an welche Kante diese Sequenz eingefügt wird. Für eine fünfte
Sequenz, etwa die des Gibbon, stehen dann drei Bäume mit jeweils
fünf Kanten zur Verfügung. (In Abbildung 13 sind nur die fünf
Bäume für die untere Gruppe eingezeichnet.) Somit können für fünf
Sequenzen insgesamt 15 verschiedene Fünf-Spezies-Bäume (mit sie
ben Kanten) erzeugt werden. Für eine sechste Sequenz stehen dann
15 Bäume mit je sieben Kanten zur Verfügung, so dass insgesamt 105
Sechs-Spezies-Bäume erzeugt werden können. Für zehn Sequenzen
gibt es bereits 2 027 025 verschiedene Verzweigungsmöglichkeiten.
Für 22 Sequenzen stehen 3,2-io23 Bäume zur Auswahl und jeder muss
als mögliche Hypothese über die Verwandtschaftsverhältnisse ge
prüft werden. Allgemein berechnet sich die Zahl der Bäume für n›3
Sequenzen aus der Formel
B(n) = 1 · 3 · 5 · ... · (2n–5).
4 MOLEKULARE PHYLOGENIE
Die Evolution einer DNA-Sequenz als Träger der Erbinformation und
als Bote dieser Information in die nächste Generation erfordert El
tern und Nachkommen dieser Eltern. Durch den lückenlosen Fortbe
stand einer Ahnenreihe, auch Linie genannt, können die jeweiligen
Gene beziehungsweise DNA-Sequenzen »weiterleben« und ihre Ge
32
Molekulare Phylogenie
Abb.13: Genese von ungewurzelten Bäumen am Beispiel der Primaten (M =
Mensch, S = Schimpanse, G = Gorilla, O = Orang-Utan und B = Gibbon). Für zwei
Sequenzen (M, S) gibt es nur eine Topologie, den Zwei-Sequenzen-Baum. Auch drei
Sequenzen (M, S, G) lassen sich nur in einem einzigen Baum darstellen. Vier
Sequenzen ergeben drei mögliche Topologien, nämlich (M,S)(G,O), (M,O)(G,S) und
(O,S)(M,G) mit jeweils fünf Kanten. Wird eine fünfte Sequenz (B) einbezogen, kann
diese an jeder Kante eingefügt werden, so dass es insgesamt 15 mögliche Topolo
gien gibt.
33
Molekulare Phylogenie
S.115
S.105
schichte an nachfolgende Generationen weitergeben. Hat ein Indivi
duum keine Nachfahren, stirbt dessen Linie aus und mit ihr gehen
alle in der DNA enthaltenen Informationen verloren. Ausgehend von
einer heutigen Sequenz lassen sich daher kontinuierliche Ahnenrei
hen rückwärts in der Zeit konstruieren, von einer Generation zur vor
herigen.
Die heutigen DNA-Sequenzen sind jeweils das Produkt ihrer indivi
duellen Ahnenreihe (»Fossile DNA«). So unterschiedlich Lebewesen
auch sind, letztlich gehen sie auf einen gemeinsamen Ursprung zu
rück. Daher werden DNA-Sequenzen verschiedener Individuen frü
her oder später auf eine gemeinsame Vorfahr-Sequenz treffen. Man
sagt auch, bei einer rückwärtigen Verfolgung in die Vergangenheit
verschmelzen die Linien, was im Englischen durch den Begriff Coales
cent ausgedrückt wird. Diese sehr abstrakt und vage anmutende Be
hauptung findet eine formale Rechtfertigung in der Populationsge
netik (Coalescent-Prozess).
Rezente DNA-Linien verschmelzen »beim Marsch in die Vergan
genheit«, bis nur noch eine DNA-Linie vorhanden ist. Das ist der
jüngste gemeinsame Vorfahre aller Linien, der most recent common ancestor, kurz MRCA. In Abbildung 14 ist die Phylogenie von sechs
heutigen RNA-Sequenzen Si bis S6 dargestellt. Dabei stehen Si für
die Sequenz des Menschen, S2 für die Bäckerhefe, S3 für die Nackt
samer-Pflanze Gnetum, S4 für ein Halobakterium, S5 für eine Blaual
ge und S6 für das Bakterium Escherichia coli. Begibt man sich in dem
Baum dieser sechs Taxa entgegen der Zeitachse, trifft man in der Ver
gangenheit (ganz links) auf den MRCA der dargestellten sechs
Sequenzen.
Der Prozess kann auch von der Vergangenheit in die Gegenwart
betrachtet werden: Ausgehend von einem einzigen Vorfahren, dem
MRCA, spalten sich die Linien im Laufe der Zeit in dessen Nachkom
men auf. Dieser Vorgang wird als Divergenz bezeichnet. Im phyloge
netischen Kontext heißt dies, dass sich die Nachkommen einer
34
Molekulare Phylogenie
Abb.14: Divergenz und Coalescent als komplementäre Prozesse in einem Sequenz
baum. Der Baum (links) zeigt die geschichtliche Verwandtschaft zwischen den
Sequenzen: Die grünen Kreise stehen für hypothetische Vorfahr-Sequenzen. Die
weißen Kreise repräsentieren Vorfahr-Sequenzen, die keine heutigen Nachfahren
haben. Die sechs Sequenzen (rechts) mit einer Länge von 24 Basenpaaren (Zahlen
über dem Alignement) sind ein Ausschnitt eines viel längeren Alignements mit
2335 Basenpaaren je Sequenz. Schwarz dargestellte Nukleotide weichen von dem
häufigsten Nukleotid an der entsprechenden Position ab. * zeigt nicht-variable
Spalten an.
gemeinsamen Stammart durch unterschiedlich verlaufende, zur Art
bildung führende Entwicklung voneinander unterscheiden.
Mit der Zeit werden Substitutionen, Insertionen und Deletionen
die ursprüngliche Sequenz graduell verändern. Diese Änderungen
werden über die Ahnenreihe an die rezenten Sequenzen weiterge
geben. In einem multiplen Sequenzalignement sind sie als variable
Spalten sichtbar, in Abbildung 14 sind dies zum Beispiel die Spalten 1
bis 7, 9,14,15 und weitere.
35
Molekulare Phylogenie
Abb.15a: Beispiel für vier Sequenzen mit je 11 Nukleotiden.
S.112
Die Aufgabe der molekularen Phylogenie ist es, anhand des multi
plen Alignements die nicht beobachtbare Evolutionsgeschichte der
Sequenzen zu rekonstruieren. Einen auf Sequenzen basierenden
Baum nennen wir hier Sequenz-Baum oder Gen-Baum, auch wenn
ihm keine kodierenden Sequenzen zugrunde liegen (siehe im Gegen
satz dazu Ein nicht sequenzbasierter Ansatz zur Aufklärung der Phy
logenie). Um unter den möglichen Bäumen einen geeigneten Baum
zu ermitteln, ist die Definition eines Qualitätskriteriums notwendig.
Die Mathematiker sprechen von einer Zielfunktion. Sie gibt für jeden
der möglichen Bäume an, wie gut er das Kriterium erfüllt. Die Auf
gabe besteht nun darin, ein Rechenschema zur Auswertung der Ziel
funktion anzugeben und dann den besten Baum zu finden. Aus der
Vielzahl möglicher Zielfunktionen werden drei populäre Kriterien
und die dazugehörigen Methoden vorgestellt.
Maximum-Parsimonie
Unter dem Gesichtspunkt einer maximalen Sparsamkeit wählt man
den Baum als besten aus, der die Variabilität in einem Alignement
mit der minimalen Anzahl an Substitutionen erklärt. Nach dem
36
Maximum-Parsimonie
Abb.15b: Die drei Möglichkeiten für ungewurzelte Vier-Sequenzen-Bäume.
c-e: Parsimonische Interpretation für die Spalten 2, 11 und 6. Grüne Kanten zeigen
Substitutionen an.
37
Molekulare Phylogenie
lateinischen parsimonia für Sparsarnkeit heißt dieses Kriterium Maxi
mum-Parsimonie-Kriterium.
Maximum-Parsimonie wurde schon früh zur Baumrekonstruktion
vorgeschlagen. Inzwischen gibt es zahlreiche Modifikationen des
Grundalgorithmus, die aber alle mit dem Problem des Beweises der
Minimalität des gefundenen Ergebnisses kämpfen. Als philosophi
sche Rechtfertigung für das »Prinzip der Sparsamkeit« wird oft der
mittelalterliche Scholastiker William of Ockham (1290-1349) heran
gezogen. Seiner Auffassung nach ist eine Hypothese die beste, wenn
sie nur so wenig Annahmen wie möglich macht. Das (evolutionäre)
Parsimonie-Prinzip geht also davon aus, dass die Evolution von einer
Ursequenz mit möglichst wenig Nukleotidaustauschen zu einer
heutigen Sequenz stattfand. Ob dies eine realistische Annahme über
den Verlauf der Evolution ist, bleibt gerade für DNA - oder Aminosäu
re-Sequenzen eine unbeantwortete Frage. Möchte man sich nicht
auf ideologische Vorstellungen berufen, so genügt als Begründung
für das Sparsamkeitsprinzip die biologische Beobachtung, dass Sub
stitutionen im Aligemeinen sehr seltene Ereignisse sind und es
unwahrscheinlich ist, dass die gleiche Position mehrfach mutiert.
Wie lässt sich die Anzahl an Substitutionen berechnen? Vereinfa
chend wird zunächst vorausgesetzt, dass alle Positionen im Aligne
ment unabhängig voneinander evolvieren. Die Gesamtzahl an Sub
stitutionen eines Baumes ist somit die Summe der Basenaustausche
pro Position. Die Berechnung der Substitutionen wird zur besseren
Übersichtlichkeit vorerst für nur vier Sequenzen erklärt (Abbildung
15a), für die es drei ungewurzelte Bäume gibt (Abbildung 165b).
Spalte 1 und Spalte 10 sind nicht variabel, dem Parsimonie-Prinzip
folgend sind diese Positionen nicht mutiert. In Spalte 2 weicht die
Sequenz 1 (G) von den drei anderen Sequenzen (C) ab. Das Maximum
Parsimonie-Prinzip erfordert immer die kleinste Anzahl von Substi
tutionen. Unabhängig von der Wahl des Baumes (Abbildung 15c) gibt
es nur eine Substitution (grün dargestellte Kante), wenn man an den
38
Maximum-Parsimonie
Abb.16: Das Prinzip des Neighbor-Joining für die sechs Sequenzen Si - S6 aus
Abb.13.
a) Die sternförmige Phylogenie als Ausgangspunkt, ›V‹ ist die hypothetische Vor
fahr-Sequenz
b) Gruppierungvon S5 und S6 (›A‹ als hypothetischer Vorfahr)
c) Gruppierung von ›A‹ und S4 (›ß‹ als hypothetischer Vorfahr)
d) Gruppierung von Si und S2 (›C‹ als hypothetischer Vorfahr)
39
Molekulare Phylogenie
inneren Knoten ein C annimmt. Bei dem Maximum-Parsimonie-Prin
zip sind solche Spalten phylogenetisch nicht informativ, denn sie
können aufgrund der gleichen Anzahl an Substitutionen keinen
Baum als den sparsamsten bestimmen. Die gleiche Situation trifft
für die Spalten 3,4 und 5 zu. Setzt man an die inneren Knoten ein T
(Spalte 3) beziehungsweise A (Spalten 4 und 5), ist wiederum nur
jeweils ein Basenaustausch erforderlich, um das Sequenzmuster in
dieser Spalte zu erklären. Auch hier hat die Baumtopologie keinen
Einfluss auf die Anzahl an Substitutionen. In Spalte 11 erfordert das
Sparsamkeitsprinzip für die zwei inneren Knoten jeweils ein T (Ab
bildung i5d). Dann werden für jeden der drei Bäume zwei Substitu
tionen (zwei grün dargestellte Kanten) benötigt. Daher ist auch die
se Spalte phylogenetisch nicht informativ.
Interessant werden erst die Spalten 6,7,8 und 9. Je nach gewählter
Baumtopologie erfordern diese unterschiedlich viele Substitutionen.
Diese Spalten sind somit phylogenetisch informativ. Abbildung 15c
zeigt beispielhaft die Situation für Spalte 6. Man erkennt: Baum 1 be
nötigt eine Substitution, Baum 2 und Baum 3 brauchen jeweils zwei
Substitutionen.
Die Gesamtzahl an Substitutionen für das komplette Alignement
mit seinen 11 Spalten in Abbildung 15a berechnet sich wie folgt:
Baum 1: 0+1+1+1+1+1+1+2+2+0+2 = 11 Substitutionen
Baum 2: 0+1+1+1+1+2+2+2+1+0+2 = 13 Substitutionen
Baum 3: 0+1+1+1+1+2+2+1+2+O+2 = 13 Substitutionen
Damit ist für das vorliegende Alignement Baum 1 der sparsamste
oder der Maximum-Parsimonie-Baum.
Nach diesem einfachen Beispiel mit nur vier Sequenzen soll der
Maximum-Parsimonie-Baum für die sechs Sequenzen in Abbildung
14 ermittelt werden. Hierfür muss die Anzahl der Substitutionen für
alle 105 möglichen Gen-Bäume berechnet werden. Dies ist nur mit
Computerprogrammen möglich. Werden diese Bäume nach dem
40
Distanzbasierte Methoden
Maximum-Parsimonie-Kriterium bewertet, so zeigt sich, dass die
kleinste Anzahl an Substitutionen 25 ist. Davon gibt es aber fünf
Bäume. Es lässt sich nun keine weitere Aussage darüber treffen, wel
cher dieser fünf Bäume die »wahre« Phylogenie widerspiegelt. An
ders ist das Ergebnis, wenn von den sechs Sequenzen alle 2335
Basenpaare (in der Abbildung nicht gezeigt) in die Rechnung einbe
zogen werden. Dann gibt es nur einen einzigen Maximum-Parsimo
nie-Baum. Dies zeigt, dass sich die Beziehungen zwischen den
Sequenzen nur verlässlich rekonstruieren lassen, wenn es viele Se
quenzinformationen (lange Sequenzen mit Tausenden von Basen-
paaren) gibt.
Da mit der Anzahl der Sequenzen die Anzahl der Bäume exponen
tiell wächst, ist ein systematisches Evaluieren aller Möglichkeiten für
nur zehn Sequenzen (2027025 Bäume) selbst mit sehr schnellen
Computern und vertretbarem Zeitaufwand kaum noch möglich. Um
dennoch sparsame Bäume für möglichst viele Sequenzen zu rekon
struieren, werden so genannte heuristische Suchverfahren einge
setzt. Dabei wird mit einem beliebigen Startbaum begonnen und
die Anzahl an Substitutionen berechnet. Anschließend wird die To
pologie des Startbaumes zufällig geändert und die Anzahl der Sub
stitutionen für den neuen Baum bestimmt. Ist die Zahl kleiner, wird
das Verfahren mit dem neuen Baum wiederholt. Ist die Zahl größer,
wird auf den ursprünglichen Baum zurückgegriffen und dieser er
neut geändert. Der kürzeste gefundene Baum wird als Parsimonie-
Baum bezeichnet. Mit diesem Verfahren, von dem es viele Varianten
gibt, lassen sich auch für viele hundert Sequenzen Parsimonie-
Bäume bestimmen.
Distanzbasierte Methoden
Bei zwei weiteren Kriterien finden die von Joseph Louise Lagrange
(1736-1813) und Carl Friedrich Gauß (1777-1855) entwickelten Me
41
Molekulare Phylogenie
S.110
thoden der mathematischen Ausgleichsrechnung für Näherungs
werte Eingang in die Welt der molekularen Evolution. Im Mittel
punkt stehen dabei das Gauß'sche Prinzip der kleinsten Quadrate
und das von Ronald A. Fisher (1890-1962) explizit eingeführte Maxi
mum-Likelihood-Prinzip.
Auf dem Prinzip der kleinsten Quadrate beruhen Distanzverfahren.
Für die Rekonstruktion eines Gen-Baumes aus einem Alignement
ermitteln diese Verfahren die evolutionäre Distanz (d) der Sequen
zen in einem Baum und die berechnete Distanz (e) zweier Sequen
zen. Für jeden Baum bildet man von den Differenzen dieser Distan
zen die Quadrate, summiert diese und fragt nach dem Baum mit der
kleinsten Summe für diese Quadrate. Der optimale Baum hat die
kleinste Summe.
In mathematischer Schreibweise nehmen diese Überlegungen die
folgende Form an: Distanzbasierte Methoden berechnen die Distanz
dij (Jukes-Cantor-Modell) für alle Sequenzpaare {i,j} eines Aligne
ments. Das Ergebnis ist eine Distanzmatrix (Tabelle 2). Aus dieser Ma
trix wird ein Baum rekonstruiert, der die Anzahl der Substitutionen,
das heißt die Distanz zwischen allen Sequenzpaaren, wiedergibt.
Was bedeutet »die Distanz zwischen allen Sequenzpaaren wieder
geben«? In einem Baum gibt es stets einen eindeutigen Weg oder
Pfad, der zwei endständige Taxa, vertreten durch die Sequenzen i und j, miteinander verbindet. Auf diesem Weg hat jede Kante eine
bestimmte Länge, beispielsweise die Anzahl an Substitutionen. Die
Summe der Substitutionen, die evolutionäre Distanz eij eines Se
quenzpaares {i,j}, sollte im Idealfall gleich der berechneten Distanz
dij dieses Sequenzpaars sein.
Ein Baum ist dann optimal, wenn die evolutionäre Distanz aller Se
quenzpaare nur geringfügig von den Einträgen in der Distanzmatrix
abweicht. Da die berechnete Distanz dij immer nur eine Annäherung
an die unbekannte evolutionäre Distanz eij ist, wird der Betrag der
Abweichung dy-ey fast immer größer Null sein. Eine Möglichkeit, die
42
Distanzbasierte Methoden
Tabelle 2: Distanzmatrix für die Sequenzen Si bis S6 aus Abbildung 13. Der untere
Teil der Matrix zeigt die Anzahl der beobachteten Unterschiede für den in Abbil
dung 13 dargestellten Sequenzausschnitt von 24 Basenpaaren, der obere Teil die
Anzahl der Unterschiede für das gesamte Alignement mit 2335 Positionen.
Abweichung der evolutionären Distanzen für einen Baum T von der
Distanzmatrix zu quantifizieren, ist das Kriterium der kleinsten Qua
drate R(T) mit
Der optimale Baum hat den kleinstmöglichen Wert R. Für drei Sequenzen gibt es nur einen Baum mit drei Kanten. Aus
den Distanzen d12, d13, d23 (grüne Linien) lassen sich die optimalen
Kantenlängen k1, k2, k3 (schwarze Linien) des Baumes wie folgt be
rechnen:
k1 = 1/2 (d12 + d13 – d23)
k2 = 1/2 (d12 + d23 – d13)
k3 = 1/2 (d13 + d23 – d12)
43
Molekulare Phylogenie
Setzt man die evolutionären Distanzen e12 = k1 + k2, e13 = k1 + k3 und
e23 = k2 + k3, so wird R(T) = 0. Für vier oder mehr Sequenzen ist R(T) im
Allgemeinen größer Null. Die Berechnung von R(T) für einen Baum T ist mit Methoden der mathematischen Optimierung relativ einfach.
Es ist jedoch unmöglich, alle Bäume zu evaluieren und den Baum mit
minimaler quadratischer Abweichung zu finden. Daher werden wie
bei Maximum-Parsimonie auch bei den distanzbasierten Methoden
Näherungsverfahren angewendet.
Das bekannteste solcher approximativer Verfahren ist das Neigh
bor-Joining, was sich als »Zusammenfügen der nächsten Nachbarn«
übersetzen lässt. Neighbor-Joining ist ein Clusterungs- oder Grup
pierungsverfahren: Ähnliche Paare von Sequenzen werden zu einer
Gruppe (einem Cluster) zusammengefasst und anschließend wie
ein Taxon behandelt. Als Qualitätskriterium dient die Gesamtlänge
L(T) des Baumes T. Das ist die Summe aller Kantenlängen, die mit
dem Prinzip der kleinsten Quadrate geschätzt wurden. Ziel ist es, ei
nen Baum mit möglichst kleiner Gesamtlänge L(T) zu finden. Dieses
Qualitätskriterium wird Minimale Evolution genannt.
Im Folgenden wird das Neighbor-Joining auf das Beispiel der sechs
Sequenzen in Abbildung 15 angewandt, wobei alle 2335 Basenpaare
in die Rechnung einbezogen werden. Ausgangspunkt für das Neigh
bor-Joining ist ein sternförmiger Gen-Baum (Abbildung 16a). Die
sechs Sequenzen Si bis S6 stammen von derselben Vorfahr-Sequenz
›V‹ ab.
Basierend auf der Distanzmatrix (Tabelle 2) wird anschließend am
Computer die Länge aller Bäume berechnet, in denen zwei Sequen
zen einen von ›V‹ verschiedenen Vorfahren haben. Aus diesen Bäumen
wird der kürzeste Baum ausgewählt. In dem Beispiel in Abbildung
i6b ergibt die Computerrechnung für die Gruppierung der
Sequenzen S5 und S6 den kürzesten Baum. Die Sequenzen S5 und S6
sind nun Nachbarn. Ihr hypothetischer Vorfahr wird ›A‹ genannt. In
der weiteren Computeranalyse wird das Cluster S5 und S6 durch ›A‹
44
Maximum-Likelihood
ersetzt. Der Datensatz für die weiteren Rechnungen verringert sich
damit um eine Sequenz.
Mit den verbleibenden fünf »Sequenzen« S1, S2, S3, S4, ›A‹ beginnt
die Prozedur von neuem. Es wird wiederum zuerst das Cluster aus
zwei Sequenzen gesucht, das den kürzesten Baum ergibt. Für die
fünf Sequenzen wird der kürzeste Baum bei der Gruppierung der
Sequenzen ›A‹ und S4 gefunden. Deren hypothetischer Vorfahr wird
›B‹ genannt (Abbildung 16c). Damit reduziert sich der Datensatz auf
vier Einträge, nämlich S1, S2, S3, ›B‹.
Im folgenden Schritt werden die Sequenzen Si und S2 gruppiert
und durch ›C‹ ersetzt (Abbildung i6d). Der Baum ist damit vollständig
aufgelöst und das Neighbor-Joining-Verfahren beendet.
Neighbor-Joining ist ein schnelles Verfahren zur Baumrekonstruk
tion. Es ist möglich, bis zu 300 Sequenzen in einen Neighbor-Joining-
Baum umzurechnen. Es lässt sich aber nicht überprüfen, ob der
gefundene Baum der optimale Baum ist. Simulationsstudien zeigen,
dass Neighbor-Joining mit großer Wahrscheinlichkeit den richtigen
Baum rekonstruiert.
Maximum-Likelihood
Maximum-Likelihood-Methoden versuchen, unter den möglichen
Bäumen und einem Modell der Sequenzevolution den Baum zu
bestimmender mit höchster Wahrscheinlichkeit zu den beobachte
ten Sequenzen führt. Dieser Baum wird der Maximum-Likelihood-
Baum genannt.
Für das zugrunde liegende Prinzip wird zunächst auf das einfache
Alignement aus vier Sequenzen in Abbildung 15a und Baum 1 (Abbil
dung 15b) zurückgegriffen. Jede der elf Spalten wird zuerst einzeln
betrachtet.
Spalte 1 hat das Muster AAAA. Theoretisch kann an den inneren
Knoten des Baumes 1 jeweils eines der vier Nukleotide A,C,G,T ste
45
Molekulare Phylogenie
S.110
hen. Welche Kombination von Nukleotiden ist die wahrscheinlichs
te? Zunächst wird ein Modell der Sequenzevolution ausgewählt,
etwa das Jukes-Cantor-Modell. In diesem Modell ist die Wahrschein
lichkeit P, dass ein Nukleotid x unverändert erscheint
Pxx(d) = (1/4) + (3/4) · e-4d/3
wobei d die Zahl der Substitutionen ist. Die Wahrscheinlichkeit für
das Auftreten verschiedener Nukleotide x und y ist
PXy(d) = (1/4) – (1/4) · e-4d/3.
Damit kann für Spalte 1 die Wahrscheinlichkeit (P1) für das Muster
AAAA berechnet werden, wenn beide inneren Knoten jeweils das
Nukleotid A tragen und der Baum i mit den Kantenlängen (Substi
tutionen) k1, k2, k3, k4 und k5 bekannt ist. Mathematisch heißt dies
P1(AAAA|AA) = (1/4) {PAA(k1) PAA(k2) PAA(k5) PAA(k3) PAA(k4)} .
Da die Nukleotide x beziehungsweise y an den inneren Knoten nicht
bekannt sind, berechnet sich die gesamte Wahrscheinlichkeit für das
Muster AAAA in Spalte 1 als
P1 = P1(AAAA) = (1/4) P1 (AAAA|xy)}.
Mit den verbleibenden Spalten wird genauso verfahren. Für das
gesamte Alignement (A) mit seinen elf Spalten ist die totale Wahr
scheinlichkeit Ptot über den Baum 1 (T1) und seinen fünf Kanten das
Produkt aus den Wahrscheinlichkeiten für jede einzelne Spalte. Es
gilt also
Ptot (A|T1, k1, k2, k3, k4, k5) = P1 · P2 · P3 · P4 · ... · P11.
In der Realität sind aber weder der Baum noch seine Kantenlängen
bekannt. Einzig die Sequenzen liegen als Endprodukt der Evolution
vor. Daher wird die letzte Gleichung als Wahrscheinlichkeits- oder
Likelihood-Funktion mit den Parametern Baumtopologie und Kan
46
Maximum-Likelihood
tenlänge bezeichnet. Sie ermittelt für jede Kombination von Para
metern die Cesamtwahrscheinlichkeit. Gesucht ist nun die Parame
terkombination, bei der die Likelihood-Funktion maximal wird.
Der in Abbildung 14 dargestellte Baum (links) ist der Maximum
Likelihood-Baum für sechs Sequenzen, wenn das gesamte Aligne
mentvon 2335 Basenpaaren zugrunde gelegt wird. Werden hingegen
nur die 24 dargestellten Spalten analysiert, ist der aus dieser kleinen
Anzahl resultierende Baum biologisch unsinnig. Schon dieses kleine
Beispiel mit sechs Sequenzen macht deutlich, welche Herausforde
rung die Maximum-Likelihood-Methode darstellt. Dank schneller
Computer und der Entwicklung intelligenter Suchstrategien können
derzeit Maximum-Likelihood-Bäume für bis zu fünfzig Sequenzen
berechnet werden. Für eine realistische Anwendung ist dies aber
noch zu wenig.
Der erhöhte Aufwand der Maximum-Likelihood-Methoden ist
aber gerechtfertigt, da nun erstmals das methodische Inventar der
Statistik für die weitere Analyse zur Verfügung steht. Der Vergleich
der Maximum-Likelihood-Werte für verschiedene Modelle der Se
quenzevolution erlaubt eine gesicherte Aussage darüber, welches
Modell das bessere ist. Vereinfacht gilt: Je größer der Likelihood-Wert
ist, desto wahrscheinlicher spiegelt das gewählte Modell für einen
bestimmten Baum die Evolution der Sequenzen wider. Darüber hin
aus liefern Maximum-Likelihood-Methoden wichtige Informationen
über die evolutionären Parameter der Sequenzen. Sie geben zum Bei
spiel Antworten darauf, welche Spalten im Alignement schnell und
welche langsam evolvieren oder wie groß das Transitions-Transver
sions-Verhältnis ist. Es wird also nicht nur ein Gen-Baum rekonstru
iert, sondern zusätzlich ein Evolutionsmodell für das Alignement
vorgeschlagen.
47
Molekulare Phylogenie
Experimentelle und theoretische Phylogenien
Es wurden drei Verfahren zur Baumrekonstruktion vorgestellt, um
aus einem Sequenzalignement einen Baum zu rekonstruieren. Die
ungeklärte Frage ist jedoch, ob der rekonstruierte Baum mit der tat
sächlichen Phylogenie der Sequenzen übereinstimmt. Wie in jeder
naturwissenschaftlichen Disziplin gibt es zwei potentielle Fehler
quellen: Der erste Fehler ist der zufällige Fehler (random error), der
auftritt, weil nur ein endliches Alignement zur Verfügung steht. Die
ser Fehler kann durch die Vergrößerung der Stichprobe (längere
Sequenzen) minimiert werden. Der zufällige Fehler wurde am Bei
spiel der sechs Sequenzen in Abbildung 14 bereits demonstriert. Nur
aus hinreichend langen Sequenzen lassen sich biologisch sinnvolle
Bäume rekonstruieren. Der zweite Fehler ist der systematische Feh
ler (systematic error). Er tritt dann auf, wenn beispielsweise das
gewählte Modell der Sequenzevolution nicht mit den Daten über
einstimmt. Unabhängig von der Art des Fehlers kann ein rekonstru
ierter Gen-Baum falsch sein, weil die Verzweigungsstruktur (Topolo
gie) nicht stimmt oder die Kantenlängen falsch geschätzt wurden.
Solche Fehler sind in der Regel nicht aufzudecken, da das Evolu
tionsgeschehen und somit das Entstehen eines Gen-Baumes nicht
beobachtet wird. Eine Ausnahme ist die »Sequenzevolution im Rea
genzglas«. Im Labor lassen sich zum Beispiel Viren über mehrere tau
send Generationen kultivieren. Durch Zugabe von Mutagenen, die
künstlich die Mutationsrate erhöhen, werden experimentelle Phylo
genien erzeugt.
Forscher erstellten mit acht Taxa die in Abbildung 17 gezeigte Phy
logenie. Um den Baum zu wurzeln, wurde ein weiteres Taxon als Au
ßengruppe hinzugezogen (in Abbildung 17 nicht gezeigt). Für die
neun Sequenzen gibt es 135135 Bäume. Die Wahrscheinlichkeit, aus
diesen Tausenden von Bäumen die »wahre« Phylogenie zu erraten,
ist verschwindend gering. Bei der computergestützten Rekonstruk
48
Experimentelle und theoretische Phylogenien
Abb.17: Experimentelle Phylogenie des Bakteriophagen T7. Acht Taxa (1-8) des Bak
teriophagen T7 wurden im Labor gezüchtet. Die Mutationsraten wurden künstlich
erhöht. Die Wurzel des Baumes W repräsentiert den Wildtyp, von dem die Experi
mente ausgehen. Die Kantenlängen sind proportional zur Anzahl der Substitutio
nen (Zahlen an den Kanten). Um den Baum zu wurzeln, wurde in die Rechnung
eine Außengruppe hinzugezogen, die aber nicht dargestellt ist.
tion der Phylogenie ermittelten zwar alle Verfahren die richtige To
pologie, aber keine Methode bestimmte die richtigen Kantenlängen.
Dies zeigt, dass auch bei realen, biologischen Daten die Kantenlän
gen möglicherweise einem gewissen Fehler unterworfen sind.
Da das Erstellen experimenteller Phylogenien sehr aufwändig ist,
wird die Verlässlichkeit der Baumrekonstruktionsverfahren auch an
hand theoretischer Phylogenien überprüft. Dabei wird ein Gen-
Baum vorgegeben, für den dann die Sequenzevolution auf dem Com
puter simuliert wird. Das Ergebnis dieser »künstlichen Evolution« ist
ein simuliertes Sequenzalignement, das anschließend mit verschie
49
Molekulare Phylogenie
denen Methoden der Baumrekonstruktion untersucht wird. Somit
lassen sich unterschiedliche Evolutionsszenarien für verschiedene
Baumrekonstruktionsverfahren evaluieren. Hierbei treten Unter
schiede in der Verlässlichkeit der einzelnen Methoden für die Baum
rekonstruktion zutage.
Mit der Untersuchung theoretischer Phylogenien gelang dem ame
rikanischen Wissenschaftler Joe Felsenstein eine sehr bedeutende
Entdeckung. Sie heißt heute nach ihrem Entdecker die Felsenstein
zone. Diese Zone kennzeichnet den Bereich, in dem Methoden zur
Baumrekonstruktion einen systematischen Fehler aufweisen, wobei
die Ausdehnung und Lage der Zone von der jeweiligen Methode
abhängen. Abbildung 18c zeigt eine solche Felsensteinzone für das
Maximum-Parsimonie-Prinzip. Wie kommt die dort dargestellte
Zone zustande und welche Aussage macht sie?
Dem Computer werden folgende Informationen vorgegeben (Ab
bildung i8a): eine theoretische Phylogenie mit den vier Taxa 1 bis 4
und eine Kombination von zwei Kantenlängen (k1 und k2). Die innere
Kante des Baumes sowie die Kanten zu den Sequenzen 2 und 4 sind
dabei gleich lang (k1), ebenso die Kantenlängen der Sequenzen 1 und
3 (k2). Für die zwei Kantenlängen k1 und k2 wird ein k1-k2-Diagramm
erstellt.
Dann wird am Computer die Sequenzevolution simuliert, wobei
jede Kombination der Kantenlängen (k1, k2) erlaubt ist. Um den zufäl
ligen Fehler der Baumrekonstruktion klein zu halten, sind die simu
lierten Sequenzen möglichst lang. Anschließend wird aus diesem
Alignement der Maximum-Parsimonie-Baum berechnet (zum Bei
spiel Abbildung 18b) und mit der theoretischen Phylogenie (Abbil
dungi8a) verglichen.Sind die Bäume verschieden,wird im Diagramm
für das zugehörige k1-k2-Wertepaar ein grüner Punkt eingetragen.
Stimmen sie überein, wird kein Punkt eingetragen.
Die Simulationen werden Tausende Male wiederholt. Die Menge
aller grünen Punkte im k1-k2-Diagramm ergibt die Felsensteinzone.
50
Experimentelle und theoretische Phylogenien
Abb.18: Die Felsensteinzone
a) Eine theoretische Phylogenie mit vier Taxa (1-4) und zwei unterschiedlichen
Kantenlängen (k1 und k2)
b) Rekonstruierter Maximum-Parsimonie-Baum, basierend auf einem simulierten
Sequenzalignement.
c) Der Parameterraum der Kantenlängen k1 und k2. Die grün schattierte Region ist
die Felsensteinzone, in der ein falscher Baum rekonstruiert wird.
Diese Zone kennzeichnet die Region im theoretischen Raum aller
Kantenlängen eines Baumes, in der Maximum-Parsimonie einen sys
tematischen Fehler aufweist. Ist k2 deutlich größer als k1, so wird der
in Abbildung i8b dargestellte Baum rekonstruiert werden. Das heißt,
Sequenzen mit hoher Substitutionsrate werden zu einem Cluster
zusammengefasst. Dieses Phänomen wird als »Anziehungskraft
zwischen langen Kanten« (long-branch-attraction) bezeichnet.
Felsensteinzonen, also systematische Fehler, gibt es bei jeder
Methode zur Baumrekonstruktion. Für distanzbasierte Rekonstruk
51
Molekulare Phylogenie
tionsverfahren ist bekannt, dass sie bei mangelnder Korrektur für
multiple Substitutionen fehlerhaft werden. Es bleibt eine spannende
Frage der molekularen Evolutionstheorie, die Felsensteinzone auch
für andere Methoden zu charakterisieren.
Auch in biologischen Daten gibt es aufgrund der »Anziehungskraft
zwischen langen Kanten« Hinweise auf falsch rekonstruierte Bäu
me. Ein gut untersuchtes Beispiel ist der Stammbaum der Säugetiere
(Sau), Vögel (Vö), Krokodile (Kr) und Eidechsen (Ei). Morphologische
Befunde liefern eindeutige Hinweise, dass Vögel und Krokodile eine
monophyletische Gruppe bilden, die Archosaurier (grün hinterlegt in
Tabelle 3) hingegen werden im Maximum-Parsimonie-Baum der 18S
rRNA-Sequenzen Vögel mit den Säugetieren in eine Schwestergrup
pe eingeteilt.
In Tabelle 3 sind in der linken Spalte und der obersten Zeile die drei
möglichen Phylogenien für die vier Arten vorgegeben, wobei die
Kantenlängen kt und k2 in allen Bäumen gleich bleiben. Die klassi
sche Phylogenie ((Vö,Kr) (Säu,Ei)) ist grün unterlegt. Für jeden der
drei theoretisch möglichen Bäume (linke Spalte) werden Tausende
von Sequenzalignements simuliert und mit der Maximum-Parsimo
nie-Methode die Baumtopologie rekonstruiert (oberste Zeile). In den
fett markierten Kästchen stimmen die theoretische und rekonstru
ierte Topologie überein.
Die erste vorgegebene (theoretische) Topologie ((Kr,Ei) (Vö,Säu))
wird zu 100% von den simulierten Daten rekonstruiert, daher wer
den die anderen zwei Topologien ((Vö,Ei) (Säu,Kr)) und ((Vö,Kr) (Säu,
Ei)) niemals gefunden. Die zweite vorgegebene Topologie wird mit
Maximum-Parsimonie nur in 15% der Fälle richtig rekonstruiert,
während in 80% der Fälle der Baum rekonstruiert wird, bei dem die
zwei langen Kanten (Vö und Säu) zusammenlaufen. Die dritte vorge
gebene Topologie (die klassische Phylogenie) wird sogar nur in 7,5
von hundert Fällen gefunden, die (Vö,Säu)-Topologie macht 85%
aller Fälle aus.
52
Experimentelle und theoretische Phylogenien
Abb.19: Gen-Bäume in Spezies-Bäumen. Die Entwicklung eines Gen-Baums (grün)
findet innerhalb eines Spezies-Baums (schwarz) statt.
Unabhängig von der vorgegebenen (theoretischen) Phylogenie re
konstruiert Maximum-Parsimonie mit hoher Wahrscheinlichkeit den
Baum ((Krokodile, Eidechsen) (Vögel, Säugetiere)). Eine mögliche Er
klärung für diese Diskrepanz liefert die Felsensteinzone. Der Maxi
mum-Parsimonie-Baum, basierend auf 18S rRNA-Sequenzen, hat
zwei lange Kanten (Tabelle 3). Eine Kante führt zu den Vögeln, die
zweite zu den Säugetieren. Krokodile und Eidechsen befinden sich
an kurzen Kanten und sind nur durch eine kurze, innere Kante von
53
Molekulare Phylogenie
Tabelle 3: Drei mögliche Stammbäume für Vögel (Vö), Säugetiere (Säu), Eidechsen
(Ei) und Krokodile (Kr).
Die linke Spalte zeigt die vorgegebenen, theoretischen Phylogenien. Die oberste
Zeile zeigt die mit Maximum-Parsimonie rekonstruierten Topologien, basierend
auf simulierten Sequenzalignements. Die Prozentzahlen geben an, wie oft die vor
gegebene Baumtopologie im simulierten Alignement gefunden wurde. Grün
unterlegt ist die klassische Phylogenie. Die Kantenlängen sind proportional zur
Zahl der Substitutionen und basieren auf 18S rRNA-Sequenzen.
Säugetieren und Vögeln getrennt (siehe Abbildung 18). So sehen
typischerweise Bäume aus, deren Topologie durch long-branchattraction geprägt wurde. Mit Maximum-Parsimonie-Methoden
rutscht die Baumrekonstruktion in die Felsensteinzone, das heißt die
langen Kanten werden als Cluster erkannt, sie ziehen sich an. Die ver
wandtschaftlichen Beziehungen zwischen den vier Gruppen lassen
sich daher anhand der vorliegenden Daten nicht klären.
54
Der Bootstrap
Welche Auswege gibt es aus der Felsensteinzone? Zum einen ist es
hilfreich, weitere Arten in die Analyse aufzunehmen, um die langen
Kanten aufzubrechen. Zum anderen sollten zusätzliche Bereiche des
Genoms sequenziert werden. Dieses Beispiel zeigt, dass Einzelergeb
nisse durchaus fehlerhaft sein können und nicht jede am Computer
berechnete Phylogenie zwangsläufig die »wahre« Evolution wider
spiegelt. Daher ist es auch bei molekularen Merkmalen wichtig,
mehrere Gene oder Sequenzen zu analysieren und die Ergebnisse
mit den Befunden aus der Morphologie oder Verhaltensbiologie ab
zugleichen.
Der Bootstrap
Die phylogenetische Analyse des Datensatzes aus Abbildung 14 hat
gezeigt, dass die Stichprobengröße, also die Länge eines Sequenz
alignements, wesentlich für die verlässliche Rekonstruktion eines
Gen-Baumes ist. Die Frage stellt sich, wie gut der rekonstruierte
Baum die Verwandtschaftsverhältnisse wiedergibt. Wenn die Se
quenzen lang genug sind, sollte im Prinzip der wahre Baum rekon
struiert werden. Was kann getan werden, um den stochastischen
Fehler aufgrund der Stichprobengröße in einer Phylogenie abzu
schätzen? Eine Möglichkeit besteht darin, mehrere Stichproben aus
der Gruppe, an deren Phylogenie man interessiert ist, zu analysieren
und die resultierenden Gen-Bäume zu vergleichen. Die Variation in
der Kollektion der Bäume liefert dann Informationen darüber, wie
stabil beispielsweise eine bestimmte phylogenetische Gruppierung
(Cluster) ist. Da die Bearbeitung vieler Stichproben in der Regel sehr
teuer und zeitaufwändig ist, werden heute so genannte Bootstrap-
Verfahren aus der Statistik angewendet, um den Stichprobenfehler
abzuschätzen. Beim Bootstrap wird eine zufällige Stichprobe durch
wiederholtes Ziehen mit Zurücklegen aus den bereits erhobenen
Daten generiert. Dabei entstehen zahlreiche künstliche Stichproben,
55
Molekulare Phylogenie
die Pseudoreplikate genannt werden. In der phylogenetischen Ana
lyse werden aus einem multiplen Sequenzalignement (zum Beispiel
Abbildung 7 und Abbildung 14) zufällig Spalten ausgewählt, die beim
nachfolgenden Ziehen einer weiteren Spalte erneut zur Verfügung
stehen. Diese Prozedur wird so lange wiederholt, bis die ursprüngli
che Länge des Alignements erreicht ist. Für dieses Pseudoreplikat
wird dann ein Gen-Baum ermittelt. Typischerweise werden auf diese
Weise 1000 bis 10000 Gen-Bäume bestimmt. Kommt ein Cluster in
allen Gen-Bäumen vor, so sagt man, die Gruppierung hat einen Boots-
trap-Wert von 100%; das heißt der Stichprobenfehler ist anschei
nend so klein, dass die rekonstruierte Gruppierung die wahre Phylo
genie der entsprechenden Taxa widerspiegelt. Cluster, die einen
geringeren Bootstrap-Wert haben, typischerweise < 90%, werden
durch die Daten nicht sehr stark gestützt und bedürfen einer weite
ren Analyse durch zusätzliche Sequenzen. Liegt der Bootstrap-Wert
eines Clusters unter 50%, so kann es zu widersprüchlichen Ver
wandtschaftsbeziehungen im Baum kommen. Solche Gruppierun
gen sind dann in einem Gen-Baum mit äußerster Vorsicht zu inter
pretieren.
5 GEN-BÄUME IN DER PHYLOGENIE
Gen-Bäume in Spezies-Bäumen
In einem biologischen Stammbaum soll die Aufspaltung von Arten
(lateinisch spezies) nachgezeichnet werden. Die Artbildung wird in
der Biologie als Phylogenese bezeichnet. »Phylogenese ist die wie
derholte Aufspaltung von Populationen durch irreversible geneti
sche Divergenz und der daraus resultierende Prozess der Entstehung
von Organismengruppen unterschiedlichen Verwandtschaftsgra
des.« Stammbäume werden daher auch Spezies-Bäume genannt.
Ein Spezies-Baum zeigt somit die zeitliche Abfolge der Aufspaltungs
Gen-Bäume in Spezies-Bäumen
Abb.20: Widersprüchliche Säugetier-Phylogenien: a) klassischer Spezies-Baum,
b) Gen-Baum basierend auf komplett sequenzierten Mitochondriengenomen.
ereignisse zwischen verschiedenen Populationen oder Arten. Im Ge
gensatz dazu zeichnet ein Gen-Baum nur die Historie eines Gens
oder eines DNA-Abschnitts nach. Dabei wird in der Fortpflanzungs
gemeinschaft die Weitergabe des Sequenzabschnitts von einem
Individuum auf das nächste rekonstruiert.
Der Gen-Baum entwickelt sich gewissermaßen im Spezies-Baum
(Abbildung 19) und sollte im Idealfall die Abfolge der Aufspaltungs
ereignisse für verschiedene Arten wiedergeben.
In den letzten Jahrzehnten wurden zahlreiche Gen-Bäume erstellt.
Die Analyse einzelner Gen-Bäume führte mitunter zu sehr überra
schenden Ergebnissen, die nicht immer mit den klassischen Spezies-
Bäumen übereinstimmen. Ein prominentes Beispiel sind die ver
wandtschaftlichen Beziehungen zwischen den Säugetieren. Dazu
zählen die Kloakentiere (Schnabeltier und Schnabeligel), die Beutel
tiere und die höheren Säugetiere mit echter Plazenta (Eutheria). Die
klassische Phylogenie nimmt an, dass die Beuteltiere die nächsten
Verwandten der höheren Säugetiere sind; die Kloakentiere hätten
sich demzufolge vorher abgespaltet (Abbildung 20a). Anhand der
57
Gen-Bäume in der Phylogenie
vollständig sequenzierten, mitochondrialen DNA wurde ein alterna
tiver Gen-Baum vorgeschlagen (Abbildung 20b). Der Gen-Baum zeigt,
dass Beuteltiere und Kloakentiere eine Schwestergruppe bilden. Ent
gegen der klassischen Lehre wären demzufolge die Beuteltiere nicht
näher mit den höheren Säugetieren verwandt.
Noch mehr Verwirrung erzeugten die unterschiedlichen Möglich
keiten für einen Gen-Baum von Mensch, Schimpanse und Gorilla
(Abbildung 21). Die Analyse von 45 unabhängigen Genen ergab drei
Gen-Bäume und damit drei Möglichkeiten für Schwestergruppen.
Im Ergebnis von 27 Genanalysen (60%) gehören Mensch und Schim
panse zweifelsfrei einer Schwestergruppe an (Abbildung 21a). Die
alternativen Schwestergruppierungen Schimpanse und Gorilla re
spektive Mensch und Gorilla werden nur von jeweils neun Gen-Bäu
men (20%) unterstützt, die aber ebenfalls hohe Bootstrap-Werte
erhalten. Wie lassen sich diese unterschiedlichen Ergebnisse für die
drei Gen-Bäume von Mensch, Schimpanse und Gorilla erklären?
Widersprüche zwischen Gen-Bäumen und Spezies-Bäumen
Abbildung 22 zeigt in grüner Farbe die drei möglichen Gen-Bäume,
die in dem Spezies-Baum ((Mensch, Schimpanse) Gorilla) vorkom
men können. Für jeden Drei-Spezies-Baum sind zwei Aufspaltungs
oder Artbildungsprozesse notwendig. In dem hier vorgestellten Bei
spiel gehen Paläontologen davon aus, dass sich der Gorilla in einem
1. Artbildungsprozess vor ca. 7-8 Millionen Jahren von der gemein
samen Stammart (Mensch-Schimpanse-Gorilla) abspaltete. Der 2.
Aufspaltungsprozess fand vor ca. 5-6 Millionen Jahren statt. Das
bedeutet, dass die Zeit zwischen dem ersten und zweiten Aufspal
tungsereignis nur sehr kurz war und die gemeinsame Stammart von
Mensch und Schimpanse nur schätzungsweise 1-3 Millionen Jahre
existierte.
58
Widersprüche zwischen Gen-Bäumen und Spezies-Bäumen
Abb.2i: Die drei Gen-Bäume von Mensch, Schimpanse und Gorilla.
Die Zahlen geben an, wie oft das jeweilige Verzweigungsmuster unterstützt wird.
Werden nun die drei Gen-Bäume betrachtet, ergibt sich folgendes
Bild: Im ersten Szenario (Abbildung 22a) verschmelzen die Sequen
zen von Mensch und Schimpanse bei einer rückwärtigen Betrach
tung in die Vergangenheit zeitgleich mit dem 2. Aufspaltungsereig
nis. Die gemeinsame Linie von Mensch und Schimpanse existierte in
ihrer Stammart M-S so lange, bis sie mit der Gorilla-Linie zum Zeit
punkt des i. Aufspaltungsereignisses verschmolz. Zum Zeitpunkt U existierten sowohl im Spezies-Baum als auch im Gen-Baum nur zwei
Arten beziehungsweise Linien, die eine in der Stammart von Mensch
und Schimpanse (M-S) und die zweite im Gorilla. In dieser Situation
stimmen die Topologien von Gen-Baum und Spezies-Baum überein.
Die Stammart von Mensch und Schimpanse (M-S) existierte aber
nur kurze Zeit. Es kann vorkommen, dass die Sequenzen beider Arten
nicht verschmelzen. Diese Möglichkeit ist in den Bildern b und c dar
gestellt. Zum Zeitpunkt t1 existierten formal bereits zwei Spezies,
59
Gen-Bäume in der Phylogenie
nämlich die Stammart Mensch und Schimpanse (M-S) und der Gorilla.
Im Gen-Baum sind aber noch alle drei Linien vorhanden. In einer
solchen Situation entscheidet allein der Zufall, welches Sequenz-
Paar zuerst verschmilzt und somit die Schwestergruppen definiert.
Es können zuerst die Linien von Schimpanse und Gorilla verschmel
zen, aber ebenso können die Linien von Mensch und Gorilla zuerst
verschmelzen. In beiden Fällen weicht der Gen-Baum vom Spezies-
Baum ab.
Der Zeitpunkt der Verschmelzung von Linien, das Coalescent-Ereig
nis, ist für jedes Gen unterschiedlich und kann weit in der Vergan
genheit liegen. Die Stammart von Mensch und Schimpanse (M-S)
kann eine oder zwei Linien enthalten, während in der Stammart von
Mensch, Schimpanse und Gorilla (M-S-G) entweder eine, zwei oder
noch alle drei Linien vorhanden sein können.
In der Fachsprache wird hierfür der Begriff lineage sorting (Sortie
rung der Linien) verwendet. Ist die Anzahl der Linien zu jedem Zeit
punkt identisch mit der Anzahl der Arten (wie in Abbildung 22a), gibt
es keine Diskrepanz zwischen dem Gen-Baum und dem Spezies-
Baum. Man sagt, dass die Linien »aussortiert« sind. Ist im Gegensatz
dazu, wie in Abbildung 22b und c, die Anzahl der Linien an einem
bestimmten Zeitpunkt größer als die Anzahl an Arten, ist die Sortie
rung der Linien noch nicht abgeschlossen. Man sagt, dass das »Line
age Sorting« unvollständig ist. Zum Zeitpunkt t, existieren jeweils
drei Linien, aber nur zwei Arten, nämlich die Stammart Mensch-
Schimpanse (M-S) und der Gorilla.
Abb.22: Der Spezies-Baum für Mensch, Schimpanse und Gorilla (schwarz) mit den
drei möglichen Gen-Bäumen (grün). Gezeigt sind das Alter der zwei Aufspal
tungsereignisse (gestrichelte Linie) in Millionen Jahren, die gemeinsame Stamm
art (M-S) von Mensch und Schimpanse zum Zeitpunkt t1 sowie die gemeinsame
Stammart (M-S-G) von Mensch, Schimpanse und Gorilla.
a) Der Gen-Baum von Mensch (M), Schimpanse (S) und Gorilla (G) ist identisch
zum Spezies-Baum, b) und c) Die Gen-Bäume sind verschieden vom Spezies-Baum
und kommen mit gleicher Wahrscheinlichkeit vor (siehe Abb. 21).
60
Widersprüche zwischen Gen-Bäumen und Spezies-Bäumen
61
Gen-Bäume in der Phylogenie
Abb.23: Einfluss einer Gen-Duplikation auf den Gen-Baum von Mensch und
Schimpanse. Die Verdopplung des Gens o erzeugt zwei Kopien, das Gen a und das
Gen b. Bei späterer Speziation enthalten Mensch und Schimpanse je ein Set der
Gene a und b. Der Spezies-Baum von Mensch und Schimpanse enthält zwei Gen-
Bäume, einen vom Gen a (grau) und einen zweiten vom Gen b (grün).
Dieses kleine Beispiel mit drei Arten zeigt bereits, dass es zu einem
Spezies-Baum mehr als einen Gen-Baum geben kann. Anders ausge
drückt bedeutet dies, dass es in der Molekularen Evolution keine
»Ein-Spezies-Baum-Ein-Gen-Baum«-Beziehung gibt. Widersprüche
sind im Besonderen dann zu erwarten, wenn die Aufspaltungsereig
nisse zwischen zwei oder mehreren Arten in relativ kurzer Zeit ablie
fen. Prinzipiell gilt, dass bei der Rekonstruktion von Gen-Bäumen
mehrere unabhängige Gene oder DNA-Sequenzen analysiert wer
den sollten. Dies ist dann besonders wichtig, wenn es Unstimmig
keiten zwischen der klassischen Phylogenie und den molekularen
Befunden gibt.
62
Auswirkungen von Gen-Duplikationen auf Gen-Bäumen
Auswirkungen von Gen-Duplikationen auf Gen-Bäume
Ist im Verlauf der Evolution ein Gen verdoppelt (dupliziert) worden,
kann dies ebenfalls zu einer Diskrepanz zwischen Gen-Baum und
Spezies-Baum führen. Das grundsätzliche Phänomen wird in Abbil
dung 23 veranschaulicht, in der wieder das Beispiel Mensch-Schim
panse herangezogen wird.
In der gemeinsamen Stammart von Mensch und Schimpanse (M-S)
wird das vorhandene Gen 0 dupliziert, es entstehen zwei Kopien
(Gen a und Gen b). Diese können im Verlaufe der Evolution in ganz
unterschiedlichen Regionen des Genoms fixiert werden und sich
zusätzlich in ihrer Funktion deutlich voneinander unterscheiden.
Spaltet sich die Stammart M-S in Mensch und Schimpanse, so erhält
jede Art jeweils ein Set der verdoppelten Gene. Im Menschen nen
nen wir sie aM und bM, im Schimpansen aS und bS. In dem resultie
renden Spezies-Baum von Mensch und Schimpanse gibt es zwei
Gen-Bäume, einen für das Gen a (grau) und einen zweiten für das
Gen b (grün).
Zur Unterscheidung der relativen Beziehungen zwischen den ori
ginalen und kopierten Genen werden in der molekularen Evolutions
biologie die Fachausdrücke homolog, ortholog und paralog verwen
det.
Homologe Sequenzen ähneln sich in ihrem Aufbau und ihrer
Struktur (griechisch homos = gleichartig, entsprechend). Obwohl seit
der Duplikation des Vorfahr-Gens 0 viel Zeit vergangen ist, lassen
sich noch Gemeinsamkeiten zwischen den vier Genen UM, as, bM und
Verkennen.
Orthologe Sequenzen haben den gleichen Ursprung (griechisch
orthos = richtig). Die Gene aM und aS gehen auf das gemeinsame Vor
fahren-Gen a zurück, die Gene bM und bS auf das Vorfahren-Gen b.
Dementsprechend sind die Gen-Pärchen (aM, aS) und (bM, bS) ortho
63
Gen-Bäume in der Phylogenie
log zueinander. Wird der Gen-Baum anhand orthologer Sequenzen re
konstruiert, ist er in diesem Beispiel mit dem Spezies-Baum identisch.
Paraloge Sequenzen haben keinen gemeinsamen Ursprung (grie
chisch para = abweichend). In Abbildung 23 gilt dies für die Kombi
nation der Gene aM und bS sowie für die der Gene bM und aS . Wenn
die untersuchten Gene bekannt sind, mag es trivial erscheinen, para
loge Sequenzen zu erkennen. In der Forschung ist die Funktion der
untersuchten Gene oft nicht bekannt, und dann können die Ähnlich
keiten ihrer Sequenzen dazu führen, dass fälschlicherweise ein
gemeinsamer Ursprung angenommen wird. Bleibt die Paralogie
unerkannt, kann der rekonstruierte Gen-Baum vom Spezies-Baum
abweichen.
Ein Ausweg besteht darin, nur solche Gene zu analysieren, die in
einfacher Kopie vorliegen (single-copy Gene). Soll zum Beispiel unter
sucht werden, ob ein menschliches Gen in einfacher oder mehrfa
cher Kopie vorliegt, kann in der Datenbank des kompletten mensch
lichen Genoms nach homologen Sequenzen gesucht werden. Findet
sich im gesamten Genom keine ähnliche Sequenz, so liegt das Gen
wahrscheinlich in einfacher Kopie vor. Die Situation verkompliziert
sich, wenn Gene nach ihrer Duplikation wieder verloren gehen (Dele
tionen). Es besteht dann kaum eine Chance, dass die Orthologie be
ziehungsweise Paralogie von Sequenzen erkannt wird.
Gen-Duplikationen als Motor der physiologischen Feinabstimmung
Das Wissen um Gen-Duplikationen ist zum einen wichtig für die kor
rekte Rekonstruktion von Stammbäumen. Andererseits offenbaren
Gen-Duplikationen faszinierende Einsichten in die Dynamik der
molekularen Evolution. Mit der Duplikation eines Gens gehen oft
Änderungen der Funktion sowie vielfache Spezialisierungen in einer
oder sogar in beiden Kopien einher.
64
Gen-Duplikationen als Motor der physiologischen Feinabstimmung
In der Proteinfamilie der Globin-Gene ist dieses Phänomen sehr gut
studiert (Abbildung 24).GIobine sind für den Sauerstoff-Haushalt im
Organismus verantwortlich. Bereits vor 600-800 Millionen Jahren
wurde das »Ur-Globin-Gen« dupliziert. Die verdoppelten Gene diffe
renzierten sich zum Myoglobin und zur Familie der »Ur«-Hämoglo
bine. Das Myoglobin-Gen befindet sich beim Menschen auf dem
Chromosom 22. Es reguliert die Speicherung des Sauerstoffs in den
Muskeln.
Vor 450-500 Millionen Jahren bildeten sich durch Duplikation des
»Ur«-Hämoglobins die Familie der D-Globine und der E-Globine. Das
Hämoglobin ist verantwortlich für den Transport des Sauerstoffs im
Blut.
Die Familie der D-Globine, die beim Menschen auf dem Chromo
som 16 liegt, besteht aus den vier funktionellen Genen -, D1, D2 und
T1 sowie drei Pseudogenen (<-, <D1, <D2). Pseudogene haben
keine Funktion, aber weisen noch immer die Strukturmerkmale von
Genen auf. Das d-Gen entstand vor mehr als 300 Millionen Jahren
und wird nur im Embryo aktiviert. Die Aufspaltung in das T1-Gen und
die D-Gene fand vor 260 Millionen Jahren statt. Der Zeitpunkt für die
Entstehung des D1- und D2-Gens ist derzeit ungeklärt, da die Se
quenzen nahezu identisch sind. Da aber beide Gene auch in den
Affen vorkommen, sollten sie vor wenigsten 20 Millionen Jahren ent
standen sein. Das Alter der Pseudogene lässt sich nicht schätzen.
Die E-Globin-Familie befindet sich auf dem Chromosom 11. Es um
fasst die fünf funktionellen Gene H, GJ, AJ, E und G sowie das Pseu
dogen <E. Im Menschen wird das e-Gen in der frühen Embryonal
entwicklung aktiviert (1.-8. Schwangerschaftswoche), während die
zwei J-Gene für den Sauerstoff-Transport im heranwachsenden
Fötus (ab der 9.Schwangerschaftswoche) verantwortlich sind. Die E-und G-Gene werden erst im erwachsenen Menschen aktiviert.
Die Aufspaltung der E-Globin-Gene begann vor 150-200 Millionen
Jahren.
65
Gen-Bäume in der Phylogenie
An diesem Beispiel wird deutlich, dass Gen-Duplikationen dem un
terschiedlichen Sauerstoffbedarf in der Entwicklung des mensch
lichen Organismus bereits auf molekularer Ebene Rechnung tragen.
Gen-Duplikationen können also zu einer erstaunlichen Feinabstim
mung in der Physiologie beitragen. Inzwischen ist die Evolutionsge
schichte weiterer Gen-Familien rekonstruiert worden, wie beispiels
weise die der Homöobox- (Hox-) Gene. Sie steuern die embryonale
Segmentierung des Körpers entlang der Kopf-Schwanz-Achse. Zu
den bemerkenswertesten Ergebnissen der Forschung der letzten
Jahre gehörte es, dass Hox-Gene bei fast allen Tieren einschließlich
des Menschen und sogar bei Pflanzen zu finden sind. Es stellte sich
sogar heraus, dass Fliegen, denen das für die Entstehung des Auges
verantwortliche homöotische Gen einer Maus eingepflanzt wurde,
ein zusätzliches Facettenauge entwickelten. Offenbar sind die Gene,
welche die Entwicklung der Augen einleiten, bei Säugetieren und
Insekten sehr ähnlich. In naher Zukunft sind auf diesem Sektor noch
viele spannende Ergebnisse zu erwarten, die unser Verständnis über
das molekulare Evolutionsgeschehen erweitern werden.
6 GEN-BÄUME IN POPULATIONEN
Gen-Bäume sind auch für die Aufklärung der Verwandtschaftsver
hältnisse zwischen den Individuen einer Art beziehungsweise Popu
lation von großer Bedeutung. Das Aufstellen solcher Bäume öffnet
ein völlig neues Feld für die Erforschung der molekularen Evolu
tionstheorie. Das Paradebeispiel sind die Ergebnisse der Untersu
chungen zur jüngeren Geschichte des modernen Menschen. Anhand
von DNA-Sequenzen konnten Wissenschaftler die Geschichte des
modernen Menschen neu interpretieren.
Abb.24: Gen-Baum der menschlichen Globin-Gene. Grüne Kreise symbolisieren
jeweils eine Gen-Duplikation; Datierung in Millionen Jahren.
66
Gen-Bäume in Populationen
67
Gen-Bäume in Populationen
Rekonstruktion der Populationsgeschichte anhand von DNA-Sequenzen
Die Geschichte einer Population wird anhand der Sequenzen einer
Stichprobe von zufällig ausgewählten Individuen untersucht. Dafür
werden bevorzugt die variablen Regionen des Genoms untersucht,
denn nur hier gibt es überhaupt eine Chance, dass sich die Sequen
zen zwischen den Individuen einer Population unterscheiden. Für die
Populationsgeschichte des Menschen und anderer Tierpopulationen
wird dafür bevorzugt die Kontrollregion des Mitochondrien-Genoms
analysiert. Aus dem resultierenden Sequenzalignement wird mit
den in Kapitel 4 dargestellten Methoden ein Gen-Baum berechnet.
Im Unterschied zu einem phylogenetischen Datensatz sind die Se
quenzen zwischen den Individuen eines Populations-Alignements
entweder sehr ähnlich oder häufig sogar identisch (Abbildung 25b).
Daher braucht man keine komplizierten Methoden wie Maximum-
Likelihood oder distanzbasierte Methoden, um multiple Substitutio
nen im Alignement zu korrigieren. Maximum-Parsimonie reicht aus,
um den Gen-Baum zu bestimmen.
Ein Beispiel soll dies veranschaulichen. Gegeben sei eine über die
Zeit konstante Population. Aus der heutigen Generation werden
zufällig acht Individuen, A bis H, ausgewählt und für jedes Individu
um die gleiche Region im Genom sequenziert.
Die Analyse der Sequenzen ergibt folgendes Bild (Abbildung 25a):
Die Sequenz S1 wurde in den drei Individuen A, B und C gefunden. Die
Sequenz S2 war in den zwei Individuen G und H präsent, während die
drei verbleibenden Sequenzen S3, S4 und S5 nur in jeweils einem
Individuum vorkommen.
Für die Rekonstruktion des Gen-Baums (Abbildung 25b) ist nur die
Anzahl der unterschiedlichen Sequenzen relevant; für das Beispiel
also die fünf Sequenzen S1 bis S5. Die Häufigkeit der einzelnen Se
quenzen wird im Gen-Baum vernachlässigt, oder wie in Abbildung
68
Rekonstruktion der Populationsgeschichte
Abb.25a: Sequenz-Alignement einer Stichprobe von acht Individuen (A-H).
Abb.25b: Maximum-Parsimonie-Baum der fünf unterschiedlichen Sequenzen S1
bis S5. Insgesamt sind fünf Mutationen, m1 bis m5, für die Rekonstruktion not
wendig. Der kleine weiße Kreis zeigt eine in der Population nicht gefundene
Sequenz an.
25b lediglich durch die Größe der Knoten symbolisiert. Wie oft eine
Sequenz in einer Stichprobe gefunden wurde, liefert aber wichtige
Informationen über die genetische Vielfalt innerhalb der Population.
Die Verzweigungsstruktur des Gen-Baums spiegelt die verwandt
schaftlichen Beziehungen zwischen den unterschiedlichen Sequen
69
Gen-Bäume in Populationen
S.103
S.105
zen wider. Insgesamt sind fünf Mutationen (m1 bis m5) nötig, um die
Variabilität im Sequenz-Alignement zu erklären. Die Sequenzen S2
und S3 stehen im Gen-Baum an inneren Knoten (Abbildung 25b). Sie
sind damit »gleichzeitig« rezente Sequenzen (die in der heutigen Po
pulation vorkommen) als auch Vorfahr-Sequenzen für die anderen
Individuen. Diese Doppelfunktion einer Sequenz als Vorfahr-Sequenz
und als rezente Sequenz ist typisch für die Analyse populationsge
netischer Datensätze.
Die Individuen mit einer identischen Sequenz, nämlich A, B und C
(Si) sowie G und H (S2) sind in jeweils einem Knoten vereinigt. Die
Verwandtschaftsstruktur zwischen den Individuen innerhalb eines
Knotens lässt sich mit dem bisherigen Methoden besteck nicht auf
klären. Um etwas über die Geschichte einer Population auszusagen,
sind wiederum statistische Methoden notwendig.
Die Genealogie einer Stichprobe
Der Gen-Baum in Abbildung 25b zeigt die verwandtschaftlichen
Beziehungen zwischen den fünf Sequenzen Si bis S5. Wie kann die
Verwandtschaftsstruktur zwischen den Individuen bestimmt wer
den? Wo liegt die Wurzel des Gen-Baums, also der jüngste gemein
same Vorfahre (MRCA) der Stichprobe und wann lebte er? Diese Fra
gen werden bei der phylogenetischen Rekonstruktion durch das
Hinzuziehen einer Außengruppe beziehungsweise durch die mole
kulare Uhr beantwortet. In einer Population mit vielen Sequenzen
muss der Prozess der Vorfahrenfindung am Computer modelliert
werden (Coalescent-Prozess). Die resultierenden Bäume heißen
Genealogien, abgeleitet von dem griechischen Wort genealogia für
Geburt beziehungsweise Abstammung. Im Gegensatz zur genba
sierten Stammbaumrekonstruktion sind in einer Genealogie weder
das Verzweigungsmuster noch die Kantenlängen feste Größen. Es
wird angenommen, dass die Genealogie im Verlauf der Evolution
70
Die Genealogie einer Stichprobe
Abb.26: Drei mögliche Genealogien für die Individuen A, B und C.
zufällig entstanden ist. Was heißt dies für das Beispiel in Abbildung
25? Die Individuen A, B und C haben die gleiche Sequenz S1. Abbil
dung 26 zeigt die drei gleichwahrscheinlichen Topologien ((A, B) C),
((A, C) B), (A (B, C)). Darin sind die Verzweigungsmuster und die Zeit
punkte, an denen die Sequenzen ihren jüngsten gemeinsamen Vor
fahren finden, unterschiedlich. Die Zeit kann in der Anzahl der Gene
rationen gemessen werden.
Für die acht untersuchten Individuen A bis H aus der konstanten
Population zeigt Abbildung 27 eine mögliche Genealogie. Jedes Indi
viduum ist durch einen Kreis dargestellt, jede Zeile repräsentiert die
Individuen beziehungsweise Gene einer Generation. Der Zeitpfeil
läuft von der Vergangenheit in die Gegenwart und ist ein Maß für
die Anzahl an Generationen. Die hypothetischen Zeitpunkte für das
Auftreten der fünf Mutationen m1 bis m5 sind eingezeichnet. Der
weiße Kreis an der Basis der Genealogie zeigt den jüngsten gemein
samen Vorfahren aller acht Sequenzen. Wie für die phylogenetischen
71
Gen-Bäume in Populationen
S.105
Bäume gilt auch bei den Genealogien, dass die Anzahl der Bäume
mit der Anzahl der Individuen exponentiell ansteigt.
Wann lebte der jüngste Vorfahre der menschlichen Population?
In Abbildung 27 wird ein weiteres Phänomen deutlich: Die Zeit zum
jüngsten gemeinsamen Vorfahren (MRCA) hängt sowohl von der
Stichprobengröße als auch der Populationsgröße ab. Die Zeit bis zum
MRCA wird in einer großen Stichprobe beziehungsweise Population
größer sein als in einer kleineren, da mehr Sequenzen zu einem ge
meinsamen Vorfahren verschmelzen müssen. Dabei wird diese Zeit
in der Anzahl an Generationen zwischen der heutigen Population
und deren MRCA gemessen.
Werden nur die drei Individuen A, B und C aus Abbildung 27 be
trachtet, wird deren gemeinsamer Vorfahre bereits nach zwölf Gene
rationen gefunden. Dies gilt auch, wenn nur eine kleine Population
untersucht wird. Für acht untersuchte Individuen ist die Zeit zum
MRCA entsprechend größer. In dem dargestellten Beispiel (Abbil
dung 27) nämlich wird der jüngste gemeinsame Vorfahre nach fünf
zig Generationen gefunden. Dasselbe gilt für eine große Population.
Eine theoretische Überlegung aus dem Coalescent-Prozess zeigt,
dass in einer Population konstanter Größe die Zeit TMRCA bis zum
jüngsten gemeinsamen Vorfahren nach folgender Gleichung be
rechnet wird
TMRCA = 2G (1-1/n) .
Darin ist n die Stichprobengröße und G die Populationsgröße für das
untersuchte Gen, das heißt die Anzahl der Kopien eines Gens in einer
Population. Ist die untersuchte Stichprobe nicht zu klein, vereinfacht
Abb.27: Eine mögliche Genealogie für acht Individuen
72
Wann lebte der jüngste Vorfahre der menschlichen Population?
73
Gen-Bäume in Populationen
Tabelle 4: Alter des jüngsten gemeinsamen Vorfahren (MRCA) in einer Population
mit konstanter Populationsgröße N
sich die Gleichung zu
TMSCA § 2G.
Überraschenderweise entspricht somit die Zeit bis zum jüngsten
gemeinsamen Vorfahren der doppelten Populationsgröße G für das
untersuchte Gen.
In einer Säugetier-Population der Größe N wird angenommen, dass
die Anzahl der reproduzierenden Weibchen (NW) gleich der Anzahl
der reproduzierenden Männchen (Nm) ist. Dann gilt
N = NW + Nm
und
NW = Nm = N/2.
In Tabelle 4 wird für eine solche Population zunächst die Anzahl der
untersuchten Gene im Mitochondrien-Genom, auf den Y- respektive
X-Chromosomen sowie den autosomalen Chromosomen berechnet.
Einfache Überlegungen führen zu folgenden Ergebnissen: Für die
74
Wann lebte der jüngste Vorfahre der menschlichen Population?
Tabelle 5: Geschätzte Zeiten zum jüngsten gemeinsamen Vorfahren (MRCA) für
unterschiedliche Genregionen des modernen Menschen
Gene auf dem Mitochondrien-Genom, die nur über die mütterlichen
Linien vererbt werden, entspricht die Populationsgröße G der Anzahl
der Weibchen in der Population (G = Nw). Für Gene auf dem Y-Chro
mosom,das nur bei den Männchen vorkommt und zwar in einfacher
Kopie, ist die Populationsgröße G gleich der Anzahl der Männchen
(Nm) in der Population (G = Nm). Für Gene, die sich auf dem X-Chro
mosom befinden, berechnet sich die Populationsgröße G aus der
doppelten Anzahl der Weibchen in einer Population (die zwei X-
Chromosomen besitzen) plus der Anzahl der Männchen (die nur ein
X-Chromosom tragen). Für die Populationsgröße dieser Gene gilt
dann G = 2 Nw + Nm. Für alle autosomalen Gene, die sowohl bei den
Männchen als auch bei den Weibchen in doppelter Kopie vorliegen,
berechnet sich die Populationsgröße zu G = 2 (Nw + Nm). Aus der Populationsgröße für jedes Gen lassen sich nach der obi
gen Näherung TMRCA § 2G und der Gleichung Nw = Nm = N/2 die Zeiten
bis zum jüngsten gemeinsamen Vorfahren einer heutigen Popu
lation angeben (Tabelle 4). Die Gene auf dem Mitochondrien-Genom
sowie die Gene auf dem Y-Chromosom werden nach N Generatio
nen ihren jeweiligen Vorfahren finden. Die Gene auf dem X-Chromo
75
Gen-Bäume in Populationen
som und die autosomalen Gene brauchen eine drei- respektive vier
mal so lange Zeit. Sie finden ihren gemeinsamen Vorfahren erst
nach 3N respektive nach 4N Generationen. Das führt zu einem be
deutenden Schluss: Der gemeinsame Vorfahre einer Population ist je
nach Lage der untersuchten Sequenz im Genom unterschiedlich alt.
Daraus ergibt sich die überraschende Konsequenz: Für die Gesamt
heit der Gene einer Population gibt es keinen gemeinsamen Zeit
punkt für das Auftreten des jüngsten gemeinsamen Vorfahren.
Obwohl diese theoretischen Vorhersagen für idealisierte Popula
tionen entwickelt wurden, treffen sie auch bei der Analyse verschie
dener Regionen im Genom des modernen Menschen erstaunlich gut
zu (Tabelle 5).
Daraus folgt: Die genetischen Vorfahren des modernen Menschen
haben je nach Lage des untersuchten Gens oder der untersuchten
Sequenz zu sehr unterschiedlichen Zeiten gelebt. Wir heutigen Men
schen sind genetische Mosaiktypen, die auf ganz verschiedene Vor
fahren zurückgehen. Die Vorstellung einer »Eva« oder eines »Adams«,
aus denen der moderne Mensch entstanden sei, ist auf genetischer
Ebene nicht zu rechtfertigen. Jeder DNA-Abschnitt hat seine eigene
»Eva« respektive seinen eigenen »Adam«. Darüber hinaus waren die
jeweiligen genetischen »Evas« und »Adams« zu ihrer Zeit auch nicht
allein, sondern stets Mitglieder einer Population. Daraus folgt, dass
die Zeitpunkte der jüngsten gemeinsamen Vorfahren nicht notwen
digerweise mit dem Zeitpunkt der Entstehung des modernen Men
schen korrelieren.
Demographie
Bislang wurde der Coalescent-Prozess nur in Populationen mit kon
stanter Größe betrachtet. Wie ändert sich die Genealogie, wenn sich
die Größe der Population ändert? Wie kann die demographische Ge
schichte aus einem Alignement erschlossen werden?
76
Demographie
Die Demographie einer (menschlichen) Population beschreibt ihre
»Bevölkerungsentwicklung« im Laufe der Zeit. Als illustrative Bei
spiele unterschiedlicher Bevölkerungsentwicklung und ihr Einfluss
auf die Genealogien werden exemplarisch drei Szenarien vorgestellt,
die in Abbildung 28 zusammengefasst sind.
Abbildungen 28a und b zeigen jeweils eine typische Genealogie
für acht Sequenzen einer kleinen Population (G = 2500) und einer
viermal größeren Population (G = 10000). Von diesen Populationen
nehmen wir an, dass ihre Größe, die durch das graue Feld symboli
siert ist, konstant bleibt. Im dritten Fall (Abbildung 28c) wächst eine
kleine ursprüngliche Population (G = 500) innerhalb von 800 Gene
rationen auf G = 10 000 Gene. Die Population hat sich in 800 Gene
rationen um das Zwanzigfache vergrößert, was einer Wachstumsrate
von 0,375% pro Generation entspricht. Eine solche Populationsge
schichte wird unter dem Begriff bottleneck, »Flaschenhals«, zusam
mengefasst. Optisch entsteht annähernd der Eindruck einer nach
unten geöffneten Flasche, wobei nur wenige Individuen in dem Fla
schenhals lebten.
Für die konstanten Populationen (Abbildung 28a, b), die dem
Wright-Fisher-Modell entsprechen, berechnet man die Zeit zum
MRCA (Coalescent-Prozess) mit 4375 beziehungsweise 17 500 Gene
rationen. Die zufälligen Genealogien (Abbildung 28) stimmen gut
mit den Erwartungswerten überein. Für größere Stichproben wird
sich die Zeit zum MRCA dem Wert 2G nähern.
Ändert sich die Populationsgröße im Laufe der Zeit (Flaschenhals-
Beispiel), so lässt sich die erwartete Zeit bis zum MRCA nicht mehr
berechnen. Man muss auf Computersimulationen zurückgreifen. Im
gezeigten Beispiel (Abbildung 28c) vergehen 2800 Generationen bis
zum MRCA. Die Zeit zum jüngsten gemeinsamen Vorfahren ist in der
Flaschenhals-Population viel kleiner als in den beiden konstanten
Populationen. Die Genealogie der Flaschenhals-Population, deren
Demographie seit 2000 Generationen identisch mit der großen Po
77
S.105
Gen-Bäume in Populationen
S.109
pulation ist, wird also im Flaschenhals extrem verkürzt. Durch die
Verkleinerung der Populationsgröße kommt es zu einer Beschleuni
gung des Coalescent-Prozesses, der die noch vorhandenen Linien
innerhalb kurzer Zeit (im Beispiel 800 Generationen) zusammen
schmelzen lässt.
Wie wirkt sich die veränderte Gestalt der Genealogie auf die gene
tische Variabilität einer Population aus? Es wird angenommen, dass
jede Substitution an einer neuen Position der Sequenz stattfindet
und dass es keine Rückmutationen gibt (infinite-sites-model). Die
grünen Balken in Abbildung 28 zeigen die Verteilung der Substitu
tionen auf die Genealogien. Als Maß für die genetische Variabilität
einer Stichprobe wird die Verteilung der paarweisen Unterschiede
zwischen den Sequenzen und die Zahl der variablen Positionen im
Alignement herangezogen.
Zur Bestimmung der Häufigkeitsverteilung paarweiser Unter
schiede in einer Stichprobe wird für jedes Paar von Sequenzen die
Anzahl der unterschiedlichen Positionen ausgezählt und in einem
Balkendiagramm aufgetragen. Man zählt also aus, wie viele Se
quenzpaare identisch sind (Anzahl der Unterschiede gleich Null),
und wie viele sich an einer, zwei, drei,... Positionen unterscheiden.
Abbildung 29 zeigt die Verteilung der paarweisen Sequenzunter-
schiede für die drei Genealogien aus Abbildung 28, nämlich a) für die
kleine, konstante Population (G = 2500), b) für die große, konstante
Population (G = 10000) und c) für die Flaschenhals-Population.
Bei der kleinen, konstanten Population (a) ist die Verteilung der
paarweisen Unterschiede sehr weit gestreut. Es gibt Sequenzen, die
relativ nah verwandt miteinander sind und daher wenige Unter
schiede haben. Andererseits gibt es auch viele Sequenzpaare, die
sechs oder mehr Unterschiede zeigen. Dies sind gerade jene Se
quenzpaare, die ihren gemeinsamen Vorfahren vor etwa 5000 Gene
rationen hatten. In der großen, konstanten Population (b) sieht die
Verteilung der paarweisen Unterschiede ähnlich aus, allerdings sind
78
Demographie
Abb.28: Der Einfluss der demographischen Geschichte auf die Genealogie. Die Ent
wicklung der Populationsgröße wird durch die graue Fläche symbolisiert. Die Zeit
wird in Generationen gemessen.
a) Genealogie einer kleinen Population, b) Genealogie einer großen Population,
c) bottleneck-Population.
die absoluten Unterschiede zwischen den Sequenzen größer. Auch
hier gibt es eine Reihe von Sequenzen, die nah miteinander ver
wandt sind, während die nicht näher verwandten Sequenzen bis zu
32 Unterschiede haben (vergleiche Abbildung 28b). Die Flaschen
hals-Population (c) hat eine eingipfelige Verteilung. Das Maximum
der Verteilung liegt bei zwei bis drei Unterschieden. Die Verteilung
ähnelt der bekannten Gauß'schen Glockenkurve.
79
Gen-Bäume in Populationen
Offensichtlich beeinflusst die Genealogie nicht nur die Zahl der Un
terschiede, sondern auch die Form der Distanzverteilung. Die Gene
alogien konstanter Populationen sind gekennzeichnet durch zwei
lange Kanten oder Linien, die zum MRCA verschmelzen. Auf diesen
Linien sammeln sich viele Substitutionen an. Sequenzpaare, deren
gemeinsamer Vorfahre mit dem MRCA der gesamten Genealogie
zusammenfällt, werden also sehr viele Sequenzunterschiede tragen.
Sequenzpaare, deren gemeinsamer Vorfahre wesentlich jünger ist,
werden sich sehr ähnlich sein. Dies erklärt im Beispiel der konstan
ten Populationen die Streuung der paarweisen Distanzen und die
irreguläre Form ihrer Verteilung.
Die Genealogie der Flaschenhals-Population hat nicht das tiefe
Verzweigungsmuster wie die Populationen mit konstanter Größe.
Nach 2000 Generationen schmilzt die Populationsgröße innerhalb
von 800 Generationen auf G = 500. Die Wartezeit zum MRCA der
Stichprobe wird extrem verkürzt, so dass die Zahl an Substitutionen
in diesem Zeitraum dramatisch reduziert ist. Im gezeigten Beispiel
finden im eigentlichen Flaschenhals keine Substitutionen statt. Die
Distanz zwischen den Sequenzen wird also im Wesentlichen durch
die Zeit bis zum Flaschenhals (ca. 2000 Generationen) bestimmt.
Dies erklärt die glockenförmige Verteilung der paarweisen Distan
zen in einer Flaschenhals-Population.
Die Betrachtung der paarweisen Distanzverteilung einer Stichpro
be liefert also einen anschaulichen Hinweis auf die demographische
Geschichte einer Population. Konstante Populationen haben eine ir
reguläre Distanzverteilung und Flaschenhals-Populationen eine
glockenförmige Distanzverteilung.
Abb.29: Häufigkeitsverteilung der paarweisen Distanzen für drei Populationen
mit unterschiedlicher demographischer Geschichte: a) kleine, konstante Popula
tion; b) große, konstante Population (beachte anderen Maßstab!); c) Flaschenhals-
Population; die Sequenzen sind Abbildung 28 entnommen, die Zahlen an den Pfei
len geben die mittlere Anzahl der paarweisen Unterschiede an.
80
Demographie
81
Gen-Bäume in Populationen
Abb. 30: Gen-Baum der Menschenaffen. Das auf dem X-Chromosom gelegene Gen
Xq13 wurde in 70 Menschen, 30 Schimpansen, 11 Gorillas und 14 Orang-Utans
untersucht.
Um die anschauliche Deutung statistisch abzusichern, sind eine Rei
he von Tests entwickelt worden. Dazu berechnet man zunächst die
mittlere Zahl an paarweisen Unterschieden. Die Sequenzen der zwei
konstanten Populationen unterscheiden sich im Mittel an 4,9 Posi
tionen in der kleinen Population und 17,7 Positionen in der großen Po
pulation. Hingegen beträgt der mittlere Unterschied zwischen den
Sequenzen der Flaschenhals-Population 2,9 Positionen. Nun liefert
der Mittelwert allein keinen Hinweis auf die Demographie, da die 2,9
unterschiedlichen Positionen auch mit einer kleinen Populationsgrö
ße erklärt werden können (Genetische Variabilität einer Population).
Die mittleren paarweisen Distanzen einer Stichprobe müssen also
mit einem weiteren Maß für genetische Variabilität verglichen wer
den. Hier bietet sich die Zahl an variablen Positionen Sn im Aligne
ment an, die im infinite-sites-model gleich der Anzahl der stattge
fundenen Substitutionen (grüne Balken in Abbildung 28) ist. klein groß bottleneck Im Beispiel findet man S8 = 13, S8 = 38 und s8 = 10. Die
kleine Population hat annähernd ein Drittel der genetischen Variabi
lität der großen Population. Theoretisch erwartet man viermal mehr
variable Positionen in der großen Population. Da es sich beim Coales
S.109
82
Demographie
Abb.31: Zwei Hypothesen zur Evolution des modernen Menschen Homo sapiens.
cent- und beim Substitutions-Prozess um Zufallsereignisse handelt,
sind Abweichungen von den erwarteten Werten wahrscheinlich.
Die Flaschenhals-Population hat mit zehn Substitutionen bezie
hungsweise variablen Positionen nur ein Viertel der genetischen
Variabilität der großen, konstanten Population. Im Vergleich zur klei
nen Population hat die sprunghaft gewachsene Population nur et
was weniger variable Positionen. Wenn die Demographie der Fla
schenhals-Population unbekannt ist, würde man aufgrund der zehn
variablen Positionen folgern, dass die Flaschenhals-Population eine
ähnliche Populationsgeschichte wie die kleine Population hat; ange
sichts der heutigen Populationsgröße von G = 10000 ein erstaunli
ches Ergebnis.
Die Zahl der variablen Positionen allein gibt also ebenso wie die
mittlere paarweise Distanz keine Information über die demographi
sche Entwicklung einer Population. Die geringe Zahl an variablen
Positionen kann auch mit einer kleinen Populationsgröße erklärt
83
Gen-Bäume in Populationen
werden. Nur der Vergleich zwischen den mittleren paarweisen Dis
tanzen und der Anzahl der variablen Positionen liefert einen Test, der
die demographische Geschichte einer Population aufdeckt und so
mit eine statistisch fundierte Aussage über die Demographie er
laubt. Dieser Test basiert auf der Tatsache, dass sich aus der mittle
ren paarweisen Distanz und der Anzahl an variablen Positionen die
Populationsgröße einer konstanten Population bestimmen lässt.
Weichen die beiden geschätzten Populationsgrößen signifikant von
einander ab, so kann die Populationsgröße nicht konstant geblieben
sein.
Da sowohl die mittlere Distanz als auch die Zahl der variablen Posi
tionen in einem Sequenzalignement leicht zu bestimmen sind, er
staunt es nicht, dass die Aufdeckung der demographischen Ge
schichte mittels Sequenzstichproben aus einer Population weite
Verbreitung gefunden hat. Zumal in jüngster Vergangenheit die
Analysemethoden wesentlich genauer geworden sind als die hier
vorgestellte, sehr einfache Methode.
Mit diesem Ansatz wurde in den letzten Jahren insbesondere die
Populationsgeschichte des modernen Menschen genauer unter
sucht. Bei der vergleichenden Analyse der genetischen Variabilität
des modernen Menschen und seines nächsten Verwandten, dem
Schimpansen, zeigte sich überraschenderweise, dass die genetische
Variabilität der Schimpansen rund viermal größer ist als die des
Menschen. Bedenkt man, dass der moderne Mensch weltweit ver
breitet ist und mit sechs Milliarden Menschen eine im Vergleich zum
Schimpansen gigantische Populationsgröße hat, liegt die Erklärung
nahe, dass der Mensch in seiner jüngsten Vergangenheit gewaltig
angewachsen ist. Dieses Wachstum hat vor ungefähr 100 000
200 000 Jahren begonnen. Abbildung 30 zeigt den Gen-Baum für
den Menschen und die drei nächstverwandten Menschenaffen. Er
basiert auf Sequenzen des Xq13-Gens, das auf dem X-Chromosom
liegt. An der Verzweigungstiefe innerhalb der vier untersuchten Ar
84
Wo kommen wir her?
Abb.32: Schematische Illustration des geographischen Ursprungs der modernen
Menschen. Die Sequenzen von sechs Afrikanern (A1 bis A6) stehen basal zu den
vier nicht-afrikanischen Sequenzen (E7 bis E10), die von Eurasiern und Amerika
nern stammen.
ten zeigt sich, dass der Mensch mit seinem relativen Alter von ca. 0,5
Millionen Jahren sowohl der jüngste Vertreter der untersuchten Ar
ten ist als auch die geringste genetische Vielfalt trägt. Die Menschen
haben sich also als letzte Form der großen Menschenaffen etabliert
und wir sind alle miteinander näher verwandt, als das für die einzel
nen Populationen der Schimpansen, Gorillas oder Orang-Utans der
Fall ist.
Wo kommen wir her?
Die geographische Herkunft der modernen Menschen ist noch
immer ein Rätsel, was vor allem an der Lückenhaftigkeit der Fossil
85
Gen-Bäume in Populationen
funde liegt. Dass die Wiege der Hominiden, das heißt alle heutigen
Menschen zusammen mit den ausgestorbenen Vor- und Frühmen
schen, in Afrika steht, ist mittlerweile unumstritten. Bezüglich der
weiteren Besiedlung und Ausbreitung des modernen Menschen ste
hen sich zwei Hypothesen gegenüber, nämlich das Multiregionale
Modell und das Arche-Noah-Modell (Abbildung 31).
Nach dem Multiregionalen Modell entstand die geographische
Vielfalt der heutigen Menschen schon vor ein bis zwei Millionen Jah
ren, als sich Homo erectus von Afrika aus über die anderen Kontinente
ausbreitete. Die charakteristischen Merkmalsunterschiede zwi
schen den heutigen Großgruppen wie Afrikaner, Asiaten oder
Europäer haben sich demnach in einem sehr langen Zeitraum in den
entsprechenden Regionen herausgebildet. Die genetische Ähnlich
keit aller modernen Menschen wird damit erklärt, dass durch Kreu
zungen zwischen benachbarten Populationen ein anhaltender Gen
fluss durch das gesamte geographische Verbreitungsgebiet des
Menschen entstand.
Im Arche-Noah-Modell wird davon ausgegangen, dass sich nur
eine kleine Population des Homo erectus in Afrika zum Homo sapiens entwickelte. Nur diese Homo-sapiens-Population verließ vor etwa
100000 bis 200000 Jahren Afrika und besiedelte nachfolgend die
gesamte Welt. Alle Nachfahren des Homo erectus, einschließlich des
in Mitteleuropa lebenden Neandertalers, starben aus, ohne zum
Genpool der heutigen Menschen beizutragen. Nach dieser Hypothe
se, die auch Out-of-Africa-Modell genannt wird, sind die heutigen
Menschen viel näher verwandt, als nach dem Multiregionalen Mo
dell angenommen werden muss.
Die Molekulargenetik hat sich ebenfalls der Frage angenommen,
wo der geographische Ursprung des modernen Menschen liegt.
Dazu wurden bisher Hunderte von mitochondrialen DNA-Sequen
zen nahezu aller Volksgruppen analysiert. Sämtliche Untersuchun
gen stützen das Arche-Noah-Modell. In Abbildung 32 wurden zufäl
86
Die Zukunft
lig zehn Sequenzen von heutigen Menschen herausgegriffen. Sechs
von ihnen (A1 bis A6) stammen aus Afrika, die restlichen vier (E7 bis
E10) aus Eurasien und Amerika. Der Gen-Baum wurde mit der Se
quenz des Schimpansen gewurzelt.
Wie lässt sich dieser Baum bezüglich des geographischen Ur
sprungs der heutigen Menschheit interpretieren? In Afrika gibt es
zum einen die Sequenzen A1, A2 und A3, die im Gen-Baum basal ste
hen und nicht näher mit den verbleibenden Sequenzen A4, A5 und
A6 verwandt sind. Diese letzen drei afrikanischen Sequenzen sind
näher mit den eurasischen und amerikanischen Sequenzen E7 bis
E10 verwandt als mit den afrikanischen Sequenzen Ai bis A3. Daraus
folgt, die sechs afrikanischen Sequenzen sind nicht monophyletisch.
Die sparsamste Erklärung für den dargestellten Baum nach dem Par-
simonie-Prinzip ist ein geographischer Ursprung der zehn zufällig
ausgewählten Menschen in Afrika. Das legt den Schluss nahe, dass
der moderne Mensch vor etwa 100000 bis 200000 Jahren in Afrika
entstanden ist und sich anschließend über die ganze Welt verbreitet
hat. Dieses Modell wird auch dadurch erhärtet, dass sich das grund
sätzliche Verzweigungsmuster des Gen-Baums auch dann nicht
ändert, wenn außer den bisherigen zehn Sequenzen weitere mito
chondriale DNA-Sequenzen hinzugezogen oder zusätzlich Genregio
nen des X- respektive Y-Chromosoms analysiert werden.
7 DIE ZUKUNFT
Mit der Ansammlung molekulargenetischer Daten erlebt die Rekon
struktion der Stammesgeschichte einen Aufschwung, der weit über
die klassische Phylogenie als Wissenschaft von der Klassifikation des
Lebenden hinausgeht. Sequenzdaten werden auch in Zukunft eine
bedeutende Rolle bei der Aufklärung der verwandtschaftlichen Be
ziehungen zwischen den Organismen spielen und dabei die Daten
87
Die Zukunft
aus der Morphologie, Ontologie, Ethologie und geographischer Ver
breitung der Taxa ergänzen.
Die Erkenntnis, dass Gen-Bäume die Phylogenie der Organismen
widerspiegeln, hat in den 70er Jahren zur Rekonstruktion des univer
sellen Baums des Lebens geführt (siehe Abbildung auf der letzten
Seite). Von besonderem Interesse sind dabei die basalen Verzwei
gungsmuster zwischen den drei großen Reichen des Lebens. Im Ein
zelnen sind dies die Archaebakterien, die sehr ursprüngliche (grie
chisch arche = Anfang) Bakterien sind und an extremen Standorten
wie Salzseen oder heißen Quellen vorkommen. Weiterhin die echten
Bakterien (Eubakterien), aus denen sich zum Beispiel die Darmflora
zusammensetzt, und die Eukaryoten. Letztere sind Organismen, die
einen echten Zellkern enthalten und zu denen unter anderem die
Pflanzen, Pilze, Tiere und wir Menschen gehören.
Der auf der letzten Seite abgebildete Baum beruht auf der Analyse
eines einzigen Moleküls, nämlich der kleinen Untereinheit der ribo
somalen RNA (small subunit ribosomal RNA, abgekürzt SSU rRNA).
Dieses Molekül kommt in allen Organismen vor und evolviert sehr
langsam. Die Sequenzen lassen sich daher auch noch zwischen so
unterschiedlichen Gruppen wie Bakterien und Säugetieren alignie
ren. Die universelle Phylogenie spiegelt die Unterteilung in die drei
großen Reiche Archaebakterien, Eubakterien und Eukaryoten wider.
Diese Dreiteilung wird auch durch andere biochemische Befunde
gestützt. Außerdem wurde die Endosymbinontentheorie bestätigt.
Diese Theorie geht davon aus, dass die Mitochondrien und Chloro
plasten der heutigen Eukaryoten einst eigenständige kleine, bakte
rienähnliche Zellen waren. Sie wurden in einem frühen Stadium der
Evolution von den Vorläufern der Eukaryoten aufgenommen. In der
universellen Phylogenie sind Bakterien (zum Beispiel Agrobacterium tumefaciens und Escherichia coli) die nächsten Verwandten der Mito
chondrien, die mit Hilfe von Sauerstoff aus organischer Nahrung
Energie gewinnen. Die Chloroplasten sind aller Wahrscheinlichkeit
88
Die Zukunft
nach aus Blaualgen (Cyanobakterien) hervorgegangen, die ihrerseits
Photosynthese betreiben, das heißt Strahlungsenergie des Sonnen
lichts in chemisch gebundene Energie umwandeln.
Der anfängliche Optimismus, mit der kleinen Untereinheit der ri
bosomalen RNA über ein universelles Werkzeug zur phylogeneti
schen Rekonstruktion zu verfügen, wurde im Laufe der Jahre er
schüttert. Verschiedene Gene führen nicht notwendigerweise zu
den gleichen Bäumen. Selbst wenn zufällige Effekte bei der Erhebung
der Daten vernachlässigt werden, ist die Idee von einem universellen
Baum des Lebens (tree of life) in der naiven Form, nach der alle heu
tigen Lebewesen auf einen gemeinsamen Vorfahren zurückgehen,
so nicht haltbar.
Die Evolution einzelner Gene lässt sich in den meisten Fällen mit
einem phylogenetischen Baum beschreiben, im Extremfall hat aber
jedes Gen seinen eigenen Baum. Zusätzliche Effekte wie Gendupli
kationen, unvollständiges Aussortieren der Linien (lineage sorting) oder horizontaler Gentransferführen dazu, dass es zu einem Spezies-
Baum oft viele Gen-Bäume gibt. Eine spannende Frage bleibt, wie
sich aus einer Kollektion verschiedener Gen-Bäume ein allgemein
gültiger »Speziationsbaum« rekonstruieren lässt.
Eine weitere Besonderheit kennzeichnet die Evolution der Bakte
rien. Während Eukaryoten hauptsächlich durch Veränderung ihrer
vorhandenen genomischen Information evolvieren, haben Bakterien
anscheinend einen großen Teil ihrer genetischen Diversität durch
Einverleibung von DNA-Abschnitten verwandtschaftlich weit ent
fernter Organismen erworben. Dieses Phänomen bezeichnet man
als horizontalen Gentransfer. Durch die Sequenzierung ganzer Geno
me ist offensichtlich geworden, dass Genduplikation und horizonta
ler Gentransfer wesentliche Motoren der bakteriellen Evolution sind.
Die zur Verfügung stehenden Daten deuten darauf hin, dass kein
Organismus immun ist gegen horizontalen Gentransfer. Dabei wer
den Gene, die eine zentrale Rolle im Stoffwechsel spielen, oder Gene,
89
Die Zukunft
die vollständige biochemische Stoffwechselwege kodieren, aber
auch Teile der Transkriptions- und Translationsmaschinerie und so
gar ribosomale Proteine und ribosomale RNA von einem Organis
mus in einen phylogenetisch weit entfernten Organismus transfe
riert. Hier müssen neuartige Methoden in der molekularen Evolution
entwickelt werden, um die komplexe Dynamik des Evolutionsge
schehens besser zu verstehen.
Der universelle Baum des Lebens wird sicher eines Tages durch ein
Netzwerk ersetzt werden, in dem die vielfältigen Transferereignisse
auf molekularem Niveau besser dargestellt werden als indem stren
gen, dichotomen Baum, der auf der letzten Seite abgebildet ist. Erste
Schritte zu solchen Analysen wurden unternommen, aber der »Baum
des Lebens« wird eines der ganz spannenden Felder zukünftiger For
schung bleiben.
Auch mit der Sequenzierung ganzer Genome werden neue Her
ausforderungen an die molekulare Evolutionstheorie gestellt. Bis
lang wurde hauptsächlich die Evolution einzelner Gene untersucht.
Ganze Genome erfordern die Analyse einer heterogenen Sammlung
von DNA-Sequenzen, die aus kodierenden und nicht-kodierenden
Genen, repetitiver DNA, regulatorischen Sequenzen (siehe Abbil
dung 3) usw. besteht. Unser mikroskopischer Blick auf einzelne Gene
wird durch die Betrachtung ganzer Genome enorm erweitert. Neue
Fragen sind dabei beispielsweise, ob die Evolution in verschiedenen
Teilen des Genoms, zum Beispiel auf unterschiedlichen Chromoso
men, verschieden abläuft und falls ja, warum?
Die Analyse solcher Fragen erfordert die Entwicklung neuer Algo
rithmen. Das Alignement ganzer genomischer Sequenzbereiche wird
rechentechnisch aufwändiger, da die Sequenzen länger und hetero
gener sind und Inversionen und Translokationen das Bild zusätzlich
verkomplizieren. Neue effiziente Algorithmen sowie eine erweiterte
Theorie der molekularen Evolution müssen entwickelt werden und
werden derzeit auch intensiv bearbeitet.
90
Molekulare Techniken
VERTIEFUNGEN
Molekulare Techniken
Das mittlerweile sehr umfangreiche Wissen über die Struktur und
Evolution von Genen und DNA- beziehungsweise RNA-Sequenzen
geht einher mit den rasanten technischen Entwicklungen auf dem
Gebiet der Molekularbiologie. Aus jedem Organismus kann im Labor
die gesamte DNA beziehungsweise RNA isoliert und analysiert wer
den. Fast alle gentechnischen Anwendungen beruhen auf der Kennt
nis der genauen Abfolge der Nukleotide (Nukleotidsequenzen) in
den Organismen. Für eine solche Sequenzanalyse reicht ein einziges
DNA-Molekül nicht aus, dafür sind einige tausend Kopien des DNA-
Moleküls erforderlich. Stehen nur wenige DNA-Moleküle zur Verfü
gung, müssen diese zunächst vervielfältigt werden. Handelt es sich
dabei um einen relativ großen DNA-Abschnitt, nutzt man das ver
hältnismäßig aufwändige und langwierige Klonieren. Kleinere DNA-
Abschnitte können mit Hilfe der Polymerase-Kettenreaktion (PCR) in
relativ kurzer Zeit millionenfach kopiert werden.
Bei vielen molekularen Techniken werden - wie bei den Stoffwech
selvorgängen im lebenden Organismus - spezielle Enzyme (gekenn
zeichnet durch die Endung -ase) verwendet, wobei es für jedes Ver
fahren ein Temperaturoptimum gibt. Grundlegende Operationen in
der Molekularbiologie sind:
• Isolieren der DNA aus einem Organismus,
• Trennen eines DNA-Strangs in zwei Einzelstränge,
• Vervielfältigen eines DNA-Abschnittes mit Polymerasen,
• Ausschneiden von DNA-Fragmenten mit Endonucleasen,
• Verbinden zweier DNA-Moleküle mit Hilfe von DNA-Ligasen,
• Übertragen von DNA-Molekülen in Bakterienzellen,
91
91
Molekulare Techniken
92 • Zerschneiden von DNA-Strängen mit Restriktionsenzymen,
• Auftrennen von DNA-Fragmenten durch Gel-Elektrophorese,
• Bestimmen der DNA-Sequenz mit Hilfe einer Sequenziermaschine.
Das Klonieren dient der Vervielfältigung großer DNA-Abschnitte. Die
hierzu erforderlichen Arbeitsschritte sind in Abbildung 33 schema
tisch dargestellt. Im ersten Schritt zerschneiden Restriktionsenzyme
die DNA an spezifischen, nur wenige Nukleotide langen Erkennungs
sequenzen. Das Alul-Enzym erkennt zum Beispiel die Sequenz AGCT,
das EcoRI-Enzym die Sequenz GAATTC. Die resultierenden DNA-Frag
mente sind bis zu 50000 Basenpaare lang.
Anschließend werden die zahlreichen DNA-Fragmente getrennt.
Dazu sind Überträger-Moleküle (Vektoren) notwendig, die ebenfalls
aus DNA bestehen. Die gebräuchlichsten Vektoren sind Plasmide.
Hierbei handelt es sich um kleine ringförmige DNA-Moleküle, die
aus dem Zellplasma von Bakterien oder Hefen isoliert werden. Die zu
trennenden DNA-Fragmente werden in die Plasmide eingebaut.
Dazu werden die ringförmigen Bakterien-Plasmide aufgeschnitten,
um die fremden DNA-Abschnitte in die ursprüngliche Plasmid-DNA
einzubinden. Dieser Schritt heißt Ligation. Das so entstandene
Hybrid-Molekül wird anschließend in eine lebende Bakterienzelle
eingeschleust. Dieser Umwandlungsprozess der Bakterienzelle heißt
Transformation. Die Bakterienzelle enthält nun zusätzlich zu ihrer
eigenen Bakterien-DNA das fremde DNA-Hybrid-Molekül. Die Trans
formation ist der entscheidende Schritt im Trennungsvorgang der
ursprünglichen DNA-Fragmente, da jede Bakterienzelle nur ein Hyb
rid-Molekül aufnimmt und somit die Fragmente in den Bakterien
zellen räumlich voneinander getrennt werden.
In einem weiteren Schritt, der eigentlichen Klonierung, wird je
weils eine transformierte Bakterienzelle auf einer Nährst off platte
angezüchtet, wobei sich die Bakterien durch Zellteilung sehr schnell
vermehren. Bei diesem Prozess entstehen zahlreiche identische Ko
92
Molekulare Techniken
pien der Bakterienzelle: die Klone. Die in den Bakterienzellen enthal
tenen DNA-Hybrid-Moleküle werden auf diesem Wege ebenfalls ver
vielfältigt. Zur weiteren Untersuchung werden die Hybrid-Moleküle
aus den Bakterienzellen isoliert. Schließlich werden aus der riesigen
Anzahl der DNA-Hybrid-Moleküle die ursprünglichen DNA-Fragmen
te wieder freigesetzt, die nun in genügender Anzahl für weiterfüh
rende Forschungen zur Verfügung stehen.
Da sich transformierte Bakterienzellen problemlos züchten und
lagern lassen, stehen jederzeit beliebige Mengen eines gewünsch
ten DNA-Fragments zur Verfügung. Eine solche Sammlung von DNA-
Fragmenten eines Genoms wird Genombibliothek genannt.
Eine schnellere und vielseitigere Möglichkeit zur Vervielfältigung
kleinster Mengen spezifischer DNA-Abschnitte ist die Polymerase-
Kettenreaktion (PCR). Die PCR hat die Molekularbiologie in zweifa
cher Weise grundlegend revolutioniert: Zum einen lassen sich DNA-
Fragmente im Reagenzglas vervielfältigen. Der aufwändige Umweg
über die Einschleusung in lebende Bakterienzellen entfällt. Zum an
deren sind nur winzige Mengen an Ausgangs-DNA notwendig.
Kleinste Reste von Hautschuppen, Haaren oder Blut reichen aus, um
genügende Mengen an neu synthetisierter DNA zu gewinnen.
Das Prinzip der PCR ist die Vervielfältigung eines DNA-Abschnittes
mit Hilfe der DNA-Polymerase. Dieses Enzym synthetisiert DNA. Im
lebenden Organismus ist es unter anderem für die Reparatur und die
Vervielfältigung der DNA bei der Zellteilung verantwortlich.
Bei der PCR wird selektiv ein DNA-Abschnitt vervielfältigt. Eine
zwingende Voraussetzung für die Anwendung der PCR ist die Kennt
nis über die Abfolge der Nukleotide in den beiden Randzonen des
DNA-Abschnitts. Vor der PCR werden für diese zwei Regionen die
dazu passenden komplementären Basen als Startermoleküle syn
thetisch hergestellt. Diese kurzen Nukleotid-Moleküle heißen Primer.
Sie sind etwa zwanzig Basenpaare lang und lagern sich während der
PCR an die Randzonen an. Dies geschieht allerdings nur, wenn der
93
93
Molekulare Techniken
94
94
Molekulare Techniken
DNA-Doppelstrang zuvor in die beiden Einzelstränge aufgetrennt wurde. Die PCR umfasst somit drei Schritte (Abbildung 34):
(1) Denaturierung des DNA-Abschnitts in zwei Einzelstränge,
(2) Anlagerung von zwei Startermolekülen (Primer) an die
Randzonen und
(3) DNA-Synthese der komplementären Stränge zu neuen
vollständigen Doppelsträngen dieses DNA-Abschnitts.
Jeder Arbeitsschritt der PCR erfordert eine andere Temperatur. Die
Steuerung der Temperatur übernimmt ein Wärmebad oderThermo
cycler. Dieses Gerät reguliert außer der Temperatur auch die Zeit
dauer der einzelnen Schritte und die Anzahl der Wiederholungen.
Der »PCR-Cocktail«, in dem die Reaktionen stattfinden, enthält die
Ausgangs-DNA, die zwei zuvor synthetisch hergestellten Primer, die
DNA-Polymerase sowie die vier DNA-Bausteine A, G, C und T.
Im Thermocycler wird das Reaktionsgemisch einem dreistufigen
Temperaturregime unterworfen. Für die Denaturierung der DNA ist
eine Temperatur von 94°C erforderlich. Erst dann lösen sich die Was
serstoffbrückenbindungen zwischen den Doppelsträngen der Aus-
gangs-DNA auf. Es bilden sich Einzelstränge. Nach dem Abkühlen
auf Temperaturen von 5O-55°C lagern sich die zwei Primer an die
Bindungsstellen in den Randzonen an. Dann synthetisiert das Enzym
DNA-Polymerase den jeweils komplementären DNA-Strang. Da sich
stets nur die Nukleotide Cytosin und Thymin sowie Guanin und Ade
nin verbinden, dienen die zwei getrennten DNA-Stränge als Matrizen
für die Bildung von zwei neuen, vollständigen DNA-Strängen.
Das Temperaturoptimum dieser Reaktion liegt bei 68°C.
Aufgrund der hohen Temperaturen benötigt die PCR hitzestabile
Enzyme. Die DNA-Polymerase wird aus Bakterien isoliert, die in hei
ßen Quellen leben. Diese Enzyme verfügen über spezielle Schutzme
Abb.33: Die wichtigsten Schritte beim Klonieren
95
95
Molekulare Techniken
96
Abb.34: Prinzip der Polymerase-Kettenreaktion (PCR)
chanismen, so dass sie auch bei extremen Temperaturen noch aktiv
sind. Das am häufigsten verwendete Enzym ist die Taq-Polymerase.
Diese Bezeichnung leitet sich vom Namen des Bakteriums ab, das
Thermus aquaticus heißt.
Der Zyklus aus Denaturierung, Primeranlagerung und DNA-Syn
these wird 25-40 Mal wiederholt. Alle neu synthetisierten DNA-
Fragmente stehen den nachfolgenden Vermehrungszyklen wieder
als Ausgangs-DNA zur Verfügung. Dies erklärt den exponentiellen
Zuwachs an DNA und den Namen »Kettenreaktion«. Bei optimalen
Bedingungen werden in einer PCR-Reaktion theoretisch nach 25 Wie
96
Molekulare Techniken
derholungen 225 Kopien eines gewünschten DNA-Fragments synthe
tisiert. In Wirklichkeit sind es »nur« 105 bis 106 Kopien. Daher reichen
selbst kleinste Ausgangsmengen an DNA, im Extremfall nur ein ein
ziges DNA-Fragment, um genügende Mengen an DNA-Kopien für
die weitere Analyse zu synthetisieren. Als Vervielfältigungsmethode
erreicht die PCR ihre Grenzen dann, wenn die Länge der DNA-Ab
schnitte 5000 bis 8000 Basenpaare überschreitet. Sie ist also nur für
die Vermehrung relativ kurzer DNA-Abschnitte geeignet.
Bei der DNA-Sequenzierung wird die genaue Abfolge der Nukleoti
de entlang eines DNA-Strangs bestimmt. Hierfür gibt es verschiede
ne Verfahren. Heute wird meist die Kettenabbruch-Methode ange
wandt, die Frederick Sanger und Kollegen in den 1970er Jahren
entwickelten. Das Grundprinzip ist die enzymatische Synthetisie
rung eines DNA-Strangs und erinnert in seinen Grundzügen an die
Polymerase-Kettenreaktion (PCR). Auch bei der DNA-Sequenzierung
werden die drei Schritte (1) Denaturierung, (2) Primeranlagerung und
(3) DNA-Synthese durchlaufen. Das Raffinierte an der Methode nach
Sanger ist der gezielte Einsatz von vier »Stopp-Nukleotiden« (Dide
soxynukleotide). Ihnen fehlt eine OH-Gruppe am Zuckerrest. Die
Stopp-Nukleotide werden zwar von der Polymerase noch an der zu
gehörigen Stelle in den neu synthetisierten DNA-Strang eingebaut,
aber die Synthese bricht danach ab. So erklärt sich auch der Name
Kettenabbruch-Methode. Für die spätere Entschlüsselung der DNA-
Sequenz gibt es unterschiedliche Markierungssysteme für die
Stopp-Nukleotide. So kann etwa an jedes der vier Stopp-Nukleotide
ein jeweils anderer Fluoreszenz-Farbstoff gebunden werden.
Ein weiterer Unterschied zur Polymerase-Kettenreaktion besteht
darin, dass nur ein Primer, nämlich der Sequenzier-Primer, verwendet
wird. Bei der PCR dienen beide Einzelstränge als Matrizen für die neu
synthetisierte DNA. Bei der DNA-Sequenzierung lagert sich der
Sequenzier-Primer nur an einen der beiden DNA-Stränge an, der
damit als Matrize für die Neusynthese dient. Der zweite Strang wird
97
97
Molekulare Techniken
98 nicht analysiert. Die Sequenzierung der DNA verläuft daher aus
schließlich in eine Richtung.
Damit enthält der »Sequenzier-Cocktail« bei der Kettenabbruch-
Methode die zu sequenzierende DNA, einen Sequenzier-Primer (P),
das Enzym Polymerase, die vier DNA-Bausteine A, G, C und T sowie
in geringer Konzentration - die vier farbig markierten Stopp-Nukleo
tide.Wie bei der PCR wird dieses Gemisch im Thermocycler nachein
ander drei unterschiedlichen Reaktionsbedingungen ausgesetzt.
Nach der Denaturierung lagert sich der Sequenzier-Primer (P) an
einen der beiden DNA-Stränge an. Im dritten Schritt wird der kom
plementäre DNA-Strang synthetisiert. Die DNA-Synthese endet,
wenn ein Stopp-Nukleotid eingebaut wird. Bei 25 bis 35 Wiederho
lungszyklen darf davon ausgegangen werden, dass sich an jedes Nu
kleotid der Ausgangs-DNA ein passendes Stopp-Nukleotid anlagert.
Dadurch entstehen aus den ursprünglichen, gleich langen DNA-
Strängen zahlreiche neue DNA-Fragmente unterschiedlicher Länge.
Ein kleines Beispiel soll das Prinzip der Kettenabbruch-Methode
veranschaulichen: Gegeben sei der zu analysierende DNA-Strang
TAGGTACT. Im Ergebnis der DNA-Sequenzierung entstehen die acht
verschieden langen, jeweils neu synthetisierten DNA-Fragmente T,
TA, TAG, TAGG, TAGGT, TAGGTA, TAGGTAC und TAGGTACT, die jeweils
an den Sequenzier-Primer (P) gebunden sind. Die Länge der verschie
denen DNA-Fragmente lässt sich mit Hilfe der Gel-Elektrophorese
bestimmen. Abbildung 35a zeigt das Gemisch aus den acht verschie
den langen DNA-Fragmenten. Dieses Gemisch wird in Abbildung 35b
auf ein Sequenzier-Gel gegeben. Zum Auftragen der Probe enthält
der obere Rand des Gels Vertiefungen oder Kerben. Am unteren Rand
des Gels befindet sich der Laser, der die Farbmarkierungen erkennt
und diese Signale über einen Detektor an den Computer weiterlei
tet. Für das Auftrennen der unterschiedlich langen DNA-Fragmente
entsprechend ihrer Masse nutzt man die Bewegung elektrisch gela
dener Körper in einem elektrischen Feld. Dazu wird an das Gel eine
98
Molekulare Techniken
99
Abb.35: Auftrennung von DNA-Fragmenten in einem Sequenzier-Gel.
a) Gemisch von unterschiedlich langen DNA-Fragmenten nach der DNA-Sequen
zierung; P kennzeichnet den Sequenzier-Primer, die vier Stopp-Nukleotide sind far
big markiert.
b) Auftragen der Probe auf das Sequenzier-Gel.
c) Trennung der DNA-Fragmente im elektrischen Feld und Signalempfang durch
einen Laser.
Spannung angelegt (Abbildung 35c). Da die DNA negativ geladen ist,
bewegen sich alle DNA-Fragmente von der Kathode (-) zur Anode
(+), nur verschieden schnell. Die kurzen und damit leichteren Frag
mente wandern am schnellsten, während die längeren und somit
schwereren Fragmente entsprechend langsamer sind. Daher erfolgt
im elektrischen Feld das Sortieren der zahlreichen, unterschiedlich
langen DNA-Fragmente nach ihrer jeweiligen Länge. Die kürzesten
99
Genetische Drift
100 Fragmente (P-T, P-TA, P-TAC.) kommen zuerst am Laser an, die län
geren Fragmente später.
Der Laser regt die vier verschiedenen Fluoreszenz-Farbstoffe an, die
an die jeweiligen Stopp-Nukleotide gebunden sind. Die vier unter
schiedlichen Lichtimpulse werden von der Sequenziermaschine auto
matisch registriert und in die Sequenz-Datei des zu analysierenden
DNA-Strangs umgeschrieben. Pro Durchlauf lassen sich DNA-Frag
mente mit einer Länge von 600 bis 800 Basenpaaren analysieren.
Genetische Drift
Die Idee der genetischen Drift ist einer der Grundbausteine für die
Theorie der neutralen Evolution. Sie verdient es, genauer erläutert zu
werden. In einer Population existiert ein Gen typischerweise in ver
schiedenen Versionen (so genannte Allele), die sich in ihrer DNA-
Sequenz unterscheiden. In Abwesenheit anderer evolutionär wirksa
mer Faktoren wie Selektion, Mutation und Migration erwartet man,
dass die Allelfrequenzen in jeder Generation gleich sind. Da Popula
tionen eine endliche Größe haben, kommt es bei der Weitergabe der
Allele einer Elterngeneration an ihre Nachkommen zu zufälligen Än
derungen der Allelfrequenzen. Einige Individuen werden keine Nach
kommen haben, ihre Allele sterben aus. Andere Individuen haben
mehrere Nachkommen, die entsprechenden Allele werden in der
nächsten Generation häufiger vertreten sein. Daraus ergeben sich
Schwankungen in der Nachkommenzahl pro Individuum, die zwi
schen den jeweiligen Generationen zu unterschiedlichen Allelfre
quenzen führen.
Dieser Zufallsprozess heißt (zufällige) genetische Drift. Er wurde
von Sewall Wright (1889-1988) beschrieben, einem der Urväter der
theoretischen Populationsgenetik. Zufällige Schwankungen in den
Allelfrequenzen führen dazu, dass letztendlich nur ein Allel in der
Population fixiert wird. Die Population verliert durch Drift ihre gene
100
Die neutrale Theorie der Molekularen Evolution
tische Variabilität. In einer kleinen Population geschieht dies schnel
ler als in einer sehr großen Population.
Die neutrale Theorie der Molekularen Evolution
Motoo Kimura (1924-1994) formulierte 1968 die neutrale Theorie
der Molekularen Evolution, um das Ausmaß an Variabilität in einer
Population auf molekularem Niveau zu erklären. Die Theorie besagt,
dass der Großteil der Substitutionen neutral sind, das heißt sie
haben keinen Einfluss auf die Anzahl der Nachkommen des betrof
fenen Individuums.
Das heißt aber nicht, dass es keine Selektion gibt. Kimura postu
lierte lediglich, dass die Mehrzahl der Basenaustausche auf moleku
larem Niveau nicht adaptiv, das heißt für das Individuum nicht vor
teilhaft sind. Finden solche vorteilhaften Mutationen statt, dann
führt dies zu einer besseren Anpassung an die herrschenden Um
weltbedingungen, und die Nachkommen dieser Individuen verbrei
ten sich schneller durch die Population (so genannte positive oder
Darwinsche Selektion). Diese seltenen Mutationen wurden von Ki
mura nicht weiter untersucht. Auch schädliche (deleterious) Muta
tionen wurden von Kimura nicht betrachtet, da sie schnell aus der
Population verschwinden. Individuen, die schädliche Mutationen
tragen, sterben entweder sehr schnell oder haben keine respektive
schlecht angepasste Nachkommen. Diese Form der Selektion heißt
in der Fachsprache negative oder reinigende Selektion (purifying selection). Schädliche Mutationen sind für die Mehrzahl der Veränderungen im
Genom verantwortlich, während sie die genetische Variabilität einer
Population nur unwesentlich beeinträchtigen. Es sind die vorteilhaf
ten und neutralen Substitutionen, die für die Evolution einer Popula
tion wichtig sind. Welchen genauen Anteil dabei die neutralen Sub
stitutionen haben, wird nach wie vor unter Fachleuten diskutiert.
101
101
Die neutrale Theorie der Molekularen Evolution
102 Für die neutrale Mutante eines Gens kann nicht die natürliche Se
lektion als treibende Kraft der Evolution herangezogen werden. Neu
trale Mutanten können allein durch die Wirkung des Zufalls in einer
Population fixiert werden, das heißt alle Individuen der Population
sind nach einiger Zeit Träger dieser Mutation. Die Evolutionsrate gibt
die Geschwindigkeit an, mit der eine neutrale Mutante in der Popu
lation fixiert wird.
Überraschenderweise hat die Größe der Population keinen Einfluss
auf die Evolutionsgeschwindigkeit. In einer Wright-Fisher-Population
ist die Evolutionsrate gleich der Substitutionsrate.
Die im Lauf der letzten Jahrzehnte angesammelten molekularen
Daten ermöglichen es, die von der Theorie vorhergesagten Effekte zu
überprüfen.
Da die Evolutionsrate im neutralen Fall nur von der Rate abhängt,
mit der neutrale Substitutionen auftreten, bestimmt die Substitu
tionsrate die Evolutionsgeschwindigkeit. Betrachtet man Gene, bei
denen die meisten Aminosäuren für die Funktion des resultierenden
Proteins wichtig sind, so sind die meisten Mutationen schädlich und
werden sofort durch negative Selektion eliminiert. In einem solchen
Szenario ist nur ein kleiner Anteil aller auftretenden Mutationen
selektiv neutral. Allgemein gilt für protein-codierende Sequenzen,
dass die Substitutionsrate an nicht-synonymen Positionen kleiner
als an synonymen Positionen ist (siehe Tabelle 1). Ursache dafür ist,
dass nur die nicht-synonymen Substitutionen die Aminosäure-Se
quenz ändern und somit unter Umständen zu einem funktionsunfä
higen Protein führen. Im Gegensatz dazu haben Pseudogene, das
heißt funktionslos gewordene DNA-Abschnitte, die höchste Evolu
tionsrate.
Kimuras Modell der neutralen Evolutionstheorie ist nicht unum
stritten, hat aber aufgrund seiner Einfachheit und seiner quantitati
ven Natur den Vorteil, dass es testbare Vorhersagen macht, die sich
anhand molekularer Daten überprüfen lassen. Stimmen die Daten
102
Die molekulare Uhr
mit den Vorhersagen überein, so kann dies als ein Erfolg der Theorie
gewertet werden. Eine klassische Vorhersage der neutralen Theorie
ist die Existenz einer molekularen Uhr.
Die molekulare Uhr
Emile Zuckerkandl und Linus Pauling (1901-1994) machten 1965 die
Aufsehen erregende Entdeckung, dass die Unterschiede zwischen
Aminosäuresequenzen proportional zur Aufspaltungszeit der Arten
sind (Abbildung 36). Sie schlugen daher vor, dass für jedes Protein die
Evolutionsrate mehr oder weniger konstant in der Zeit ist. Eine Be
obachtung, die sicher auch Kimura bei der Formulierung der neutra
len Theorie inspiriert hat.
Mit einer molekularen Uhr und der Kenntnis der Evolutionsrate
können Aufspaltungsereignisse von Arten ohne fossile Funde datiert
werden. Da die Anzahl der Substitutionen (d) proportional zum Pro
dukt aus der Zeit (t) seit dem Aufspaltungsereignis und der Evolu
tionsrate (m) der Sequenz ist, kann man die Beziehung
d = 2 · P · t
benutzen, um anhand zweier rezenter Sequenzen entweder die Zeit
(t) oder die Evolutionsrate (P) zu schätzen. Die Evolutionsrate einer
Art kann dann beispielsweise benutzt werden, um für andere Arten,
bei denen die paläontologischen Aufspaltungszeiten unbekannt
sind, die Aufspaltungszeit zu ermitteln.
Die Evolutionsrate für die nicht-synonymen Substitutionen des D-Hämoglobins beträgt P = 0,56 · 10-9 Substitutionen pro Position und
Jahr. Der Vergleich der a-Hämoglobin-Sequenzen zwischen Mensch
und Ratte ergibt d = 0,093 Substitutionen pro Position. Somit haben
sich die Hämoglobin-Sequenzen von Mensch und Ratte vor
t = 0,093 / (2 · 0,56 · 10-9) = 80 000 000
103
102
Die molekulare Uhr
104
Abb.36: Lineare Beziehung zwischen paläontologischen Aufspaltungszeiten und
der Substitutionsrate verschiedener Proteine.
Jahren aufgespalten. Die Einfachheit dieser Idee und ihre universelle
Anwendbarkeit hat in den folgenden Jahren zu einer Flut von Datie
rungen geführt, die vorher nicht möglich waren. Zu den spektakulärs
ten Ergebnissen der Datierung mit Hilfe der molekularen Uhr gehö
ren die Schätzungen der Aufspaltungszeiten für Prokaryoten und
Eukaryoten (2,0 bis 2,6 Milliarden Jahre), für Pflanzen, Pilze und Tiere
(1,0 bis 1,2 Milliarden Jahren) sowie für Mensch und Schimpanse (5,0
Millionen Jahre). Die geschätzte Aufspaltungszeit für Mensch und
Schimpanse widersprach dramatisch den damaligen paläontologi
schen Schätzungen, die von 15 Millionen Jahren ausgingen.
Mit der zunehmenden Anzahl an ausgewerteten Sequenzen
(meistens Aminosäuresequenzen) wurde die Existenz der molekula
ren Uhr ein wenig abgeschwächt. Kimura schrieb 1983:
»For each protein, the rate of evolution in terms of amino acid sub
stitutions is approximately constant per year per site for various
104
Der Coalescent-Prozess
lines, as long as the function and tertiary structure of the molecule
remains essentially unaltered.«
Wenn ein Gen beispielsweise seine Funktion oder Teile seiner Funk
tionalität verliert beziehungsweise eine neue biologische Funktion
erhält, greift der zweite Teil von Kimuras Zitat. Die Funktionsände
rung des Gens führt zu einer Änderung der funktionellen Beschrän
kungen, die auf das Gen wirken. Eine Konsequenz ist eine Änderung
der Substitutionsrate.
Die Diskussion über die Existenz einer molekularen Uhr ist auch
heute noch nicht abgeschlossen. Eine Reihe von Hypothesen wurden
und werden diskutiert, um Abweichungen von der molekularen Uhr
zu erklären. Die Hypothesen lassen sich grob in zwei Klassen eintei
len: (1) Replikations-abhängige Faktoren wie Generationszeit und
Effizienz der DNA-Reparatur und (2) Replikations-unabhängige Fak
toren wie Grundstoffwechsel, Körpergröße und Umwelteinflüsse.
Welchen Einfluss die jeweiligen Faktoren tatsächlich haben, wird
noch kontrovers diskutiert. Sicher ist, dass sowohl (1) als auch (2) ver
schieden starke Abweichungen von der molekularen Uhr verursa
chen. Daher ist es extrem schwierig, den Beitrag eines einzelnen Fak
tors zu ermitteln.
Der Coalescent-Prozess
Der Coalescent-Prozess beschreibt die Entstehung einer Genealogie
in einer Population beim Zurücklaufen in der Zeit und ist somit eine
theoretische »Umkehrung« der genetischen Drift, bei der das Schick
sal einzelner Sequenzen vom Jetzt-Zeitpunkt aus in die Zukunft ver
folgt wird. Beim Coalescent-Prozess verfolgt man das Schicksal von
Sequenzen vom Jetzt-Zeitpunkt zurück in die Vergangenheit.
Entscheidend beim Coalescent-Prozess ist das Verschmelzen von
Linien (Individuen oder homologe Sequenzabschnitte). Zum Zeit
punkt des Verschmelzens »entsteht« der gemeinsame Vorfahre der
105
105
Der Coalescent-Prozess
106 verschmolzenen Linien. Startet man mit vielen Kopien eines Gens, so
nimmt deren Anzahl aufgrund der Verschmelzung einzelner Kopien
im Laufe der Zeit ab. Letztendlich wird es einen einzigen gemeinsa
men Vorfahren aller Linien geben (most recent common ancestor, abgekürzt MRCA). Solange keine Rekombination stattfindet, ent
steht durch den Coalescent-Prozess ein Baum, die so genannte Ge
nealogie. Diese Genealogie beschreibt die zufällige Verwandtschaft
einer Stichprobe von Genkopien. Im Gegensatz zu einem phylogene
tischen Baum, der eine einzige Realisierung eines geschichtlichen
Prozesses ist, ist die Genealogie immer zufällig.
Die große Popularität von Genealogien basiert auf der Tatsache,
dass sich nicht nur evolutionäre Prozesse wie Selektion und Drift, son
dern auch unterschiedliche demographische Faktoren, wie Wachs
tum oder Schrumpfung einer Population aus den verschiedenen Ver
zweigungsmustern ableiten lassen. Anders ausgedrückt: Aus einer
Genealogie beziehungsweise deren Verzweigungsmuster kann auf
diejenigen Prozesse geschlossen werden, die der Population ihre heu
tige Struktur verliehen haben. Umgekehrt lassen sich populations
genetische Phänomene (etwa die Ausbreitung erblicher Krankhei
ten) mithilfe der Coalescent-Theorie sehr einfach auf dem Computer
simulieren. Die Tatsache, dass sich auch komplizierte evolutionäre
Szenarien mittels effizienter Computerprogramme simulieren las
sen, die dann mit den tatsächlichen Daten verglichen werden, macht
den Coalescent-Prozess mit seinen Modifikationen zu einem der
wichtigsten Werkzeuge der Populationsgenetik.
Der mathematische Grundgedanke der Coalescent-Theorie wird hier
vereinfacht dargestellt. Eine Grundvoraussetzung ist, dass sich die
Population nach dem Wright-Fisher-Modell entwickelt. Das Wright-
Fisher-Modell ist gewissermaßen das Null-Modell der Populations
biologie, es macht die folgenden vereinfachenden Annahmen: Es sei
G die Anzahl der Kopien eines Gens in einer Population. G ist in jeder
Generation gleich groß, so dass die Population in ihrer Größe weder
106
Der Coalescent-Prozess
wächst noch schrumpft. Die Paarung zwischen den einzelnen Mit
gliedern der Population ist zufällig und wird nicht von Selektionsfak
toren oder geographischer Isolierung beeinflusst. In der Fachsprache
wird hierfür der Begriff Panmixie (Allmischung) verwendet. Zwi
schen einer Vorfahrengeneration und deren Nachkommen gibt es
keine Überlappung, das heißt dass sich immer nur die Individuen
einer Generation paaren. Die Anzahl der Nachkommen pro Individu
um ist zufällig. Einige Individuen haben keine Nachkommen, andere
haben genau einen, zwei oder mehrere Nachfahren. Die Gesamtan
zahl der Nachkommen ist aber in jeder Generation gleich groß.
Selektion findet nicht statt. Jedes Individuum hat mit der gleichen
Wahrscheinlichkeit Nachkommen, der Reproduktionserfolg ist daher
eine zufällige Größe.
Werden diese Annahmen erfüllt, lässt sich beispielsweise die mitt
lere Zeitspanne (gemessen in der Zahl der Generationen) berechnen,
bis zwei zufällig ausgewählte Individuen beziehungsweise Gene I1
und I2 ihren gemeinsamen Vorfahren finden. Es ist klar, dass I1 von
einer der G-Kopien der Vorgängergeneration abstammt. Mit Wahr
scheinlichkeit 1/G stammt I2 auch von genau diesem Vorfahren ab.
Tritt dieses Ereignis ein, so liegt der gemeinsame Vorfahre (MRCA)
der beiden Gene nur eine Generation zurück. Mit einer Wahrschein
lichkeit von 1–1/G haben I1 und I2 verschiedene Vorfahren. Ihr MRCA
liegt dann wenigstens zwei Generationen zurück.
Die eben angestellte Überlegung kann für die direkten Vorfahren
von I1 und I2 wiederholt werden. Die Eltern von I1 und I2 haben mit
der Wahrscheinlichkeit 1/G ihren MRCA in der Vorgängergeneration
oder mit der Wahrscheinlichkeit 1-1/G verschiedene Vorfahren. So
mit ist die Wahrscheinlichkeit, dass I1 und I2 ihren MRCA in der 2. Vor
fahrgeneration haben
(1 – 1/G) · (1/G).
Daraus lässt sich die Wahrscheinlichkeit P2(i) berechnen, nach der I1
107
107
Der Coalescent-Prozess
108 und I2 in der i-ten Vorfahrgeneration verschmelzen. Sie ist
P2(i) = (1-1/G)i-1 – (1/G) für i = 1,2,...
Dies ist die geometrische Verteilung mit dem Parameter 1/G. Für die
geometrische Verteilung ist der Mittelwert gerade G. Es werden also
durchschnittlich G Generationen bis zum MRCA benötigt.
Wie lange dauert es, bis eine Stichprobe von drei Genen ihren
MRCA gefunden hat? Wieder genügt es, den Übergang von der heu
tigen Generation zur Elterngeneration zu betrachten. Abbildung 37
zeigt die möglichen Verschmelzungsereignisse für drei Gene.
Die Wahrscheinlichkeit für wenigstens eine Verschmelzung ist die
Summe der Einzelwahrscheinlichkeiten in Abbildung 37. Man erhält
3(G-1)/G2 + 1/G2 § 3/G.
Der erste Summand gibt die Wahrscheinlichkeit für genau eine Ver
schmelzung an, es bleiben also zwei Linien übrig (Abbildung 37 links).
Der zweite Summand steht für das sehr unwahrscheinliche Ereignis,
dass die drei Linien gleichzeitig verschmelzen (Abbildung 37 rechts).
Da simultane Verschmelzungen sehr unwahrscheinlich sind, wird
der zweite Summand nicht weiter berücksichtigt. Daraus folgt, dass
mit der Wahrscheinlichkeit 5/G pro Generation ein Verschmelzungs
ereignis stattfindet. Die Wartezeit bis zum ersten Verschmelzungs
ereignis beträgt nun G/3 Generationen. Die Stichprobe ist von drei
Linien auf zwei Linien verkleinert.
In einer zufälligen Stichprobe von n Genkopien aus einer Popula
tion gibt es n·(n-1)/2 mögliche Gen-Paare, die einen gemeinsamen
Vorfahren in der vorhergegangenen Generation haben können. Ist n im Verhältnis zu G klein, dann ist die Wahrscheinlichkeit für das erste
Coalescent- beziehungsweise Verschmelzungs-Ereignis in der i-ten
Generation
108
Die genetische Variabilität einer Population
für i = 1, 2, ... Die mittlere Wartezeit Tn bis zwei von n Linien ver
schmelzen ist somit
Tn = 2·G/n·(n-1).
Je größer die Stichprobe, desto schneller findet das erste Coalescent
ereignis statt, da T2 = G, T3 = G/3, T4 = G/6 usw.
Hat ein Coalescentereignis stattgefunden, startet der Prozess der
Verschmelzung von Linien mit n-1 Linien neu. Bis die letzten beiden
Linien verschmolzen sind, vergehen also
TMRCA = Tn + Tn-1 + ... + T2 =
2·G·{1/n·(n-1) + 1/(n-1)·(n-2) + ... 1} = 2·G·(1-1/n) § 2·G
Generationen. Nach 2G Generationen sind alle Linien auf ihren
MRCA, ihren gemeinsamen Vorfahren, zurückgeführt.
Computersimulationen machen es heute möglich, den Coales
cent-Prozess auch für Populationen zu modellieren, die nicht wie das
einfache Wright-Fisher-Modell evolvieren. Dafür ist dann die mathe
matische Behandlung des Modells in vielen Fällen nicht mehr mög
lich.
Die genetische Variabilität einer Population
Im Allgemeinen bezeichnet man mit genetischer Variabilität oder
genetischen Polymorphismen (Vielgestaltigkeit) das Vorhandensein
verschiedener Zustände eines vererbbaren Merkmals in einer Popu
lation. Polymorphismen gibt es auf den unterschiedlichsten Ebenen,
zum Beispiel morphologische Varianten in einer Population, chromo
somale Variabilität, verschiedene Allele eines Proteins und letztend
lich auch Nukleotidvariationen auf dem DNA-Niveau. Die Variabilität
zeichnet die Spuren der Evolutionsgeschichte in einer Population
109
109
Das Jukes-Cantor-Modell der Sequenzevolution
110 nach. Die genetische Variabilität eines Gens in einer Population kann
nur während der Zeitspanne vom MRCA bis heute entstanden sein.
Im Wright-Fisher-Modell stehen also 2G Generationen zur Verfü
gung. Da das Wright-Fisher-Modell sehr einfach ist, kann die erwar
tete Variabilität auf dem Sequenzniveau berechnet werden.
Ein Maß für die genetische Variabilität in einer Stichprobe von n
Sequenzen ist das arithmetische Mittel der paarweisen Sequenz-
unterschiede (D), wenn das infinite-sites-model zugrunde liegt. Das
arithmetische Mittel kann leicht anhand der Daten berechnet wer
den. Theoretische Überlegungen zeigen, dass
(1) D = 2 · G · P = TMRCA · P
ist, wobei P die Substitutionsrate pro Sequenz und Generation ist.
Die genetische Variabilität, gemessen als mittlerer paarweiser Se
quenzunterschied, wird also bestimmt durch die Anzahl der Genko
pien in der Population und die Mutationsrate. Je mehr Kopien eines
Gens vorhanden sind, umso größer ist die Variabilität.
Anstelle der erwarteten Anzahl an paarweisen Unterschieden
kann auch die erwartete Anzahl an variablen Positionen Sn in einer
Stichprobe von n Sequenzen bestimmt werden. Es gilt
(2) Sn = 2·G·P·(1+1/2 + 1/3 +... +1/(n-1)).
Die Formeln (1) und (2) gelten nur für Populationen mit Wright-Fisher-
Modell. Sn ist dabei proportional zu D und die Proportionalitätskon
stante (1 + 1/2 +1/s + ...+1/(n-1)) hängt von der Stichprobengröße ab.
Das Jukes-Cantor-Modell der Sequenzevolution
In den letzten Jahren wurden eine Vielzahl von Modellen zur Se
quenzevolution entwickelt, die zum Ziel haben, den Prozess des Nu
kleotidaustausches realistischer abzubilden. Getrieben wurden und
werden diese Entwicklungen durch die ständige Akkumulation von
110
Das Jukes-Cantor-Modell der Sequenzevolution
111
Abb.37: Mögliche Verschmelzungsereignisse (zwei Gene verschmelzen und das
dritte nicht; alle drei Gene verschmelzen) für drei Gene mit den jeweiligen Wahr
scheinlichkeiten.
neuen Sequenzdaten. So ergaben die Auswertungen beispielsweise,
dass Transitionen wahrscheinlicher sind als Transversionen, dass die
Basenhäufigkeiten in unterschiedlichen Regionen des Genoms vari
ieren, dass einzelne Positionen eine hohe Mutationsrate haben, wäh
rend andere Positionen invariabel sind. Diese Beobachtungen kön
nen alle in ein einheitliches Evolutionsmodell integriert werden, das
dann bei der Auswertung beliebiger Sequenzalignements zur Verfü
gung steht.
Um die prinzipielle Idee von Substitutionsmodellen zu erläutern,
wird hier das relativ einfache Jukes-Cantor-Modell vorgestellt. Für
eine mathematische Handhabbarkeit werden eine Reihe von Verein
fachungen gemacht: Die vier Nukleotide kommen mit gleicher Häu
figkeit vor und alle Substitutionen (Transitionen und Transversionen)
sind gleich wahrscheinlich. Daraus folgt, dass Nukleotid-Austausche
an jeder Position der Sequenz mit gleicher Wahrscheinlichkeit auf
treten. Findet eine Substitution statt, so wird das vorhandene
Nukleotid durch eines der drei anderen Nukleotide mit gleicher Rate
a ersetzt, wobei a zum Beispiel in Jahren gemessen wird. Eine Posi
tion in der Sequenz evolviert mit der Gesamtrate r=3D. Der Parame
111
Wer sind die nächsten Verwandten der Wale?
112 terrist die Evolutionsrate pro Position und Jahr. Er ist typischerweise
so klein, dass rauch als Wahrscheinlichkeit für eine Substitution pro
Jahr interpretiert werden kann. Innerhalb von t Jahren finden daher
im Mittel r · t Substitutionen an einer Position statt. Dann ist
Pxx(d) = 1/4 + (3/4) exp[-4·d/3]
die Wahrscheinlichkeit für ein identisches Nukleotidpaar, wenn d Substitutionen stattgefunden haben. Mit dieser Gleichung kann aus
der Wahrscheinlichkeit für ein identisches Nukleotidpaar die Zahl
der tatsächlich stattgefundenen Substitutionen berechnet werden
d = –(3/4) ln [1–(4/3)·p)]
wobei p = 1-Pxx(d) die Wahrscheinlichkeit für ein verschiedenes Nu
kleotidpaar ist. Diese Formel ist die so genannte Jukes-Cantor-Kor
rekturformel zur Berechnung der Zahl an Substitutionen aus den
beobachteten Unterschieden.
Die Berechnung zeigt, dass für zwei Sequenzen nur die Zahl der
Substitutionen geschätzt werden kann, aber nicht die Evolutionsra
te r oder die Zeit W. In der Praxis wird für zwei Sequenzen der Wert von p geschätzt,
indem die Zahl unterschiedlicher Nukleotidpaare durch die Länge
der alignierten Sequenzen geteilt wird; p eingesetzt in die Jukes
Cantor-Korrekturformel ergibt die geschätzte Zahl an stattgefunde
nen Substitutionen.
Wer sind die nächsten Verwandten der Wale? Ein nicht-sequenzbasierter Ansatz zur Aufklärung
der Phylogenie
Neben der sequenzbasierten Rekonstruktion von Stammbäumen
können auch andere genetische Merkmale für die Untersuchung der
verwandtschaftlichen Beziehungen von Organismen herangezogen
112
Wer sind die nächsten Verwandten der Wale?
113
Abb.38: Cladogramm der Paarhufer und Wale (Cerartidactyla).
Die Pfeile markieren jeweils die Insertion eines SINEs oder LINEs.
werden. Ausgezeichnete Kandidaten sind zum Beispiel die SINEs und
LINEs der Eukaryoten (siehe Abbildung 3). SINEs sind repetitive DNA-
Abschnitte von 80-400bp Länge, wohingegen die LINEs von einigen
loo bis zu einigen 1000bp lang sind. SINEs und LINEs sind von tRNAs
abgeleitete Retrotransposons, das heißt »bewegliche« genetische
Elemente, die zur Selbstreplikation in der Lage sind. Anders als bei
der Transkription von Genen, bei der die DNA-Sequenz in mRNA um
geschrieben wird, dient hier eine tRNA-Sequenz als Matrize für die
zu synthetisierende DNA. Deshalb werden die transponierbaren Ele
113
Wer sind die nächsten Verwandten der Wale?
114 mente als Retrotransposons (retro = rückwärts) bezeichnet. Die repli
zierten SINEs oder LINEs werden dann zufällig in das Genom des
Organismus integriert. Meist - aber nicht immer! -findet dieser Ein
bau in einer nicht-kodierenden Region statt. SINEs und LINEs verhal
ten sich dann selektiv neutral. Es wird angenommen, dass Insertio
nen von SINEs und LINEs einmalige, irreversible Prozesse sind und es
daher sehr unwahrscheinlich ist, dass sie mehrfach unabhängig von
einander an der gleichen Stelle im Genom eingebaut werden. Wenn
sie einmal an einem bestimmten Ort im Chromosom vorkommen,
gehen sie im Verlauf der Evolution so gut wie nie verloren. Ausnah
men sind großräumige Deletionen ganzer genomischer Abschnitte.
Die Anwesenheit identischer SINEs oder LINEs in relativ nah ver
wandten Lebewesen ist daher ein starkes Indiz für einen gemeinsa
men Vorfahren. Solche Daten werden durch eine 0-1-Matix reprä
sentiert: Ein Transposon ist entweder vorhanden (i) oder nicht
vorhanden (o). Für diese Datenmatrix lässt sich dann mittels Maxi-
mum-Parsimonie der zugehörige Baum bestimmen, wobei die Merk
male nun die Insertion eines SINEs oder LINEs sind und nicht die
Substitution eines Nukleotids. Da die Insertion eines SINEs oder
LINEs an einer Stelle im Genom ein einmaliges Ereignis ist und sogar
der ursprüngliche Zustand (keine Insertion) bekannt ist, eignen sich
auf Parsimonie basierte Rekonstruktionsmethoden sehr gut dazu,
den zugehörigen Baum zu rekonstruieren.
Ein bekanntes Anwendungsbeispiel ist die Aufklärung der ver
wandtschaftlichen Beziehung von Walen (Cetacea) und Paarhufern
(Artiodactyla) mittels Retrotransposons. Anhand morphologischer
und paläontologischer Daten wurde bisher vermutet, dass Wale die
Schwestergruppe der Paarhufer sind. Der in Abbildung 38 dargestellte
Baum basierend auf der Analyse von 21 verschiedenen SINEs und
LINEs zeigt, dass die Wale eine monophyletische Gruppe innerhalb
der Paarhufer (Artiodactyla) sind und die Schwestergruppe zu den
Flusspferden (Hippopotamus) bilden. Bisher übersehene oder unbe
114
»Fossile DNA« - eine Zeitreise in die Vergangenheit
achtete morphologische Ähnlichkeiten zwischen Flusspferden und
Walen stützen die Schwestergruppen-Hypothese: etwa das Fehlen
von Körperhaaren, die Aufzucht der Jungen unter Wasser und die
Unterwasserkommunikation. Es wurde daher vorgeschlagen, die
Paarhufer unter Einschluss der Wale in der umbenannten Ordnung
Cerartiodactlya zusammenzufassen.
Dennoch sind SINEs und LINEs nicht der Weisheit letzter Schluss,
da es auch die gleichen Probleme wie bei der sequenzbasierten
Baumrekonstruktion gibt. Dazu zählen vor allem das unvollständige
Aussortieren der Linien (incomplete lineage sorting). Auch SINE- und
LINE-Bäume können sich vom Spezies-Baum unterscheiden. In dem
speziellen Beispiel der Paarhufer und Wale werden die einzelnen
Kanten des Baumes durch mehrere SINEs gestützt, die an ganz ver
schiedenen Stellen im Genom liegen und jeweils die gleiche Ver
zweigung stützen. Zusätzlich gibt es eine sehr hohe Kongruenz zwi
schen dem Auftreten der SINEs und LINEs und der sequenzbasierten
Phylogenie (15 mitochondriale und nukleare Gene), so dass es un
wahrscheinlich ist, dass der vorgeschlagene Baum nicht auch der
Spezies-Baum ist.
»Fossile DNA« – eine Zeitreise in die Vergangenheit
DNA ist ein sehr instabiles Molekül, das durch Wasser oder Sauer
stoff abgebaut wird. Dabei kommt es an den Nukleotiden unter
anderem zur hydrolytischen Abspaltung von Stickstoff-Gruppen
(= Deaminierung) oder ganzen Purinbasen (= Depurinierung). Im le
benden Säugetier ereignen sich spontane Deaminierungen schätz
ungsweise 400 Mal pro Tag, die aber von dem Enzym DNA-Glyko
sylase sofort erkannt und repariert werden. Zusätzlich bilden sich
aus den Nebenprodukten der Atmungskette und beim Einwirken
ionisierender Strahlung zum Beispiel aus der Atmosphäre (= Hinter
115
115
»Fossile DNA« - eine Zeitreise in die Vergangenheit
116
Abb.39: Geologische Zeittafel (in Millionen Jahren) mit angeblichen Nachweisen
über fossile DNA. Gesicherte Funde gibt es nur aus dem Quartär (bis maximal
100000 Jahre).
grundstrahlung) freie Radikale, die zu oxidativen Basenschädigun
gen führen. Auch hier gibt es in den lebenden Zellen mehrere Repa
raturwege, um schwere Schäden zu vermeiden. Nach dem Tod eines
Organismus und dem Aussetzen jeglicher Reparaturmechanismen
ist es daher unwahrscheinlich, dass DNA über lange Zeiträume un
beschädigt erhalten bleibt.
116
»Fossile DNA« - eine Zeitreise in die Vergangenheit
Theoretische Studien haben gezeigt, dass aufgrund kumulativer
Umwelteinflüsse die DNA nach 100000 Jahren zerstört beziehungs
weise nicht mehr »abrufbar« ist. Unter sehr speziellen Umweltbe
dingungen wird dieser Abbau allerdings verzögert. Dazu zählen vor
allem Kälte, Trockenheit und Sauerstoffmangel. Dies erklärt, warum
fossile und subfossile Funde aus Gletschern und dem Packeis der Pole
sowie aus Permafrost-Böden beziehungsweise sauerstofffreien Ein
schlüssen in Mooren trotz ihres Alters noch hinreichend viel DNA liefern.
Trotz dieser vielen Einschränkungen wurde dennoch versucht, alte
DNA zu sequenzieren. Die ersten Arbeiten an Museumsstücken be
gannen in den 1980er Jahren. In der Arbeitsgruppe von Allan Wilson
(1934-1991) an der Universität Berkeley, Kalifornien, wurde 1984
erfolgreich DNA aus einem 140 Jahre alten Quagga kloniert. Diese
Zebraart aus dem südlichen Afrika war vor ca. 120 Jahren ausgestor
ben. Als nächstes wurde in Schweden DNA aus 2400 Jahre alten
ägyptischen Mumien amplifiziert. Allerdings war die Klonierung
wenig effizient, da zum einen große Mengen an Ausgangs-DNA
benötigt wurden und es viele Kopierfehler gab.
Erst mit der Erfindung der PCR wurde es möglich, kleinste Mengen
an DNA zu vervielfältigen. Damit begann eine neue Ära in der Biolo
gie; prähistorische Funde ließen sich nun auch mit molekularen
Techniken bearbeiten. Mit der Untersuchung von alter, »fossiler«
DNA wurde die Molekularbiologie um die zeitliche Dimension berei
chert. Die Ergebnisse erlauben Einblicke in die molekulare Vergan
genheit der Organismen. Die Fachrichtung, die molekulare Metho
den mit der traditionellen Ahnenkunde verbindet, wird auch als
Molekulare Archäologie bezeichnet.
Kurz nach der Etablierung der PCR berichteten 1992 kalifornische
Wissenschaftler über die erfolgreiche Isolierung und Vervielfälti
gung kurzer DNA-Bruchstücke aus einer 25-40 Millionen Jahre alten
Bienenart (Proplebeia dominicana). Die Biene war im dominikani
schen Bernstein eingeschlossen. Wenig später erlangten Termiten
117
117
»Fossile DNA« - eine Zeitreise in die Vergangenheit
118 und Käfer aus libanesischem Bernstein vergleichbare Berühmtheit,
deren Alter sogar auf bis zu 135 Millionen Jahre geschätzt wurde (Ab
bildung 39). 1994 gelang angeblich ein weiterer Durchbruch, näm
lich die Sequenzierung eines 170 Basenpaare langen DNA-Ab
schnitts aus einem 80 Millionen Jahre alten Dinosaurier-Knochen.
Weitere Forschungsgruppen berichteten über die DNA-Isolierung
aus 8-18 Millionen Jahre altem Pflanzenmaterial, darunter Magno
lien-Blätter aus limnischen Sedimenten in Idaho (USA).
All diese Ergebnisse wurden vom wissenschaftlichen Publikum teils
mit Begeisterung, teils mit größter Zurückhaltung aufgenommen.
Die Hauptkritik bestand darin, dass keine ausreichenden Vorkehrun
gen gegen Kontamination getroffen wurden und nicht eine einzige
DNA-Isolierung von unabhängigen Labors bestätigt werden konnte.
In den 1990er Jahren zeigte eine Arbeitsgruppe des Naturhistori
schen Museums London, dass sämtliche alte DNA aus in Bernstein
eingeschlossenen Insekten Artefakte sind. Die tatsächlich amplifi
zierte DNA stammte aus anderen, mit den untersuchten Objekten
nicht näher verwandten Arten. Selbst viel jüngere Insekten, die im
weichen Copal (Vorform des Bernsteins) eingebettet sind, enthalten
keine DNA. Da Bernstein gasdurchlässige Mikroporen besitzt, wird
die eingeschlossene DNA im Laufe der Jahrmillionen durch Oxida
tionsprozesse zersetzt. Daher sind im Bernstein die Bedingungen für
die Konservierung von DNA ausgesprochen schlecht, wenngleich
Insekten und anderes organisches Material makroskopisch sehr gut
erhalten bleiben. Bei der Dinosaurier-DNA haben mehrere Forscher
gruppen nachgewiesen, dass die vermeintliche fossile Sequenz ein
menschliches Pseudogen ist. Es handelt sich dabei um mitochondri
ale DNA-Fragmente, die in das nukleare Genom des Zellkerns inkor
poriert wurden. Die Fremd-DNA wurde von den Forschern im Labor
ins Reagenzglas übertragen.
Dass die Ergebnisse mit alter DNA anfänglich viel Skepsis hervor
riefen, ist daher gut zu verstehen. Mittlerweile sind die Schwierig
118
»Fossile DNA« - eine Zeitreise in die Vergangenheit
keiten aber erkannt worden und allgemein akzeptierte, strenge
Richtlinien sollen helfen, solche Irrtümer in Zukunft zu verhindern.
Eine Erfolgsgeschichte bei der Analyse alter DNA zeichnet sich bei
der Sequenzierung von DNA aus 50000-100000 Jahre alten Über
resten ab. Einige Forschergruppen haben die verwandtschaftlichen
Beziehungen von ausgestorbenen Arten zu ihren rezenten Vertre
tern analysiert. Zu nennen sind hier unter anderem die mitochondri
alen DNA-Studien (mtDNA) am australischen Beutelwolf. Diese zu
Beginn des 20. Jahrhunderts ausgestorbene Art ist näher mit den
Beuteltieren des australischen Kontinents verwandt als mit süd
amerikanischen Beutelraubtieren, denen sie morphologisch sehr
ähnlich sind. Ebenso liefert die fossile mtDNA Hinweise, dass Neu
seeland zweimal von Vorfahren flugunfähiger, straußenartiger Vögel
besiedelt wurde (Abbildung 40). Die Kiwis und die bereits ausge
storbenen Moas sind keine Schwestergruppe, was bislang aufgrund
morphologischer Untersuchungen angenommen wurde. Die Vor
fahren der Moas haben Neuseeland wahrscheinlich in einer ersten
Immigrationswelle vor ca. 80 Millionen Jahren besiedelt, als sich die
Inseln vom Urkontinent Gondwana abtrennten. Die Entwicklungsli
nie der Kiwis scheint sich erst später, vor ca. 30 Millionen Jahren, von
der des australischen Emus abgespalten zu haben. Die Kiwis erreich
ten Neuseeland erst während einer zweiten Immigrationswelle.
Die umfangreichen und gut konservierten fossilen Funde aus den
arktischen Permafrostböden erlauben nun auch Untersuchungen zu
populationsgenetischen Aspekten. Damit lässt sich ein Bild von der
genetischen Komposition einzelner Populationen vor und während
der letzten Eiszeit rekonstruieren, die dann mit den Daten der heuti
gen Populationen in Verbindung gebracht werden. Die mitochondri
alen DNA-Linien der Alaska-Braunbären, die heute in getrennten
geographischen Regionen vorkommen, haben vor ca. 30000 Jahren
in derselben Population zusammengelebt. In einer anderen Studie
wurde die mtDNA von 191 rezenten Pferden mit der von 16 fossilen
119
119
»Fossile DNA« - eine Zeitreise in die Vergangenheit
120
Abb.40: Stammbaum der flugunfähigen Straußenvögel, basierend auf mitochon
drialen DNA-Sequenzen
Pferden aus Nordamerika, Estland und Schweden verglichen. Der äl
teste Knochenfund war 28000 Jahre alt. Die Untersuchungen zeig
ten, dass ein Großteil der ursprünglichen Variabilität der Pferde bei
120
»Fossile DNA« - eine Zeitreise in die Vergangenheit
ihrer mehrfachen Domestizierung erhalten blieb. Wieder andere Un
tersuchungen befassen sich mit der Populationsstruktur der vor et
wa 10000 Jahren ausgestorbenen Höhlenbären und deren Bezie
hungen zu heutigen Braunbären oder untersuchen die veränderte
Evolutionsrate bei Adelie-Pinguinen im antarktischen Eis.
Großes Aufsehen haben die Untersuchungen von lange verstorbe
nen oder bereits fossilisierten Menschen erregt, weil gerade damit
unsere eigene Geschichte im Spiegel der Zeit beleuchtet wird. Wie
bereits erwähnt, wurde mit den ägyptischen Mumien ein erster
Meilenstein gelegt. Kurze Zeit später folgte die Analyse des ca.5000
Jahre alten Tiroler Eismannes, genannt Ötzi. 1997 wurde die erste Se
quenz eines Neandertalers veröffentlicht. Hierbei handelte es sich
um das Typus-Exemplar aus dem Neandertal bei Düsseldorf. Die mi
tochondriale DNA-Sequenz des Neandertalers ist in der heutigen
menschlichen Weltpopulation nicht mehr vertreten, sondern spal
tete sich vor ca. 500000 Jahren von der Linie zum modernen Men
schen ab, lange bevor der jüngste gemeinsame Vorfahre (MRCA) des
modernen Menschen Homo sapiens sapiens lebte, der ca. 170000
Jahre alt ist. Diese Ergebnisse sind eine weitere Bestätigung für die
Arche-Noah-Theorie. Mittlerweile sind DNA-Sequenzen zweier wei
terer Neandertaler ermittelt worden, welche die bisherigen Ergeb
nisse untermauern.
Mit der alten oder fossilen DNA ist die molekulare Evolution in
neue Dimensionen der phylogenetischen Analysen vorgestoßen,
auch wenn Spekulationen über einen Jurassic Park oder die Wieder
belebung bereits ausgestorbener Arten sicher nicht im Bereich der
technischen Möglichkeiten liegen.
121
121
Alignement dot-plot
GLOSSAR
Alignement - Besteht aus zwei Sequenzen, die durch Einführung
eines Extra-Zeichens (»-«) auf gleiche Länge gebracht werden.
s.S.23f.,45ff.,76
Allel - Verschiedene Zustandsformen eines Gens, die auf dem glei
chen chromosomalen Abschnitt liegen. s. S. 100
Außengruppe - Ein Taxon, das sich von einer Gruppe anderer Taxa
abspaltete, bevor diese untereinander divergierten. s. S. 29,49, 70
Baumtopologie - Verzweigungsmuster eines phylogenetischen
Baumes. s. S. 40,46,54
bottleneck - (Flaschenhals) drastische Verkleinerung einer Popula
tion. s. S. 77,79
Codon - Nukleotidtriplett in der DNA beziehungsweise mRNA, das
eine Aminosäure festlegt oder das Ende einer Polypeptidkette sig
nalisiert (Stopp-Codon). s .S. 7,9,12
Clusterungsmethoden -Verfahren zum Gruppieren und Klassifizie
ren von Objekten (Lebewesen), die durch eine Menge von Eigen
schaften (Spalten im Sequenzalignement) beschrieben werden.
s. S. 44
Dichotomie-Aufspaltung einer Linie in zwei neue Linien. s.S.25
dot-plot - Einfache graphische Darstellung zum Vergleich zweier
Sequenzen. s. S. 23f.
122
Evolutionsrate lineage sorting
Evolutionsrate - Geschwindigkeit, mit der eine Mutation in einer
Population fixiert wird. s. S. 702f., 112,121
Genealogie - Gen-Baum, der die Verwandtschaftsverhältnisse von
Allelen eines Gens in einer Population beschreibt. s. S. 70ff.,76ff., 105f.
Gen-Baum -Stammbaum eines Gens. s. S. 36,42, 55ff.
Genom - Die gesamte DNA eines Organismus. Bei Eukaryoten
umfasst dies auch die nicht im Kern vorkommende Mitochondrien-
und Plastiden-DNA. s. S. 4,7ff.,74ff.
Homolog- Die untersuchten Merkmale gehen auf einen gemeinsa
men Vorfahren zurück. s. S. 8, 63f., 105
Indel - Extra-Zeichen, das in ein Sequenzalignement eingeführt
wird, um die während der Evolution aufgetretenen Insertionen oder
Deletionen anzuzeigen. s. S. 22f.
infinite-site-model - DNA-Substitutionsmodell, bei dem jede Posi
tion einer Sequenz nur einmal mutiert. s. S. 78, 82,110
Intron - Nicht-kodierende DNA zwischen den Exons eines Gens.
s. S. 11
Klonierung - Selektive Vermehrung eines gewünschten DNA-Frag
ments. Dabei entstehen zahlreiche identische Moleküle (= Klone),
die alle von einem einzigen Vorläufer abstammen. s. S. 4,92,117
lineage sorting - Ursprüngliche Polymorphien bleiben über Artauf
spaltungsereignisse erhalten. s. S. 60, 89, 775
123
Linie Ortholog
Linie - Lückenloser Fortbestand einer Ahnenreihe. s. S. 23,32,59f.
Minimale Evolution - Distanzbasierte Baumrekonstruktionsmetho
de, s. S. 44
Modell der Sequenzevolution - Mathematische Beschreibung des
Substitutionsprozesses. s .S. 21,45f., 110f.
Monophyletische Gruppe - Umschließt alle Nachfahren des MRCA
einer Gruppe. s. S. 28ff., 52, 114
MRCA (most recent common ancestor) - Der jüngste gemeinsame
Vorfahre einer Kollektion von Sequenzen, Individuen oder Arten.
s. S. 37, 70, 72
Negative Selektion - Eliminierung nachteiliger Mutanten aus einer
Population. s. S. 102
Neighbor-Joining - Clusterungsverfahren zur Rekonstruktion von
distanzbasierten Bäumen. s. S. 39,44f.
Nicht-synonyme Substitution - Der Austausch eines Nukleotids im
Codon führt zu einer Änderung der Aminosäure. s. S. 76
Nukleotid - Eine Base (Adenin, Cytosin, Guanin, Thymin oder Uracil),
die mit einem Zuckermolekül (Ribose oder Desoxyribose) und einer
Phosphatgruppe verbunden ist. s. S. 5, 7,14ff.
Ortholog - Nennt man zwei Gene, wenn sie aufgrund eines Spezia
tionsereignisses entstanden sind. s. S. 63
124
Paralog Substitutionsmodelle
Paralog - Nennt man zwei Gene, wenn sie aufgrund einer Gendupli
kation entstanden sind. s. S. 63
Paraphyletische Gruppen - Enthalten nicht alle Nachkommen einer
Stammart. s. S .29f.
PCR (Polymerase Chain Reaction) - Enzymatische Vervielfältigung
eines DNA-Abschnittes unter Verwendung von zwei Oligonukleotid-
Primern. s. S. 4,93ff., 117
Polyphyletische Gruppen - Enthalten alle Nachkommen verschiede
ner Stammarten, wobei nicht alle Nachfahren des gemeinsamen
Vorfahren der Stammarten in der Gruppe vorkommen. s. S.29f.
Polytomie - Eine Stammart produziert gleichzeitig mehr als zwei
neue Linien. s. S. 25f.
Positive Selektion - Beschreibt das Phänomen, dass sich eine besser
angepasste Mutation in der Population ausbreitet. s. S. 101
Schwestergruppe - Die zu einer monophyletischen Gruppe nächst
verwandte monophyletische Gruppe in einem dichotomen Baum,
s. S. 30, 58, 114
Spezies-Baum - Stammbaum, der die Aufspaltungsfolge einer
Artengruppe darstellt. s. S. 53, 56ff., 115
Stammart - Die Vorfahrenart, aus der eine monophyletische Gruppe
entsteht, s. S. 26,28f., 58ff.
Substitutionsmodelle - Austausch eines Nukleotids oder einer Amino
säure wird mittels mathematischer Modelle beschrieben. s. S. 22, 111
125
Substitutionsrate Zufälliger Fehler
Substitutionsrate - Mittlere Anzahl von Nukleotid- oder Aminosäu
reaustauschen. s. S. 17ff.,51, 102
Synonyme Substitution - Der Austausch eines Nukleotids im Codon
führt nicht zu einer Änderung der kodierten Aminosäure. s. S. 16
Systematischer Fehler- Fehler unterschiedlichster Art, die unabhän
gig von der Stichprobengröße zu einer Verzerrung des Ergebnisses
führen. s. S. 48,50f.
Transition - Basenaustausch zwischen Purinen (Adenin vs. Guanin)
oder zwischen Pyrimidinen (Thymin vs. Cytosin). s. S. 15,47, 110
Transversion - Austausch zwischen einer Purin- und einer Pyrimidin
base. s. S. 75, 19, 22
Wright-Fisher-Modell - Das Nullmodell der mathematischen Popu
lationsbiologie. s. S. 77,106, 109f.
Zufälliger Fehler - Abweichungen, die aufgrund der Zufallsauswahl
der erhobenen Daten entstehen. s.S. 48
126
Literaturhinweise
ALLGEMEINE REFERENZEN
Avise J. C: PhylogeographyrThe History and For
mation of Species. Harvard University Press
2OOO, Cambridge, Massachusetts.
Graur, D. und Li,W.-H.: Fundamentals of Molecular
Evolution, 2nd edition. Sinauer Associates
2000, Sunderland, MA.
Hillis, D. M. et al. (Hg.): Molecular Systematics.
2. Auflage. Sinauer Associates 1998, Sunder
jand, MA.
Kimura, M.:The neutral theory of molecular
evolution. Cambridge University Press 1983,
Cambridge.
Klein, J., und Takahata, N.: Where Do We Come
from: The Molecular Evidence of Human
Descent. Springer-Verlag 2002, Heidelberg.
Knippers, R.: Molekulare Genetik. Thieme Verlag
2001, StuttgartLewin, B-: Genes VII. Oxford
University Press
2000, Oxford.
Li, W.-H.: Molecular Evolution. Sinauer
Associates
1997, Sunderland, AAA.
Nelson, D. und Cox, M.: Lehninger Biochemie.
3. Auflage, Springer-Verlag 2001, Berlin.
Net, M. und Kumar, S.: Molecuiar Evolution and
Phylogenetics. Oxford University Press 2000,
New York.
Pagel, M. D. fHg.): Enydopedia of Evolution.
Volume l und 2. Oxford University Press 2002,
Oxford.
Page, R. D. M. und Holmes, E. C: Molecuiar
Evolution: A phyiogenetic approach. Blackwell
Science 1998, Oxford.
Swofford, D. L et al.: Phyiogenetic inference.
In-. Molecular Systematics, 2. Auflage.
Hillis D M., et al. (Hg.), Seiten 407-514, Sinauer
Associates 1996, Sunderland, MA.
Wageie,J.-W.:Grundlagen der Phylogenetischen
Systematik. Verlag Dr. Friedrich Pfeil 2000,
München.
SPEZIELLE ARBEITEN
Austin, J. i. et al.: Palaeontology in a molecular
world: the research for authentic ancient DNA.
Trends in Ecology and Evolution 12 (1997):
303-306.
Cann, R. L, et a!.: Mitochondrial DNA and human
evolution. Nature 325 (1987): 31-36.
Dayhoff, M.O.Atlas of Protein Sequences and
Structure, Vol. 5, Natl. Biomed. Res. Found. 1972,
Washington, DC.
Donnelly, P., und Tavare, S.: Coalescence and
Genealogical Structure under Neutrality. Ann.
Rev. Genet. 20 (1995): 410-421.
Fitch, W. M.: Toward defining the course of evolution:
Minimum change for a specific tree topology. Syst. Zoo!.
20 (1971): 406-416.
von Haesele^A., et al̂ Thegenetical archaeology
of the human genome. Nature 14 (1996):
135-140.
Hillis, D. M. et al.: Experimental Phylogenetics:
Generation of a known phylogeny Science 255
(1992) : 589-592.
Hofreiter, M. et at.: Ancient DNA. Nature Reviews
Genetics 2 (2001): 353-359.
Hudson, R. R.: Gene genealogies and the coalescent
process. Oxford surveys in evoiutionary
biology-7 (ig9o),i-44.
Janke, A., et ai.:The mitochondrial genome of a
monotreme - the platypus (Ornithorhynchus
anatinus)J.Mol. Evol.42 (1996): 153-159.
Jukes, T. H. und Cantor, CR.: Evolution of protein
molecules. In: Mammalian protein metabolism. H. N.
Munro (Hg.), 21-132. Academic Press
1969, New York.
Kaessmann, H., et al. DNA sequence variation in
a non-coding region of low recombination on
the human X chromosome. Nature 22 (1999):
78-81.
Kaessmann, H.: Great ape DNA sequences reveal
a reduced diversity and an expansion in
humans. Nature Genetics 27 (2001): 155-156.
127
Literaturhinweise
Mullis, K. 8., und Faloona, F.: Specific synthesis of
DNA in vitro via a polymerase catalyzed chain
reaction. Methods Enzyrmo!. 155 {1987):
335-350.
Muse, S.V. und Weir, B. S,: Testing for equality of
evolutionary rates. Genetics 132 (1992): 269276.
Nikaido, M. et al.: Phylogenetic relationships
among cetartiodactyis based from evidence
from SlNEs and LINES: Hippopotamuses are
the closest extant relatives of the whales Proc.
Natl. Acad. Sei. 96 (1999): 10261-10266.
Nordborg, M.:Coatescent Theory, in: The Handbook
of Statistical Genetics, D.J. Balding et al.
(Hg.}, 179-212, Chichester 2001.
Ou, C.-Y. et al.:Mofecular Epidemiology of HIV
transmission in a dental practice. Science 256
(1992): 1165-1171.
Pamilo, N., ur›d Nei, M.: Relationships between
gene trees and species trees. Mol. Biol. Evol. 5
(1988): 568-583.
Saitou N-, und Nei, M.:The neighbor-joining
method: A new method for reconstructing
phylogenetic trees. Mol. Biol. Evot. 4 (1987):
406-425.
5arich,V M. und Wilson, A.C.: Immunological
time scale for hominid evolution. Science 158
(19 67} :i 200-1203.
Satta,Y.,et al.: DNA archives and our nearest
relative: The trichotomy problem revisited. Moi.
Phyl. Evol. 5 (2000): 259-275.
Tajima, F.: The effect of change in population size
on DNA polymorphisms. Genetics 123 (1989):
597-601.
Tajima, F,; Statistical Tests for testing the neutral
mutation hypothesis by DNA polymorphism.
Genetics 123 (1986): 585-595.
Vigilant, L, et al.: African population and the evolution of
human mitochondria! DNA. Science
253 (1991): 1503-1507.
Watterson, G.A.: On the number of segregating
sites in genetica! models without recombination. Theor.
Pop. Biol. 7 (1975): 256-276.
Woese C. R.;The universal ancestor. Proc. Natl.
Acad. Sei. 95: (1998): 6854-6859.
Zuckerkandl, E., und Pauling, L: Evolutionary
divergence and convergence in proteins. In
Evolving genes and proteins. V. Bryson und HJ.
Vogel (Hg.), 97-166. Academic Press 1965, New
York.
Danksagung Unser Dank geht an alle, die unser Vorhaben aktiv unterstützt haben. Für ihre Geduld bedanken wir uns besonders bei Ulrike Friedrichs und Andreas Heibig. Ganz besonders herzlich danken wir Klaus Liebers, der mit seiner Sorgfalt und reichen Erfahrung wesentlich zum Gelingen des Vorhabens beigetragen hat.
Abbildungsnachweise: Abb. 4 nach: Bayrhuber, H. und Kuli, U. (Hg,). Linder Biologie, 1989; Abb. 9 u. 11
nach: Page, R. D. M. und Holmes, E. C, 1998; Abb. 17 nach: Hitiis, D, M. et al.,1992; Abb. 24 nach: Li, W.-H.,
1997; Abb. 30 nach: Kaessmann, H„ 2001; Abb. 31 nach: Weber, U. (Hg.): Biologie Oberstufe, 2001; Abb. 32
nach: von Haese!er, A., et al., 1996; Abb. 36 nach: Graur, D. und Li, W.-H., 2000; Abb. 38 nach: Nikaido, M.
et al., 1999; Abb. 39 nach: Austin, j. J. et al., 1997; Abb. 40 nach: Pääbo, S.: DNA aus alter Zeit. Spektrum
der Wissenschaft, Januar 1994; Abb. U3 nach: Pagel M. D. (Hg.), 2002. Da mehrere Rechteinhaber trotz
aller Bemühungen nicht feststellbar oder erreichbar waren, verpflichtet sich der Verlag, nachträglich
geltend gemachte rechtmäßige Ansprüche nach den üblichen Honorarsätzen zu vergüten.