19
Der Nervenarzt Organ der Deutschen Gesellschaft für Psychiatrie, Psychotherapie und Nervenheilkunde Organ der Deutschen Gesellschaft für Neurologie © Springer Medizin Verlag 2005 10.1007/s00115-005-1948-z Originalien Multizentrische Reliabilität MRT-gestützter Volumetrie des Gehirns Ergebnisse des Phantomtests und voxelbasierter Morphometrie im Kompetenznetz Demenzen S. J. Teipel 1 , M. Ewers 1, 4 , O. Dietrich 2 , S. O. Schoenberg 2 , F. Jessen 3 , R. Heun 3 , N. Freymann 3 , H.-J. Möller 1 und H. Hampel 1 (1) Klinik für Psychiatrie und Psychotherapie, Ludwig-Maximilians-Universität München, (2) Institut für Klinische Radiologie—Großhadern, Klinikum der Ludwig-Maximilians-Universität München, (3) Klinik und Poliklinik für Psychiatrie und Psychotherapie, Rheinische Friedrich-Wilhelms-Universität Bonn, Universitätsklinikum Bonn, (4) Klinik für Psychiatrie und Psychotherapie, Ludwig-Maximilians-Universität München, Nußbaumstraße 7, 80336 München M. Ewers Email: [email protected] Telefon: +49-89-51605898 Fax: +49-89-51605808 Online publiziert: 29. Juni 2005 Zusammenfassung Hintergrund Obwohl zahlreiche Studien den diagnostischen Nutzen der volumetrischen Bestimmung atrophischer Prozesse bei der Alzheimer-Krankheit (AD) nahe legen, ist die multizentrische Anwendbarkeit volumetrischer Messungen für die klinische Früherkennung der AD bisher noch nicht ausreichend untersucht worden. In der vorliegenden Studie bestimmten wir die Präzision der multizentrischen volumetrischen Magnetresonanztomographie (MRT). Methoden Die Reliabilität der MRT-Messungen wurde anhand eines Phantomtests sowie voxelbasierter morphometrischer Auswertungen von kranialen In-vivo-MRT-Messungen eines gesunden Probanden an insgesamt 11 Zentren im Rahmen des Kompetenznetzes Demenzen (KND) bestimmt. Ergebnisse Neun von 11 getesteten Zentren erfüllten die Kriterien des Phantomtests. Zwei Zentren wiesen einen systematischen Messfehler bei der Längenmessung und Schichtendicke auf. Die voxelbasierte morphometrische Analyse ergab einen Variationskoeffizienten von 5,02% für die Messung des Volumens der grauen Substanz und 12,81% (SD=9,06%) für die Messung der voxelbasierten Signalintensitäten der grauen Substanz. Das Ausmaß der

Multizentrische Reliabilität MRT-gestützter Volumetrie des ... · Angesichts der Verfügbarkeit symptomatischer Therapien und der Entwicklung neuer krankheitsmodifizierender Behandlungsansätze

Embed Size (px)

Citation preview

Page 1: Multizentrische Reliabilität MRT-gestützter Volumetrie des ... · Angesichts der Verfügbarkeit symptomatischer Therapien und der Entwicklung neuer krankheitsmodifizierender Behandlungsansätze

Der Nervenarzt Organ der Deutschen Gesellschaft für Psychiatrie, Psychotherapie und Nervenheilkunde Organ der Deutschen Gesellschaft für Neurologie

© Springer Medizin Verlag 2005

10.1007/s00115-005-1948-z

Originalien

Multizentrische Reliabilität MRT-gestützter Volumetrie des Gehirns Ergebnisse des Phantomtests und voxelbasierter Morphometrie im Kompetenznetz Demenzen S. J. Teipel1, M. Ewers1, 4 , O. Dietrich2, S. O. Schoenberg2, F. Jessen3, R. Heun3, N. Freymann3, H.-J. Möller1 und H. Hampel1

(1) Klinik für Psychiatrie und Psychotherapie, Ludwig-Maximilians-Universität München, (2) Institut für Klinische Radiologie—Großhadern, Klinikum der Ludwig-Maximilians-Universität

München, (3) Klinik und Poliklinik für Psychiatrie und Psychotherapie, Rheinische Friedrich-Wilhelms-Universität

Bonn, Universitätsklinikum Bonn, (4) Klinik für Psychiatrie und Psychotherapie, Ludwig-Maximilians-Universität München,

Nußbaumstraße 7, 80336 München M. Ewers Email: [email protected]: +49-89-51605898 Fax: +49-89-51605808

Online publiziert: 29. Juni 2005

Zusammenfassung Hintergrund Obwohl zahlreiche Studien den diagnostischen Nutzen der volumetrischen Bestimmung atrophischer Prozesse bei der Alzheimer-Krankheit (AD) nahe legen, ist die multizentrische Anwendbarkeit volumetrischer Messungen für die klinische Früherkennung der AD bisher noch nicht ausreichend untersucht worden. In der vorliegenden Studie bestimmten wir die Präzision der multizentrischen volumetrischen Magnetresonanztomographie (MRT). Methoden Die Reliabilität der MRT-Messungen wurde anhand eines Phantomtests sowie voxelbasierter morphometrischer Auswertungen von kranialen In-vivo-MRT-Messungen eines gesunden Probanden an insgesamt 11 Zentren im Rahmen des Kompetenznetzes Demenzen (KND) bestimmt. Ergebnisse Neun von 11 getesteten Zentren erfüllten die Kriterien des Phantomtests. Zwei Zentren wiesen einen systematischen Messfehler bei der Längenmessung und Schichtendicke auf. Die voxelbasierte morphometrische Analyse ergab einen Variationskoeffizienten von 5,02% für die Messung des Volumens der grauen Substanz und 12,81% (SD=9,06%) für die Messung der voxelbasierten Signalintensitäten der grauen Substanz. Das Ausmaß der

Page 2: Multizentrische Reliabilität MRT-gestützter Volumetrie des ... · Angesichts der Verfügbarkeit symptomatischer Therapien und der Entwicklung neuer krankheitsmodifizierender Behandlungsansätze

Variabilität lässt erwarten, dass eine Stichprobengröße von 150 Probanden ausreicht, um einen erwarteten Verlust des Volumens der grauen Substanz bei Patienten mit prädemenziellen leichten kognitiven Störungen (MCI) mit ausreichender Teststärke aufzudecken. Schlussfolgerung Die Reliabilität der MRT-Messungen gewährleistet eine sichere Grundlage für eine zentrenübergreifende Analyse MRT-gestützter diagnostischer Marker der AD.

Schlüsselwörter Reliabilität-Multizentrische Reliabilität-Magnetresonanztomographie-Kompetenznetz Demenzen

Reliability of multicenter magnetic resonance imaging Results of a phantom test and in vivo measurements by the German Dementia Competence Network Summary Background Whereas a large body of evidence suggests the usefulness of volumetric measurement of cerebral atrophy for diagnosing Alzheimer s disease (AD), the clinical applicability of cerebral volumetry for early detection of AD across multiple clinical sites is not well known. In the current study, we assessed the precision of volumetric measurement of the brain based on magnetic resonance imaging (MRI) in a multicenter setting. Methods The reliability of MRI was assessed by a phantom test of the American College of Radiology and voxel-based morphometry applied to the images obtained from a single subject tested at 11 centers of the German Dementia Competence Network. Result Nine of the 11 centers tested met the reliability criteria of the phantom test. Across all centers, a bias was found in the measurements of slice thickness and length. For voxel-based morphometry, the coefficient of variation yielded 5.02% for gray matter volume and 12.81% (SD 9.06%) for gray matter signal intensity in voxels. Power analysis showed that a sample size of 150 subjects is sufficient for statistically valid detection of reduced gray matter volume in patients with mild cognitive impairment. Conclusion The reliability of measurements from multiple centers is sufficient to allow statistically valid analysis of MRI data.

Keywords Reliability-Multicenter-Magnetic Resonance Imaging-Dementia Competence Network

Gefördert durch das Bundesministerium für Bildung und Forschung (BMBF 01 GI 0102)

Page 3: Multizentrische Reliabilität MRT-gestützter Volumetrie des ... · Angesichts der Verfügbarkeit symptomatischer Therapien und der Entwicklung neuer krankheitsmodifizierender Behandlungsansätze

Angesichts der Verfügbarkeit symptomatischer Therapien und der Entwicklung neuer krankheitsmodifizierender Behandlungsansätze gewinnt die frühe Diagnose der Alzheimer-Krankheit (AD), der häufigsten Demenzform des höheren Erwachsenenalters und der acht häufigsten Todesursache in den industrialisierten Ländern [1], eine zunehmende Bedeutung. Insbesondere die Diagnose prädemenzieller Stadien der AD, in Form leichter kognitiver Störungen (MCI), wird mit der Verfügbarkeit neuer diagnostischer Verfahren sicherer. Eine möglichst genaue präklinische Diagnose würde es erlauben, Patienten bereits zu behandeln, noch ehe sich irreversible Beeinträchtigungen der Alltagskompetenz eingestellt haben.

Bereits jetzt spielt die Magnetresonanztomographie (MRT) eine wichtige Rolle bei der klinischen Diagnose der AD. Sie dient hier vor allem dem Ausschluss anderer Demenzursachen. Eine Übersicht findet sich bei Hampel et al. [2]. Darüber hinaus aber zeigen aktuelle Studien, dass die MRT die progressive Neurodegeneration der AD abbilden kann [3]. So zeigte die Kombination von Hippokampusvolumen, einer der zentralen morphologischen Korrelate des episodischen Gedächtnis, sowie Gesamthirnvolumen und Volumen der grauen Substanz eine nahezu 100%ige Gruppentrennung zwischen leichtgradig kognitiv beeinträchtigten AD-Patienten und gesunden Kontrollpersonen [4]. Weitere viel versprechende Marker sind das Corpus callosum, als indirekter Indikator der neokortikalen Neurodegeneration [5, 6], der Entorhinalkortex [7] und automatisierte voxelbasierte Verfahren zur Gehirnsegmentierung und hochauflösenden Detektion der Verteilung kortikaler Atrophie [8–12].

Obwohl die Ergebnisse dieser Studien den diagnostischen Nutzen MRT-basierter Volumetrie für die Früherkennung und Diagnose von AD nahe legen, ist die klinische Anwendbarkeit dieser MRT-basierten Marker noch ungeklärt. Eine Voraussetzung für die Verwendung diagnostischer Marker im klinischen Kontext ist die Genauigkeit und Variabilität multizentrischer Messergebnisse. Die Reliabilität diagnostischer Kriterien angewendet in verschiedenen klinischen Kontexten ist inhärent mit der Reliabilität der zugrunde liegenden Messapparate, also z. B. der MRT, verknüpft. Damit ist die Bestimmung der multizentrischen MRT grundlegend für die Einschätzung der diagnostischen Relevanz volumetrischer Gehirnmessungen. Frühere multizentrische Studien haben gezeigt, dass eine erhebliche Variabilität multizentrischer Quantifizierung atrophischer Prozesse bei der manuellen Beurteilung von MRT-Gehirnaufnahmen zu beobachten ist [13]. Die Verwendung automatisierter volumetrischer Verfahren, z. B. der voxelbasierten Morphometrie, könnte die Reliabilität und damit die klinische Verwendbarkeit MRT-gestützter Messungen erheblich verbessern. In der vorliegenden Studie des Kompetenznetzes Demenzen (KND) [14, 15] untersuchten wir daher

1. die Variabilität und Genauigkeit multizentrischer MRT-Messungen anhand eines Phantomtests und

2. welchen Einfluss die Variabilität der MRT-Messungen auf die voxelbasierte Morphometrie der Kompartimente des Gehirns hat.

Diese Studie ist die erste multizentrische Untersuchung, die die Genauigkeit und Variabilität kranialer MRT anhand eines Phantomtests und voxelbasierter Morphometrie in vivo bestimmt. Die Abschätzung multizentrisch bedingter Variabilität der MRT bietet eine

Page 4: Multizentrische Reliabilität MRT-gestützter Volumetrie des ... · Angesichts der Verfügbarkeit symptomatischer Therapien und der Entwicklung neuer krankheitsmodifizierender Behandlungsansätze

wichtige Grundlage für eine statistisch valide Planung weiterer multizentrischer MRT-Studien.

Methode Testprotokoll

Phantomtest

Die MRT-Aufnahmen wurden an 11 Zentren des KND mit einem vom American College of Radiology (ACR, Reston, VA, USA) für das ACR Magnetic Resonance Imaging Accreditation Program zur Qualitätskontrolle klinischer MRT-Bilder entwickelten Phantom durchgeführt [16]. Anhand des standardisierten ACR-Phantoms kann die Messgenauigkeit für insgesamt 7 Merkmalsdimensionen, die für die Qualität von klinischen MRT-Bildern grundlegend sind, innerhalb eines Scanvorgangs bestimmt werden und mittels standardisierter Auswertealgorithmen und Reliabilitätskriterien evaluiert werden. Das ACR-Phantom ist bereits in einer anderen Studie erfolgreich für die Messung der Reliabilität klinischer MRT-Scanner verwendet worden [17]. Die vorliegenden Phantomstudie wurde im Rahmen des MRT-Bildgebungsprojekts des KND zur Früherkennung der AD durchgeführt. Die 11 getesteten Zentren waren Bonn, Düsseldorf, Erlangen, Frankfurt, Freiburg, Hamburg, Heidelberg, Leipzig, Mannheim und München (Klinikum Innenstadt und Klinikum Großhadern).

Das ACR-Phantom besteht aus einem zylinderförmigen 148 mm langen Objekt, das mit einer Lösung von Nickelchlorid (10 mmol NiCl2) und Sodiumchlorid (75 mmol NaCl) gefüllt ist (Abb. 1). Für die MRT-Untersuchung wurden 1.5-Tesla-Scanner verwendet, wobei an 8 Zentren Siemens-Scanner und an 3 Zentren Philips-Scanner eingesetzt wurden. Die Phantommessungen wurden mit demselben ACR-Phantom nacheinander innerhalb eines Zeitraums von 2 Wochen durchgeführt. Das verwendete MRT-Messprotokoll bestand aus einer sagittalen Spinechosequenz (Wiederholungsintervall [TR] =200 ms, Echointervall [TE] =20 ms) mit sagittaler, parallel zur Längsachse des Phantoms verlaufenden Orientierung. Diese Sequenz wurde für die Längenmessung des Phantoms verwendet (siehe Beschreibung der Auswertung des Phantomtests unten) [16]. Bei diesen Aufnahmen variierte die Voxelgröße zwischen 0,49 und 1,17 mm zwischen den Zentren. Zudem wurden jeweils 11 Schichten mit einer axialen T1-gewichteten Sequenz (TR=500, TE=20), abgekürzt im

folgenden als T1 , und einer Doppelspinechosequenz (TR=2000, TE=20/80), abgekürzt im

Folgenden als DE , aufgenommen. Die Voxelgröße variierte zwischen 0,49 mm und 0,98 mm. Schichtendicke und -position sind in Tabelle 1 dargestellt.

Page 5: Multizentrische Reliabilität MRT-gestützter Volumetrie des ... · Angesichts der Verfügbarkeit symptomatischer Therapien und der Entwicklung neuer krankheitsmodifizierender Behandlungsansätze

Abb. 1 Das Phantom des American College of Radiology. Das Phantom wird im MRT-Scanner ähnlich der Kopfposition eines Patienten positioniert (mit korrespondierender Position der Markierung

NOSE ), so dass transaxiale Aufnahmen vertikal zur Längsaxe des Phantoms liegen. Das Phantom enthält Strukturen, die der Messung der einzelnen Parameter dienen

Tabelle 1 Ergebnisse der Phantommessungen: KND-Zentren im Vergleich zu den ACR-Kriterien

Längenmessung

Räumliche Auflösung

Schichtdicke

Schichtposition

Homogenität der

Intensitätsverteilung

Doppelbild

[mm] [mm] [mm] [mm] [%]

Kontrast

T1 DE

Statistik und

Zentren

Länge/Durchmesser T1 Ho

riz Vert

Horiz

Vert.

T1 DE T1 DE T1 DE [%]

T1 D2

Kriterium

148±2 190±21

1 1

1

5± 0,7

5±0,7 5 5

87,5 87,5 0,025 9 9 Mittelwert

147,08

189,8 0.95

0,95

0.96

0,99

5,86

5,92 3,07 3,16 94,08 93,01 0,003 27 20,55

SD 0,78 1,14 0,05

0,05

0,05

0,07

1,3 1,29 4,39 4,52 1,9 2,05 0,002 10,63

9,43

I 147,46

188,48

0,9 0,9

0,9 1,00

5,61

5,73 1,95 1,95 92,75 92,88 0,0038 34 19

II 146,25

188,48

0,9 0,9

0,9 ,90 5,68

5,27 1,95 1,95 94,53 93,02 0,0076 31 30

III 148,47

191,59

1,0 1 0,9 ,90 4,65

8,48 16,17

16,66

93,90 93,26 0,0011 0 0

IV 146,51

191,10

0,9 0,9

1,00

1,00

5,78

5,78 1,96 1,96 96,98 94,57 0,0002 38 29

V 147,95

189,63

1 1 >1,1

1,00

9,64

8,30 2,45 2,45 94,12 92,84 0,0029 22 14

Page 6: Multizentrische Reliabilität MRT-gestützter Volumetrie des ... · Angesichts der Verfügbarkeit symptomatischer Therapien und der Entwicklung neuer krankheitsmodifizierender Behandlungsansätze

Längenmessung

Räumliche Auflösung

Schichtdicke

Schichtposition

Homogenität der

Intensitätsverteilung

Doppelbild

[mm] [mm] [mm] [mm] [%]

Kontrast

T1 DE

Statistik und

Zentren

Länge/Durchmesser T1 Ho

riz Vert

Horiz

Vert.

T1 DE T1 DE T1 DE [%]

T1 D2

VI 147,95

189,62

1 1 0,9 0,90

5,01

5,17 1,95 1,95 98,10 91,38 0,004 30 27

VII 147,11

190,10

1 1 1 1,00

5,71

5,96 1,46 1,95 93,08 93,62 0,0027 38 20

VIII 147 191,41

0,9 0,9

0.9 1 5,61

5,69 1,95 1,95 91,47 88,04 0,0039 28 12

IX 146,25

189,45

0,9 0,9

0,9 ,90 5,60

5,15 0 0 93,33 96,37 0,0040 30 32

X 146,48

188,48

1 1 0,9 1,00

5,74

5,09 1,95 1,95 93,18 93,42 0,0025 20 19

XI 146,48

189,45

0,9 1 0,9 1,00

5,47

4,48 1,95 1,95 93,40 93,68 0,0022 26 24

Kraniale Magnetresonanztomographie

Parallel zur Phantommessung wurde eine In-vivo-MRT-Untersuchung an 10 Zentren mit demselben gesunden 37-jährigen männlichen Probanden (Mini Mental State Exam [MMSE]

=30) durchgeführt. Für die Aufnahmen wurde eine T1-gewichtete Sequenz ( Magnetization-prepared-rapid-gradient-echo- [MP-RAGE-]Sequenz bei Siemens-Scannern und eine 3D-T1-Sequenz bei Philips-Scannern) in sagittaler Orientierung verwendet. Die Voxelgröße variierte zwischen 0,49 mm und 1,02 mm.

Auswertung

Die Datenanalyse wurde zentral am Alzheimer-Gedächtniszentrum der Psychiatrischen Klinik der Ludwig-Maximilians-Universität München (Referenzzentrum für Morphometrie im KND) durchgeführt.

Phantomtest

Die Phantomtests aller Zentren wurden von einem Rater nach den ACR-Richtlinien [16] ausgewertet. Der Kriterienkatalog umfasst insgesamt 7 Kriterien. Die Auswertung der Messung der Länge (Kriterium 1) erfolgte auf der Grundlage der Spinechosequenzaufnahme, alle anderen Messungen wurden anhand der T1- und DE-Aufnahmen durchgeführt. Die

Kriterien beziehen sich auf die Abweichungen der beobachteten Messungen von den wahren Werten des Phantoms und sind vom ACR für klinische Untersuchungen standardisiert worden.

Page 7: Multizentrische Reliabilität MRT-gestützter Volumetrie des ... · Angesichts der Verfügbarkeit symptomatischer Therapien und der Entwicklung neuer krankheitsmodifizierender Behandlungsansätze

1. Längenmessung. Länge (148 mm) und Durchmesser (190 mm) des Phantoms werden gemessen. Die zulässige Messwertabweichung beträgt ±2 mm. Eine Messwertabweichung bedeutet hier, dass die tatsächlichen Maße des Phantoms im MRT-Bild zu kurz oder zu lang wiedergegeben werden.

2. Räumliche Auflösung bei hohem Bildkontrast. Betrifft die Erkennbarkeit kleiner kontraststarker Objekte (Durchmesser: 0,9 mm, 1,0 mm und 1,1 mm) in horizontaler und vertikaler Anordnung. Die räumliche Auflösung von mindestens 1 mm gilt als Kriterium.

3. Schichtdicke. Die zu messende Schichtdicke beträgt 5 mm. Eine Abweichung von ±0,7 mm ist zulässig.

4. Schichtposition. Die Einhaltung der korrekten Position der Schichten wird bestimmt. Eventuelle räumliche Abweichungen bedeuten, dass die Schichten sich an einer anderen als der im Protokoll festgelegten Position befinden. Verschiebungen der Position von bis zu 5 mm sind zulässig.

5. Homogenität der Intensitätsverteilung. Die Uniformität der Intensitäten innerhalb ganzflächig weißer Bereiche des Phantoms wird gemessen. Die Gleichmäßigkeit wird als Prozent integraler Homogenität (für Details der Berechnung siehe ACR Phantom Test Guidance, 2000) angegeben. Das zu erfüllende Kriterium ist ein

Homogenitätswert von 87,5%. Ein Verstoß gegen das Kriterium bedeutet eine erhöhte Varianz der Bildintensitäten.

6. Doppelbild ( signal ghosting ). Der Begriff Doppelbild bezeichnet ein Artefakt, das aus der Überlagerung des eigentlichen Bildes mit räumlich verzerrten Doppelbildern resultiert. Doppelbilder sind durch Signalschwankungen zwischen den Pulszyklen bestimmt und führen zu Unschärfen des eigentlichen Bildes. Das zu erfüllende Kriterium von 0,025 beschreibt die Proportion der Intensität des Doppelbildes zu der des originären Bildes.

7. Erkennbarkeit von kontrastarmen Objekten. Die Bildqualität wird anhand von auf dem Phantom markierten kreisförmigen Objekten unterschiedlicher Größe und Kontraste eingestuft. Das zu erfüllende Kriterium von mindestens 9 erkennbaren kreisförmigen Objekten beschreibt den Grad des minimalen Kontrastes, unter dem ein Objekt noch zu erkennen ist.

Page 8: Multizentrische Reliabilität MRT-gestützter Volumetrie des ... · Angesichts der Verfügbarkeit symptomatischer Therapien und der Entwicklung neuer krankheitsmodifizierender Behandlungsansätze

Voxelbasierte Morphometrie der Probandendaten

Als Voraussetzung für die Segmentierung der MRT-Bilder in graue und weiße Substanz sowie Liquorraum wurden die MRT-Aufnahmen zunächst mit einer affinen 12-parametrischen Transformation räumlich koregistriert (SPM2, Welcome Department, London, UK). Mit Hilfe des Brain Extraction Tools (BET) der FMRIB Software Library 3.1 [18] wurden die koregistrierten Gehirnvolumina vom Schädel editiert. Die Segmentierung der MRT-Bilder der koregistrierten Gehirnvolumina erfolgte schließlich mit dem automatisierten Segmentierungsprogamm FAST der FMRIB Software Library 3.1 [19]. Bei der FAST-gestützten parametrischen Segmentierung wurden keine A-priori-Wahrscheinlichkeiten der regionalen Verteilung der grauen und weißen Substanz sowie des Liquors verwendet. Wir wählten diese stärker datengetriebene Segmentierungsmethode, um eine konservative Schätzung der Reliabilität der morphometrischen Auswertung zu erhalten.

Zur Bestimmung der Variabilität der Voxelintensitäten wurden mittels eines selbstgeschriebenen Programms in Matlab 5.3 (The MathWorks, Inc., 1999) die Variationskoeffizienten anhand der im Rahmen der voxelbasierten Morphometrie koregistrierten Gehirnvolumina berechnet und als neues Bild geschrieben. Um die Varianz der Voxelintensitäten innerhalb des Hippokampus zu schätzen, wurde der Gehirnbereich des Hippokampus innerhalb einer Schicht, auf der der Hippokampus in sagittaler Orientierung gut zu erkennen war, manuell markiert. Die Markierung des Hippokampus wurde anschließend auf die Karte der Variationskoeffizienten übertragen, um die Variationskoeffizienten innerhalb einer Schicht des Hippokampus zu schätzen. Im letzten Schritt wurde der Mittelwert der Variationskoeffizienten innerhalb des markierten Bereichs des Hippokampus berechnet. Für die Analyse der Variabilität der Voxelintensitäten innerhalb der grauen und weißen Substanz wurde das Bild der Variationskoeffizienten mit einer Maske der grauen bzw. weißen Substanz multipliziert. Die Masken der grauen und weißen Substanz wurden auf der Grundlage der segmentierten grauen bzw. weißen Substanz anhand der In-vivo-MRT-Gehirnaufnahme an einem Zentrum verwendet. Die Maske wurde binarisiert, indem alle Voxel mit einem Intensitätswert über 0 auf 1 gesetzt wurden. Die binarisierte Maske der grauen bzw. weißen Substanz wurde dann mit der Karte der Variationskoeffizienten multipliziert. Der Mittelwert der Variationskoeffizienten der Voxelintensitäten der grauen bzw. weißen Substanz wurde mit einem Skript in Matlab 5.3 berechnet. Von der Berechnung ausgeschlossen wurden Extremwerte der Variationskoeffizienten (>60%), welche vor allem an den Rändern des Gehirns sichtbar waren. Die Extremwerte waren bedingt durch die räumliche Veschiebung der Gehirne, die selbst nach der Koregistrierung noch fortbestanden.

Statistik Eine Abweichung der Messungen der Zentren vom tatsächlichen Maß des Phantoms (systematischer Messfehler) wurde mittels des 2-seitigen Ein-Stichproben-t-Tests ( =0,05) bestimmt. Ein systematischer Messfehler bedeutet in diesem Kontext, dass die Messabweichung gemittelt über die 11 Zentren gerichtet ist, d. h. der Messfehler streut nicht zufällig um das tatsächliche Maß des Phantoms. Zudem wurde das 95%-Konfidenzintervall der Messfehler der 11 Zentren berechnet. Da für die Merkmale des Doppelbildeffekts und der

Intensitätsinhomogenität der tatsächliche, d. h. wahre , Wert der Merkmalsausprägung am Phantom nicht bekannt ist, wurde für diese Merkmale kein systematischer Messfehler

Page 9: Multizentrische Reliabilität MRT-gestützter Volumetrie des ... · Angesichts der Verfügbarkeit symptomatischer Therapien und der Entwicklung neuer krankheitsmodifizierender Behandlungsansätze

bestimmt. Die Konfidenzintervalle wurden für diese Merkmale auf der Basis der Differenzen zwischen den beobachteten Messwerten der Zentren und des Kriteriumsgrenzwerts berechnet.

Der mittelwertzentrierte Variationskoeffizient (Vi) der Volumina der Kompartimente (graue Substanz, weiße Substanz oder Liquor) wurde nach folgender Formel berechnet:

wobei Xi das über die Zentren gemittelte Volumen des Kompartiments i und SDi die Standardabweichung des Kompartimentvolumens i ist.

Der mittelwertzentrierte Variationskoeffizient der Voxelintensitäten wurde ebenfalls nach dieser Formel berechnet.

Die Stärke des Effekts (d) [20] von MCI auf das Volumen der grauen Substanz wurde aufgrund der Ergebnisse von Du et al. [8] nach folgender Formel berechnet:

, wobei X–Y die Differenz der Mittelwerte der Volumen der grauen Substanz zwischen MCI-Patienten und Kontrollprobanden, xy die gemittelte Standardabweichung des Volumens der grauen Substanz innerhalb der Gruppe von MCI-Patienten und Kontrollprobanden, entnommen von Du et al. [8] und m die Standardabweichung des Volumens der grauen Substanz innerhalb der Zentren ist. Die notwendige Größe der Gesamtstichprobe wurde für einen t-Test-basierten Gruppenvergleich mit einer Teststärke von 0,80, eine Typ-I-Fehler-Wahrscheinlichkeit von 0,05 und der innerhalb einer multizentrischen Studie zu erwartenden Effektstärke mit dem Computerprogramm GPOWER [21, 22] berechnet.

Ergebnisse Phantomtest

Einhaltung der ACR Kriterien

Die deskriptiven Ergebnisse des Phantomtests sind in Tabelle 1 dargestellt. Neun von 11 Zentren hielten bei nur geringfügigen Messabweichungen alle ACR-Kriterien ein. Die MRT-Aufnahmen der beiden Zentren (Nr. III und V, Tabelle 1), die die ACR-Kriterien überschritten, wiesen eine zu hohe Schichtdicke (Abweichungen von +3,3 mm bzw. +4,64 mm auf. Zudem wurde eine Abweichung in der Schichtposition (bis zu 11,66 mm) und fehlende Erkennbarkeit von kontrastarmen Objekten (0 Objekte) bei Zentrum V und eine zu geringe räumliche Auflösung kontraststarker Objekte von weniger als 1,1 mm bei Zentrum III festgestellt.

Systematischer Messfehler

Bei den Zentren kam es im Mittel zu einer Unterschätzung der Länge (p=0,003), nicht jedoch des Durchmessers (p=0,57, siehe Tabelle 1) des Phantoms. Die Schichtdicke wies eine statistisch signifikante Erhöhung auf (p=0,04 für T1 und p=0,05 für DE). Für die anderen Merkmale konnte kein systematischer Messfehler bestimmt werden, da a priori eine Abweichung nur in eine Richtung möglich war (z. B. konnte die räumliche Auflösung im Phantomtest nur unter-, nicht aber überschritten werden).

Page 10: Multizentrische Reliabilität MRT-gestützter Volumetrie des ... · Angesichts der Verfügbarkeit symptomatischer Therapien und der Entwicklung neuer krankheitsmodifizierender Behandlungsansätze

Konfidenzintervalle

Das 95%-Konfidenzintervall der mittleren Messabweichung vom tatsächlichen Maß des Phantoms wurde bestimmt, um eine Abschätzung zu geben, innerhalb welcher Grenzen der Mittelwert der Messabweichung bei einer Wiederholung der Testung mit einer 95%igen Wahrscheinlichkeit zu erwarten ist. Bezogen auf die ACR-Kriterien der zulässigen

Messabweichungen (siehe oben Methoden ) lagen die 95%-Konfidenzintervalle der mittleren Abweichung der Messung der Länge und des Durchmessers (Abb. 2) sowie der räumlichen Auflösung kontrastarmer Objekte (Abb. 3) innerhalb des Wertebereichs der Kriteriumsgrenzen. Die oberen Grenzen der Konfidenzintervalle der Schichtdicke und Schichtposition lagen außerhalb der Grenzwerte der jeweiligen Kriterien (Abb. 2). Nach Ausschluss der beiden Zentren, die die ACR-Kriterien nicht einhielten, lagen die oberen Grenzwerte der Konfidenzintervalle der Abweichungen in der Schichtposition unter dem Kriteriengrenzwert von 5 mm (2,18 mm bei der T1- und 2,23 mm bei der DE-Sequenz) und die der Schichtdicke (0,75 mm bei der T1- und 0,72 mm bei der DE-Sequenz) nur knapp über dem Kriteriengrenzwert von 0,7 mm. Die Konfidenzintervalle der Messwerte des Doppelbildeffekts und der Intensitätsinhomogenität lagen innerhalb der Kriteriumsgrenzwerte (Abb. 4 und 5).

Abb. 2 Mittelwerte (ausgefüllte Symbole) und 95%-Konfidenzintervalle für die Abweichungen der Messungen der Länge, des Durchmessers und der Schichtendicke und -position des Phantoms für die T1-gewichtete und Doppelecho- (DE-)Sequenz. Für alle Variabeln sind die jeweiligen oberen und unteren ACR-Kriteriumsgrenzwerte der maximalen Abweichung angegeben (unausgefüllte Symbole), wobei für die Schichtenposition nur obere Kriteriengrenzwerte definiert sind

Page 11: Multizentrische Reliabilität MRT-gestützter Volumetrie des ... · Angesichts der Verfügbarkeit symptomatischer Therapien und der Entwicklung neuer krankheitsmodifizierender Behandlungsansätze

Abb. 3 Mittlere Differenz zwischen der Anzahl erkennbarer Objekte (Punkte) und der Anzahl vorhandener Objekte und das 95%-Konfidenzintervalle für die T1-gewichtete und die DE-Sequenz des Phantoms. Die untere Kriteriumsgrenze (unausgefüllte Kreise) gibt die nach den ACR-Kriterien zulässige maximale Abweichung (31) von der höchstmöglichen Anzahl erkennbarer Objekte (40) an, d. h. mindestens 9 Objekte müssen erkennbar sein

Abb. 4 Mittelwert und 95%-Konfidenzintervall des Index der Intensitätshomogenität für die MRT-Aufnahmen des Phantoms mit der T1-gewichteten und DE-Sequenz. Der untere Kriteriumsgrenzwert (unausgefüllter Kreis) gibt die Mindestgröße der Intensitätshomogenität an

Page 12: Multizentrische Reliabilität MRT-gestützter Volumetrie des ... · Angesichts der Verfügbarkeit symptomatischer Therapien und der Entwicklung neuer krankheitsmodifizierender Behandlungsansätze

Abb. 5 Mittelwert des Doppelbildeffekts und des 95%-Konfidenzintervalls. Der Kriteriumsgrenzwert gibt die maximal zulässige Stärke des Doppelbildeffekts an. Der Doppelbildeffekt wurde entsprechend den ACR-Richtlinien nur auf der Basis der MRT-Aufnahmen mit der T1-gewichteten Sequenz bestimmt

Voxelbasierte Morphometrie

Volumina der Kompartimente

Das gemittelte Volumen betrug 758,94 cm3 (SD=38,07 cm3) für die kortikale graue Substanz, 599,93 cm3 (SD=29,20 cm3) für die weiße Substanz und 248,99 cm3 (SD=11,61 cm3) für den Liquor.

Variabilität der Messungen

Der Variationskoeffizient betrug 5,02% für das Volumen der kortikalen grauen Substanz, 4,87% für die weiße Substanz und 4,66% für den Liquorraum. Bei der Volumenmessung der weißen Substanz sind zwei Ausreißer zu beobachten, die mehr als 1,5 Boxlängen außerhalb des Interquartialbereichs liegen (Abb. 6).

Page 13: Multizentrische Reliabilität MRT-gestützter Volumetrie des ... · Angesichts der Verfügbarkeit symptomatischer Therapien und der Entwicklung neuer krankheitsmodifizierender Behandlungsansätze

Abb. 6 Box-Plot der voxelbasierten morphometrischen Auswertung der Volumina der grauen Substanz (GS), der weißen Substanz (WS) und des Liquorraums (LI). Nicht ausgefüllte Kreise geben die Extremwerte an, die zwischen 1,5 und 3 Boxenlängen (Interquartialbereich) von der unteren oder oberen Kante der Box abweichen

Die räumliche Verteilung der Variationskoeffizienten der Voxelintensitäten innerhalb des Gehirns ist in Abb. 7 gezeigt. Der Mittelwert der Variationskoeffizienten der Voxelintensitäten betrug 12,81% (SD=9,06; Spannweite: 1%–59%) für die graue Substanz und 8,19% (SD=6,9; Spannweite: 1–59%) für die weiße Substanz (Abb. 7). Der Mittelwert des Variationskoeffizienten innerhalb einer Schicht des Hippokampus betrug 7,97% (Spannweite: 2–22%).

Page 14: Multizentrische Reliabilität MRT-gestützter Volumetrie des ... · Angesichts der Verfügbarkeit symptomatischer Therapien und der Entwicklung neuer krankheitsmodifizierender Behandlungsansätze

Abb. 7 Varianz der Voxelintensitäten visualisiert anhand von farblich kodierten Variationskoeffizienten innerhalb einer Schicht des in sagitaller Ansicht aufgenommenen Gehirns. Die Farbskala zeigt die Zuordnung von Farbintensitäten zur Höhe des Variationskoeffizienten (in [%])

Zudem wurde die in einer multizentrischen Studie zu erwartende Effektstärke des Gruppenunterschieds in der grauen Substanz zwischen MCI-Patienten und gesunden Kontrollprobanden und die Stichprobengröße, die notwendig ist, um diesen erwarteten Effekt mit ausreichender Teststärke zu prüfen, berechnet. Auf der Grundlage des von Du et al. [8] gefundenen Effekts von MCI auf das Volumen der grauen Substanz (d=0,82) ist unter Berücksichtigung der in unserer Studie aufgedeckten multizentrischen Variabilität der MRT-Messungen der grauen Substanz eine auf d=0,43 reduzierte Effektstärke zu erwarten. Um diesen Effekt mit einer ausreichenden Teststärke aufdecken zu können, ist eine Größe der Gesamtstichprobe von 150 Messwerten notwendig.

Diskussion Eine Voraussetzung für die Etablierung der MRT-Volumetrie für die Früherkennung und Diagnose der AD in der klinischen Routine ist die Reliabilität der volumetrischen MRT-Sequenz über verschiedene Zentren und die Stabilität der Messwerte unabhängig von Scanner- und Zentrumseffekten.

In der vorliegenden Studie wurde daher die Reliabilität von MRT-Messungen an insgesamt 11 deutschen Zentren des Kompetenznetzes Demenzen zur Qualitätssicherung der im Rahmen dieses Forschungsprojekts geplanten MRT-Untersuchung bestimmt.

Die Genauigkeit und Variabilität von MRT-Messungen ist von einer Reihe potenzieller Störfaktoren abhängig, wie z. B. Verwendung von Scannern unterschiedlicher Hersteller und Variabilität in der Positionierung des Probanden im Scanner. Frühere Studien haben gezeigt, dass diese Faktoren zu einer erheblichen Variabilität in den MRT-Messungen führen können und eine erhöhte Varianz in neuroanatomischen Messungen bedingen [23]. Eine Kontrolle der Varianz zwischen den Zentren in den MRT-Messungen ist somit eine wichtige Voraussetzung für eine reliable zentrenübergreifende Datenanalyse. Nach unserer Kenntnis ist die vorliegende Studie die erste Untersuchung zur Reliabilität multizentrisch durchgeführter MRT anhand eines international anerkannten Kriterienkatalogs [16] in Kombination mit In-vivo-MRT-Aufnahmen.

Messgenauigkeit im Phantomtest

Ein systematischer Messfehler wurde bei der Längenmessung und der Schichtendicke festgestellt. Die erhöhte Schichtdicke ist hauptsächlich durch eine relativ starke Messabweichung eines Zentrums, das die ACR-Kriterien nicht einhielt, zu erklären, da nach Ausschluss dieses Zentrums die mittlere Abweichung der Schichtdicke innerhalb des Kriteriumsgrenzwertes lag. Eine Erhöhung der Schichtdicke kann zu einer verminderten räumlichen Auflösung führen. Damit ist am ehesten ein Einfluss der erhöhten Schichtdicke auf die manuelle Vermessung von Gehirnstrukturen, die von einer guten Erkennbarkeit anatomischer Strukturen abhängt, zu erwarten.

Die Einordnung der vorliegenden Ergebnisse in die Befundlage frührer Studien ist aufgrund der nur wenig verfügbaren multizentrischen Reliabilitätsstudien sowie der Heterogenität der

Page 15: Multizentrische Reliabilität MRT-gestützter Volumetrie des ... · Angesichts der Verfügbarkeit symptomatischer Therapien und der Entwicklung neuer krankheitsmodifizierender Behandlungsansätze

verwendeten Phantomtests und Auswertemethoden nur bedingt möglich. In einer Studie, die die Reliabilität von 4 Scannern innerhalb eines Zentrums longitudinal ebenfalls mittels des ACR-Phantoms untersuchte, wurde bei der Basismessung der geometrischen Genauigkeit eine durchschnittliche Abweichung von –1,04 mm (Durchmesser des Phantoms gemittelt über alle T1-Scans) gemessen, wobei ein Scanner eine nach den ACR-Kriterien zu hohe Abweichung aufwies (–3 mm) [17]. Bei diesem Scanner wurde zudem eine Abweichung in der Schichtendicke (1,4 mm) festgestellt sowie bei einem zweiten Scanner eine zu niedrige Homogenität der Intensitätsverteilung (88%). Allerdings wurden in der Studie von Chen et al. nur eine kleine Anzahl von Scannern an nur einem Zentrum gemessen wurde, so dass keine Schlussfolgerungen zur multizentrischen Reliabilität auf der Grundlage dieser Ergebnisse gemacht werden können.

Multizentrische Daten aus anderen Studien, die einen Vergleich mit den vorliegenden Ergebnissen zulassen, sind für die geometrische Genauigkeit vorhanden. Prott et al. [25] verwendeten ein für geometrische Messungen selbstkonstruiertes Phantom und fanden in einer europäischen multizentrischen Studie eine Abweichung in der Längenmessung von etwa 1,8 mm bei 23 von 27 Scannern. McRobbie u. Quest [24] entwickelten ebenfalls ein Phantom selbst und konnten in einer Langzeitstudie über einen Zeitraum von 8 Jahren eine mittlere Abweichung von 1,39 mm in der Längenmessungen an 17 MRT-Scannern aufdecken. Damit fallen die in der vorliegenden Studie gefundenen Abweichungen relativ gering aus. Allerdings sind für aussagekräftige Schlussfolgerungen weitere künftige Studien mit standardisierten Phantomen und Auswerteprotokollen notwendig, um eine Vergleichbarkeit zwischen den Studien hinsichtlich der Reliabilität der Messungen zu gewährleisten.

Variabilität der Phantommessung

Um abzuschätzen, welche Genauigkeit bei einer wiederholten multizentrischen Messung zu erwarten ist, berechneten wir die 95%-Konfidenzintervalle der mittleren Messabweichungen. Das 95%-Konfidenzintervall der mittleren Messabweichung gibt den Wertebereich an, innerhalb dessen die mittlere Abweichungen bei einer erneuten Testung mit einer Wahrscheinlichkeit von 95% zu erwarten ist. Das 95%-Konfidenzintervall der Abweichungen in der Schichtdicke und -position lag außerhalb der Kriteriumsgrenzwerte. Die erhöhte Varianz in diesen Messungen geht vor allem auf die beiden Zentren zurück, die die ACR-Kriterien nicht erfüllten, da nach Ausschluss dieser Zentren die Konfidenzintervalle unter (bei der Schichtposition) oder nur geringfügig über (Schichtdicke) dem jeweiligen Kriteriumsgrenzwert lagen. Ein Ausschluss der beiden den ACR-Kriterien nicht entsprechenden Zentren aus der statistischen Analyse ist insofern informativ, als nach Beheben der Abweichung von den ACR-Kriterien, Messwerte, die den anderen Zentren entsprechen, zu erwarten sind, so dass die bereinigten Konfidenzintervalle ein besserer Prädiktor für die Messgenauigkeit zukünftiger Messungen sind.

Allerdings ist anzumerken, dass eine Abschätzung der Genauigkeit zukünftiger Messungen auf der Basis der Konfidenzintervalle des aktuellen Querschnitts nur begrenzt möglich ist, da die Messgenauigkeit der MRT von Einflussfaktoren wie den routinemäßigen Wartungen des Scanners und der Erneuerung der Software abhängt, die in der gegenwärtigen Querschnittsuntersuchung nicht erfasst wurden. Somit bleibt die Reproduzierbarkeit der gegenwärtigen Resultate in einer wiederholten Phantommessung in zukünftigen Untersuchungen zu testen.

Voxelbasierte Morphometrie

Page 16: Multizentrische Reliabilität MRT-gestützter Volumetrie des ... · Angesichts der Verfügbarkeit symptomatischer Therapien und der Entwicklung neuer krankheitsmodifizierender Behandlungsansätze

Um die Generalisierbarkeit der im Phantomtest festgestellten Reliabilität auf die Messung von Gehirnstrukturen zu überprüfen, untersuchten wir die Variabilität der voxelbasierten Morphometrie der Gehirnkompartimente und des Hippokampus. Der Variationskoeffizient betrug bei der Bestimmung der Volumina der Gehirnkompartimente etwa 5% und ist vergleichbar mit der multizentrischen Variabilität anderer biologischer Messungen, z. B. der semiautomatischen Erkennung von Marklagerläsionen bei der Multiplen Sklerose [25].

Bei der Analyse der Varianz der Voxelintensitäten innerhalb des Gehirns wurde eine heterogene Verteilung der Variationskoeffizienten mit erhöhten Werten vor allem an den Rändern des Gehirns festgestellt. Eine Varianzquelle ist die Variabilität in der globalen Form der Gehirne, die durch die Koregistrierungsalgorithmen nur begrenzt kompensiert werden können [26, 27]. Bei der voxelbasierten Auswertung werden Koregistrierungsalgorithmen verwendet, die eine globale Koregistrierung zum Ziel haben, um lokale Volumeneffekte aufzudecken. Diese Verfahren sind Grundlage der voxelbasierten Morphometrie, die in einigen Arbeiten zu neuroanatomischen Veränderungen der AD bereits angewendet wurden [11, 12]. In der vorliegenden Studie waren die Effekte von Positions- und Formunterschieden zwischen den Gehirnen vor allem an den Rändern der Gehirne sichtbar, da sich hier die Voxelintensitäten des Gehirns mit den Hintergrundintensitäten, die bei der Präprozessierung auf Null gesetzt werden, überlappen. Innerhalb von Gehirnstrukturen, wie z. B. dem Hippokampus (Variationskoeffizient unter 8%), der für die Früherkennung und Diagnose von AD besonders relevant ist, war die vorgefundene Variabilität der Voxelintensitäten jedoch relativ gering.

Die festgestellte Variabilität morphometrischer Messungen zwischen den Zentren ist für die Planung eines statistisch validen Studiendesigns von hoher Bedeutung. Wir konnten zeigen, dass bei Berücksichtigung der zentrenabhängigen Variabilität der morphometrischen Messungen der Gehirnkompartimente eine Stichprobengröße von N=150 für eine ausreichende Teststärke in einem multizentrischen Design notwendig ist. Diese Stichprobengröße ist deutlich höher als die für die monozentrischen Studie von Du et al. [8] ausreichende Stichprobengröße (n=40), aber für eine multizentrische Studie durchaus realisierbar. Bei der Interpretation dieser Stichprobenberechnung ist zu beachten, dass die Schätzung sehr konservativ ist, da die Variabilität zwischen den Zentren für ein hypothetisches multizentrisches Design geschätzt wurde, in der jedes Zentrum nur einen einzigen Probanden rekrutiert. Es sollte zudem angemerkt werden, dass die Ergebnisse dieser Einzelfalluntersuchung keine Generalisierung auf die Population zulassen und einer Bestätigung anhand einer größeren Stichprobe bedürfen. Auch den Einfluss möglicher Variabeln, wie z. B. des Patientenstatus, sollte in zukünftigen Studien untersucht werden. Die gegenwärtigen Ergebnisse zeigen, dass sich anhand eines Phantomtests als auch einer In-vivo-MRT multizentrische Variabilität aufweisen lässt.

Fazit für die Praxis Die Ergebnisse des Phantomtests und der kranialen MRT lassen auf eine hohe Reliabilität einer zentrenübergreifenden Auswertung von MRT-basierten Daten schließen. Auch die moderate Varianz der morphometrischen Auswertung legt die Verwendung zumindest der manuellen Volumetrie in einem multizentrischen Rahmen nahe. Interessant für die klinischen Routinediagnostik sind vor allem automatische Auswertemethoden, wie z. B. die voxelbasierte Morphometrie. Allerdings bedarf die multizentrische Anwendung dieser Methoden aufgrund der Sensitivität gegenüber Koregistrierungsartefakten noch einer gründlichen Überprüfung der Validität.

Page 17: Multizentrische Reliabilität MRT-gestützter Volumetrie des ... · Angesichts der Verfügbarkeit symptomatischer Therapien und der Entwicklung neuer krankheitsmodifizierender Behandlungsansätze

Danksagung Die Studie wurde durch Fördermittel des Bundesministeriums für Bildung und Forschung (BMBF 01 GI 0102) an das Kompetenznetz Demenzen unterstützt. Wir danken Herrn Dr. Jens Heidenreich (Charite Berlin), Herrn Dr. Christian Luckhaus (Rheinische Kliniken Düsseldorf), Herrn Dr. Thomas Kucinski und Hernn Dr. Tomas Müller-Thomsen (Universitätklinikum Hamburg-Eppendorf) und den Zentren in Bonn, Erlangen, Frankfurt, Freiburg, Heidelberg, Leipzig und Mannheim für die rasche Durchführung der MRT-Messungen. Interessenkonflikt Der korrespondierende Autor versichert, dass keine Verbindungen mit einer Firma, deren Produkt in dem Artikel genannt ist, oder einer Firma, die ein Konkurrenzprodukt vertreibt, bestehen.

Literatur

1. Anderson RN, Smith BL (2003) Deaths: leading causes for 2001. Natl Vital Stat Rep 52:1–85 2. Hampel H et al. (1997) [Structural magnetic resonance tomography in diagnosis and research of

Alzheimer type dementia]. Nervenarzt 68:365–378

3. Jack CRJMD et al. (2000) Rates of hippocampal atrophy correlate with change in clinical status in

aging and AD. Neurology 55:484–490

4. DeCarli C et al. (1995) Discriminant analysis of MRI measures as a method to determine the

presence of dementia of the Alzheimer type. Psychiatry Res 57:119–130

5. Hampel H et al. (2002) In vivo imaging of region and cell type specific neocortical

neurodegeneration in Alzheimer s disease. Perspectives of MRI derived corpus callosum measurement for mapping disease progression and effects of therapy. Evidence from studies with MRI, EEG and PET. J Neural Transm 109:837–855

6. Teipel SJ et al. (2003) Regional pattern of hippocampus and corpus callosum atrophy in

Alzheimer s disease in relation to dementia severity: evidence for early neocortical degeneration. Neurobiol Aging 24:85–94

7. Juottonen K et al. (1998) Volumes of the entorhinal and perirhinal cortices in Alzheimer s disease.

Neurobiol Aging 19:15–22

8. Du AT et al. (2001) Magnetic resonance imaging of the entorhinal cortex and hippocampus in mild

cognitive impairment and Alzheimer s disease. J Neurol Neurosurg Psychiatry 71:441–447

9. Fox NC et al. (2001) Imaging of onset and progression of Alzheimer s disease with voxel-

compression mapping of serial magnetic resonance images. Lancet 358:201–205

Page 18: Multizentrische Reliabilität MRT-gestützter Volumetrie des ... · Angesichts der Verfügbarkeit symptomatischer Therapien und der Entwicklung neuer krankheitsmodifizierender Behandlungsansätze

10. Frisoni GB et al. (2002) Detection of grey matter loss in mild Alzheimer s disease with voxel based morphometry. Mapping gray matter loss with voxel-based morphometry in mild cognitive impairment. J Neurol Neurosurg Psychiatry 73:657–664

11. Baron JC et al. (2001) In vivo mapping of gray matter loss with voxel-based morphometry in mild

Alzheimer s disease. Neuroimage 14:298–309

12. Teipel SJ et al. (2005) Age-related cortical grey matter reductions in nondemented Down s

syndrome adults determined by magnetic resonance imaging with voxel-based morphometry. Brain (in press)

13. Davis PC et al. (1992) The Consortium to Establish a Registry for Alzheimer s Disease (CERAD).

Part III. Reliability of a standardized MRI evaluation of Alzheimer s disease. Neurology 42:1676–1680

14. Henn FA (2003) Kompetenznetz Demenzen. Psychoneuro 6:251 15. Wiltfang J et al. (2003) Kompetenznetz Demenzen—Früherkennung und Differenzialdiagnose.

Psychoneuro 6:290–293 16. ACR (2000) Phantom test guidance for the ACR MRI accredition program. American College of

Radiology, Reston 17. Chen CC et al. (2004) Quality assurance of clinical MRI scanners using ACR MRI phantom:

preliminary results. J Digit Imaging 17:279–284

18. Smith S (1999) Fast robust automated brain extraction. Hum Brain Mapp 17:143–155

19. Zhang Y, Brady M, Smith S (2001) Segmentation of brain MR images through a hidden Markov

random field model and the expectation maximation algorithm. IEEE Trans Med Imaging 20:45–57

20. Cohen J (1977) Statistical power analysis for the behavioral sciences. Academic Press, New York 21. Faul F, Erdfelder E (1992) GPOWER: a priori, post-hoc, and compromise power analyses for MS-

DOS [Computer program]. Bonn 22. Erdfelder E, Faul F, Buchner A (1996) GPOWER: a general power analysis program. Behav Res

Methods Instrum Comput 28:1–11 23. Tofts PS (1998) Standardisation and optimisation of magnetic resonance techniques for

multicentre studies. J Neurol Neurosurg Psychiatry 64:S37–S43

24. McRobbie DW, Quest RA (2002) Effectiveness and relevance of MR acceptance testing: results of

an 8 year audit. Br J Radiol 75:523–531

Page 19: Multizentrische Reliabilität MRT-gestützter Volumetrie des ... · Angesichts der Verfügbarkeit symptomatischer Therapien und der Entwicklung neuer krankheitsmodifizierender Behandlungsansätze

25. Prott FJ et al. (1995) Comparison of imaging accuracy at different MRI units based on phantom measurements. Radiother Oncol 37:221–224

26. Ashburner J, Friston KJ (2001) Why voxel-based morphometry should be used. Neuroimage

14:1238–1243

27. Bookstein FL (2001) Voxel-based morphometry should not be used with imperfectly registered

images. Neuroimage 14:1454–1462