IBM SPSS Bootstrapping 20 - math.uni-leipzig.de SPSS Bootstrapping.pdf · 5 Bootstrapping (bei Bedarf werden die Bootstrap-Werte interpoliert). “Bias corrected and accelerated”-

i

IBM SPSS Bootstrapping 20

Hinweis: Lesen Sie zunächst die allgemeinen Informationen unter Hinweise auf S. 42, bevor Siedieses Informationsmaterial sowie das zugehörige Produkt verwenden.

Diese Ausgabe bezieht sich auf IBM® SPSS® Statistics 20 und alle nachfolgenden Versionensowie Anpassungen, sofern dies in neuen Ausgaben nicht anders angegeben ist.

Screenshots von Adobe-Produkten werden mit Genehmigung von Adobe Systems Incorporatedabgedruckt.

Screenshots von Microsoft-Produkten werden mit Genehmigung der Microsoft Corporationabgedruckt.

Lizenziertes Material - Eigentum von IBM

© Copyright IBM Corporation 1989, 2011.

Eingeschränkte Rechte für Benutzer der US-Regierung: Verwendung, Vervielfältigung undVeröffentlichung eingeschränkt durch GSA ADP Schedule Contract mit der IBM Corp.

VorwortIBM® SPSS® Statistics ist ein umfassendes System zum Analysieren von Daten. Das optionaleZusatzmodul Bootstrapping bietet die zusätzlichen Analyseverfahren, die in diesem Handbuchbeschrieben sind. Die Prozeduren im Zusatzmodul Bootstrapping müssen zusammen mit SPSSStatistics Core verwendet werden. Sie sind vollständig in dieses System integriert.

Informationen zu IBM Business Analytics

Die Software IBM Business Analytics liefert umfassende, einheitliche und korrekte Informationen,mit denen Entscheidungsträger die Unternehmensleistung verbessern können. Ein umfassendesPortfolio aus Business Intelligence, Vorhersageanalyse, Finanz- und Strategiemanagement sowieAnalyseanwendungen bietet Ihnen sofort klare und umsetzbare Einblicke in die aktuelle Leistungund gibt Ihnen die Möglichkeit, zukünftige Ergebnisse vorherzusagen. Durch umfassendeBranchenlösungen, bewährte Vorgehensweisen und professionellen Service können Unternehmenjeder Größe die Produktivität maximieren, Entscheidungen automatisieren und bessere Ergebnisseerzielen.

Als Teil dieses Portfolios unterstützt IBM SPSS Predictive Analytics-Software Unternehmendabei, zukünftige Ereignisse vorherzusagen und proaktiv Maßnahmen zu ergreifen, umbessere Geschäftsergebnisse zu erzielen. Kunden aus Wirtschaft, öffentlichem Dienst unddem Bildungsbereich weltweit nutzen IBM SPSS-Technologie als Wettbewerbsvorteil fürKundengewinnung, Kundenbindung und Erhöhung der Kundenumsätze bei gleichzeitigerEindämmung der Betrugsmöglichkeiten und Minderung von Risiken. Durch die Einbindungvon IBM SPSS-Software in ihre täglichen Operationen wandeln sich Organisationen zu“Predictive Enterprises” – die Entscheidungen auf Geschäftsziele ausrichten und automatisierenund einen messbaren Wettbewerbsvorteil erzielen können. Wenn Sie weitere Informationenwünschen oder Kontakt zu einem Mitarbeiter aufnehmen möchten, besuchen Sie die Seitehttp://www.ibm.com/spss.

Technischer Support

Kunden mit Wartungsvertrag können den technischen Support in Anspruch nehmen. Kundenkönnen sich an den Technischen Support wenden, wenn sie Hilfe bei der Arbeit mit den Produktenvon IBM Corp. oder bei der Installation in einer der unterstützten Hardware-Umgebungenbenötigen. Zur Kontaktaufnahme mit dem technischen Support besuchen Sie die Website vonIBM Corp. unter http://www.ibm.com/support. Wenn Sie Hilfe anfordern, halten Sie bitteInformationen bereit, um sich, Ihre Organisation und Ihren Supportvertrag zu identifizieren.

Technischer Support für Studenten

Wenn Sie in der Ausbildung eine Studenten-, Bildungs- oder Grad Pack-Version eines IBMSPSS-Softwareprodukts verwenden, informieren Sie sich auf unseren speziellen Online-Seiten fürStudenten zu Lösungen für den Bildungsbereich (http://www.ibm.com/spss/rd/students/). WennSie in der Ausbildung eine von der Bildungsstätte gestellte Version der IBM SPSS-Softwareverwenden, wenden Sie sich an den IBM SPSS-Produktkoordinator an Ihrer Bildungsstätte.

© Copyright IBM Corporation 1989, 2011. iii

http://www-01.ibm.com/software/data/businessintelligence/

http://www-01.ibm.com/software/analytics/spss/

http://www-01.ibm.com/software/data/cognos/financial-performance-management.html

http://www-01.ibm.com/software/data/cognos/products/cognos-analytic-applications/

http://www.ibm.com/spss

http://www.ibm.com/support

http://www.ibm.com/spss/rd/students/

Kundendienst

Bei Fragen bezüglich der Lieferung oder Ihres Kundenkontos wenden Sie sich bitte an Ihre lokaleNiederlassung. Halten Sie bitte stets Ihre Seriennummer bereit.

Ausbildungsseminare

IBMCorp. bietet öffentliche und unternehmensinterne Seminare an. Alle Seminare beinhalten auchpraktische Übungen. Seminare finden in größeren Städten regelmäßig statt. Weitere Informationenzu diesen Seminaren finden Sie unter http://www.ibm.com/software/analytics/spss/training.

Weitere Veröffentlichungen

Die Handbücher SPSS Statistics: Guide to Data Analysis, SPSS Statistics: Statistical ProceduresCompanion und SPSS Statistics: Advanced Statistical Procedures Companion, die von MarijaNorušis geschrieben und von Prentice Hall veröffentlicht wurden, werden als Quelle fürZusatzinformationen empfohlen. Diese Veröffentlichungen enthalten statistische Verfahrenin den Modulen “Statistics Base”, “Advanced Statistics” und “Regression” von SPSS. DieseBücher werden Sie dabei unterstützen, die Funktionen und Möglichkeiten von IBM® SPSS®Statistics optimal zu nutzen. Dabei ist es unerheblich, ob Sie ein Neuling im Bereich derDatenanalyse sind oder bereits über umfangreiche Vorkenntnisse verfügen und damit in derLage sind, auch die erweiterten Anwendungen zu nutzen. Weitere Informationen zu denInhalten der Veröffentlichungen sowie Auszüge aus den Kapiteln finden Sie auf der folgendenAutoren-Website: http://www.norusis.com

iv

http://www.norusis.com

InhaltTeil I: Benutzerhandbuch

1 Einführung in Bootstrapping 1

2 Bootstrapping 3

Prozeduren, die Bootstrapping unterstützen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5Zusätzliche Funktionen beim Befehl BOOTSTRAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

Teil II: Beispiele

3 Bootstrapping 10

Einsatz von Bootstrapping zum Berechnen von Konfidenzintervallen für Anteile . . . . . . . . . . . . . . 10Vorbereitung der Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10Durchführen der Analyse. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11Bootstrap-Spezifikationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14Statistics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15Häufigkeitstabelle (Correspondence Analysis) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

Einsatz von Bootstrapping zum Berechnen von Konfidenzintervallen für Mediane. . . . . . . . . . . . . 16Durchführen der Analyse. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16Deskriptive Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

Einsatz von Boostrapping zur Auswahl besserer Einflussvariablen . . . . . . . . . . . . . . . . . . . . . . . . 20Vorbereitung der Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20Durchführen der Analyse. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21Parameter-Schätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

Empfohlene Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

v

Anhänge

A Beispieldateien 31

B Hinweise 42

Bibliografie 45

Index 46

vi

Teil I:Benutzerhandbuch

Kapitel

1Einführung in Bootstrapping

Bei der Erfassung von Daten sind Sie oft an den Eigenschaften der Grundgesamtheitinteressiert, aus der Sie die Stichprobe genommen haben. Anhand von aus der Stichprobeberechneten Schätzwerten können Sie Schlussfolgerungen über diese Gesamtheitsparameterziehen. Falls beispielsweise das im Lieferumfang des Produkts enthaltene Daten-SetEmployee data.sav eine Zufallsstichprobe aus einer größeren Gesamtheit von Angestelltenist, ist der Stichprobenmittelwert von $34.419,57 für Aktuelles Gehalt eine Schätzung desdurchschnittlichen aktuellen Gehalts für die Gesamtheit von Angestellten. Diese Schätzunghat zudem einen Standardfehler von $784,311 für eine Stichprobe der Größe 474, so dass$32.878,40 bis $35.960,73 ein 95%-Konfidenzintervall für das durchschnittliche aktuelleGehalt in der Gesamtheit von Angestellten ist. Doch wie zuverlässig sind diese Schätzer? Fürbestimmte “bekannte” Populationen und “well-behaved”-Parameter wissen wir einiges über dieEigenschaften der Stichprobenschätzer und können davon ausgehen, dass die Ergebnisse richtigsind. Bootstrapping dient dazu, mehr Informationen über die Eigenschaften von Schätzern für“unbekannte” Populationen und “ill-behaved”-Parameter zu gewinnen.

Abbildung 1-1Ziehen von parametrischen Inferenzen über den Mittelwert der Grundgesamtheit

Funktionsweise des Bootstrapping

Im einfachsten Fall nehmen Sie für ein Daten-Set mit einer Stichprobengröße NB“Bootstrap”-Stichproben der Größe N mit Zurücklegen aus dem ursprünglichen Datensatz undberechnen den Schätzer für jede dieser B Bootstrap-Stichproben. Diese B Bootstrap-Schätzungensind eine Stichprobe der Größe B , anhand deren Sie Schlussfolgerungen über den Schätzerziehen können. Nehmen Sie beispielsweise 1.000 Bootstrap-Stichproben aus dem Daten-SetMitarbeiterdaten.sav, ist der anhand der Bootstraps geschätzte Standardfehler von $776,91 für denStichprobenmittelwert von Aktuelles Gehalt eine Alternative zu dem Schätzwert von $784,311.

Des Weiteren bietet Bootstrapping einen Standardfehler und ein Konfidenzintervall für denMedian, für den parametrische Schätzer nicht verfügbar sind.

© Copyright IBM Corporation 1989, 2011. 1

2

Kapitel 1

Abbildung 1-2Ziehen von Bootstrap-Inferenzen über den Mittelwert der Grundgesamtheit

Bootstrapping-Unterstützung innerhalb des Produkts

Bootstrapping ist bei Prozeduren, die es unterstützen, als untergeordnetes Dialogfeld enthalten.Weitere Informationen darüber, welche Prozeduren Bootstrapping unterstützen, finden Sie unterProzeduren, die Bootstrapping unterstützen.

Wird Bootstrapping über das Dialogfeld angefordert, wird ein neuer und separaterBOOTSTRAP-Befehl zusätzlich zu der üblichen, vom Dialogfeld generierten Syntax eingefügt.Durch den BOOTSTRAP-Befehl werden die Bootstrap-Stichproben gemäß Ihrer Spezifikationenerstellt. Intern werden diese Bootstrap-Stichproben als Aufteilungen behandelt, obwohl sie imDaten-Editor nicht explizit angezeigt werden. Dies bedeutet, dass es im Grunde genommenB*N Fälle gibt, weswegen die Anzeige in der Statusleiste im Laufe der Datenverarbeitung beimBootstrapping von 1 bis B*N zählt. Das Ausgabeverwaltungssystem (OMS) wird verwendet, umdie Ergebnisse zu erfassen, die durch die Ausführung der Analyse an jeder “Bootstrap-Aufteilung”gewonnen werden. Diese Ergebnisse werden gepoolt und zusammen mit den übrigen Ausgaben,die bei der Prozedur generiert wurden, im Viewer angezeigt. In bestimmten Fällen sehen Sie eineReferenz auf “bootstrap split 0”; dies ist das ursprüngliche Daten-Set.

Kapitel

2Bootstrapping

Bootstrapping ist eine Methode zur Ableitung von robusten Schätzern von Standardfehlernund Konfidenzintervallen für Schätzer wie Mittel, Median, Anteil, Quotenverhältnis,Korrelationskoeffizient oder Regressionskoeffizient. Es kann auch für die Konstruktionvon Hypothesentests verwendet werden. Bootstrapping ist besonders als Alternative zuparametrischen Schätzern geeignet, wenn die Annahmen dieser Methoden zweifelhaft (zumBeispiel bei Regressionsmodellen mit heteroskedastischen, auf kleine Stichproben angepasstenResiduen) oder parametrische Schlussfolgerungen unmöglich sind oder äußerst komplizierteFormeln zur Berechnung von Standardfehlern erfordern (zum Beispiel bei der Berechnung vonKonfidenzintervallen für den Median, Quartilen und andere Perzentilen).

Beispiele. Eine Telekommunikationsfirma verliert jeden Monat etwa 27 % ihrer Kundendurch Abwanderung. Um bei den Bemühungen zur Verringerung der Abwanderung dierichtigen Schwerpunkte setzen zu können, möchte die Geschäftsleitung wissen, ob dieserProzentsatz zwischen verschiedenen vordefinierten Kundengruppen variiert. Mit Bootstrappingkönnen Sie ermitteln, ob sich die vier Hauptkundengruppen angemessen mit einer einzigenAbwanderungsquote beschreiben lassen. Für weitere Informationen siehe Thema Einsatz vonBootstrapping zum Berechnen von Konfidenzintervallen für Anteile in Kapitel 3 in IBM SPSSBootstrapping 20.

Bei der Durchsicht von Mitarbeiterdaten ist die Geschäftsleitung an der bisherigenArbeitserfahrung seiner Mitarbeiter interessiert. Die Arbeitserfahrung ist rechtslastig, wasbedeutet, dass der Mittelwert eine weniger wünschenswerte Schätzung der “typischen” bisherigenArbeitserfahrung unter Mitarbeitern darstellt als der Median. Parametrische Konfidenzintervallesind allerdings für den Median im Produkt nicht enthalten. Für weitere Informationen sieheThema Einsatz von Bootstrapping zum Berechnen von Konfidenzintervallen für Mediane inKapitel 3 in IBM SPSS Bootstrapping 20.

Das Management ist ebenfalls daran interessiert zu ermitteln, welche Faktoren Gehaltserhöhungenvon Mitarbeitern entsprechen, indem ein lineares Modell über die Differenz zwischen aktuellemund Anfangsgehalt erstellt wird. Beim Bootstrapping eines linearen Modells können Sie spezielleResampling-Methoden (Residuen- und Wild-Bootstrap) verwenden, um genauere Ergebnisse zuerzielen. Für weitere Informationen siehe Thema Einsatz von Boostrapping zur Auswahl bessererEinflussvariablen in Kapitel 3 in IBM SPSS Bootstrapping 20.

Viele Prozeduren unterstützen das Ziehen von Bootstrap-Stichproben und das Pooling vonErgebnissen aus Analysen von Bootstrap-Stichproben. Steuerelemente für die Angabe vonBootstrap-Analysen sind bei Prozeduren, die Bootstrapping unterstützen, direkt als gemeinsamesuntergeordnetes Dialogfeld enthalten. Einstellungen im Bootstrap-Dialogfeld werden fürsämtliche Prozeduren beibehalten: wenn Sie also über die Dialogfelder eine Häufigkeitenanalysemit Bootstrapping durchführen, wird Bootstrapping standardmäßig auch für andere Prozedurenaktiviert, die es unterstützen.


4

Kapitel 2

So lassen Sie eine Bootstrap-Analyse berechnen:

E Wählen Sie aus den Menüs eine Prozedur aus, die Bootstrapping unterstützt, und klicken Sie aufBootstrap.

Abbildung 2-1Dialogfeld “Bootstrap”

E Wählen Sie Bootstrapping durchführen.

Optional können Sie folgende Optionen auswählen:

Anzahl der Stichproben. Für das Perzentil und die BCa-Intervalle, die erzeugt werden, empfiehlt essich, mindestens 1.000 Bootstrap-Stichproben zu verwenden. Geben Sie eine positive Ganzzahlein.

Startwert für Mersenne-Twister festlegen. Wenn Sie einen Startwert festlegen, können SieAnalysen reproduzieren. Die Verwendung dieses Steuerelements gleicht der Festlegung einesMersenne-Twisters als aktivem Generator und eines festen Startpunkts für das Dialogfeld“Zufallszahlengeneratoren”, mit dem wichtigen Unterschied, dass die Festlegung des Startpunktsin diesem Dialogfeld den aktuellen Status des Zufallszahlengenerators beibehält und diesen Statusnach Abschluss der Analyse wiederherstellt.

Konfidenzintervalle. Geben Sie ein Konfidenzniveau größer 50 und kleiner 100 an.Perzentilintervalle verwenden einfach die Bootstrap-Werte, die den gewünschtenKonfidenzintervallperzentilen entsprechen. Beispielsweise verwendet ein 95%-Konfidenzintervalldie 2,5- und 97,5-Perzentile der Bootstrap-Werte als untere und obere Grenze des Intervalls

5

Bootstrapping

(bei Bedarf werden die Bootstrap-Werte interpoliert). “Bias corrected and accelerated”- (BCa-)Intervalle sind korrigierte Intervalle, die eine höhere Genauigkeit auf Kosten einer höherenBerechnungszeit bieten.

Stichprobenziehung Die Einfache Methode ist das erneute Ziehen von Fall-Stichproben mitZurücklegen aus dem ursprünglichen Daten-Set. Die GeschichteteMethode ist das erneute Ziehenvon Fall-Stichproben mit Zurücklegen aus dem ursprünglichen Daten-Set innerhalb der Schichten,die durch die Kreuzklassifikation von Schichtvariablen definiert werden. Das geschichtete Ziehenvon Bootstrap-Stichproben kann von Nutzen sein, wenn die Einheiten innerhalb der Schichtenrelativ homogen sind, während sich die Einheiten der einzelnen Schichten stark voneinanderunterscheiden.

Prozeduren, die Bootstrapping unterstützen

Die folgenden Prozeduren unterstützen Bootstrapping.

Anmerkung:

Bootstrapping funktioniert nicht bei multiplen imputierten Daten-Sets. Falls es eine VariableImputation_ innerhalb des Daten-Sets gibt, wird das Bootstrap-Dialogfeld deaktiviert.

Bootstrapping verwendet listenweisen Ausschluss, um die Fallbasis zu bestimmen;das bedeutet, dass Fälle mit fehlenden Werten für Analysevariablen von der Analyseausgeschlossen werden, so dass bei aktivem Bootstrapping auch der listenweise Ausschlussaktiv ist, selbst wenn die Analyseprozedur eine andere Form der Behandlung fehlenderWerte vorgibt.

Option “Statistics Base”

Häufigkeiten

Die Tabelle “Statistik” unterstützt Bootstrap-Schätzer für Mittelwert, Standardabweichung,Varianz, Median, Schiefe, Kurtosis und Perzentile.

Die Tabelle “Häufigkeiten” unterstützt Bootstrap-Schätzer für Prozent.

Deskriptive Statistik

Die Tabelle “Deskriptive Statistik” unterstützt Bootstrap-Schätzer für Mittelwert,Standardabweichung, Varianz, Schiefe und Kurtosis.

Explorative Datenanalyse

Die Tabelle “Deskriptive Statistik” unterstützt Bootstrap-Schätzer für Mittelwert, 5% getrimmtes Mittel, Standardabweichung, Varianz, Median, Schiefe, Kurtosis undInterquartilbereich.

Die Tabelle “M-Schätzer” unterstützt Bootstrap-Schätzer für M-Schätzer nach Huber,Tukey-Biweight-Schätzer, M-Schätzer nach Hampel und Andrews-Wellen-Schätzer.

Die Tabelle “Perzentile” unterstützt Bootstrap-Schätzer für Perzentile.

Kreuztabellen

6

Kapitel 2

Die Tabelle “Richtungsmaße” unterstützt Bootstrap-Schätzer für Lambda,Goodman-und-Kruskal-Tau, Unsicherheitskoeffizient und Somers-d.

Die Tabelle “Symmetrische Maße” unterstützt Bootstrap-Schätzer für Phi, Cramer-V,Kontingenzkoeffizient, Kendall-Tau-b, Kendall Tau-c, Gamma, Korrelation nach Spearmanund Pearson-R.

Die Tabelle “Risikoschätzer” unterstützt Bootstrap-Schätzer für das Quotenverhältnis.

Die Tabelle “Gemeinsames Quotenverhältnis nach Mantel-Haenszel” unterstütztBootstrap-Schätzer und Signifikanztests für ln(Schätzer).

Mittelwerte

Die Tabelle “Bericht” unterstützt Bootstrap-Schätzer für Mittelwert, Median, GruppierterMedian, Standardabweichung, Varianz, Kurtosis, Schiefe, Harmonisches Mittel undGeometrisches Mittel.

T-Test bei einer Stichprobe

Die Tabelle “Statistik” unterstützt Bootstrap-Schätzer für Mittelwert und Standardabweichung.

Die Tabelle “Test” unterstützt Bootstrap-Schätzer und Signifikanztests für dieMittelwertdifferenz.

T-Test bei unabhängigen Stichproben

Die Tabelle “Gruppenstatistik” unterstützt Bootstrap-Schätzer für Mittelwert undStandardabweichung.

Die Tabelle “Test” unterstützt Bootstrap-Schätzer und Signifikanztests für dieMittelwertdifferenz.

T-Test bei gepaarten Stichproben

Die Tabelle “Statistik” unterstützt Bootstrap-Schätzer für Mittelwert und Standardabweichung.

Die Tabelle “Korrelationen” unterstützt Bootstrap-Schätzer für Korrelationen.

Die Tabelle “Test” unterstützt Bootstrap-Schätzer für den Mittelwert.

Einfaktorielle ANOVA

Die Tabelle “Deskriptive Statistik” unterstützt Bootstrap-Schätzer für Mittelwert undStandardabweichung.

Die Tabelle “Mehrfachvergleiche” unterstützt Bootstrap-Schätzer für die Mittelwertdifferenz.

Die Tabelle “Kontrasttests” unterstützt Bootstrap-Schätzer und Signifikanztests für denKontrastwert.

GLM - Univariat


Die Tabelle “Parameterschätzer” unterstützt Bootstrap-Schätzer und Signifikanztests fürden Koeffizienten B.

Die Tabelle “Kontrastergebnisse” unterstützt Bootstrap-Schätzer und Signifikanztests fürdie Differenz.

7

Bootstrapping

Die Tabelle “Geschätzte Randmittel: Die Tabelle “Schätzer” unterstützt Bootstrap-Schätzerfür den Mittelwert.

Die Tabelle “Geschätzte Randmittel: Die Tabelle “Paarweise Vergleiche” unterstütztBootstrap-Schätzer für die Mittelwertdifferenz.

Die Tabelle “Post-Hoc-Tests: Mehrfachvergleiche” unterstützt Bootstrap-Schätzer für dieMittelwertdifferenz.

Bivariate Korrelationen


Die Tabelle “Korrelationen” unterstützt Bootstrap-Schätzer und Signifikanztests fürKorrelationen.

Anmerkungen:

Falls neben Pearson-Korrelationen auch nichtparametrische Korrelationen (Kendall-Tau-b oderSpearman) angefordert werden, fügt das Dialogfeld CORRELATIONS- und NONPAR CORR-Befehlemit einem separaten BOOTSTRAP-Befehl für jeden davon ein. Für die Berechnung allerKorrelationen werden dieselben Bootstrap-Stichproben verwendet.

Vor dem Pooling wird bei den Korrelationen die Fisher Z-Transformation angewendet. Nach demPooling wird die inverse Z-Transformation angewendet.

Partielle Korrelationen



Lineare Regression



Die Tabelle “Modellzusammenfassung” unterstützt Bootstrap-Schätzer für Durbin-Watson.

Die Tabelle “Koeffizienten” unterstützt Bootstrap-Schätzer und Signifikanztests für denKoeffizienten B.

Die Tabelle “Korrelationskoeffizienten” unterstützt Bootstrap-Schätzer für Korrelationen.

Die Tabelle “Residuenstatistik” unterstützt Bootstrap-Schätzer für Mittelwert undStandardabweichung.

Ordinale Regression


Diskriminanzanalyse

8

Kapitel 2

Die Tabelle “Standardisierte kanonische Diskriminanzfunktionskoeffizienten” unterstütztBootstrap-Schätzer für standardisierte Koeffizienten.

Die Tabelle “Kanonische Diskriminanzfunktionskoeffizienten” unterstützt Bootstrap-Schätzerfür nicht standardisierte Koeffizienten.

Die Tabelle “Klassifizierungsfunktionskoeffizienten” unterstützt Bootstrap-Schätzer fürKoeffizienten.

Option “Advanced Statistics”

GLM - Multivariat


Lineare gemischte Modelle

Die Tabelle “Schätzungen fester Effekte” unterstützt Bootstrap-Schätzer und Signifikanztestsfür den Schätzer.

Die Tabelle “Schätzungen von Kovarianzparametern” unterstützt Bootstrap-Schätzer undSignifikanztests für den Schätzer.

Generalized Linear Models


Cox-Regression

Die Tabelle “Variablen in der Gleichung” unterstützt Bootstrap-Schätzer und Signifikanztestsfür den Koeffizienten B.

Option “Regression”

Binäre logistische Regression

Die Tabelle “Variablen in der Gleichung” unterstützt Bootstrap-Schätzer und Signifikanztestsfür den Koeffizienten B.

Multinomiale logistische Regression


Zusätzliche Funktionen beim Befehl BOOTSTRAP

Mit der Befehlssyntax können Sie auch Folgendes:

Ziehen von Residuen- und Wild-Bootstrap-Stichproben (Unterbefehl SAMPLING)

Siehe Befehlssyntaxreferenz für die vollständigen Syntaxinformationen.

Teil II:Beispiele

Kapitel

3Bootstrapping

Bootstrapping ist eine Methode zur Ableitung von robusten Schätzern von Standardfehlernund Konfidenzintervallen für Schätzer wie Mittel, Median, Anteil, Quotenverhältnis,Korrelationskoeffizient oder Regressionskoeffizient. Es kann auch für die Konstruktionvon Hypothesentests verwendet werden. Bootstrapping ist besonders als Alternative zuparametrischen Schätzern geeignet, wenn die Annahmen dieser Methoden zweifelhaft (zumBeispiel bei Regressionsmodellen mit heteroskedastischen, auf kleine Stichproben angepasstenResiduen) oder parametrische Schlussfolgerungen unmöglich sind oder äußerst komplizierteFormeln zur Berechnung von Standardfehlern erfordern (zum Beispiel bei der Berechnung vonKonfidenzintervallen für den Median, Quartilen und andere Perzentilen).

Einsatz von Bootstrapping zum Berechnen von Konfidenzintervallenfür Anteile

Eine Telekommunikationsfirma verliert etwa 27 % ihrer Kunden jeden Monat durchAbwanderung. Um bei den Bemühungen zur Verringerung der Abwanderung die richtigenSchwerpunkte setzen zu können, möchte die Geschäftsleitung wissen, ob dieser Prozentsatzzwischen verschiedenen vordefinierten Kundengruppen variiert.Diese Informationen finden Sie in der Datei telco.sav. Für weitere Informationen siehe Thema

Beispieldateien in Anhang A auf S. 31. Mit Bootstrapping können Sie ermitteln, ob sich die vierHauptkundengruppen angemessen mit einer einzigen Abwanderungsquote beschreiben lassen.

Anmerkung: In diesem Beispiel wird die Prozedur “Häufigkeiten” verwendet und die Option“Statistics Base” ist erforderlich.

Vorbereitung der Daten

Sie müssen die Datei zunächst nach Kundenkategorie aufteilen.

E Zur Aufteilung der Datei wählen Sie in den Menüs des Daten-Editors folgende Optionen aus:Daten > Datei aufteilen...


11

Bootstrapping

Abbildung 3-1Dialogfeld “Datei aufteilen”

E Wählen Sie die Option Gruppen vergleichen.

E Wählen Sie Customer category als die Variable aus, auf der die Gruppen beruhen sollen.

E Klicken Sie auf OK.

Durchführen der Analyse

E Um Konfidenzintervalle für Anteile zu berechnen, wählen Sie in den Menüs folgende Optionenaus:Analysieren > Deskriptive Statistiken > Häufigkeiten...

Abbildung 3-2Dialogfeld “Häufigkeiten”

E Wählen Sie Abwanderung innerhalb des letzten Monats als Variable in der Analyse aus.

E Klicken Sie auf Statistiken.

12

Kapitel 3

Abbildung 3-3Dialogfeld “Statistiken”

E Wählen Sie Mittelwert in der Gruppe “Lagemaße” aus.

E Klicken Sie auf Weiter.

E Klicken Sie im Dialogfeld “Häufigkeiten” auf Bootstrap.

13

Bootstrapping



E Um die Ergebnisse in diesem Beispiel genau reproduzieren zu können, wählen Sie Startwert fürMersenne Twister festlegen aus und geben Sie 9191972 als Startwert ein.


E Klicken Sie im Dialogfeld “Häufigkeiten” auf OK.

Diese Auswahl führt zu folgender Befehlssyntax:

SORT CASES BY custcat.SPLIT FILE LAYERED BY custcat.PRESERVE.SET RNG=MT MTINDEX=9191972.SHOW RNG.BOOTSTRAP

/SAMPLING METHOD=SIMPLE/VARIABLES INPUT=churn/CRITERIA CILEVEL=95 CITYPE=PERCENTILE NSAMPLES=1000/MISSING USERMISSING=EXCLUDE.

FREQUENCIES VARIABLES=churn/STATISTICS=MEAN/ORDER=ANALYSIS.

RESTORE.

Die Befehle SORT CASES und SPLIT FILE teilen die Datei an der Variable custcat auf.

14

Kapitel 3

Die Befehle PRESERVE und RESTORE “merken” sich den aktuellen Status desZufallszahlengenerators und stellen das System an dem Punkt nach Ende des Bootstrappingwieder her.

Der Befehl SET stellt den Zufallszahlengenerator auf den Mersenne Twister und den Indexauf den Wert 9191972 ein, damit die Bootstrapping-Ergebnisse exakt reproduziert werdenkönnen. Der Befehl SHOW zeigt als Referenz den Index in der Ausgabe an.

Der Befehl BOOTSTRAP fordert mithilfe einer einfachen Stichprobenziehung 1,000Bootstrap-Stichproben an.

Die Variable Abwanderung wird verwendet, um die Fallbasis für die Stichprobenziehungzu ermitteln. Datensätze mit fehlenden Werten in dieser Variable werden aus der Analyseentfernt.

Die Prozedur FREQUENCIES nach BOOTSTRAP wird in jeder Bootstrap-Stichprobedurchgeführt.

Der Unterbefehl STATISTICS erzeugt in den Originaldaten den Mittelwert für die Variablechurn (Abwanderung). Zudem werden für den Mittelwert und die Prozentsätze in derHäufigkeitstabelle gepoolte Statistiken erstellt.

Bootstrap-SpezifikationenAbbildung 3-5Bootstrap-Spezifikationen

Die Tabelle “Boostrap-Spezifikationen” enthält die bei der Stichprobenziehung verwendetenEinstellungen und dient als nützliche Referenz, um zu überprüfen, ob die von Ihnen gewünschteAnalyse durchgeführt wurde.

15

Bootstrapping

StatisticsAbbildung 3-6Statistiktabelle mit Bootstrap-Konfidenzintervall für Anteil

Die Statistiktabelle zeigt für jede Ebene von Kundenkategorie den Mittelwert für Abwanderunginnerhalb des letzten Monats an. Da die Abwanderung innerhalb des letzten Monats nur denWert 0 oder 1 tragen kann, wobei der Wert 1 einem abgewanderten Kunden entspricht, gleichtder Mittelwert dem Anteil der abgewanderten Kunden. Die Spalte Statistik zeigt mithilfe desOriginal-Daten-Sets die Werte an, die gewöhnlich mit “Häufigkeiten” erzeugt werden. DieSpalten Bootstrap werden anhand der Bootstrapping-Algorithmen erzeugt.

Verzerrung ist die Differenz zwischen dem Durchschnittswert dieser Statistik in allenBootstrap-Stichproben und demWert in der Spalte Statistik. In diesem Fall wird der Mittelwertvon Abwanderung innerhalb des letzten Monats für alle 1000 Bootstrap-Stichprobenberechnet, und anschließend wird der Durchschnitt dieser Mittelwerte berechnet.

“Std. “Fehler” ist der Standardfehler des Mittelwerts von Abwanderung innerhalb des letztenMonats in allen 1000 Bootstrap-Stichproben.

Die Untergrenze des 95 %-Bootstrap-Konfidenzintervalls ist eine Interpolation des 25.und 26. Mittelwerts von Abwanderung innerhalb des letzten Monats, wenn die 1000Bootstrap-Stichproben in aufsteigender Reihenfolge sortiert werden. Die Obergrenze ist eineInterpolation des 975. und 976. Mittelwerts.

Die Ergebnisse in der Tabelle lassen darauf schließen, dass die Abwanderungsquote je nachKundengruppe unterschiedlich ist. Insbesondere die Tatsache, dass sich das Konfidenzintervall fürPlus service-Kunden nicht mit anderen überschneidet, lässt darauf schließen, dass diese Kundenim Durchschnitt mit einer geringeren Wahrscheinlichkeit abwandern.

Bei der Arbeit mit kategorialen Variablen mit nur zwei Werten bieten diese Konfidenzintervalleeine Alternative zu jenen, die mit der Prozedur “Nichtparametrische Tests bei einer Stichprobe”oder “T-Tests bei einer Stichprobe” erzeugt werden.

16

Kapitel 3

Häufigkeitstabelle (Correspondence Analysis)

Abbildung 3-7Häufigkeitstabelle mit Bootstrap-Konfidenzintervall für Anteil

Die Häufigkeitstabelle zeigt Konfidenzintervalle für die Prozentsätze (Anteil × 100 %) fürjede Kategorie und diese sind daher für alle kategorialen Variablen verfügbar. VergleichbareKonfidenzintervalle sind nicht an anderer Stelle in diesem Produkt verfügbar.

Einsatz von Bootstrapping zum Berechnen von Konfidenzintervallenfür Mediane

Bei der Durchsicht von Mitarbeiterdaten ist die Geschäftsleitung an der bisherigenArbeitserfahrung seiner Mitarbeiter interessiert. Die Arbeitserfahrung ist rechtslastig, wasbedeutet, dass der Mittelwert eine weniger wünschenswerte Schätzung der “typischen”bisherigen Arbeitserfahrung unter Mitarbeitern darstellt als der Median. Ohne Bootstrappingsind Konfidenzintervalle für den Median jedoch in den statistischen Prozeduren im Produktnicht allgemein verfügbar.Diese Informationen finden Sie in der Datei Employee data.sav. Für weitere Informationen

siehe Thema Beispieldateien in Anhang A auf S. 31. Einsatz von Bootstrapping zum Berechnenvon Konfidenzintervallen für den Median.

Anmerkung: In diesem Beispiel wird die Prozedur “Explorative Datenanalyse” verwendet unddie Option “Statistics Base” ist erforderlich.


E Um Konfidenzintervalle für den Median zu berechnen, wählen Sie in den Menüs folgendeOptionen aus:Analysieren > Deskriptive Statistiken > Explorative Datenanalyse...

17

Bootstrapping

Abbildung 3-8Hauptdialogfeld “Explorative Datenanalyse”

E Wählen Sie Bisherige Erfahrung (Monate) [bisherf] als abhängige Variable aus.

E Wählen Sie Statistik in der Gruppe “Anzeige” aus.

E Klicken Sie auf Bootstrap.

18

Kapitel 3




E Um genauere Intervalle (auf Kosten zusätzlicher Verarbeitungszeit) zu berechnen, wählen Sie Biascorrected and accelerated (BCa)-Methode aus.


E Klicken Sie im Dialogfeld “Explorative Datenanalyse” auf OK.


PRESERVE.SET RNG=MT MTINDEX=592004.SHOW RNG.BOOTSTRAP

/SAMPLING METHOD=SIMPLE/VARIABLES TARGET=prevexp/CRITERIA CILEVEL=95 CITYPE=BCA NSAMPLES=1000/MISSING USERMISSING=EXCLUDE.

EXAMINE VARIABLES=prevexp/PLOT NONE/STATISTICS DESCRIPTIVES/CINTERVAL 95/MISSING LISTWISE/NOTOTAL.

19

Bootstrapping

RESTORE.


Der Befehl SET stellt den Zufallszahlengenerator auf den Mersenne Twister und den Index aufden Wert 592004 ein, damit die Bootstrapping-Ergebnisse exakt reproduziert werden können.Der Befehl SHOW zeigt als Referenz den Index in der Ausgabe an.

Der Befehl BOOTSTRAP fordert mithilfe einer einfachen Stichprobenziehung 1000Bootstrap-Stichproben an.

Der Unterbefehl VARIABLES legt fest, dass die Variable bisherf zur Ermittlung der Fallbasisfür die Stichprobenziehung verwendet wird. Datensätze mit fehlenden Werten in dieserVariable werden aus der Analyse entfernt.

Der Unterbefehl CRITERIA fordert zusätzlich zur Anzahl der Bootstrap-Stichproben“Bias-corrected and accelerated”-Bootstrap-Konfidenzintervalle anstelle der standardmäßigenPerzentilintervalle an.

Die Prozedur EXAMINE nach BOOTSTRAP wird in jeder Bootstrap-Stichprobe durchgeführt.

Der Unterbefehl PLOT deaktiviert die Diagrammausgabe.

Für alle anderen Optionen gelten die Standardwerte.

Deskriptive StatistikAbbildung 3-10Tabelle “Deskriptive Statistik” mit Bootstrap-Konfidenzintervallen

Die Tabelle “Deskriptive Statistik” enthält zahlreiche Statistiken und Bootstrap-Intervalle fürdiese Statistiken. Das Bootstrap-Konfidenzintervall für den Mittelwert (86,39; 105,20) gleichtdem parametrischen Konfidenzintervall (86,42; 105,30), was darauf schließen lässt, dass der“typische” Mitarbeiter über rund 7-9 Jahre an bisheriger Erfahrung verfügt. Die Variable BisherigeErfahrung (Monate) weist jedoch eine schiefe Verteilung auf, was bedeutet, dass der Mittelwerteinen weniger wünschenswerten Indikator eines “typischen” derzeitigen Gehalts darstellt als derMedian. Das Bootstrap-Konfidenzintervall für den Median (50,00; 60,00) ist schmaler und hat

20

Kapitel 3

einen niedrigeren Wert als das Konfidenzintervall für den Mittelwert, was darauf schließen lässt,dass der “typische” Mitarbeiter über rund 4-5 Jahre an bisheriger Erfahrung verfügt. Durch denEinsatz von Bootstrapping können Werte berechnet werden, die die typische bisherige Erfahrungbesser darstellen.

Einsatz von Boostrapping zur Auswahl besserer Einflussvariablen

Bei der Durchsicht von Mitarbeiterdaten ist die Geschäftsleitung daran interessiert zu ermitteln,welche Faktoren Gehaltserhöhungen von Mitarbeitern entsprechen, indem ein lineares Modellüber die Differenz zwischen aktuellem und Anfangsgehalt erstellt wird. Beim Bootstrapping eineslinearen Modells können Sie spezielle Resampling-Methoden (Residuen- und Wild-Bootstrap)verwenden, um genauere Ergebnisse zu erzielen.Diese Informationen finden Sie in der Datei Employee data.sav. Für weitere Informationen

siehe Thema Beispieldateien in Anhang A auf S. 31.

Anmerkung: In diesem Beispiel wird die Prozedur “GLM - Univariat” verwendet und die Option“Statistics Base” ist erforderlich.

Vorbereitung der Daten

Sie müssen zunächst die Differenz zwischen aktuellem und Anfangsgehalt berechnen.

E Wählen Sie die folgenden Befehle aus den Menüs aus:Transformieren > Variable berechnen...

21

Bootstrapping

Abbildung 3-11Dialogfeld “Variable berechnen”

E Geben Sie diff als Zielvariable ein.

E Geben Sie Gehalt-Anf.gehalt als numerischen Ausdruck ein.

E Klicken Sie auf OK.


Um “GLM - Univariat” mit Wild-Residuum-Bootstrapping auszuführen, müssen Sie zuerstResiduen erstellen.

E Wählen Sie die folgenden Befehle aus den Menüs aus:Analysieren > Allgemeines lineares Modell > Univariat...

22

Kapitel 3

Abbildung 3-12GLM - Univariat – Hauptdialogfeld

E Wählen Sie diff als abhängige Variable aus.

E Wählen Sie Geschlecht [geschl], Art der Tätigkeit [tätig] und Minderheit [minderh] als festeFaktoren aus.

E Wählen Sie Beschäftigungsdauer [dauer] und Bisherige Erfahrung (Monate) [bisherf] alsKovariaten aus.

E Klicken Sie auf Modell.

23

Bootstrapping

Abbildung 3-13Dialogfeld “Modell”

E Wählen Sie Benutzerdefiniert und anschließend Haupteffekte aus der Dropdown-Liste “Term(e)konstruieren” aus.

E Wählen Sie geschl bis bisherf als Modellterme aus.


E Klicken Sie im Dialogfeld “GLM - Univariat” auf Speichern.

24

Kapitel 3

Abbildung 3-14Speichern”

E Wählen Sie in der Gruppe “Residuen” die Option Nicht standardisiert.


E Klicken Sie im Dialogfeld “GLM - Univariat” auf Bootstrap.

25

Bootstrapping


Die Bootstrap-Einstellungen sind in allen Dialogfeldern gültig, die Bootstrapping unterstützen.Das Speichern neuer Variablen in das Daten-Set wird bei aktiviertem Bootstrapping nichtunterstützt, stellen Sie daher sicher, dass es deaktiviert ist.

E Deaktivieren Sie falls nötig Bootstrapping durchführen.

E Klicken Sie im Dialogfeld “GLM - Univariat” auf OK. Das Daten-Set enthält nun eine neueVariable, RES_1, die die nicht standardisierten Residuen aus diesem Modell enthält.

E Rufen Sie das Dialogfeld “GLM - Univariat” erneut auf und klicken Sie auf Speichern.

26

Kapitel 3

E Deaktivieren Sie Nicht standardisiert, klicken Sie auf Weiter und anschließend auf Optionen imDialogfeld “GLM - Univariat”.

Abbildung 3-16Dialogfeld “Optionen”

E Wählen Sie in der Gruppe “Anzeige” Parameterschätzer aus.


E Klicken Sie im Dialogfeld “GLM - Univariat” auf Bootstrap.

27

Bootstrapping




E Da keine Optionen zum Durchführen von Wild-Bootstrapping in den Dialogfeldern vorhandensind, klicken Sie im Dialogfeld “GLM - Univariat” auf Weiter und anschließend auf Einfügen.



/SAMPLING METHOD=SIMPLE/VARIABLES TARGET=diff INPUT=gender jobcat minority jobtime prevexp/CRITERIA CILEVEL=95 CITYPE=PERCENTILE NSAMPLES=1000/MISSING USERMISSING=EXCLUDE.

UNIANOVA diff BY gender jobcat minority WITH jobtime prevexp/METHOD=SSTYPE(3)/INTERCEPT=INCLUDE/PRINT=PARAMETER/CRITERIA=ALPHA(.05)/DESIGN=gender jobcat minority jobtime prevexp.

28

Kapitel 3

RESTORE.

Um das Ziehen von Wild-Bootstrap-Stichproben durchzuführen, bearbeiten Sie das SchlüsselwortMETHOD im Unterbefehl SAMPLING so, dass METHOD=WILD(RESIDUALS=RES_1) zu lesen ist.

Die “endgültige” Befehlssyntaxreihe sieht dann wie folgt aus:


/SAMPLING METHOD=WILD(RESIDUALS=RES_1)/VARIABLES TARGET=diff INPUT=gender jobcat minority jobtime prevexp/CRITERIA CILEVEL=95 CITYPE=PERCENTILE NSAMPLES=1000/MISSING USERMISSING=EXCLUDE.

UNIANOVA diff BY gender jobcat minority WITH jobtime prevexp/METHOD=SSTYPE(3)/INTERCEPT=INCLUDE/PRINT=PARAMETER/CRITERIA=ALPHA(.05)/DESIGN=gender jobcat minority jobtime prevexp.

RESTORE.


Der Befehl SET stellt den Zufallszahlengenerator auf den Mersenne Twister und den Indexauf den Wert 9191972 ein, damit die Bootstrapping-Ergebnisse exakt reproduziert werdenkönnen. Der Befehl SHOW zeigt als Referenz den Index in der Ausgabe an.

Der Befehl BOOTSTRAP fordert mithilfe einer Wild-Stichprobenziehung und RES_1 alsVariable mit den Residuen 1000 Bootstrap-Stichproben an.

Der Unterbefehl VARIABLES legt diff als Zielvariable in dem linearen Modell fest; sie wirdzusammen mit den Variablen geschl, tätig, minderh, dauer und bisherf zur Ermittlung derFallbasis für die Stichprobenziehung verwendet. Datensätze mit fehlenden Werten in diesenVariablen werden aus der Analyse entfernt.

Der Unterbefehl CRITERIA fordert zusätzlich zur Anzahl der Bootstrap-Stichproben“Bias-corrected and accelerated”-Bootstrap-Konfidenzintervalle anstelle der standardmäßigenPerzentilintervalle an.

Die Prozedur UNIANOVA nach BOOTSTRAP wird bei jeder Bootstrap-Stichprobedurchgeführt und erzeugt Parameterschätzer für die Originaldaten. Zudem werden für dieModellkoeffizienten gepoolte Statistiken erstellt.

29

Bootstrapping

Parameter-SchätzerAbbildung 3-18Parameterschätzer

Die Tabelle “Parameterschätzer” zeigt die gewöhnlichen Nicht-Bootstrap-Parameterschätzer fürdie Modellterme an. Der Signifikanzwert 0,105 für [minderh=0] ist größer als 0,05, was daraufschließen lässt, dass Minderheit keine Auswirkungen auf Gehaltserhöhungen hat.

Abbildung 3-19Bootstrap-Parameterschätzer

Sehen Sie sich nun die Tabelle “Bootstrap für Parameterschätzer” an. In der Spalte “Std.fehler” kann man erkennen, dass die parametrischen Standardfehler bei manchen Koeffizientenwie dem konstanten Term im Vergleich zu den Bootstrap-Schätzern zu klein sind und daherdie Konfidenzintervalle größer sind. Bei manchen Koeffizienten wie [minderh=0] warendie parametrischen Standardfehler zu groß, während der Signifikanzwert 0.006, der in denBootstrap-Ergebnissen angezeigt wurde, unter 0,05 lag, was zeigt, dass die beobachtete Differenzbei Gehaltserhöhungen zwischen Mitarbeitern, die Minderheiten darstellen oder nicht, nicht aufZufall zurückzuführen ist. Die Geschäftsleitung weiß nun, dass diese Differenz genauer analysiertwerden muss, um mögliche Ursachen zu finden.

30

Kapitel 3

Empfohlene Literatur

In den folgenden Texten finden Sie weitere Informationen über Bootstrapping:

Davison, A. C., als auch D. V. Hinkley. 2006. Bootstrap Methods and their Application. :Cambridge University Press.

Shao, J., als auch D. Tu. 1995. The Jackknife and Bootstrap. New York: Springer.

Anhang

ABeispieldateien

Die zusammen mit dem Produkt installierten Beispieldateien finden Sie im UnterverzeichnisSamples des Installationsverzeichnisses. Für jeder der folgenden Sprachen gibt es einen eigenenOrdner innerhalb des Unterverzeichnisses “Samples”: Englisch, Französisch, Deutsch, Italienisch,Japanisch, Koreanisch, Polnisch, Russisch, Vereinfachtes Chinesisch, Spanisch und TraditionellesChinesisch.

Nicht alle Beispieldateien stehen in allen Sprachen zur Verfügung. Wenn eine Beispieldateinicht in einer Sprache zur Verfügung steht, enthält der jeweilige Sprachordner eine englischeVersion der Beispieldatei.

Beschreibungen

Im Folgenden finden Sie Kurzbeschreibungen der in den verschiedenen Beispielen in derDokumentation verwendeten Beispieldateien.

accidents.sav. Hierbei handelt es sich um eine hypothetische Datendatei, bei der es umeine Versicherungsgesellschaft geht, die alters- und geschlechtsabhängige Risikofaktorenfür Autounfälle in einer bestimmten Region untersucht. Jeder Fall entspricht einerKreuzklassifikation von Alterskategorie und Geschlecht.

adl.sav. Hierbei handelt es sich um eine hypothetische Datendatei, bei der es um Bemühungengeht, die Vorteile einer vorgeschlagenen Therapieform für Schlaganfallpatienten zu ermitteln.Ärzte teilten weibliche Schlaganfallpatienten nach dem Zufallsprinzip jeweils einer von zweiGruppen zu. Die erste Gruppe erhielt die physische Standardtherapie, die zweite erhielteine zusätzliche Emotionaltherapie. Drei Monate nach den Behandlungen wurden dieFähigkeiten der einzelnen Patienten, übliche Alltagsaktivitäten auszuführen, als ordinaleVariablen bewertet.

advert.sav. Hierbei handelt es sich um eine hypothetische Datendatei, bei der es um dieBemühungen eines Einzelhändlers geht, die Beziehungen zwischen den in Werbunginvestierten Beträgen und den daraus resultierenden Umsätzen zu untersuchen. Zu diesemZweck hat er die Umsätze vergangener Jahre und die zugehörigen Werbeausgabenzusammengestellt.

aflatoxin.sav. Hierbei handelt es sich um eine hypothetische Datendatei, bei der es um Testsvon Maisernten auf Aflatoxin geht, ein Gift, dessen Konzentration stark zwischen undinnerhalb von Ernteerträgen schwankt. Ein Kornverarbeitungsbetrieb hat aus 8 Ernteerträgenje 16 Proben erhalten und das Aflatoxinniveau in Teilen pro Milliarde (parts per billion,PPB) gemessen.

anorectic.sav. Bei der Ausarbeitung einer standardisierten Symptomatologieanorektischen/bulimischen Verhaltens führten Forscher (Van der Ham, Meulman, Van Strien,als auch Van Engeland, 1997)) eine Studie mit 55 Jugendlichen mit bekannten Ess-Störungendurch. Jeder Patient wurde vier Mal über einen Zeitraum von vier Jahren untersucht, esfanden also insgesamt 220 Beobachtungen statt. Bei jeder Beobachtung erhielten diePatienten Scores für jedes von 16 Symptomen. Die Symptomwerte fehlen für Patient 71


32

Anhang A

zum Zeitpunkt 2, Patient 76 zum Zeitpunkt 2 und Patient 47 zum Zeitpunkt 3, wodurch 217gültige Beobachtungen verbleiben.

bankloan.sav. Hierbei handelt es sich um eine hypothetische Datendatei, bei der es um dieBemühungen einer Bank geht, den Anteil der nicht zurückgezahlten Kredite zu reduzieren.Die Datei enthält Informationen zum Finanzstatus und demografischen Hintergrund von 850früheren und potenziellen Kunden. Bei den ersten 700 Fällen handelt es sich um Kunden,denen bereits ein Kredit gewährt wurde. Bei den letzten 150 Fällen handelt es sich umpotenzielle Kunden, deren Kreditrisiko die Bank als gering oder hoch einstufen möchte.

bankloan_binning.sav. Hierbei handelt es sich um eine hypothetische Datendatei, dieInformationen zum Finanzstatus und demografischen Hintergrund von 5.000 früherenKunden enthält.

behavior.sav. In einem klassischen Beispiel ((Price als auch Bouffard, 1974)) wurden 52Schüler/Studenten gebeten, die Kombinationen aus 15 Situationen und 15 Verhaltensweisenauf einer 10-Punkte-Skala von 0 = “ausgesprochen angemessen” bis 9 = “ausgesprochenunangemessen” zu bewerten. Die Werte werden über die einzelnen Personen gemittelt und alsUnähnlichkeiten verwendet.

behavior_ini.sav. Diese Datendatei enthält eine Ausgangskonfiguration für einezweidimensionale Lösung für behavior.sav.

brakes.sav. Hierbei handelt es sich um eine hypothetische Datendatei, bei der es um dieQualitätskontrolle in einer Fabrik geht, die Scheibenbremsen für Hochleistungsautomobileherstellt. Die Datendatei enthält Messungen des Durchmessers von 16 Scheiben aus 8Produktionsmaschinen. Der Zieldurchmesser für die Scheiben ist 322 Millimeter.

breakfast.sav. In einer klassischen Studie ((Green als auch Rao, 1972)) wurden 21MBA-Studenten der Wharton School mit ihren Lebensgefährten darum gebeten, 15Frühstücksartikel in der Vorzugsreihenfolge von 1 = “am meisten bevorzugt” bis 15 = “amwenigsten bevorzugt” zu ordnen. Die Bevorzugungen wurden in sechs unterschiedlichenSzenarien erfasst, von “Overall preference” (Allgemein bevorzugt) bis “Snack, with beverageonly” (Imbiss, nur mit Getränk).

breakfast-overall.sav. Diese Datei enthält die Daten zu den bevorzugten Frühstücksartikeln,allerdings nur für das erste Szenario, “Overall preference” (Allgemein bevorzugt).

broadband_1.sav. Hierbei handelt es sich um eine hypothetische Datendatei, die die Anzahl derAbonnenten eines Breitband-Service, nach Region geordnet, enthält. Die Datendatei enthältdie monatlichen Abonnentenzahlen für 85 Regionen über einen Zeitraum von vier Jahren.

broadband_2.sav Diese Datendatei stimmt mit broadband_1.sav überein, enthält jedoch Datenfür weitere drei Monate.

car_insurance_claims.sav. Ein an anderer Stelle ((McCullagh als auch Nelder, 1989))vorgestelltes und analysiertes Daten-Set bezieht sich auf Schadensansprüche für Autos. Diedurchschnittliche Höhe der Schadensansprüche lässt sich mit Gamma-Verteilung modellieren.Dazu wird eine inverse Verknüpfungsfunktion verwendet, um den Mittelwert der abhängigenVariablen mit einer linearen Kombination aus Alter des Versicherungsnehmers, Fahrzeugtypund Fahrzeugalter in Bezug zu setzen. Die Anzahl der eingereichten Schadensansprüche kannals Skalierungsgewicht verwendet werden.

33

Beispieldateien

car_sales.sav. Diese Datendatei enthält hypothetische Verkaufsschätzer, Listenpreise undphysische Spezifikationen für verschiedene Fahrzeugfabrikate und -modelle. Die Listenpreiseund physischen Spezifikationen wurden von edmunds.com und Hersteller-Websitesentnommen.

car_sales_uprepared.sav. Hierbei handelt es sich um eine modifizierte Version der Dateicar_sales.sav, die keinerlei transformierte Versionen der Felder enthält.

carpet.sav In einem beliebten Beispiel möchte (Green als auch Wind, 1973) einen neuenTeppichreiniger vermarkten und dazu den Einfluss von fünf Faktoren auf die Bevorzugungdurch den Verbraucher untersuchen: Verpackungsgestaltung, Markenname, Preis, Gütesiegel,Good Housekeeping und Geld-zurück-Garantie. Die Verpackungsgestaltung setzt sich ausdrei Faktorenebenen zusammen, die sich durch die Position der Auftragebürste unterscheiden.Außerdem gibt es drei Markennamen (K2R, Glory und Bissell), drei Preisstufen sowie jezwei Ebenen (Nein oder Ja) für die letzten beiden Faktoren. 10 Kunden stufen 22 Profileein, die durch diese Faktoren definiert sind. Die Variable Preference enthält den Rang derdurchschnittlichen Einstufung für die verschiedenen Profile. Ein niedriger Rang bedeutet einestarke Bevorzugung. Diese Variable gibt ein Gesamtmaß der Bevorzugung für die Profile an.

carpet_prefs.sav. Diese Datendatei beruht auf denselben Beispielen, wie für carpet.savbeschrieben, enthält jedoch die tatsächlichen Einstufungen durch jeden der 10 Kunden.Die Kunden wurden gebeten, die 22 Produktprofile in der Reihenfolge ihrer Präferenzeneinzustufen. Die Variablen PREF1 bis PREF22 enthalten die IDs der zugeordneten Profile,wie in carpet_plan.sav definiert.

catalog.sav. Diese Datendatei enthält hypothetische monatliche Verkaufszahlen fürdrei Produkte, die von einem Versandhaus verkauft werden. Daten für fünf möglicheEinflussvariablen wurden ebenfalls aufgenommen.

catalog_seasfac.sav. Diese Datendatei ist mit catalog.sav identisch, außer, dass ein Set vonsaisonalen Faktoren, die mithilfe der Prozedur “Saisonale Zerlegung” berechnet wurden,sowie die zugehörigen Datumsvariablen hinzugefügt wurden.

cellular.sav. Hierbei handelt es sich um eine hypothetische Datendatei, bei der es um dieBemühungen eines Mobiltelefonunternehmens geht, die Kundenabwanderung zu verringern.Scores für die Abwanderungsneigung (von 0 bis 100) werden auf die Kunden angewendet.Kunden mit einem Score von 50 oder höher streben vermutlich einen Anbieterwechsel an.

ceramics.sav. Hierbei handelt es sich um eine hypothetische Datendatei, bei der es umdie Bemühungen eines Herstellers geht, der ermitteln möchte, ob ein neue, hochwertigeKeramiklegierung eine größere Hitzebeständigkeit aufweist als eine Standardlegierung.Jeder Fall entspricht einem Test einer der Legierungen; die Temperatur, bei der dasKeramikwälzlager versagte, wurde erfasst.

cereal.sav. Hierbei handelt es sich um eine hypothetische Datendatei, bei der es um eineUmfrage geht, bei der 880 Personen nach ihren Frühstückgewohnheiten befragt wurden.Außerdem wurden Alter, Geschlecht, Familienstand und Vorliegen bzw. Nichtvorliegen einesaktiven Lebensstils (auf der Grundlage von mindestens zwei Trainingseinheiten pro Woche)erfasst. Jeder Fall entspricht einem Teilnehmer.

clothing_defects.sav. Hierbei handelt es sich um eine hypothetische Datendatei, bei der es umdie Qualitätskontrolle in einer Bekleidungsfabrik geht. Aus jeder in der Fabrik produziertenCharge entnehmen die Kontrolleure eine Stichprobe an Bekleidungsartikeln und zählen dieAnzahl der Bekleidungsartikel die inakzeptabel sind.

34

Anhang A

coffee.sav. Diese Datendatei enthält Daten zum wahrgenommenen Image von sechsEiskaffeemarken ((Kennedy, Riquier, als auch Sharp, 1996)). Bei den 23 Attributen desEiskaffee-Image sollten die Teilnehmer jeweils alle Marken auswählen, die durch diesesAttribut beschrieben werden. Die sechs Marken werden als “AA”, “BB”, “CC”, “DD”, “EE”und “FF” bezeichnet, um Vertraulichkeit zu gewährleisten.

contacts.sav. Hierbei handelt es sich um eine hypothetische Datendatei, bei der es um dieKontaktlisten einer Gruppe von Vertretern geht, die Computer an Unternehmen verkaufen. Dieeinzelnen Kontaktpersonen werden anhand der Abteilung, in der sie in ihrem Unternehmenarbeiten und anhand ihrer Stellung in der Unternehmenshierarchie in Kategorien eingeteilt.Außerdem werden der Betrag des letzten Verkaufs, die Zeit seit dem letzten Verkauf und dieGröße des Unternehmens, in dem die Kontaktperson arbeitet, aufgezeichnet.

creditpromo.sav. Hierbei handelt es sich um eine hypothetische Datendatei, bei der es umdie Bemühungen eines Kaufhauses geht, die Wirksamkeit einer kürzlich durchgeführtenKreditkarten-Werbeaktion einzuschätzen. Dazu wurden 500 Karteninhaber nach demZufallsprinzip ausgewählt. Die Hälfte erhielt eine Werbebeilage, die einen reduziertenZinssatz für Einkäufe in den nächsten drei Monaten ankündigte. Die andere Hälfte erhielteine Standard-Werbebeilage.

customer_dbase.sav. Hierbei handelt es sich um eine hypothetische Datendatei, bei deres um die Bemühungen eines Unternehmens geht, das die Informationen in seinem DataWarehouse nutzen möchte, um spezielle Angebote für Kunden zu erstellen, die mit dergrößten Wahrscheinlichkeit darauf ansprechen. Nach dem Zufallsprinzip wurde eineUntergruppe des Kundenstamms ausgewählt. Diese Gruppe erhielt die speziellen Angeboteund die Reaktionen wurden aufgezeichnet.

customer_information.sav. Eine hypothetische Datendatei mit Kundenmailingdaten wieName und Adresse.

customer_subset.sav. Eine Teilmenge von 80 Fällen aus der Datei customer_dbase.sav.

debate.sav. Hierbei handelt es sich um eine hypothetische Datendatei, die gepaarte Antwortenauf eine Umfrage unter den Zuhörern einer politischen Debatte enthält (Antworten vor undnach der Debatte). Jeder Fall entspricht einem Befragten.

debate_aggregate.sav. Hierbei handelt es sich um eine hypothetische Datendatei, in der dieAntworten aus debate.sav aggregiert wurden. Jeder Fall entspricht einer Kreuzklassifikationder bevorzugten Politiker vor und nach der Debatte.

demo.sav. Hierbei handelt es sich um eine hypothetische Datendatei, bei der es um eineKundendatenbank geht, die zum Zwecke der Zusendung monatlicher Angebote erworbenwurde. Neben verschiedenen demografischen Informationen ist erfasst, ob der Kunde auf dasAngebot geantwortet hat.

demo_cs_1.sav. Hierbei handelt es sich um eine hypothetische Datendatei für den erstenSchritt eines Unternehmens, das eine Datenbank mit Umfrageinformationen zusammenstellenmöchte. Jeder Fall entspricht einer anderen Stadt. Außerdem sind IDs für Region, Provinz,Landkreis und Stadt erfasst.

demo_cs_2.sav. Hierbei handelt es sich um eine hypothetische Datendatei für den zweitenSchritt eines Unternehmens, das eine Datenbank mit Umfrageinformationen zusammenstellenmöchte. Jeder Fall entspricht einem anderen Stadtteil aus den im ersten Schritt ausgewähltenStädten. Außerdem sind IDs für Region, Provinz, Landkreis, Stadt, Stadtteil und Wohneinheit

35

Beispieldateien

erfasst. Die Informationen zur Stichprobenziehung aus den ersten beiden Stufen desStichprobenplans sind ebenfalls enthalten.

demo_cs.sav. Hierbei handelt es sich um eine hypothetische Datendatei, dieUmfrageinformationen enthält die mit einem komplexen Stichprobenplan erfasst wurden.Jeder Fall entspricht einer anderen Wohneinheit. Es sind verschiedene Informationen zumdemografischen Hintergrund und zur Stichprobenziehung erfasst.

dmdata.sav. Dies ist eine hypothetische Datendatei, die demografische und kaufbezogeneDaten für ein Direktmarketingunternehmen enthält. dmdata2.sav enthält Informationenfür eine Teilmenge von Kontakten, die ein Testmailing erhalten. dmdata3.sav enthältInformationen zu den verbleibenden Kontakten, die kein Testmailing erhalten.

dietstudy.sav. Diese hypothetische Datendatei enthält die Ergebnisse einer Studie der“Stillman-Diät” (Rickman, Mitchell, Dingman, als auch Dalen, 1974). Jeder Fall entsprichteinem Teilnehmer und enthält dessen Gewicht vor und nach der Diät in amerikanischen Pfundsowie mehrere Messungen des Triglyceridspiegels (in mg/100 ml).

dvdplayer.sav. Hierbei handelt es sich um eine hypothetische Datendatei, bei der esum die Entwicklung eines neuen DVD-Spielers geht. Mithilfe eines Prototyps hat dasMarketing-Team Zielgruppendaten erfasst. Jeder Fall entspricht einem befragten Benutzerund enthält demografische Daten zu dem Benutzer sowie dessen Antworten auf Fragen zumPrototyp.

german_credit.sav. Diese Daten sind aus dem Daten-Set “German credit” im Repositoryof Machine Learning Databases ((Blake als auch Merz, 1998)) an der Universität vonKalifornien in Irvine entnommen.

grocery_1month.sav. Bei dieser hypothetischen Datendatei handelt es sich um die Datendateigrocery_coupons.sav, wobei die wöchentlichen Einkäufe zusammengefasst sind, sodassjeder Fall einem anderen Kunden entspricht. Dadurch entfallen einige der Variablen, diewöchentlichen Änderungen unterworfen waren, und der verzeichnete ausgegebene Betrag istnun die Summe der Beträge, die in den vier Wochen der Studie ausgegeben wurden.

grocery_coupons.sav. Hierbei handelt es sich um eine hypothetische Datendatei, dieUmfragedaten enthält, die von einer Lebensmittelkette erfasst wurden, die sich für dieKaufgewohnheiten ihrer Kunden interessiert. Jeder Kunde wird über vier Wochen beobachtet,und jeder Fall entspricht einer Kundenwoche und enthält Informationen zu den Geschäften, indenen der Kunde einkauft sowie zu anderen Merkmalen, beispielsweise welcher Betrag inder betreffenden Woche für Lebensmittel ausgegeben wurde.

guttman.sav. Bell ((Bell, 1961)) legte eine Tabelle zur Darstellung möglicher sozialer Gruppenvor. Guttman ((Guttman, 1968)) verwendete einen Teil dieser Tabelle, bei der fünf Variablen,die Aspekte beschreiben, wie soziale Interaktion, das Gefühl der Gruppenzugehörigkeit, diephysische Nähe der Mitglieder und die Formalität der Beziehung, mit sieben theoretischensozialen Gruppen gekreuzt wurden: “crowds” (Menschenmassen, beispielsweise dieZuschauer eines Fußballspiels), “audience” (Zuhörerschaften, beispielsweise die Personenim Theater oder bei einer Vorlesung), “public” (Öffentlichkeit, beispielsweise Zeitungsleseroder Fernsehzuschauer), “mobs” (Mobs, wie Menschenmassen, jedoch mit wesentlichstärkerer Interaktion), “primary groups” (Primärgruppen, vertraulich), “secondary groups”(Sekundärgruppen, freiwillig) und “modern community” (die moderne Gesellschaft, einlockerer Zusammenschluss, der aus einer engen physischen Nähe und dem Bedarf anspezialisierten Dienstleistungen entsteht).

36

Anhang A

health_funding.sav. Hierbei handelt es sich um eine hypothetische Datei, die Daten zurFinanzierung des Gesundheitswesens (Betrag pro 100 Personen), Krankheitsraten (Rate pro10.000 Personen der Bevölkerung) und Besuche bei medizinischen Einrichtungen/Ärzten(Rate pro 10.000 Personen der Bevölkerung) enthält. Jeder Fall entspricht einer anderen Stadt.

hivassay.sav. Hierbei handelt es sich um eine hypothetische Datendatei zu den Bemühungeneines pharmazeutischen Labors, einen Schnelltest zur Erkennung von HIV-Infektionen zuentwickeln. Die Ergebnisse des Tests sind acht kräftiger werdende Rotschattierungen, wobeikräftigeren Schattierungen auf eine höhere Infektionswahrscheinlichkeit hindeuten. Bei 2.000Blutproben, von denen die Hälfte mit HIV infiziert war, wurde ein Labortest durchgeführt.

hourlywagedata.sav. Hierbei handelt es sich um eine hypothetische Datendatei zumStundenlohn von Pflegepersonal in Praxen und Krankenhäusern mit unterschiedlich langerBerufserfahrung.

insurance_claims.sav. Hierbei handelt es sich um eine hypothetische Datendatei, bei der esum eine Versicherungsgesellschaft geht, die ein Modell zur Kennzeichnung verdächtiger,potenziell betrügerischer Ansprüche erstellen möchte. Jeder Fall entspricht einem Anspruch.

insure.sav. Hierbei handelt es sich um eine hypothetische Datendatei, bei der es um eineVersicherungsgesellschaft geht, die die Risikofaktoren untersucht, die darauf hinweisen,ob ein Kunde die Leistungen einer mit einer Laufzeit von 10 Jahren abgeschlossenenLebensversicherung in Anspruch nehmen wird. Jeder Fall in der Datendatei entspricht einemPaar von Verträgen, je einer mit Leistungsforderung und der andere ohne, wobei die beidenVersicherungsnehmer in Alter und Geschlecht übereinstimmen.

judges.sav. Hierbei handelt es sich um eine hypothetische Datendatei mit den Wertungen vonausgebildeten Kampfrichtern (sowie eines Sportliebhabers) zu 300 Kunstturnleistungen. JedeZeile stellt eine Leistung dar; die Kampfrichter bewerteten jeweils dieselben Leistungen.

kinship_dat.sav. Rosenberg und Kim ((Rosenberg als auch Kim, 1975)) haben 15Bezeichnungen für den Verwandtschaftsgrad untersucht (Tante, Bruder, Cousin, Tochter,Vater, Enkelin, Großvater, Großmutter, Enkel, Mutter, Neffe, Nichte, Schwester, Sohn,Onkel). Die beiden Analytiker baten vier Gruppen von College-Studenten (zwei weiblicheund zwei männliche Gruppen), diese Bezeichnungen auf der Grundlage der Ähnlichkeitenzu sortieren. Zwei Gruppen (eine weibliche und eine männliche Gruppe) wurden gebeten,die Bezeichnungen zweimal zu sortieren; die zweite Sortierung sollte dabei nach einemanderen Kriterium erfolgen als die erste. So wurden insgesamt sechs “Quellen” erzielt. JedeQuelle entspricht einer Ähnlichkeitsmatrix mit Elementen. Die Anzahl der Zellen istdabei gleich der Anzahl der Personen in einer Quelle minus der Anzahl der gemeinsamenPlatzierungen der Objekte in dieser Quelle.

kinship_ini.sav. Diese Datendatei enthält eine Ausgangskonfiguration für einedreidimensionale Lösung für kinship_dat.sav.

kinship_var.sav. Diese Datendatei enthält die unabhängigen Variablen gender (Geschlecht),gener(Generation) und degree (Verwandtschaftsgrad), die zur Interpretation der Dimensioneneiner Lösung für kinship_dat.sav verwendet werden können. Insbesondere können sieverwendet werden, um den Lösungsraum auf eine lineare Kombination dieser Variablenzu beschränken.

marketvalues.sav. Diese Datendatei betrifft Hausverkäufe in einem Neubaugebiet inAlgonquin, Illinois, in den Jahren 1999–2000. Diese Verkäufe sind in Grundbucheinträgendokumentiert.

37

Beispieldateien

nhis2000_subset.sav. Die “National Health Interview Survey (NHIS)” ist eine große,bevölkerungsbezogene Umfrage in unter der US-amerikanischen Zivilbevölkerung. Eswerden persönliche Interviews in einer landesweit repräsentativen Stichprobe von Haushaltendurchgeführt. Für die Mitglieder jedes Haushalts werden demografische Informationen undBeobachtungen zum Gesundheitsverhalten und Gesundheitsstatus eingeholt. Diese Datendateienthält eine Teilmenge der Informationen aus der Umfrage des Jahres 2000. National Centerfor Health Statistics. National Health Interview Survey, 2000. Datendatei und Dokumentationöffentlich zugänglich. ftp://ftp.cdc.gov/pub/Health_Statistics/NCHS/Datasets/NHIS/2000/.Zugriff erfolgte 2003.

ozone.sav. Die Daten enthalten 330 Beobachtungen zu sechs meteorologischen Variablen zurVorhersage der Ozonkonzentration aus den übrigen Variablen. Bei früheren Untersuchungen((Breiman als auch Friedman, 1985), (Hastie als auch Tibshirani, 1990)) fandenWissenschaftler einige Nichtlinearitäten unter diesen Variablen, die die Standardverfahren beider Regression behindern.

pain_medication.sav. Diese hypothetische Datendatei enthält die Ergebnisse eines klinischenTests für ein entzündungshemmendes Medikament zur Schmerzbehandlung bei chronischerArthritis. Von besonderem Interesse ist die Zeitdauer, bis die Wirkung des Medikamentseinsetzt und wie es im Vergleich mit bestehenden Medikamenten abschneidet.

patient_los.sav. Diese hypothetische Datendatei enthält die Behandlungsaufzeichnungenzu Patienten, die wegen des Verdachts auf Herzinfarkt in das Krankenhaus eingeliefertwurden. Jeder Fall entspricht einem Patienten und enthält diverse Variablen in Bezug aufden Krankenhausaufenthalt.

patlos_sample.sav. Diese hypothetische Datendatei enthält die Behandlungsaufzeichnungenfür eine Stichprobe von Patienten, denen während der Behandlung eines HerzinfarktsThrombolytika verabreicht wurden. Jeder Fall entspricht einem Patienten und enthält diverseVariablen in Bezug auf den Krankenhausaufenthalt.

poll_cs.sav. Hierbei handelt es sich um eine hypothetische Datendatei, bei der es umBemühungen geht, die öffentliche Unterstützung für einen Gesetzentwurf zu ermitteln, bevorer im Parlament eingebracht wird. Die Fälle entsprechen registrierten Wählern. Für jeden Fallsind County, Gemeinde und Wohnviertel des Wählers erfasst.

poll_cs_sample.sav. Diese hypothetische Datendatei enthält eine Stichprobe der inpoll_cs.sav aufgeführten Wähler. Die Stichprobe wurde gemäß dem in der Plandateipoll.csplan angegebenen Stichprobenplan gezogen und in dieser Datendatei sind dieEinschlusswahrscheinlichkeiten und Stichprobengewichtungen erfasst. Beachten Sie jedochFolgendes: Da im Stichprobenplan die PPS-Methode (PPS: probability proportional tosize; Wahrscheinlichkeit proportional zur Größe) verwendet wird, gibt es außerdem eineDatei mit den gemeinsamen Auswahlwahrscheinlichkeiten (poll_jointprob.sav). Diezusätzlichen Variablen zum demografischen Hintergrund der Wähler und ihrer Meinungzum vorgeschlagenen Gesetzentwurf wurden nach der Ziehung der Stichprobe erfasst undzur Datendatei hinzugefügt.

property_assess.sav. Hierbei handelt es sich um eine hypothetische Datendatei, in der esum die Bemühungen eines für einen Bezirk (County) zuständigen Immobilienbewertersgeht, trotz eingeschränkter Ressourcen die Einschätzungen des Werts von Immobilien aufdem aktuellsten Stand zu halten. Die Fälle entsprechen den Immobilien, die im vergangenenJahr in dem betreffenden County verkauft wurden. Jeder Fall in der Datendatei enthält dieGemeinde, in der sich die Immobilie befindet, den Bewerter, der die Immobilie besichtigt hat,

38

Anhang A

die seit dieser Bewertung verstrichene Zeit, den zu diesem Zeitpunkt ermittelten Wert sowieden Verkaufswert der Immobilie.

property_assess_cs.sav Hierbei handelt es sich um eine hypothetische Datendatei, in deres um die Bemühungen eines für einen US-Bundesstaat zuständigen Immobilienbewertersgeht, trotz eingeschränkter Ressourcen die Einschätzungen des Werts von Immobilien aufdem aktuellsten Stand zu halten. Die Fälle entsprechen den Immobilien in dem betreffendenBundesstaat. Jeder Fall in der Datendatei enthält das County, die Gemeinde und dasWohnviertel, in dem sich die Immobilie befindet, die seit der letzten Bewertung verstricheneZeit sowie zu diesem Zeitpunkt ermittelten Wert.

property_assess_cs_sample.sav. Diese hypothetische Datendatei enthält eine Stichprobe derin property_assess_cs.sav aufgeführten Immobilien. Die Stichprobe wurde gemäß dem inder Plandatei property_assess.csplan angegebenen Stichprobenplan gezogen und in dieserDatendatei sind die Einschlusswahrscheinlichkeiten und Stichprobengewichtungen erfasst.Die zusätzliche Variable Current value (Aktueller Wert) wurde nach der Ziehung derStichprobe erfasst und zur Datendatei hinzugefügt.

recidivism.sav. Hierbei handelt es sich um eine hypothetische Datendatei, bei der es um dieBemühungen einer Strafverfolgungsbehörde geht, einen Einblick in die Rückfallraten inihrem Zuständigkeitsbereich zu gewinnen. Jeder Fall entspricht einem frühren Straftäterund erfasst Daten zu dessen demografischen Hintergrund, einige Details zu seinem erstenVerbrechen sowie die Zeit bis zu seiner zweiten Festnahme, sofern diese innerhalb von zweiJahren nach der ersten Festnahme erfolgte.

recidivism_cs_sample.sav. Hierbei handelt es sich um eine hypothetische Datendatei, beider es um die Bemühungen einer Strafverfolgungsbehörde geht, einen Einblick in dieRückfallraten in ihrem Zuständigkeitsbereich zu gewinnen. Jeder Fall entspricht einemfrüheren Straftäter, der im Juni 2003 erstmals aus der Haft entlassen wurde, und erfasst Datenzu dessen demografischen Hintergrund, einige Details zu seinem ersten Verbrechen sowie dieDaten zu seiner zweiten Festnahme, sofern diese bis Ende Juni 2006 erfolgte. Die Straftäterwurden aus per Stichprobenziehung ermittelten Polizeidirektionen ausgewählt (gemäß dem inrecidivism_cs.csplan angegebenen Stichprobenplan). Da hierbei eine PPS-Methode (PPS:probability proportional to size; Wahrscheinlichkeit proportional zur Größe) verwendetwird, gibt es außerdem eine Datei mit den gemeinsamen Auswahlwahrscheinlichkeiten(recidivism_cs_jointprob.sav).

rfm_transactions.sav. Eine hypothetische Datendatei mit Kauftransaktionsdaten wieKaufdatum, gekauften Artikeln und Geldbetrag für jede Transaktion.

salesperformance.sav. Hierbei handelt es sich um eine hypothetische Datendatei, bei der es umBewertung von zwei neuen Verkaufsschulungen geht. 60 Mitarbeiter, die in drei Gruppenunterteilt sind, erhalten jeweils eine Standardschulung. Zusätzlich erhält Gruppe 2 einetechnische Schulung und Gruppe 3 eine Praxisschulung. Die einzelnen Mitarbeiter wurdenam Ende der Schulung einem Test unterzogen und die erzielten Punkte wurden erfasst. JederFall in der Datendatei stellt einen Lehrgangsteilnehmer dar und enthält die Gruppe, der derLehrgangsteilnehmer zugeteilt wurde sowie die von ihm in der Prüfung erreichte Punktzahl.

satisf.sav. Hierbei handelt es sich um eine hypothetische Datendatei zu einerZufriedenheitsumfrage, die von einem Einzelhandelsunternehmen in 4 Filialen durchgeführtwurde. Insgesamt wurden 582 Kunden befragt. Jeder Fall gibt die Antworten eines einzelnenKunden wieder.

39

Beispieldateien

screws.sav. Diese Datendatei enthält Informationen zu den Eigenschaften von Schrauben,Bolzen, Muttern und Reißnägeln ((Hartigan, 1975)).

shampoo_ph.sav. Hierbei handelt es sich um eine hypothetische Datendatei, bei der esum die Qualitätskontrolle in einer Fabrik für Haarpflegeprodukte geht. In regelmäßigenZeitabständen werden Messwerte von sechs separaten Ausgangschargen erhoben und ihrpH-Wert erfasst. Der Zielbereich ist 4,5–5,5.

ships.sav. Ein an anderer Stelle ((McCullagh et al., 1989)) vorgestelltes und analysiertesDaten-Set bezieht sich auf die durch Wellen verursachten Schäden an Frachtschiffen.Die Vorfallshäufigkeiten können unter Angabe von Schiffstyp, Konstruktionszeitraumund Betriebszeitraum gemäß einer Poisson-Rate modelliert werden. Das Aggregat derBetriebsmonate für jede Zelle der durch die Kreuzklassifizierung der Faktoren gebildetenTabelle gibt die Werte für die Risikoanfälligkeit an.

site.sav. Hierbei handelt es sich um eine hypothetische Datendatei, bei der es um dieBemühungen eines Unternehmens geht, neue Standorte für die betriebliche Expansionauszuwählen. Das Unternehmen beauftragte zwei Berater unabhängig voneinander mit derBewertung der Standorte. Neben einem umfassenden Bericht gaben die Berater auch einezusammenfassende Wertung für jeden Standort als “good” (gut) “fair” (mittelmäßig) oder“poor” (schlecht) ab.

smokers.sav. Diese Datendatei wurde aus der Umfrage “National Household Survey ofDrug Abuse” aus dem Jahr 1998 abstrahiert und stellt eine WahrscheinlichkeitsstichprobeUS-amerikanischer Haushalte dar. (http://dx.doi.org/10.3886/ICPSR02934) Daher sollte dererste Schritt bei der Analyse dieser Datendatei darin bestehen, die Daten entsprechend denBevölkerungstrends zu gewichten.

stocks.sav Diese hypothetische Datendatei umfasst Börsenkurse und -volumina für ein Jahr.

stroke_clean.sav. Diese hypothetische Datendatei enthält den Zustand einer medizinischenDatenbank, nachdem diese mithilfe der Prozeduren in der Option “Data Preparation” bereinigtwurde.

stroke_invalid.sav. Diese hypothetische Datendatei enthält den ursprünglichen Zustand einermedizinischen Datenbank, der mehrere Dateneingabefehler aufweist.

stroke_survival. In dieser hypothetischen Datendatei geht es um die Überlebenszeiten vonPatienten, die nach einem Rehabilitationsprogramm wegen eines ischämischen Schlaganfallsmit einer Reihe von Problemen zu kämpfen haben. Nach dem Schlaganfall werden dasAuftreten von Herzinfarkt, ischämischem Schlaganfall und hämorrhagischem Schlaganfallsowie der Zeitpunkt des Ereignisses aufgezeichnet. Die Stichprobe ist auf der linken Seiteabgeschnitten, da sie nur Patienten enthält, die bis zum Ende des Rehabilitationprogramms,das nach dem Schlaganfall durchgeführt wurde, überlebten.

stroke_valid.sav. Diese hypothetische Datendatei enthält den Zustand einer medizinischenDatenbank, nachdem diese mithilfe der Prozedur “Daten validieren” überprüft wurde. Sieenthält immer noch potenziell anomale Fälle.

survey_sample.sav. Diese Datendatei enthält Umfragedaten einschließlich demografischerDaten und verschiedener Meinungskennzahlen. Sie beruht auf einer Teilmenge derVariablen aus der NORC General Social Survey aus dem Jahr 1998. Allerdings wurden zuDemonstrationszwecken einige Daten abgeändert und weitere fiktive Variablen hinzugefügt.

http://dx.doi.org/10.3886/ICPSR02934

40

Anhang A

telco.sav. Hierbei handelt es sich um eine hypothetische Datendatei, bei der es um dieBemühungen eines Telekommunikationsunternehmens geht, die Kundenabwanderung zuverringern. Jeder Fall entspricht einem Kunden und enthält verschiedene Informationen zumdemografischen Hintergrund und zur Servicenutzung.

telco_extra.sav. Diese Datendatei ähnelt der Datei telco.sav, allerdings wurden die Variablen“tenure” und die Log-transformierten Variablen zu den Kundenausgaben entfernt und durchstandardisierte Log-transformierte Variablen ersetzt.

telco_missing.sav. Diese Datendatei ist eine Untermenge der Datendatei telco.sav, allerdingswurde ein Teil der demografischen Datenwerte durch fehlende Werte ersetzt.

testmarket.sav. Diese hypothetische Datendatei bezieht sich auf die Pläne einerFast-Food-Kette, einen neuen Artikel in ihr Menü aufzunehmen. Es gibt drei möglicheKampagnen zur Verkaufsförderung für das neue Produkt. Daher wird der neue Artikel inFilialen in mehreren zufällig ausgewählten Märkten eingeführt. An jedem Standort wird eineandere Form der Verkaufsförderung verwendet und die wöchentlichen Verkaufszahlen fürdas neue Produkt werden für die ersten vier Wochen aufgezeichnet. Jeder Fall entsprichteiner Standort-Woche.

testmarket_1month.sav. Bei dieser hypothetischen Datendatei handelt es sich um dieDatendatei testmarket.sav, wobei die wöchentlichen Verkaufszahlen zusammengefasst sind,sodass jeder Fall einem Standort entspricht. Dadurch entfallen einige der Variablen, diewöchentlichen Änderungen unterworfen waren, und die verzeichneten Verkaufszahlen sindnun die Summe der Verkaufszahlen während der vier Wochen der Studie.

tree_car.sav. Hierbei handelt es sich um eine hypothetische Datendatei, die demografischeDaten sowie Daten zum Kaufpreis von Fahrzeugen enthält.

tree_credit.sav. Hierbei handelt es sich um eine hypothetische Datendatei, die demografischeDaten sowie Daten zu früheren Bankkrediten enthält.

tree_missing_data.sav Hierbei handelt es sich um eine hypothetische Datendatei, diedemografische Daten sowie Daten zu früheren Bankkrediten enthält und eine große Anzahlfehlender Werte aufweist.

tree_score_car.sav. Hierbei handelt es sich um eine hypothetische Datendatei, diedemografische Daten sowie Daten zum Kaufpreis von Fahrzeugen enthält.

tree_textdata.sav. Eine einfache Datendatei mit nur zwei Variablen, die vor allem denStandardzustand von Variablen vor der Zuweisung von Messniveau und Wertelabels zeigensoll.

tv-survey.sav. Hierbei handelt es sich um eine hypothetische Datendatei zu einer Studie,die von einem Fernsehstudio durchgeführt wurde, das überlegt, ob die Laufzeit eineserfolgreichen Programms verlängert werden soll. 906 Personen wurden gefragt, ob sie dasProgramm unter verschiedenen Bedingungen ansehen würden. Jede Zeile entspricht einemBefragten; jede Spalte entspricht einer Bedingung.

ulcer_recurrence.sav. Diese Datei enthält Teilinformationen aus einer Studie zum Vergleichder Wirksamkeit zweier Therapien zur Vermeidung des Wiederauftretens von Geschwüren.Es stellt ein gutes Beispiel für intervallzensierte Daten dar und wurde an anderer Stelle((Collett, 2003)) vorgestellt und analysiert.

41

Beispieldateien

ulcer_recurrence_recoded.sav. In dieser Datei sind die Daten aus ulcer_recurrence.sav soumstrukturiert, dass das Modell der Ereigniswahrscheinlichkeit für jedes Intervall der Studieberechnet werden kann und nicht nur die Ereigniswahrscheinlichkeit am Ende der Studie. Siewurde an anderer Stelle ((Collett et al., 2003)) vorgestellt und analysiert.

verd1985.sav. Diese Datendatei enthält eine Umfrage ((Verdegaal, 1985)). Die Antworten von15 Subjekten auf 8 Variablen wurden aufgezeichnet. Die relevanten Variablen sind in dreiSets unterteilt. Set 1 umfasst alter und heirat, Set 2 besteht aus pet und news und in Set 3finden sich music und live. Die Variable pet wird mehrfach nominal skaliert und die VariableAlter ordinal. Alle anderen Variablen werden einzeln nominal skaliert.

virus.sav. Hierbei handelt es sich um eine hypothetische Datendatei, bei der es um dieBemühungen eines Internet-Dienstanbieters geht, der die Auswirkungen eines Virus auf seineNetzwerke ermitteln möchte. Dabei wurde vom Moment der Virusentdeckung bis zu demZeitpunkt, zu dem die Virusinfektion unter Kontrolle war, der (ungefähre) prozentuale Anteilinfizierter E-Mail in den Netzwerken erfasst.

wheeze_steubenville.sav. Hierbei handelt es sich um eine Teilmenge der Daten aus einerLangzeitstudie zu den gesundheitlichen Auswirkungen der Luftverschmutzung auf Kinder((Ware, Dockery, Spiro III, Speizer, als auch Ferris Jr., 1984)). Die Daten enthaltenwiederholte binäre Messungen des Keuchens von Kindern aus Steubenville, Ohio, im Altervon 7, 8, 9 und 10 Jahren sowie eine unveränderlichen Angabe, ob die Mutter im erstenJahr der Studie rauchte oder nicht.

workprog.sav. Hierbei handelt es sich um eine hypothetische Datendatei zu einemArbeitsprogramm der Regierung, das versucht, benachteiligten Personen bessere Arbeitsplätzezu verschaffen. Eine Stichprobe potenzieller Programmteilnehmer wurde beobachtet. Vondiesen Personen wurden nach dem Zufallsprinzip einige für die Teilnahme an dem Programmausgewählt. Jeder Fall entspricht einem Programmteilnehmer.

worldsales.sav Diese hypothetische Datendatei enthält Verkaufserlöse nach Kontinent undProdukt.

Anhang

BHinweise

Diese Informationen wurden für weltweit angebotene Produkte und Dienstleistungen erarbeitet.

IBM bietet die in diesem Dokument behandelten Produkte, Dienstleistungen oder Merkmalemöglicherweise nicht in anderen Ländern an. Informationen zu den derzeit in Ihrem Landerhältlichen Produkten und Dienstleistungen erhalten Sie bei Ihrem zuständigen IBM-Mitarbeitervor Ort. Mit etwaigen Verweisen auf Produkte, Programme oder Dienste von IBM soll nichtbehauptet oder impliziert werden, dass nur das betreffende Produkt oder Programm bzw. derbetreffende Dienst von IBM verwendet werden kann. Stattdessen können alle funktionalgleichwertigen Produkte, Programme oder Dienste verwendet werden, die keine geistigenEigentumsrechte von IBM verletzen. Es obliegt jedoch der Verantwortung des Benutzers, dieFunktionsweise von Produkten, Programmen oder Diensten von Drittanbietern zu bewerten undzu überprüfen.

IBM verfügt möglicherweise über Patente oder hat Patentanträge gestellt, die sich auf in diesemDokument beschriebene Inhalte beziehen. Durch die Bereitstellung dieses Dokuments werdenIhnen keinerlei Lizenzen an diesen Patenten gewährt. Lizenzanfragen können schriftlich anfolgende Adresse gesendet werden:

IBM Director of Licensing, IBM Corporation, North Castle Drive, Armonk, NY 10504-1785,U.S.A.

Bei Lizenzanfragen in Bezug auf DBCS-Daten (Double-Byte Character Set) wenden Sie sich andie für geistiges Eigentum zuständige Abteilung von IBM in Ihrem Land. Schriftliche Anfragenkönnen Sie auch an folgende Adresse senden:

Intellectual Property Licensing, Legal and Intellectual Property Law, IBM Japan Ltd., 1623-14,Shimotsuruma, Yamato-shi, Kanagawa 242-8502 Japan.

Der folgende Abschnitt findet in Großbritannien und anderen Ländern keine Anwendung, in denensolche Bestimmungen nicht mit der örtlichen Gesetzgebung vereinbar sind: INTERNATIONALBUSINESS MACHINES STELLT DIESE VERÖFFENTLICHUNG IN DER VERFÜGBARENFORM OHNE GARANTIEN BEREIT, SEIEN ES AUSDRÜCKLICHE ODERSTILLSCHWEIGENDE, EINSCHLIESSLICH JEDOCH NICHT NUR DER GARANTIENBEZÜGLICH DER NICHT-RECHTSVERLETZUNG, DER GÜTE UND DER EIGNUNGFÜR EINEN BESTIMMTEN ZWECK. Manche Rechtsprechungen lassen den Ausschlussausdrücklicher oder implizierter Garantien bei bestimmten Transaktionen nicht zu, sodass dieoben genannte Ausschlussklausel möglicherweise nicht für Sie relevant ist.

Diese Informationen können technische Ungenauigkeiten oder typografische Fehler aufweisen.An den hierin enthaltenen Informationen werden regelmäßig Änderungen vorgenommen. DieseÄnderungen werden in neuen Ausgaben der Veröffentlichung aufgenommen. IBM kann jederzeitund ohne vorherige Ankündigung Optimierungen und/oder Änderungen an den Produktenund/oder Programmen vornehmen, die in dieser Veröffentlichung beschrieben werden.


43

Hinweise

Jegliche Verweise auf Drittanbieter-Websites in dieser Information werden nur der Vollständigkeithalber bereitgestellt und dienen nicht als Befürwortung dieser. Das Material auf diesen Websitesist kein Bestandteil des Materials zu diesem IBM-Produkt und die Verwendung erfolgt aufeigene Gefahr.

IBM kann die von Ihnen angegebenen Informationen verwenden oder weitergeben, wie diesangemessen erscheint, ohne Ihnen gegenüber eine Verpflichtung einzugehen.

Lizenznehmer dieses Programms, die Informationen dazu benötigen, wie (i) der Austausch vonInformationen zwischen unabhängig erstellten Programmen und anderen Programmen und (ii) diegegenseitige Verwendung dieser ausgetauschten Informationen ermöglicht wird, wenden sich an:

IBM Software Group, Attention: Licensing, 233 S. Wacker Dr., Chicago, IL 60606, USA.

Derartige Informationen stehen ggf. in Abhängigkeit von den jeweiligen Geschäftsbedingungensowie in einigen Fällen der Zahlung einer Gebühr zur Verfügung.

Das in diesem Dokument beschriebene lizenzierte Programm und sämtliche dafür verfügbarenlizenzierten Materialien werden von IBM gemäß dem IBM-Kundenvertrag, den InternationalenNutzungsbedingungen für Programmpakete der IBM oder einer anderen zwischen uns getroffenenVereinbarung bereitgestellt.

Informationen zu Produkten von Drittanbietern wurden von den Anbietern des jeweiligenProdukts, aus deren veröffentlichten Ankündigungen oder anderen, öffentlich verfügbaren Quellenbezogen. IBM hat diese Produkte nicht getestet und kann die Genauigkeit bezüglich Leistung,Kompatibilität oder anderen Behauptungen nicht bestätigen, die sich auf Drittanbieter-Produktebeziehen. Fragen bezüglich der Funktionen von Drittanbieter-Produkten sollten an die Anbieterder jeweiligen Produkte gerichtet werden.

Diese Informationen enthalten Beispiele zu Daten und Berichten, die im täglichen GeschäftsbetriebVerwendung finden. Um diese so vollständig wie möglich zu illustrieren, umfassen die BeispieleNamen von Personen, Unternehmen, Marken und Produkten. Alle diese Namen sind fiktiv undjegliche Ähnlichkeit mit Namen und Adressen realer Unternehmen ist rein zufällig.

Unter Umständen werden Fotografien und farbige Abbildungen nicht angezeigt, wenn Sie dieseInformationen nicht in gedruckter Form verwenden.

Marken

IBM, das IBM-Logo, ibm.com und SPSS sind Marken der IBM Corporation und in vielenLändern weltweit registriert. Eine aktuelle Liste der IBM-Marken finden Sie im Internet unterhttp://www.ibm.com/legal/copytrade.shtml.

Adobe, das Adobe-Logo, PostScript und das PostScript-Logo sind eingetragene Marken oderMarken von Adobe Systems Incorporated in den USA und/oder anderen Ländern.

Intel, das Intel-Logo, Intel Inside, das Intel Inside-Logo, Intel Centrino, das Intel Centrino-Logo,Celeron, Intel Xeon, Intel SpeedStep, Itanium und Pentium sind Markten oder eingetrageneMarken der Intel Corporation oder der Tochtergesellschaften des Unternehmens in den USAund anderen Ländern.

Java und alle Java-basierten Marken sowie Logos sind Marken von Sun Microsystems, Inc.in den USA, anderen Ländern oder beidem.

http://www.ibm.com/legal/copytrade.shtml

44

Anhang B

Linux ist eine eingetragene Marke von Linus Torvalds in den USA, anderen Ländern oder beidem.

Microsoft, Windows, Windows NT und das Windows-Logo sind Marken der MicrosoftCorporation in den USA, anderen Ländern oder beidem.

UNIX ist eine eingetragene Marke der The Open Group in den USA und anderen Ländern.

In diesem Produkt wird WinWrap Basic verwendet, Copyright 1993-2007, Polar Engineering andConsulting, http://www.winwrap.com.

Andere Produkt- und Servicenamen können Marken von IBM oder anderen Unternehmen sein.

Screenshots von Adobe-Produkten werden mit Genehmigung von Adobe Systems Incorporatedabgedruckt.

Screenshots von Microsoft-Produkten werden mit Genehmigung der Microsoft Corporationabgedruckt.

BibliografieBell, E. H. 1961. Social foundations of human behavior: Introduction to the study of sociology.New York: Harper & Row.

Blake, C. L., als auch C. J. Merz. 1998. "UCI Repository of machine learning databases."Available at http://www.ics.uci.edu/~mlearn/MLRepository.html.

Breiman, L., als auch J. H. Friedman. 1985. Estimating optimal transformations for multipleregression and correlation. Journal of the American Statistical Association, 80, .

Collett, D. 2003. Modelling survival data in medical research, 2 (Hg.). Boca Raton: Chapman &Hall/CRC.

Davison, A. C., als auch D. V. Hinkley. 2006. Bootstrap Methods and their Application. :Cambridge University Press.

Green, P. E., als auch V. Rao. 1972. Applied multidimensional scaling. Hinsdale, Ill.: DrydenPress.

Green, P. E., als auch Y. Wind. 1973. Multiattribute decisions in marketing: A measurementapproach. Hinsdale, Ill.: Dryden Press.

Guttman, L. 1968. A general nonmetric technique for finding the smallest coordinate space forconfigurations of points. Psychometrika, 33, .

Hartigan, J. A. 1975. Clustering algorithms. New York: John Wiley and Sons.

Hastie, T., als auch R. Tibshirani. 1990. Generalized additive models. London: Chapman andHall.

Kennedy, R., C. Riquier, als auch B. Sharp. 1996. Practical applications of correspondenceanalysis to categorical data in market research. Journal of Targeting, Measurement, and Analysisfor Marketing, 5, .

McCullagh, P., als auch J. A. Nelder. 1989. Generalized Linear Models, 2nd (Hg.). London:Chapman & Hall.

Price, R. H., als auch D. L. Bouffard. 1974. Behavioral appropriateness and situational constraintsas dimensions of social behavior. Journal of Personality and Social Psychology, 30, .

Rickman, R., N. Mitchell, J. Dingman, als auch J. E. Dalen. 1974. Changes in serum cholesterolduring the Stillman Diet. Journal of the American Medical Association, 228, .

Rosenberg, S., als auch M. P. Kim. 1975. The method of sorting as a data-gathering procedure inmultivariate research. Multivariate Behavioral Research, 10, .

Shao, J., als auch D. Tu. 1995. The Jackknife and Bootstrap. New York: Springer.

Van der Ham, T., J. J. Meulman, D. C. Van Strien, als auch H. Van Engeland. 1997. Empiricallybased subgrouping of eating disorders in adolescents: A longitudinal perspective. British Journalof Psychiatry, 170, .

Verdegaal, R. 1985. Meer sets analyse voor kwalitatieve gegevens (in niederländischer Sprache).Leiden: Department of Data Theory, Universität Leiden.

Ware, J. H., D. W. Dockery, A. Spiro III, F. E. Speizer, als auch B. G. Ferris Jr.. 1984. Passivesmoking, gas cooking, and respiratory health of children living in six cities. American Review ofRespiratory Diseases, 129, .


http://www.ics.uci.edu/~mlearn/MLRepository.html

IndexBeispieldateienSpeicherort, 31

Bootstrap-Spezifikationenin Bootstrapping, 14

bootstrapping, 3, 10Bootstrap-Spezifikationen, 14Konfidenzintervall für Anteil, 15–16Konfidenzintervall für Median, 19Parameterschätzer, 29unterstützte Prozeduren, 5

Konfidenzintervall für Anteilin Bootstrapping, 15–16

Konfidenzintervall für Medianin Bootstrapping, 19

Marken, 43

Parameterschätzerin Bootstrapping, 29

Rechtliche Hinweise, 42

46

Documents

IBM SPSS Bootstrapping 20 - math.uni-leipzig.de SPSS Bootstrapping.pdf · 5 Bootstrapping (bei Bedarf werden die Bootstrap-Werte interpoliert). “Bias corrected and accelerated”-