629
Die erkenntnistheoretischen Grundlagen induktiven Schließens Prof. Dr. Thomas Bartelborth Universität Leipzig Institut für Philosophie Abteilung für Logik und Wissenschaftstheorie 1. Ausgabe: März 2012

Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

  • Upload
    lycong

  • View
    219

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Die erkenntnistheoretischenGrundlagen induktiven Schließens

Prof. Dr. Thomas BartelborthUniversität Leipzig

Institut für PhilosophieAbteilung für Logik und Wissenschaftstheorie

1. Ausgabe: März 2012

Page 2: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Inhalt und Vorwort i

Inhalt

Inhalt ........................................................................................................................... i

Vorbemerkung zum Format des Buches................................................................. vi

Vorwort ..................................................................................................................... vii

1 Probleme induktiven Schließens..........................................................................11.1 Beispiele für Induktionsschlüsse.................................................................. 51.2 Historische Vorläufer der Induktionsdebatte ............................................... 81.2 Grundbegriffe der Bestätigung ...................................................................121.3 Die Daten .....................................................................................................141.4 Die konservative Induktion .........................................................................16

1.4.1 Extrapolationen ....................................................................................161.4.2 Statistische Extrapolationen ...............................................................191.4.3 Induktion und Metaphysik...................................................................22

1.5 Humes Induktionsproblem..........................................................................281.6 Der Plot des Buches ....................................................................................34

2 Erkenntnistheoretische Zielvorstellungen ........................................................382.1 Die Ziele der Wissenschaft .........................................................................402.2 Wissen ..........................................................................................................42

2.2.1 Platons Wissenskonzeption.................................................................422.2.2 Modale Anforderungen ........................................................................442.2.3 Unanfechtbares Wissen.......................................................................48

2.3 Wissenschaft und Pseudowissenschaft ....................................................682.4 Fälschungen als Unterminierer...................................................................772.5 Probleme der Datengewinnung ..................................................................80

3 Qualitative Induktionsverfahren .........................................................................843.1 Poppers Falsifikationismus.........................................................................843.2 Die eliminative Induktion ............................................................................953.3 Die deduktiv-hypothetische Theorienbestätigung.................................. 1033.4 Hempels Instanzenkonzeption der Theorienbestätigung ...................... 1043.5 Probleme der hypothetisch-deduktiven Theorienbestätigung............... 108

3.5.1 Relevanzprobleme............................................................................. 1083.5.2 Das Problem der theoretischen Terme.............................................1103.5.3 Unterbestimmtheit und probabilistische Theorien ......................... 113

3.6 Die Induktionseigenschaft ........................................................................116

Page 3: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

ii Thomas Bartelborth: Induktives Schließen

3.7 Nomische Muster ..................................................................................... 1223.8 Die Rabenparadoxie und das „grue“-Paradox ........................................ 1283.9 Fazit ........................................................................................................... 133

4 Der Schluss auf die beste Erklärung ............................................................... 1354.1 Die Ursachen der Cholera ........................................................................ 1354.2 Das Grundschema des Schlusses auf die beste Erklärung................... 1384.3 Erklärungsstärke....................................................................................... 144

4.3.1 Relevanzprobleme............................................................................. 1454.3.2 Dimensionen der Erklärungsstärke ................................................. 1494.3.3 Kausale Mechanismen..................................................................... 162

4.4 Erklärungskohärenz.................................................................................. 1634.5 Van Fraassens Kritik an der Abduktion................................................... 1804.6 Kreative Formen der Abduktion............................................................... 1834.7 Indirekte Formen der Abduktion.............................................................. 1864.8 Problemfälle abduktiven Schließens: „Klabautermanntheorien“ ......... 1904.9 Wissenschaftlicher Realismus................................................................. 1924.10 Fazit ........................................................................................................... 195

5 Probabilistische Ansätze.................................................................................. 1975.1 Ein grundlegendes Beispiel ......................................................................1975.2 Der statistische Syllogismus .................................................................... 2015.3 Klassische und probabilistische Überzeugungssysteme ....................... 212

5.3.1 Argumente für Glaubensgrade ..........................................................2245.3.2 Benötigen wir den zweiwertigen Glauben? ..................................... 2265.3.3 Was sind Glaubensgrade?................................................................ 2355.3.4 Dutch-Book-Argumente..................................................................... 2445.3.5 Andere Begründungen der Wahrscheinlichkeitsaxiome .................2495.3.6 Komparative Bestätigung und qualitative Wahrscheinlichkeit ...... 2525.3.7 Hawthornes n-stufige Glaubenslogik ............................................... 2595.3.8 Bayessche Netze............................................................................... 2625.3.9 Das Dogmatismusverbot ...................................................................2745.3.10 Wahrscheinlichkeitskoordinierungsprinzipien:

Statistischer Syllogismus und Likelihoodanbindung......................2785.3.11 Mehrfaches Updaten und bayesianische Konvergenz ................. 2885.3.12 Das Hauptprinzip ............................................................................ 2915.3.13 Das Reflexionsprinzip ..................................................................... 2985.3.14 Indifferenzprinzipien ....................................................................... 3005.3.15 Bedingte Wahrscheinlichkeiten als basal ..................................... 305

5.4 Objektive Wahrscheinlichkeiten und Propensitäten................................3075.4.1 Objektive physikalische Wahrscheinlichkeit.....................................307

Page 4: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Inhalt und Vorwort iii

5.4.2 Wahrscheinlichkeit und relative Häufigkeiten................................. 3095.4.3 Die klassische Auffassung der Wahrscheinlichkeit .........................3175.4.4 Reduktion der physikalischen Wahrscheinlichkeit auf die

subjektive ..........................................................................................3185.4.5 Chaotische Systeme ......................................................................... 3205.4.6 Poppersche Propensitäten als theoretischer Term......................... 3225.4.7 Der Einwand von Gillies und eine transzendentale Annahme....... 3285.4.8 Das Brückenprinzip und Regeln der Propensitäts-Messung.......... 329

5.5 Der klassische Bayesianismus ................................................................ 3335.5.1 Grundlegende Verfahren .................................................................. 3335.5.2 Hintergrundwissen im Bayesianismus............................................. 3365.5.3 Die Rechtfertigung der Konditionalisierungsregel .......................... 3385.5.4 Sind vernünftige Glaubensgrade messbar?.................................... 3395.5.6 Jeffreys Konditionalisierungsregel ....................................................3415.5.7 Bayesianische Bestätigungstheorie................................................. 3465.5.8 Maße der Bestätigung ...................................................................... 3485.5.9 Bayesianische Konvergenz................................................................3515.5.10 Das Likelihood-Quotienten-Konvergenztheorem von Hawthorne und

die moderne induktive Logik........................................................... 3565.5.11 Zur Bedeutung der Konvergenztheoreme: Eine Glosse ............... 3605.5.12 Formen der Bestätigung................................................................. 3655.5.13 Carnaps induktive Logik ................................................................. 3695.5.14 Mahers Explikation von Carnaps induktiver Logik.........................3735.5.15 Hawthornes induktive Logik ............................................................3785.5.16 Das Versagen der Likelihoodanbindung........................................ 3805.5.17 Das Problem der alten Evidenz und die Intransparenz der

Bestätigungsbeziehung ................................................................... 3845.5.18 Die Asymmetrie von Vorhersage und Retrodiktion ....................... 3885.5.19 Neue Theorien und Innovationsfeindlichkeit ................................ 3905.5.20 Der Likelihoodismus und das Favorisieren von Hypothesen ....... 3935.5.21 Bayesianismus für unendlich viele Hypothesen ........................... 3985.5.22 Das Gewicht der Daten................................................................... 4045.5.23 Achinsteins Einwände..................................................................... 406

5.6 Weitere spezielle Probleme und Anwendungen des Bayesianismus.....4115.6.1 Bayesianische Entscheidungstheorie ...............................................4115.6.2 Das Duhem-Quine-Problem...............................................................4155.6.3 Ad-hoc-Hypothesen ........................................................................... 4225.6.4 Die Rabenparadoxie...........................................................................4245.6.5 Irrelevante Konjunktionen ................................................................ 4265.6.6 Variation der Daten ........................................................................... 428

Page 5: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

iv Thomas Bartelborth: Induktives Schließen

5.6.7 Ein bayesianischer Gottesbeweis..................................................... 4305.6.8 Zeugenaussagen und unabhängige Daten ..................................... 4355.6.9 Der Trugschluss des Anklägers ........................................................ 4435.6.10 Die Bayessche Analyse von DNA-Beweisen .................................. 4465.6.11 Fazit 1: Möglichst objektiver Bayesianismus und Theorienwahl . 4485.6.12 Fazit 2: Bayesianismus und abduktives Schließen ...................... 4505.6.13 Andere Plausibilitätsmaße ..............................................................457

6 Schlüsse der klassischen Statistik ................................................................. 4626.1 Klassische Hypothesentests.................................................................... 4636.2 Die Logik experimenteller Hypothesentests ............................................4716.3 Die statistische Modellbildung ................................................................. 4746.4 Filteranalogie und Anwendungsprobleme der klassischen Statistik .... 4806.5 Schätzen.................................................................................................... 489

7 Kausalschlüsse ................................................................................................. 4977.1 Einleitung: Zur Bedeutung kausalen Schließens ....................................4977.2 Die minimale Theorie:

eine Regularitätstheorie der Kausalität .................................................. 4997.2.1 Die Grundlagen der minimalen Theorie ........................................... 4997.2.2 Empirische Vollständigkeit als Ersatzmodalität................................5077.2.3 Ein Problem für die INUS-Theorie ......................................................5157.2.4 Singuläre Verursachung.....................................................................5187.2.5 Kausales Schließen und Homogenisierung..................................... 5237.2.6 Randomisierung als Allheilmittel? .....................................................5377.2.7 Ist minimales Schließen abduktiv? .................................................. 539

7.3 Probabilistische Kausalität und bayessche Netze.................................. 5407.3.1 Probabilistische Ursachen und Reichenbachs Schlussregel.......... 5407.3.2 Simpsons Paradox und probabilistische Verursachung.................. 5467.3.3 Die Stärke der probabilistischen Verursachung .............................. 5527.3.4 Wahrscheinlichkeiten und relative Häufigkeiten............................. 5537.3.5 Probabilistische singuläre Verursachung......................................... 5557.3.6 Quantitative Zufallsvariablen............................................................ 5587.3.7 Interventionalistischer Ansatz zur Kausalität .................................. 5607.3.8 Kausale Strukturen und gerichtete Graphen................................... 5667.3.9 Graphentreue Bayessche Netze ........................................................5717.3.10 Erschließen des Kausalgraphen .....................................................5757.3.11 Kausale Vorhersagen ...................................................................... 5807.3.12 Ein Beispiel aus der Praxis ............................................................. 5847.3.13 Randomisierte Experimente ........................................................... 586

7.4 Kausale Modelle ....................................................................................... 587

Page 6: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Inhalt und Vorwort v

7.4.1 Die Grundideen der Regressionsrechnung...................................... 5877.4.2 Penalisierung und Erklärungen auch für zukünftige Ereignisse .... 5947.4.3 Zusammenhänge zum abduktiven Schließen..................................597

Einige Notationen................................................................................................. 599

Literatur................................................................................................................. 600

Page 7: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

vi Thomas Bartelborth: Induktives Schließen

Vorbemerkung zum Format des Buches

Das Buch ist zunächst nur als Ebook im PDF-Format erhältlich, um sounentgeltlich und direkt für Lehrende und Lernende zur Einführung indas Thema Induktion und Wahrscheinlichkeit zur Verfügung zu stehen.(Die Urheberrechte verbleiben beim Autor.) Das Buch ist dafür opti-miert, zwei Seiten auf einen A4-Bogen drucken zu können. Dazu müssenSie z.B. im Acrobat Reader die Seiteneinrichtung auf Querformat einstel-len und dann mehrere Seiten pro Blatt (21) einstellen. Nutzt man nochdie Rückseiten, ließe sich das Buch auf etwa 150 Blättern gut lesbar aus-drucken. Wer gerne mehr Platz zum Kommentieren hat, kann natürlichauch einzelne Seiten auf einen A4-Bogen drucken und dabei sogar mitVergrößerungen arbeiten, die das Lesen erleichtern können. Das Buchhat bisher keinen Index, da Sie die Datei direkt nach Stichworten durch-suchen können, und es über ein ausführliches Inhaltsverzeichnis verfügt,dessen Einträge auch über die Lesezeichen in der PDF-Datei wiederzu-finden sind. Ich selbst nutze es meist direkt in elektronischer Form undlese es überwiegend am Bildschirm. Auch dafür scheint mir das Formatgut geeignet zu sein. Für Zitate verweisen Sie bitte auf die URN-Adres-se: Bartelborth, Thomas (2012): Die erkenntnistheoretischen Grundlageninduktiven Schließens, Ebook, <Angabe der URN-Adresse>. Für alleHinweise und Rückmeldungen zum Buch bin ich sehr dankbar (bitte ein-fach per email an: [email protected]).

Page 8: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Inhalt und Vorwort vii

Vorwort

Die Philosophie beschäftigt sich schon seit ihren Anfängen mit Fragender folgenden Art: Wie können wir zu gut begründeten Erkenntnissenüber die Welt gelangen und wodurch zeichnen sich gute Begründungenaus? Anschließend können wir dann z.B. fragen: Wie können wir an-hand wissenschaftlicher Theorien zuverlässig auf zukünftige Ereignisseschließen? Speziell für wissenschaftliche Theorien spricht man davon,dass wir sie induktiv erschließen oder begründen müssen, und fragt dazunach den geeigneten induktiven Schlussverfahren, die das leisten können.Leider herrscht weder unter Philosophen noch unter Fachwissenschaft-lern Einigkeit darüber, welche das sind. Es konkurrieren viele Ansätzeum den Titel des besten wissenschaftlichen Begründungsverfahrens, diejeweils unterschiedliche Vor- und Nachteile aufweisen und sich fürunterschiedliche Anwendungsbereiche anbieten. Die wichtigsten Verfah-ren sollen in diesem Buch kritisch unter die Lupe genommen werden,wobei keines ohne größere Einwände davon kommt. In der Philosophiewird seit einigen Jahren vor allem der Bayesianismus als die Lösung derBestätigungsfrage in der Erkenntnis- und Wissenschaftstheorie propa-giert, der u.a. aus diesem Grund eine zentrale Stellung im Buch ein-nimmt. Außerdem stellt er den umfassendsten Einsatz von Wahrschein-lichkeiten in der Explikation induktiven Schließens dar, von dem aus an-dere probabilistische Ansätze wie die klassische Statistik diskutiert wer-den können.

Neben diesen quantitativen Verfahren lassen sich die Grundideen in-duktiven Schließens bereits in einigen qualitativen Verfahren erkennen,und dort finden wir auch schon die meisten der Probleme, mit denenfast alle anderen Verfahren ebenfalls zu kämpfen haben. Die drehen sichetwa um irrelevante Schlüsse, die Induktionseigenschaft, die Unterbe-stimmtheit von Theorien, die Objektivität der Schlussverfahren und im-mer wieder um spezielle Beispiele, in denen die Verfahren nicht das leis-ten, was wir uns von ihnen versprechen. Zu den qualitativen Verfahrengehören u.a. die konservative Induktion (bzw. das einfache Extrapolie-ren) zusammen mit ihren statistischen Varianten, die deduktiv-hypothe-tische Theorienbestätigung, falsifikationistische Ansätze, die Instanzen-bestätigung, die eliminative Induktion und der Schluss auf die beste Er-klärung (auch Abduktion genannt).

Page 9: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

viii Thomas Bartelborth: Induktives Schließen

Die induktiven Begründungen wissenschaftlicher Theorien dienenvor allem der Auswahl einer Theorie, die wir dann etwa als Grundlagefür unsere Handlungen akzeptieren. Gerade das abduktive Schließenwird sich dabei als eines der besten Verfahren zur Theorienwahl heraus-stellen, jedenfalls dann, wenn wir es in ein holistisches Konzept von Er-klärungskohärenz einbetten, das bereits gewisse quantitative Präzisierun-gen erlaubt. Die meisten Verfahren werden gern als einfache Regeln derTheorienwahl dargestellt, aber letztlich sollten wir hier keine falschenHoffnungen hegen, denn es gilt weiterhin Thomas Kuhns Einsicht, dasses keinen Algorithmus zur Auswahl einer Theorie gibt, sondern immerkomplexe Abwägungsprozesse dazu erforderlich sind. Am nächstenkommt vermutlich der bayesianische Ansatz der Idee eines umfassendenAlgorithmus, aber wir werden sehen, dass dabei wichtige Aspekte derTheorienwahl außen vor bleiben, wie z.B. die Erklärungskraft der Theo-rien. Die kuhnsche Einsicht führt uns aber keineswegs in einen radikalenRelativismus, denn der entsteht meist erst, wenn wir uns auch noch derAuffassung anschlössen, dass es keine klaren Ziele für die wissenschaftli-che Arbeit gibt, z.B., weil es keinen absoluten Wahrheitsbegriff gäbe.Doch dem ist nicht so und ich werde in Kapitel 2 die objektiven er-kenntnistheoretischen Ziele der Wissenschaft genauer beschreiben.

Der bayesianische Ansatz trumpft vor allem damit auf, dass er für al-le Anwendungsfälle eine quantitative Auskunft geben kann, in welchemUmfang bestimmte Daten eine Theorie stützen. Die Kritiker wenden al-lerdings ein, das gehe auf Kosten der Objektivität, und es sei im Bayesia-nismus keineswegs klar, welche Größen als Maß für die Bestätigung her-angezogen werden sollten. Tatsächlich wird es sich auch in diesem Buchimmer wieder erweisen, dass es keine einfachen Induktionsverfahrengibt, die eine zuverlässige Entscheidung liefern, ob wir eine Theorie ak-zeptieren sollten oder nicht. Das gilt übrigens ebenso für die klassischeStatistik, die manchmal so dargestellt wird, als ob sie ein einfaches Re-zept für die Auswahl einer Theorie zu bieten hätte, und von den Anwen-dern gerne in diesem Sinne genutzt wird. Dazu werde ich u.a. dafür ar-gumentieren, dass wir für induktive Schlüsse immer auf weitergehende(metaphysische) Annahmen über die Kausalstruktur unserer Welt ange-wiesen sind, die allen einfachen Rezepten einen Strich durch die Rech-nung machen.

Wir kommen daher leider nicht umhin, uns den Mühen einer sub-stantiellen Theorienbildung zu unterziehen. Erst diese Theorien könnenschließlich empirisch getestet werden und sind auch zu begründeten Vor-hersagen in der Lage, die wir etwa benötigen, wenn wir wichtige Ent-

Page 10: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Inhalt und Vorwort ix

scheidungen darauf stützen möchten. Die substantiellen Theorien oderModelle lassen sich nur anhand komplexer Abwägungen ihrer Zusam-menhänge zu unseren Daten und anderen Theorien akzeptieren oder zu-rückweisen. Unsere Hilfsmittel, um kausales Wissen dabei einzubringen,sind im Bayesianismus etwa bayessche Netze und allgemein besonderekausale Schlussverfahren, die in den letzten Jahren entwickelt wurden.Dazu werden logische (boolesche) und probabilistische Verfahren vorge-stellt, die diese Aufgabe übernehmen können.

Die substantielle Theorienbildung ist noch aus einem anderen Grundgeboten, der in der ganzen Debatte leider häufig übersehen wird. Wirsuchen nach gut begründbaren neuen Theorien, weil wir uns von ihnenRatschläge für wichtige Entscheidungen im Alltag, der Politik oder derWissenschaft erhoffen. Dazu müssen die Theorien substantielle Vorher-sagen gestatten. Es geht uns also nicht nur darum, irgendwelche Theo-rien zu bestätigen, sondern vielmehr um eine Auswahl besonders gehalt-voller Theorien. Dadurch wird das induktive Schließen überhaupt erstspannend, denn empirisch inhaltsarme Theorien über einfache mathe-matische Zusammenhänge oder direkt beobachtbare Tatsachen sind da-gegen noch relativ leicht zu gewinnen. Dieses Spannungsverhältnis zwi-schen gut begründeten, aber zugleich empirisch anspruchsvollen Be-hauptungen wird uns das ganze Buch über begleiten.

Es zeigen sich aber trotz aller Kontroversen auch bestimmte Gemein-samkeiten zwischen den Verfahren. Von den qualitativen Verfahren bishin zu den quantitativen Schlussverfahren werden uns in unterschiedli-chen Variationen die sogenannten Likelihoods der Theorien bzgl. derDaten als ein wichtiger Maßstab für die Qualität einer Begründung derTheorien durch die Daten verfolgen. Ihre genaue Aufgabe wird am deut-lichsten im abduktiven Schließen und in den bayesianischen Ansätzen,die der induktiven Logik nahestehen.

Ein wichtiges Ziel des Buches ist es dabei, die erkenntnistheoreti-schen Fragestellungen und Prinzipien, auf die wir uns stützen, immerwieder in den Vordergrund zu stellen und so die Erkenntnistheorie unddie Wissenschaftstheorie wieder enger zusammenzubringen. Gerade inden Problembereichen induktiven Schließens müssen wir uns auf er-kenntnistheoretische Prinzipien besinnen, um unsere Lösungsvorschlägebegründen zu können. Dazu ist es von großer Bedeutung, die Ziele derWissenschaft explizit vorzustellen und die Induktionsverfahren darauf-hin zu untersuchen, inwieweit sie denen gerecht werden können. Dasgeschieht im Rahmen der Ausarbeitung einer bestimmten Konzeptionwissenschaftlichen Wissens, die uns als Leitfaden für die Induktionsver-

Page 11: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

x Thomas Bartelborth: Induktives Schließen

fahren gelten soll. Vorrang wird in den folgenden Debatten dabei immereine Analyse der zugrundeliegenden Ideen vor einer Analyse der ehertechnischen Zusammenhänge und Beweise haben. Dadurch soll dasBuch als einführende und ergänzende Lektüre für alle diejenigen dienen,die induktive Schlussverfahren nicht nur in Form von „Kochrezepten“oder als komplizierte mathematische Verfahren kennenlernen wollen,sondern vor allem die Begründungen und Grenzen bestimmter Verfah-ren ermitteln möchten. Außerdem steht immer die erkenntnistheoreti-sche Bewertung der Zusammenhänge im Vordergrund gegenüber dentechnischen Umsetzungen, die nur so weit verfolgt werden, wie das fürein Verstehen sowie eine Bewertung hilfreich erscheint.

Page 12: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Inhalt und Vorwort xi

Page 13: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

1 Probleme induktiven Schließens

Zu den wichtigsten methodischen Fragen für die (empirischen) Wissen-schaften gehört die, wann wir eine bestimmte Theorie oder Hypothese(als hinreichend [empirisch] bestätigt) akzeptieren sollen. Welcher Artmüssen unsere Daten sein und wie viele benötigen wir? Welcher Art istdie Bestätigungsbeziehung und welche Rolle spielt unser weiteres Hin-tergrundwissen dabei? Dieses Buch soll dazu dienen, diese Fragen weiterzu klären. Trotz einer boomenden Wissenschaft und zahlreichen Debat-ten zum Thema der Rechtfertigung wissenschaftlicher Behauptungengibt es leider immer noch grundlegende Meinungsverschiedenheiten umdie Frage, nach welchen Methoden oder Standards wir beim Akzeptie-ren von Hypothesen in der Wissenschaft verfahren sollten. Es wird alsozu klären sein, was die Kriterien für gute wissenschaftliche Erkenntnissesind, und wir werden unterschiedliche Induktionsverfahren daraufhinanschauen, inwiefern sie das Potential haben, die besten Theorien gemäßdiesen Standards zu bestimmen.

Dabei soll die Frage beantwortet werden, wann eine Behauptungoder spezieller eine wissenschaftliche Theorie als gut begründet geltendarf und ob sich die Stärke der Begründung vielleicht sogar quantifizie-ren lässt. Solche Begründungen oder auch Schlussverfahren werden alleunter dem Stichwort der Induktion bzw. dem des induktiven Schließensdiskutiert. Dazu stelle ich konkurrierende Ansätze vor, die heutzutageals beste Verfahren für diese Aufgabe der induktiven Bestätigung vonTheorien vertreten werden. Leider gibt es hier – anders als im Bereichder deduktiven Logik – kein zentrales Paradigma, dem sich alle Ansätzeunterordnen würden. Vielmehr stehen diese Induktionsverfahren seitJahrzehnten in erbitterter Konkurrenz zueinander, und es ist sehrschwer, den Überblick zu behalten oder einen Sieger auszumachen. Ichwerde dafür argumentieren, dass der Schluss auf die beste Erklärung zu-sammen mit einer Kohärenztheorie der Rechtfertigung den übergeord-neten Rahmen abgeben kann, innerhalb dessen sich die anderen Ansätzeanordnen und ihre Verdienste und Probleme bewerten lassen.

Ausgangspunkt ist also das Grundproblem der Erkenntnistheorie,wann wir über eine gute Begründung für eine Meinung verfügen, d.h.,was gute Hinweise auf die Wahrheit einer bestimmten Überzeugung sind

Page 14: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 1: Probleme induktiven Schließens 2

und wann sie vorliegen. Das ist auch die zentrale Frage für die Annahmewissenschaftlicher Theorien bzw. Hypothesen. Wenn wir in der Wissen-schaft eine Theorie akzeptieren, so muss sie durch Beobachtungen unddie Resultate von Experimenten gut begründet sein und darf keinesfallswillkürlich akzeptiert werden. Dabei betrachten wir hier die Frage derDatenerhebung meist schon als geklärt und fragen uns nur noch, welcheDaten in welchem Maß für welche Theorien sprechen, wobei ich mitDaten hier manchmal Rohdaten meine, die direkt unsere Beobachtungenwiedergeben, aber manchmal auch bereits stärker interpretierte Beob-achtungen. Solche abgeleiteten Daten setzen meist schon erste Induk-tionsschlüsse voraus.

Wir werden daneben darauf zu sprechen kommen, dass zum Akzep-tieren von Theorien mehr gehört als gute Begründungen. Das ganzeUnternehmen Wissenschaft wird erst dadurch spannend, dass wir vonden Theorien bestimmte Leistungen erwarten. Theorien, die uns nichtviel über die Welt sagen, sind relativ leicht zu finden und zu begründen.Man denke an viele relativ triviale Aussagen wie: (1) Zwei Liter Wassersind mehr als ein Liter Wasser, (2) 2+3=5 oder (3) vor mir steht einweißer Tisch etc. Stattdessen suchen wir aber nach Theorien, die gehalt-voll und informativ sind (uns möglichst viele Phänomene erklären kön-nen) und trotzdem noch gut begründbar sind. Das ist schon schwerer zuerzielen und beschreibt erst die anspruchsvolle Aufgabe, die uns in derWissenschaft erwartet. Unsere Induktionsverfahren sollen es gerade ge-statten, solche Aufgaben der Theorienwahl durchzuführen und nicht nurnach irgendwelchen gut begründeten Behauptungen Ausschau zu halten.Für die tatsächlichen wissenschaftlichen Theorien ist das in der Regelder Fall, denn sie gehen meist deutlich über den Rahmen unserer Beob-achtungen hinaus. Sie behaupten etwa, dass an allen Orten im Univer-sum zu allen Zeiten ein bestimmtes Gravitationsgesetz gilt. Oder sie pos-tulieren unbeobachtbare Teilchen, die wir uns bestenfalls mühsam indi-rekt erschließen können wie Neutrinos. An diesen Stellen wird aller-dings die Frage besonders brisant: Wie gut sind unsere Gründe für der-artig gehaltvolle Annahmen? Empiristen und speziell Bayesianer schei-nen diese Problematik manchmal aus den Augen zu verlieren, wenn sienur danach fragen, welche unserer Theorien die wahrscheinlichste bzw.die am besten begründete ist, ohne dabei in Rechnung zu stellen, wie ge-haltvoll oder erklärungsstark die Theorien jeweils sind. Popper scheintes auf der anderen Seite oft nur um den Gehalt der Theorien und nichtmehr um ihre Begründbarkeit oder Begründetheit durch empirische

Page 15: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

3 Thomas Bartelborth: Induktives Schließen

Daten zu gehen, zumal er induktive Begründungen generell ablehnt.Doch dazu später mehr.

Im Folgenden unterscheide ich nicht strikt zwischen induktivenSchlüssen und induktiven Rechtfertigungen. Man kann das so sehen, dassbei Schlüssen aus vorliegenden Daten unser Schlussverfahren die Hypo-thesen erst erzeugt und damit zugleich ein Entdeckungsverfahren fürneue Hypothesen darstellt. Doch dem Entdeckungskontext von wissen-schaftlichen Hypothesen soll hier nicht viel Raum eingeräumt werden.Er gehört eher in die Psychologie der Wissenschaften. Das Hauptthemain diesem Buch ist dagegen, wie bereits vorliegende Hypothesen gerecht-fertigt werden können. Doch dieser Rechtfertigungskontext kann nichtimmer strikt vom Entdeckungskontext getrennt werden (die induktivenSchlüsse auf solche neuen Hypothesen dürften zugleich eine erste Recht-fertigung der Hypothesen bieten). Außerdem bietet es sich oftmals an,aktiver vom Schluss auf Hypothesen zu sprechen, obwohl man vor allemihre nachträgliche Rechtfertigung meint. Diese ist zumindest das Zieldes Buches, während die Tatsache, dass das abduktive Schließen darüberhinaus manchmal sogar Hypothesen generieren kann, bestenfalls einRandthema bleiben wird. Daher bitte ich den Leser, meine etwas an-schaulichere Redeweise vom induktiven Schließen in Zweifelsfällen ein-fach als induktives Rechtfertigen zu verstehen (vgl. auch Kap. 2).

Wir grenzen induktive Rechtfertigungen außerdem von deduktivenSchlüssen oder Begründungen ab. Deduktive Begründungen sind vor al-lem irrtumssichere Begründungen: Wenn wir ihre Prämissen bereits si-cher wissen, dann sind wir uns auch der deduktiven Konklusionen si-cher. Wenn wir also schon sicher wissen, dass alle Raben schwarz sind,dann können wir ebenso sicher sein, dass der nächste Rabe, den wir se-hen werden, schwarz ist. Der Schluss selbst ist hier deduktiver Natur.Wenn unsere Ausgangsannahmen wahr sind, dann muss genauso unsereSchlussfolgerung wahr sein. Doch in der Wissenschaft sind wir norma-lerweise nicht in einer so komfortablen Situation. Wissenschaftliche Aus-sagen sind häufig schwer nachweisbare Allbehauptungen. Es geht unsz.B. darum, zunächst die Aussage zu begründen, dass tatsächlich alle Ra-ben schwarz sind. Doch schon eine so kleine Theorie wie unsere Raben-theorie lässt keine sicheren empirischen Begründungen zu. Selbst wennwir sehr viele Raben auf ihre Farbe hin untersuchen, können wir nichtvöllig ausschließen, dass irgendwann noch ein weißer Rabe geborenwird und unsere Rabentheorie umstößt. Der Schluss von vielen beobach-teten schwarzen Raben auf unsere Rabentheorie ist daher nur ein induk-tiver Schluss bzw. die Rabentheorie wird durch unsere Daten nur induk-

Page 16: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 1: Probleme induktiven Schließens 4

tiv begründet. Sogar wenn wir uns bei den Daten ganz sicher sind, kön-nen wir nicht mit entsprechender Sicherheit auf die Rabentheorie schlie-ßen.

Wissenschaftliche Behauptungen sind vielfach noch deutlich riskanterals unsere kleine Rabentheorie und besagen etwa, dass alle Materie ausunsichtbar kleinen Teilchen zusammengesetzt ist, die sich nach sehr selt-samen Gesetzen richten. Hier ist die epistemische Kluft zwischen denDaten und den entsprechenden Theorien noch einmal deutlich größer.Es handelt sich ganz klar um induktive Begründungen. Die folgendenBeispiele beleuchten dazu weiter, was unter Induktion verstanden wer-den soll.

Übrigens wird selbst das deduktive Schließen oft zum Rechtfertigeneingesetzt, statt zur Generierung neuer Annahmen. Wir können aus vor-gegebenen Prämissen zahllose deduktive Schlüsse ziehen (etwa mit Hilfeder Oder-Abschwächung), von denen die meisten für uns irrelevant er-scheinen. Deshalb ist die Fragestellung in vielen Fällen eher die, ob sichbestimmte Annahmen (die wir schon vorher auf den Tisch legen) dannaus bestimmten Prämissen ableiten bzw. durch diese Prämissen deduktivbegründen lassen oder nicht. Das hindert uns auch im deduktiven Fallnicht daran, von Schlüssen zu reden.

Von besonderer Bedeutung sind in der Wissenschaft kausale Behaup-tungen, und die sind besonders schwer zu begründen. So behaupten Wis-senschaftler etwa: „Papilloma-Viren verursachen Gebärmutterhalskrebs“oder „Senkungen der Leitzinsen beleben die Wirtschaft.“ Hierbei geht esnicht nur darum zu zeigen, dass Instanzen der genannten Typen von Er-eignissen nacheinander auftreten, sondern vor allem darum nachzuwei-sen, dass die ersteren tatsächlich die zweiteren herbeigeführt haben. Dasverlangt nach ganz speziellen Daten.

Eine erste einfache Regel für das induktive Schließen (genannt Ni-cods Kriterium oder Regel: NR) besagt, dass zumindest die einzelnen In-stanzen einer wissenschaftlichen Allaussage diese Aussage ein Stück weitbegründen. Für unsere Rabenhypothese H: „Alle Raben sind schwarz“betrachtet man typischerweise alle schwarzen Raben als Instanzen. Jedergefundene schwarze Rabe wäre demnach eine erste induktive Bestäti-gung (und Raben, die sich nicht als schwarz erweisen, eine Widerlegung)unserer Rabenhypothese. Doch selbst die simple Regel (NR) ist nicht un-umstritten. Betrachten wir z.B. die Hypothese H*: „Alle Menschen sindkleiner als 2,50m.“ Stoßen wir nun auf mehrere Menschen in Sibirien,die alle bereits die Größe von 2,48 m erreicht haben, so handelt es sichzwar noch um Instanzen von H*, aber wir würden intuitiv nicht mehr

Page 17: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

5 Thomas Bartelborth: Induktives Schließen

behaupten wollen, dass H* dadurch gestärkt wird. Im Gegenteil, wirwürden vermutlich eher annehmen, dass es dann bald auch Menschenmit 2,50 m Größe geben wird. Hier spielt unser Hintergrundwissen hin-ein, wonach es höchst wahrscheinlich ist, dass die Grenze für das Grö-ßenwachstum beim Menschen nicht scharf definiert ist und wir daherdurchaus Menschen mit 2,50m Größe erwarten können, wenn sich ersteinmal viele Menschen finden lassen, die nur kurz darunter liegen. Stattalso H* zu bestätigen, schwächen viele neue Instanzen vom Typ „Größeist 2,48m“ unsere Hypothese zunehmend. Es zeigt sich hier erstmals,wie unsere einfachen Induktionsverfahren von allgemeineren kausalenAnnahmen darüber abhängen, wie unsere Welt funktioniert. Empiristenversuchen den Einfluss solcher nach ihrer Meinung metaphysischen An-nahmen immer wieder zu negieren und suchen weiterhin nach einfachenInduktionsverfahren (vgl. Bartelborth 2004). Dieser Einfluss findet sichin vielen Induktionsverfahren bis hin zur klassischen Statistik wieder.Ein Thema des Buches wird daher sein, dass wir diese Einflüsse des Hin-tergrundwissens nicht übersehen dürfen, obwohl sie unsere Induktions-verfahren komplexer machen.

Damit haben wir das eine Problem der Induktion beschrieben, genau-er anzugeben, nach welchen Regeln man induktive Schlüsse oder induk-tive Begründungen vollziehen sollte. Dabei wird in diesem Text derSchluss auf die beste Erklärung eine zentrale Rolle übernehmen. Das an-dere Problem ist, diese Regeln gegen einen Induktionsskeptiker zu ver-teidigen. David Hume hat generelle Argumente dafür vorgetragen, dasskein Induktionsverfahren selbst wieder in rationaler Weise gerechtfertigtwerden kann. Zum Hauptthema des Buches, nämlich der ersten Frage,werde ich zunächst die einfachste Form der Induktion (die konservativeInduktion) schildern und dann kurz zur zweiten Frage das Rechtferti-gungsdilemma beschreiben, in dem wir uns befinden. Danach werde ichmich den unterschiedlichen Ansätzen der Induktion widmen und zeigen,inwiefern der Schluss auf die beste Erklärung sie unter einem Dach ver-einigt.

1.1 Beispiele für InduktionsschlüsseInduktionsschlüsse vollziehen wir in allen Bereichen unseres Lebens.Wenn ich in einen Fahrplan schaue, in dem steht, dass unser Zug um 16Uhr eintreffen soll, dann schließen wir daraus vermutlich darauf, dassder Zug um ca. 16 Uhr eintreffen wird. Die Deutsche Bahn liefert frei-lich gute Beispiele dafür, dass es sich hierbei nicht um einen deduktivenSchluss handelt. Viele Schlüsse vollziehen wir automatisch und ohne erst

Page 18: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 1: Probleme induktiven Schließens 6

darüber nachzudenken. Kommen unsere Gäste nass von draußen herein,werden wir annehmen, dass es draußen regnet. Es sei denn, wir habenweiteres Hintergrundwissen, wonach draußen gerade eben noch strah-lender Sonnenschein herrschte und wir wissen, dass unser Nachbar dieFunktionsweise seines Rasensprengers noch nicht sehr gut versteht. Seheich jemanden auf eine Straßenbahn zulaufen, nehme ich an, dass er sienoch erreichen möchte etc. Wenn wir genau hinschauen, erkennen wir,wie unser Alltag schon von induktiven Schlüssen durchsetzt ist. Vielekönnen sogar lebenswichtig sein. Wenn jemand im Straßenverkehrblinkt, nehmen wir an, dass er abbiegen wird, und verlassen uns viel-leicht darauf. Sagt uns der Arzt, dass unsere Gallensteine unbedingt ent-fernt werden müssen, vermuten wir, dass durch eine entsprechendeOperation unsere Überlebenschancen am größten sein werden usf.

Vor Gericht werden solche Schlüsse meist etwas expliziter gezogenund hoffentlich sorgfältiger begründet. Es gibt gewisse Indizien (Finger-abdrücke, DNA-Spuren, Zeugenaussagen etc.), die auf einen bestimmtenVerdächtigen als Täter hinweisen; und wenn die eine bestimmte Stärkeerreichen, werden wir den Angeklagten schuldig sprechen. In all diesenFällen ist klar, dass es sich um nicht-deduktive Schlüsse handelt und dasses auch bei noch so guten Begründungen ein Irrtumsrisiko gibt. Leiderist es oft sehr schwer, das genauer zu beziffern. Auch im Zivilrecht sindnatürlich induktive Schlüsse zu ziehen. Aus bestimmten Aussagen oderVerträgen schließen wir etwa darauf, was der Wille der beteiligten Par-teien war und welche Art von Vertrag damit zustande gekommen ist.

Am ausführlichsten und genauesten sollten unsere Begründungen inder Wissenschaft ausfallen. Sie ist daher unser Paradebeispiel und dieZielvorstellung für das induktive Schließen. Nichtsdestoweniger gibt esunter Wissenschaftstheoretikern die übereinstimmende Ansicht, dassWissenschaftler ebenfalls Menschen sind. Das soll bedeuten, dass Wis-senschaftler letztlich dieselben Begründungsverfahren für intuitiv plausi-bel halten und darauf vertrauen, die ganz normale Menschen im Alltaganwenden. Natürlich werden sie diese zu präzisieren versuchen und z.B.die mathematische Statistik zum Einsatz bringen, um so etwas gediege-nere Begründungen abzuliefern als der Alltagsmensch, doch die Grund-intuitionen sind dieselben. Unsere Induktionsverfahren können wir da-her oft an relativ einfachen Beispielen testen, um uns nicht gleich inkomplizierten wissenschaftlichen Debatten zu verlieren.

Physiker schließen etwa aus der 3°K Hintergrundstrahlung auf denlänger zurückliegenden Urknall, Paläontologen aus Versteinerungen aufdie Existenz der Dinosaurier und ihrer Eigenschaften, die Medizin aus

Page 19: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

7 Thomas Bartelborth: Induktives Schließen

der Verbreitung bestimmter Krankheiten darauf, dass es sich um Infek-tionskrankheiten handelt, Biologen aus der Zweckmäßigkeit unserer Or-gane auf die dahinterstehende Evolutionsgeschichte, Historiker aus be-stimmten Dokumenten auf die Motive der beteiligten Personen der je-weiligen Geschichte, Psychologen aus den Ergebnissen bestimmter Testsauf Charaktereigenschaften bestimmter Versuchspersonen, Soziologenaus bestimmten Eigenschaften von sozialen Institutionen auf deren zu-grundeliegende möglicherweise versteckte Zielsetzung usf.

Ein inzwischen recht bekanntes Beispiel belegt sehr schön, wieschwer wir uns oft mit einfachen und im Prinzip überschaubaren Fälleninduktiven Schließens tun, nämlich das sogenannte Ziegenproblem. DasBeispiel und seine Lösung sind mittlerweile weit verbreitet, aber es ver-ursacht praktisch bei allen, die es noch nicht kennen, große Überra-schung. Es zeigt für mich auch wie vorsichtig wir mit unseren Intuitio-nen in Fällen induktiven Schließens umgehen müssen und am Anfanghaben sich Lehrstuhlinhaber der Statistik davon genauso in die Irre füh-ren lassen wie die Laien. Für die Anwendung der Statistik ist nämlichdas größte Problem, dass wir erst ein geeignetes (Urnen-) Modell füreine solche Situation finden müssen. Ganz kurz zu der Geschichte, dieman an vielen Stellen nachlesen kann. In einer Gameshow kann derKandidat eine von drei Türen auswählen. Hinter einer davon steht einFerrari (das wurde etwa vor der Show ausgelost) und hinter beiden an-deren jeweils eine Ziege. Der Kandidat wählte eine Tür aus (sagen wirTür 1). Dann tritt der Moderator in Aktion. Seine Aufgabe ist es, vonden verbleibenden zwei Türen (hier also 2 und 3) eine Tür aufzuma-chen, hinter der in jedem Fall eine Ziege steht. Nehmen wir an, er öff-net nun Tür 2. Dann wird der Kandidat vor die Wahl gestellt, nun beiseiner ersten Tür zu bleiben oder zur letzten noch verbliebenen Tür (inunserem Falle Tür 3) zu wechseln.

Die meisten meinen, dass es nun gleichgültig sei, ob wir wechselnoder nicht. Doch tatsächlich (und das lässt sich sogar empirisch testen)ist die Wahrscheinlichkeit für den Ferrari hinter Tür 1 nur 1/3, währendsie für einen Ferrari hinter Tür 3 inzwischen auf 2/3 angestiegen ist. DerModerator hat uns mit seiner Wahl von Tür 2 einen Hinweis auf Tür 3gegeben. Er sagt sozusagen: Wenn hinter den beiden verbliebenen Türenüberhaupt ein Ferrari steht, dann ist er hinter Tür 3 zu finden. Also er-hält man bei häufiger Wiederholung des Spiels mit der Wechselstrategiealle Ferraris, die hinter den beiden verbleibenden Türen stehen und dassind 2/3 der Ferraris. Die Lösung wird an vielen Stellen (etwa bei Wiki-pedia) genauer erläutert (vgl. a. Kap. 5.6.1). Mich interessiert hier nur,

Page 20: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 1: Probleme induktiven Schließens 8

wie schnell wir einen solchen Fall falsch beurteilen können und wie vor-sichtig wir daher beim induktiven Schließen vorgehen müssen, um dierichtigen Verfahren dafür zu finden. Wir übersehen in diesem Beispielgerne, dass wir aus dem Öffnen der Tür 2 durch den Moderator tatsäch-lich einen verwertbaren Hinweis auf Tür 3 erhalten.

Das mag zunächst genügen, um ein erstes Licht auf die Vielfalt undAllgegenwart unserer Induktionsschlüsse zu werfen. Dabei können – wieschon gesagt – Teile unseres Hintergrundwissens eine wichtige Rollespielen, die in unseren nur erwähnten Beispielen nicht ausgeführt wur-de. Außerdem geht es oft darum, dass nicht nur ein Datum unsere Kon-klusionen begründet, sondern wir (gerade vor Gericht und in der Wis-senschaft) über eine Reihe von Indizien für eine Annahme verfügen. Da-bei kommen aber sogleich Schwierigkeiten ins Spiel, denn manche Indi-zien mögen zwar in eine Richtung (etwa gegen den Angeklagten) wei-sen, aber andere zugleich in die Gegenrichtung (sind also entlastend fürden Angeklagten). Dann müssen wir eine Gewichtung und Verrechnungder Indizien vornehmen, wofür uns oft präzise Verfahren fehlen.

1.2 Historische Vorläufer der InduktionsdebatteHistorisch gab es zwar schon in der Antike erste Methodenreflexionen,aber der Beginn der systematischeren Erforschung und Anwendung die-ser Methoden wird häufig auf Francis Bacons Novum Organon Scientia-rum von 1620 gelegt. Darin stellt Bacon (1561–1626) bereits Regeln fürdas Experimentieren auf und widmet sich vor allem der Ausschaltung ty-pischer Fehler, die dabei auftreten können. Außerdem schildert er schon,wie wir beim Experimentieren bestimmte Faktoren gezielt und kontrol-liert verändern und dadurch erkennen können, auf welche anderen Fak-toren sie einen Einfluss haben (vgl. Carrier 2006). Selbst das Konzepteines experimentum crucis (eines Entscheidungsexperiments) findet sichbereits bei Bacon. Ein solches Experiment soll entscheiden, welche vonzwei Theorien die richtige ist, indem wir nach einer speziellen Schluss-folgerung aus den Theorien suchen, in der sich die beiden Theorienunterscheiden und dann überprüfen, welche der beiden Theorien dortRecht hat.

Noch bekannter sind jedoch vermutlich die Regeln von John StuartMill (1806–1873) zur Ermittlung von Kausalbeziehungen in seinem Sys-tem of Logic von 1865. Intuitiv sind sie heute noch in Gebrauch undletztlich die Grundlage für praktisch alle Verfahren zum Auffinden vonUrsachen, von denen einige genauer im Kapitel 7 beschrieben werden.

Page 21: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

9 Thomas Bartelborth: Induktives Schließen

Die Grundideen sind recht plausibel, doch sie wirken ziemlich idealisie-rend.

Mill verwies darauf, dass wir nach bestimmten allgemeinen Musternin der Natur suchen, die wir für Zwecke der Vorhersage, der Erklärungund der Begründung kontrafaktischer Aussagen verwenden können. DieMuster, die sich dabei bewähren, betrachten wir als Naturgesetze. Auchdas deduktiv-nomologische Erklärungsschema findet seinen ersten Ver-fechter in Mill (vgl. Wilson 2007). Insbesondere aber glaubte er, dass esfür jeden Typ von Ereignis ein kausales Naturgesetz gibt, das wir auchentdecken können. Dazu gab er induktive Schlussregeln an, die er schonals Eliminationsmethoden verstand, wonach wir möglichst alle bis aufeine Hypothese eliminieren sollten (System of Logic: Buch 2, Kap. 9).

Bei den Regeln für die Ermittlung von Ursachen ist zunächst MillsRegel der Übereinstimmung („method of agreement“) zu nennen. Wennzwei Ereignistypen immer wieder Instanzen aufweisen, die kurz aufein-anderfolgen, spricht das für eine Kausalbeziehung zwischen ihnen. Fol-gen auf unseren lustigen Weinabend immer wieder morgendliche Kopf-schmerzen, machen wir vermutlich den Wein als Verantwortlichen dafüraus. Diese Vorgehensweise wird heute noch als wichtiges Indiz für Ursa-chen betrachtet, obwohl wir eigentlich wissen sollten, dass sich aus Kor-relationen nicht so einfach Kausalbeziehungen ableiten lassen. Trotzdemhören wir in den Medien immer wieder, dass etwa Schokolade Herzin-farkte verhindert, wobei meist nur in Massenuntersuchungen bestimmteKorrelationen zwischen Schokoladeessen und Herzinfarkten festgestelltwurden. In Kapitel 7 wird das genauer verfolgt. Mill sah schon die Pro-bleme, die sich etwa daraus ergeben, dass wir es mit einer Vielzahl vonFaktoren zu tun haben. An diesen Weinabenden waren wir etwa immermit denselben Leuten zusammen. Also könnten auch diese Treffen dieAuslöser der Kopfschmerzen sein.

Mill ergänzte die Regel daher durch die noch wichtigere Regel desUnterschieds („method of difference“), die letztlich in allen Verfahrendes kausalen Schließens wiederzufinden ist. Wir schließen typischerwei-se: Wenn sich zwei Ausgangssituationen S1 und S2 nur in einem Faktor Funterscheiden, der in S1 vorliegt und in S2 nicht, und E dann in S1 auf-tritt, aber in S2 nicht, so ist F zumindest eine (Teil-) Ursache von E. Dasist heute noch unser Ansatz für viele kontrollierte Experimente, für diewir genau diese Konstellation für eine Versuchsgruppe und die dazuge-hörige Kontrollgruppe herbeiführen wollen. Die Personen der Versuchs-gruppe erhalten etwa ein Medikament X und die der Kontrollgruppenicht. Wenn hierbei nur die Versuchspersonen aus der Versuchsgruppe

Page 22: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 1: Probleme induktiven Schließens 10

gesunden, schließen wir, es müsste am Medikament gelegen haben,jedenfalls dann, wenn es uns (etwa durch eine Zufallsauswahl der Grup-pen) gelungen ist, die anderen relevanten Faktoren gleich auf die beidenGruppen zu verteilen.

Auch das Ausbleiben der Wirkung E kann natürlich in entsprechen-den Fällen einen wichtigen Hinweis darauf geben, dass F eben dochnicht den entscheidenden Unterschied ausmacht und daher keine Ursa-che von E darstellt. Um zu zeigen, dass F Ursache von E ist, versuchenwir also in der Differenzmethode aufzuzeigen, dass F einen „Unter-schiedsmacher“ für E darstellt. Das ist ein wesentlicher Hinweis auf sei-ne kausale Wirksamkeit. Für probabilistische Verursachung müssen wirallerdings größeren Fallzahlen betrachten. Das wichtigste Problem derMethode ist natürlich der Nachweis, dass die Situationen S1 und S2 in al-len anderen Faktoren, die ebenfalls Einfluss auf den Effekt E habenkönnten, gleich (wir werden auch sagen homogen) sind. Das ist in derPraxis oft nur schwer nachweisbar und kann die jeweiligen Ergebnisse inFrage stellen.

Martin Carrier (2006, 31 ff.) beschreibt dazu eine schöne Debattezwischen Louis Pasteur und Felix Pouchet um 1860 über die Frage, ob esso etwas wie Urzeugung geben könne, bei der aus nicht lebendem Mate-rial lebendige Zellen entstehen. Ist also nicht lebendes Material eineUrsache für lebendige Zellen? Pouchet war ein Vertreter der Urzeugungund konnte zeigen, dass in abgekochten Proben von Heu nach der Zuga-be von Luft Mikroorganismen auftraten, und hielt das für eine Urzeu-gung aus dem sterilisierten Heu. Pasteur hielt aber die Luft für denÜberträger der Mikroorganismen. Pouchet wiederholte dann das Experi-ment unter Quecksilberabschluss, so dass nur frisch erzeugter sterilerSauerstoff an das Heu gelangte. Trotzdem traten wieder Mikroorganis-men auf. Das sprach nach der Regel des Unterschieds gegen Pasteur,denn mit und ohne sterilisierte Luft traten jeweils Mikroorganismen auf,obwohl sie, wenn Pasteur Recht behalten hätte, nur im zweiten Fall auf-treten dürften. Dagegen konnte Pasteur kontern und nachweisen, dass esnun das Quecksilber für den Luftabschluss war, das den Effekt erzeugte,weil es mit Mikroorganismen kontaminiert war. Indem er auch dasQuecksilber noch erhitzte und zeigte, dass dann keine Mikroorganismenmehr auftraten, argumentierte er gegen die Urzeugung. Auch dabei be-mühte er wieder das Unterschiedsprinzip. Der einzige Unterschied warhier das erhitzte oder nicht-erhitzte Quecksilber und das führt zu Mikro-organismen oder keinen. Die Erhitzung bzw. das erhitzte oder nicht-er-hitzte Material war hier also ein Unterschiedsmacher für das Auftreten

Page 23: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

11 Thomas Bartelborth: Induktives Schließen

lebendiger Zellen. Wir erkennen in dem Beispiel schon einige der An-wendungsmöglichkeiten der Differenzmethode, die wir in Kapitel 7 aus-führlicher untersuchen werden.

Mills dritte Regel der begleitenden Veränderung („method of conco-mitant variations“) bezieht sich vor allem auf quantitative Größen. Ver-ändere ich die eine Größe A, ändert sich die andere Größe B. Sprecheich dem Wein stärker zu, stellen sich am nächsten Tag auch stärkereKopfschmerzen ein. Das ist ein gutes Indiz dafür, dass gerade der Wein-genuss Ursache meiner Kopfschmerzen ist. Das sind die beobachtbarenBestandteile der sogenannten interventionalistischen Kausalitätsauffas-sung, nach der A genau dann Ursache von B ist, wenn ich durch eine Än-derung der Größe A eine Änderung der Größe B herbeiführen kann. Dasist gerade heutzutage wieder eine sehr prominente Vorstellung von Kau-salität, auf die wir in Kapitel 7 noch zurückkommen werden. Jedenfallskönnen wir hier erkennen, dass die Grundideen des Experimentierensund der Ermittlung von Kausalbeziehungen durchaus schon früher expli-ziert wurden und vermutlich schon viel eher intuitiv angewandt wurden.

William Whewell (1794–1866) in The Philosophy of the InductiveSciences (1847) ist der dritte Urvater der modernen Debatte um das in-duktive Schließen. Er stützte sich explizit auf Bacon und betont in seinerDebatte mit dem eher biederen Empiristen Mill die idealen Elemente inunserem Wissen, bei denen wir durch geeignete Begriffsbildung – oderwir würden heute auch sagen geeignete Modellbildung – zu neuen Theo-rien gelangen, die über eine konservative Induktion hinausgehen. Ersprach dazu von „colligation“, das wir heute vielleicht am besten als be-griffliche und theoretische Vereinheitlichung verstehen können, durchdie es gelingt, verschiedene Phänomene unter ein Naturgesetz zu subsu-mieren. Whewell nennt das die fundamentale Antithese des Wissens,dass hier immer zwei Dinge zusammenkommen, nämlich Wahrnehmun-gen und Ideen oder Begriffe. Ohne diesen zweiten Anteil kommen wirnicht zu interessanten Kausalgesetzen (vgl. Snyder 2006).

So konnte Kepler die einzelnen Daten zur Position des Mars, die Ty-cho Brahe gesammelt hatte, durch sein Konzept einer elliptischen Bahnin einen größeren Rahmen setzen. Damit eine Theorie dann als bestätigtgelten kann, muss sie unbekannte Tatsachen erfolgreich vorhersagen,und zu einer gewissen „consilience“ sowie Kohärenz führen. Dabei istmit „consilience“ gemeint, dass hier Tatsachen zusammengeführt wer-den, die zu unterschiedlichen Phänomenen gehören. Ein schönes Bei-spiel dafür ist Newtons Gravitationsgesetz, durch das so verschiedenePhänomene wie Planetenbewegungen, schiefe Würfe, Pendelbewegun-

Page 24: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 1: Probleme induktiven Schließens 12

gen etc. kausal vereinheitlicht werden können. Wenn uns solche Verein-heitlichungen gelingen, ohne dass wir dazu ad-hoc Anpassungen unsererHypothesen vornehmen müssen, dann steigert das die Gesamtkohärenzunseres Wissenssystems und stellt daher eine weitere Bestätigung dieserHypothesen dar (vgl. Snyder 2006). Auch der WissenschaftstheoretikerMalcolm Forster hat in verschiedenen Artikeln (etwa 1988), die u.a. aufseiner Homepage zu finden sind, Whewells Idee von „consilience“ unddie „colligation of facts“ an weiteren Beispielen erläutert und argumen-tiert dafür, dass wir gerade von Whewells Auseinandersetzung mit Millheute etwas lernen können.

1.2 Grundbegriffe der BestätigungEhe wir uns speziellen Begründungsverfahren zuwenden, möchte ich ei-nige allgemeine begriffliche Klärungen vornehmen und einige Abkürzun-gen verabreden, die uns im Folgenden begleiten werden. Ganz allgemeinist mit B(H:E) jeweils gemeint, dass die Hypothese H durch das DatumE bestätigt wird. Mit dieser Notation soll noch nichts darüber gesagtsein, was unter Bestätigung genauer zu verstehen ist, sondern es be-schreibt zunächst nur unseren intuitiven Zugang zur Begründung. Na-türlich erwarten wir von jeder Begründungskonzeption, dass klare Fällevon wissenschaftlichen Begründungen durch die Konzeption auch alssolche eingestuft werden, sonst haben wir ein Problem, dem wir weiternachgehen müssen. Zunächst spricht eine solche „Anomalie“ jedenfallsgegen die vorgeschlagene Konzeption von induktiver Begründung. Wennes darauf ankommt, können wir auch das Hintergrundwissen K explizitmit einbringen B(H:E;K).

Im konkreten Fall kann B(H:E) etwa bedeuten, dass H ein kleinesStück weit durch E bestätigt wird – im Sinne einer inkrementellen Bestä-tigung – oder dass H im absoluten Sinn bestätigt wird, so dass wir nunauch über Gründe verfügen, H zu akzeptieren. Die Probabilisten würdendas z.B. wie folgt beschreiben: Wenn wir mit P(H|E) die Wahrschein-lichkeit bezeichnen, die H erhält, wenn wir bereits E voraussetzen bzw.neu kennengelernt haben, dann lassen sich die beiden Konzepte von Be-stätigung wie folgt explizieren:

1) inkrementelle Bestätigung: P(H|E) > P(H)(bzw. äquivalent dazu: P(H|E)>P(H|non-E))

2) absolute Bestätigung: P(H|E) > k > 1/2

Demnach erhöht bei der inkrementellen Bestätigung das Vorliegen von Edie Wahrscheinlichkeit von H um einen gewissen Betrag gegenüber der

Page 25: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

13 Thomas Bartelborth: Induktives Schließen

Situation, in der wir E noch nicht wissen, aber damit muss die neueWahrscheinlichkeit von H noch keineswegs hoch sein. Sie kann so im-mer noch bei sehr kleinen Werten liegen, was bedeutet, dass P(~H) =1–P(H) deutlich höher sein kann als P(H). Wenn wir die Wahrscheinlich-keit als eine Art von Plausibilitätsgrad auffassen, wäre demnach non-Himmer noch sehr viel plausibler als H selbst. Das ändert sich erst bei derabsoluten Bestätigung, die verlangt, dass P(H) eine bestimmte Schwelleüberschreitet, die sinnvollerweise größer als 0,5 sein sollte. Das muss na-türlich noch nicht bedeuten, dass wir H demnach akzeptieren sollten.Wir werden sehen, dass eine entsprechende Abtrennungsregel nicht soleicht zu begründen ist.

3) Abtrennungsregel:Bei hinreichender Bestätigung können wir H akzeptieren.

Dazu kommen Vorstellungen von komparativer Bestätigung. Zum Bei-spiel können wir nach Ansicht der Likelihoodisten immer nur sagen,dass ein Datum E eine Theorie H1 mehr bestätigt als eine Theorie H2,ohne dabei etwas über eine absolute Bestätigung der einen oder anderenTheorie auszusagen.

4) komparative Bestätigung B(H1,H2:E)

Probabilisten können das z.B. so deuten, dass die Wahrscheinlichkeitser-höhung, die H1 durch E erfährt, größer ist als die, die H2 durch E er-fährt. Oft wird das auch so verstanden, dass die Likelihood von H1 rela-tiv zu H2 größer ist gegeben E, d.h. P(E|H1)>P(E|H2). (Diese etwasseltsame, aber übliche Redeweise werde ich meist zugunsten der intuiti-veren Redeweise vermeiden, dass in diesem Fall E die höhere Likelihoodhat bei Vorliegen von H1 gegenüber dem Vorliegen von H2.)

Außerdem können wir ebenfalls noch von differentieller Bestätigungsprechen. Dabei geht es darum, dass ein Datum E1 unsere Hypothese Hstärker bestätigt, als es das Datum E2 vermag:

5) differentielle Bestätigung B(H:E1,E2)

Auch das wird oft anhand von Likelihoods gedeutet, wonachP(E1|H)>P(E2|H) die entsprechende Beziehung zum Ausdruck bringt.Schurz (2006) spricht allgemeiner von der Likelihood-Intuition, wonachwir die rechtfertigende Wirkung eines Datums E für eine Hypothese Hvor allem an der Likelihood P(E|H) festmachen. Je höher die ausfällt,umso größer ist auch die rechtfertigende Wirkung von E für H. Das isteine sehr naheliegende Idee, die in vielen Ansätzen zu finden ist und ver-

Page 26: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 1: Probleme induktiven Schließens 14

schiedene weitere Explikationen aufweist. Damit ist ein erster begriffli-cher Rahmen vorgegeben, den wir im weiteren Verlauf der Debatte mitkonkreten inhaltlichen Beziehungen ausfüllen müssen.

1.3 Die DatenDie Daten werden im Folgenden meist als bereits gegeben und frei vonIrrtümern betrachtet, aber zunächst sollen doch einige Überlegungen an-gestellt werden, die diese Idealisierung hinterfragen. Im Rahmen einerfundamentalistischen Erkenntnistheorie wie der empiristischen werdentypischerweise Beobachtungsaussagen als basale Aussagen akzeptiert, diekeiner weiteren Rechtfertigung bedürfen. Auf sie stützen wir dann alleweiteren Annahmen oder Theorien, aber diese haben eigentlich keinerechtfertigenden Rückwirkungen auf die basalen Aussagen selbst. Mankönnte sagen, dass hier epistemische Rechtfertigung als eine Einbahn-straße in nur eine Richtung verstanden wird. Trotzdem möchte manmeist einräumen, dass diese Beobachtungsaussagen nicht infallibel sind.Dann fragt man sich allerdings, wie wir die fehlerhaften basalen Aussa-gen aufdecken können und wie sie sich vielleicht sogar von anderen ba-salen Aussagen unterscheiden lassen. Dabei spielen in aller Regel dochwieder unsere Theorien über die Welt eine wichtige Rolle. Sie sagen uns,in welchen Situationen wir relativ zuverlässige Beobachter sind und wel-che Irrtumsquellen es andererseits gibt. Warum sollten wir dann nichtimmer nach entsprechenden Rechtfertigungen der Beobachtungsaussa-gen fragen dürfen?

Meines Erachtens beschreiben Kohärenztheoretiker diese Situationbesser als die erkenntnistheoretischen Fundamentalisten. Wenn etwa diefolgende Beobachtungsmeinung in mir auftritt: (*) „Albert Einstein trittplötzlich aus dem Nichts geradewegs auf mich zu und beglückwünschtmich zu meinem letzten Buch“, so sollte ich diese Meinung nicht gleichfür bare Münze nehmen und mich gebauchpinselt fühlen. Meine Überle-gungen sollten vielmehr sein: 1. Albert Einstein ist tot und Tote könnennicht wieder auferstehen, also kann es sich nicht um Albert Einstein ge-handelt haben. 2. Objekte mittlerer Größe entstehen nicht einfach soaus dem Nichts, also kann es sich nur um eine Sinnestäuschung handeln.3. Es ist schon recht seltsam, dass sich Einstein gerade für mein letztesBuch so interessiert haben sollte. Das spricht wiederum gegen die Wahr-heit von (*). Aber es könnten auch noch andere Überlegungen ins Spielkommen, die doch für (*) sprechen: 4. Wie kann ich einer solch lebhaf-ten Sinnestäuschung unterliegen, ohne dass besondere Umstände vorlie-gen? Also muss doch etwas dran sein an (*). Wir sehen an diesem Bei-

Page 27: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

15 Thomas Bartelborth: Induktives Schließen

spiel, dass wir sogar unsere Wahrnehmungsüberzeugungen durchaus mitHilfe anderen Wissens über die Welt in Frage stellen oder begründen,wobei immer gewisse Theorien darüber, wie die Welt funktioniert, mitim Spiel sind.

Daher sollte ich jede Beobachtungsüberzeugung wie: „Vor mir stehtein weißer Tisch“ entsprechend begründen. Tritt sie spontan in mir auf,sollte ich zu ihrer Rechtfertigung anführen, dass nach meiner bisherigenKenntnis ich ein zuverlässiger Beobachter solcher Objekte mittlerer Grö-ße bin, wenn keine besonderen Bedingungen vorliegen, die einen Irrtumerklärbar machen und diese Ansicht auch sonst in mein Hintergrundwis-sen kohärent hineinpasst (vgl. Bartelborth 1996, Kap. IV.B). Da nachmeinem Wissensstand solche Irrtumsquellen tatsächlich nicht vorliegen,ist meine Beobachtungsüberzeugung also begründet. Damit sind solcheBeobachtungsüberzeugungen jedoch nicht mehr wirklich basal bzw. fun-damental für unsere weiteren Überzeugungen. Doch diesen Aspekt wer-den wir im Folgenden nicht weiter verfolgen, da die meisten Ansätzeeher fundamentalistisch konzipiert sind und ich hier nur die Frage ver-folgen möchte, wann bestimmte Aussagen, die wir als Daten akzeptie-ren, andere Behauptungen wie etwa wissenschaftliche Theorien stützen.

Ein dabei immer wieder genanntes Problem ist, dass unsere Datenvielleicht keine neutralen Schiedsrichter für unsere Theorien abgebenkönnen, weil sie selbst schon immer durch Theorien infiziert sind. Da-her möchte ich zumindest einige wenige Überlegungen zur Theorienbe-ladenheit oder Theorienabhängigkeit unserer Beobachtungen anstellen.Im schlimmsten Fall sähe das so aus, dass ein Vertreter einer Theorie T1in einem bestimmten Phänomen E1 erblickt, was seine Theorie T1stützt, während ein anderer, der Theorie T2 vertritt, dort E2 wahr-nimmt, was seine Theorie stützt, obwohl die Theorien und Daten einan-der eigentlich ausschließen. Dafür sind mir allerdings keine wirklichüberzeugenden Beispiele bekannt. Natürlich kann es immer zu entspre-chenden Interpretationsproblemen mit den Rohdaten kommen. WennGalileo durch seine Fernrohre zum Jupiter blickte, konnte er danebendie Monde des Jupiter sehen, während seine Gegner dort nur weiße Fle-cken erblickten, die sie als Linsenfehler erklärten (vgl. Chalmers 1994).Die Rohdaten sind hier wohl in bestimmten hellen Flecken beim Schau-en durch das Fernrohr zu sehen. Galileo konnte für seine Interpretationpunkten, indem er darauf verwies, dass sich diese Flecken in systemati-scher Weise um den Jupiter bewegen, so wie das seine Theorie für be-stimmte Monde des Jupiter vorhersagte, während das für Linsenfehlerwohl kaum zu erwarten wäre. Diesen Fall würde ich aber eher so be-

Page 28: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 1: Probleme induktiven Schließens 16

schreiben, dass aus den gemeinsamen (oder ähnlichen) Rohdaten unter-schiedliche induktive Schlüsse gezogen wurden. Jedenfalls lassen sichsolche Streitfälle im Prinzip auflösen, indem wir auf grundlegendere Be-schreibungen unserer Wahrnehmungen zurückgehen.

Es gibt unter diesem Stichwort aber noch eine ganze Reihe weitererPhänomene, die alle eine ausführlichere Debatte verdient hätten. Einigesollen zumindest kurz genannt werden (vgl. dazu etwa Schurz 2006, 57ff.; Carrier 2006, Kap. 3). Da ist zunächst die Tatsache, dass unsere Er-fahrung theoriegeleitet ist. Bestimmte Beobachtungen und Experimenteunternehmen wir nur, weil wir bereits bestimmte Theorien dazu im Hin-terkopf haben. Daltons Atomtheorie von 1808 ließ uns erst auf die ge-nauen Verhältnisse der Gewichte einzelner Stoffe schauen und feststel-len, dass es ganzzahlige Verhältnisse bestimmter Größen sind. Doch dasbesagt natürlich nicht, dass diese Beobachtungen dadurch theoretisch in-fiziert im Sinne des schlimmsten Falles sind. Als neutrale Schiedsrichterkönnen sie trotzdem dienen. Jede Seite wird natürlich speziell die für siesprechenden Daten herbeischaffen und muss aber auch mit denen deranderen Seite umgehen können.

Speziell können theoretische Terme und komplexe Messverfahrenweitere Probleme mit sich bringen, für die etwa Carrier (2006) einigeschöne Beispiele analysiert. Aber das soll hier nicht mein Thema sein.Wir arbeiten mit der idealisierenden Annahme weiter, dass unsere Datensolide und sicher sind und wir uns nur noch fragen müssen, welcheTheorien sie dann stützen.

1.4 Die konservative InduktionBevor wir zu Humes Problem der Induktion kommen, möchte ich einigeeinfache Verfahren skizzieren, die dem humeschen Problem mehr An-schaulichkeit verleihen. Wir können sie unter dem Stichwort der konser-vativen Induktion zusammenfassen. Konservative Induktionsschlüsseversuchen aus den bisherigen Erfahrungen schlicht auf die Zukunft zuextrapolieren. Sie schreiben einfach bestimmte Entwicklungen fort undsind in dem Sinne konservativ, dass sie dabei keine neuen Begriffe unddamit auch keine neuen Entitäten einführen, die nicht schon in der Be-schreibung der bisherigen Beobachtungen enthalten wären.

1.4.1 ExtrapolationenTypischerweise extrapolieren wir im Alltag aus unseren bisherigen Erfah-rungen auf zukünftige Ereignisse. Wenn wir bisher immer wieder Kopf-schmerzen nach heftigem Rotweingenuss bekamen, werden wir das beim

Page 29: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

17 Thomas Bartelborth: Induktives Schließen

nächsten Mal ebenfalls erwarten. Wenn unsere Treppe uns bisher immergut getragen hat, betreten wir sie und ähnliche Treppen immer wiederohne ungute Gefühle. Auch in der Wissenschaft extrapolieren wir so.Wenn sich bisher immer alle Metalle, die wir erhitzt haben, daraufhinausdehnten, so erwarten wir das genauso für den nächsten Fall oderschließen sogar: Alle Metalle, die erhitzt werden, dehnen sich aus. Dasnennt man die konservative Induktion. Sie ist die einfachste Art des in-duktiven Schließens und heißt wie gesagt konservativ, weil wir dabei nurauf solche Vorhersagen oder Aussagen schließen, die dieselben Begriffebenützen, wie die, die wir schon zur Beschreibung unserer Daten einge-setzt haben. Wir schließen hier also nicht auf unbeobachtbare Dinge hin-ter den Phänomenen, die vielleicht als Erklärung dieser Phänomene die-nen könnten, sondern nehmen nur eine einfache Extrapolation vor,nach dem Motto „more of the same“ bzw. „weiter so“. Die einfachsteForm dieser Schlüsse ist daher:

(EX) ExtrapolationWir beobachten Fa und Fb und Fc und ...,und schließen auf: x(Fx)

Das Verfahren kommt in unterschiedlichen Varianten vor. Als universel-ler Schluss wie oben in dem Beispiel oder auch – weit weniger an-spruchsvoll – als spezielle Inferenz, in der wir nur darauf schließen, dassdas nächste Stück Metall, das wir untersuchen, sich auch ausdehnenwird, wenn es erhitzt wird. Das kann noch mit dem Ausdruck „wahr-scheinlich“ qualifiziert werden, wie wir weiter unten sehen werden.

(SEX) spezielle ExtrapolationFa und Fb und Fc und ...,und schließen auf: Fd (für ein neues d)

Die Extrapolationen sind sicher sehr basale Formen induktiven Schlie-ßens, die in unserem Alltag eine große Rolle spielen. Sie treten so auf,als ob wir relativ direkt und fast mechanisch von Daten auf bestimmteHypothesen schließen könnten und z.B. weiteres Hintergrundwissen da-bei keine Rolle spielen würde. Zumindest werden die Verfahren oft sodargestellt. Eine meiner Thesen in dieser Arbeit ist es, dass induktiveSchlüsse eigentlich immer dreistellig sind und dem Hintergrundwisseneine wesentliche Rolle dabei zukommt. Das ist für die konservativen In-duktionen nur meist versteckt. Wir finden es aber auch für die Formendes Extrapolierens. Das wird dann deutlich, wenn wir nicht mehr so ein-fach bereit sind, dem obigen Schema zu folgen.

Page 30: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 1: Probleme induktiven Schließens 18

Zunächst einmal ist das Schema in gewisser Weise unvollständig,denn wir beziehen uns mehr oder weniger explizit beim Extrapolierenbereits auf eine bestimmte Grundmenge G von Objekten oder Situatio-nen, die wir für einander ähnlich halten, so dass wir innerhalb dieserGruppe bestimmte Eigenschaften extrapolieren können. In unseren Bei-spielen etwa auf Menschen in normalen Situationen, Metalle oder Trep-pen normaler Bauweise. Dann erhalten wir das ausführlichere Schema:

(EX) Extrapolation (allgemeine)GaFa und GbFb und GcFcund ..., dann gilt: x(GxFx)

Und für den speziellen Fall erhalten wir:

(SEX) Extrapolation (spezielle)GaFa und GbFb und GcFc und ... und Gd,dann gilt: Fd (für ein neues Objekt d)

Das ist so zu verstehen, dass wir eine endliche Zahl von Objekten unter-sucht haben, die jeweils G waren, wobei alle davon auch die EigenschaftF aufwiesen, woraus wir schließen, dass alle G-Objekte auch F-Objektesind bzw., dass das nächste G-Objekt d, das sich nicht unter den bisheruntersuchten Objekten befindet, ebenfalls wieder ein F-Objekt seinwird.

Damit verbinden wir normalerweise bereits die Annahme einer ge-wissen Homogenität in der Gruppe G bezüglich der Eigenschaft F. Ha-ben wir etwa fünf Pfirsiche untersucht und alle hatten einen Kern, soschließen wir schnell, dass wohl alle Pfirsiche einen Kern haben. Wirnehmen typischerweise von bestimmten Obstsorten an, dass sie sich inBezug auf solche Eigenschaften relativ homogen verhalten, also mög-lichst entweder alle einen Kern haben oder alle keinen Kern enthalten.Allerdings wird diese Annahme in neuerer Zeit immer mehr aufge-weicht, da wir um spezielle Züchtungserfolge etwa bei Weintrauben wis-sen, die es nun auch ohne Kern gibt.

Entfällt diese Homogenitätsannahme, extrapolieren wir jedenfallsnicht mehr so einfach und sollten das auch nicht tun. Habe ich bisherfünf Philosophen kennengelernt und alle hatten einen Bart, so werde ichnicht sogleich schließen, dass wohl alle Philosophen einen Bart habenwerden. Fing der Nachname der ersten vier Kinder einer Schulklasse,die wir kennengelernt haben, mit einem „B“ an, so werden wir nichtgleich schließen, dass es sich um eine reine „B-Klasse“ handelt. Wennwir genauer hinsehen, ließen sich viele Muster in unserer Umwelt fin-

Page 31: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

19 Thomas Bartelborth: Induktives Schließen

den, die wir nicht extrapolieren. Allerdings fallen die uns normalerweisekaum auf, weil wir immer schon gezielt nach den Mustern suchen, vondenen wir annehmen, wir dürften sie extrapolieren.

Allerdings „finden“ wir solche Muster auch manchmal zu schnell.Ein Nobelpreisträger der Wirtschaftswissenschaften sagte einmal ineiner Fernsehsendung dem Sinne nach: „Wann immer wir in der Vergan-genheit mehr Öl benötigt haben, wurden auch neue Ölfelder entdeckt.Das wird auch weiterhin der Fall sein.“ Doch dieser Schluss kommt unsin der nicht weiter qualifizierten Form kaum akzeptabel vor. Ein andererDiskutant antwortete darauf: „Aber die Erde ist doch rund.“ Wir wissenjedenfalls, dass durch die Endlichkeit der Erde unsere Ressourcen letzt-lich begrenzt sein müssen und daher die Extrapolation des Nobelpreis-trägers in dieser allgemeinen Form nicht zulässig ist. Oder denken wiran einen „Optimisten“, der aus dem 30. Stockwerk eines Hochhausesspringt und man hört ihn nach 20 Stockwerken Fluges noch rufen: „Nabitte, es läuft doch ganz prima.“ Wir wissen in solchen Fällen, dass wiraufgrund bestimmter Endlichkeitsannahmen so nicht einfach extrapolie-ren sollten. Nur weil bisher das Einsparen der Wartung für unsere Brem-sen zu keinen negativen Folgen geführt hat, dürfen wir nicht einfach an-nehmen, dass das auch ein stabiles Muster für die Zukunft abgibt. End-lichkeitsannahmen sind für uns wichtige Bestandteile des Hintergrund-wissens, die unsere Extrapolationen beschränken können.

Auch die Anzahl der bisherigen Beobachtungen ist zumindest für dieQualität der Extrapolation von Bedeutung, wobei die Anzahl umso hö-her sein sollte je geringer die Homogenität der Grundmenge G ausfällt.Deshalb spricht man dann auch von vorschnellen Verallgemeinerungen.Doch das wird noch deutlicher für die einfachen statistischen Extrapola-tionen.

1.4.2 Statistische ExtrapolationenÄhnlich einfache Schlüsse finden sich in den statistischen Extrapolatio-nen, die ganz analog zu den obigen Extrapolationen verlaufen. Habenwir bisher beobachtet, dass von den mit Lassa-Fieber erkrankten Men-schen ca. 15% gestorben sind, so schließen wir darauf, dass 15% allerMenschen mit Lassa-Fieber daran sterben werden.

(StatEX) statistische Extrapolationhn(F/G) = r, dann gilt: P(F|G) = r

Dabei ist mit der relativen Häufigkeit hn(F/G)=r gemeint, dass unter denersten n G-Objekten gerade k F-Objekte zu finden waren (mit k/n=r),

Page 32: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 1: Probleme induktiven Schließens 20

während P(F|G) die Wahrscheinlichkeit bezeichnet, dass ein G-Objektauch ein F-Objekt ist, die wir an dieser Stelle einfach als die relativeHäufigkeit der F-Objekte in der Gesamtheit der G-Objekte verstehenwollen. Auch dazu können wir wieder eine spezielle Extrapolation fin-den, die allerdings schon etwas ungewöhnlicher ist:

(SStatEX) spezielle statistische Extrapolationhn(F/G) = r und Gd,dann gilt: P(Fd) = r (für eine neues Objekt d).

Neben diesen einfachen Schlussformen finden sich auch andere Regelnwie die Laplacesche Regel

(LR) Laplacesche Regelhn(F/G) = k/n und Gd, dann gilt: P(Fd) = (k+1)/(n+2)

Diese Regel liefert gerade für kleine n etwas andere Werte als die spe-zielle statistische Extrapolation. Die Laplacesche Regel verrechnet hierdie beobachteten Daten bzw. relativen Häufigkeiten mit einer Indiffe-renzeinschätzung, nach der beide Möglichkeiten Fd und ~Fd dieselbeWahrscheinlichkeit aufweisen. Für n=0 starten wir damit und behaltendann diese Einschätzung noch für die nächsten n ein Stück weit bei, ge-hen dann allerdings für größere n zur einfachen statistischen Extrapola-tion über.

All diesen Schlussformen ist gemeinsam, dass sie von der Kenntniseiner Stichprobe ausgehen und etwas über die Grundgesamtheit sagenwollen oder zumindest über ein weiteres Objekt aus dieser Gesamtheit.Damit das gelingen kann, muss die Stichprobe repräsentativ sein für dieGrundgesamtheit. Das bedeutet, dass in der Stichprobe die untersuchtenEigenschaften möglichst genauso verteilt sein müssen, wie in der Grund-gesamtheit. Wollen wir etwa testen, ob das Lassa-Fieber G zum Tode Fführt und wir nehmen an, dass es sich um einen deterministischen Vor-gang handelt und dass alle Menschen in der Grundgesamtheit M genaudieselben Faktoren aufweisen, die weiterhin Einfluss auf das Auftretenvon F haben können, so genügt eine Einerstichprobe, um das zu ent-scheiden. Das wäre der Fall völliger Homogenität. Sind aber die anderenfür F kausal relevanten Faktoren f1,...,fn (d.h. die Faktoren, die zumin-dest in einer Situation bzw. Faktorenkonstellation zu F oder ~F beitra-gen) nicht völlig gleichmäßig verteilt, benötigen wir in unserer Stichpro-be eine entsprechende Verteilung dieser Faktoren. Idealerweise sollte je-der Faktor fi in der Stichprobe S mit derselben relativen Häufigkeit auf-

Page 33: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

21 Thomas Bartelborth: Induktives Schließen

treten wie in M. Dann lässt sich an der Stichprobe S erkennen, was G imHinblick auf F in der Grundgesamtheit für kausale Folgen hat.

Man versucht das entweder dadurch zu erreichen, dass wir nach denbekannten Anteilen der fi ganz bewusst auch die Stichprobe auswählenoder durch eine Zufallsstichprobe, bei der man hofft, dass durch die zu-fällige Auswahl der Stichprobenelemente der entsprechende Effekt er-reicht wird. Das erste Verfahren hat den Nachteil, dass die relevantenFaktoren bekannt sein müssen sowie ihre Verteilung in M. Das zweiteVerfahren hat den Nachteil, dass nur mit einer gewissen Wahrscheinlich-keit die entsprechende Repräsentativität der Stichprobe gewährleistetist. Manchmal bezeichnet man bereits eine richtige Zufallsstichprobeschlicht als repräsentativ, doch das greift etwas zu kurz, denn es geht unsletztlich darum, dass wir aus den Eigenschaften der Stichprobe auf dieentsprechenden Eigenschaften der Grundgesamtheit schließen dürfen,und das ist bei einer Zufallsstichprobe nicht immer gewährleistet. Je grö-ßer die Zufallsstichprobe ist, umso größer ist allerdings natürlich derAnteil der Zufallsstichproben (bzw. die Wahrscheinlichkeit für solcheStichproben), die der Grundgesamtheit gleichen. Dass auch die Rando-misierung nicht immer ausreicht, um darauf aufbauend Schlüsse zu zie-hen, werden wir im Kapitel 7 sehen.

Das Grundproblem der Extrapolation ist, dass wir zwischen sinnvollextrapolierbaren Mustern in bestimmten Situationen und solchen Mus-tern bzw. Situationen, in denen das nicht der Fall ist, unterscheiden müs-sen. Irgendwelche Muster finden sich in jeder Datenreihe, doch die wol-len wir nicht unbedingt extrapolieren. So könnten Personen auf einMerkmal X hin untersucht worden sein und alle Personen mit X hattenauch ein e im Vornamen oder hatten dasselbe Sternzeichen usf. Dochderartige Korrelationen würden wir nicht weiter verfolgen. Welche Mus-ter wir beachten oder weiterverfolgen, wird vor allem durch unser kau-sales Hintergrundwissen darüber mitbestimmt, welche kausalen Mecha-nismen in unserer Welt möglich sind und welche wir zumindest gegen-wärtig für zu utopisch halten.

Ein besonders wichtiges Induktionsverfahren, das wir schon an dieserStelle nennen sollten, das aber in Kap. 5.2 ausführlicher besprochenwird, sollte hier schon genannt werden. Es handelt sich um den statisti-schen Syllogismus, bei dem wir aus bestimmten Kenntnissen über dieGrundgesamtheit auf die Eigenschaften der Elemente einer kleinenStichprobe schließen.

Statistischer Syllogismus: Ist die relative Häufigkeit von Fs in derGrundgesamtheit G gerade r und wir betrachten ein a aus G, von

Page 34: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 1: Probleme induktiven Schließens 22

dem wir keinen Grund zu der Annahme haben, dass seine Auswahlspeziell mit dem Haben der Eigenschaft F verknüpft ist, dann sollteunsere (subjektive/logische) Wahrscheinlichkeit P(Fa)=r sein.

Dieses Schlussverfahren ist eine wesentliche Grundlage für die induktiveLogik und wird aber auch sonst an vielen Stellen im Bereich des indukti-ven Schließens als Teil des Schlussverfahrens erforderlich (vgl. Franklin2001).

Wir schließen dabei aus Kenntnissen über die Grundgesamtheit aufEinzelfälle. Wenn wir bereits wissen, dass die relative Häufigkeit von To-desfällen bei Lassa-Fieber 15% beträgt, so können wir für einen neuenFall von Lassa-Fieber vorhersagen, dass er mit 15% Wahrscheinlichkeitzum Tode führen wird, wenn wir keine weiteren Kenntnisse über denFall haben, die dem entgegenstehen würden.

Doch auch dieser sehr wichtige Schluss (auf den wir uns an vielenStellen in der klassischen Statistik stützen müssen) ist nicht unproblema-tisch. Er scheint nur dann wirklich statthaft zu sein, wenn die Grundge-samtheit eine geeignete Referenzklasse für unseren Einzelfall darstellt,d.h., wenn die Elemente der Grundgesamtheit, die wir heranziehen, imWesentlichen dieselben für den Tod relevanten Begleitfaktoren aufwei-sen, die unser Einzelfall aufweist. Handelt es sich etwa um eine schwan-gere Frau, liegt die Letalität von Lassa-Fieber wesentlich höher als 15%.Unsere bisherige Grundgesamtheit wäre dafür also keine geeignete Refe-renzklasse, sondern vielmehr die Menge der schwangeren Frauen mitLassa-Fieber. Aber vielleicht gibt es sogar noch weitere relevante Fakto-ren, die wir berücksichtigen müssen. Oder wir verstehen ihn eher imSinne der epistemischen Wahrscheinlichkeit als ein Maß für unsere Un-kenntnis und schließen so, wenn wir über den nächsten Patienten mitLassa-Fieber schlicht keine weiteren Informationen haben. Dabei kön-nen wir für den Schluss auch unterschiedliche Varianten formulieren,wie das etwa bei Schurz (2008) geschieht.

1.4.3 Induktion und MetaphysikDie bisherigen Induktionsregeln scheinen das induktive Schließen als re-lativ einfaches Extrapolieren aus den bisherigen Daten zu beschreiben.Doch dieser Eindruck kann unser tatsächliches induktives Schließennicht richtig beschreiben. Es ist vielmehr eng verknüpft mit unseren kau-salen Hypothesen darüber, welche Mechanismen in unserer Welt amWerke sind und welche Gesetze bzw. nomischen Muster ihnen zugrunde-liegen. Bayesianer und logische Induktivisten betonen dagegen immerwieder, dass das induktive Schließen bzw. Rechtfertigen keine Beziehun-

Page 35: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

23 Thomas Bartelborth: Induktives Schließen

gen zu unserer Metaphysik (damit sind hier unsere sehr allgemeinen An-nahmen darüber gemeint, wie die Welt funktioniert) aufwiese. Es gingewie in der deduktiven Logik schlicht um eine Frage von inferentiellenBeziehungen zwischen Aussagen oder rein erkenntnistheoretische Bezie-hungen, die unabhängig von unseren metaphysischen Annahmen seien.Schwächen ihrer Konzeption (etwa im Bayesianismus) versuchen sie so-gar manchmal so zu kaschieren. Sie sagen dann etwa: Wie in der deduk-tiven Logik sei der Bayesianismus nur ein neutraler Schiedsrichter fürdie Beziehung zwischen Prämissen und Konklusion. Man könne dahernicht zu viel von ihm erwarten. Die Schlüsse könnten nur so gut seinwie die Prämissen. Doch von einer wissenschaftlichen Methodologie er-warten wir in der Regel mehr. Sie soll konkretere Hinweise geben, wogenuine Begründungen unserer Theorien vorliegen und wo die Begrün-dungen weniger überzeugend sind. Außerdem geht unser Hintergrund-wissen in das induktive Schließen mit ein, wie wir oben bereits gesehenhaben. Vor allem gehen – anders als in der deduktiven Logik – die in-duktiven Schlüsse über den Gehalt der Prämissen hinaus und solltenauch eine entsprechende Induktionseigenschaft aufweisen, auf die wirimmer wieder zu sprechen kommen werden.

Über das Hintergrundwissen fließen schließlich auch unsere Meta-physik bzw. unsere kausalen Rahmenannahmen in unsere Schlüsse mitein. Eine These des Buches ist, dass wir daher unsere Metaphysik vielernster nehmen müssen, wenn wir die Idee akzeptieren (was bei Bayesia-nern üblicherweise der Fall ist), dass unsere Begründungsbeziehung drei-stellig ist und das Hintergrundwissen und insbesondere unser kausalesHintergrundwissen dabei eine wichtige Rolle spielt.

Wir können das etwa im Umfeld der oben eingeführten NicodschenRegel (NR) diskutieren, nach der eine Instanz einer GeneralisierungH x(RxSx) also eine Aussage A Ra&Sa die Generalisierung Hbestätigt: B(H:A). Diese Regel sieht recht plausibel aus, stößt aber auchschnell an ihre Grenzen, wie wir bereits in der Einleitung gesehen ha-ben. Das sollte das Beispiel der Hypothese: „Alle Menschen sind kleinerals 2,50 m“ zeigen. Menschen, die 2,48 m groß sind, stellen demnachzwar Instanzen der Hypothese dar, aber unser Verständnis der Situationbesagt dann eher: Wenn es schon so große Menschen gibt, dann ist esauch sehr wahrscheinlich, dass irgendwann Menschen von 2,50 m Grö-ße geboren werden.

Auch unsere alltäglichen Extrapolationen verlaufen keineswegs soeinfach, wie gern suggeriert wird. Selbst wenn Krake Paul die Ergebnisseder deutschen Mannschaft bei der WM 2010 mehrfach korrekt vorher-

Page 36: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 1: Probleme induktiven Schließens 24

gesagt hat, werden wir ihm für das nächste Spiel keine Vorhersagekrafteinräumen wollen, denn nach unserem besten Wissen gibt es keinen kau-salen Mechanismus, der es bewerkstelligen könnte, dass Paul in die Zu-kunft schauen kann oder ein besserer Fußballexperte sein könnte als allemenschlichen Experten. Unsere beste Erklärung für die bisherigen Vor-hersageleistungen von Krake Paul ist schlicht und einfach, dass er bisherGlück hatte. Das aber ist keine Grundlage für ein weiteres Vertrauen inPaul oder sollte es jedenfalls nicht sein. Ob wir also ein bisheriges Mus-ter weiter extrapolieren, hängt natürlich von unserem allgemeinen Mo-dell der Welt ab. Ist in dem kein Platz für einen perfekten Vorhersagerder Zukunft, sollten wir auf entsprechende Vorhersagen nichts geben.Sie passen nicht in den kausalen Rahmen, mit dem wir unsere Welt be-schreiben. Das erkennen wir immer wieder in den Fällen, in denen unse-re einfachen Extrapolationen mit unserem weiteren Hintergrundwissenin einen deutlichen Konflikt geraten. Wir werden das auch in der Wis-sensdebatte wiederfinden. Es geht immer darum, eingehende Informa-tionen im Lichte unseres bisherigen Wissens zu beurteilen. Wir nehmensie nicht einfach für bare Münze und folgen keinen simplen Extrapola-tionsregeln.

Wenn wir bisher acht Soziologen mit Bart kennengelernt haben,schließen wir noch nicht sofort, dass der nächste Soziologe ebenfallseinen Bart aufweisen wird. Das liegt daran, dass wir im Normalfall nichtannehmen, dass unsere Beobachtungen auf ein zugrundeliegendes nomi-sches Muster verweisen – noch nicht einmal ein psychologisches Muster.Das hieße nämlich, dass speziell Soziologen psychisch so disponiert sind,sich ein besonderes Aussehen zu geben, indem sie sich einen Bart wach-sen lassen. Doch unser Hintergrundwissen spricht nicht dafür, dass wirvon acht Soziologen mit Bart einen derartigen Schluss ziehen sollten.Und dann sollten wir auch keine entsprechenden Vermutungen über dennächsten Soziologen anstellen.

Diese Zusammenhänge finden wir ebenso in komplexeren Beispielenwieder. Wenn wir in der Vergangenheit immer wieder beobachten konn-ten, dass nach dem Genuss von Schokolade ein Migräneanfall folgte, sodürften wir – wie in ähnlich gelagerten Fällen – zunächst schließen, nachdem nächsten Schokoladengenuss wird uns wohl wieder die Migräne er-wischen. Doch wie gut begründet diese Annahme tatsächlich ist, hängtvon weiteren Annahmen unseres Hintergrundwissens ab. Implizit beruhtsie auf der Vermutung, dass es sich um einen kausalen Zusammenhanghandelt, nach dem Schokolade Migräneanfälle auslöst. Sollte diese kau-sale Annahme falsch sein, steht unsere Vermutung auf tönernen Füßen.

Page 37: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

25 Thomas Bartelborth: Induktives Schließen

Handelt es sich etwa um ein rein zufälliges Zusammentreffen dieserzwei Ereignistypen, dann spricht eine weitere Aufnahme von Schokoladenicht dafür, dass abermals ein Migräneanfall eintritt. Oder, wenn dieMedizin Recht hat, dass im Vorfeld der Migräne als erste Vorstufe desAnfalls ein Heißhunger auf Schokolade auftritt, dann ist unser Induk-tionsschluss ebenfalls nicht unbedingt gerechtfertigt. Esse ich etwa nur,weil mir jemand eine besonders schmackhafte Schokolade anbietet, istkein folgender Migräneanfall zu erwarten. Esse ich hingegen, weil ichgerade einen Drang zu Schokolade verspüre, dann habe ich einen gutenGrund, einen folgenden Migräneanfall zu befürchten. Man sieht diekomplexe Abhängigkeit von kausalen Hintergrundannahmen.

Unsere intuitiven Induktionsüberlegungen lassen sich etwas ausführli-cher so beschreiben:

Intuitives Induktionsverfahren: Wenn in der Vergangenheit B immerauf A folgte und wir anhand unseres Hintergrundwissens Grund zuder Annahme haben, dass es sich dabei um einen stabilen Zusammen-hang, eine Art von (kausalem) nomischen Muster zwischen A und Bhandelt, dann liefert uns ein weiteres Auftreten von A einen Grund,an ein weiteres Auftreten von B zu glauben (man sagt auch A ist pro-jektierbar in Bezug auf B). Anderenfalls ist das nicht der Fall.

Kausale Zusammenhänge oder kausale Ähnlichkeiten spielen für unsereSchlüsse also eine wesentliche Rolle. Wenn wir sechs Exemplare einerexotischen Frucht untersucht haben (nennen wir sie „Pflirsche“) und allehatten einen großen zentralen Kern, dann werden wir das auch von dernächsten Pflirsche erwarten oder sogar gleich von allen Pflirschen. Dasliegt daran, dass wir die Exemplare einer Frucht als Exemplare einer na-türlichen Art betrachten, die in bestimmten Aspekten wie dem Aufwei-sen eines Kerns typischerweise einander sehr ähnlich sind. Wir wissen al-lerdings aus Züchtungserfolgen, dass auf diese Annahme kein hundert-prozentiger Verlass ist. Doch damit müssen wir beim induktiven Schlie-ßen immer rechnen.

Wenn wir hingegen sechs Philosophen kennengelernt haben und allehatten eine graue Hose an, werden wir keineswegs sogleich erwarten,dass auch der nächste Philosoph wieder graubehost sein wird. Das wür-den wir nur erwarten, wenn wir weiteres Hintergrundwissen in dieserRichtung hätten, etwa derart, dass es eine entsprechende Kleiderkonven-tion unter Philosophen gäbe. Im Normalfall würden wir dagegen den-ken, dass es sich um einen bloßen Zufall handelt und wir beim nächstenPhilosophen nur mit der für Akademiker üblichen Quote wieder eine

Page 38: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 1: Probleme induktiven Schließens 26

graue Hose erwarten dürften. Philosophen sind insbesondere im Hin-blick auf ihre Kleidung keine natürliche Art, deren Elemente einanderim Hinblick auf diese Eigenschaft kausal ähnlich wären. Daher würdenwir hier keine entsprechend einfache Extrapolation vornehmen, sonderneher vermuten, dass nur ein Zufall vorlag.

Man kann das zugespitzt so formulieren: Um in die Zukunft extrapo-lieren zu können, müssen wir aus unseren bisherigen Erfahrungen zuerstauf ein kausales nomisches Muster schließen und können erst mit seinerHilfe auf künftige Ereignisse schließen. Welche Muster dabei zulässigsind, wird schon durch weiteres Hintergrundwissen mitbestimmt. Dahersetze ich kein Vertrauen in einfache Extrapolationen. Sie sind nurbrauchbar, wenn entsprechende Muster dahinter stehen. Dieser Zusam-menhang erklärt zugleich die meisten Regeln für das induktive Schlie-ßen.

Möchte ich mich etwa darauf stützen, dass Wasser bei 100 °C an-fängt zu kochen, so werde ich die Zuverlässigkeit dieser These nach fol-genden Regeln bewerten: Wir benötigen dafür möglichst viele Instanzen,da sie am ehesten einen Hinweis darauf geben, dass hier ein entspre-chendes Muster vorliegt. Besonders wichtig ist aber auch, dass die Be-dingungen variieren, denn nur so kann ich erkennen, ob es sich um einbloß lokales Muster handelt, das nur in einem sehr eingeschränkten Be-reich gilt oder um ein globaleres Muster. Außerdem werde ich mich fra-gen, ob es andere Erklärungen für die beobachteten Phänomene (das ko-chende Wasser) gibt bzw., ob sich diese anderen Erklärungen womöglichausschließen lassen. Damit gelange ich sogleich zur eliminativen Induk-tion oder auch zum Schluss auf die beste Erklärung, die wir später unter-suchen werden. Einfache Extrapolationen sind demnach nur einfacheSpezialfälle dieses komplexeren Vorgehens, bei denen wir möglicherwei-se Glück haben, dass ihnen tatsächlich ein gesetzesartiges Muster zu-grunde liegt. Vor diesem Hintergrund sind m.E. alle induktiven Schluss-verfahren letztlich zu beurteilen. Der Slogan dazu könnte etwa lauten:

Slogan zum induktiven Schließen: Es gibt kein gut begründetesinduktives Schließen ohne substantielle Hypothesenbildung.

In dieser Richtung war schon Quines (1969) Antwort auf das Raben-paradox zu suchen, die mir im Großen und Ganzen recht plausibel er-scheint. Im Rabenparadox (s. Kap. 3.8) bestätigen nicht-schwarze Nicht-Raben die Rabenhypothese H ebenso wie schwarze Raben. Raben sindzwar im Hinblick auf ihre Farbe und einige andere für Tierarten typi-schen Eigenschaften eine natürliche Art und ähneln einander in diesen

Page 39: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

27 Thomas Bartelborth: Induktives Schließen

Aspekten vermutlich, aber Nicht-schwarze-Dinge sind keine entspre-chende Art und ähneln einander i.A. nicht. Daher dürfen wir zwar vonmehreren Raben, die wir sehen, die schwarz sind, induktiv darauf schlie-ßen, dass alle Raben schwarz sind, aber wir können umgekehrt nichtvon mehreren Nicht-schwarzen-Dingen, die sich als Nicht-Raben ent-puppen, darauf schließen, dass alle Nicht-schwarzen-Dinge auch Nicht-Raben sind. Daran scheitert die sogenannte Indoor-Ornithologie. Dashat etwas mit der Erklärungskraft der jeweiligen Generalisierungen zutun. Die ursprüngliche Hypothese („Alle Raben sind schwarz“) scheintzumindest so gemeint zu sein, dass es sich dabei um ein nomisches Mus-ter handelt, dass jedenfalls eine gewisse Erklärungskraft aufweist und da-her auch abduktiv bestätigt werden kann. Für die Kontraposition desSatzes ist das nicht der Fall („Alle Nicht-schwarzen-Dinge sind Nicht-Raben“), und sie besitzt keine Erklärungskraft. Eine solche Generalisie-rung ist im Allgemeinen nicht durch ihre Instanzen induktiv zu stützen.Die Nicodsche Regel sollte daher in entsprechender Weise beschränktwerden. Die genauesten Angaben dazu bietet der Schluss auf die besteErklärung, den wir später kennenlernen werden.

Überhaupt sind wir oftmals gezwungen, zunächst weitere Kausalbe-ziehungen aufzuklären, ehe wir auf bestimmte Daten spezielle Progno-sen stützen können. Aus einem Zusammenhang wie dem zwischen gel-ben Fingern und der Erhöhung der Wahrscheinlichkeit für Lungenkrebsdürfen wir nicht einfach schließen, dass beim nächsten Menschen mitgelben Fingern ebenfalls die Lungenkrebswahrscheinlichkeit erhöht ist.Wir wissen vielmehr um die dahinterstehenden kausalen Zusammenhän-ge, nach denen der entscheidende Aspekt ist, ob die gelben Finger durchRauchen verursacht wurden oder auf eine andere Weise. Die gelben Fin-ger sind nur ein (nicht immer zuverlässiger) Indikator für das Rauchenund nur das Rauchen selbst führt zu einer Erhöhung der Lungenkrebs-wahrscheinlichkeit.

Mindestens das eine haben wir nun gelernt. Das induktive Schließenoder auch das induktive Begründen ist dreistellig. Wir stützen uns dabeiauf weiteres Hintergrundwissen und das besteht unter anderem ausHypothesen über kausale und gesetzesartige Beziehungen. Genau daswird besonders vom Schluss auf die beste Erklärung berücksichtigt wer-den. Eine Hypothese der Form „A führt zu B“ wird demnach nur danndurch entsprechende Daten bestätigt, wenn die Hypothese die Datenauch erklärt. Nur für solche Fälle dürfen wir vom Vorliegen von A aufein Vorkommnis von B schließen. Für Erklärungen sind aber im Normal-fall gesetzesartige Kausalbeziehungen erforderlich. Die nächste Frage ist

Page 40: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 1: Probleme induktiven Schließens 28

dann natürlich, wann wir spezielle Hinweise dafür haben, dass eine sol-che Kausalbeziehung vorliegt. Darauf werden wir insbesondere im Kapi-tel 7 eingehen. Vorher werden wir meist annehmen, dass wir zumindestbereits über grundlegende Vorstellungen von möglichen Kausalbeziehun-gen in unserer Welt verfügen, auf die wir uns in weiteren induktivenSchlüssen stützen dürfen.

1.5 Humes InduktionsproblemLeider ist sogar die einfache konservative Induktion selbst nicht leicht zurechtfertigen. David Hume (1888: I.III.VI) hat ein allgemeines Argu-ment gegen jede Form von Rechtfertigung eines Induktionsprinzips (IP)vorgetragen. Nehmen wir an, wir hätten beobachtet, dass die Objekte a,b und c jeweils die Eigenschaft P haben und schließen mit irgendeinemInduktionsprinzip (IP) darauf, dass das nächste Objekt d, das wir beob-achten werden, wieder P aufweisen wird. Damit dieses Verfahren nichtwillkürlich ist, müssen wir auch (IP) selbst begründen, denn (IP) könnteschließlich eine recht verrückte Form annehmen. Es könnte besagen,dass wir an Montagen immer darauf schließen dürfen, dass Pd gilt undan anderen Tagen auf ~Pd. Doch woher wissen wir, dass unsere norma-le konservative Induktion besser funktioniert? Welche Gründe habe ichetwa, für die Zukunft anzunehmen, dass die konservative Induktion er-folgreiche Vorhersagen liefern wird? Um dieses wie immer geartete Prin-zip (IP) selbst zu rechtfertigen, müssten wir eine Begründung für die An-nahme von (IP) finden. Diese Begründung kann selbst nur deduktiv oderinduktiv sein. Gäbe es eine deduktive Begründung für (IP), so gäbe esdamit auch eine deduktive Begründung für unser ArgumentationszielP(d) aus unseren Daten. Doch das wäre ein gehaltserweiternder Schlussund solche können nicht deduktiv sein, denn das sagt uns die Logik. Al-so kann es nur eine induktive Begründung für (IP) geben. Doch wie solldie aussehen? Hier droht ein Rechtfertigungszirkel, jedenfalls dann,wenn wir etwa argumentieren, dass wir (IP) deshalb für wahrheitsförder-lich halten, weil es sich in vielen Fällen in der Vergangenheit bewährthat; denn das Verfahren hätte dort zu bestimmten erfolgreichen Vorher-sagen geführt. Dann würden wir in unserer Begründung wiederum diekonservative Induktion (IP) anwenden und so mit Hilfe von (IP) gerade(IP) selbst rechtfertigen, obwohl wir doch erst wissen wollen, ob wir (IP)tatsächlich anwenden dürfen. Das sieht zirkulär aus und wirkt deshalbnicht sehr vertrauenswürdig.

Man könnte natürlich stattdessen ein anderes Induktionsprinzip (IP*)speziell zur Rechtfertigung von Induktionsprinzipien erster Stufe ver-

Page 41: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

29 Thomas Bartelborth: Induktives Schließen

wenden, um (IP) anhand seiner vergangenen Erfolge zu rechtfertigen.Doch dann müssten wir zuerst (IP*) rechtfertigen und dort wiederholtsich unser ursprüngliches Problem. Natürlich könnten wir dafür einMeta-Meta-Induktionsprinzip (IP**) zum Einsatz bringen, das wir aberwieder erst rechtfertigen müssten etc. Hier geraten wir in einen unendli-chen Regress, den die meisten Erkenntnistheoretiker auch nicht für bes-ser als einen Zirkel halten. Das wäre also kein Ausweg.

Ist der vorgeführte Zirkelschluss aber tatsächlich ein bedenklicherZirkel, wenn man darin dasselbe Prinzip zur Rechtfertigung heranzieht,das man erst rechtfertigen möchte? Ja, denn damit stützen wir uns be-reits auf das, was erst zu begründen wäre. Da jedes Argument höchstensso stark ist wie die schwächste Prämisse, haben wir damit noch nichtsgewonnen für die Frage, wie gut nun (IP) begründet wurde.

Und es kommt sogar noch schlimmer. Auch ein Vertreter der soge-nannten „revolutionären Induktion“ könnte sein Verfahren in entspre-chender Weise begründen. Der Vertreter der revolutionären Induktion(RI) sagt im Unterschied zur konservativen Induktion: „It’s time for achange.“ Wenn bisher alle Objekte P aufwiesen, so wird das nächstewohl nicht mehr P sein. Wir kennen dieses Verfahren aus dem sogenann-ten Fehlschluss des Spielers. Wenn bisher 10-mal Rot kam, so schließenwir gern (aber fälschlicherweise), dass dann wohl als Nächstes Schwarzkommen wird. Im Normalfall ist uns jedoch klar, dass (RI) ein unsinni-ges Schlussverfahren darstellt. Wenn der Spieler schon vermutet, dassdas Roulett nicht fair ist, d.h., dass hier eine Farbe wahrscheinlicher istals eine andere, dann sollte er lieber auf Rot setzen, denn seine Datensprechen sich klar für Rot aus.

Leider kann der Vertreter von (RI) ganz ähnlich argumentieren, wiedie Verteidiger von (PI) oben. Er wird sagen, dass man mit (RI) in derVergangenheit fast immer schlecht gefahren ist, also (und hier wendet er(RI) auf der Metaebene an) ist zu erwarten, dass (RI) bei der nächstenAnwendung erfolgreich ist. Mit Hilfe von (RI) lässt sich so (RI) begrün-den. Das Ganze beweist natürlich nur, dass wir es dem Verteidiger von(RI) zu einfach gemacht haben. Niemand sollte sich in der Rechtferti-gung eines Induktionsverfahrens bereits auf das Verfahren selbst stützendürfen. Dann allerdings verfügen wir auch über keine Begründung von(PI) mehr.

BonJour (1998) setzt deshalb auf eine apriorische Rechtfertigung in-duktiven Schließens, die sich nur auf allgemeine Überlegungen zu Wahr-scheinlichkeiten und der jeweils besten Erklärung setzt. Aber es zeigtsich dabei (vgl. Bartelborth 2001) immer wieder, dass er doch auf empi-

Page 42: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 1: Probleme induktiven Schließens 30

rische Annahmen angewiesen ist und genau die wird der Skeptiker nichtakzeptieren. Es wäre wohl zu einfach, wenn wir ohne irgendeine subs-tantielle Annahme starten könnten und trotzdem noch begründen könn-ten, dass bestimmte Schlussfolgerungen auf zukünftige Ereignisse wahrsind oder zumindest eine bestimmte Wahrscheinlichkeit aufweisen. Lei-der scheint auch für das Begründen zu gelten, dass es keine „creatio exnihilo“ gibt. Um substantielle Annahmen begründen zu können, sind wirbereits auf einige substantielle Prämissen angewiesen.

Man kann das Induktionsproblem noch auf eine empirische Annah-me zuspitzen, die wir als Gleichförmigkeitsannahme bezeichnen wollen.Sie besagt, dass die Zukunft der Vergangenheit ähnelt oder dass die nochnicht untersuchten Fälle denen gleichen, die wir bereits untersucht ha-ben. Genauer besagt die Gleichförmigkeitsannahme, dass die Objekte(oder Situationen), die einander ähnlich zu sein scheinen, sich in denmeisten Fällen auch ähnlich verhalten (oder sich ähnlich weiterentwi-ckeln). Diese Ähnlichkeit gilt dann insbesondere zwischen Objekten, diewir schon beobachtet haben und solchen, für die das nicht der Fall ist.Diese Gleichförmigkeitsannahme ist eine Voraussetzung dafür, dass wiraus unseren Erfahrungen lernen können. Ohne sie könnten wir nicht in-duktiv schließen und praktisch nichts aus der Vergangenheit über die zu-künftigen Entwicklungen lernen. Wasser könnte sich gestern noch zumDurststillen geeignet haben und heute stattdessen explodieren, sobaldwir es trinken. Mit Sprengstoffen könnte es dagegen umgekehrt sein.Unsere Treppen könnten plötzlich weich werden, so dass wir darin ver-sinken etc.

Eine solch verrückte Welt könnte eine Humesche Welt für uns sein,wie sie David Lewis (1994) unter dem Stichwort der Humeschen Super-venienz schildert. Danach gibt es nur eine Struktur in unsere Welt, diesie zusammenhält, und das ist die Raum-Zeit-Struktur. An den Raum-Zeit-Punkten befinden sich sodann intrinsische und kategoriale Eigen-schaften, die vor allem untereinander keine Wirkungen aufeinander aus-üben können (vgl. auch Esfeld 2008, Kap. 5.1). Keine Instanz einerEigenschaft bedingt die Existenz einer anderen Instanz einer Eigen-schaft. Wir haben nur ein völlig zufälliges Kaleidoskop von Eigenschaf-ten vor uns. Einen Flickenteppich, bei dem ein Flicken nichts darübersagen kann, wie die anderen Flicken beschaffen sind, denn alle Kombi-nationen sind möglich und keine ist genuin wahrscheinlicher als eine an-dere. Es gibt auch keine tatsächlichen Naturgesetze oder kausale Muster,die wir aufdecken könnten.

Page 43: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

31 Thomas Bartelborth: Induktives Schließen

Empiristen wie Lewis haben allerdings einen Ersatzbegriff dafür ein-geführt, den sie auch als Naturgesetz bezeichnen. So sind in der Hume-schen Welt Gesetze für David Lewis nichts anderes mehr als zufällig auf-tretende Regularitäten, die unsere Welt am besten zu systematisieren ge-statten. Sie werden durch die Systematisierung aller Ereignisse, die füruns am einfachsten und informativsten erscheint, wenn wir die Welt imGanzen betrachten, ausgezeichnet. Die lassen sich aber dann erst am En-de der Welt im nachhinein ermitteln. Würden wir diese Regularitätenschon heute kennen, könnten wir natürlich einen Gewinn für unsereEntscheidungen daraus ziehen, denn immerhin müssen die Regularitäten(die auch probabilistischer Natur sein können), häufig vorgelegen ha-ben. Allerdings lässt sich aus heutiger Sicht noch keine begründete Pro-gnose abgeben, welche „Gesetze“ diese Systematisierung einmal leistenwerden. Da die Eigenschaften bzw. ihre Instantiierungen in unserer Weltnicht in irgendeiner Weise untereinander zusammenhängen, könnteunsere Welt genauso gut so chaotisch sein, dass alle unsere bisherigenErfahrungen uns nichts über die zukünftigen Geschehnisse sagen. Auchwenn die Welt bisher sehr regulär für uns erschien, liefert das in einerHumeschen Welt nicht den geringsten Grund zu der Annahme, dass esso bleiben wird. Haben wir dagegen immenses Glück, und es gilt zufälli-gerweise die Gleichförmigkeitsannahme, so würde unser induktivesSchließen ganz zufällig erfolgreich sein. Die Humesche Welt könnte aberjederzeit viele Überraschungen für uns bereit halten und es gäbe in ihrkeine systematische Begründung dafür, aus der Vergangenheit auf dieZukunft zu schließen. Es gäbe eben keine echten Gesetze bzw. kausalenMuster, die wir aufdecken könnten. Die sucht die Wissenschaft aber undmöchte mit ihrer Hilfe unsere Umwelt verstehen und in sie eingreifen.Auch Erklärungen und Prognosen stützt sie auf die Annahme solcher ge-setzesartigen Muster.

In der Wissenschaft gehen wir jedenfalls davon aus, dass wir ausunseren Erfahrungen etwas für die Zukunft lernen können. Außerdemnehmen wir an, dass das nicht nur ein Wunder ist, sondern dass dem sys-tematische Zusammenhänge zugrundeliegen. Dabei stützen wir unsmeist auf weitere substantielle Annahmen, nach denen bestimmte Natur-gesetze bzw. nomische Muster (s.u. Kap. 3.7), die in der Vergangenheitzu beobachten waren, auch weiterhin gelten. Nur dann ist das ganzeUnternehmen Wissenschaft überhaupt sinnvoll und kann Früchte tragen.In den nächsten Kapiteln werden wir daher diese Annahme ebenfalls ak-zeptieren und auf ihrer Grundlage nach den geeigneten Induktionsver-fahren suchen. Eine substantielle Gleichförmigkeitsannahme wird somit

Page 44: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 1: Probleme induktiven Schließens 32

zu einer Form von Präsumtion der wissenschaftlichen Arbeit. Es muss et-was vorhanden sein, wonach wir in der Wissenschaft suchen können,sonst würde sich das ganze Unternehmen Wissenschaft nicht lohnen.Eine solche substantielle Gleichförmigkeitsannahme könnte dann etwaso lauten:

Substantielle Gleichförmigkeitsannahme (GA): Die meisten Gescheh-nisse in unserer Welt werden (in der Vergangenheit wie der Zukunft)von Naturgesetzen oder zumindest von nomischen Mustern be-stimmt, die wir im Prinzip erkennen können, so dass wir für vieleEigenschaften und Entwicklungen in unserer Welt eine gewisseGleichförmigkeit erkennen können, die es uns gestattet, erfolgreicheVorhersagen für noch nicht beobachtete Fälle abzugeben. (Zum Be-griff der nomischen Muster s. Kap. 3.7 und Bartelborth 2007)

Die substantielle Gleichförmigkeitsannahme wird der Skeptiker natür-lich in Zweifel ziehen und fragen, wie wir sie wohl begründen können –besonders im Hinblick auf die Zukunft. Selbst wenn unsere Welt in derVergangenheit von bestimmten Naturgesetzen regiert wurde, muss dasnicht heißen, dass das ebenso für die Zukunft gilt und dass es sich in derZukunft um dieselben Naturgesetze handeln muss. Das können wir wie-derum nicht zirkelfrei begründen. Aber wir können einen anderen Wegbeschreiten, den bereits Hans Reichenbach (1938) gewählt hat. Wir kön-nen vielleicht nicht begründen, dass uns die konservative Induktionüberwiegend zu wahren Konklusionen führen wird, aber wir könnenvielleicht zeigen, dass sie immer noch das Beste ist, was wir in unsererSituation der Unwissenheit bezüglich (GA) tun können. Wie sähe dennunsere Alternative aus?

Der radikale Skeptiker kann uns nur den Ratschlag geben, uns ein-fach jeder Annahme zu enthalten. Doch wir haben zwei Ziele für unsereErkenntnis, die beide möglichst weitgehend zu erfüllen sind. Das eineist, möglichst keine falschen Aussagen zu akzeptieren. Das erfüllt derSkeptiker natürlich hundertprozentig. Aber das andere Ziel ist es, mög-lichst viele gehaltvolle Einsichten zu gewinnen, wie die Welt funktio-niert, um unsere Umwelt verstehen zu können und zu unseren Gunsteneingreifen zu können. Ohne das zweite Ziel wenigstens ein Stück weitzu erfüllen, ist das ganze Unternehmen Erkenntnistheorie eigentlich füruns wertlos. Das zweite Ziel ließe sich allein auch leicht erfüllen, indemwir einfach alle Aussagen akzeptieren, aber das wäre offensichtlich eben-falls wertlos. Die beiden Ziele der Erkenntnistheorie sind zwar theoreti-scher Art, aber trotzdem stehen dahinter natürlich praktische Absichten,

Page 45: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

33 Thomas Bartelborth: Induktives Schließen

die uns zeigen, dass jedes Ziel für sich allein zwar leicht zu erfüllen wä-re, aber das resultierende Überzeugungssystem völlig wertlos bliebe. Esgeht also darum, das geeignete Maß zu finden, mit dem wir mit einer ge-wissen Vorsicht bestimmte Aussagen akzeptieren, um beide Ziele mög-lichst weitgehend erfüllen zu können. Der Skeptiker lässt uns hier nichtweiterkommen, weil er in Frage stellt, ob jemals eine Aussage besser be-gründet werden kann als eine andere, speziell, wenn es um die Zukunftgeht.

Wir können ihm nun entgegenhalten: Wenn wir uns an die skepti-sche Strategie halten, haben wir keine Chance, das zweite Ziel auch nuransatzweise zu erfüllen. Unser Überzeugungssystem wird für uns für im-mer leer und damit wertlos bleiben. Wählen wir dagegen eine andereStrategie, mit der wir wenigstens einige Aussagen (speziell über die Zu-kunft) akzeptieren, behalten wir zumindest eine gewisse Chance, dochnoch ein epistemisch wertvolles Überzeugungssystem zu erhalten. DieGröße der Chance können wir natürlich nicht beziffern, sie ist aber im-merhin eine logische Möglichkeit. Es scheint dann rational zu sein, dieseChance zu ergreifen und so nach einer Strategie zu suchen, die nacheinem bestimmten Verfahren Aussagen zum Akzeptieren auswählt. Dazukann es natürlich unterschiedliche Auswahlverfahren geben.

Hier kommt unsere Annahme (GA) ins Spiel. Es gibt zum einen dieMöglichkeit, dass sie für größere Bereiche unserer Welt gilt. Dann bietensich die konservative Induktion und vielleicht noch ähnliche Verfahrenan, um die Chance möglichst gut zu nutzen. Sollte (GA) allerdings völligfalsch sein und unsere Welt scheint sich – zumindest was die Zukunft an-geht – völlig regellos und chaotisch zu verhalten, dann haben wir aller-dings wohl nur noch blindes Raten als Verfahren und werden vermutlichkaum weit kommen in der Erfüllung unserer zwei Ziele. Demnach bleibtuns vernünftigerweise nur übrig, darauf zu setzen, dass (GA) im Wesent-lichen richtig ist und uns dann auf entsprechende Induktionsverfahrenzu stützen. Das gibt uns die beste Chance zu einem wahren und gehalt-vollen Überzeugungssystem zu gelangen. Ist (GA) dagegen völlig falsch,werden wir mit dieser Strategie nicht viel verlieren, weil die anderenStrategien kaum mehr für unsere beiden Ziele erreichen können. Daherscheint es rational zu sein, zwar die skeptischen Argumente anzuerken-nen, aber trotzdem darauf zu setzen, dass (GA) gilt und wir aus der Ver-gangenheit etwas für die Zukunft lernen können, als bloß zu resignierenund schlicht davon auszugehen, dass ein solches Lernen niemals möglichsei. Diesem erkenntnistheoretischen Optimismus werde ich daher imFolgenden vertrauen (vgl. Bartelborth 2001).

Page 46: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 1: Probleme induktiven Schließens 34

In einer ähnlichen Richtung argumentiert viel ausführlicher und raf-finierter Schurz (etwa in 2008a) mit weitergehenden spieltheoretischenMitteln. Er versucht darin zu zeigen, dass ein Induktionsverfahren, daseinfach bei den besten Vorhersagern lernt, zumindest erfolgreicher ist(was Vorhersagen angeht) als die Konkurrenten. Auch das sollte einGrund sein, sich auf solche Verfahren zu stützen, selbst wenn wir denSkeptiker so natürlich nicht widerlegen können. Eine bessere Antwortauf den radikalen Induktionsskeptiker scheint es leider nicht zu geben.Mit der Herausforderung durch den radikalen Skeptiker werden wir al-so wohl weiter leben müssen. Im Folgenden werden wir aber gute Ner-ven zeigen und uns von einem radikalen Skeptiker nicht mehr weiter ir-ritieren lassen. Dazu werden wir ihn vorläufig einfach beiseitestellenund uns der Frage zuwenden, welche Induktionsverfahren sich denngegenüber einem normal kritischen Verstand begründen lassen, der zu-mindest davon ausgeht, dass wir im Prinzip aus der Erfahrung lernenkönnen.

1.6 Der Plot des BuchesNachdem wir einfache Extrapolationen und ihre begrenzten Einsatz-möglichkeiten für das induktive Schließen kennengelernt haben, wird inKapitel 2 ein Abstecher in die Wissensdebatte folgen. Es geht darum,eine Zielvorstellung speziell für wissenschaftliches Wissen zu entwi-ckeln, die wir im Folgenden als Leitbild für unsere Suche nach Begrün-dungsverfahren betrachten können. Die vorgelegte Wissenskonzeptionformuliert ideale Anforderungen an wissenschaftliches Wissen, die meistkaum erreicht werden können, wird gleichwohl aber als ideales Ziel derWissenschaften hilfreiche Dienste leisten. Insbesondere besagt sie, dasswir für Wissen alle relevanten Unterminierer auszuschalten haben, unddamit sind – wie wir sehen werden – in der Wissenschaft vor allem dieKonkurrenztheorien zu unserer Hypothese gemeint. Das wird ein wichti-ges Leitmotiv sein, das wir durch alle Begründungsansätze verfolgenwerden. Ansätze, die das nicht leisten können, dürfen wir getrost als de-fizitär ansehen. Letztlich muss jede Konzeption induktiven Schließensuns eine Antwort auf die Frage nach der Rolle der Konkurrenten einerTheorie geben.

Den Ausgangspunkt der weiteren Induktionsdebatte in Kapitel 3wird dabei Poppers Falsifikationismus bilden. Popper versuchte eine Ant-wort auf Humes skeptische Einwände zu finden, indem er die klassi-schen Formen induktiver Bestätigung zu umgehen hofft und ganz aufFalsifikationen von Theorien setzt. Der Fortschritt der Wissenschaften

Page 47: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

35 Thomas Bartelborth: Induktives Schließen

besteht dann darin, dass sie allmählich die falschen Theorien eliminierenund sich so der Wahrheit nähern. Das scheint den Gedanken, dass wirdie Konkurrenz zu eliminieren haben, schon in vorbildlicher Weise um-zusetzen. Doch leider kommt auch Popper letztlich nicht darum herum,sich auf positiv gerechtfertigte Annahmen zu stützen, da uns Falsifikatio-nen allein unseren Zielvorstellungen in der Wissenschaft ebenfalls nichtwirklich näher bringen. Daher werden wir seine Idee der Falsifikationenin den Rahmen der eliminativen Induktion einbringen. Dort besitzenFalsifikationen zusätzlich einen positiv bestätigenden Aspekt im Hinblickauf die noch verbleibenden Theorien, aber nur, wenn wir vorher bereitseine vollständige (endliche) Liste von konkurrierenden Theorien abseg-nen, worin Popper uns nicht folgen würde. Falsifikationen deuten in die-sem Rahmen indirekt auf ganz bestimmte Theorien hin, indem sie diedirekten Konkurrenten eliminieren. Diese Vorgehensweise werden wirmehr oder weniger deutlich in allen vollständigen Konzeptionen induk-tiver Rechtfertigung wiederfinden.

Neben diesem indirekten Schließen müssen wir ebenso die direktenBestätigungen einer Theorie durch ihre erfolgreichen Vorhersagen be-rücksichtigen. Das geschieht in seiner grundlegenden Form anhand derdeduktiv-hypothetischen Theorienbestätigung. Dort zählen die Datenpositiv für eine Theorie, die sich aus der Theorie (zusammen mit be-stimmten Hilfsannahmen) ableiten lassen und die sich dann mit unserentatsächlichen Beobachtungen decken. Viele Wissenschaftler nennen dasals ihre Methode, ihre Theorien abzusichern.

Leider weist der deduktiv-hypothetische Ansatz in seiner Grundformeine ganze Reihe von Problemen auf. Eines der Hauptprobleme ist, dassdie deduktive Ableitung eines Datums aus Theorie plus Hilfsannahmennoch wenig über einen inhaltlichen Zusammenhang zwischen der Theo-rie und dem Datum sagt. Um das zu verbessern, wurde u.a. vorgeschla-gen, mit Relevanzlogiken zu arbeiten. Ein anderer Weg ist der Übergangzum umfassenderen Schluss auf die beste Erklärung, der alle bisherigenIdeen in sich vereint. Danach muss eine Theorie vor allem zu der Erklä-rung eines Datums beitragen, damit wir sagen können, dass sie durchdas Datum bestätigt wird. Die Theorie, die die meisten Daten am bestenerklärt, wird durch diese Daten dann auch am meisten gestützt.

Ähnlich wie bei der eliminativen Induktion benötigen wir für denSchluss auf die beste Erklärung oder das abduktiven Schließen zunächstebenfalls eine möglichst vollständige Liste potentiell erklärender Theo-rien, die wir anschließend durch Eliminationen langsam verkleinernmüssen (vgl. Kapitel 4). Diese Eliminationen müssen nun aber nicht un-

Page 48: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 1: Probleme induktiven Schließens 36

bedingt anhand von logischen Inkonsistenzen erfolgen, sondern es ge-nügt, wenn eine Theorie bestimmte Daten partout nicht erklären kann.Auch der geforderte inhaltliche Zusammenhang zwischen Daten undTheorien wird durch die Erklärungsbeziehungen deutlich. Sie zeigen zu-dem ein weiteres Ziel der Wissenschaften auf. Es geht uns nicht nur dar-um, gut bestätigte Theorien zu finden, die ihre Konkurrenten aus demFeld schlagen, sondern unsere Zieltheorien müssen zugleich eine hoheErklärungskraft besitzen, damit sie für unser Verständnis der Welt undein mögliches Eingreifen außerdem noch hilfreich sind. Das erkenntnis-theoretische Ziel wird dabei u.a. sein, grundlegende Kausalstrukturenunserer Welt aufzudecken.

Dieser abduktive Ansatz zeigt schon erste Vergleichsmöglichkeiten inden Bestätigungen verschiedener Theorien durch bestimmte Daten auf.Die Vergleichsmöglichkeiten hängen vor allem davon ab, dass wir genau-er explizieren, was die Gütekriterien für Erklärungen sind. Außerdemwird deutlich, dass Theorien auch mit anderen Theorien, die wir akzep-tieren, zusammenhängen bzw. gestützt werden, und wir benötigen eineholistische Bewertung der epistemischen Gesamtverdienste unsererTheorie, die all diese Zusammenhänge mit einbezieht. Das geschieht imRahmen einer Konzeption von Erklärungskohärenz, die es gestattet, al-ternative Szenarien im Hinblick auf ihre Kohärenz zu vergleichen. DieElimination von Theorien erfolgt dann in zwei Stufen: Zunächst werdendie ganz unplausiblen Theorien ausgesondert, deren Akzeptanz zu wei-tergehenden Inkohärenzen in unserem Überzeugungssystem führen wür-de. Danach werden an sich plausible Theorien ausgeschlossen, die be-stimmte Erklärungsanomalien aufweisen und im letzten Schritt erfolgtdann ein kleinteiliger Vergleich der Erklärungsstärke der noch verbliebe-nen Theorien. Diese Form von Abduktion stellt einen bedeutsamen Rah-men dar, in dem wir auch die weiteren Ansätze betrachten werden.

Als wichtigster Konkurrent des direkten Schlusses auf die beste Erklä-rung ist das bayesianische Updateverfahren und seine Verwandten zunennen, das wir im Kapitel 5 kennenlernen werden. Hier wird zunächstjeder Theorie ein Plausibilitätsgrad bzw. eine Wahrscheinlichkeit zuge-wiesen und diese im Lichte neu hereinkommender Daten nach einemfesten Verfahren jeweils neu angepasst. Diese Vorgehensweise bietet eineVielzahl neuer Einsichten und scheint auf den ersten Blick nur wenig mitder eliminativen Induktion zu tun zu haben. Doch an einigen Stellensind wir wieder auf eine vollständige Liste der Konkurrenten und ihrelangsame probabilistische Falsifikation angewiesen. Der Bayesianismusbietet zugleich einen guten Ausgangspunkt, um die Besonderheiten der

Page 49: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

37 Thomas Bartelborth: Induktives Schließen

klassischen Testtheorie mit ihren Signifikanztests besser zu verstehen,denen wir uns in Kapitel 6 zuwenden.

In allen Schlussformen wird immer wieder deutlich, dass wir meistnach kausalen Zusammenhängen suchen; denen wird daher noch einmalspeziell das Kapitel 7 gewidmet. Für einfache Kausalzusammenhängekönnen wir direkte Schlussverfahren angeben, mit denen sie erschlossenwerden können. Dazu werden vor allem zwei Verfahren vorgestellt, beidenen das eine von einem deterministischen Hintergrund ausgeht, wäh-rend das andere Verfahren auch probabilistische Zusammenhänge mo-dellieren kann. Beide Verfahren sind moderne Nachfahren des millschenDifferenztests, bieten aber viele neue Erkenntnisse für dieses basale An-liegen der Wissenschaft und bilden somit den würdigen Abschluss einesBuches über induktives Schließen.

Page 50: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

2 Erkenntnistheoretische Zielvorstellungen

Bevor ich mich den spezielleren Induktionsverfahren zuwenden kann,sind einige allgemeinere erkenntnistheoretische Fragen zu klären, die zu-gleich Auskunft über den Sinn und Zweck von Induktionsschlüssen ge-ben. Zunächst können wir (s.o.) zwischen Induktionsschlüssen und in-duktiven Rechtfertigungen bzw. Begründungen unterscheiden. Wenn wirvon Schlüssen sprechen, haben wir damit typischerweise den Fall vorAugen, dass wir aus bestimmten Prämissen eine neue Schlussfolgerungnach gewissen Regeln ableiten, wie das etwa in der deduktiven Logikder Fall ist. Das mag auch in manchen Fällen gelingen, aber oft habenwir es in der Wissenschaft mit Fällen zu tun, die eher in den Rechtferti-gungskontext als in den Entdeckungskontext fallen. Das heißt, wir kön-nen nicht neue Aussagen ableiten, sondern nur zu vorhandenen Hypo-thesen entscheiden, ob die vorgelegten Daten oder Prämissen dieseHypothesen stützen oder nicht. Wie wir auf neue Hypothesen kommen,ist nicht das primäre Geschäft der Induktion. Ich werde zwischen diesenbeiden Möglichkeiten nicht strikt unterscheiden und meine oft die epis-temische Rechtfertigung, wenn ich von Induktionsschlüssen spreche. Esgeht dann mehr um die logische Beziehung zwischen Prämissen undKonklusionen und nicht um ein Entdeckungsverfahren für die Konklu-sionen.

Allerdings werden wir daneben einige Verfahren kennenlernen, diefür das Aufdecken neuer Hypothesen zumindest Anhaltspunkte zu bie-ten haben oder sie sogar im Normalfall herleiten können. Dazu habenwir bereits die konservative Induktion eingeführt, die aus bisherigenVerfahren schlicht zu extrapolieren versucht, oder Regressionsverfahren,die aus Daten direkt auf zugrundeliegende funktionale Zusammenhängeschließen. Auch einige Verfahren zur Aufdeckung von Kausalbeziehun-gen gehen den direkten Weg, der von vorgelegten Daten selbständig zuKausalbehauptungen führt.

Viele Verfahren sind allerdings eher indirekt. Sie gehen davon aus,dass schon bestimmte Hypothesen vorliegen und wir nur noch fragenmüssen, ob diese zu den Daten passen und sogar dadurch gestützt wer-den. Oft ziehen wir z.B. Schlussfolgerungen aus einer Theorie und fra-gen uns dann, ob diese mit den beobachtbaren Tatsachen übereinstim-

Page 51: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

39 Thomas Bartelborth: Induktives Schließen

men. Diese Verfahren wie das gerade skizzierte deduktiv-hypothetischeSchließen oder auch die Falsifikationsansätze setzen offensichtlich vor-aus, dass eine Theorie bereits gegeben ist, aus der sich dann Schlussfol-gerungen ziehen lassen. Der Schluss auf die beste Erklärung bietet bei-des. Zum einen gibt er uns manchmal Hinweise auf sinnvolle Hypothe-sen, zum anderen lassen sich Hypothesen dadurch begründen, dass siedie besten Erklärungen unserer Daten liefern.

Dass beides nicht einfach zusammenfallen muss, zeigt das folgendeBeispiel, das immer wieder in ähnlicher Form kolportiert wird. DerWahrheitsgehalt ist für uns aber nicht wesentlich, denn es genügt, dasseine derartige Geschichte durchaus denkbar ist: Der Chemiker Kekulé,der das System der chemischen Strukturformeln entwickelt hat, be-schrieb einige Jahre später, wie er im Jahre 1865 die spezielle Struktur-formel für das von Faraday entdeckte Benzol fand. Während einer Reisehatte er einen Tagtraum, in dem Ketten aus Kohlenstoffatomen wie le-bende Wesen herumtanzten und sich plötzlich zusammenrollten wie eineSchlange. Das brachte ihn auf den entscheidenden Gedanken: Das Ben-zolmolekül muss ringförmig sein. Diese Überzeugung Kekulés konnte erspäter anhand einer entsprechenden Strukturformel und einiger weitererDaten bestätigen. Hier haben wir einen Fall vor uns, wo die Geneseeiner Hypothese nicht viel zu tun hat mit der Frage ihrer epistemischenRechtfertigung, denn ein Tagtraum wird kaum als gute Begründung füreine wissenschaftliche Behauptung dienen können. Für das Erfinden derHypothese ist vor allem die Kreativität des Wissenschaftlers gefordert,während die Aufgabe ihrer Begründung eine sorgfältige Analyse derDaten und die Anwendung von bestimmten Begründungsverfahren er-fordert.

Die Induktionsverfahren lassen sich noch auf eine andere Weiseunterteilen. Einige Ansätze (wie etwa der Likelihoodismus) zielen nurdarauf ab, eine vergleichende Bewertung zwischen zwei Hypothesen ab-zugeben, während andere wie der Bayesianismus oder die induktive Lo-gik einen absoluten Bestätigungsgrad für alle Hypothesen angeben.Überhaupt gibt es Verfahren, die eher zu der Auswahl einer Theorie füh-ren und solche, die stattdessen quantitative Grade der Bestätigung an-führen, ohne eine entsprechende Abtrennungsregel anzugeben, die unssagt, unter welchen Bedingungen wir eine Theorie schließlich akzeptie-ren sollten. Doch dazu später mehr.

Page 52: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 2: Erkenntnistheoretische Grundlagen 40

2.1 Die Ziele der WissenschaftWas sind die Ziele der Wissenschaft? Das ist die grundlegende Frage,wenn wir ermitteln möchten, ob bestimmte Methoden für die Wissen-schaften geeignet sind oder nicht. Man kann schon auf den Namen ver-weisen und zunächst antworten: Der Wissenschaft geht es um die Schaf-fung wissenschaftlichen Wissens. Wissen ist dabei als höchste Form derErkenntnis gemeint, auf die wir unsere Handlungen stützen können undauf die wir uns verlassen können, wenn wir andere Behauptungen be-gründen oder widerlegen möchten. Nur wenn wir so hohe Maßstäbe inder Wissenschaft anlegen, wird auch verständlich, weshalb Staaten bereitsind, für das Unternehmen Wissenschaft so viel Geld auszugeben, undwarum auf die wissenschaftliche Ausbildung junger Menschen in denwestlichen Ländern so viel Wert gelegt wird. Letztlich versprechen wiruns von der Wissenschaft Antworten auf sehr viele Fragen wie etwa:Was können wir gegen bestimmte Krankheiten tun? Wie können wirgünstig Energie gewinnen? Was können wir gegen Kriminalität in unse-rer Gesellschaft unternehmen? Wie einen wirtschaftlichen Aufschwungbefördern? Was befördert das Lernen unserer Kinder am meisten? In al-len derartigen Fragen sollte das wissenschaftliche Wissen letztlich auchpraktische Konsequenzen haben. Zunächst wollen wir zwar einfach nurverstehen, warum bestimmte Dinge passieren, aber oft möchten wir dar-über hinaus einen Einfluss auf das Geschehen nehmen und dazu benöti-gen wir (wissenschaftliche) Vorhersagen darüber, welche Folgen welcheMaßnahmen haben würden, um dann gezielt in den Gang der Dinge ein-greifen zu können.

Im Zentrum wissenschaftlichen Wissens stehen unsere Hypothesenund Theorien, die uns im Idealfall die gewünschten Vorhersagen liefernkönnen. Sie beinhalten das komprimierte Wissen der Wissenschaft, in-dem sie Auskunft über die grundlegenden (kausalen) Zusammenhänge inunserer Welt geben. Bevor Wissenschaftler eine Theorie propagierenkönnen, müssen sie zunächst Beweise dafür sammeln. (Da das Wort „be-weisen“ in der Logik und Mathematik eine recht spezielle Bedeutunghat, die mehr dem deduktiven Begründen entspricht und hier geradenicht gemeint ist, werde ich in Zukunft eher davon sprechen, dass dieWissenschaftler Belege sammeln müssen oder Gründe für ihre Theorienanzugeben haben u.ä.) Sind die Belege noch nicht so stark, sprechen wirmanchmal eher von Hypothesen, bei stärkeren Beweisen von Theorien.Da ich glaube, dass es sich hier um kontinuierliche Abstufungen handelt,werde ich allerdings beide Ausdrücke synonym verwenden und dazuüber die Stärke der Begründungen dieser Theorien sprechen. Wenn ge-

Page 53: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

41 Thomas Bartelborth: Induktives Schließen

nügend Belege für eine Theorie vorliegen, die Hinweise darauf geben,dass sie wahr ist, kann sie als gut begründet gelten und von der Wissen-schaftlergemeinde zumindest vorläufig (bis weitere Daten vorliegen), ak-zeptiert werden, um dann auf ihrer Grundlage Entscheidungen treffenzu können. Es wird in diesem Buch also darum gehen, was gute Gründefür eine Theorie sind, wann sie dafür hinreichen, eine Theorie zu akzep-tieren und welche anderen Überlegungen für die Auswahl von Theoriensonst noch relevant sind.

Bisher haben wir vor allem darüber gesprochen, dass die Theoriengut begründet sein sollten, d.h., dass wir über gute Hinweise dafür ver-fügen, dass diese Theorien wahr sind. Doch das alleine kann als Ziel fürdie Wissenschaft kaum ausreichen. Nur die Theorien sind für uns wert-voll, die uns zugleich wertvolle Informationen über die Welt liefern, et-wa darüber, wie die kausale Struktur der Welt ist und wo wir ansetzenkönnen, um in die Welt einzugreifen, oder schlichter Informationen derArt, dass wir verstehen können, warum etwas passiert ist. Würden wirauf diese Anforderung verzichten, wäre die Auswahl gut begründeterTheorien recht einfach. Wir könnten uns im Extremfall auf logisch odermathematisch nachgewiesene Aussagen beschränken, die uns allerdingsfür sich nichts über das Funktionieren der empirischen Welt sagen. Oderwir könnten uns auf die „Theorien“ beschränken, die nur eine Konjunk-tion unserer Daten D1,...,Dn darstellen: T D1&...&Dn. Solche reinenDatentheorien sind dann zwar durch die Daten optimal gut begründet(sogar deduktiv aus ihnen ableitbar), aber sie geben keine Vorhersagenab und können nichts erklären. Solche „Theorien“ sind wissenschaftlichvöllig wertlos. Das ist ein zweiter Aspekt der Theorienwahl, der leideroft genug in der Debatte übersehen wird.

Es sind somit zwei Ziele involviert, die einen gegenläufigen Effekthaben. Zum einen möchten wir möglichst gut begründete und sichereTheorien ohne Irrtumsrisiko; auf der anderen Seite können wir gehalt-volle und das heißt meist erklärungsstarke und tiefliegende Theorien nurgewinnen, wenn wir ein gewisses Risiko eingehen, dass wir auch dane-ben liegen könnten. Hier findet also eine komplexe Verrechnung statt,die uns noch weiter beschäftigen wird.

Die zwei Ziele der Wissenschaft sind:1. Gut begründete Theorien zu erhalten, die letztlich Wissen darstel-

len, aber auch2. gehaltvolle (erklärungs- und vohersagestarke) Theorien zu gewin-

nen.

Page 54: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 2: Erkenntnistheoretische Grundlagen 42

Diese Ziele stehen leider in einem unaufhebbaren Spannungsverhältnis.Sobald wir mehr akzeptieren und schneller dazu bereit sind, glauben wirzwar mehr zu verstehen und damit ebenfalls mehr erklären zu können,aber damit steigt automatisch unser Irrtumsrisiko an. Halten wir unsstattdessen nur an die Daten und riskieren keine weitergehende Theo-rienbildung (was uns die Empiristen genau genommen nahelegen), dannverspielen wir jede Chance, tiefere Einsichten in die Welt zu erhaltenund werden niemals gezielt in unsere Welt eingreifen können. Das in-duktive Schließen muss beiden Zielen gerecht werden und damit einekomplexe Abwägung der beiden Risiken bzw. der Erkenntnisgewinnevornehmen. Jedes der Ziele ist für sich allein leicht erfüllbar und erst inihrer Kombination zeigt sich die wahre Aufgabe der Wissenschaftstheo-rie.

Eventuell kommt neben dem Akzeptieren einer Theorie bzw. derTheorienwahl noch hinzu, dass wir bestimmte Glaubensgrade oder Plau-sibilitätsgrade von Theorien angeben können und uns nicht dafür ent-scheiden müssen, sie vollständig zu akzeptieren. Das macht unser Ge-schäft jedoch nicht immer einfacher, wird aber von manchen Ansätzenwie dem Bayesianismus bevorzugt, während die klassische Statistik ganzauf das kategorische Akzeptieren von Theorien setzt. Uns geht es dabeiauch nicht nur um Wahrheit, sondern um gut begründete Wahrheit, unddamit meinen wir Wissen. Es scheint mir durchaus interessant zu sein,dieses Ziel noch weiter zu klären, selbst wenn das Ziel dadurch in nochweiterer Ferne erscheint, denn Wissen verlangt eine ganze Menge vonuns. Aber selbst wenn es ein kaum erreichbares Ideal für die Wissen-schaft darstellt, sollten wir doch skizzieren, worum es uns dabei geht.

2.2 Wissen

2.2.1 Platons WissenskonzeptionDie Frage, was Wissen auszeichnet, stellen sich Philosophen seit derAntike. Lange Zeit galt eine Antwort Platons als völlig ausreichend, wo-nach wir unter Wissen eine Überzeugung verstehen, die sowohl wahrwie auch gut begründet ist. Demnach sind nur drei Anforderungen zustellen, wenn wir sagen wollen, dass eine Person S über das Wissen ver-fügt, dass p der Fall ist, wobei „p“ eine beliebige Aussage vertritt.

(PW) S weiß, dass p gdw. (genau dann, wenn gilt:)(1) S ist von p überzeugt.

Page 55: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

43 Thomas Bartelborth: Induktives Schließen

(2) p ist wahr.(3) S verfügt über gute Gründe für p.

Man kann sich leicht davon überzeugen, dass diese drei Bedingungentatsächlich notwendig für Wissen sind. Ist eine von ihnen verletzt, spre-chen wir normalerweise nicht mehr davon, dass S über das Wissen ver-fügt, dass p. Lange Zeit glaubte man, sie seien auch ausreichend für Wis-sen, doch dann entwickelte Edmund Gettier (1963) erste Gegenbeispie-le, die belegten, dass wir unsere Wissenskonzeption verstärken müssen.Ich möchte hier nicht sehr tief in die von Gettier ausgelöste Debatte ein-steigen, aber doch einige für unser Projekt wichtige Aspekte davon dar-stellen.

Gettiers Gegenbeispiele folgen alle einem gewissen Schema: Zwarsind in seinen Beispielen die drei Bedingungen der platonischen Wissens-konzeption erfüllt, aber es ist genau genommen nur ein glücklicher Zu-fall, dass die vorliegenden Gründe für p auch mit einem wahren p zu-sammentreffen. Die Gründe haben eigentlich mit dem Vorliegen von pin unserem konkreten Fall nicht viel zu tun, sondern wir haben es ehermit einem Fall von epistemischem Glück zu tun. In vielen ähnlich gela-gerten Fällen würden wir sogar erwarten, dass p falsch wäre, obwohlentsprechende Gründe für p vorlägen.

So könnte etwa Folgendes der Fall sein: Einer meiner Studenten Xfährt regelmäßig mit einem Audi A3 vor und erzählt mir, dass er sichden von seinem Ersparten gekauft hätte. Da ich keinen Grund habe, ihmzu misstrauen, glaube ich seinen Ausführungen, und die sollten daherdurchaus einen guten Grund für meine Überzeugung abgeben, dass gilt:p Dem Student X gehört ein Audi A3. Damit sind schon zwei Bedin-gungen von (PW) erfüllt. Allerdings sei X nun doch ein Aufschneider,obwohl ich keine Anhaltspunkte dafür hatte, und der Audi gehört ihmüberhaupt nicht. Er hat ihn sich immer nur von seiner Mutter ausgelie-hen. Damit wäre die dritte Bedingung von (PW) nicht erfüllt und es wä-re auch kein Fall von Wissen. Man könnte sagen, dass das dann der Nor-malfall ist. Wenn ich auf einen Aufschneider hereinfalle und ihm glaube,so gelange ich normalerweise zu falschen Überzeugungen.

Aber da dem Vater (und natürlich ebenso der Mutter) von X dasSpiel mit dem ständigen Ausleihen nun doch zu viel wurde, hat er inzwi-schen einen neuen Audi A3 auf den Namen seines Sohnes gekauft, ohnedem das schon mitzuteilen. Damit wäre durch diesen glücklichen Zufallnun doch die Wissensbedingung (2) aus (PW) erfüllt, denn p ist jetzt alsotatsächlich wahr. Trotzdem würde man mir sicher nicht zubilligen, ichhätte es bereits gewusst, denn ich hatte schließlich von den Handlungen

Page 56: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 2: Erkenntnistheoretische Grundlagen 44

des Vaters keine Ahnung. Meine Rechtfertigung für p beruhte nur auf ir-reführenden Informationen und Lügen und hatte leider keinen Bezug zuder Wahrheit von p. Insbesondere hätte ich X genauso geglaubt und wä-re damit dem Irrtum p aufgesessen, wenn sein Vater nicht so großzügiggewesen wäre.

Ähnlich sind viele Beispiele vom Gettiertyp aufgebaut, die alle zei-gen, dass die Bedingungen (PW) nicht genügen, damit Wissen vorliegt.Bekannt ist u.a. das Beispiel der Scheunenattrappen. Nehmen wir an, inder Schweiz wären inzwischen alle Scheunen nur noch Attrappen fürden Tourismus. Es stehe nur noch die Vorderfront. Franz fährt durch dieSchweiz und staunt an jeder dieser Attrappen: „Was für eine romantischeScheune“. Einmal hat er jedoch Glück und sieht per Zufall tatsächlichnoch eine letzte verbliebene echte Scheune. Hat er in diesem Fall dasWissen, dass eine Scheune vor ihm steht? Wohl kaum, denn es handeltsich nur um einen Glückstreffer unter lauter Nieten, die sich für ihn ge-nauso darstellen. Er hätte genauso bei einer der vielen Scheunenattrap-pen die falsche Überzeugung entwickelt, dass es sich um eine Scheunehandelt. Normalerweise führt ihn sein Verfahren der Überzeugungsbil-dung in den geschilderten Situationen nur zu falschen Annahmen. Nurseine eine Überzeugung war durch einen besonderen Zufall wahr.

Aber nichtsdestoweniger sind alle drei PW-Bedingungen erfüllt. Erglaubt daran, sich einer Scheune gegenüber zu sehen, und hat mit demSehen der Scheune schließlich einen guten Grund dafür. Tatsächlichsteht er in diesem einen Fall ausnahmsweise und zufälligerweise einerechten Scheune gegenüber; seine Überzeugung ist also wahr. Für Wissenist das trotzdem zu wenig, denn die Wahrheit beruht nur auf Glück. Da-her verlangen moderne Wissenskonzeptionen meist mehr von einer Be-gründung, die zu Wissen führen soll. Sie muss nicht nur im Allgemeinengut sein, sondern auch im Einzelfall nicht nur zufällig richtig liegen.

2.2.2 Modale AnforderungenDie Frage in der Wissensdebatte ist nun, welche weiteren Anforderun-gen wir an echtes Wissen stellen sollten. In der letzten Zeit sind einigemodale Anforderungen genannt worden, die ich zunächst kurz vorstel-len möchte, da sie einige unserer Intuitionen zum Wissensbegriff gut ein-fangen. Nozick (1981) und andere setzen darauf, dass unsere Überzeu-gungen sensitiv gegenüber der Wahrheit bzw. Falschheit von p sind bzw.auf eine dafür sensitive Weise gebildet wurden, d.h. auf einer sensitivenMethode beruhen. Unsere Überzeugungen „verfolgen somit die Wahr-

Page 57: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

45 Thomas Bartelborth: Induktives Schließen

heit“ („track the truth“) und sind nicht nur rein zufällig wahr. Dabeiwird etwa als vierte Wissensbedingung verlangt:

(4) Sensitivität:Wenn p falsch gewesen wäre, hätte S p nicht geglaubt.

Wäre die Welt also ein wenig anders gewesen und p eben nicht wahr ge-wesen, so hätte S sogleich entsprechend darauf reagiert und in dieser Si-tuation p nicht mehr geglaubt. Das wird oft so formuliert, dass in denam nächsten gelegenen möglichen Welten (bzw. in den nächstgelegenenSituationen), in denen p nicht mehr gilt, S auch p nicht mehr glaubt.Unsere Überzeugungsbildung reagiert hier sensibel auf die Falschheit derÜberzeugung. Unter normalen Bedingungen erfüllt das Scheunensehendie Sensitivitätsanforderung. Die nächsten Welten, in denen keineScheune vor uns steht, sind solche, in denen keine Scheune oder Scheu-nenattrappe zu sehen ist. Also glaubt S in diesen Welten auch nicht, dassdort eine Scheune vor ihm steht. Doch diese Bedingung wird in demLand mit lauter Scheunenattrappen eben gerade nicht erfüllt, denn dortist unter den nächsten Welten, in denen keine Scheune vor S steht, eineWelt, in der eine Scheunenattrappe vor S steht, und S daher trotzdemglaubt, dass eine Scheune vor ihm steht. Also ist hier die Bedingung (4)nicht erfüllt und gestattet es daher, p als kein Wissen auszuweisen.

Allerdings hat die Bedingung (4) gewisse bekannte Defizite. So bleibtdie Sensitivität nicht erhalten unter deduktiven Schlussfolgerungen, undWissen wäre dann nicht mehr deduktiv abgeschlossen. Doch die deduk-tive Abgeschlossenheit wirkt wie eine wesentliche Anforderung an einewissenschaftliche Konzeption von Wissen. Schließlich möchten wir ausunserem Wissen weitere Schlussfolgerungen ziehen dürfen und so zuweiterem Wissen gelangen.

Andererseits haben wir aber noch weitere Probleme mit der Abge-schlossenheitsforderung. Es sei mit WS(p) ausgedrückt, dass S weiß, dassp, und mit G wird der entsprechende Begriff des Glaubens dargestellt,dann besagt die Forderung:

(DAW) Deduktive Abgeschlossenheit von WissenWS(p) & WS(pq) & GS(q), dann gilt: WS(q)

Die platonischen Wissensbedingungen werden hierbei von q offensicht-lich erfüllt, denn q muss wahr sein, wird von S geglaubt und natürlichhaben wir mit der Folgerungsbeziehung auch eine Begründung für q,wenn wir über Begründungen für die Aussagen p und pq verfügen.Aber Probleme bereitet uns an dieser Stelle wieder einmal der Skeptiker.Er nutzt (DAW) sofort für seine Zwecke. Wenn p ein ganz normales Wis-

Page 58: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 2: Erkenntnistheoretische Grundlagen 46

sen über meine Außenwelt darstellt, wie dass (p) ich gerade auf einemStuhl sitze, wird er sagen, dass mit (DAW) dann auch folgt, dass (q) ichkein Gehirn im Topf im Sinne von Putnam bin.

Ein solches Gehirn im Topf (GiT) würde – ähnlich wie im Film Ma-trix – direkt durch einen Computer stimuliert, der ihm eine virtuelleWelt vorspielt. In Putnams Beispiel wird das Gehirn allerdings noch demKörper entnommen und schwimmt in einer Nährlösung. Keinesfallswürde ich als GiT also auf einem Stuhl sitzen. Könnte ich den Skeptikerdemgemäß mit ganz normalem Alltagswissen und (DAW) aus dem Feldeschlagen? Das lässt sich der Skeptiker nicht gefallen und kann immerhindarauf verweisen, dass wir gegen die skeptischen Hypothesen keine spe-ziellen Einwände vorbringen können, und unsere Überzeugungen gegen-über diesen Möglichkeiten demnach nicht wirklich sensitiv sind. Wärenwir nämlich Gehirne im Topf, würden wir trotzdem weiterhin glauben,auf einem Stuhl zu sitzen. Die Forderung (DAW) gerät also nicht nur inKonflikt mit der Forderung der Sensitivität für Wissen, sondern ist dane-ben noch aus anderen Gründen problematisch. Trotzdem bleibt hier derVerdacht zurück, dass die Sensitivitätsbedingung schon zu „viel“ leistetund uns zu schnell Wissen verschaffen könnte, obwohl das dann nichtstabil unter deduktiven Schlussfolgerungen ist.

Es gibt allerdings ebenfalls recht alltägliche Situationen, in denen dieSensitivitätsbedingung versagt, weil sie zu sensibel reagiert und damit zuviel fordert. Sosa (1999) schildert das folgende Beispiel: Wenn wir unse-ren Müll durch einen Müllschlucker in den Keller schicken, können wirkurz danach sehr wohl das Wissen haben, (p) dass unser Müll nun imKeller angekommen ist. Doch diese Überzeugung reagiert nicht wirklichsensibel auf mögliche Störungen im Müllschacht, die zu einem Festste-cken des Mülls im Schacht führen würden. Wir hätten dieselbe Überzeu-gung über unseren Müll im Keller auch gebildet, wenn er sich imSchacht verkeilt hätte. Nehmen wir die Sensitivitätsbedingung alsoernst, hätten wir sogar im Normalfall des Mülls im Keller kein Wissenmehr, dass p. Damit würde dann aber unser ganz normales Wissen ent-wertet.

Deshalb plädieren Sosa (1999) und etwa auch Pritchard (2005, 2007,2008) anstatt der Sensitivität für die Forderung der Sicherheit, um damitepistemisches Glück als Quelle von Wissen auszuschließen. Unsere Über-zeugung p ist nicht nur glücklicherweise wahr, wenn p auch in den meis-ten nächsten möglichen Welten, in denen S weiterhin p glaubt (Sosa1999), bzw. p auf diese Weise gebildet wird (Pritchard 2007), auch tat-

Page 59: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

47 Thomas Bartelborth: Induktives Schließen

sächlich wahr ist. Das ist eine Forderung nach einer Art von praktischerSicherheit unserer Überzeugungen, um Wissen zu erhalten.

(4*) Sicherheit: In den meisten nächstgelegenen Welten, in denen Sp glaubt, ist p wahr.

Im Prinzip geht es darum, dass zumindest in den meisten Situationen,die aus Sicht von S relevante Alternativen darstellen, in denen wir an pfesthalten würden, p tatsächlich wahr ist. Damit wird unser Müllbeispielkorrekt erklärt, denn in den meisten benachbarten Welten, in denen wirglauben, dass der Müll unten angekommen ist, ist er das auch, also han-delt es sich im Normalfall damit um Wissen. Jedenfalls dann, wenn derMüllschlucker in den meisten Fällen korrekt funktioniert und nicht dau-ernd verstopft ist. In diesem Fall hätten wir natürlich tatsächlich imNormalfall nicht mehr das Wissen, dass der Müll im Keller gelandet ist.

Allerdings gibt es wiederum Problemfälle. Wenn ich ein Los voneiner Million Losen kaufe, von denen nur eines gewinnt, so spricht manuns normalerweise trotzdem kein Wissen zu, dass unser Los verliert. An-dererseits scheint es sich um eine praktisch sichere Überzeugung zu han-deln, denn in den meisten nahegelegenen Welten (bzw. in den nächstge-legenen relevanten Situationen) hätte ich ebenfalls eine Niete gezogen.Damit wäre die Sicherheitsbedingung erfüllt, es läge aber trotzdem keinWissen vor. Freilich müssen wir in diesem Beispiel noch einmal unsereIntuition befragen, ob wir hier nicht doch lieber von Wissen sprechensollten und unsere neue Wissenskonzeption nicht doch richtig liegt. Al-lerdings weiß Ram Neta (2009) andere noch phantasievollere Gegenbei-spiele zu nennen, die ohne Lotterien auskommen.

Pritchard (2007) verstärkte daher seine Konzeption von Sicherheitnoch, indem für besonders eng benachbarte Welten gefordert wird, dassdort p in jedem Fall wahr ist:

Verstärkte Sicherheit: S’s belief is safe iff in most near-by possibleworlds in which S continues to form her belief about the target prop-osition in the same way as in the actual world, and in all very closenear-by possible worlds in which S continues to form her beliefabout the target proposition in the same way as in the actual world,the belief continues to be true.

Die modalen Zusatzforderungen scheinen uns also intuitiv schon denrichtigen Weg zu weisen, sind aber nur schwer nachprüfbar und nichtimmer leicht verständlich. Sie beruhen vor allem auf genauen Intuitio-nen darüber, wie eng benachbart bestimmte mögliche Welten sind. So

Page 60: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 2: Erkenntnistheoretische Grundlagen 48

plausibel der Ansatz also auch startet, so schwierig wird es, wenn wirversuchen, ihn weiter zu präzisieren. Deshalb scheint es mir für die Su-che nach wissenschaftlichem Wissen hilfreich zu sein, einen alten Ansatzwiederzubeleben und nach expliziten nicht-modalen Bedingungen zu su-chen, die uns für die Wissenschaften helfen, besser zu verstehen, wonachwir eigentlich suchen, wenn wir Wissen erzeugen möchten. Wissen solltevor allem über stabile und letztlich unanfechtbare Begründungen verfü-gen. Das hat vor allem damit zu tun, wie stabil Wissen unter Hinzunah-me bestimmter Wahrheiten bleibt. Diese Idee findet sich schon in denArbeiten von Keith Lehrer (1974).

2.2.3 Unanfechtbares WissenWenn q ein guter Grund für p ist, so schreiben wir das in diesem Kapitelkurz: „qp“. Damit sind alle Arten von induktiven und deduktivenRechtfertigungen gemeint, die wir intuitiv als gute Begründungen be-trachten. Außerdem gehen wir davon aus, dass es sich bei q und p umAussagen handelt, während „“ die (meist induktive) stützende Verbin-dung zwischen den beiden Aussagen bezeichnen soll. Dabei ist das so ge-meint, dass q nicht unbedingt die kompletten Prämissen unserer Begrün-dung angeben muss, denn es handelt sich um eine bloß induktive Be-gründung und wir denken uns diese Beziehung eigentlich als dreistellig,wonach weiteres Hintergrundwissen in die Stützungsbeziehung eingehendarf, nennen explizit aber nur die hervorgehobene Aussage q, die aller-dings bereits eine Konjunktion aus mehreren Aussagen darstellen kann.

So ähnlich sprechen wir schon umgangssprachlich oft über epistemi-sche Rechtfertigungen. Johns verkniffener Gesichtsausdruck, als er zuJames schaute, ist unser Grund dafür anzunehmen, dass er ärgerlich aufJames ist. Dann steckt in dem „“ u.a. das Hintergrundwissen, dass zumÄrger über einen Menschen häufig ein bestimmter Gesichtsausdruck ge-hört. Typischerweise werden bei induktiven Schlüssen nicht alle Annah-men explizit aufgeführt. Deshalb sprechen wir hier normalerweise da-von, dass einzelne zentrale Aussagen q (wesentliche Prämissen des in-duktiven Schlusses) den Grund darstellen, an etwas Bestimmtes zu glau-ben. In unserem Beispiel müsste q gerade die Aussage sein, dass Johneinen verkniffenen Gesichtsausdruck annahm, als er zu James schaute.Nicht das oben genannte Ereignis selbst ist also rechtfertigend, sonderndie Beschreibung des Ereignisses durch eine entsprechende Aussage q.Um in manchen Formulierungen aber nicht zu umständlich zu werden,werde ich nicht immer sprachlich ganz präzise sein, weil eigentlich un-missverständlich ist, was gemeint ist.

Page 61: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

49 Thomas Bartelborth: Induktives Schließen

Manchmal wird jedoch schon dieser Ansatz bestritten. Es wird etwaeingewandt, dass Begründungen sich ebenso in anderen als doxastischenZuständen also etwa in bestimmten nicht-propositionalen mentalen Zu-ständen finden ließen. Doch es gibt gute Gründe dafür, an Aussagen alsden Trägern der Stützung von anderen Aussagen festzuhalten, wofür u.a.Williamson (2000) argumentiert. In dem hier behandelten Kontext wirddas noch deutlicher. Erstens geht es mir nicht in erster Linie darum, zuexplizieren, wann eine Person S in ihren Überzeugungen gerechtfertigtist, sondern zunächst mehr darum, wann eine Aussage eine andere imLichte weiterer Aussagen (etwa des sogenannten Hintergrundwissens)epistemisch stützt. Das können wir in eine einzelne Person verlegen,müssen das aber nicht unbedingt tun. Man kann z.B. stattdessen ebensoZusammenhänge betrachten, die von einer ganzen Wissenschaftlerge-meinschaft akzeptiert werden.

Zweitens wird es mir insbesondere um wissenschaftliches Wissen ge-hen und dafür gelten allemal besondere Spielregeln. Alle relevanten Be-gründungen müssen in diesem Fall explizit auf den Tisch gelegt werdenund müssen damit in die Form von Aussagen gebracht werden. Nicht-verbalisierte Sinneseindrücke werden erst dann gezählt, wenn jemand siein propositionale Form bringt und so schildert, was er genau gesehenoder auf andere Weise wahrgenommen hat. Deshalb gehe ich davon aus,dass die Gründe für eine Überzeugung immer in Form von Aussagenoder im Falle einer bestimmten Person in Form ihrer anderen Überzeu-gungen vorliegen. Außerdem ist die Position internalistisch gemeint, wo-nach unsere epistemischen Subjekte vollen kognitiven Zugriff auf die inFrage stehenden Aussagen haben, gleichgültig ob es sich um tatsächlichePersonen oder eine Wissenschaftlergemeinschaft handelt. Das ist wieder-um für wissenschaftliche Begründungen offensichtlich unabdingbar.

Genauer diskutieren möchte ich statt der genannten Grundlagenfra-gen die komplizierte Dialektik von Gründen und Gegengründen bzw.Einwänden in der Generierung von Wissen. Um die besser beschreibenzu können, unterscheiden wir zunächst (in Anlehnung an John Pollock1974) zwischen Unterminierern („undercutting defeater“) und Gegen-gründen („rebutting defeater“). Beide können sich als Hindernisse aufdem Weg zum Wissen, dass p der Fall ist, herausstellen (vgl. a. Grund-mann 2008).

Ein Unterminierer findet sich in Aussagen u, die eine Begründung qfür eine Aussage p untergraben. Zunächst gilt also qp. Doch dann,wenn ich zu q den Unterminierer u hinzunehme, stellt u&q keine Be-gründung für p mehr dar: ~(u&qp). (Hierbei bindet das „&“-Zeichen

Page 62: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 2: Erkenntnistheoretische Grundlagen 50

stärker als der Pfeil.) Das spricht natürlich noch nicht dafür, dass pfalsch ist. Nur eine Begründung für p ist weggebrochen. Dabei kann sichder Unterminierer u direkt gegen q wenden und so q entwerten, oder errichtet sich eher gegen den Pfeil, wonach q nicht mehr speziell für pspricht, sondern etwa als mehrdeutig ausgewiesen wird und damit seineBestätigungswirkung für p verliert. Im ersten Fall stellt u schlicht einenGegengrund gegen q dar, für die wir gleich Beispiele sehen werden, d.h.,es gilt hier: u~q. Für den zweiten Fall werden wir danach Beispieleaus unserer Wahrnehmung kennenlernen. In beiden Fällen können wireinen Unterminierer dadurch kennzeichnen, dass er gegen qp spricht:u~(qp).

(U) u ist ein Unterminierer von qp gdw gilt: qp und~(u&qp) (und damit gilt: u~(qp) )

(WU) u ist ein wahrer Unterminierer von q bzw. von qp, wenn uein Unterminierer von q ist und u außerdem wahr ist.

Unterminierer untergraben also zunächst eine Begründungsbeziehung,wobei wir erst einmal offenlassen, ob sie tatsächlich wahr sind, oder wirsie nur als wahr akzeptieren.

Einen anderen Einwand gegen ein mögliches Wissen, dass p, findenwir neben den Unterminierern noch in den Gegengründen g zu p. Dassind einfach Gründe, die nun tatsächlich für non-p sprechen und siekönnen von q ganz unabhängig sein: g~p. Wir werden sehen, dass wirvon Wissen typischerweise verlangen, dass es keine (auch keine unbe-kannten) relevanten Unterminierer und nur bestimmte Gegengründe ge-ben darf. Doch zunächst möchte ich das an einfachen Beispielen erläu-tern. In unserem Audi-Beispiel wäre etwa ein Unterminierer das Wissendarum, dass X ein großer Aufschneider ist. Dieses Wissen würde zumin-dest meinen einen Grund dafür zerstören, dass X tatsächlich der Eigen-tümer eines A3 ist. Aber selbst ein Aufschneider kann natürlich einen A3besitzen, das wird durch die neuen Erkenntnisse nicht direkt bestritten.Erst wenn wir die weitere Aussage der Mutter von X hätten, dass X keinAuto sein Eigen nennt und keinesfalls das Geld dafür hätte, wäre das einGegengrund gegen p im Audi-Beispiel.

Unterminierer kennen wir bereits aus der Wahrnehmung. Wenn wiretwa schließen, ein bestimmter Gegenstand sei rot (p), weil wir ihn alsrot wahrnehmen (q), dann wäre ein Unterminierer (u) die Information,dass wir ihn nur in rotem Licht gesehen haben (u). Hier spricht derUnterminierer nicht dagegen, dass uns der Gegenstand rot erscheint (al-so nicht gegen q), aber er besagt, dass sich diese Wahrnehmung unter-

Page 63: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

51 Thomas Bartelborth: Induktives Schließen

schiedlich deuten lässt. Neben der Möglichkeit, dass der Gegenstand rotist, gibt es noch andere Möglichkeiten wie die, dass er eigentlich weiß istund nur das rote Licht reflektiert hat, die in unserer Situation unsereWahrnehmung genauso gut erklären würden. Wir erhalten alternativeHypothesen für unsere Wahrnehmung, die genauso gute Erklärungenfür sie darstellen wie die, die wir gerne begründen möchten.

Damit wurde p durch u als mehrdeutig erwiesen und spricht nichtmehr eindeutig für p. Wenn die Unterminierer oder die Gegengründe je-weils stark genug sind, dann sprechen wir davon, dass sie eine bestimm-te positive Begründung q für p neutralisieren, also ~(u&qp). Wir wer-den später auf die Frage nach der Stärke von Argumenten noch zurück-kommen, müssen damit aber zunächst einmal intuitiv umgehen. DieStärke ließe sich eventuell mit Hilfe von Wahrscheinlichkeiten darstel-len, aber die wären hier letztlich nur ein Buchhaltungssystem für unsereintuitiven Einschätzungen. Leider wird die Idee der Unanfechtbarkeitund der Neutralisierung sogleich komplexer, sobald wir kompliziertereBeispiele betrachten.

Wir erleben in manchen Beispielen das komplexe Wechselspiel vonGründen, Unterminierern und Gegengründen sowie weiteren Gegen-gründen oder Unterminierern, die sich gegen die Unterminierer undGegengründe selbst richten können etc. Dabei erweist sich Wissen alsdas angestrebte relativ stabile Ziel. Dazu müssen wir allerdings für dieBegründungen von p fordern, dass sie stabil gegenüber Unterminierernund Gegengründen sind. Als vierte Wissensbedingung werden wir daherzunächst verlangen, dass es zu unserer Begründung von p keine relevan-ten Unterminierer (auch unbekannterweise) gibt, denn gäbe es sie, wärenunsere Begründungen nicht viel wert und die Wahrheit von p wiese mitunseren Begründungen dafür keinen genuinen Zusammenhang mehrauf, wäre also wiederum nur ein glücklicher Zufall, so dass sich erneutGettier-Beispiele entwickeln ließen. Allerdings hatte ich schon ganz be-wusst von „relevanten“ Unterminierern gesprochen.

Das bekannte Tom-Grabbit-Beispiel zeigt, dass wir uns nicht vor al-len Unterminierern fürchten müssen. Nehmen wir an, wir hätten jeman-den in der Bibliothek beobachtet, der dort ein Buch gestohlen hat undwir glauben, ihn als Tom Grabbit erkannt zu haben (q). Da Tom Grabbittatsächlich der Dieb war, ist p „Tom Grabbit hat in der Bibliothek einBuch gestohlen“ Wissen für uns, das durch q begründet wird: qp.Doch nehmen wir nun weiter an, dass es einen Unterminierer u dazu gä-be: Die Mutter von Tom Grabbit erzählt jemandem, dass Tom einenkleptomanischen Zwillingsbruder hat, der im Moment in der Stadt

Page 64: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 2: Erkenntnistheoretische Grundlagen 52

weilt, während Tom selbst sich auf den Malediven befindet (u). Bereitsdiese Erzählung (u besteht hier in den Aussagen der Mutter und nicht inden darin behaupteten Fakten) untergräbt unsere Belege für die Täter-schaft Toms. Würden wir sie unseren Gründen für p hinzufügen, kämezusammengenommen keine Begründung mehr für Toms Diebstahl her-aus: ~(u&qp).

Allerdings könnte dieser Unterminierer selbst wieder durch andereAussagen unterminiert werden. So erzählt vielleicht der Psychiater vonToms Mutter, dass Toms Mutter in einer Phantasiewelt lebe, in der allesSchlechte, was Tom verbricht, auf einen imaginären Zwillingsbruder vonTom geschoben würde, den es aber nicht gibt, denn Tom ist ein Einzel-kind (u*). Dann wären q und u und u* zusammen wieder eine Begrün-dung für p, weil unser Unterminierer u in seiner unterminierenden Wir-kung selbst untergraben wurde bzw. durch Gegengründe neutralisiertwurde. Damit wäre u kein relevanter Unterminierer mehr, denn es gilt:u*&u&qp. Oder man könnte es auch so ausdrücken, dass u* einenguten Grund dafür darstellt, dass u unsere ursprüngliche Begründungnicht mehr untergräbt, d.h., danach gilt: u*~(u~(qp)). Man siehtalso hier schon, dass die Iterationen übersichtlicher sind, wenn wir dieeinfachere erste Schreibweise wählen, was ich daher im Folgenden über-wiegend tun werde, obwohl diese vereinfachte Schreibweise nicht diekomplexen inneren Zusammenhänge deutlich macht.

Leider lässt sich das Spiel fortsetzen. Auch u* könnte wiederum neu-tralisiert werden, etwa durch den Beichtvater des Psychiaters, dem er an-vertraut hat, dass er aus bloßem Hass auf Tom Toms Mutter der Lügebzw. der Verrücktheit bezichtigt (u**) und wir erhielten wieder:

~(u**&u*&u&qp)[was wiederum bedeuten würde: u**~(u*~(u~(qp)))].

Also können Unterminierer, die neutralisiert werden, doch wieder rele-vant werden, wenn ihr Neutralisierer ebenfalls wieder neutralisiert wirdusw. Die Relevanz von Unterminierern muss also letztlich eine holisti-sche Stabilitätsbedingung erfüllen. Danach ist ein Unterminierer rele-vant, wenn es für ihn keine stabile Neutralisierung gibt, d.h., wenn esfür ihn keine Neutralisierung gibt, die sich auch bei Hinzunahme weite-rer wahrer Aussagen letztlich als stabile Neutralisierung darstellt. Wirgehen hier natürlich davon aus, dass es nicht zu einem unendlichen Spielvon Neutralisierungen und Gegenneutralisierungen kommt, sondern wirnach endlich vielen Schritten einen stabilen Zustand erreichen, derunser lokales Argumentgefüge nicht mehr ins Wanken bringt. Bleibt

Page 65: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

53 Thomas Bartelborth: Induktives Schließen

dann kein stabiler Neutralisierer für u mehr übrig, ist u ein relevanterUnterminierer. Intuitiv dürfte damit hoffentlich geklärt sein, was wirunter einem relevanten Unterminierer zu verstehen haben.

In Pollock (1994) finden wir eine formale Explikation solcher Bezie-hungen in Form einer speziellen nicht-monotonen Logik. Er bringt diemöglichen Gründe und Gegengründe sowie die Unterminierer in einenInferenzgraphen und betrachtet dann die Bewertungen der Knoten alsneutralisiert oder nicht neutralisiert. An die Bewertungen werden rekur-sive Anforderungen gestellt. Die Ursprungsknoten werden als prima fa-cie plausibel und damit nicht neutralisiert angesehen. Sie stellen unsereakzeptierten Daten dar. Welche Schlussfolgerungen dann daraus zu zie-hen sind, zeigen uns die Bewertungen. Nur wenn bei allen zulässigen Be-wertungen unsere Gründe für p nicht neutralisiert werden, gilt p als sta-bil begründet. In der Praxis werden solche Kaskaden von Unterminierensicher nur selten vorkommen. Daher werde ich ihnen hier nicht sehr vielPlatz einräumen. Es dürfte auch so gut verständlich sein, wonach wir su-chen. Etwas einfacher lässt sich das so darstellen:

(UK) u=u0, u1,..., un ist eine Unterminiererkette zu qp gdw gilt:u~(qp)u1~(u~(qp))...un~(un-1~(un-2 ... ~(u~(qp)...)

Für einen wahren und relevanten Unterminierer u gilt dann, dass jedesolche maximale Kette {u=u0, u1, ..., un}, für die es also keine weiterenUnterminierer gibt, nach einer geraden Anzahl von Schritten endet(n=2k), weil damit die ursprüngliche Behauptung qp weiterhin unter-miniert bleibt, und es gilt: ~(un&...&u1&u&qp).

(RWU) u ist ein wahrer relevanter Unterminierer von qbzw. von qp gdw gilt:

(1) u ist wahr(2) Alle maximalen Unterminiererketten {u=u0, u1, ..., un} zu

u und qp mit ausschließlich wahren Aussagen ui endenmit einem geraden n=2k.

Damit wird ein wahrer Unterminierer dann relevant, wenn sich jederwahre Neutralisierer, den wir für ihn finden, selbst wieder neutralisierenbzw. entwerten lässt, so dass er schließlich doch seine unterminierendeWirkung entfalten kann. Im Folgenden spreche ich meist etwas kürzervon Unterminieren, meine aber meistens wahre Unterminierer. Auf die

Page 66: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 2: Erkenntnistheoretische Grundlagen 54

möglicherweise falschen Unterminierer kommen wir erst im Rahmender Debatte unserer epistemischen Pflichten zurück.

Tatsächlich können wir derartig komplexe Fälle für Zeugenaussagenin einem Kriminalfall finden – ganz ähnlich wie wir das im Tom-Grab-bit-Fall rekonstruiert haben. Bleiben dann relevante Unterminierer üb-rig, die also nicht wieder stabil neutralisiert werden können, so gefähr-den sie unsere Wissensansprüche und führen in der Regel zu neuen Get-tier-Beispielen.

Es kann solche Unterminierer nun sowohl für die Gründe für p wiefür die Gegengründe gegen p geben. Man findet solche Ketten in Ansät-zen typischerweise bei Zeugenaussagen. Auf der ersten Stufe gibt esGründe q1i sowie Gegengründe g1j für die Tatsache p „M war der Tä-ter“. Das sind jeweils direkte Zeugenaussagen von verschiedenen Zeugender Tat oder des Tatumfeldes. Die ersteren sprechen sich für p aus unddie zweiteren dagegen, dass p stattgefunden hat. Alle Aussagen seien pri-ma facie plausibel. Doch dann tauchen auf der zweiten Ebene dazu je-weils Unterminierer u2ij auf, die jeweils die Gründe und die Gegengrün-de in Zweifel ziehen, indem diese Zeugen Aussagen über die direktenZeugen machen und diese etwa als unglaubwürdig ausweisen. Zu diesenAussagen kann es schließlich wieder Unterminierer u3ij geben, die dieLeumundszeugen der zweiten Stufe untergraben usf. Das sind schonrecht spezielle Fälle, aber wir sollten im Prinzip wissen, wie wir damitumzugehen haben. Das können die Beispiele belegen. Zunächst werdenuns die Gegengründe noch nicht weiter interessieren und wir betrachtennur die Gründe und ihre Unterminierer.

Als relevante Unterminierer zu den Begründungen von p werdenjedenfalls nur die Unterminierer betrachtet, die in diesem Spiel letztlichnicht selbst unterminiert werden. Auch in der Wissenschaft können sol-che Debatten über einige Stufen laufen, bis sich eine gewisse Stabilitäteinstellt. So kann es etwa alternative Erklärungen bestimmter Daten ge-ben (wie wir das etwa in der Klimadebatte immer wieder gesehen habens.u.), die die Bestätigungswirkung dieser Daten in Frage stellen. Dannkönnen die alternativen Erklärungen wiederum an anderen Daten schei-tern und damit werden bestimmte Konkurrenzhypothesen eliminiert, sodass sie die ursprünglichen Belege nicht mehr unterminieren etc.

Überhaupt werden wir feststellen, dass eine enorm wichtige Gruppevon Unterminierern in der Wissenschaft von vielen Ansätzen zum induk-tiven Schließen nicht richtig berücksichtigt wird. Viele Ansätze lassen zu-nächst nicht erkennen, wieso das Auftreten von alternativen Erklärungs-hypothesen für die Daten unsere bisherige Begründung einer Theorie

Page 67: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

55 Thomas Bartelborth: Induktives Schließen

unterminieren kann. Kuhn hatte auf dieses Phänomen in seinen Fallstu-dien aus der Wissenschaftsgeschichte hingewiesen, aber in den meistenBegründungsansätzen ist dafür eigentlich kein Platz vorgesehen. Ist esaber so, dass ein Datum E eine Theorie T bestätigt (ET), so wird derPfeil darin in Frage gestellt durch eine neue Theorie T’, die E ebenso guterklären kann bzw. ebenso gut zu E passt wie T, aber inkompatibel zu Tist. E wird dadurch zumindest als mehrdeutig ausgewiesen. Es weistnicht mehr nur auf eine bestimmte Theorie hin, sondern zugleich aufverschiedene untereinander inkompatible Theorien, was selbstverständ-lich die Bestätigungskraft für die einzelnen Theorien entsprechend ab-schwächt. Das ist ähnlich, wie wenn die Verteidigung in einem Mord-prozess alternative Verdächtige benennen kann, die ebenso gut zu denIndizien passen wie der Angeklagte selbst. Erst wenn es dem Anklägergelingt, diese Alternativen als nicht wirklich verdächtig auszuschalten,richten sich seine Beweise wieder gegen den Angeklagten. Erst dann hater die Unterminierer selbst wieder unterminiert, wodurch sie ihre Rele-vanz verlieren.

Das ist für wissenschaftliche Hypothesen ganz ähnlich. Erst wenn esuns gelingt, die Konkurrenzhypothesen zu eliminieren (wenn wir sie et-wa anhand der Daten falsifizieren), dann sprechen unsere Daten wiederfür unsere ursprüngliche Hypothese. Das vermutlich anspruchsvollsteund wichtigste Geschäft der Wissenschaftler ist daher die Eliminationvon Konkurrenzhypothesen, da sie sonst Unterminierer für unsere Wis-sensansprüche in der Wissenschaft darstellen. Wir sind deshalb gezwun-gen, diese alternativen Erklärungen bewusst zu suchen und zu eliminie-ren, da relevante Unterminierer unsere Wissensansprüche selbst dannuntergraben, wenn sie uns nicht bekannt sind.

Relevante Unterminierer sind aber nur die Konkurrenzhypothesen,die nicht anderweitig eliminiert werden können. Daher werden unsereWissensansprüche nicht schon dadurch untergraben, dass wir bestimmteKonkurrenzhypothesen nicht beachtet haben. Erst wenn sie nicht selbstzu unterminieren sind, sind sie tatsächlich bedrohlich für uns. Das istwichtig für einen Einwand gegen das abduktive Schließen, wonach esauch durch „ungeborene“ Hypothesen gefährdet würde. Zumindest ge-fährden nur die relevanten ungeborenen Hypothesen unsere Wissensan-sprüche. Außerdem dürfen wir bei diesem Einwand nicht vergessen, dassein induktives Schließen niemals eine Wahrheitsgarantie liefert, weshalbman zwar sagen kann, dass diese neuen Hypothesen unsere Schlüssezwar im Einzelfall unbrauchbar machen können, aber nicht generellgegen das abduktive Schließen sprechen.

Page 68: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 2: Erkenntnistheoretische Grundlagen 56

Da wir allerdings oft nicht so leicht entscheiden können, ob sich sol-che Konkurrenzhypothesen eliminieren lassen, sind wir als sorgfältigeWissenschaftler gezwungen, sie so systematisch zu suchen wie möglichund dann einzeln zu widerlegen. Nur Konkurrenzhypothesen, die wirvon vornherein für abwegig halten, müssen wir nicht unbedingt behan-deln, da wir davon ausgehen dürfen, dass sie sich bei genauerer Betrach-tung als nicht relevant entpuppen würden, weil sie im Prinzip selbst wie-der unterminierbar sind. Diese Idee der Elimination von Unterminierenwerden wir als Nächstes im Rahmen der eliminativen Induktion wieder-finden, aber sie gehört letztlich in alle Induktionsverfahren. Fehlt sie al-so an irgendeiner Stelle, deutet das nur auf die Unvollständigkeit dieserVerfahren hin. Daher wird es ein wichtiges Anliegen des Buches sein,diese komparative Form der Theorienbestätigung immer wieder aufzu-decken und in die Verfahren zu integrieren.

Leider gilt es, neben den Unterminierern ebenfalls noch die mögli-chen direkten Gegengründe gegen p zu berücksichtigen. Sind die sehrstark, können sie genauso Wissen verhindern wie die Unterminierer undneutralisieren so indirekt ebenfalls bestimmte unserer Begründungen fürp. Überhaupt bleibt leider das Grundproblem offen, wie wir mehrereGründe und Gegengründe miteinander verrechnen sollen. Dazu gibt eszunächst kein einfaches Verfahren, das belegen schon die Beispiele derZeugenaussagen. Bei einander widersprechenden Zeugenaussagen ist essehr schwierig, sich ein Gesamturteil zu bilden, und wir sind vielmehrauf intuitive Urteile oder weitere Informationen angewiesen, als dass esdafür eine Art von Algorithmus gäbe. So werden wir normalerweisemehrere Zeugen, die übereinstimmend M als den beobachteten Täteridentifizieren, als eine stärkere Begründung für p betrachten, als wennwir weniger oder nur einen Zeugen hätten. Sollten allerdings die Zeu-genaussagen einander wieder zu ähnlich sein und sich sogar im Wortlautgleichen, kann das ins Gegenteil umschlagen. Das kann auf gegenseitigeAbsprachen oder Beeinflussungen hinweisen – bis hin zu einer Ver-schwörung –, die sogar dafür sprechen würde, dass M nicht der Täterist. Wir müssen uns jeweils fragen: Was ist insgesamt die beste Erklärungfür diese Übereinstimmung? Besteht die beste Erklärung darin, dass dieZeugen eben dasselbe gesehen haben, oder gibt es andere Erklärungenwie die, dass sie sich abgesprochen haben oder noch ganz andere Erklä-rungen.

Ein kleines Experiment, das ich kürzlich im Fernsehen sah, belegt,wie brisant diese Frage tatsächlich ist. Darin wurden mehrere Zeugen,die einen vermeintlichen Täter kurz, aber deutlich gesehen hatten, di-

Page 69: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

57 Thomas Bartelborth: Induktives Schließen

rekt nach der Tat 5 Verdächtigen gegenübergestellt. Fast alle von ihnenidentifizierten den Verdächtigen Nummer 5 als den Täter, obwohl sichder wahre Täter überhaupt nicht unter den Verdächtigen befand. Trotz-dem waren sich viele der Zeugen sehr sicher in ihrer Einschätzung, undKriminologen bestätigen, dass das leider kein Einzelfall ist. Im geschil-derten Experiment war es leicht zu erklären, worauf dieses angeblicheWiedererkennen beruhte. Der tatsächliche Täter hatte Locken und dereinzige Verdächtige mit Locken war Nummer 5, der dem Täter aller-dings ansonsten nicht besonders ähnlich sah. Die Übereinstimmung derZeugen war hier also anders zu erklären als dadurch, dass die Zeugen al-le den Täter erkannt haben. Das ist ein weiteres Beispiel dafür, warumselbst in diesen einfachen Fällen keine Akkumulation der Begründungs-stärke vorliegt und wir wieder nach alternativen Erklärungen für dieÜbereinstimmung Ausschau halten müssen. Außerdem sollte klar sein,dass die subjektive Sicherheit der Zeugen ebenso wenig als Hinweis aufdie Wahrheit ihrer Aussagen dienen kann.

Insbesondere die „Verrechnung“ der positiven Gründe mit Gegen-gründen ist also kein leichtes Geschäft – noch nicht einmal für Zeugen-aussagen. Dafür können wir jedenfalls keine einfachen Regeln formulie-ren und es helfen auch keine probabilistischen Tricks. Wir hätten z.B. zubeurteilen, wie groß P(p|q1&...&qn&g1&...&gk) mit positiven Gründenqi für p und Gegengründen gi ist. Dazu gibt es aber keine allgemeinenRechenregeln, die das auf einfachere Ausdrücke zurückführen würden,und das letzte Beispiel der Zeugenaussagen deutet schon darauf hin,dass das auch besser so ist, denn je nach speziellem Kontext sollten völ-lig andere Ergebnisse dabei herauskommen. (In Kapitel 5.6.8 werdenwir noch erfahren, wie der Bayesianismus das Problem behandelt.)

Haben wir es mit starken Einwänden zu tun, spricht das in wissen-schaftlichen Kontexten zunächst einmal dafür, p nicht als hinreichendbegründet anzusehen. Doch wir wissen schon aus der Wissenschaftsge-schichte, dass manchmal Theorien akzeptiert werden, obwohl es starkeGegengründe dagegen gibt. Hier kommen wieder spezielle Regeln fürdas Akzeptieren wissenschaftlicher Theorien ins Spiel, da diese keineeinfachen Konjunktionen von Aussagen sind, sondern eine komplexereStruktur haben, die es ihnen ermöglicht, eine differenzierte Reaktion aufbestimmte Anwendungsprobleme zu zeigen (vgl. etwa Bartelborth 1996Kap. VII).

Ein bekanntes Beispiel ist Bohrs Atommodell, nach dem die Elektro-nen nur auf ganz bestimmten stabilen Bahnen um den Atomkern kreisenkonnten. Obwohl das im Widerspruch mit der im Wesentlichen akzep-

Page 70: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 2: Erkenntnistheoretische Grundlagen 58

tierten klassischen Elektrodynamik stand, wurde die bohrsche Theorienicht gleich in Bausch und Bogen verworfen. Für dieses Verhalten lässtsich eine Erklärung finden, denn hier sind bestimmte Kohärenzüberle-gungen am Werk. Bohr nahm als Hilfshypothese an, dass die gebunde-nen Elektronen im Atom nicht der Maxwellschen Elektrodynamik unter-liegen (s.u.). Er verkleinerte also einfach den intendierten Anwendungs-bereich der klassischen Elektrodynamik, so dass keine direkten Wider-sprüche zu seinem Atommodell mehr auftraten. Solange man aber dieMaxwellsche Elektrodynamik nicht wirklich in Zweifel zog, lieferte sienatürlich weiterhin starke prima facie Gegengründe gegen das BohrscheAtommodell, denn diese Ausnahmeregelung wirkte recht ad hoc. Trotz-dem konnte das Atommodell mit einer gewissen Berechtigung beibehal-ten werden (vgl. Bartelborth 1989).

Jedenfalls steht uns für entwickelte wissenschaftliche Theorien dieserAusweg immer offen, dass wir ihren intendierten Anwendungsbereich ge-eignet einschränken, wodurch ansonsten auftretende Inkonsistenzen ver-mieden werden können. Das gilt vor allem für den Fall, in dem eineTheorie direkt mit bestimmten Daten in Konflikt gerät. Das ist zwar pri-ma facie ein Gegengrund für das Akzeptieren der Theorie, es gibt aberhier denselben Ausweg wie oben, der sogar wieder zu Wissen führenkann, denn jede Theorie ist immer auf einen ganz bestimmten intendier-ten Anwendungsbereich bezogen. Jede Theorie erklärt bestimmte Phäno-mene und andere eben nicht. Die Gravitationstheorie ist zwar zunächstauf alle Objekte anwendbar, ist aber keineswegs dazu gedacht, die Bewe-gungen und Handlungen von Menschen erklären zu können. Psychologi-sche Theorien, die das leisten sollen, treten also keinesfalls in Konkur-renz zur Gravitationstheorie, die die Anziehungskräfte unter den Men-schen anders bestimmt.

Newton hoffte zwar, seine Partikelmechanik sogar auf Lichtphäno-mene anwenden zu können, jedoch eine ganze Reihe solcher Phänome-ne wie die Interferenz oder die Beugung ließen sich nicht unter seineTheorie subsumieren. Deshalb ist Newtons Theorie noch nicht gleichganz zu verwerfen, sondern eine naheliegende Antwort auf diese Her-ausforderung ist, diese Phänomene aus dem Anwendungsbereich seinerTheorie zu streichen. Für andere Phänomene scheint die Theorie hin-gegen erfolgreich anwendbar zu sein, und wir können sie noch heute fürbestimmte Bereiche zumindest als approximativ gültig ansehen. Wirmüssen jeweils genau hinsehen, welche Hypothese mit welchem Anwen-dungsbereich zur Debatte steht, wenn wir die Frage nach wissenschaftli-chem Wissen entscheiden wollen. Gegen die newtonsche Partikelmecha-

Page 71: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

59 Thomas Bartelborth: Induktives Schließen

nik mit verkleinertem Anwendungsbereich stellen die Lichtphänomeneeben keine Gegengründe mehr dar.

Und selbst Gegengründe, die wir auf diese Weise nicht auflösen kön-nen, müssen nicht immer sogleich dazu führen, dass kein Wissen mehrvorliegt. Zunächst einmal ist klar, dass Gegengründe, die uns bekanntsind, in jedem Fall zählen und zu berücksichtigen sind. Wiegen sieschwer genug, dass sie unsere bisherigen Gründe für p aufwiegen, stelltp kein Wissen dar. Da hilft es auch nicht, wenn es für die GegengründeUnterminierer gibt, solange diese uns nicht bekannt sind. Sind sie unsbekannt, können sie die Gegengründe natürlich neutralisieren und somitentkräften, so dass wir wieder berechtigt sind, an p zu glauben.

Doch wie sieht das mit unbekannten Gegengründen aus? Das istschon wesentlich schwieriger zu beantworten. Zunächst einmal zählenwiederum nur bestimmte unbekannte Gegengründe (vgl. auch Steup2006). Betrachten wir dazu ein Beispiel: Nehmen wir etwa an, Kommis-sar K hätte gute Gründe (q), daran zu glauben, dass M der gesuchteMörder von Fritz ist (p), und er wäre es tatsächlich. Nun gibt es aller-dings einen Menschen in Sibirien, der behauptet (ohne dass KommissarK davon wüsste), er hätte M zum Tatzeitpunkt dort gesehen (g), wo-durch dieser ein Alibi hätte. Damit wäre die Aussage des sibirischen Zeu-gen unser Gegengrund zu der Aussage p „M hat Fritz ermordet.“ Je-doch, wie das eben so passieren kann, hat er sich dabei geirrt (u). Er hatjemand anderen für M gehalten. Die Tatsache des Irrtums wäre einUnterminierer für g, und ein solcher muss letztlich vorliegen, da wir an-genommen haben, dass p wahr ist. Wenn p aber wahr ist, so kann dasWissen von Kommissar K, dass p, doch nicht durch solche unbekanntenZeugenaussagen gefährdet werden. Die Aussage des Alibizeugen scheintfür eine epistemische Bewertung von Ks Überzeugungen offensichtlichbedeutungslos, denn er hat letztlich nichts Relevantes zu p zu sagen. So-bald der Unterminierer u bekannt würde, ist klar, dass der Alibizeugenur eine irrelevante Anmerkung zu bieten hatte. Außerdem befindet sichder Alibizeuge weit außerhalb der Ermittlungen von Kommissar K. Soll-ten solche Gegengründe bereits gegen Wissen ausreichen, käme es wohlnur selten zu Wissen, gerade auch in der Wissenschaft. Gegengründe,die wir nicht kennen, scheinen daher keine Gefährdung von Wissen dar-zustellen. Ganz so überzogen sind unsere Anforderungen an eine Wis-senskonzeption dann doch nicht. Das gilt selbst dann, wenn wir keineUnterminierer angeben könnten, denn die Gegengründe sind zumindestde facto nicht sehr stark, weil p schließlich wahr ist.

Page 72: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 2: Erkenntnistheoretische Grundlagen 60

Unsere epistemischen Pflichten scheinen allerdings anders auszuse-hen, wenn wir einen derartigen Gegengrund kennenlernen, vor allemohne einen Unterminierer dagegen zu kennen. Dann sollten wir genaugenommen nicht mehr fest an p glauben, und damit wäre schon ein ers-tes Abweichen von den klassischen Wissensbedingungen gegeben. Auchverfügen wir – alles zusammengenommen – nicht mehr über eine Be-gründung für p, denn es gilt schließlich: ~(q&gp). Diese Schwächungder persönlichen epistemischen Position des Subjekts wird dazu führen,dass wir noch nicht einmal mehr sagen dürfen, wir könnten p noch ra-tionalerweise glauben, und resultiert damit in einem Verlust des Wissens-status für p. Das ist typisch für den Wissensbegriff, in dem hier zwei As-pekte zusammenkommen: Erstens müssen die subjektiven (internalisti-schen) Bedingungen für einen rationalen Glauben erfüllt sein, was inunserem Beispiel fehlt; zweitens müssen bestimmte objektive (externalis-tische) Anforderungen eingehalten werden, was in unserem Beispielzwar erfüllt ist, denn der Gegengrund wird womöglich objektiv gesehendurch einen Unterminierer neutralisiert, aber das kann die Mängel desersten Aspekts nicht wettmachen. Kommissar K sollte also in dem Fall,dass der Alibizeuge ihm gegenüber seine Behauptung macht, kein Wissenmehr zugeschrieben werden, dass M der Täter ist.

Umgekehrt sieht es selbstverständlich genauso aus. Selbst wenn wirfesten Glaubens an p sind und über allerbeste Gründe für p aus unsererSicht verfügen, sollte p nicht wahr sein oder sollten diese Gründe get-tieranfällig sein, liegt trotzdem kein Wissen vor. Besonders die Defiziteder objektiven Wissensaspekte sind nicht durch die subjektiven zu hei-len. Wurden die DNS-Spuren, die auf M als Täter hinweisen, tatsächlichfalsch ausgewertet oder sogar verwechselt, aber M sei trotzdem der Tä-ter, haben wir wieder kein Wissen mehr auf Seiten von Kommissar K,sondern nur ein neues Gettierbeispiel konstruiert. Trotz irreführenderGründe liegen wir zufälligerweise richtig mit unseren Vermutungen. Dasvorherige Beispiel belegt aber insbesondere die spannendere andereRichtung und zeigt die hohe Sensibilität des Wissensbegriffs schongegenüber kleinen subjektiven epistemischen Defiziten.

Das Problematische an dieser Stelle ist nun insbesondere, dass dieWissensfrage bereits daran hängen kann, in welchen Kontexten der Ali-bizeuge auftritt. Gehört der Alibizeuge zum Umfeld des Tatgeschehens(ist er z.B. ein Nachbar des Tatverdächtigen) und M behauptet, er wärezum Tatzeitpunkt in seinem Garten gewesen, dann hätte es zu den Auf-gaben des Kommissars gehört, diesen Nachbarn zu befragen. Hat er dasschlicht vergessen oder möchte seine bisherigen Ermittlungsergebnisse

Page 73: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

61 Thomas Bartelborth: Induktives Schließen

einfach nicht durch mögliche Alibis von M gefährden, so würden wirdiese epistemischen Pflichtversäumnisse Kommissar K anlasten und nichtmehr von Wissen sprechen, selbst wenn sich der Nachbar geirrt hat.Kommissar K hätte bei sorgfältiger Arbeit die Zeugenaussage kennenmüssen. Wir werden ihn erkenntnistheoretisch nicht belohnen, in demwir ihm Wissen aufgrund seiner Nachlässigkeiten zuschreiben. Es wäreschon seltsam, wenn wir einfach dadurch unser Wissen aufrechterhaltenkönnten, dass wir naheliegende Gegengründe nicht zur Kenntnis neh-men. Auch Kommissar K selbst sollte ein ungutes Gefühl bei seiner Prä-sentation der Ermittlungsergebnisse haben. Fragt man ihn, ob er auchsorgfältig in beide Richtungen ermittelt hat, sollte ihm klar sein, dass ernicht wirklich nach Entlastungszeugen gesucht hat. Dann liegt wiederein Defizit auf der subjektiven Seite vor, das m.E. bereits groß genug ist,um Wissen zu verhindern. Es können in diesem speziellen Fall also auchunbekannte und möglicherweise sogar selbst unterminierte (und damitirrelevante) Gegengründe dem Wissen entgegenstehen. Das ist immerdann der Fall, wenn es sich um Gegengründe handelt, die das epistemi-sche Subjekt hätte zur Kenntnis nehmen müssen, wenn es seinen episte-mischen Pflichten genügt hätte.

Das findet sich in ähnlicher Form für wissenschaftliche Beispiele. Hatein Wissenschaftler S gute Gründe für die wahre Hypothese h und istfest von h überzeugt, so schadet es dem Wissensstatus von h nicht, wennein besonders renommierter Wissenschaftler N (womöglich Nobelpreis-träger) behauptet, er habe zwingende Daten, die gegen h sprächen,wenn N das nur in engstem Familienkreise tut. Sollte S mit seiner Hypo-these h Recht behalten und die Aussagen des Nobelpreisträgers sind fürS nicht zugänglich, so kann S durchaus über das Wissen verfügen, dass hgilt. Hat der Nobelpreisträger seine Resultate aber in einer geeignetenFachzeitschrift veröffentlicht, die S eigentlich hätte zur Kenntnis neh-men müssen, untergräbt das bereits wieder die Wissensansprüche von S,selbst wenn er es nicht gelesen hat. Man wird in dem Fall nämlich gegenihn einwenden, dass es zu seinen epistemischen Pflichten für das wissen-schaftliche Arbeiten gehört, solche Arbeiten zur Kenntnis zu nehmen,wenn sie für ihn im Prinzip zugänglich sind. Hier verläuft ein schmalerGrat zwischen Wissen und Nichtwissen, der auch eine Grauzone auf-zeigt, in der unsere Intuitionen nicht ganz klar sind, ob es sich noch umWissen handelt oder ob die Verstöße gegen unsere epistemischen Pflich-ten schon zu groß sind.

Für die Wissenschaft hat die Rede von epistemischen Pflichten nocheinen relativ klaren Inhalt, aber in anderen Kontexten scheint das schon

Page 74: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 2: Erkenntnistheoretische Grundlagen 62

viel weniger klar zu sein. Welche derartigen Pflichten hat etwa ein Re-dakteur des Kulturteils einer Zeitung oder jemand am Stammtisch imFreundeskreis, wenn er dort seine Überzeugungen vertritt? Die Vaghei-ten und Unklarheiten, die dadurch noch in der Wissensdefinition enthal-ten sind, finden sich aber bereits im umgangssprachlichen Wissensbegriffselbst. Jedenfalls soll das intuitive Ergebnis dieser kurzen Beispieldebat-ten sein, dass wir zumindest solche Gegengründe zur Kenntnis nehmenmüssen, die uns entweder bekannt sind oder die uns im Prinzip zugäng-lich sind, und die wir gemäß unseren epistemischen Pflichten zur Kennt-nis nehmen müssten, sogar wenn die Gegengründe eigentlich irrelevantsind, da es dazu Unterminierer gibt.

Weitere Verstärkungen unserer Anforderungen für das Vorliegen vonWissen sind zwar denkbar und werden manchmal erwogen, ergeben je-doch keine sinnvolle Wissenskonzeption. Selbst noch so gute Gründe füreine Aussage p stellen normalerweise keine Wahrheitsgarantie für p dar.Eine solche absolute Irrtumssicherheit erwarten wir auch nicht von gu-ten Gründen. Gründe sind Hinweise auf die Wahrheit einer Behauptungp, aber sind nicht unfehlbar (sonst hätten wir es wohl mit deduktivenBegründungen zu tun). Eine solche Forderung der Wahrheitsgarantiewürde selbst wissenschaftliche Begründungen überfordern und wäre so-gar ein Rückfall in dogmatische Denkstrukturen. Nach einer wahrheits-garantierenden Begründung hätten wir keinen Grund mehr, anderen indieser Sache noch einmal zuzuhören. Sie könnten keine relevantenGegengründe oder Zusatzinformationen mehr liefern, denn unsere Sa-che wäre ein für allemal entschieden. Diese dogmatische Denkweise ent-spricht aber überhaupt nicht der wissenschaftlichen Einstellung, die vor-sieht, dass wir immer offen für neue Daten sein müssen und unsere bis-herigen Theorien alle als fallibel betrachten sollten. Daher wird mannormalerweise keine solche Verstärkung unserer Begründungen verlan-gen, obwohl das ebenfalls ein Weg zu einer Wissensdefinition im Sinneeiner Vermeidung der Gettierbeispiele sein könnte. Allerdings dürftenwir dann kaum noch echte Instanzen von Wissen erwarten, weil dieseAnforderungen praktisch unerfüllbar wären. Wir stoßen allerdings im-mer wieder auf die Behauptung, Wissen wäre auf solche zwingenden Be-gründungen angewiesen. Linda Zagzebski (1994) behauptet sogar nach-weisen zu können, dass nur wahrheitsgarantierende Gründe uns vorGettierbeispielen schützen können. Da ich ihr hierin nicht folgen kann,werde ich diesen Punkt aber nicht weiter diskutieren.

Denken wir noch einmal an unser Beispiel von Kommissar K. Zusam-menfassend gilt: Wenn sich der Alibizeuge nicht bei uns in Deutschland

Page 75: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

63 Thomas Bartelborth: Induktives Schließen

meldet und unser ermittelnder Kommissar nicht den geringsten Hinweisdarauf hat, dass er existiert, hat er dann kein Wissen, dass p (M ist derMörder), weil es irgendwo einen solchen Gegengrund gibt? So starkeAnforderungen stellen wir nicht. Hat der Kommissar sorgfältig ermittelt,sprechen wir ihm nun Wissen zu. So weit entfernte Gegengründe kön-nen das nicht verhindern. Anders sähe es nur aus, wenn der Kommissarsich sofort auf M festgelegt hätte und nicht einmal mehr die Zeugen ausdem Umfeld von M und Fritz vernommen hätte. Dann ist er in diesemFall seinen epistemischen (und polizeilichen) Sorgfaltspflichten nicht ge-nügend nachgekommen. Gibt es also relevante Gegengründe, auf die je-mand gestoßen wäre, wenn er seinen Sorgfaltspflichten in der entspre-chenden epistemischen Situation genügt hätte, dann können dieseGegengründe unserem Wissen entgegenstehen. Sie müssen zumindest ge-zählt werden. Sind sie dann etwa genauso so stark wie unsere ursprüng-lichen Gründe für p liegt kein Wissen mehr vor. Hier könnte uns höchs-tens noch eine komplexe Abwägung retten, die sagt, dass unsere ur-sprünglichen Gründe für p deutlich stärker als alle relevanten Gegen-gründe wären, um doch noch Wissen zu erreichen.

Das lässt sich besonders gut auf den Fall von wissenschaftlichem Wis-sen übertragen. Gerade Wissenschaftler haben bestimmte Sorgfaltspflich-ten zu erfüllen, bevor sie etwas als Ergebnis vorstellen dürfen. Dem wer-den wir im Weiteren noch nachgehen, aber hier können wir schon nen-nen, dass sie u.a. gezielt nach Daten Ausschau halten müssen, die ihrenHypothesen entgegenstehen und dass sie außerdem nach alternativen Er-klärungen für ihre Daten suchen müssen. Dazu müssen sie u.a. die ein-schlägige Literatur durchforsten, auf der Suche nach Hinweisen auf sol-che Gegengründe durch Kollegen. Verletzen sie ihre epistemischenPflichten, kann das der Zuschreibung von Wissen entgegenstehen, selbstwenn sie zufälligerweise trotzdem richtig liegen. Damit kommen wirschließlich zu der folgenden Wissensdefinition:

WW: (Wissenschaftliches Wissen) S weiß, dass p bei einem Überzeu-gungssystem X von begründet akzeptierten Aussagen gdw. gilt:

(1) S ist von p überzeugt.(2) p ist wahr.(3) S verfügt in X über gute Gründe G für p.(4) Es existieren keine wahren relevanten Unterminierer U zu G.(5) Alle möglichen (starken) Gegengründe zu G, zu denen es in

X keine relevanten Unterminierer gibt, liegen außerhalb desBereichs der epistemischen Pflichten von S in der hier rele-vanten Situation und sind S nicht bekannt.

Page 76: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 2: Erkenntnistheoretische Grundlagen 64

Die fünfte Bedingung weist sowohl eine größere Vagheit als die anderenBedingungen auf als auch eine gewisse Kontextabhängigkeit, die in denanderen Bedingungen so nicht vorliegt. Wir müssen damit zugestehen,dass der Wissensbegriff vermutlich nicht völlig kontextfrei verstandenwerden kann.

Außerdem wird deutlich, dass die Unterminierer nur zählen, wennsie wahr und stabil sind. Dafür müssen sie aber noch nicht einmal demepistemischen Subjekt bekannt sein (hier haben wir es also mit einer ty-pischen externalistischen Bedingung zu tun). Demgegenüber zählen dieGegengründe erst, sobald sie uns bekanntwerden oder sobald sie uns be-kannt sein sollten, wenn wir unsere epistemischen Pflichten ernst näh-men. Allerdings werden sie durch bekannte Unterminierer neutralisiert,die selbst nicht unbedingt wahr sind, sondern nur begründet akzeptiertsein müssen. Damit handelt es sich bei der fünften Bedingung überwie-gend um eine internalistische Bedingung.

Außerdem zeigen sich schon weitere Merkmale wissenschaftlichenWissens, die uns im Folgenden weiter beschäftigen werden. Um vonTheorien als Wissen sprechen zu können, benötigen wir eine holistischeTheorienbewertung, die komplexe Abwägungsprozesse beinhaltet undsich nicht auf einfache Zusammenhänge zwischen Theorien und weni-gen Daten beschränkt. Wir werden später sehen, dass diese am bestenals ein Schluss auf die beste Erklärung im größeren Rahmen einer Kohä-renztheorie der epistemischen Rechtfertigung beschrieben werden kön-nen.

Damit haben wir eine erste Explikation von Wissen vorgelegt, diemir vor allem für das wissenschaftliche Wissen eine gute Grundlage zubieten scheint. Das möchte ich im nächsten Kapitel noch weiter verfol-gen und in den folgenden Kapiteln als Zielvorstellung vor Augen haben.Aus vergangenen leidvollen Erfahrungen sollten wir allerdings gelernthaben, dass kaum ein Wissensbegriff gegen alle phantasievollen Gettier-Beispiele gefeit ist. Das wird auch hier vermutlich der Fall sein. Darinzeigt sich die Komplexität unserer Wissensvorstellung und schließlichfinden sich immer kontextuelle Elemente im Wissensbegriff. Wir könn-ten uns nun also noch extremere Beispiele ausdenken, die nach immerkomplexeren Wissensdefinitionen verlangen. Doch das scheint mir nichtder richtige Weg zu sein. Die Definitionen werden so schließlich un-handlich und zeigen nicht mehr klar die wesentlichen Aspekte des (wis-senschaftlichen) Wissens auf, die m.E. in (WW) sehr gut eingefangensind.

Page 77: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

65 Thomas Bartelborth: Induktives Schließen

Mir genügt es also, wenn (WW) die Kernbedeutung von Wissen wie-dergibt und zumindest die meisten normalen Instanzen von Wissen ins-besondere in der Wissenschaft korrekt als solche einstuft. Von Wissen er-warten wir vor allem, dass es eine stabile Basis für weitere Schlüsse oderBewertungen anderer Überzeugungen bereitstellt und das verlangt, dassdie Begründungen für unser Wissen nicht sogleich umfallen, sobald neueErkenntnisse hinzukommen, die relevant sind; was heißen soll, dass sienicht auf tönernen Füßen stehen dürfen. Wissen sollte also zumindest imdirekten Umfeld unanfechtbar sein, bzw. es sollte so gut begründet sein,dass es nicht sofort in Frage gestellt wird, sobald wir uns nur sorgfältigumsehen. Das ist intuitiv verwandt mit der modalen Forderung nachpraktischer Sicherheit von Wissen, die wir bereits kennengelernt haben.

Außerdem erwarten wir, dass unser Wissen nicht auf einen simplenTrick zurückzuführen ist, nämlich einfach widerspenstige Daten nichtzur Kenntnis zu nehmen. Gegengründe sind jedenfalls dann zu berück-sichtigen, wenn sie für uns leicht zugänglich sind. Gerade in der Wissen-schaft gehört diese Offenheit gegenüber Einwänden zu den grundlegen-den Spielregeln, auch wenn dagegen de facto manchmal verstoßen wird.So wissen wir leider (Fröhlich 2003), dass selbst die Reviewer wissen-schaftlicher Zeitschriften viel eher die Artikel „durchlassen“, die ihrereigenen Meinung entsprechen, als solche, die davon abweichende Mei-nungen zeigen. Wirkliche Offenheit gegenüber anderen Ansichten siehtanders aus.

Auch im Falle von „Climategate“ (s.u.) gab es (in gehackten E-Mailsklar ausgesprochen) das Ziel, anderslautende Meinungen von vornher-ein zu unterdrücken. Das beweist jedoch nicht, dass die meist unge-schriebenen Regeln des wissenschaftlichen Arbeitens nicht gelten, son-dern besonders die dabei an den Tag gelegte Heimlichtuerei offenbartgeradezu, dass auch den Regelverletzern diese Regeln bekannt sind undsie keineswegs offen dagegen opponieren würden.

Insbesondere müssen wir uns darüber im Klaren sein, dass der Wis-sensbegriff immer eine Reihe von externen Bestandteilen aufweist. Dassind Bedingungen, die für Wissen erfüllt sein müssen, die den Wissendenaber selbst nicht kognitiv zugänglich sind und uns als Zuschreibern vonWissen oft genauso wenig bekannt sind. Wenn ich eine Aussage übermeine eigenen Wünsche formuliere, dann ist mir ihre Wahrheit viel-leicht noch direkt zugänglich, wenn ich sie aber z.B. über die Wünscheeines Anderen treffe, so ist das schon nicht mehr der Fall. Das heißt,wenn ich oder ein Dritter nun mir das entsprechende Wissen über dieWünsche des Anderen zuschreiben möchte, ist er dabei immer auf Ver-

Page 78: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 2: Erkenntnistheoretische Grundlagen 66

mutungen darüber angewiesen, ob die Bedingung (2) von (WW) auchtatsächlich erfüllt ist. Nur dann sprechen wir aber von Wissen. SolcheWissensbehauptungen sind also selbst immer nur Vermutungen oderman könnte stattdessen sagen, Wissen ist das Ziel der Wissenschaft, aberwir können uns nie ganz sicher sein, das Ziel erreicht zu haben, sondernhaben dafür nur bestimmte Indizien, denn damit tatsächlich Wissen vor-liegt, müssen jeweils bestimmte externalistische Bedingungen gegebensein.

Ähnliches lässt sich auch für die Bedingung (4) sagen und selbst für(5) gilt, dass sie zumindest z.T. noch externalistisch ist (vgl. dazu Bartel-borth 1996 Kap. III.A). Wir müssen also bei allen Wissenszuschreibun-gen einschränkend sagen, dass S vermutlich das Wissen hat, dass p, dennwir hätten Gründe für die Annahme, dass es keine relevanten Untermi-nierer gibt und S wohl alle seine epistemischen Pflichten erfüllt hat. Soll-te dann doch ein Unterminierer auftauchen, müssen wir eben zugeben,dass wir uns mit dieser Wissenszuschreibung geirrt haben. Von diesenProblemen der externalistischen Elemente in (WW) unabhängig bleibtaber Wissen das erklärte Ziel der Wissenschaft, und es ging mir hier vorallem darum, dieses Ziel zu präzisieren. Das können wir recht intuitivnoch einmal so beschreiben:

(Wissenschaftliches) unanfechtbares Wissenbesteht aus einer wahren begründeten Meinung, wobei(1) (Stabilität gegenüber Unterminierern) die Begründung so stabil ist,

dass sie durch relevante Wahrheiten nicht neutralisiert werdenkann und

(2) (Stabilität gegenüber Gegengründen) die Begründung so stark ist,dass sie nicht durch Kenntnis von Gegengründen aus dem Be-reich unserer epistemischen Pflichten neutralisiert werden kann.

Das zweite Ziel der Wissenschaft nach gehaltvollen Hypothesen wirdwieder nicht explizit in (WW) erwähnt. In (WW) geht es nur darum,dass die wissenschaftlichen Erkenntnisse gut abgesichert wurden, so dasssie relativ unanfechtbar sind. Wir sollten nun hinzufügen, dass wir vorallem nach wertvollem oder relevantem oder informativen Wissen stre-ben. Logisch gültige Aussagen sind sicher unanfechtbar, aber kaum das,was wir in den empirischen Wissenschaften anstreben. Aussagen wie:„Ein Pferd hat entweder vier Beine oder es hat eine andere Anzahl anBeinen“ ist bestechend unanfechtbar, aber ebenso sicher keine wissen-schaftliche Erkenntnis. Man muss noch nicht einmal ein Pferdeexpertesein, um eine derartige Aussage treffen zu können.

Page 79: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

67 Thomas Bartelborth: Induktives Schließen

Wir suchen hingegen nach informativen und empirisch gehaltvollenEinsichten. Das hat wiederum einen pragmatischen Aspekt, aber dane-ben einen objektiv informationstheoretischen. Unanfechtbarkeit könnenwir also leichter für relativ triviale Aussagen erzielen, die keine gewag-ten empirischen Behauptungen über unsere Welt aufstellen. Doch das istgerade nicht das Ziel der empirischen Wissenschaften. Sie streben nachtiefen Einsichten in das Funktionieren unserer Welt und unseres sozialenZusammenlebens. Es gehört regelrecht zum Wesen der Wissenschaft, vorallem gewagte Behauptungen aufzustellen und anschließend zu untersu-chen bzw. empirisch zu testen. Popper (1984) hat das immer wieder be-tont und stellt deshalb den Falsifizierbarkeitsgrad einer Theorie ganz inden Vordergrund. Seiner Meinung nach ist unter den nicht-falsifiziertenTheorien immer die gewagteste Hypothese mit dem höchsten Falsifizier-barkeitsgrad zu wählen. Einmal, weil wir nach möglichst gehaltvollenTheorien suchen, und zum anderen, weil wir für solche Theorien amschnellsten aufdecken können, wenn sie denn falsch sein sollten.

Für die Tiefe der Theorien denkt er schon an deren Erklärungskraft,die, wie ich schon ausgeführt habe, ganz im Zentrum des wissenschaftli-chen Erkenntnisstrebens steht. Das wird in der Erkenntnistheorie gernübersehen und man spricht etwa nur davon, wie wahrscheinlich eineTheorie ist (im Empirismus oder im Bayesianismus), ohne sich darüberklar zu werden, dass hohe Wahrscheinlichkeit allein ein recht langweili-ges Ziel darstellt, wenn wir es nicht mit der Forderung nach hohem Ge-halt kombinieren. Wir werden später sehen, wie gerade dieser Aspekt ineinigen Ansätzen zum induktiven Schließen ganz ausgeblendet wird,weshalb sie nicht besonders gut geeignet sind, die wissenschaftlicheTheorienwahl nachzuzeichnen.

Um die Besonderheiten wissenschaftlichen Wissens noch weiter zuklären, möchte ich im Weiteren auf einige Beispiele und einige typischeSpielregeln der Wissenschaften eingehen, da der Begriff wissenschaftli-chen Wissens einen Ausgangspunkt der weiteren Arbeit darstellt. Durchdie Festlegung, in welchem Kontext wir von Wissen sprechen möchten,gewinnt der Wissensbegriff zunächst selbst an Profil. Es wird immer wie-der (vermutlich zu Recht) gegen ihn eingewandt, dass er zu viele Facet-ten aufweist und wir in unterschiedlichen Kontexten u.a. unterschiedlichstrenge Anforderungen an das Wissen stellen und dieses deshalb kaumallgemein definierbar sei. Dem begegnen wir hier durch die Konzentra-tion auf den Kontext wissenschaftlichen Wissens, das schärfere Intuitio-nen dazu bereitstellt, was wir uns von einem solchem Wissen erwarten.

Page 80: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 2: Erkenntnistheoretische Grundlagen 68

Also werde ich weiter für eine Form von Unanfechtbarkeitskonzep-tion plädieren, wie sie in (WW) vorgeschlagen wurde. Wissenschaftli-ches Wissen sollte demnach vor allem gegen bestimmte Anfechtungenabgesichert sein. Die Gründe für unser Wissen sollten von ganz besonde-rer Qualität sein und vor allem einer kritischen wissenschaftlichen De-batte ein gutes Stück weit standhalten können. Typischerweise ist dabeizu beachten, dass wir bereits bei den Daten verschiedene Irrtumsrisikenauszuschließen haben. Idealerweise erheben wir unsere Daten in Experi-menten und dabei sind bestimmte Regeln des Experimentierens zu be-achten, deren Grundlage wir im Kapitel 7 im Rahmen des kausalenSchließens untersuchen werden. Aber selbst in anderen Fällen vonDatenerhebungen sind wir z.B. auf Vergleiche zweier Gruppen angewie-sen, die möglichst homogen zu sein haben, um den Effekt eines be-stimmten Unterschieds besser aufzeigen zu können. Speziell das noch zuschildernde Beispiel von Snows Entdeckung der Cholera bietet ein gutesVorbild für eine umsichtige Datenerhebung. Auf der Ebene der Theorienwird es vor allem darum gehen, möglichst alle plausiblen alternativenErklärungen zu unserer Hypothese zu finden und als eindeutig minder-wertig zurückweisen zu können. Das wird in diesem Kapitel besondersim Rahmen des abduktiven Schließens zu erläutern sein. Die Entde-ckung des Kindbettfiebers durch Semmelweiss kann schließlich aufzei-gen, wie kreativ man bei der Entwicklung von Alternativhypothesen seinsollte (s.u.).

2.3 Wissenschaft und PseudowissenschaftEine Aufgabe, die immer wieder an die Wissenschaftstheorie herangetra-gen wird, ist die, eine möglichst einfache und klare Demarkationsliniezwischen Wissenschaft und anderen Aktivitäten, etwa den sogenanntenPseudowissenschaften, festzulegen. Man wünscht sich (verständlicher-weise) ein einfaches Kriterium, das es einem gestattet, zügig bestimmteDinge wie die Astrologie, die Homöopathie, den Kreationismus u.a. alspseudowissenschaftlich zu erweisen, so dass man sie abhaken kann, ohnesich mit ihnen auseinandersetzen zu müssen. Es wäre natürlich schönund könnte uns eine Menge harter Arbeit ersparen, wenn unser Er-kenntnisstreben so einfach wäre, und wir über ein derartiges Hilfsmittelverfügten. Doch andererseits wäre es sehr überraschend, wenn wir eineinfaches Kriterium hätten, dass den möglichen Erfolg oder Misserfolgbestimmter Theorien schon früh und in letztlich hellseherischer Weisevorhersagen könnte, denn viele (wissenschaftliche) Theorien wurdenzwischenzeitlich als unwissenschaftlich gebrandmarkt und dann auch

Page 81: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

69 Thomas Bartelborth: Induktives Schließen

wieder ernsthafter betrachtet. So wurde in neuerer Zeit die kalte Fusionzunächst ernsthaft untersucht, dann als recht abwegig begraben und inNature für tot erklärt und inzwischen wird sie wieder etwas ernster ge-nommen. Vermutlich wird sie sich als Fehlentwicklung herausstellen,aber wir haben keine einfachen Entscheidungshilfen, die den Erfolgeiner solchen Theorie vor allem Experimentieren und anderem Räsonie-ren vorhersagen können. Wir müssen uns wohl damit abfinden, kein ein-faches Kriterium ausmachen zu können, das uns schon zu Beginn einerDebatte sicher erkennen lässt, was aus einer Theorie einmal werdenwird und welche Hypothese sich wohl nie zu einer sinnvollen wissen-schaftlichen Theorie entwickeln wird. Das gilt zumindest für die etwasspannenderen Fälle.

Natürlich wird niemand die Theorien über den Klabautermann alsernsthafte wissenschaftliche Theorien untersuchen, aber schon im Falleder Homöopathie oder Astrologie muss man sich wenigstens die Zeitnehmen, inhaltlich darauf einzugehen, was gegen ihre Annahmenspricht. Die Astrologie behauptet etwa, dass ein Einfluss der Stellung derGestirne bei der Geburt eines Menschen auf seinen Charakter vorliegt,den sie auszunutzen hofft und der zu korrekten Vorhersagen führen soll.Hier wird man nachfragen, wie dieser Einfluss vonstattengehen soll,welches also die Mechanismen sind, durch den die Gestirne diesen Ein-fluss haben. Weiterhin kann man die Vorhersagen empirisch überprüfenund zusätzlich alternative Erklärungen für den Charakter eines Men-schen geben – etwa über seine genetische Ausstattung und Umweltein-flüsse auf seinem Lebensweg. Das ist in Einzelfällen auch alles schon ge-schehen und belegt, dass die Astrologie schlecht abschneidet (vgl. Tha-gard 1978, Ivo Ponocny, Elisabeth Ponocny-Seliger 2009). Natürlich hatsie viele Tricks zur Verfügung, um sich vor einfachen Falsifikationen zuschützen, wie übrigens in ähnlicher Weise echte wissenschaftliche Theo-rien, aber damit wird sie in der Regel zugleich langweilig und das kön-nen wir ebenso aufdecken. Sie kann etwa in ihren Vorhersagen wie denHoroskopen so vage bleiben, dass genau genommen nichts Konkretesmehr daraus folgt, oder sich in Horoskopen zu so tollen Tipps verstei-gen wie: „Sie sollten sich heute nicht überanstrengen.“ Na klar, wannsollte man das schon.

Dass es nach einer solchen negativ verlaufenen Debatte immer nochAnhänger der Astrologie geben wird, ist klar, aber ein Kriterium für Wis-senschaftlichkeit könnte das auch nicht verhindern. Die Astrologenkönnten kontern: „Natürlich ist das ein schönes Kriterium (wenn sie esdenn überhaupt anerkennen würden), aber die wirklich tiefen Einsichten

Page 82: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 2: Erkenntnistheoretische Grundlagen 70

werden dann eben außerhalb der Wissenschaft gewonnen. Für vielepraktische Fragen wird man sich gerade den Erkenntnissen der Astrolo-gie zuwenden müssen.“ Es bleibt also leider nur der ständige Kleinkrieggegen die Unvernunft und kein Kriterium könnte so überzeugend sein,dass der mit einem Mal beendet würde. Außerdem ist es vielleicht sogarnoch nicht einmal verkehrt, dass man über bestimmte (einfache) Zusam-menhänge noch einmal nachdenkt, um sich darüber klar zu werden, wastatsächlich gegen die Homöopathie oder die Astrologie spricht und wasdie Wissenschaften demgegenüber anzubieten haben. Das ist nicht im-mer leicht zu beantworten, doch die Wissenschaft sollte sich solchen ex-ternen Herausforderungen stellen, um die eigenen Qualitätsbehauptun-gen zu überprüfen.

Allerdings müssen wir dazu unser Bild von der Wissenschaft etwaszurechtrücken. Erstens ist sie kein ganz so homogenes Unternehmen undzweites gibt es keine scharfe Trennungslinie zwischen wissenschaftlichemund Alltagswissen oder auch pseudowissenschaftlichen Hypothesen. Wirhaben es eher mit einem kontinuierlichen Übergang zwischen gut be-gründeten Aussagen und weniger gut begründeten Aussagen zu tun, bishin zu Aussagen, für die wir mehr Gegengründe als Gründe haben.Selbst in den Methoden finden wir keine so scharfen Abgrenzungen.Wissenschaftstheoretiker denken dazu, dass auch Wissenschaftler Men-schen sind (s.o.). Das soll heißen, dass sie als Wissenschaftler ihre Er-kenntnisse nicht gleich auf völlig andere Art und Weise begründen wieder „normale“ Mensch. Die Verfahren sind im Kern dieselben und wer-den nur präzisiert etwa mit Hilfe statistischer Methoden. Allerdingskönnen sich die wissenschaftlichen Modelle der Welt mit Hilfe der Ma-thematik ein gutes Stück von anschaulichen Alltagsmodellen entfernen.Trotzdem gibt es hier auch innerhalb der empirischen Wissenschaftenein Kontinuum von Methoden von der Physik über die Medizin, Ökono-mie, Soziologie bis hin zu den Geschichtswissenschaften, die z.B. weitweniger mathematisierte Methoden einsetzen, wo wir aber nichtsdesto-weniger zwischen besser und schlechter begründeten Hypothesen unter-scheiden können.

Was können wir also tun? Das Beste, was uns zu tun übrig bleibt, istnun, Indikatoren für wissenschaftliches Arbeiten anzugeben bzw. be-stimmte Spielregeln der Wissenschaft explizit zu machen, um zumindestHinweise zu finden, wann wir auf eine mehr oder weniger wissenschaft-liche Tätigkeit stoßen. Startpunkt sind die beiden Ziele, die wir schonfür die Wissenschaften ausgemacht haben, nämlich das Streben nachWissen also insbesondere Wahrheit, aber auch das Streben nach informa-

Page 83: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

71 Thomas Bartelborth: Induktives Schließen

tiven und insbesondere erklärungsstarken Theorien, dem sich etwa Astro-logen mit vagen Aussagen zu entziehen suchen.

Unsere Debatte zum Wissensbegriff hat deutlich gemacht, dass wirauch nach möglichst unanfechtbaren Begründungen für unsere Theoriensuchen, um das erste Ziel der Wissenschaften zu erreichen. Zugleichmüssen wir uns für empirische Theorien immer wieder fragen, welchenGehalt sie tatsächlich aufweisen, wann sie also echte Erklärungen liefernund wann vielleicht nur Pseudoerklärungen. Was echte Erklärungen aus-zeichnet, wird später noch erläutert. Ausführlicher findet sich das inBartelborth (2007). Zunächst mag aber unser intuitives Verständnis da-für ausreichen, das Ziel zu verstehen. Es war vor allem Popper (1984),der immer darauf hingewiesen hat, dass die Falisfizierbarkeit einerTheorie das wichtigste Kriterium für ihre Wissenschaftlichkeit sei. Je hö-her der Falsifizierbarkeitsgrad bzw. je höher der empirische Gehalt unddie Vorhersagekraft einer Theorie umso besser für sie. Damit bildete ereinen wichtigen Gegenpol zu den logischen Empiristen, die praktischnur auf die Begründung der Theorien abzielten und zeitweise sogar hoff-ten, die wissenschaftliche Methodologie auf eine induktive Logik zu re-duzieren, die den Grad der Begründung („confirmation“) c(H,E) einerHypothese H durch die Daten E (für „evidence“) durch bestimmte logi-sche Wahrscheinlichkeiten angibt. Auf die Probleme dieses Verfahrenswerde ich im 5. Kapitel zu sprechen kommen, aber zunächst einmal istklar, dass der Aspekt des Gehalts einer Theorie damit verlorengeht. Jehöher der Gehalt einer Theorie, umso unwahrscheinlicher ist sie imNormalfall, insbesondere gilt: Wenn H aus der stärkeren Theorie H’ lo-gisch folgt (H’H), so ist P(H’)≤P(H). In gewisser Weise ergeben sichdie weiteren Spielregeln aus diesen beiden oberen Zielen, wobei hier oftdas erste Ziel im Vordergrund der Überlegungen stehen wird.

Schurz (2006, 26 ff.) spricht von minimalen erkenntnistheoretischenAnnahmen, die allen empirischen Wissenschaftsdisziplinen gemeinsamseien, und nennt als Erstes die Forderung des minimalen Realismus. Da-nach gehen wir davon aus, dass eine Realität existiert, die von den An-nahmen des Erkenntnissubjekts unabhängige Eigenschaften aufweist, diees zu erforschen gilt. Das schließt für diese Eigenschaften auch einenkorrespondenztheoretischen Wahrheitsbegriff mit ein. Diese Annahmeist erforderlich, da wir sonst nicht wirklich von Erklärungen sprechenkönnen. Möchte ich z.B. das Verhalten eines Menschen erklären und be-schreibe es so: „Er hat sich verhalten, als ob er von einem Dämon be-herrscht worden wäre“, dann hat das keine Erklärungskraft. Jedenfallsdann nicht, wenn ich davon ausgehe, dass es diesen Dämon nicht wirk-

Page 84: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 2: Erkenntnistheoretische Grundlagen 72

lich gab. Mit solchen „Klabautermann-Erklärungen“ können wir etwaunser Erstaunen zum Ausdruck bringen, und sagen, dass dieses Verhaltenfür den Betreffenden nicht typisch ist und Ähnliches mehr, aber warumer sich so seltsam verhalten hat, wird für uns nicht aufgeklärt (vgl. Kap.4.7). Das deutet schon das „als-ob“ in unserem Satz an. Nehmen wirentscheidende Bestandteile unserer Erklärung nicht ontologisch ernst,sondern betrachten sie nur als fiktive Größen, die uns eine erste Be-schreibung erlauben, so liegt noch keine Erklärung vor. Für eine Erklä-rung muss ich auf tatsächliche gesetzesartige Zusammenhänge in derWelt verweisen, die sich etwa aus den Eigenschaften bestimmter Disposi-tionen ergeben, während die „Als-ob“-Antwort die Frage offen lässt, wasdie wirklichen Ursachen und Motive seines Verhaltens waren. Auf einengewissen Realismus sind Wissenschaftler daher festgelegt, wollen sie ihrzweites Ziel überhaupt einlösen können. Ein Astrologe müsste also dar-auf bestehen, dass es einen kausalen Einfluss der Gestirne auf unsere ge-netische Ausstattung bei unserer Geburt tatsächlich gibt.

Leider wird selbst diese naheliegende Annahme oder Spielregel fürdie Wissenschaft inzwischen von einigen Wissenschaftlern bestritten. Diesogenannten sozialen Konstruktivisten bestreiten z.T. die Existenz einervon uns unabhängigen Welt und halten stattdessen alles für sozial kons-truiert. Hier ist allerdings nicht der Ort, um das weiter zu diskutieren.Es zeigt aber zumindest, dass die Forderung des minimalen Realismusnicht völlig trivial ist.

Die Erklärungsstärke wissenschaftlicher Theorien war auch ein we-sentlicher Punkt in dem Gerichtsverfahren, das 1983 in Arkansas um dieFrage geführt wurde, ob der Kreationismus eine Wissenschaft sei, diedann gleichberechtigt neben der biologischen Evolutionslehre an derSchule zu unterrichten sei (vgl. Bird 2002, 3 ff.). In den USA gab es inden 90er Jahren in einigen Staaten weitere Gesetze, die das vorsahen,und eine Mehrheit der Bevölkerung spricht sich ebenfalls dafür aus. DerRichter von 1983 William R. Overtone sah das anders und stützte sichin seiner Urteilsbegründung auf die folgenden Grundsätze, die eineTheorie erfüllen müsse (wobei er sich auf die Wissenschaftstheorie beru-fen konnte), um als wissenschaftlich gelten zu können:

Grundsätze für Wissenschaftlichkeit bei Gericht 1983a) It is guided by natural law.b) It has to be explanatory by reference to natural law.c) It is testable against the empirical world.d) Its conclusions are tentative, i.e. are not necessarily the final

Page 85: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

73 Thomas Bartelborth: Induktives Schließen

word.e) It is falsifiable.

Die Bedingungen (a) und (b) zielen auf die Erklärungskraft der wissen-schaftlichen Theorien ab. In (c) und (e) geht es darum, dass wissen-schaftliche Theorien einen empirischen Gehalt haben müssen und in (d)wird gefordert, dass sie undogmatisch vertreten werden. In diesem Rah-men liegen immer wieder die Anforderungen an Wissenschaftlichkeit,die nur von verschiedenen Autoren etwas unterschiedlich formuliertwerden. Wir können das in drei größere Komplexe einordnen:

Indikatoren für Wissenschaftlichkeit1. Gute Begründungen: Es sind spezielle (u.a. intersubjektiv über-

prüfbare) Methoden bei der Erstellung und Begründung wissen-schaftlicher Theorien einzusetzen.

2. Gehaltvolle empirische Theorien: Wissenschaftliche Theorienmüssen eine bestimmte Leistungsfähigkeit und Erklärungskraftaufweisen, indem sie nomische Muster in unserer Welt aufdecken.

3. Verhalten der Wissenschaftler: Wissenschaftler müssen eine un-dogmatische Einstellung gegenüber ihren Theorien (z.B. Verhal-ten gegenüber Einwänden) einnehmen.

Für diese drei Bereiche können die Indikatoren nun jeweils weiter spezi-fiziert werden. Den ersten Aspekt werden wir in diesem Buch weiterverfolgen, aber wir können schon bestimmte allgemeine Anforderungenan die Begründungen formulieren. Zum Spiel Wissenschaft gehört es da-zu, dass die Begründungen so gestaltet sind, dass sie im Prinzip von an-deren überprüft und bewertet werden können. Wenn also etwa jemandpersönliche Erleuchtungserlebnisse hat, in denen ihm Gott erschienen istund ihm besondere Einsichten E vermittelt hat, so mag das für ihn viel-leicht einen besonders guten Grund bieten, an E zu glauben, wissen-schaftlich ist das aber nur dann eine zulässige Begründung, wenn dieseEinsichten auch intersubjektiv zugänglich sind. Wenn sie also von ande-ren auf eine bestimmte Weise reproduziert werden könnten. Ist das nichtder Fall, zählen sie nicht im Spiel Wissenschaft, selbst wenn sie uns per-sönlich als gute Informationsquellen erscheinen.

Sind sie reproduzierbar, bleibt allerdings immer noch die Frage, wel-ches Gewicht ihnen dann zukäme, und das ist von weiteren Faktoren ab-hängig. Die Begründungsverfahren müssen selbst einer kritischen Bewer-tung unterzogen und begründet werden, z.B. durch bestimmte erkennt-nistheoretische Überlegungen und durch ihre Erfolgsquote in anderenAnwendungsfällen. So werden wir auch statistische Verfahren auf ihre

Page 86: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 2: Erkenntnistheoretische Grundlagen 74

erkenntnistheoretische Plausibilität und im Hinblick auf die Frage über-prüfen müssen, ob ihre Ergebnisse in anderen Anwendungen sich tat-sächlich als intuitiv brauchbar erweisen. Die Begründungsverfahren müs-sen also selbst intersubjektiv zugänglich begründet werden. Wir müssenGründe dafür haben, dass sie die Ziele der Wissenschaft (also z.B. Wis-sen zu generieren) tatsächlich befördern und schließlich hin zu unan-fechtbarem Wissen führen. Die im Folgenden rekonstruierten Überle-gungen stellen einen Teil der langen und oft heftig geführten Debattedarüber dar, welches denn die richtigen Begründungsverfahren sind. DieUneinigkeit belegt schon, dass hier weiterer Diskussions- und Begrün-dungsbedarf besteht.

Eine gewisse Einigkeit besteht in vielen Kreisen von Praktikern, dassetwa Signifikanztests das geeignete Mittel der Auswahl von Theoriensind. Doch unter den Methodologen, die sich mit diesem Verfahrenselbst auseinandersetzen, besteht ebensolche Einigkeit, dass das Verfah-ren nicht das leisten kann, was man sich oft von ihm verspricht. Daraufwerden wir in Kapitel 6 genauer eingehen. Jedenfalls kann selbst Einig-keit eine Begründung nicht ersetzen. Wir müssen uns immer fragen, wasdie Verfahren genau beweisen und wo ihre Grenzen sind. Leider wird esnicht ein perfektes Induktionsverfahren für alle Anwendungsbereiche ge-ben, aber zumindest eine Rahmentheorie, nämlich den Schluss auf diebeste Erklärung, in den wir die anderen Verfahren einbetten und mit de-ren Hilfe wir sie bewerten können.

Den zweiten Aspekt haben wir schon ein Stück weit beschrieben. Esgeht u.a. um die Erklärungskraft und Vorhersagekapazität unserer Theo-rien. Im größeren Rahmen ist aber auch die Frage wesentlich, wann eineDisziplin genuine Fortschritte macht, und das ist nicht so leicht zu expli-zieren. Es gibt dazu verschiedene Vorschläge, wie den, den schon Popperfavorisierte, dass wir uns der Wahrheit nähern sollten. Doch zunächst istes schon nicht ganz leicht, dieser recht intuitiven Vorstellung eine präzi-se Form zu geben. Poppers eigener Vorschlag, sich jeweils an den Inklu-sionsbeziehungen der Mengen der wahren und der falschen Aussagender Theorien zu orientieren, war leider unbrauchbar (vgl. Oddie 2008).Das nächste Problem dabei ist, dass wir mit diesem Fortschrittskriteriumkeine brauchbaren für uns zugänglichen Indikatoren finden, ob tatsäch-lich ein Fortschritt vorliegt.

Da ist es um die Vorhersagekraft von Theorien in puncto Zugänglich-keit schon besser bestellt. Für die können wir empirische Belege sam-meln. Eine andere Idee sieht den Fortschritt in einer zunehmenden Ver-einheitlichung bzw. Systematisierung oder der Kohärenz unseres Wis-

Page 87: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

75 Thomas Bartelborth: Induktives Schließen

sens. Auch die scheint aber vor allem für die Erklärungskraft von Bedeu-tung zu sein. Dazu gehört u.a. (und das betrifft ebenso den ersten As-pekt), dass es wenige Anomalien in unserem Paradigma geben sollte.

Außerdem sollten wir eine gewisse dynamische Stabilität in unseremWissen verzeichnen können. Würden wir kurzfristig immer wieder zwi-schen konkurrierenden Theorien hin und her schwanken (also z.B. zwi-schen einer Wellentheorie des Lichts und einer Partikeltheorie), weil dieDaten mal für die eine und mal für die andere Theorie sprechen, sokönnten wir kaum behaupten, entscheidende Fortschritte gemacht zuhaben.

Der dritte Aspekt der Wissenschaftlichkeit betrifft noch einen ganzanderen eher sozialen Bereich des Unternehmens Wissenschaft. Es gehtnicht so sehr um die Theorien selbst, ihre Leistungsfähigkeit und unsereBegründungen dafür, sondern es geht uns um das Verhalten der Wissen-schaftler. Welchen epistemischen Status geben sie ihren Theorien undwie verfahren sie mit ihren Theorien? Hier geht es insbesondere um dieFrage, ob wir unsere Theorien auf dogmatische Weise verteidigen. JederWissenschaftler ist ein Stück weit immer der Anwalt seiner eigenenTheorien und versucht sie im besten Licht erscheinen zu lassen. Schließ-lich möchte er dafür die Anerkennung seiner Kollegen und Forschungs-gelder bestimmter Institutionen erhalten. Aber das darf eine bestimmteGrenze nicht überschreiten. Er darf weder Daten fälschen noch sie weg-lassen, wenn sie nicht zu seiner Theorie passen, und ebenfalls nicht dog-matisch auf Einwände reagieren, d.h., diese schlicht nicht mehr zurKenntnis nehmen und völlig unbeirrt an der eigenen Theorie festhalten,ganz gleich, wie gut die Einwände sein mögen. Das betrifft ebenso dieMethoden selbst, die er reflektiert und undogmatisch anzuwenden hat.So gehören zur Wissenschaft Kriterien für die Methoden und die daraufaufbauende Qualität ihrer Produkte, aber ebenfalls Verhaltensnormenfür die Wissenschaftler. Sie müssen ihre Ergebnisse veröffentlichen unddamit einer öffentlichen Debatte aussetzen. Das findet wiederum Ein-gang in die üblichen Systeme der Begutachtung und der wissenschaftli-chen Debatte.

Allerdings können solche Systeme nachgebildet werden. So gibt esauch für den Kreationismus wissenschaftliche(?) Zeitschriften mit einerBegutachtung durch Reviewer. In den Zeitschriften werden dann z.B.Antworten zu der Frage diskutiert, wann Gott die Insekten oder die Vi-ren geschaffen habe, insofern sie durch die Bibel noch nicht explizit be-antwortet werden.

Page 88: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 2: Erkenntnistheoretische Grundlagen 76

Außerdem sollte man sich von den Begutachtungsverfahren auchnicht zu viel versprechen. Die empirischen Forschungen zum Begutach-tungswesen kommen zu vielen ernüchternden Einsichten. Arbeiten, dievor drei Jahren noch akzeptiert wurden, werden heute von denselbenZeitschriften abgelehnt; Reviewer akzeptieren vor allem die Artikel, dieihrer eigenen Meinung entsprechen u.v.m. (vgl. Fröhlich 2003). So wer-den schwere Fehler in Artikeln eher durch die Leser als durch die Gut-achter entdeckt, die ihrerseits verständlicherweise meist Besseres zu tunhaben, als ihre ganze Aufmerksamkeit den möglichen Artikeln andererLeute zu widmen.

Damit haben wir zwar keine scharfen Abgrenzungskriterien für dieWissenschaft gegenüber den Pseudowissenschaften erhalten, aber zumin-dest noch eine Reihe von Indikatoren für Wissenschaftlichkeit. Je mehrvon ihnen erfüllt sind und umso besser sie erfüllt werden, umso eher ha-ben wir es mit einer Wissenschaft zu tun. Letztlich haben wir es miteiner Abstufung von schlecht begründeten und uniformativen Behaup-tungen bis hin zu gut begründeten Naturgesetzen zu tun, und was davonals wissenschaftlich anzuerkennen ist, hängt auch von den Standardsund Möglichkeiten in einzelnen Wissenschaftsdisziplinen ab. DerWunsch nach einem „hellseherischen“ Kriterium, das gleich zu Beginnder Untersuchung einer Behauptung bereits angibt, ob sich daraus ein-mal eine gut begründete Behauptung ergeben kann oder eben nicht,kann natürlich nicht erfüllt werden.

Ein anderer Ansatz kommt von der Gegenseite her und versucht, spe-zielle Merkmale der Pseudowissenschaften für eine Abgrenzung anzuge-ben. Natürlich sind da zunächst einfach die Negationen der obigen Kri-terien zu nennen, wir können das aber vielleicht zusätzlich durch genau-ere Spezifika pseudowissenschaftlichen Vorgehens beschreiben wie dieÜberbetonung von Analogien und weiteren Assoziationen. Jedenfallsschreibt etwa Paul Thagard (1978, 227f.):

„We can now propose the following principle of demarcation: Atheory or discipline which purports to be scientific is pseudoscientificif and only if: it has been less progressive than alternative theoriesover a long period of time, and faces many unsolved problems; butthe community of practitioners makes little attempt to develop thetheory towards solutions of the problems, shows no concern for at-tempts to evaluate the theory in relation to others, and is selective inconsidering confirmations and non confirmations.“

Page 89: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

77 Thomas Bartelborth: Induktives Schließen

Man erkennt hier vor allem die Verletzungen der obigen positiven Re-geln wieder, die Paul Thagard im Bereich der Astrologie vermutet.

Es ist gut ersichtlich, wie die Spielregeln den genannten Zielen derWissenschaft dienen. Für die Indikatoren der Bereiche (1) und (2) ist dasoffensichtlich, aber auch der Verhaltenskodex für Wissenschaftler sollletztlich diesen Zielen dienen. Doch wie effizient werden diese Regelntatsächlich eingehalten? Das ist ein Thema für empirische Studien zudiesem Thema. In Zankl (2003) werden jedenfalls etliche Beispiele vor-gestellt, in denen die Wissenschaftler ganz bewusst gegen die Regeln ver-stoßen haben.

2.4 Fälschungen als UnterminiererDie in der Regel ungeschriebenen Gesetze der Wissenschaft oder Spielre-geln, wie ich sie nenne, werden in der Praxis natürlich nicht immer ein-gehalten; genauso wenig wie die sozialen Spielregeln für den Umgangder Menschen untereinander. Das bedeutet jedoch nicht, dass sie nichtwirklich gelten oder anerkannt werden, sondern oft wissen die Regelver-letzer sehr genau, dass sie unseriös agieren. Das erkennt man u.a. daran,dass sie versuchen, ihre Regelverstöße zu kaschieren oder sogar miteinem gewissen Aufwand ganz geheim zu halten.

Einen großen Bereich von Problemen für Wissensansprüche findenwir jedenfalls in den Fälschungen in der Wissenschaft. Die sind in dertatsächlichen Wissenschaft weiterverbreitet, als wir es uns normalerwei-se eingestehen wollen (vgl. Zankl 2003 dazu). Dabei treten fast immerUnterminierer der bisherigen Begründungen auf. Betrachten wir daskurz an einem fiktiven Fall: Nehmen wir an, Prof. Sorgfalt möchte dieTheorie H überprüfen, dass Grüntee bei Sportlern die Abwehrkräftestärkt, wenn er wenigstens über ein Jahr lang regelmäßig getrunkenwird. Bei der Durchführung der Untersuchungen wird er unterstütztdurch seinen Assistenten Dr. Sorglos. Außerdem sei es tatsächlich so,dass die Theorie H stimmt. Was kann nun alles schiefgehen, so dassProf. Sorgfalt nicht zu H-Wissen gelangt? („H-Wissen“ sei hier die Kurz-form, für den Ausdruck: „Wissen, dass H“ bzw. „Wissen, dass H der Fallist.“)

Nehmen wir an Dr. Sorglos möchte gerne in einem möglichst erfolg-reichen Projekt teilnehmen und dem Professor ebenso gerne zugleicheinen Gefallen tun. Der ist schließlich ungenießbar, wenn seine Studiennicht so laufen, wie er sich das wünscht. Also fälscht Sorglos bestimmteResultate, indem er etwa die Angaben über die Anzahl der T-Zellen imBlut der Sportler im Sinne der Hypothese H „schönt“. Da er fest von H

Page 90: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 2: Erkenntnistheoretische Grundlagen 78

überzeugt ist, scheint ihm das auch eine lässliche Sünde zu sein, verhilftsie doch nur dem gesunden Grüntee zum Durchbruch. Die Studie ent-hält eine Versuchsgruppe E der Grüntee-Trinker und eine Kontrollgrup-pe K der Grüntee-Abstinenzler (die einen Placebo-Grüntee erhalten?).Leider lassen sich nach einem Jahr keine signifikanten Unterschiede inden Blutwerten der beiden Gruppen festmachen. Um die positiven Wir-kungen des Grüntees doch besser sichtbar zu machen, „korrigiert“ Dr.Sorglos die Werte der Blutproben aus E etwas nach oben, so dass sichdas gewünschte Resultat einstellt.

Nehmen wir an, Prof. Sorgfalt kommt nicht auf die Idee, dass so et-was passiert sein könnte – er hält jedenfalls bisher Dr. Sorglos für abso-lut vertrauenswürdig – und glaubt aufgrund dieser Resultate nun fest anH. Dazu hat er sicher gute Gründe, sagen doch die Auswertungen derumfangreichen Studie seiner Meinung nach, dass der Abwehrstatus derGrüntee-Trinker deutlich besser ist, als der aus der Kontrollgruppe. Undnehmen wir außerdem an, H sei wahr. Trotzdem können wir Prof. Sorg-falt kein Wissen zubilligen, denn die Fälschungen seines Assistentenunterminieren die Gründe des Professors, selbst wenn er sie nicht kennt.Die Aussage über die Fälschungen von Dr. Sorglos bieten zusammen mitden Ergebnissen der Studie keine Begründung mehr für die Annahme Hund gerade intuitiv scheint der Fall ganz einfach zu sein: Wir könnenProf. Sorgfalt kein H-Wissen zubilligen. Jedenfalls, wenn er keine ande-ren überzeugenden Gründe für H hat, als die, die ihm sein Assistent ge-liefert hat, wovon wir hier einmal ausgehen. Sollten sich also Fehler inder Datenerhebung finden lassen, unterminieren sie unsere Wissensan-sprüche selbst dann, wenn wir guten Glaubens auf die Daten vertrauenund unsere Überzeugungen wahr sind.

Was kann sonst noch zu einer Unterminierung führen? In der wissen-schaftlichen Praxis sind viele mögliche Unterminierer bekannt und ihreKenntnis und Vermeidung gehört zur wissenschaftlichen Methodologie,über die es ganze Bücher gibt (z.B. Bortz & Döring 2006). In unseremBeispiel lassen sich eine ganze Menge typischer Unterminierer aufzeigen.Einige Beispiele für solche Unterminierer für verschiedene Ergebnissedes Experiments sind etwa die folgenden: Die Teilnehmer einer Studiekönnten eine mangelnde „compliance“ an den Tag gelegt haben. Viel-leicht sind die Ergebnisse der Grünteetrinker nur deshalb noch genausoschlecht wie die der Nichttrinker, weil die Teetrinker zwar weiterhin be-hauptet haben, sie hätten sich immer an die Vorgaben gehalten (5 TassenTee pro Tag), aber sie hatten dann doch bald keine Lust mehr dazu undhaben das Teetrinken deutlich reduziert. Oder: Bei der Auswahl der

Page 91: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

79 Thomas Bartelborth: Induktives Schließen

Gruppe E haben sich insbesondere die Versuchspersonen gemeldet undsind nach vorne gedrängt, die schon gesundheitlich angeschlagen warenund daher von vornherein das schwächere Immunsystem aufwiesen.Diese Personen waren daher auch besonders daran interessiert, inner-halb der Versuchsgruppe an dem Experiment teilzunehmen.

Gegen das letzte Problem versuchen die Versuchsleiter in der Regeldie Randomisierung einzusetzen, wonach die Versuchspersonen per Zu-fallsauswahl den beiden Gruppen zugeteilt werden. Aber selbst die Be-sprechungen mit den Versuchsteilnehmern können Auswirkungen auf dieErgebnisse haben, sowie die begleitenden Kontakte mit den Teilnehmernim Sinne des Rosenthal-Effekts sowie des Placebo-Effekts. Beim Rosen-thal-Effekt hat die eventuell etwas andere (aber möglicherweise unbe-wusst andere) Behandlung der Personen aus Gruppe E und K eine Aus-wirkung auf das Ergebnis, während der Placebo-Effekt auf der Kenntnisder Teilnehmer beruht, ob sie zu Gruppe E oder K gehören. Beide Effek-te sind empirisch sehr gut belegt und keinesfalls vernachlässigbar. Demversucht man meist durch eine doppelte Verblindung (der durchführen-den Personen sowie der Versuchsteilnehmer) zu begegnen, aber schon indiesem einfachen Beispiel zeigt sich, dass das nicht gelingen dürfte. DiePersonen in K müssten einen glaubwürdigen Placebo-Tee erhalten, dochder dürfte sich im Normalfall schon durch den Geschmack und das Aus-sehen von echtem Grüntee unterscheiden. Es gibt viele mögliche Belas-tungen der Daten, die hier denkbar sind, und die typischerweise Unter-minierer darstellen.

Was sind mögliche Gegengründe gegen H? Andere Experimente zuden Wirkungen des Grüntees könnten zu anderen Ergebnissen gekom-men sein. Es ließ sich vielleicht in diesen anderen Experimenten keineWirkung feststellen. Wie können wir das miteinander verrechnen? Da inder Praxis hier oft Signifikanztests durchgeführt werden, gibt es keineinfaches Verrechnungsverfahren. Man spricht dann meist von einerMetaanalyse, aber die ist keineswegs ein klares Verfahren. Um dieGegengründe zunächst abzuschwächen, könnten wir z.B. auf entspre-chende Unterminierer der anderen Experimente hinweisen, sollten dienicht sauber durchgeführt worden sein. Doch wie stark das wiederum zuBuche schlägt, ist auch nicht klar. Besser stehen hier vor allem die Baye-sianer da (aber auch die Likelihoodisten), die zumindest im Prinzip einesolche Verrechnung durchführen können. Unsere Wissenskonzeptionhilft uns an dieser Stelle zumindest, die aufgestellten Spielregeln als sinn-voll zu erkennen und die typischen Regelverstöße einzuordnen.

Page 92: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 2: Erkenntnistheoretische Grundlagen 80

Letztlich suchen wir nach Theorien, die gut begründet sind, zu derenBegründungen es keine relevanten Unterminierer und zu denen es keinestarken Gegengründe gibt. Außerdem werden wir sehen, dass noch einspeziell komparatives Element hinzukommt: Es muss uns gelingen, allewichtigen Alternativhypothesen zu eliminieren, denn die stellen wieder-um wichtige Unterminierer in der wissenschaftlichen Praxis dar. Erklärtnämlich eine Hypothese H unsere Daten E in zufriedenstellender Weise,aber ebenso die Hypothese H’, die mit H inkompatibel ist, so wird dieStützung von H durch E durch das Vorliegen einer Konkurrenzerklärungdeutlich geschwächt. Das zeigt das Schema des Schlusses auf die besteErklärung, das wir in Kapitel 4 diskutieren werden. Das Problem istebenfalls unter dem Stichwort der Unterbestimmtheit der Theorien (ge-geben unsere Daten) bekannt und wurde insbesondere von ThomasKuhn (1976) in seinen wissenschaftshistorischen Fallstudien immer her-vorgehoben, um zu zeigen, dass unsere Theorien keineswegs immer sogut begründet sind, wie wir uns das denken.

2.5 Probleme der DatengewinnungEin Bereich, den wir etwas stiefmütterlich behandeln, ist der der Daten-erhebung und ihrer Resultate selbst. Hier ist aber zunächst zwischen Be-obachtungsaussagen bzw. echten Rohdaten, wie ich sie nennen möchte,und den (interpretierten) Daten zu unterscheiden, die wir dann mitunseren Theorien konfrontieren können. Um von den Rohdaten zu denrelevanten Daten zu gelangen, sind meist schon erste induktive Schlüsseoder Interpretationen erforderlich, die also bereits in das Thema des in-duktiven Schlussfolgerns fallen. Möchte ich etwa elektromagnetischeTheorien überprüfen, werde ich diese normalerweise nicht direkt mitbestimmten Beobachtungen wie etwa einer Zeigerstellung auf einemMessgerät vergleichen, sondern werde erst diese Zeigerstellung auf derDrei deuten als: Es fließen 3 Milliampere in diesem Stromkreis. Oder:Möchte ich die Hypothese testen, dass eine (vermeintlich) ungerechteBehandlung zu großem Ärger bei den Betroffenen führt, werde ich u.a.ein bestimmtes Verhalten von Probanden als Ausdruck des Ärgers deutenmüssen, etwa dass sie energisch und lautstark protestieren o.ä. Dabeikönnen wir es wieder mit Unterminierern zu tun haben, wie etwa unge-eichten Messgeräten etc. Wir befinden uns damit bereits mitten im Be-reich induktiven Schlussfolgerns.

Wir können einige der genannten und neue Probleme ebenfalls ankonkreten Beispielen aus der Wissenschaft erläutern. Das bringt unsschließlich zu einigen Spielregeln für die Wissenschaft, die helfen sollen,

Page 93: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

81 Thomas Bartelborth: Induktives Schließen

diese Fehler zu vermeiden und so im Hintergrund des wissenschaftlichenWissensbegriffs stehen. Oft haben wir bereits auf der Ebene der Daten-erhebung schon mit erheblichen erkenntnistheoretischen Schwierigkei-ten zu kämpfen, die sich im Einzelfall schon mal als Unterminierer her-ausstellen. Ein einfaches Beispiel finden wir in ungeeichten Messgeräten,aber ich denke hier mehr an wirklich problematische Fälle der Daten-erhebung. Ein Beispiel ist besonders durch seine politische Brisanz sowieein bestimmtes Fehlverhalten der beteiligten Akteure, das bekannt wur-de, in letzter Zeit in den Blickpunkt der Öffentlichkeit gerückt.

Gerade der aktuelle Fall von „Climategate“ ist ein schönes Beispieldafür, wie hoch die Anforderungen an wissenschaftliches Wissen sindund wie schnell bestimmte Theorien den Status von Wissen wieder ver-lieren können, weil bestimmte Unterminierer auftauchen. Daten zu erhe-ben wie die Durchschnittstemperatur der vergangenen Jahre, aber auchdie der Gegenwart sind schließlich bereits recht hypothetische Unterneh-mungen. Sie müssen induktiv aus grundlegenderen Daten erschlossenwerden, wie etwa den Einlagerungen in Eiskernen oder Bäumen. Dassdie Messung der Durchschnittstemperatur schon für die Gegenwartnicht so einfach ist, kann man sich leicht überlegen: Man muss sich nurvor Augen halten, dass wir es in Deutschland im Laufe eines Jahres etwamit Temperaturschwankungen von ca. 50° C zu tun haben, und darauswollen wir Erhöhungen der Durchschnittstemperatur von 0,166° proJahrzehnt „ablesen“. Das jedenfalls erhalten wir in etwa, wenn wir dembritischen Klimaforscher Phil Jones glauben, der maßgeblich an der Er-mittlung der sogenannten Golfschlägerkurve beteiligt war, die einendeutlichen und einzigartigen Anstieg in der neueren Zeit zeigt und ent-sprechende Prognosen für die Zukunft stützt. Inzwischen sind einigepotentielle und z.T. wohl auch aktuale Unterminierer zu dieser Kurveaufgetaucht. Dazu einige Hinweise (vgl. Spiegel 13/2010): Für die Kli-mageschichte sind wir u.a. auf Baumringe angewiesen. Dazu müssenaber möglichst viele alte Bäume ausgewertet werden, doch gerade vonden besonders alten Bäumen, die älter als 500 Jahre sind, finden sichnicht mehr viele Exemplare. Dazu gibt es Hinweise, dass das Herausfil-tern der Durchschnittstemperaturen selbst fehlerhaft war. Die Qualitätder Rohdaten wird noch durch viele andere Phänomene gefährdet oderunterminiert. Die realen Temperaturmessungen leiden z.B. darunter,dass um die Mess-Stationen herum Häuser gebaut wurden, etwa weilsich die Städte ausbreiten, und das selbst wieder zu höheren Temperatu-ren an diesen Stellen führt. Oder die Messung der Wassertemperaturenwurde umgestellt, was zu Temperatursprüngen führte. All diese Fehler-

Page 94: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 2: Erkenntnistheoretische Grundlagen 82

quellen musste Jones aus seinen Daten herausrechnen, was in jedem Fallselbst wieder fehleranfällig ist. Leider hat er die Aufzeichnungen überdieses Herausrechnen gelöscht, so dass sich diese Schlüsse nun nichtmehr überprüfen lassen. Das britische Met Office kommt daher zu demrichtigen Schluss, dass alle Daten nun offengelegt und neu bewertet wer-den müssen, selbst wenn das drei Jahre dauern kann. Außerdem wurdennoch andere Spielregeln der Wissenschaft wie eine gewisse Offenheitgegenüber Einwänden verletzt, so dass eine klare Unterminierung derErgebnisse von Jones u.a. vorliegt.

Das bedeutet aber andererseits nicht, dass die Ergebnisse falsch seien.Wir haben bereits oben darauf hingewiesen, dass ein Unterminierernichts über die Wahrheit der in Frage stehenden Aussage p (also hier derbehaupteten Golfschlägerkurve bzw. der Klimaerwärmung) aussagt, son-dern nur bestimmte Begründungen wegbrechen. Er spricht noch nichtdafür, dass die Ergebnisse falsch sind. Es gibt außerdem noch andereHinweise für die Klimahypothese, die weiter Bestand haben, aber nichts-destoweniger erkennt man deutlich, dass hier bestimmte Wissensansprü-che neu überprüft werden müssen, da für wissenschaftliches Wissen ent-sprechend hohe Standards gelten. Das bedeutet zugleich, dass die Pro-gnosen aufgrund der Klimahypothese nicht mehr als gesicherte Erkennt-nisse gelten dürfen, sondern ihnen ebenso die Grundlage entzogen wur-de, denn für solche Schlüsse sind wir eben auf wissenschaftliches Wissenangewiesen, was vermutlich nicht mehr vorliegt. Noch weniger dürfenwir natürlich schließen, es werde keine Klimaerwärmung geben. Dafürbieten die Unterminierer wie gesagt keinen Anlass.

Als zu Beginn der 1980er Jahre die Hypothese aufkam, dass Magen-geschwüre womöglich durch Bakterien verursacht werden, hielt man ihrUnterminierer und Gegengründe entgegen. Die Daten für die Theoriewurden angezweifelt. Die Bakterien, die in Proben aus den Mägen Ver-storbener gefunden wurden, wurden als vermutliche Verunreinigungender Proben bei der Entnahme gedeutet. Außerdem wies man darauf hin,dass im sauren Milieu des Magens keine Bakterien überleben würden(vgl. Thagard 1998, 1999). Ersteres war ein Unterminierer, Zweiteresein Gegengrund. Man glaubte so, die neue Bakterientheorie schnell wie-der ad acta legen zu können, aber wie wir inzwischen wissen, behielt dieTheorie schließlich doch die Oberhand. Jedenfalls sind uns derartige Ar-gumentationen aus der Wissenschaft gut bekannt. Unterminierer tretengenauso dort in Erscheinung, wo wir Daten eine andere Interpretationgeben möchten, so dass sie nicht mehr ihren ursprünglichen Zweck er-füllen können. Dazu werden meist bestimmte Hilfshypothesen ins Spiel

Page 95: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

83 Thomas Bartelborth: Induktives Schließen

gebracht. Beispiele dafür wie die Versuche, den Ätherwind zu messen,werden wir im Zusammenhang mit Popperschen Falsifikationen kennen-lernen. Im Folgenden werden wir jedoch der Gewinnung von interpre-tierten Daten aus Rohdaten und der Sicherheit der Daten kaum nochAufmerksamkeit schenken, sondern uns ganz dem Thema widmen, wiesich Theorien u.a. anhand von Daten begründen lassen. Das soll nichtbedeuten, dass es sich dabei nicht um eine wichtige Fragestellung han-delt, sondern es ist nur eben nicht mein Thema hier.

Page 96: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

3 Qualitative Induktionsverfahren

3.1 Poppers FalsifikationismusPopper (1984) hielt Humes skeptische Überlegungen für stichhaltig undsuchte daher nach einem neuen Weg, mit dem Induktionsproblem umzu-gehen. Seiner Ansicht nach gibt es keine induktive Bestätigung einerHypothese, sondern nur deduktive Schlüsse aus einer Hypothese unddarauf aufbauende Falsifikationen der Hypothese. Theorien stellen fürihn zunächst eine Allbehauptung auf vom Typ (G): „Alle Gegenständeaus Metall dehnen sich zu allen Zeiten aus, wenn sie erhitzt werden“oder „Alle zwei materiellen Objekte ziehen sich zu allen Zeiten gemäßdem newtonschen Gravitationsgesetz gegenseitig an.“ Da ein solches Ge-setz ebenso für die Zukunft wie für die Vergangenheit gelten soll, ist esausgeschlossen, dass wir eine solche Behauptung jemals vollständig über-prüfen und verifizieren können. Wir haben im Gegenteil immer nureinen sehr kleinen Teil der Instanzen der Aussagen (G) überprüft. Insbe-sondere liegen die alle in der Vergangenheit.

Da die Zahl der Instanzen einer Aussage vom Typ (G) potentiell un-endlich ist, kann es für Popper keine induktive oder probabilistische Be-stätigung von (G) geben. Dazu ist die Anzahl der tatsächlich verifiziertenFälle viel zu klein. Das wird für beide Aussagen vom Typ (G) deutlich,wenn wir beachten, dass auch über alle Zeitpunkte quantifiziert wird.Selbst probabilistische Modelle sprechen nach Popper und Miller (1983)gegen eine induktive Bestätigung solcher Naturgesetze. Dafür haben siespezielle recht spitzfindige Argumente entwickelt, die vor allem etwasmit der Induktionseigenschaft der Induktionsverfahren zu tun haben,auf die ich später noch eingehen werde. Ich möchte hier dagegen nureine einfache Abschätzung betrachten.

Nehmen wir etwa an, dass wir es bei einem Naturgesetz K mit einersehr großen Anzahl N von Instanzen gi zu tun haben, von denen wir nurwenige (etwa die ersten n) überprüfen konnten. Für die weiteren bis zurZahl N>n sei dagegen noch nicht geklärt, ob sie unter K fallen. Für dasGravitationsgesetz könnten also z.B. Tripel bestehend aus zwei Gegen-ständen und einem Zeitpunkt als solche Instanzen dienen. Wie groß istdann die Wahrscheinlichkeit P(K)? Dazu gehen wir probeweise davonaus, die Instanzen seien probabilistisch unabhängig voneinander und

Page 97: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

85 Thomas Bartelborth: Induktives Schließen

hätten vor ihrem Test jeweils die Wahrscheinlichkeit 0,5 dafür, unter Kzu fallen, dann wäre:

P(K) = n<i≤N P(gi) = (0,5)N–n

Dabei ist also N–n die Anzahl der noch nicht untersuchten Instanzen(auch der zeitlichen). Ist N sehr groß, wird die Wahrscheinlichkeit P(K)nahe bei 0 liegen und im Grenzfall für wachsende N gegen unendlich so-gar null sein. Nehmen wir nur einmal an, dass N–n=64 wäre, so liegtP(K) bereits im Bereich von 10–19. Das ist eine Eins geteilt durch eineZahl mit 19 Nullen und damit bereits unvorstellbar klein: praktischgleich null. Jedenfalls sprechen die Überlegungen über solche Anzahlennicht gerade dafür, dass es so etwas wie induktive Bestätigung von Ge-setzen gibt, wenn bereits 64 noch offene Instanzen zu einer Wahrschein-lichkeit nahe null führen.

Vertreter der induktiven Logik könnten hier vor allem an der proba-bilistischen Unabhängigkeitsannahme ansetzen und behaupten, mit zu-nehmender Anzahl positiver Instanzen für unser Gesetz K würde auchdie (Vorher-) Wahrscheinlichkeit der weiteren Instanzen steigen, dass sieK erfüllen, und damit wäre ihre Wahrscheinlichkeit größer als 0,5 (oderwomit wir ansonsten noch starten würden). Doch, wenn wir zunächstnoch überhaupt nicht wissen, ob K gilt, dann haben wir eigentlich kei-nen Grund, die Instanzen von K als besondere Menge zu betrachten, beider ein Element im Hinblick auf K eine Information über ein anderestragen wird. Das hieße, dass die Aufgabe der Unabhängigkeitsannahmepraktisch schon einer Vorentscheidung zugunsten von K als Naturgesetzgleichkäme, doch wie sollte man die begründen? Gerade Empiristen(wie etwa Carnap als Erfinder der induktiven Logik) sollten diese Fragesehr ernst nehmen. Warum sollten wir von bestimmten Ereignissen odersingulären Tatsachen auf bestimmte andere schließen dürfen, wenn wirnicht bereits einen naturgesetzlichen Zusammenhang vermuten? Es istdaher in dieser Ausgangssituation unsere Annahme einer probabilisti-schen Unabhängigkeit der einzelnen Instanzen von K durchaus plausibel.Letztlich müssen wir aufgrund weniger untersuchter Instanzen auf nochsehr viele nicht untersuchte Fälle schließen. Poppers Bedenken gegensolche Schlüsse sind also sicherlich ernst zu nehmen.

Poppers Lösung des Induktionsproblems war daher radikal. SeinerMeinung nach gibt es schlichtweg keine induktive Bestätigung von wis-senschaftlichen Theorien, und wir benötigen in der Wissenschaft auchkeine induktiven Schlüsse, sondern kommen allein mit der deduktivenLogik aus. Dann muss uns Humes Induktionsproblem nicht mehr beun-

Page 98: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 3: Qualitative Induktionsverfahren 86

ruhigen. Popper stellt dafür die Asymmetrie von Verifikation und Falsifi-kation ganz in den Vordergrund seiner Überlegungen. Gesetze sind All-aussagen (etwa der Form K x(FxGx)) über eine potentiell unendli-che Zahl von Objekten und sind daher niemals verifizierbar. Anderer-seits genügt bereits ein einzelnes Objekt bzw. System a, das die Eigen-schaft F aufweist, aber nicht G (also: Fa&~Ga), um K zu falsifizieren.Für die Falsifikation sind wir nach Popper daher nur auf deduktiveSchlüsse angewiesen.

Wir können z.B. aus der Behauptung, dass alle Metalle sich bei Er-wärmung erhitzen, einzelne deduktive Schlussfolgerungen ziehen. DieTheorie sagt damit voraus, dass das nächste Stück Metall, das wir erhit-zen, sich ebenfalls ausdehnen wird. Jede dieser Vorhersagen stellt einenempirischen Test für die Theorie dar, bei dem sie scheitern könnte; dasheißt, wenn er fehlschlägt, könnten wir sie definitiv als falsch nachwei-sen. Das war Poppers Ansatzpunkt: Eine wissenschaftliche Theorie istzwar nicht verifizierbar, aber zumindest falsifizierbar. Wenn sie allerdingsernsthafte Falsifikationsversuche unbeschadet übersteht, so hat sie sichfür Popper bewährt und wir können uns in unseren Entscheidungen wei-ter auf sie stützen.

Für Popper war daher die Falsifizierbarkeit einer Theorie das ent-scheidende Abgrenzungskriterium zwischen Wissenschaft und Pseudo-wissenschaft. So verwarf er den Marxismus – verstanden als historischeTheorie – und ebenso die Psychoanalyse als vermeintlich pseudowissen-schaftlich, weil sie praktisch überall nur Bestätigungen der Theorie er-blickten, aber nicht sagten, was die Theorie definitiv ausschließt undwas sie somit falsifizieren könnte. Stattdessen sieht der Marxist in jedemStreik eine Bestätigung seiner Idee eines Klassenkampfes und der Psy-choanalytiker in jeder Neurose eine Bestätigung der Psychoanalyse, oh-ne dass er ebenso angibt, wann bestimmte Phänomene gegen seineTheorie sprechen könnten. Selbst kritische Stimmen wurden oft nur psy-choanalytisch als Verdrängungen gedeutet. Diese Art von „Immunität“gegen Kritik und die Fähigkeit alles zu „erklären“ und immer nur auf„Bestätigungen“ der Theorie zu stoßen, stellt für Popper die typischenMerkmale einer Pseudowissenschaft dar. Positives Vorbild war für Pop-per dagegen Einstein mit seiner allgemeinen Relativitätstheorie, dergleich bei der Erstellung seiner Theorie angab, welches überraschendePhänomen die Theorie vorhersagte – nämlich die Lichtablenkung imSchwerefeld der Sonne – und dass die Theorie zu verwerfen sei, wennman das nicht beobachten könnte.

Page 99: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

87 Thomas Bartelborth: Induktives Schließen

Intuitiv stellt die Falsifizierbarkeit zumindest ein naheliegendes Krite-rium für die Empirizität einer Behauptung dar. Treffen wir auf einenWetterbericht, der nur sagt: „Morgen regnet es, oder es regnet morgennicht“, so stellt er schlicht keine empirische Behauptung auf. Seine Ver-treter könnten dann zwar in jedem Fall morgen triumphieren und fest-stellen, dass sie das Wetter doch korrekt vorhergesagt haben, aber tat-sächlich haben sie solange nicht wirklich etwas vorhergesagt, wie sienicht ein bestimmtes Wetter ausgeschlossen haben. Erst wenn sie ein be-stimmtes Wetter ausschließen, kann ihre Vorhersage aber auch falsifiziertwerden. Popper plädierte daher dafür, gerade in der Wissenschaft immerbesonders kühne Hypothesen aufzustellen, aus denen möglichst vielepotentielle Falsifikatoren deduktiv folgen. Erst damit erhalten unsereTheorien einen hohen Informationsgehalt und erfüllen so unseren zwei-ten Anspruch an wissenschaftliches Wissen. Potentielle Falsifikatorensind für Popper die sogenannten Basissätze, also singuläre Existenzaussa-gen über ein beobachtbares Ereignis an einem bestimmten Ort. Diesewerden allerdings – im Unterschied zum Vorgehen der Empiristen –nicht anhand von Beobachtungen akzeptiert, sondern erst durch einenBeschluss der Wissenschaftlergemeinde.

Kühne Hypothesen haben vor allem den erkenntnistheoretischenVorteil, dass sie sich schnell falsifizieren lassen, wenn sie falsch sein soll-ten. Popper entwickelte dazu Vorstellungen vom Falsifizierbarkeitsgradeiner Theorie. Je höher der ist, umso gehaltvoller und erklärungsstärkerist eine Theorie und umso besser ist sie damit nach seiner Meinung. Jemehr Falsifikatoren eine Theorie aufweist, umso höher ist jedenfalls ihrempirischer Gehalt. Eine derartige Theorie haben wir anschließend nachPopper möglichst strengen bzw. ernsthaften Falsifikationsversuchen zuunterwerfen. Sollte sie falsch sein, zeigt sich das bald, und wir könnenwieder eine fehlerhafte Theorie ad acta legen.

Ganz im Sinne von Popper entwickelte Deborah Mayo (1996) eineExplikation von strengen oder ernsthaften Tests einer Theorie. Ernsthaftist ein Test für eine Theorie T demnach gerade dann, wenn die Wahr-scheinlichkeit hoch ist, dass T durch den Test falsifiziert wird, sollte Tdenn falsch sein. Es gilt also für einen ernsthaften Test: P(Test fällt nega-tiv aus|T ist falsch) ist sehr hoch. Darauf werden wir im Zusammenhangmit den Signifikanztests der klassischen Statistik wieder zurückkommen,die eine Umsetzung dieser Idee darstellen. Sie stellen eine Art von proba-bilistischer Falsifikation dar. Jedenfalls hoffte Popper sich auf dem Wegüber das Ausscheiden der falschen Hypothesen, langsam der Wahrheitanzunähern. Wir werden im Rahmen der eliminativen Induktion sehen,

Page 100: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 3: Qualitative Induktionsverfahren 88

dass dieser Weg durchaus gangbar ist, aber nur wenn wir ihn um wesent-liche Bestandteile erweitern, die Popper leider nicht akzeptiert hätte.

Zunächst sollte es aber intuitiv klar sein, was hier mit ernsthaftenTests gemeint ist. Denken wir etwa an die Hypothese: (H) „Fritz ist keinSpion des Iran.“ Dann folgt aus der Hypothese (zusammen mit anderemHintergrundwissen), dass er keine größeren Überweisungen des irani-schen Staates erhält. Das können wir überprüfen und daran könnteunsere Hypothese theoretisch natürlich sogar scheitern. Erhielte Fritz re-gelmäßige Überweisungen des iranischen Staates, würde das jedenfallsgegen unsere Hypothese sprechen. Stellen wir dagegen fest, dass er kei-ne derartigen Überweisungen erhält, haben wir damit aber noch langenicht nachgewiesen, dass es sich bei Fritz um keinen Spion handelnmuss, denn es handelt sich wohl kaum um einen ernsthaften Falsifika-tionsversuch. Selbst wenn unsere Hypothese falsch wäre und es sich beiFritz also um einen iranischen Spion handeln würde, würde er vermut-lich trotzdem keine direkten Überweisungen des iranischen Staates er-halten. Erst ein Test, bei dem die Hypothese tatsächlich höchstwahr-scheinlich scheitern würde, wenn sie denn falsch wäre, würde einenernsthaften Test abgeben. Das könnte in unserem Beispiel vielleicht einegründliche Durchleuchtung der Lebensverhältnisse von Fritz sein, die al-le auch indirekten Kontakte zu iranischen Staatsbürgern auffinden wür-de. Hat er keine solchen Kontakte, hätte er den Test überstanden. Daswäre wohl ein ernsthafter Test für unsere Hypothese H.

Es gibt andere Vorschläge für die Frage, wann ein Test als streng an-zusehen ist, die sich aber alle eher auf subjektivere bzw. zufälligere Zu-sammenhänge stützen und damit weniger geeignet erscheinen, eine Ex-plikation im Sinne Poppers zu formulieren. So könnte man eine Theorieanhand ihrer überraschenden Vorhersagen testen oder anhand von neuenBeobachtungen, deren Wahrheitswert zum Zeitpunkt des Aufstellens derTheorie noch nicht bekannt war. Im ersten Fall scheint es aber eher dar-auf hinauszulaufen unser subjektives Empfinden, was uns jeweils alsüberraschend erscheint, zum Maßstab für das Theorientesten zu erhe-ben, während im zweiten Fall die Qualität von Theorientests von der zu-fälligen zeitlichen Reihenfolge abhängen würde, in der eine Theorie auf-gestellt wurde und bestimmte Beobachtungen aufgetreten sind. Beidesscheint nicht besonders gut zu den Intentionen Poppers zu passen, derauf der Suche nach einem möglichst objektiven Verfahren für Theorien-tests war. Daher scheint mir der Vorschlag von Mayo den besseren Wegzu einer Explikation der Strenge von Theorientests zu weisen.

Page 101: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

89 Thomas Bartelborth: Induktives Schließen

Poppers Vorschlag zur Theoriendynamik sieht also schließlich wiefolgt aus: Wir starten mit Problemen, die wir lösen möchten. Damit sindnormalerweise Phänomene gemeint, die wir beobachten können undgerne erklären würden. Dann suchen wir nach einer möglichst gehaltvol-len (erklärungsstarken) Theorie dazu, die die Phänomene erklären (oderzumindest ableiten) kann, und unterwerfen diese im weiteren ernsthaf-ten Tests. Die Theorie soll also unsere bisherigen Phänomene erklärenkönnen und weitere kühne Vorhersagen aufstellen, die wir überprüfenkönnen. Treffen diese Vorhersagen ein, so hat sich die Theorie bewährtund wir können uns vorläufig darauf stützen. Wir akzeptieren die Theo-rie als Arbeitshypothese weiterhin, bis sie tatsächlich falsifiziert wird.Sollten allerdings falsifizierende Basissätze vorliegen, dürfen wir nachPopper nicht versuchen, die Theorie durch Tricks wie Ad-hoc-Hypothe-sen (s.u.) zu retten, sondern sollten sie definitiv verwerfen und nacheiner neuen Theorie suchen. Unter den dann noch nicht-falsifiziertenTheorien sollten wir wiederum die kühnste Theorie (mit dem höchstenFalsifizierbarkeitsgrad) als nächste Theorie auswählen und unser Verfah-ren damit entsprechend fortsetzen. Solange eine Theorie sich bewährt,dürfen wir an ihr festhalten, und es ist nach Popper auch rational, sichdann auf sie in seinen Entscheidungen zu stützen. So nähert sich dieWissenschaft langsam und in einer Art von evolutionärem Prozess derWahrheit an, indem die falschen Theorien im Laufe der Zeit ausgeschie-den werden. Der wissenschaftliche Fortschritt besteht also nach Popperin einer langsamen Annäherung an die Wahrheit. Er versuchte sogar eineformale Explikation von Wahrheitsnähe anzugeben, die freilich an be-stimmten formalen Problemen scheiterte (vgl. Oddie 2007).

Allerdings dürfen wir nach Poppers Ansicht diese Bewährung nichtmit irgendeiner Form induktiver Bestätigung einer Theorie verwechseln,denn sonst würden wir wieder in das humesche Problem der Induktionzurückfallen. Eine bewährte Theorie ist also eben nicht wahrscheinlichwahr oder plausibler als andere nichtfalsifizierte Theorien oder etwasÄhnliches.

Kritiker haben zu Recht bemängelt, dass damit unklar bleibt, was dieBewährung über eine Theorie überhaupt aussagen kann, wenn sie keinepositive Auszeichnung darstellt, die wir als Indiz für die Wahrheit derTheorie auffassen dürfen. Bewährung einer Theorie sagt uns nach Pop-per nur etwas über die Vergangenheit (nämlich über bestandene ernst-hafte Falsifikationsversuche) und nicht über die Zukunft. Sie macht esinsbesondere nicht wahrscheinlicher, dass ihre Vorhersagen eintreffen.

Page 102: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 3: Qualitative Induktionsverfahren 90

Genau genommen können wir noch nicht einmal für bereits falsifi-zierte Theorien sagen, dass ihre Vorhersagen für die Zukunft unwahr-scheinlicher sind als die der bewährten Theorien, denn natürlich könnenauch falsche Theorien wahre Vorhersagen liefern und über die Wahr-scheinlichkeit von wahren Vorhersagen unserer bewährten Theorien wis-sen wir nach Popper überhaupt nichts. Warum sollten wir uns dann eherauf bewährte als auf falsifizierte Theorien stützen? Selbst diese scheinba-re Selbstverständlichkeit lässt sich innerhalb von Poppers Ansatz nichtmehr begründen. Er schließt entsprechende Begründungsmöglichkeitenaus. Außerdem gilt: All unsere Falsifikationen lassen unendlich vieleTheorien als nicht-falsifiziert zurück. Warum sollten wir eine von denenhervorheben? Und warum gerade die kühnste? Popper und seine Anhän-ger konnten darauf keine überzeugenden Antworten finden. Dann hat eraber leider auch keine Lösung des Induktionsproblems anzubieten. Daslässt sich noch einmal praktischer wenden, indem wir uns ein Beispieldazu anschauen.

Nehmen wir an, wir leiden unter Magengeschwüren und suchennach einer Therapie dagegen. Es gibt jedoch zwei Theorien über dieAuslöser der Magengeschwüre: Die erste Theorie besagt, dass es sich umStresssymptome handelt und die beste Therapie daher in einer Stressre-duktion besteht. Die zweite Theorie macht das Bakterium HelicobacterPylori für die Magengeschwüre verantwortlich und empfiehlt daher eineAntibiotikatherapie. Selbst wenn die erste Theorie falsifiziert wurde,hätten wir nach Popper keinen guten Grund, der anderen Theorie diewahrscheinlicheren Prognosen zuzusprechen. Das gilt erst recht, wennbeide Theorien noch nicht falsifiziert wurden und nur die zweite hättesich schon mehrfach bewährt. Die Bewährung sagt nach Popper nichtsüber die Zukunft und kann uns deshalb nicht wirklich für unsere Ent-scheidung weiterhelfen. Also hat Popper das Induktionsproblem keines-wegs gelöst. Genau den Fall, der uns interessiert, kann seine Konzeptionnicht behandeln. Er betont zwar immer, dass es rational sei, einer be-währten Theorie zu vertrauen, aber das ist solange nicht überzeugend,wie er unter Bewährung nicht doch eine Art von positiver Bestätigungim Sinne einer induktiven Stützung versteht. Genau genommen hat Pop-per noch nicht einmal komparative Aussagen für die Zukunft anzubie-ten, nach denen wir einer nicht-falsifizierten Theorie wenigstens ehervertrauen sollten als einer falsifizierten. Das hilft uns also nicht wirklichweiter in unserem Projekt, Entscheidungshilfen bereitzustellen. Wir wer-den die poppersche Konzeption um Nicht-poppersche Komponenten er-

Page 103: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

91 Thomas Bartelborth: Induktives Schließen

gänzen müssen, um damit in unserem Projekt voranzukommen. Die so-genannte eliminative Induktion stellt eine solche Ergänzung dar.

Da uns die Falsifikation in einem geeigneten Rahmen weiterhin be-gleiten und interessieren wird, sind noch einige andere Probleme derpopperschen Konzeption zu untersuchen. Das bekannteste ist wohl dasDuhem-Quine-Problem. Bereits Pierre Duhem (1978) hatte darauf hin-gewiesen, dass wir für die Ableitung von Beobachtungsaussagen auseiner Theorie in der Regel auf weitere Annahmen angewiesen sind. Dassind etwa Annahmen über die Zuverlässigkeit der Messgeräte für dieeingesetzten Größen oder über Randbedingungen, die vorliegen müssen,damit unsere Theorie konkrete Vorhersagen abgeben kann. So könnenwir zwar mit Hilfe der newtonschen Gravitationstheorie T die nächsteSonnenfinsternis vorhersagen, aber dazu benötigen wir eine ganze Reiheweiterer Hilfsannahmen A. Wir müssen z.B. wissen, wie groß die Mas-sen der Planeten und der Sonne sind, wie groß ihre Impulse zu einembestimmten Zeitpunkt sind, welche Planeten es überhaupt gibt und dasswir bestimmten Messinstrumenten jeweils vertrauen dürfen. Erst dannkann die Gravitationstheorie angewandt werden und eine entsprechendeVorhersage E ableiten. Sollte sich E aber als falsch herausstellen, dannfolgt nicht mehr gleich ~T, sondern vielmehr nur noch ~(T&A) ~T~A. Somit können wir T nur noch als falsifiziert betrachten, wennwir die Hilfsannahmen A als bereits sehr gut begründet ansehen und indiesem Theorientest nicht mehr in Frage stellen.

Doch das ist in der Praxis natürlich nicht immer der Fall. So wurdebei Anomalien im Planetensystem aus Sicht von Newtons Theorie sogarmehrfach vermutet, dass es einen neuen Planeten geben müsste, der nurnoch nicht bekannt sei, aber für die Bahnabweichungen verantwortlichgemacht werden könne. Somit können wir bei Konflikten mit der Erfah-rung keineswegs immer einen Schuldigen ausmachen und die Vertretereiner Theorie tendieren dann verständlicherweise dazu, die Hilfsannah-men (etwa darüber, welche Planeten im Spiel sind) in Frage zu stellen.Der französische Astronom Le Verrier erklärte 1845 auf diese WeiseBahnabweichungen des Uranus durch einen weiteren äußeren Planeten,den Neptun. Der wurde daraufhin bald an entsprechender Stelle ent-deckt. Später nahm Le Verrier an, dass auch die Abweichung der Perihel-drehung des Merkurs von den Vorhersagen der newtonschen Gravita-tionstheorie durch einen weiter innen liegenden Planeten namens Vul-kan verursacht würde; doch das erwies sich nach längerer Suche alsfalsch und erst Einstein konnte mit seiner allgemeinrelativistischen Gra-vitationstheorie diese Anomalie überwinden. Popper hätte sicher in bei-

Page 104: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 3: Qualitative Induktionsverfahren 92

den Fällen die Annahme eines weiteren Planeten als Ad-hoc-Hypotheseverdammt. Doch niemand konnte vorhersehen, in welchen Fällen siesich letztlich bestätigen würde und in welchen anderen Fällen sie sichschließlich als Blindgänger herausstellen würde.

Einfaches Schema für die Falsifikation einer Theorie1. Aus einer Theorie T und bestimmten begründeten Hilfsannahmen

A1,...,An folgt deduktiv ein Beobachtungssatz/Basissatz B.2. Wir beobachten, dass B falsch ist.3. Schlussfolgerung: Also wird T als falsifiziert verworfen, da die

Hilfsannahmen gut begründet sind und vermutlich nicht zu demVersagen der Theorie geführt haben.

Tatsächlich können wir normalerweise jeweils neue Hilfsannahmen er-finden, die es gestatten, die Theorie wieder mit den widerspenstigenDaten zu versöhnen. Der Physiker Lorentz nahm an, dass sich das Lichtals Wellenphänomen im Medium Äther ausbreitet und wir daher Unter-schiede in der Lichtgeschwindigkeit in unterschiedliche Richtungen fest-stellen würden, da sich die Erde schließlich schnell durch den Äther be-wegen müsste. Das kann man sich ähnlich vorstellen wie bei Wasserwel-len von einem Boot aus betrachtet. Als Lorentz dann versuchte miteinem von ihm entwickelten Interferometer den Ätherwind zu bestim-men und dazu die Lichtgeschwindigkeit in einer Richtung mit der dazusenkrechten Richtung verglich, erhielt er bekanntermaßen immer wiedernur ein Nullergebnis. Doch statt daraus zu schließen, dass kein Äther-wind feststellbar ist und daher auch kein Äther existieren kann, nahm eran, dass das Interferometer sich beim Durchgang durch den Äther inLängsrichtung um gerade den Betrag verkürzt, dass der Effekt dadurchnicht mehr beobachtbar ist. So ließ sich die Äthertheorie trotz der Nul-lergebnisse aufrechterhalten.

Popper wollte solchen Vorgehensweisen einen Riegel vorschiebenund verbot deshalb die Annahme von sogenannten Ad-hoc-Hypothesen,und als solche betrachtete er die Verkürzungsannahme. Typischerweisewerden solche Hypothesen als Ad-hoc-Hypothesen betrachtet, die nurdazu dienen, eine Theorie zu retten, aber ansonsten keine eigene Stüt-zung durch andere unserer Annahmen aufweisen. Allerdings lassen sichAd-hoc-Hypothesen nicht immer leicht als solche identifizieren. Lorentzhatte für seine Verkürzungshypothese durchaus eigenständige Gründeanzubieten, die sich aus dem Zusammenspiel der Atome mit dem Ätherergaben. Außerdem haben sich manche Ad-hoc-Hypothesen später als

Page 105: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

93 Thomas Bartelborth: Induktives Schließen

wahr und als fruchtbare Weiterentwicklungen der Theorie herausgestelltwie in unserem Beispiel des Uranus.

Popper will hier zu viel. Wir können nicht immer sofort und vonvornherein sagen, ob eine bestimmte Theoriemodifikation sich schließ-lich als fortschrittliche Entwicklung oder degenerative Entwicklung her-ausstellen wird. Popper hoffte sogar, so ein einfaches Kriterium für Wis-senschaftlichkeit entwickeln zu können; ein Ansinnen, was ich oben be-reits zurückgewiesen habe. Der Popperschüler Imre Lakatos (1974) plä-diert daher für das Ende der popperschen „Sofort-Rationalität“. Wirkönnen nicht sogleich entscheiden, ob eine Theorie zu verwerfen seioder besser durch bestimmte Hilfshypothesen gerettet werden sollte.Wir müssen vielmehr längere Entwicklungsphasen einer Theorie be-trachten, in denen ein Theoriekern durch modifizierende Zusatzhypo-thesen (des „Schutzgürtels“ der Theorie) sich langsam entwickelt. DieseTheorieentwicklungen nennt Lakatos Forschungsprogramme und diekönnen dann progressiv oder degenerativ ausfallen, je nachdem, ob dieTheorie es tatsächlich schafft, mit Hilfe der Modifikationen neue Phäno-mene zu erklären, oder nur einen Abwehrkampf gegen die Anomalienführt, ohne dabei einen Zusatznutzen zu erzielen. Erst wenn sich auflängere Sicht ein solches Forschungsprogramm degenerativ entwickelt,sollten wir es aufgeben. Dabei sind selbst in diesen Fällen immer nochWiederbelebungen möglich, wenn ein Forscher eine neue Idee hat, umdas Forschungsprogramm wieder in eine progressive Richtung zu len-ken. Poppers ursprüngliche Idee ist dagegen zu einfach, wenn er vonschnellen Falsifikationen einer Theorie ausgeht. Lakatos’ Aufweichunghat allerdings den Nachteil, dass es keine klaren und endgültigen Falsifi-kationen mehr gibt. Wir müssen aber wohl mit den weicheren lakatos-schen Falsifikationen leben.

Diese Entwicklung haben wir vor allem Thomas S. Kuhn (etwa in1976) zu verdanken, der an Beispielen aus der Wissenschaftsgeschichtenachweisen wollte, dass Wissenschaftler keinesfalls darum bemüht sind,falsifizierende Anwendungen ihrer Theorien zu finden. Wenn sie dochauf eine solche stoßen, versuchen sie meist, ihre Theorien durch Zusatz-annahmen zu retten. Kuhn spricht in diesem Zusammenhang von Para-digmen, die es im Rahmen der normalen Wissenschaft zu verteidigen gilt,und erst, wenn sich hartnäckige Erklärungsanomalien zeigen, die sichselbst bei wiederholten Versuchen nicht in das Paradigma integrieren las-sen, kann es zu einer Krise kommen. Wenn sich dann noch ein neuesParadigma findet, das die Anomalien auflösen kann, kommt es nachKuhn zur wissenschaftlichen Revolution und zum Wechsel zum neuen

Page 106: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 3: Qualitative Induktionsverfahren 94

Paradigma sowie zum Verwerfen des alten. Allerdings lassen sich in derWissenschaftsgeschichte auch immer wieder Preisgaben eines alten Para-digmas finden, die man als weiche Falsifikationen im Sinne von Lakatosdeuten kann, ohne dass unbedingt schon ein alternatives Paradigma vor-handen sein musste. Man sollte dabei nur bedenken, dass diese Falsifika-tionen nicht als strikt deduktive Widerlegungen der Theorie vonstattengehen, sondern vielmehr durch hartnäckige Erklärungsanomalien ausge-löst werden, die sich sogar durch plausible Zusatzannahmen nicht besei-tigen ließen.

Selbst die angesprochene logische Asymmetrie zwischen Verifikationund Falsifikation ist nicht so eindeutig, wie Popper sich das vorstellte. Esgibt immer wieder auch Existenzannahmen in wissenschaftlichen Theo-rien (bzw. eine gemischte Quantorenstruktur in den Theorien), so dassTheorien nicht immer sogleich durch ein Gegenbeispiel widerlegt wer-den können. Im newtonschen Gravitationsgesetz wird etwa behauptet,dass es eine Gravitationskonstante gibt, die für alle Paare von Objektendie Gravitationskraft mitbestimmt. Ist ein Versuch mit einer bestimmtenGravitationskonstante gescheitert, heißt das noch nicht zwingend, dasswir nicht eine andere Konstante und eine andere Zuordnung von Mas-sen zu den Objekten finden können, so dass das Gravitationsgesetz dochwieder erfüllt wird. Doch das wollen wir mehr unter die technischenProbleme rechnen und Popper zugestehen, dass wissenschaftliche Theo-rien meist die von ihm angenommene Allaussagenstruktur aufweisen.

Viel problematischer ist allerdings eine andere Schwierigkeit für denFalsifikationismus, die Popper selbst schon gesehen hat. Etliche Theo-rien schon in den Naturwissenschaften, aber vor allem in den Sozialwis-senschaften stellen nur probabilistische Aussagen auf. Sie behaupten, dasseinige Faktoren bestimmte Tendenzen dazu aufweisen, gewisse Entwick-lungen auszulösen. Senkungen der Leitzinsen weisen die Tendenz auf,eine Belebung der Wirtschaft hervorzurufen, müssen das aber nicht in je-dem Fall tun. Starkes Rauchen verursacht in vielen Fällen Lungenkrebs,aber wir kennen auch etliche Ausnahmen. Probabilistische Aussagen sindjedoch im strikten Sinne nicht falsifizierbar. Behauptet jemand etwa,dass eine Münze gefälscht ist und eine Wahrscheinlichkeit von 0,6 fürKopf besteht, so sprechen zwar bestimmte Daten gegen diese Hypothe-se, aber immer wieder nur mit einer bestimmten Wahrscheinlichkeit.Nehmen wir etwa an, dass wir 1000-mal die Münze werfen und dabeikeinmal Kopf erhalten, so ist dieses Resultat noch nicht logisch inkonsis-tent mit der Hypothese, dass die Wahrscheinlichkeit für Kopf 0,6 sei.Das Resultat hat nur eben eine geringe Wahrscheinlichkeit, wenn unsere

Page 107: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

95 Thomas Bartelborth: Induktives Schließen

Hypothese stimmt; es ist aber durch die Hypothese nicht logisch ausge-schlossen. Popper sah das Problem und sprach in solchen Fällen vonpraktischer Falsifikation. Sind die Daten im Lichte der Hypothese sehrunwahrscheinlich, so dürfen wir die Theorie als praktisch falsifiziert be-zeichnen. Im Zusammenhang mit den Signifikanztests werde ich auf die-se Frage zurückkommen und nenne solche Fälle probabilistische Falsifi-kationen. Hier sind allerdings spezielle methodologische Zusatzregelnnötig, die keineswegs harmlos sind und einige seltsame Konsequenzengegenüber der klassischen Falsifikation aufweisen.

Damit ist aus dem einfachen Popper-Programm der Falsifikationschon ein viel komplexeres geworden, das erstens mit Hilfsannahmenzurechtkommen muss, die eine Theorie retten können, und daher nurnoch die weicheren Falsifikationen im Sinne von Lakatos kennt. Außer-dem müssen wir auf weitere methodologische Regeln zurückgreifen, umdie wichtigen probabilistischen Theorien einbeziehen und praktisch fal-sifizieren zu können. Darauf werden wir vor allem in Kapitel 6 zurück-kommen.

3.2 Die eliminative InduktionDamit uns die Falsifikationen auch im positiven Sinne voranbringen,müssen wir zumindest einen weiteren Schritt gehen, den Popper abge-lehnt hat. Wir müssen zubilligen, dass wir mindestens in manchen Fällenschon Gründe für die Annahme haben, dass eine richtige Darstellungder Ursachen und damit eine wahre Theorie für bestimmte Phänomenebereits in einer endlichen Liste L={T1,...,Tn} zu finden ist, die uns vor-liegt. In dieser Situation helfen uns Falsifikationen einiger dieser Theo-rien tatsächlich weiter, denn das spricht für die verbliebenen Theorien.Im Idealfall bleibt nur noch eine Theorie übrig, und die liefert dann dierichtige Darstellung unserer Phänomene. Zumindest verfügen wir so ins-gesamt über gute Gründe für die Behauptung, dass die verbliebeneTheorie wahr ist. Damit wird eine Theorie positiv ausgezeichnet, wasPopper noch nicht möglich war. Dieses Verfahren stammt letztlich vonFrancis Bacon und man nennt es die eliminative Induktion.

Das ist auch das Verfahren, das Sherlock Holmes seinem Adlatus Dr.Watson gegenüber als seine Methode darstellt. Dabei betont er manch-mal, es sei rein deduktiv, und das lesen wir auch immer wieder in der Li-teratur, doch das ist nicht ganz richtig. Typische induktive Irrtumsrisikenkommen an mindestens zwei Stellen ins Spiel: 1. bei der Auswahl derListe L und 2. bei den einzelnen Falsifikationen, die eben oft nur weiche(und revidierbare) Falsifikationen sind. Bei Holmes besteht die Liste L

Page 108: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 3: Qualitative Induktionsverfahren 96

aus der Liste aller schwach Verdächtigen, die zumindest ein Motiv unddie Gelegenheit zu der in Frage stehenden Tat hatten. Natürlich könnenwir dabei jemanden übersehen haben und müssen später unsere Listeeventuell ergänzen. Dann werden im nächsten Schritt diejenigen von derListe eliminiert, die letztlich doch ein Alibi aufweisen oder psycholo-gisch gesehen nicht zu der Tat in der Lage waren etc. Holmes behauptetschließlich, dass der Übrigbleibende der Täter sein muss, ganz gleich wieunwahrscheinlich das auch sei. Dem sollten wir so nicht folgen. Die letz-te verbleibende Theorie sollte möglichst alle Daten zumindest gut erklä-ren können und so auch selbst eine gewisse Plausibilität aufweisen. Wirwerden auf die weiteren Anforderungen im Rahmen des Schlusses aufdie beste Erklärung wieder zurückkommen. Doch zunächst einmal dürf-te die Grundidee klar sein.

Bloß wie gelangen wir in der Wissenschaft zu einer geeigneten Liste?Popper hält das für unmöglich, angesichts der schieren Anzahl an mögli-chen Erklärungen für ein Phänomen. Doch in der Praxis sieht das wie-der ganz anders aus. Wir haben oft schon einen gewissen Überblick überdie zur Verfügung stehenden Theorien und andere Ansätze erscheinendeutlich unplausibler. So dürfen wir uns etwa wieder auf bestimmte kau-sale Rahmenannahmen bzw. anderes Hintergrundwissen stützen, um vie-le logisch mögliche Erklärungen als zu unplausibel von vornherein aus-zuschließen. Hier bleibt natürlich immer das Irrtumsrisiko, das uns beijedem induktiven Schließen plagt, aber das müssen wir eben immer ak-zeptieren. Schauen wir uns ein Beispiel an, nämlich die Entdeckung derUrsachen von BSE, dem sogenannten Rinderwahnsinn. Das sollte dasVerfahren durchaus plausibel erscheinen lassen.

Wenn wir heutzutage in der Medizin nach der Ursache einer neuenKrankheit suchen, haben wir normalerweise schon eine Liste von mögli-chen Ursachentypen vor Augen, die etwa Folgendes umfasst: Infektions-krankheiten, Erbkrankheiten, Mangelernährung, Vergiftungen und Ver-ätzungen sowie Verbrennungen, Erkrankungen des Immunsystems, Um-welteinflüsse und Unfälle, die zu äußeren Schädigungen führen, Tumor-erkrankungen, psychische Erkrankungen, degenerative Erkrankungendurch Abnutzung etwa bestimmter Gelenke und vielleicht noch einigewenige andere Typen. Die Liste ist zumindest nicht besonders lang. In-nerhalb der einzelnen Typen von Krankheiten sind allerdings wiederumeinige Untertypen zu unterscheiden. Infektionskrankheiten beinhaltensolche durch Bakterien, Viren, Amöben etc. Bei der Untersuchung vonRinderwahnsinn war man schnell zu der Überzeugung gelangt, dass essich um eine Infektionskrankheit handelt: Wenn man das Fleisch infizier-

Page 109: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

97 Thomas Bartelborth: Induktives Schließen

ter Tiere verfütterte, konnte man nämlich dadurch die Krankheit wie-derum bei anderen Tieren auslösen. Das können die anderen Hypothe-sen praktisch nicht erklären und somit konnten sie relativ rasch elimi-niert werden. Dann war die weitere Frage, welche der Untergruppenvon Ursachen innerhalb dieser Gruppe sich eliminieren lässt. Da etwaantivirale und antibakterielle Mittel das Fleisch nicht desinfizieren konn-ten, wurden weitere Unterfallhypothesen eliminiert. Leider hatten wirdamit den speziellen Fall erhalten, dass eigentlich keine Hypothese mehrübrig blieb und unsere Unterliste innerhalb der Infektionskrankheitenschließlich noch einmal erweitert werden musste. Um 1982 wurde des-halb durch Prusiner die Prionenhypothese entwickelt. Pathogene Prio-nen sind Eiweißkomplexe, die keine Erbinformation mehr enthalten,aber durch ihre bloße Anwesenheit bestimmte Gehirnzellen verändernkönnen.

Bird (2011) beschreibt auch das recht bekannte Beispiel der Aufde-ckung der Ursachen von Kindbettfieber durch Semmelweis als ein Bei-spiel für eine typische eliminative Induktion. Ignaz Semmelweis (1983)versuchte 1846 und 1847 am Wiener Krankenhaus herauszufinden, war-um in der Abteilung I der Entbindungsstation deutlich mehr Fälle vonKindbettfieber auftraten als in der Abteilung II. Die Erkrankungsrate inAbteilung I lag etwa dreimal so hoch wie in der anderen Abteilung. Da-zu entwickelte er damals schon erstaunlich viele alternative Erklärungs-hypothesen, die mögliche Ursachen des Kindbettfiebers aufzeigen:

1. Mögliche Überfüllung in Abteilung I.2. Epidemische Einflüsse bzw. das Klima.3. Ungeschickte Untersuchungen durch die Medizinstudenten in Ab-

teilung I im Unterschied zu dem geschickteren Umgang durch dieHebammen in Abteilung II.

4. Psychische Effekte durch den Priester, der den sterbenden Frauendie Sakramente erteilte, wozu er durch die Abteilung I hindurch-gehen musste.

5. Die Lage bei der Geburt (auf dem Rücken liegend in Abteilung I)

Die Hypothese 1 konnte den Unterschied nicht erklären, zumal nach Be-kanntwerden der Probleme der ersten Abteilung die zweite Abteilungdie überlaufene war. Auch die zweite Hypothese lieferte zwar eineschon damals plausible Erklärung für das Auftreten von Kindbettfieber,aber es konnte nicht den Unterschied zwischen den Abteilungen erklärenund wurde daher von Semmelweis für sein spezielles Erklärungsziel alsunbrauchbar ausgesondert. Die Hypothese 3 verweist zwar auf einen

Page 110: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 3: Qualitative Induktionsverfahren 98

Unterschied zwischen den Abteilungen, aber Semmelweis konnte sichselbst davon überzeugen, dass er nur marginal war, und schloss daheraus, dass er so gravierende Folgen haben könnte. Es blieben also die bei-den Erklärungsansätze 4 und 5, die Semmelweis anhand von experimen-tellen Interventionen eliminieren konnte. Zunächst ließ er den Priesterden weiteren Weg außen an der Abteilung I vorbei gehen, ohne dass sichdadurch die Erkrankungsraten veränderten. Auch die Veränderung derLage bei der Geburt hatte keine entsprechenden Effekte. Also mussteeine neue Hypothese her. Semmelweis kam darauf, weil ein Kollege sichbei einer Autopsie verletzt hatte und danach unter ähnlichen Sympto-men wie dem Kindbettfieber gestorben war. Also vermutete er als Erklä-rung:

6. Durch die Untersuchungen der Leichen durch die Studenten, dieregelmäßig Autopsien vornahmen, gelangte ein bestimmtes Lei-chenmaterial an die Hände der Studenten und durch die Untersu-chungen in die Frauen und verursachte dort das Kindbettfieber.Die Hebammen in der Abteilung II führten dagegen keine Autop-sien durch.

Semmelweis konnte diese Annahme weiter bestätigen, indem er die Stu-denten dazu brachte, sich vor den Untersuchungen der Schwangeren dieHände mit Chlorkalk zu desinfizieren. Danach sank die Erkrankungsrateschließlich sogar unter die in der zweiten Abteilung. Das war ein ziem-lich beeindruckender Erfolg und ein vorbildlicher Forschungsprozess.Trotzdem ließen sich viele Kollegen nicht von seinen Ergebnissen über-zeugen, und viele Ärzte weigerten sich, selbst entsprechende Desinfek-tionsmaßnahmen durchzuführen. Das lag wohl u.a. daran, dass aufgrundmanchmal mangelhafter Desinfektionen seine Resultate nicht immer re-produziert wurden, aber ebenfalls an persönlichen Rivalitäten undFeindschaften, für die in diesem Fall viele weitere Frauen mit dem Lebenbezahlen mussten, was Semmelweis auch sehr aufgebracht hat (vgl.Zankl 2010).

Wir sehen wieder, dass uns schon die Daten selbst immer wieder Pro-bleme bereiten können. Trotzdem lässt sich an diesem Beispiel sehrschön das Zusammenspiel von eliminativer Induktion und der Suchenach positiven Erklärungen erkennen. Die ersten beiden Hypothesenkonnten wir aufgrund mangelnder Erklärungsleistung zumindest für diebeobachtete Differenz eliminieren. Die nächsten drei Hypothesen gabenjeweils Hinweise darauf, welche Beobachtungen oder Experimente nunweiterführend sein würden, um abduktiv schließen zu können, die ent-

Page 111: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

99 Thomas Bartelborth: Induktives Schließen

sprechenden Experimente führten aber letztlich doch nur zu weiterenEliminationen. Dann verhalf ein Analogieschluss Semmelweis zu einerneuen Hypothese, die sich schließlich durch weitere Daten bestätigenließ. Die 6. Hypothese bot nun für die Differenz eine gute Erklärung so-wie für das ähnliche Krankheitsbild des Kollegen und schließlich dafür,dass das Desinfizieren der Hände die Differenz zwischen den beiden Ab-teilungen beseitigte. Diese gezielte experimentelle Intervention war einentscheidender Hinweis für Semmelweis. So ergab sich eine überzeugen-de Bilanz für die Hypothese 6. Dass insbesondere diese Erklärungsleis-tung letztlich den Ausschlag geben sollte, wird uns gleich zum sogenann-ten Schluss auf die beste Erklärung führen.

Auch die besonders in den Sozialwissenschaften und der Medizinsehr beliebten Signifikanztests lassen sich als Instanzen der eliminativenInduktion verstehen. Dabei geht es häufig um kontrollierte Experimente,die wir mit Hilfe von Signifikanztests auswerten. Wenn wir z.B. eine ein-fache Hypothese H bestätigen möchten, die besagt, dass U eine Ursachefür den Effekt E darstellt, wobei U etwa die Gabe eines Medikamentsund E die entsprechende Heilung bezeichnet, versuchen wir dazu einesogenannte Nullhypothese H0 als Gegenhypothese aufzustellen, diedann besagt, dass U keine Wirkung auf E hat, und versuchen diese alsnächstes probabilistisch zu falsifizieren. Durch Falsifizieren der Gegen-hypothese haben wir dann unsere Ausgangshypothese H bestätigt. In derRegel sind natürlich noch weitere Konkurrenzhypothesen H1,...,Hn

denkbar, die andere mögliche Ursachen für E benennen. Die sollen i.A.anhand des Versuchsaufbaus falsifiziert werden. Zu diesem Zweck be-trachten wir üblicherweise eine Versuchs- und eine Kontrollgruppe, dieso zusammengestellt wurden (z.B. per Zufallsauswahl), dass vermutlichalle für das Auftreten von E relevanten Faktoren bis auf U auf beideGruppen gleich verteilt sind. U sollte hingegen möglichst nur in der Ver-suchsgruppe zu finden sein. Stellt sich der Effekt E ebenfalls nur in derVersuchsgruppe ein und nicht in der Kontrollgruppe, haben wir somiteinen guten Grund für die Annahme, dass U den Effekt E verursacht hat,da die möglichen anderen Faktoren als Ursache für diesen Unterschiedausgeschlossen werden können, weil sie nach der Zufallsauswahl in bei-den Gruppen in gleicher Weise vorliegen sollten. Das ist gerade derKern der Differenzmethode, auf die ich in Kapitel 7 noch genauer einge-hen werde. Damit sind viele mögliche Konkurrenzhypothesen auf einenSchlag falsifiziert worden.

Allerdings handelt es sich in der Medizin oder den Sozialwissenschaf-ten häufig nur um probabilistische Effekte, d.h., in der Versuchsgruppe

Page 112: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 3: Qualitative Induktionsverfahren 100

tritt E etwas häufiger auf als in der Kontrollgruppe, aber eben nicht im-mer. Dann bleibt eine weitere Gegenhypothese übrig, die es noch zu fal-sifizieren gilt. Das ist die erwähnte Nullhypothese H0, die besagt, dass essich bei unserem Versuchsergebnis bloß um eine Zufallsschwankung han-delt und U in Wahrheit überhaupt keinen kausalen Einfluss auf E hat.Nur durch Zufall ist in der Versuchsgruppe die Heilungsquote höher alsin der Kontrollgruppe. Das kann eben bei Zufallsprozessen geschehen.Um diese Hypothese falsifizieren zu können, muss eine probabilistischeFalsifikation her, nämlich die sogenannten Signifikanztests. Die sind je-doch unter Wissenschaftstheoretikern recht umstritten, weil probabilisti-sche Falsifikationen viele Unterschiede zu strikten Falsifikationen auf-weisen (vgl. Howson & Urbach 1989 und s.a. Kap. 6). Insbesonderemüssen wir bei Zufallsprozessen mit Abweichungen in jeder Größenord-nung irgendwann einmal rechnen und können dann die Nullhypothesefälschlicherweise als falsifiziert betrachten.

Dabei wird zu H0 ein Zurückweisungsbereich Z festgelegt. Sollte dasexperimentelle Ergebnis in den Bereich Z fallen, gilt H0 als probabilis-tisch falsifiziert und damit H als indirekt gestützt. Dabei wird Z meist sofestgelegt, dass es bei Zutreffen der Hypothese H0 nur eine Wahrschein-lichkeit von höchstens 5% gibt, dass das Resultat in den Bereich Z fallenwird. Das heißt, wenn ein Ergebnis beobachtet wird, das zu Z gehört, al-so ein Ergebnis auftritt, das bei Annahme von H0 als sehr unwahrschein-lich gelten muss, dann gilt H0 als probabilistisch falsifiziert. Das ist einewichtige Anwendung einer neueren Variante der eliminativen Induktion.Fehlgeschlagene Signifikanztests (also Tests ohne signifikantes, d.h. falsi-fizierendes Ergebnis für die Nullhypothese) können demnach eigentlichnicht weiter interpretiert werden. Sie sprechen jedenfalls nicht sogleichgegen H, sondern das Verfahren ist praktisch nur im Sande verlaufen,weil es uns nicht gelungen ist, alle Hypothesen bis auf eine zu falsifizie-ren. Das ist typisch für die eliminative Induktion (vgl. dazu Kap. 6).

Schema für die eliminative Induktion in einem Experimentplus Signifikanztest1. Vermutlich ist eine der Theorien H, H0, H1,...,Hn eine wahre Be-

schreibung der Ursachen eines Phänomens E.2. Durch den Vergleich von geeigneter Versuchs- und Kontrollgrup-

pe im Experiment wissen wir, dass die Theorien H1,...,Hn keinewahre Beschreibung der Ursachen von E darstellen.

Page 113: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

101 Thomas Bartelborth: Induktives Schließen

3. Eine probabilistische Falsifikation der Nullhypothese H0 durchein signifikantes Ergebnis in unserem Experiment schaltet dane-ben auch noch H0 aus.

4. Schlussfolgerung: Unsere Theorie H ist vermutlich eine wahre Be-schreibung der Ursachen von E.

Die wichtigste Frage an die eliminative Induktion ist natürlich immer,ob wir wissen und wie wir das begründen können, dass unsere Listeschon alle relevanten Konkurrenzhypothesen enthält. Im Falle der kon-trollierten Experimente versuchen wir durch die Randomisierung dieKonkurrenzhypothesen auszuschalten, ohne dass wir sie im Einzelnenüberhaupt kennen müssen oder aufzählen können. Sobald uns das ge-lingt, sind wir also fein raus. Doch das Verfahren ist nicht immer unpro-blematisch, wie wir in Kapitel 7 sehen werden.

In anderen Fällen sind wir auf weiteres Hintergrundwissen angewie-sen. Es handelt sich dabei meist um allgemeine kausale Annahmen ineinem bestimmten Bereich darüber, welche Ursachentypen hier über-haupt am Werke sind. Für die Medizin wurde das in dem oberen Bei-spiel deutlich. Aus der Physik wissen wir, dass es vier Grundkräfte gibt,die in unserer Welt wirken, die damit einen gewissen Rahmen dafür ab-stecken, welche Hypothesen noch plausibel in konkreten Fällen sind.Selbst für die Sozialwissenschaften haben wir eine relativ kleine Liste anAnsätzen, welche Faktoren wie etwa intentionale Zustände, Emotionenoder physiologische Zustände auf der Mikroebene wirken. Auch für dieMakroebenen lassen sich dann gewisse Einschränkungen erkennen, dieetwa durch die Forderung nach einer Mikrofundierung noch deutlicherwerden (vgl. Bartelborth 2007, Kap. V), die uns Hinweise dafür gebenkönnen, dass wir die plausibelsten Kandidaten für eine Beschreibung derUrsachen bereits alle aufgelistet haben. John Norton (2003) spricht fürseine Konzeption materieller Induktion davon, dass wir auf lokale mate-rielle Annahmen für unsere induktiven Schlüsse vertrauen müssen. Sokönnen wir diese meist bereichsspezifischen grundlegenden Annahmenbeschreiben. Empiristen würden sie vermutlich als metaphysische An-nahmen einordnen, da es sich um sehr grundlegende kausale Annahmendarüber handelt, wie unsere Modelle eines Bereichs beschaffen sein müs-sen.

Wir werden aber sehen, dass letztlich alle Ansätze induktiven Schlie-ßens auf derartige Listen angewiesen sind. Für die Bayesianer argumen-tiert Hawthorne (1993) dafür, dass das bereits im Bayesianismus ange-legt ist, während Earman (1992) explizit verlangt, dass die Bayesianerstärker die Techniken der eliminativen Induktion berücksichtigen soll-

Page 114: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 3: Qualitative Induktionsverfahren 102

ten. Die Bayesianer haben jedenfalls einen sehr einfachen Trick entwi-ckelt, um zu einer vollständigen Liste von Hypothesen zu gelangen.Wenn unsere Liste L={H1,...,Hn} von einander ausschließenden Hypo-thesen womöglich noch nicht vollständig ist, ergänzen sie sie um die so-genannte „Catch-all“-Hypothese H* ~(H1&...&Hn) ~H1...~Hn.Das ist allerdings genau genommen keine eigenständige substantielleHypothese und sie liefert insbesondere keine Wahrscheinlichkeiten bzw.Likelihoods für bestimmte Ergebnisse. Daher handelt es sich mehr umeinen formalen Trick, der uns nicht unbedingt wirklich weiterhilft (vgl.dazu auch Kap. 5). Unsere Einschätzung, dass unsere Liste bereits voll-ständig ist, lässt sich dann auch so ausdrücken, dass wir H* nur nocheine geringe Wahrscheinlichkeit wahr zu sein zubilligen. Doch das besagtnur, dass eine unserer Hypothesen H1,...,Hn vermutlich wahr sind unddaher H1&...&Hn eine hohe Wahrscheinlichkeit aufweist.

Einen anderen Weg gehen etwa die Likelihoodisten, die aus der Noteine Tugend machen. Sie ziehen sich darauf zurück, dass wir immer nurkomparative Bestätigungen erzielen können. Unsere Daten E liefern alsoimmer nur Aussagen der Form B(H1,H2:E), d.h., E bestätigt H1 mehr alsH2 und das wird eventuell noch quantifiziert, aber es wird nicht mit derBehauptung verbunden, dass damit H1 die am besten bestätigte Hypo-these überhaupt ist. Dabei stützen sie sich (wie der Name schon andeu-tet) auf die Likelihoodquotienten P(E|H1)/P(E|H2) oder den Logarith-mus davon (s.u.). Doch wenn wir uns auf diese komparativen Bestäti-gungen in konkreten Entscheidungen stützen müssen, bleibt uns letztlichnichts anderes übrig, als nach der Hypothese zu suchen, die gegenüberallen anderen uns gerade bekannten Konkurrenzhypothesen aus diesemBereich jeweils besser bestätigt ist. Natürlich ist sie unser bester Tipp,wenn dann noch gewisse Randbedingungen erfüllt sind, die wir im Kapi-tel über den Schluss auf die beste Erklärung erörtern werden. Überhauptist es meine Strategie zu argumentieren, dass die eliminative Induktioneine Unterform und somit ein Teil des abduktiven Schließens darstellt.Bird (2006) hofft dagegen noch, dass mehr oder weniger alle abduktivenSchlüsse dem einfacheren Schema der eliminativen Induktion gehor-chen, er übersieht dabei aber, dass die Falsifikationen unserer wissen-schaftlichen Theorien keineswegs so einfach sind, wie Popper sich dasvorstellte, sondern eher weiche Falsifikationen aufgrund von hartnäcki-gen Erklärungsanomalien darstellen. Wir kommen also schließlich nichtdarum herum, einen genauen Vergleich der Erklärungskraft der einzel-nen Theorien vorzunehmen, und damit befinden wir uns mitten im ab-duktiven Schlussverfahren.

Page 115: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

103 Thomas Bartelborth: Induktives Schließen

3.3 Die deduktiv-hypothetische TheorienbestätigungWenn es uns nicht gelingt, alle Konkurrenztheorien zu falsifizieren oderuns einen Überblick über alle Konkurrenzhypothesen zu verschaffen,zeigt sich ein Problem der eliminativen Induktion. Unsere Daten könnenintuitiv trotzdem noch eine bestimmte Theorie bestätigen, doch die eli-minative Induktion wird diesen positiven Aspekten nicht gerecht, diesich aus dem Eintreffen der Vorhersagen einer Theorie ergeben können.Wir müssen eine Theorie nicht unbedingt indirekt bestätigen, indem wirihre Konkurrenten schwächen oder eliminieren, sondern können durch-aus ebenso ihre zutreffenden Vorhersagen als direkte positive Bestätigun-gen der Theorie betrachten. Das ist eine erfolgreiche Praxis der Wissen-schaften. Aus der allgemeinen Relativitätstheorie folgte z.B. die überra-schende Vorhersage, dass das Licht im Schwerefeld der Sonne eine Ab-lenkung erfährt. Das konnte einige Jahre später im Rahmen einer Son-nenfinsternis tatsächlich bestätigt werden und wurde als enorm wichti-ges Indiz für die Richtigkeit der Relativitätstheorie eingestuft. Das zeigtdie Grundidee des deduktiv-hypothetischen Bestätigungskonzeptes. Da-nach wird eine Theorie durch ihre (deduktiv abgeleiteten) Vorhersagenbestätigt, wenn diese sich als wahr erweisen.

Allerdings hatten wir bereits gesehen, dass wir für deduktive Schlüsseaus Theorien auf Beobachtungsaussagen meistens darauf angewiesensind, weitere Hilfsannahmen hinzuzunehmen. Diese Hilfsannahmen soll-ten ihrerseits bereits induktiv gut gestützt also plausibel sein und natür-lich nicht allein schon unsere Beobachtung implizieren. Das zeigt, wiewir die Grundidee der deduktive-hypothetischen Theorienbestätigungnoch ergänzen müssen. Popper könnte ohne die Forderung der Plausibi-lität sonst einwenden, dass wir z.B. mit entsprechenden Ad-hoc-Annah-men Vielerlei ableiten können, das nicht wirklich Auskunft über unsereTheorie gibt.

Schema der deduktiv-hypothetischen Theorienbestätigung1. Wir starten mit einer Theorie T und plausiblen Hilfsannahmen A.2. Wir schlussfolgern deduktiv bestimmte beobachtbare Resultate E

aus T und A: T&A⊨E, aber es gilt nicht: A⊨E.3. Wir stellen fest, dass E tatsächlich beobachtet wird.4. Dann ist T durch E bestätigt bei gegebenem

Hintergrundwissen A: B(T:E;A)

Trifft E nicht ein und wir können definitiv non-E feststellen, dann gilt Tnatürlich als geschwächt durch diese Beobachtung im Rahmen des de-

Page 116: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 3: Qualitative Induktionsverfahren 104

duktiv-hypothetischen Verfahrens. Wir müssen aber nicht gleich voneiner Falsifikation sprechen.

Problematisch ist an dem deduktiv-hypothetischen Bestätigungsver-fahren vor allem, dass die Ableitung von Vorhersagen noch keinen in-haltlich relevanten Zusammenhang zwischen Theorie und Daten herstel-len muss. Wenn E aus T herleitbar ist, so ist es ebenso aus der Konjunk-tion T&H mit beliebigem H deduzierbar. Diese konjunktive Theoriewürde daher ebenso durch E bestätigt. Also würde ein beliebiges Hdurch E zumindest mitbestätigt. Das sollte eigentlich nur der Fall sein,wenn ein bestimmter relevanter Zusammenhang zwischen H und E be-steht. Wenn also T eine medizinische Theorie wäre und H eine astrolo-gische, könnten bestimmte Heilungserfolge, die T bestätigen, zugleichunsere astrologische Theorie H mitbestätigen. Das darf natürlich nichtpassieren. Hier müssen wir eine weitere Relevanzbeziehung zwischender bestätigenden Theorie und den Daten einfordern (s.u.).

Im Schluss auf die beste Erklärung bzw. der Abduktion wird zu die-sem Zweck später verlangt, dass die bestätigte Theorie H das Datum Eerklären muss, um durch E bestätigt zu werden. Die Abduktion vereintzudem alle Ideen der zuletzt genannten Induktionsverfahren. Doch be-vor wir uns den weiteren Problemen des deduktiv-hypothetischenSchließens und schließlich dem Schluss auf die beste Erklärung zuwen-den können, möchte ich noch kurz Hempels Bestätigungskonzeptionvorstellen, die zumindest einen Ausweg aus bestimmten Schwierigkeitendes deduktiv-hypothetischen Schließens bieten kann.

3.4 Hempels Instanzenkonzeption derTheorienbestätigung

Die formalen Konsequenzen dieser Bestätigungsansätze sind bereits1974 durch Wolfgang Lenzen ausführlicher untersucht worden. Insbe-sondere hat er zahlreiche Anforderungen an qualitative Bestätigungskon-zeptionen zusammengetragen und dann bewiesen, dass viele davon nichtwirklich im Paket zusammenpassen. Trotzdem sind einige dieser Anfor-derungen sicher hilfreich, um sich darüber klar zu werden, was wir voneiner solchen Konzeption der Theorienbestätigung möglicherweise er-warten dürfen. Daher möchte ich eine Auswahl davon kurz vorstellen,wobei mit H die Hypothesen bezeichnet werden und mit E die Daten(auf die Angabe weiteren Hintergrundwissens wird der Übersichtlichkeithalber verzichtet):

Page 117: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

105 Thomas Bartelborth: Induktives Schließen

Hempels Adäquatheitsbedingungen für Bestätigungsbeziehungen1. Spezielle Konsequenzbedingung

Wenn B(H:E) und H⊨H*, dann gilt auch: B(H*:E).2.*Konverse Konsequenzbedingung

Wenn B(H*:E) und H⊨H*, dann gilt auch: B(H:E).3. Konjunktionsbedingung

Wenn B(H:E) und B(H*:E), dann gilt: B(H&H*:E).4.*Konverse Konjunktionsbedingung

Wenn B(H&H*:E), dann gilt: B(H:E) und B(H*:E).5. Äquivalenzbedingung

Wenn B(H:E) und HH*, dann gilt: B(H*:E).6. Direkte Konsistenzbedingung

Wenn B(H:E), dann gilt nicht B(~H:E).7. Folgerungsbedingung

Wenn E⊨H, dann gilt: B(H:E).8.*Konverse Folgerungsbedingung

Wenn H⊨E, dann gilt: B(H:E).

Die meisten dieser Adäquatheitsbedingungen stammen direkt von Hem-pel, eine Ausnahme bilden die Bedingungen (4) sowie die Bedingungen(2) und (8), die von ihm diskutiert aber abgelehnt wurden. Die Ableh-nung der Bedingung (8) zeigt sogleich, dass Hempel kein Freund des de-duktiv-hypothetischen Ansatzes war, sondern einen dazu eigenständigenWeg vorschlug, der die anderen Adäquatheitsbedingungen erfüllen soll-te. Bedingung (1) sieht zunächst einmal sehr plausibel aus, denn mit derBestätigung einer Hypothese H sollte man natürlich zugleich auch dieAbschwächungen H* der Hypothese bestätigt haben. Doch das Problemist, dass sie nicht zu Bedingung (2) passt, diese aber vom hypothetisch-deduktiven Ansatz in jedem Fall erfüllt wird. Daher mussten die Vertre-ter dieses Ansatzes die an sich plausiblere Bedingung (1) ablehnen.

Diese Unverträglichkeit wird schnell deutlich, wenn wir annehmen,dass wir für unsere Hypothese H* eine Bestätigung E besitzen (alsoB(H*:E)) und wir nun eine beliebige Hypothese H’ konjunktiv zu H*hinzufügen. Dann gilt nach (2), dass auch diese Konjunktion durch E ge-stützt wird: B(H*&H’:E). Daraus folgt aber nach (1): B(H’:E). Da H’beliebig gewählt war, haben wir nachgewiesen, dass jede beliebige Hypo-these durch unser Datum E bestätigt wird. Das sollte natürlich unter kei-nen Umständen der Fall sein und bedeutet, dass (1) und (2) nicht mitein-ander verträglich sind. Leider erfüllt der deduktiv-hypothetische Ansatzwie gesagt automatisch (2) und daher müssen wir die eigentlich plausib-

Page 118: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 3: Qualitative Induktionsverfahren 106

lere Anforderung (1) zurückweisen oder sie muss entsprechend modifi-ziert werden, wenn wir am klassischen DH-Ansatz festhalten wollen.

In unserem Beispiel haben wir auch gleich einen Verstoß des hypo-thetisch-deduktiven Ansatzes gegen (4) zu verzeichnen, der gerade unserProblem auslöst. Verstöße gegen (4) werden auch als „tacking“-Paradoxoder als Problem der irrelevanten Konjunktionen bezeichnet. Das besagt,ich kann zu einer bestätigten Hypothese einfach beliebige Bestandteilekonjunktiv hinzufügen und die resultierende Konjunktion wird immernoch bestätigt, obwohl das noch keineswegs bedeutet, dass beide Kon-junkte bestätigt werden. Das wünscht man sich nicht, weil somit eigent-lich irrelevante Hypothesen in den Genuss einer Bestätigung kommen;es ist aber für das deduktiv-hypothetische Bestätigungsverfahren offen-sichtlich der Fall, da die deduktive Logik monoton ist. Klar dürfte jeden-falls wieder unsere Konjunktionsbedingung (3) sein, während (4) wün-schenswert erscheint, aber von vielen Bestätigungsverfahren, wie demhypothetisch-deduktiven, eben leider intuitiv nicht erfüllt wird. Wirwerden etwa im Bayesianismus auf das Problem der irrelevanten Kon-junktionen wieder zurückkommen.

Die Äquivalenzbedingung erscheint wiederum recht selbstverständ-lich zu sein, aber wir werden im sogenannten Rabenparadox sehen, dassauch sie nicht unbedingt harmlos ist. Die Konsistenzforderung (6) hilftuns zu vermeiden, dass wir sagen müssen: E spricht für H und sprichtzugleich gegen H. Was aber nicht ausgeschlossen wird, ist, dass einDatum für zwei konkurrierende Hypothesen gleichzeitig spricht. Neh-men wir etwa an, wir hätten 4 Karten aus einem Kartenspiel gezogenund dazu zwei Hypothesen gebildet: 1. Hypothese H, wonach alle Kar-ten Asse seien, und 2. Hypothese H*, wonach alle Karten Herz seien.Wenn wir nun erfahren, dass eine der Karten ein Herz-Ass ist, so wer-den dadurch beide Hypothesen ein Stück weit bestätigt, obwohl dieHypothesen einander ausschließen. Das muss also weiterhin gestattetsein, zumal wenn die beiden Hypothesen einen überlappenden „Erfolgs-bereich“ wie in unserem Beispiel aufweisen.

Die Folgerungsbedingung (7) sieht wieder sehr plausibel aus, denndeduktives Schließen ist eigentlich die stärkere Variante des Schließensund sollte als Grenzfall für das induktive Schließen erhalten bleiben. DieBedingung (8) stellt dagegen gerade die Idee des deduktiv-hypotheti-schen Schließens dar und wird daher in dem vorhergehenden Ansatz ak-zeptiert, aber von Hempel aufgrund der erwähnten Schwierigkeiten ab-gelehnt.

Page 119: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

107 Thomas Bartelborth: Induktives Schließen

Hempel (1943, 1945) versuchte nun zumindest die Adäquatheitsbe-dingungen ohne „*“ mit seiner Konzeption zu erfüllen. Seine Grundideeist leicht erläutert.

Hempels Instanzenbestätigung: Ein Datum E bestätigt eine Hypothe-se H genau dann, wenn die Einschränkung HD der Hypothese H aufdie Objekte D, die in den Daten wesentlich vorkommen, deduktivaus E folgt. Das heißt: BHempel(H:E) gdw. E⊨HD

Nehmen wir etwa an, unsere Datenaussage E sagt etwas über die Objek-te aus D={a, b} aus. Dabei sollen nur die wesentlich vorkommendenObjekte gezählt werden. Das sind solche, die in jeder logisch äquivalen-ten Formulierung auch vorkommen. Sonst könnten wir z.B. E* E&(Fc~Fc) als neues Datum wählen, das auch noch c erwähnt, ohneaber etwas Substantielles über c zu sagen. Solche technischen Tricks wer-den also ausgeschlossen, und man konzentriert sich auf die wesentlichvorkommenden Objekte in D. Dann können wir die Einschränkungenauf D leicht bestimmen, indem wir den Allquantor durch eine Konjunk-tion ersetzen und den Existenzquantor durch eine Disjunktion. Ist etwaH x(Fx), so ist HD Fa&Fb und für H x(Fx) ist HD FaFb.

Die Grundidee der Instanzenbestätigung ist nun recht einfach. Wennwir uns auf die wesentlichen Objekte aus unseren Beobachtungen be-schränken, dann sollen die Daten die Behauptung der Hypothese we-nigstens für diese Daten nachweisen. Dabei zeigen sich schon erste Pro-bleme, wenn wir mit Theorien arbeiten, die theoretische Terme enthal-ten, die wir in den Datenbeschreibungen so überhaupt nicht wiederfin-den. Aber wir beschränken unsere Aufmerksamkeit zunächst mehr aufdie einfacheren Hypothesen. Leider gibt es selbst dafür bereits techni-sche Probleme, die Hempel noch umgehen musste.

Betrachten wir etwa die beiden Hypothesen H x(Fx) und H* x(Fx)&Fc. Die sind offensichtlich logisch äquivalent und sollten dahernach der Äquivalenzbedingung gleichbehandelt werden, was aber fürHempels Konzeption bisher noch nicht der Fall ist, denn das Datum E Fa&Fb bestätigt zwar H, aber nicht H*, weil H*D nach unserer bisheri-gen Beschreibung gerade Fa&Fb&Fc ist. Wir müssen also noch solcheHypothesen wie H* verbieten oder die Einschränkung der HypotheseH* geeignet definieren (auf a und b beschränkt) oder einen entsprechen-den Weg mit dem gewünschten Ergebnis wählen, der logisch etwas um-ständlicher aussieht wie etwa bei Lenzen (1974, 72). Diese technischenDetails möchte ich nicht weiter verfolgen, da die Idee von Hempel be-

Page 120: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 3: Qualitative Induktionsverfahren 108

reits hinreichend klar geworden sein dürfte und sie nicht mehr im Zen-trum der Aufmerksamkeit steht.

Jedenfalls beschreibt die hempelsche Instanzenbestätigung einen An-satz, der zumindest bestimmte Fälle der oben genannten Probleme mitKonjunktionen vermeiden hilft. Haben wir zwei Hypothesen in einerKonjunktion H x(Fx)&x(Gx), so wird H nur dann durch einDatum E bestätigt, wenn beide Konjunktionsglieder durch E bestätigtwerden. Gilt etwa E Fa, dann wird HE nicht bestätigt, weil dazu HE Fa&Ga deduktiv aus E folgen müsste, was nicht der Fall ist. Allerdingskönnten immer noch Konjunktionsprobleme auftreten, wenn die beideHypothesen in H über unterschiedliche Individuenbereiche sprechen,wenn es sich also z.B. um geeignete Konditionale handelt, deren Anten-zedensbereiche sich nicht überschneiden. Also erfüllt selbst der hempel-sche Ansatz die Forderung (4) nur zum Teil. Der Gewinn durch die In-stanzenbestätigung ist also nicht so groß, dass er eine Wiederbelebungdieser Konzeption rechtfertigen würde. Daher versuchte man die Kon-junktionsprobleme direkt im Rahmen des hypothetisch-deduktiven An-satzes durch eine Relevanzlogik anzugehen.

3.5 Probleme der hypothetisch-deduktivenTheorienbestätigung

3.5.1 RelevanzproblemeDas erste Problem des hypothetisch-deduktiven Ansatzes ist bereits ge-nannt worden. Er ist zu liberal, wenn es darum geht, was alles mitbestä-tigt wird durch ein Datum E. Das versucht man z.B. durch eine Rele-vanzlogik zu beheben, nach der nur die Teile einer Hypothese bestätigtwerden, die tatsächlich erforderlich sind, um das Datum abzuleiten, diealso für die Ableitung tatsächlich relevant sind. Wenn wir die Prämissenals eine Konjunktion von einfachen Hypothesen (und einigen Hilfsan-nahmen) betrachten, werden dann nur die Hypothesen bestätigt, ohnedie eine Ableitung der Datenaussagen nicht mehr gelingt. Diese Prämis-sen gelten somit als relevant.

Der hypothetisch-deduktive Ansatz scheint allerdings auch zu liberalzu sein, was die Daten selbst (also die Konklusionen) angeht. Wenn Eaus H ableitbar ist, so ist auch EE* mit beliebigem E* aus H ableitbarund damit gilt: B(H:EE*). Das neue disjunktive Datum EE* ist aberschon dann nachgewiesen, wenn wir zeigen, dass E* wahr ist. Das hieße,dass das Vorliegen von E* bereits genügen würde, um H zu bestätigen:B(H:E*), was natürlich nicht der Fall sein sollte, da E* in überhaupt kei-

Page 121: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

109 Thomas Bartelborth: Induktives Schließen

ner Verbindung zu H stehen muss. Auch hier kann eine Relevanzlogikhelfen, die nur noch solche Daten als bestätigend zulässt, die tatsächlichzu den direkten Konsequenzen der Theorie gehören, bzw. die zum direk-ten Gehalt der Theorie gehören. Setzen sich die Konklusionen etwa auseiner Disjunktion von einfachen Beobachtungsaussagen zusammen, sosind nur die Beobachtungen relevant und bestätigend, die auch für sichschon aus der Theorie ableitbar sind.

Es geht also zum einen um eine Prämissenrelevanz und zum anderenum eine Konklusionsrelevanz, die in unseren Ableitungen zu fordern ist.Eine Idee von Schurz (vgl. 1991; 1994; 2005) ist dazu, dass irrelevanteBestandteile dadurch gekennzeichnet sind, dass sie inessentielle Subfor-meln enthalten. Das sind Formelteile, die durch andere Formelteile aus-getauscht werden können, ohne dass sich an der Gültigkeit der Ableitun-gen etwas ändert. Letztlich hat er diese Austauschbarkeitsforderungenallerdings auf die Prädikate in den Formeln bezogen:

Relevanz in logischen Schlüssen (Schurz 2006, 107)(1) Die Konklusion K eines gültigen Arguments ist relevant gdw. es

in K kein Prädikat gibt, das an einigen Vorkommnissen simultandurch ein beliebiges gleichstelliges Prädikat ersetzt werden kannund trotzdem der Schluss gültig bleibt.

(2) Die Prämissenmenge P eines gültigen Arguments ist relevantgdw. es in P kein Prädikat gibt, das an einem einzelnen Vor-kommnis durch ein beliebiges gleichstelliges Prädikat ersetzbarist und trotzdem der Schluss gültig bleibt.

Eine ähnliche Idee findet sich auch bei Ken Gemes (1998). Das ist sicherein großer Fortschritt, um solche Irrelevanzprobleme beim hypothetisch-deduktiven Schließen zurückzudrängen. Wir beschränken die Bestäti-gung einer Theorie T durch ein Datum E [B(T:E)] damit auf den Fall,dass T eine relevante Prämisse in der Ableitung der relevanten Konklu-sion E darstellt.

Leider ist der hypothetisch-deduktive Ansatz mit weiteren Schwierig-keiten behaftet. Eine solche Problematik (auch für andere Induktionsan-sätze) nennt Schurz in (2005). Es stellt sich die Frage, ob sie überhauptdie gesuchte Induktionseigenschaft aufweisen (vgl. Kap. 3.6). Rein for-mal betrachtet lässt sich eine Hypothese der Art H xFx immer inzwei logisch unabhängige Hypothesen aufspalten: H1 Fa und H2 x(xaFx). Das Datum E Fa bestätigt dann H1, aber nicht H2 hypo-thetisch-deduktiv. Damit bestätigt E in diesem Rahmen nur genau denTeil der Hypothese, der logisch aus E folgt, aber besitzt darüber hinaus

Page 122: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 3: Qualitative Induktionsverfahren 110

keine induktive Kraft, um ebenfalls den Rest der Hypothese zu stützen.Das ist allerdings gerade das Ziel induktiven Schließens. Im hempel-schen Instanzenansatz wird dieses Problem noch deutlicher. Der Ansatzsetzt sogar explizit darauf, dass der Teil der Hypothese bestätigt wird, indem er aus den Daten abgeleitet wird, der nur über die Daten spricht.Über den Rest der Hypothese machen wir damit keine weitere Aussage.Doch gerade das ist für das induktive Schließen die spannende Frage: In-wieweit werden alle Teile der Hypothese durch unsere Daten mitbestä-tigt? Hier sollte also z.B. sichergestellt sein, dass unsere Hypothesennicht so einfach zerlegt werden können und dann immer noch entspre-chende induktive Stützung erfahren, denn sonst sind es genau genom-men keine wirklich induktiven Bestätigungsverfahren mehr. In gewisserWeise geht es dabei wieder um eine Art von Relevanzproblem, denn dieFrage ist, welche Relevanz bzw. welchen Zusammenhang bestimmteDaten für eine Hypothese aufweisen. Sagen sie uns nur etwas über dendirekt betroffenen Teil der Hypothese oder geht ihre Bedeutung darüberhinaus? Auf das Thema komme ich wieder zurück. Es stellt leider einewesentliche Problematik für praktisch alle Induktionsverfahren dar.

3.5.2 Das Problem der theoretischen TermeEine andere Schwierigkeit des ganzen Bestätigungsverfahrens bilden diesogenannten theoretischen Terme. Jede fortgeschrittene wissenschaftlicheTheorie führt neue Begriffe ein, die sich auf unbeobachtbare Objekteoder Eigenschaften beziehen wie Neutrinos oder elektromagnetische Fel-der oder die soziale Kohäsion in einer Gesellschaft bzw. den Intelligenz-quotienten von Personen etc., um damit bestimmte Phänomene erklärenzu können. Wenn wir nun aus einer solchen Theorie einige Aussagen ab-leiten, wie dass die Emission eines Neutrinos oder ein bestimmteselektrostatisches Feld zu erwarten ist oder dass die soziale Kohäsiondurch bestimmte Maßnahmen gesteigert wird, dann liefern uns diese Ab-leitungen keine direkt durch Beobachtung entscheidbaren Aussagen unddaher keine Ableitungen von Daten. Wie kommen wir dann zu Daten-aussagen?

Hier möchte ich mich auf die Zweistufentheorie der logischen Empi-risten stützen, die ich kurz erläutern werde. Danach bestehen Theorienaus zwei unterschiedlichen Typen von Aussagen (rein theoretischen Ge-setzen und gemischten Brückenprinzipien s.u.), die beide einen gesetzes-artigen Charakter haben, aber eine etwas unterschiedliche Funktion. Da-zu wird zunächst das Vokabular in zwei Klassen aufgeteilt, nämlich dieBeobachtungsbegriffe und die übrigen Begriffe, die als theoretische Ter-

Page 123: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

111 Thomas Bartelborth: Induktives Schließen

me bezeichnet werden. Beobachtungsbegriffe sind von dem Typ, dass sichfür einfache Aussagen Ba, die nur den Beobachtungsbegriff B und denNamen für ein Objekt a enthalten, im Prinzip mit Hilfe einer entspre-chenden Wahrnehmung entscheiden lässt, ob sie wahr sind oder nicht.Schurz (2006, 61) verwendet noch eine etwas andere Charakterisierung,wonach Beobachtungsbegriffe dadurch ausgezeichnet sind, dass sie un-abhängig von unserem Hintergrundwissen ostensiv (also durch hinwei-sende Gesten) erlernbar sind. Auch wenn diese Abgrenzungen alle etwasvage bleiben, sollten i.w. klar sein, was wir unter Beobachtungsbegriffenverstehen wollen. Sie beziehen sich auf das, was wir direkt beobachtenkönnen, ohne dafür bereits Instrumente einzusetzen. Als weitere Datenhabe ich immer schon interpretierte Beobachtungen zugelassen, beidenen aus den direkten Beobachtungen bereits weitergehende Schluss-folgerungen gezogen wurden, aber wir müssen die grundlegende Proble-matik dabei zumindest einmal ansprechen (und werden u.a. im Rahmendes Bayesianismus noch einmal darauf zurückkommen, wie wir auch dieZuverlässigkeit der Daten beurteilen können).

Nach Ansicht der frühen logischen Empiristen müssten die theoreti-schen Terme idealerweise mit Hilfe von Beobachtungsbegriffen definiertwerden, damit sie eine entsprechende (empirische) Bedeutung für unsbesitzen und wir theoretische Aussagen so überprüfen können. Im soge-nannten Operationalismus wird etwa verlangt, dass sie zumindest eineoperationale „Definition“ aufweisen, d.h., dass wir zumindest für jedentheoretischen Term ein Messverfahren angeben können, das es erlaubt,den Term in jeder Situation zu messen, also den Wert zu bestimmen, dendie Größe annimmt, bzw. für qualitative Terme zu bestimmen, ob derAusdruck korrekt auf die Situation angewandt werden kann. Doch Car-nap (1968, Teil V) hatte schon bald eingesehen, dass derartige Forderun-gen zu weit gehen und die Realität der Wissenschaften nicht treffen.Eine echte Reduktion auf die Beobachtungsbegriffe ist für die meistentheoretischen Terme nicht zu erwarten und entspricht auch nicht ihrerFunktion in der Theorienbildung. Deshalb entwarf er die deutlichschwächeren Anforderungen der Zweistufentheorie, nach der wir zu-nächst die zwei Stufen von Begriffen und Aussagen unterscheiden: dieBeobachtungsebene und die theoretische Ebene. Zwischen denen gibt esallerdings Verbindungen in Form sogenannter Brückengesetze, die Aus-drücke aus beiden Ebenen enthalten. Ein Beispiel dafür finden wir imKraftgesetz von Lorentz, nach dem die Kraft auf einen elektrisch gelade-nen Probekörper mit Ladung q in einem elektrischen Feld E geradeF=qE (als Vektorgleichung) beträgt. Dabei ist das elektrische Feld E

Page 124: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 3: Qualitative Induktionsverfahren 112

unser theoretischer Term und zumindest die Kraft F in dem Gesetz istbeobachtbar oder wenigstens durch weitere Brückengesetze schließlichmit beobachtbaren Größen wie der Auslenkung einer Federwaage ver-bunden. Vermutlich ist die Ladungsgröße q ebenfalls als theoretischerTerm zu betrachten, der u.a. durch das Kraftgesetz, aber vielleicht nochandere Gesetze etwa aus dem Bereich der elektrochemischen Zusam-menhänge mit Beobachtungsgrößen verknüpft werden kann.

Die (partielle) Bedeutung eines theoretischen Terms ergibt sich imRahmen der Zweistufentheorie durch seine Stellung sowohl in reintheoretischen Gesetzen (in unserem Beispiel des elektrischen Feldes etwain den maxwellschen Gleichungen) und durch seine Verbindung in Brü-ckengesetzen mit beobachtbaren Größen (in unserem Beispiel also durchdas lorentzsche Kraftgesetz). Erst durch solche Brückengesetze sind dietheoretischen Größen in bestimmten (einzelnen) Anwendungen derTheorie messbar, oder es lassen sich aus theoretischen Aussagen zumin-dest mit ihrer Hilfe Beobachtungsaussagen ableiten, die wir dann über-prüfen können. Auf diese Brückengesetze sind wir also im Rahmen derhypothetisch-deduktiven Theorienbestätigung angewiesen, aber auch imRahmen anderer induktiver Begründungsverfahren. Sie stellen erst dieVerbindung von der rein theoretischen Ebene zu bestimmten Beobach-tungen her. Wir können sie als Teile der Theorie betrachten oder zu denHilfsannahmen rechnen, sollten uns aber auf jeden Fall ihrer besonderenRolle bei Theorientests bewusst werden. In Kapitel 5.4.6 werden wirnoch eine konkrete Anwendung der Zweistufenkonzeption auf den Be-griff der Propensität kennenlernen, bei dem auch deutlich wird, dass wirnoch weitere Unterbestimmtheiten für theoretische Terme zu akzeptie-ren haben.

Wir können die zwei Stufen auch durch mehrere Stufen ersetzen unddavon ausgehen, dass der Aufbau der theoretischen Begriffe durch meh-rere Theorien schrittweise geleistet wird, wie ich das für den Begriff deselektrischen Feldes schon angedeutet hatte: elektrisches Feld – Kraft –Auslenkung einer Federwaage. Das wird etwa im Rahmen der struktura-listischen Theorienauffassung so gesehen (vgl. Gähde 1983), soll aberhier nicht weiter thematisiert werden. (Genauer gesagt müssten wir da-für ein Konzept von T-Theoretizität einführen, wonach ein Term theore-tisch relativ zu einer bestimmten Theorie T ist, wenn er nicht bestimm-bar ist innerhalb von Vortheorien zu T, die selbst näher an der empiri-schen Basis liegen, als es für T der Fall ist. Die Kraftfunktion ist dann zu-mindest mit Hilfe der mechanischen Vortheorien zur Elektrodynamikbestimmbar; vgl. Bartelborth 1987.)

Page 125: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

113 Thomas Bartelborth: Induktives Schließen

Das Problem der theoretischen Terme hat jedenfalls wiederum deut-lich gemacht, dass wir neben den Kerngesetzen einer Theorie auf weite-re Annahmen angewiesen sind, um Datenaussagen ableiten zu können.Wie schon im Falsifikationismus spielen die Hilfsannahmen allgemeineine wichtige Rolle bei der Ableitung von Beobachtungsaussagen. DerVorteil des deduktiv-hypothetischen Bestätigungsansatzes gegenüber derkonservativen Induktion oder hempelschen Instanzenbestätigung ist je-doch, dass es überhaupt möglich ist, Theorien mit theoretischen Termenzuzulassen. Dabei bleibt wieder das Problem, dass wir auf plausibleHilfsannahmen angewiesen sind und sich mit der Hilfe geeignet ausge-dachter Ad-hoc-Annahmen potentielle Misserfolge der Theorie zu ein-fach in erfolgreiche Bestätigungen verwandeln lassen. Hier wird u.a. zufordern sein, dass zumindest die betrachteten zusätzlichen Hilfshypothe-sen – wie die Brückenprinzipien selbst – wieder einen gesetzesartigenCharakter haben. Es zeigt sich zugleich die Problematik, dass es unsauch im Zusammenhang mit Brückengesetzen nicht immer gelingenmuss, Beobachtungsaussagen aus einer Theorie abzuleiten. Das wurdenur im Operationalismus sichergestellt, aber nicht mehr innerhalb derZweistufenkonzeption. Hier bleibt sicher Raum für weitere Debattenund mögliche Verschärfungen der Konzeption, wonach es uns zumindestin einzelnen Anwendungsfällen gelingen sollte, mit Hilfe der Brückenge-setze eine Messung der theoretischen Terme durchzuführen.

3.5.3 Unterbestimmtheit und probabilistische TheorienEin weiteres grundlegendes Problem der hypothetisch-deduktiven Theo-rienbestätigung besteht darin, dass wir zwar deduktiv aus den Theorien(und gewissen Hilfsannahmen) auf die Daten schließen, aber aus denDaten nur induktiv auf die Theorien. Es scheint zwar intuitiv nahelie-gend zu sein, dass erfolgreiche Vorhersagen einer Theorie für dieseTheorie sprechen, andererseits bleibt ein wichtiges Problem außen vor:Wenn gilt T⊨E, so sagt das noch nichts darüber, ob es nicht viele andereTheorien T* gibt, für die das Gleiche gilt: T*⊨E. Die Hilfsannahmenlassen wir hier einmal weg. In ihnen können sich unsere beiden Fälle na-türlich ebenfalls noch unterscheiden. An dieser Stelle tritt eine Unterbe-stimmtheit der Theorie durch die Daten besonders deutlich zu Tage.Unsere Bestätigung der Theorie T durch E sagt uns noch nichts über dieKonkurrenz. Man könnte geradezu behaupten, ihr fehle das komparativeElement. Haben wir etwa 20 plausible Theorien, die alle diese Ableitunggestatten, werden wir wohl kaum sagen können, dass T in diesem Fallwesentlich bestätigt wurde. Es fehlt an dieser Stelle eine Liste L von

Page 126: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 3: Qualitative Induktionsverfahren 114

Theorien, bei der wir über Gründe verfügen, anzunehmen, dass sie alleplausiblen Konkurrenten enthält, die es ebenso gestatten, E abzuleiten.Dann könnten wir z.B. zumindest Vergleiche anstellen, welche der Theo-rien auf die gewagteren Hilfsannahmen angewiesen ist. Allerdings bleibtdann immer noch das Problem, dass es im hypothetisch-deduktiven An-satz keinen guten Vergleichsmaßstab dafür gibt, welche der Theoriendurch unsere Daten besser bestätigt werden. Das zumindest müsste er-gänzt werden, wenn wir auf diesem Weg ein umfassendes Induktionsver-fahren gewinnen wollen. Oder wir müssten auf den glücklichen Fall tref-fen, dass unsere Liste von vornherein nur eine Einer-Liste ist.

Das Unterbestimmtheitsproblem verschärft sich noch weiter, wennwir probabilistische Theorien betrachten. Zunächst haben wir dort dasProblem, dass keine konkreten Beobachtungsaussagen mehr ableitbarsind. Natürlich lassen sich gewisse probabilistische Aussagen (im Ex-tremfall die Hypothese selbst) deduktiv ableiten. Aber das sind keineDatenaussagen. Wir können die Wahrheit dieser „Vorhersagen“ nichtdurch einfache Beobachtungen oder Messungen entscheiden. Wir müs-sen unser Verfahren an dieser Stelle also schon erheblich abwandeln.

Man könnte daran denken, ein Datum als Bestätigung einer probabi-listischen Theorie zu betrachten, wenn es in den sogenannten Akzeptanz-bereich A der Theorie fällt, auf den wir in Kapitel 6 noch genauer einge-hen werden. Nehmen wir an, unsere Hypothese H besage, dass dieWahrscheinlichkeit für Kopf bei einer bestimmten Münze gerade 0,6 sei.Dann konstruieren wir einen Zurückweisungsbereich Z – wie oben schonerwähnt – als Menge der Resultate, die zusammengenommen eine Wahr-scheinlichkeit von unter 5% aufweisen, wenn wir einmal H als wahr an-nehmen: P(Ergebnis in Z|H). Für 10 Würfe wäre das etwa die MengeZ={0,1,2,3}{8,9,10}. Dann sei A die dazu komplementäre MengeA={4,5,6,7}. Man könnte sagen, dass ein Resultat aus Z klar gegenunsere Hypothese spricht. So hatten wir das oben schon als probabilisti-sche Falsifikation gedeutet, während ein Resultat aus dem Bereich A mitunserer Hypothese gut verträglich ist. Doch wir werden in Kapitel 6 dar-auf zurückkommen, dass ein Resultat aus A bestenfalls eine sehr schwa-che Stützung für H darstellt, insbesondere, weil es hier viele Hypothesengibt, die ebenso zu bestimmten Resultaten aus Z passen. Stellen sich et-wa 5 Köpfe ein, sind natürlich auch die Werte 0,45; 0,48; 0,55 etc. alsWahrscheinlichkeiten für Kopf geeignet. Jedes Mal liegt das Resultatwieder im Annahmebereich der Theorie. Wir erhalten so eine größereUnterbestimmtheit, weil hier viele Theorien zu unseren Daten passen.

Page 127: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

115 Thomas Bartelborth: Induktives Schließen

Während wir für probabilistische Theorien also ein probabilistischesFalsifikationsverfahren kennen (was jedoch auch problematisch ist, wiewir in Kapitel 6 sehen werden), gibt es kein sinnvolles zum Hypothe-tisch-deduktiven-Ansatz vergleichbares Bestätigungsverfahren für sie.Die Unterbestimmtheit wird zu groß, wenn wir alles als Bestätigung be-trachten, was im Akzeptanzbereich der jeweiligen Theorien liegt. Mankönnte daher zunächst sagen, dass sich für den Fall probabilistischerHypothesen die Poppersche These von der Asymmetrie von Falsifikationund Verifikation wiederfinden lässt.

Als Ersatz für eine direkte positive Bestätigung probabilistischerHypothesen bietet sich somit eher ein komparatives Verfahren an, aufdas ich im Kapitel 5 wieder zurückkommen werde. Wenn wir zwei pro-babilistische Theorien T und T* haben, die beide E mit einer gewissenWahrscheinlichkeit vorhersagen, dann könnten wir sagen, dass der Like-lihoodquotient der beiden Theorien bzgl. der Daten am ehesten das Aus-maß wiedergibt, indem E für T gegenüber T* spricht:

lq(T,T*:E) = P(E|T) / P(E|T*)

Das ist die Idee der Likelihoodisten, die dann noch gern zum Logarith-mus des Likelihoodquotienten übergehen, da wir damit ein Maß symme-trisch um den Nullpunkt herum erhalten, das für bestimmte Daten sogaradditiv ist.

LQ(T,T*:E) = log [P(E|T) / P(E|T*)]

Besteht E etwa aus einer Konjunktion von Daten E E1&...&En, die re-lativ zu unseren Theorien stochastisch unabhängig sind, dann gilt:

LQ(T,T*:E) = LQ(T,T*:E1)+...+LQ(T,T*:En)

Für L(T,T*:E) gilt hier, dass es genau dann größer als null ist, wenn dieTheorie T die Daten E „mehr voraussagt“ als es T* tut, wobei hierschwächende Daten und stützende Daten sogar auf einfache Weisegegeneinander aufgerechnet werden.

Schurz spricht allgemein von der Likelihood-Intuition und wir wer-den in Kapitel 5 noch das sogenannte Likelihood-Gesetz kennenlernen,nach dem ein Datum umso mehr für T spricht, je größer die Wahr-scheinlichkeit ist, die es dem Datum beilegt, je größer also P(E|T) ist.Der deduktive Fall ist dann der Grenzfall, dass T⊨E gilt und daherP(E|T)=1 ist.

Gerade wenn wir an das Ideal wissenschaftlichen Wissens denken,lässt der hypothetisch-deduktive Ansatz noch zu viele Fragen offen. Vor

Page 128: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 3: Qualitative Induktionsverfahren 116

allem die Unterbestimmtheitsproblematik wird hier nicht hinreichendgelöst. Man könnte sagen, die Existenz von Konkurrenztheorien, die dasDatum ebenfalls abzuleiten gestatten, unterminiert unsere hypothetisch-deduktive Theorienbestätigung. Obwohl der Ansatz also zunächst intui-tiv plausibel erscheint und viele Wissenschafter ihre Vorgehensweise soähnlich darstellen, fehlt doch noch etwas zu einem plausiblen Induk-tionsverfahren. Das wird m.E. erst im abduktiven Schließen zu findensein.

3.6 Die InduktionseigenschaftEin Problem für das hypothetisch-deduktive Schließen war darin zu se-hen, dass nicht klar ist, wie es die Induktionseigenschaft gewährleistenkann. Hier geht es uns speziell um die Bestätigung von Allhypothesenx(Hx) und die Induktionseigenschaft (IE), nach der sich die Bestäti-gung einer Hypothese von bestimmten Objekten auf andere überträgt:

Induktionseigenschaft (IE):Es gibt verschiedene Objekte a und b, für die gilt: B(Hb:Ha)

Es sollte doch zumindest für bestimmte Objekte a und b unserer Hypo-these der Fall sein, dass ein Nachweis, dass für a die Hypothese gilt, eineBestätigung dafür bietet, dass auch für andere Objekte b unsere Hypo-these zutrifft. Wäre das nicht der Fall, läge keine wirklich induktive Be-stätigung unserer Hypothese mehr vor, sondern jedes Datum würde nurden Teil der Hypothese stützen, der deduktiv aus dem Datum folgt. DerPunkt ist der: Ist unser Datum etwa E Ha&Hb&Hc, so können wireine Hypothese T xHx zerlegen in T1 und T2 mit: T1 Ha&Hb&Hcund T2 x(x{a,b,c}Hx). Offensichtlich wird nur T1 durch E bestä-tigt und das heißt, dass jede Stärkung von T2 entfällt. Also findet eigent-lich kein genuin induktives Schließen statt. (Die Bayesianer erreichen dieInduktionseigenschaft übrigens vor allem durch einen formalen Trickverbunden mit einer gewagten Annahme. Sie nutzen die Eigenschaft ab-zählbar unendlicher Mengen aus, dass es darauf keine Gleichverteilunggeben kann; s. Kapitel 5.)

Die Überlegungen zur Metaphysik induktiven Schließens machenschon deutlich, dass wir die Induktionseigenschaften nicht in jedem Fallerwarten dürfen, sondern nur für bestimmte Hypothesen, die wir alsprojizierbar einstufen. Das sind typischerweise solche Hypothesen, dieein nomisches Muster T i(FaiGai) beschreiben, bei dem es eine ge-setzesartige Verbindung zwischen den Eigenschaften F und G gibt. Nurwenn unsere Hypothese also einen gesetzesartigen Charakter hat, kön-

Page 129: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

117 Thomas Bartelborth: Induktives Schließen

nen wir die bisherigen Daten als Indiz dafür werten, dass gerade zwi-schen F und G tatsächlich ein entsprechender nomischer Zusammen-hang vorliegt und nur in dem Fall dürfen wir erwarten, dass der dannebenfalls für andere Objekte wiederzufinden ist, die wir noch nichtuntersucht haben.

Oder es muss zumindest eine Erklärungsverbindung im Sinne vonAchinstein vorliegen, der für eine Bestätigungsbeziehung verlangt, dassentweder Fai erklärt, warum Gai der Fall ist oder umgekehrt oder es zu-mindest eine Hypothese gibt, die beides zusammen erklärt. Die Ideescheint mir zu sein, dass wir zumindest im Hintergrund eine gesetzesarti-ge Beziehung annehmen müssen, die wir anhand von einzelnen beobach-teten Instanzen und weiterem Hintergrundwissen als begründet vermu-ten können und dann auf neue Instanzen anwenden dürfen.

Es sei F etwa die Eigenschaft, dass etwas ein Stück Metall sei und er-hitzt werde, während G die Eigenschaft darstelle, dass sich der betref-fende Gegenstand ausdehnt. Bisherige Beobachtungen erhitzter Metalleund unser Hintergrundwissen über die grundlegenden Gemeinsamkeitenvon Metallen begründen die Vermutung, dass Metalle eine bestimmtegesetzesartige Dispositionseigenschaft aufweisen, nämlich sich auszudeh-nen, wenn sie erhitzt werden. Das ist eine charakteristische Eigenschaftfür Metalle, die aus ihrer molekularen Struktur resultiert. Erst wenn einsolcher gesetzesartiger Zusammenhang gegeben ist, begründen bisherigeBeobachtungen unsere Vermutung, dass auch die nächsten Metalle, diewir erhitzen, sich wieder ausdehnen werden.

Nur in den Fällen, in denen wir also gewisse nomische Muster vermu-ten, bieten die bisherigen Daten zugleich einen Grund für eine Extrapo-lation. Sonst könnte bisher einfach nur ein zufälliges Zusammentreffeneiniger Objekte, die zugleich F und G sind, beobachtet worden sein. Zu-fällig waren alle Ingenieure, die wir kennengelernt haben blond. Dannextrapolieren wir trotzdem nicht einfach auf die Haarfarbe der nächstenIngenieure, die uns begegnen werden. Jedenfalls dann nicht, wenn wirnicht einen Grund zu der Vermutung haben, dass im Hintergrund einkausaler Mechanismus wirksam ist, der etwa die blonden Männer geeig-neter für den Ingenieursberuf macht, als es Männer mit anderen Haar-farben sind. Das zeigt wieder, dass die induktive Rechtfertigung keinerein syntaktische Beziehung zwischen Datenaussagen und Hypothesendarstellt, sondern eine weitergehende Beurteilung verlangt, ob es sichum eine gesetzesartige (und damit erklärende) Hypothese handelt odernicht. Das meinten wir u.a. damit, dass Induktion dreistellig ist. Erst fürnomische Muster sollten wir die Instanzenkonzeption oder den deduk-

Page 130: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 3: Qualitative Induktionsverfahren 118

tiv-hypothetischen Ansatz in seiner Relevanzvariante als vertretbare In-duktionsverfahren betrachten.

Wir können an dieser Stelle schon erste Hinweise erkennen, wie derAnsatz des abduktiven Schließens bzw. der Schluss auf die beste Erklä-rung (den wir uns als nächstes Induktionsverfahren genauer ansehenwerden) das Problem der Induktionseigenschaft lösen kann. Damit eineTheorie T ein Datum E erklären kann, müssen bestimmte metaphysischeAnforderungen erfüllt sein. Es muss in T ein gesetzesartiger kausaler Zu-sammenhang beschrieben werden, der zusammen mit den konkretenUrsachen aufzeigt, wie es zu E kam. Ein solcher gesetzesartiger Zusam-menhang (ein nomisches Muster) ist aber nicht mehr einfach in Teilezerlegbar, denn die stellen selbst kein nomisches Muster mehr dar, son-dern haben nur noch den Charakter zufälliger Zusammentreffen. Erstdas Vorliegen der generellen Zusammenhänge erklärt und nur diese no-mischen Muster können auch als Ganzes durch die Daten gestützt wer-den. Das zeigt, wieso die Induktionseigenschaft in das abduktive Schlie-ßen geradezu eingebaut ist.

Die Argumentation für eine Extrapolation lautet dann so: Unser Hin-tergrundwissen sagt uns, dass, wenn überhaupt eine Beziehung zwischenF und G vorliegt, sie nomischen Charakter hat. Unsere bisherigen Datensprechen in dem Fall dafür, dass die Eigenschaft F die Eigenschaft G insystematischer (kausaler) Weise hervorruft. Daher erwarten wir beimnächsten Auftreten von F, dass wiederum G vorliegt. Wir stützen uns al-so darauf, dass gewisse grundlegende Zusammenhänge zwischen be-stimmten Eigenschaften in unserer Welt stabil bestehen bleiben und da-her extrapolierbar sind, während es daneben viele zufällige Zusammen-treffen gibt, die keinen Anlass zu einem solchen Fortschreiben geben.Das entspricht dem Unterschied zwischen zufälligen Korrelationen undkausalen Beziehungen. Nur die letzteren können wir für gute Vorhersa-gen einsetzen.

Wir suchen dazu in unserem Alltag ganz gezielt nach solchen nomi-schen Mustern, die auch Erklärungskraft besitzen. Wir tendieren sogardazu, vorschnell solche Muster zu „erkennen“. Selbst in der Wissen-schaft neigen wir dazu, aus Korrelationen vorschnell auf Kausalzusam-menhänge zu schließen. Wir alle kennen die vielen Meldungen aus derMedizin, wo man bestimmte korrelative Zusammenhänge zwischen Er-nährung und Krankheiten festgestellt hat, wonach etwa diejenigen, dieRotwein trinken weniger Herzinfarkte haben als die Abstinenzler unddann bald Rotwein als wirksamer Herzschutz verkauft wird. Psycholo-gen haben diese Neigung zum Auffinden erklärender Muster genauer

Page 131: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

119 Thomas Bartelborth: Induktives Schließen

untersucht und konnten etliche Fehlschlüsse darauf zurückführen. IhrResümee ist:

To live, it seems, is to explain, to justify, and to find coherenceamong diverse outcomes, characteristics, and causes. With practicewe have learned to perform these tasks quickly and effectively. (Gilo-vich 1991: 22)

Unser in vielen Hinsichten recht erfolgreicher Umgang mit unserer Um-welt zeigt aber auch, dass wir dabei oft richtig liegen und durchaus be-achtliche Vorhersageerfolge verbuchen können. Jedenfalls ist das hypo-thetisch-deduktive Schließen so um eine metaphysische Komponente zuergänzen. Erst wenn wir Grund zu der Annahme haben, dass gewisse no-mische Muster vorliegen, sollten wir die Vorhersageerfolge zugleich alsIndikatoren für die Wahrheit unserer Hypothesen betrachten und in wei-teren Extrapolationen darauf (mit der nötigen Vorsicht bei induktivenSchlüssen) vertrauen.

Übrigens findet sich hier ebenso eine erste Antwort auf den Induk-tionsskeptiker. Wieso glauben wir, in bestimmten Fällen extrapolierenzu dürfen? Weil wir annehmen, dass es in unserer Welt stabile nomischeMuster gibt und uns manche Daten Hinweise auf solche Muster liefern,so dass wir danach diese Muster für Vorhersagen einsetzen können. DieÜberlegungen zur konservativen Induktion hatten schon gezeigt, dasswir nicht immer auf einfache Weise extrapolieren dürfen, aber in denFällen, in denen wir eine kausale gesetzesartige Verbindung zwischen be-stimmten Eigenschaften aufgedeckt haben, ist genau das unsere Berechti-gung für zukünftige Fälle davon auszugehen, dass diese Verbindung wei-terhin Bestand hat und wir daher schließen dürfen, wenn ein weiteresObjekt F aufweist, dass es dann ebenfalls G aufweist.

Es bleibt natürlich noch die schwierige Frage zu beantworten, wiewir Kenntnis der kausalen gesetzesartigen Zusammenhänge erlangen.Letztlich sind wir dafür natürlich wiederum auf bestimmte induktiveSchlüsse angewiesen. Die haben allerdings einen speziellen Charakterund deshalb werde ich mich diesen Schlüssen im Kapitel 7 gesondert zu-wenden. Wir sind auf ganz spezielle Annahmen über unsere Welt ange-wiesen, um hier zumindest in einem ersten Schritt einfache Kausalbezie-hungen aufdecken zu können, auf die wir uns dann in weiteren indukti-ven Schlüssen stützen dürfen, um zu weitergehenden Kausalhypothesenaufsteigen zu können.

Natürlich wird das alles einen hartleibigen Skeptiker nicht überzeu-gen können. Er antwortet darauf z.B.: Woher willst Du wissen, dass die-

Page 132: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 3: Qualitative Induktionsverfahren 120

se gesetzesartige Beziehung (selbst wenn wir einmal akzeptieren, dass sieheute gilt) weiterhin und insbesondere morgen Bestand hat? Sie könntenur bis heute gelten, und ab morgen gelten ganz andere Naturgesetze.Und natürlich haben wir keine zwingenden Gründe für diese Art vonVorhersageverfahren und für das Fortbestehen der Gesetze bzw. nomi-schen Muster in unserer Welt. Das sind grundlegende Annahmen unse-res Modells der Welt, die sich bewährt haben, die aber gegen einen radi-kalen Skeptiker nicht zu verteidigen sind. Besonders ein konsequenterEmpirist wird sie als zu metaphysisch ablehnen, doch damit verliert erdie Möglichkeit, zwischen sinnvollen Extrapolationen und unsinnigenzu unterscheiden in seinem Modell der Welt. Er kann so unsere Induk-tionspraxis nicht mehr angemessen erklären oder verstehen. Das sollteeinen guten Grund für uns darstellen, ein metaphysischeres Bild derWelt zu akzeptieren, das besser zu unserer erfolgreichen wissenschaftli-chen Praxis passt. Oder wir sollten uns überhaupt nicht erst darauf ein-lassen, uns von Empiristen diktieren zu lassen, was als metaphysisch unddamit problematisch zu gelten hat. In der Wissenschaft und bereits imAlltag gehen wir in unseren Annahmen über unsere Umgebung immerschon über das hinaus, was sich direkt durch Beobachtungen nachweisenlässt, und das zeigt in unserem Umgang mit unserer Umwelt große Erfol-ge. Insbesondere sind wir für Erklärungen (vgl. Bartelborth 2007) undjetzt auch für induktive Schlüsse immer wieder auf Annahmen über diekausale Grundstruktur in unserer Welt angewiesen, die selbst nur sehrindirekt empirisch zu testen sind.

Der humesche Induktionsskeptiker wird natürlich das Argumentnicht gelten lassen, dass wir dieses Verfahren weiter einsetzen sollten,weil es uns in der Vergangenheit so gute Dienste geleistet hat. Unserebeste Erwiderung ist dann, dass es immer noch besser ist, einem Verfah-ren zu vertrauen, das in der Vergangenheit gut funktioniert hat und dasuns sagt, wie wir aus gemachten Erfahrungen lernen können, um damitzukünftige Entwicklungen vorherzuplanen, als sich den Standpunkt desSkeptikers zu eigen zu machen, wonach wir keinem Verfahren vertrauendürfen und wir dann ganz ohne Leitschnur für unsere Entscheidungendastehen. Immerhin könnten wir ja zumindest Recht behalten mit unse-rer Annahme, dass die Naturgesetze Konstanten in unserer Welt darstel-len, die eine Extrapolation in die Zukunft erlauben. Für uns selbst be-sitzt diese Idee daher eine gewisse Überzeugungskraft und rundet unserModell der Außenwelt in kohärenter Weise ab. Dafür können wir unskaum die Anforderungen des radikalen Skeptikers zum Maßstab neh-men, sondern müssen an weniger radikale Herausforderungen denken.

Page 133: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

121 Thomas Bartelborth: Induktives Schließen

Sind diese starken Annahmen aber tatsächlich erforderlich? Wirschließen doch selbst in den Fällen induktiv, in denen wir keine derarti-gen Annahmen voraussetzen. Denken wir an folgende kritische Beispie-le: Wir schließen vom fallenden Barometer auf den herannahendenSturm oder von gelben Fingern auf ein erhöhtes Lungenkrebsrisiko odervom Fieber und Gliederschmerzen auf die Grippe. In all diesen Fällenstellt die erste Eigenschaft keine Ursache der zweiten dar. Allerdings ste-hen bestimmte kausale Beziehungen im Hintergrund dieser Schlüsse.Der fallende Luftdruck verursacht sowohl das Fallen des Barometers wiedas Aufziehen des Sturms. Es gibt also eine erklärende Beziehung zwi-schen unseren beiden Tatsachen. Außerdem verlangen diese Schlüssenach entsprechenden speziellen Voraussetzungen. Wir schließen anhandsolcher indirekten nomischen Muster nur, wenn diese Voraussetzungennach unserem besten Wissen tatsächlich vorliegen. Es darf z.B. keineIntervention am Barometer vorliegen, d.h., es darf nicht der Fall sein,dass das Barometer vom Luftdruck „abgekoppelt wurde“, indem esschlicht von Hand auf einen bestimmten Wert eingestellt wurde. Solltedas der Fall sein, würden wir es nicht mehr für entsprechende Vorhersa-gen des Sturms einsetzen.

Echte nomische Muster sind hingegen sogar stabil unter vielen Inter-ventionen. So hilft es zwar nicht, die gelben Finger zu verhindern, umsein Lungenkrebsrisiko zu senken, aber es hilft natürlich schon, wennwir das dazu führende Rauchverhalten ändern und am besten ganz mitdem Rauchen aufhören. Eine Intervention im Hinblick auf das Rauch-verhalten lässt den Zusammenhang zwischen Rauchverhalten und Lun-genkrebs unverändert bestehen (s. Kap. 3.7) und lässt so entsprechendeVorhersagen zu, welche Auswirkungen derartige Interventionen mit sichbringen werden. Sie führen schließlich zu Veränderungen des Lungen-krebsrisikos. Entscheidend sind in all diesen Fällen die vorliegenden no-mischen Muster bzw. das Vorliegen stabiler kausaler Mechanismen undnicht nur die auftretenden Regularitäten. Nur auf diese Weise ist unserWissen für praktische Zwecke nutzbar.

Im dritten Fall haben wir es schließlich mit einer umgekehrten Kau-salbeziehung zu tun. Die Grippe verursacht bestimmte Symptome, an-hand derer wir sie wieder im Sinne des abduktiven Schließens erschlie-ßen dürfen. Auch hier können Interventionen an den Symptomen zu fal-schen induktiven Schlüssen führen. Korrektes induktives Schließen setztalso wiederum eine im Wesentlichen korrekte Kenntnis der kausalen no-mischen Zusammenhänge voraus. Das zeigt sich schließlich ebenso inden Fällen, in denen wir nicht einmal mehr indirekte nomische Zusam-

Page 134: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 3: Qualitative Induktionsverfahren 122

menhänge vermuten. Wenn z.B. bisher immer ein Mensch mit dem 3.Buchstabe A im Vornamen den Raum betreten hat, sobald Hanna eine 3gewürfelt hat, so werden wir nun keineswegs schließen, dass das auchbeim nächsten Wurf von Hanna zu erwarten ist. Sobald F und G sich aufMengen beziehen, die keine natürlichen Arten darstellen, erhalten wirnormalerweise keine projizierbaren Aussagen mehr, die wir durch Beob-achtung von Instanzen weiter begründen können. Das ist auch nicht zuerwarten, denn die Objekte weisen in solchen Fällen keine wesentlichengemeinsamen Merkmale mehr auf, d.h., sie zeigen kein ähnliches kausa-les Verhalten, das wir für die Projektion in die Zukunft benötigen. Dasgilt etwa für Prädikate wie „Gegenstände, die Franz gehören“ oder auchPrädikate vom „grue“-Typ, denen wir in Goodmans Grue-Paradox be-gegnen werden.

Sogar in den Fällen, in denen zwei Prädikate für vermutlich natürli-che Arten verknüpft werden, die zu verschiedenen Bereichen gehören,dürfen wir nicht sogleich auf Projizierbarkeit setzen. Manche Philoso-phen wie Davidson argumentieren etwa dafür, dass wir keine gesetzesar-tigen Zusammenhänge zwischen mentalen Eigenschaften und neurona-len Eigenschaften erwarten dürfen, selbst wenn es zumindest einfachegenerelle Zusammenhänge in jedem der beiden Bereiche gibt.

Deutlicher wird das noch für einen Mix chemischer Konzepte undsolcher aus dem menschlichen Bereich – etwa für Artefakte. Wenn bisheralle uns bekannten Löffel aus Metall waren, muss sich das keineswegs sofortsetzen. Wir dürfen für Löffel vielleicht eine gewisse Grundform oderbestimmte basale Funktionalitäten extrapolieren, aber viel mehr ist nichtzu erwarten. Insbesondere finden wir hier keine echten nomischen Mus-ter für solche „gemischten“ Aussagen. Nun möchte ich allerdings nichtgleich argumentieren, dass es sich bei Löffeln überhaupt nicht mehr umeine natürliche Art handelt und daher keine Projizierbarkeit vorliegt.Die Übergänge scheinen mir eher fließend zu sein und das überträgt sichauch auf den Begriff des nomischen Musters. Doch was ist damit genaugemeint?

3.7 Nomische MusterDas Konzept der nomischen Muster ist gedacht als eine Abschwächungbzw. als Ersatz für das Konzept von Naturgesetzen. Dabei soll es zumeinen die philosophischen Aufgaben übernehmen, die wir Naturgesetzenzugedacht haben, und zugleich einige der schwierigsten Probleme lösen,die wir mit dem Begriff der Naturgesetze verbinden. An zahlreichenStellen stützen sich Philosophen auf eine bestimmte Konzeption von Na-

Page 135: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

123 Thomas Bartelborth: Induktives Schließen

turgesetzen und versuchen mit ihrer Hilfe philosophische Probleme zuklären. Dabei sind vor allem zwei Probleme für Naturgesetze aufgetre-ten, für die das Konzept der nomischen Muster eine Lösung anbietensoll. Das erste notorische Problem ist die Auszeichnung von Naturgeset-zen und ihre Abgrenzung gegenüber anderen Aussagen insbesondere All-aussagen wie:

(1) Zu allen Zeiten fließt in allen Flüssen insgesamt mehr Wasserals Coca-Cola.

Diese Aussage ist sicher kein Naturgesetz, besitzt aber den logischenCharakter einer Allaussage ähnlich wie typisch naturwissenschaftlicheBehauptungen wie z.B. das newtonsche Gravitationsgesetz.

Das zweite Problem betrifft die Anwendungen unseres Konzepts derNaturgesetze. Häufig wird als ein wesentliches Merkmal der Wissen-schaften (etwa in der Abgrenzungsdebatte mit dem Kreationismus) ge-nannt, dass die Wissenschaften Naturgesetze ermitteln und dass sie mitderen Hilfe bestimmte Phänomene erklären und vorhersagen. Doch invielen Wissenschaften wie etwa den Sozialwissenschaften und der Biolo-gie lassen sich nur schwer strikte Gesetze ausmachen. Vielmehr stoßenwir auf einfache Generalisierungen, die wir trotzdem zum Erklären ein-setzen:

(2) Je mehr Wasser und Dünger eine bestimmte Pflanze erhält,umso stärker wächst sie. Oder:

(3) Je höher die Intelligenz einer Person ist, umso erfolgreicher istsie im Beruf.

Derartige Allaussagen stellen (selbst wenn sie wahr sind) keine striktenNaturgesetze dar, denn von solchen Gesetzen erwarten wir, dass sie aus-nahmslos gelten und nicht auf bestimmte Anwendungsbereiche einge-schränkt sind. Eine Hilfskonstruktion war immer zu sagen, dass es sichum Ceteris-paribus-Gesetze handelt. Doch es bleibt meist unklar, was einCP-Gesetz CP(G) genau behauptet. CP(G) sollte jedenfalls mehr besagenals: G gilt, außer es handelt sich um einen Ausnahmefall. Hier droht dievöllige Inhaltslosigkeit von CP(G) (vgl. Bartelborth 2007).

Kritiker haben zusätzlich eingewandt, dass CP-Gesetze überhauptkeine Gesetze mehr sind und wir durch die Namensgebung eigentlicheine Irreführung begehen. Insbesondere bleibt jedenfalls die Frage zuklären, was CP-Gesetze von akzidentellen Aussagen vom Typ (1) unter-scheidet. Nomische Muster sollen hier Abhilfe schaffen und zugleich dieDebatte vermeiden, ob es sich noch um echte Gesetze handelt, die von

Page 136: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 3: Qualitative Induktionsverfahren 124

unterschiedlichen Autoren unterschiedlich beantwortet wird. Man gibtnun zu, dass es sich um etwas anderes handelt, wobei allerdings alsGrenzfall weiterhin die Naturgesetze enthalten sind.

Nomische Muster sind Generalisierungen, die typischerweise kausaleAbhängigkeiten beschreiben und dabei eine spezielle Invarianz bzw. Sta-bilität aufweisen. So behaupten wir in (2), wenn wir es als ein nomischesMuster betrachten, dass wir bestimmte gezielte Manipulationen (oderInterventionen) an dem jeweiligen System durchführen können, unterdenen die Behauptung (2) weiterhin gilt bzw. invariant ist. Den Begriffder Intervention finden wir genauer (und zumindest semiformal) erläu-tert in den Kausaldebatten (etwa bei Woodward 2003), werden ihn abersogleich intuitiv erklären. Um deutlicher zu machen, welche Invarianzenhier entscheidend sind, werden die Abhängigkeiten häufig durch eineeinfache Gleichung für ein System s dargestellt, wie etwa in:

(2*) Pflanzenwachstum(s) = aWassermenge(s) + bDünger(s) + c

Hierbei sind a, b und c einfach reelle Zahlen und es wird ein linearerZusammenhang von Wassermenge und Dünger zum Pflanzenwachstumangenommen. Entscheidend ist nun, dass ein derartiger funktionaler Zu-sammenhang zumindest für einige Interventionen (in einem gewissenWertebereich) stabil bleibt, damit (2*) ein nomisches Muster beschreibt.Es muss zumindest einen nichttrivialen Bereich für die Wassermenge undeinen für die Düngermenge geben, in dem wir durch gezielte Verände-rung nur dieses einen Parameters die entsprechenden Veränderungen imPflanzenwachstum herbeiführen können, die von (2*) vorhergesagt wer-den. Also muss es zum Beispiel Situationen geben, in denen die gezielteVergrößerung der zugeführten Wassermenge bei einem Konstanthaltenaller anderen Einflussgrößen zu einem vermehrten Pflanzenwachstumführen würde. Das entspricht auch den typischen Fragestellungen inidealen Experimenten: Was würde passieren, wenn wir ganz bestimmteGrößen gezielt (als Intervention) verändern würden? Auf einige dieserkontrafaktischen Fragen muss ein nomisches Muster eine Antwort ge-ben. Je mehr dieser Fragen es korrekt beantwortet, umso stärker ist dasMuster. Diese Stabilität gilt außerdem in einem bestimmten Bereich vonRandbedingungen, d.h. die Muster zeigen diese Invarianz in einem be-stimmten Bereich, den wir für die Bestimmung der Stärke eines Mustersmit berücksichtigen müssen (vgl. Kap. 4.3.2).

Was hier verlangt wird, kann durch einen Vergleich mit einem nicht-nomischen Muster verdeutlicht werden. Nehmen wir einmal an, es gilttatsächlich der folgende Zusammenhang:

Page 137: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

125 Thomas Bartelborth: Induktives Schließen

(4) Je gelber die Finger einer Person sind, umso höher ist ihr Lun-genkrebsrisiko.

Dieser Zusammenhang besteht, weil er durch das Rauchen vermitteltwird, das zum einen die Finger gelb einfärbt und zum anderen unserKrebsrisiko erhöht, und könnte sogar zu einer entsprechenden Glei-chung führen, die für einen gewissen Bereich Gültigkeit besitzt. Dochweder der einfach beschriebene Zusammenhang noch die entsprechendeGleichung wären stabil unter den entsprechenden Interventionen. Wür-den wir die Gelbfärbung der Finger vermindern, indem wir sie säubern,würde daraus keine Änderung des Lungenkrebsrisikos resultieren, jeden-falls dann nicht, wenn wir alle anderen Parameter (insbesondere dasRauchverhalten der Person) konstant halten. Das ließe sich sogar ineinem kontrollierten Experiment überprüfen. Mit der vermutlich wah-ren Generalisierung (4) erhalten wir also kein nomisches Muster. Sie istdaher nicht für Erklärungen und auch nur bedingt für Vorhersagen ge-eignet. Sie erlaubt bestimmte Vorhersagen, solange wir nicht in das Sys-tem gezielt eingreifen, aber gerade das interessiert uns in vielen Fällen.Wir möchten wissen, mit welchen Eingriffen wir bestimmte Veränderun-gen eines Systems herbeiführen können. Das beantworten nomischeMuster, aber nicht bloße Korrelationen wie die in (4) genannte. Mit no-mischen Mustern können wir daher auch erklären, warum ein bestimm-tes Pflanzenwachstum auftritt, während die gelben Finger keineswegsdas Lungenkrebsrisiko erklären.

Nomische Muster sind damit die Beschreibungen bestimmter grund-legender Dispositionen in unserer Welt, oder wir können mit „nomischeMuster“ auch diese Zusammenhänge selbst meinen, also in unserem Falldie zugrundeliegenden stabilen Dispositionen. Ähnlich mehrdeutige Ver-wendungsweisen finden sich ebenso im Fall des Gesetzesbegriffs und derKontext sollte jeweils deutlich machen, welche Lesart intendiert ist.

Insbesondere physikalisch sehr grundlegende Dispositionen erzeugenrelativ stabile kausale Zusammenhänge mit den geforderten kontrafakti-schen Abhängigkeiten. Wenn etwas zerbrechlich ist, dürfen wir norma-lerweise folgern, dass es zerbrechen würde, wenn wir es unter geeigne-ten Randbedingungen fallen lassen würden. Das sind die kontrafakti-schen Zusammenhänge, die für die Invarianzbedingung erforderlichsind. Die spezielle Disposition der Zerbrechlichkeit kann aber natürlichauf grundlegendere Muster zurückgeführt werden. Überhaupt zeigt sichhier (wie schon in den Überlegungen zur Invarianz), dass es sich beimKonzept der nomischen Muster um einen graduellen Begriff handelt. Esgibt grundlegendere Muster mit einem größeren Invarianzbereich und

Page 138: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 3: Qualitative Induktionsverfahren 126

solche mit einem kleineren. Damit variiert zugleich ihre Erklärungskraft.Außerdem gibt es relativ strikte Dispositionen, bei denen sich eine Mani-festation bei Vorliegen der Auslösebedingung und gewissen Randbedin-gungen praktisch immer einstellt und daneben probabilistische Disposi-tionen (manchmal Propensitäten genannt), die sich nur in einer Erhö-hung von bestimmten Wahrscheinlichkeiten manifestieren.

Statt des Satzes (4) hätten wir also den Satz (5) „Je mehr eine Personraucht, umso höher ist ihr Lungenkrebsrisiko“, zu Erklärungszweckenwählen sollen, der die geforderte Invarianz aufweist, denn nach allem,was wir darüber wissen, verändert eine Veränderung unseres Rauchver-haltens tatsächlich unser Lungenkrebsrisiko in der entsprechenden Rich-tung. In (5) beschreiben wir eine probabilistische Disposition von Men-schen, auf die Zufuhr von Zigarettenrauch mit einem Lungenkrebs zureagieren. Doch auch hier kann die zukünftige Forschung vielleicht prä-zisere Muster liefern, die die Manifestationsbedingungen dieser Disposi-tion genauer beschreiben. Das wären stärkere Muster mit einer höherenErklärungsleistung.

Diese unterschiedlich guten Erklärungen kennen wir aus der Praxisunseres Erklärens im Alltag und in der Wissenschaft. Das wird durcheine graduelle Konzeption von nomischen Mustern recht gut nachge-zeichnet. Der klassische Ansatz kennt dagegen nur die strikte Abgren-zung von Gesetzen und Nicht-Gesetzen, und damit war es oft nur einkleiner Schritt, einer Disziplin wie der Biologie oder den Sozialwissen-schaften ganz abzusprechen, dass sie echte Gesetze formulieren können.Damit verloren sie zugleich jegliche Erklärungskraft. Doch das scheintuns in vielen Fällen weit übertrieben zu sein und die tatsächliche Erklä-rungskraft dieser Disziplinen zu unterschätzen. Selbst wenn diese Erklä-rungen häufig nicht die gleiche Gestalt und Stärke wie physikalische Er-klärungen aufweisen, erkennen wir doch zumindest an, dass auch hierkausale Zusammenhänge aufgedeckt werden, die im Einzelfall durchauseinige Eigenschaften von bestimmten Objekten oder Systemen erklärenkönnen. Man denke z.B. an die Evolutionstheorie oder einfache ökono-mische Zusammenhänge wie die von Angebot und Nachfrage, die sichereine gewisse Erklärungskraft besitzen. Mit dem Konzept der nomischenMuster kann man diese Übergänge angemessen beschreiben und kanndarüber hinaus zeigen, welche Rolle solche gesetzesähnlichen Zusam-menhänge in Erklärungen spielen.

Über die Frage, was die Stärke der Muster ausmacht und damit ihreErklärungskraft bestimmt, gibt es allerdings unterschiedliche Auffassun-gen. Woodward (2003) und andere beziehen sich explizit nur auf die

Page 139: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

127 Thomas Bartelborth: Induktives Schließen

funktionale Invarianz der Muster für ein konkretes einzelnes System.Damit ist gemeint, dass für ein einzelnes Objekt möglichst große Inva-rianzbereiche für den beschriebenen Zusammenhang gelten sollten.Bartelborth (2007, 2008) hält dagegen ebenso die Bereichsinvarianz fürein erklärungsrelevantes Merkmal der Muster. Dabei geht es (im Sinneder klassischen Vereinheitlichungskonzeption von Erklärung) darum,dass für ein solches Muster ebenfalls zählt, auf welche und vor allem wieviele Typen von Objekten sie zutreffen. Je weiter verbreitet ein Musterin unserer Welt ist, umso basaler ist es und umso besser ist es geeignet,bestimmte Phänomene zu vereinheitlichen und so zu erklären. Das istgerade die Art von Invarianz, die von den Vertretern einer Vereinheitli-chungskonzeption von Erklärung in den Vordergrund gestellt wird. Diebeiden Formen der Invarianz stehen typischerweise in einem Spannungs-verhältnis zueinander (vgl. Bartelborth 2008). Für die Erklärungskraftder Muster sind sogar noch weitere Eigenschaften zu berücksichtigen,die aber auch damit zusammenhängen, wie strikt die jeweiligen nomi-schen Muster sind (vgl. dazu Kap. 4.3.2).

Die Idee, sich genauer mit diesen Formen von Invarianz zu beschäfti-gen, stammt ursprünglich aus der Kausalitätsdebatte. Startpunkt warendie sogenannten Manipulationstheorien der Kausalität, nach denen füruns ein kausaler Zusammenhang dort am deutlichsten wird, wo wir ak-tiv etwas verändern können. Kausalität sollte natürlich nicht nur aufmenschliches Manipulieren unserer Umwelt beschränkt bleiben und des-halb entwickelte sich der sogenannte interventionalistische Ansatz, nachdem A dann als Ursache von B gelten darf, wenn sich durch eine gezielteIntervention an A eine Veränderung an B herbeiführen lässt. DieseGrundidee bedurfte zunächst einer Explikation, was mit einer gezieltenIntervention gemeint ist. Das Konzept scheint uns zwar intuitiv ver-ständlich zu sein, seine Präzisierung führt aber doch zu etlichen Schwie-rigkeiten (vgl. Woodward 2003). Aufdecken können wir derartige Kau-salbeziehungen aber nur, wenn diese nicht nur im Einzelfall bestehen,sondern ein allgemeineres Muster darstellen, das sich in kontrolliertenExperimenten überprüfen lässt. Für Erklärungen sind normalerweise sin-guläre Kausalbeziehungen unzureichend (wenn es sie den gäbe und wirsie ermitteln könnten). Erst der Einblick in allgemeinere Zusammenhän-ge – nämlich die nomischen Muster – kann uns verständlich machen,warum bestimmte Ereignisse aufgetreten sind. Doch diese allgemeinenZusammenhänge müssen nicht gleich den Charakter von strikten Natur-gesetzen haben, sondern oft finden wir nur gesetzesähnliche Muster, diedurchaus Erklärungskraft besitzen.

Page 140: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 3: Qualitative Induktionsverfahren 128

3.8 Die Rabenparadoxie und das „grue“-ParadoxBevor wir uns dem Schluss auf die beste Erklärung zuwenden, möchteich noch eine weitere Problematik induktiver Schlüsse ansprechen, dieebenfalls schon im Rahmen der qualitativen Induktionsschlüsse aufgetre-ten ist. Wir haben etwa Nicods Kriterium (NR) kennengelernt, das eineGrundform induktiven Schließens zu sein scheint. Einzelne positive In-stanzen bestätigen demnach eine Aussage über eine größere Gruppe vonObjekten. Allerdings haben wir inzwischen erfahren, dass Rechtferti-gung genau genommen dreistellig ist und daher (NR) eigentlich entspre-chend zu ergänzen wäre. Dazu haben sich verschiedene Autoren (wiez.B. Good 1983) Beispiele für Hintergrundwissen ausgedacht, so dassdas einfache Nicod Kriterium nicht mehr plausibel erscheint. Es sei wie-derum unsere Hypothese R: Alle Raben sind schwarz. Man brachtegegen (NR) nun folgende Situation ins Spiel: Wir wissen schon, dass esentweder (i) nur insgesamt 100 schwarze Raben gibt oder (ii) eine Mil-lion schwarze Raben und 10 weiße. Nur im ersten Fall ist unsere Hypo-these wahr. Aber wenn ich überhaupt einen oder mehrere schwarzen Ra-ben finde, dann spricht das eher dafür, dass der zweite Fall vorliegt, dawir in dem Fall viel häufiger auf schwarze Raben stoßen würden. Alsogilt (NR) nicht für jedes Hintergrundwissen, sondern nur für bestimmteFälle von „normalem“ Hintergrundwissen. Wir sehen diesen Zusam-menhang zu weiterem Hintergrundwissen in ähnlicher Weise in anderenFällen. Ist unsere Hypothese, dass zwei Philosophieprofessoren imRaum sind, und wir erfahren als Datum, dass Professor Wittgenstein imRaum ist, so muss das nicht unbedingt unsere Hypothese stützen. Wis-sen wir z.B., dass Professor Wittgenstein keine anderen Philosophiepro-fessoren mag und sofort den Raum verlässt, sollte einer von ihnen dazu-kommen, so spricht unser Datum gegen unsere Hypothese.

Viele weitere Beispiele belegen, dass (NR) nicht ganz so harmlos ist,wie es auf den ersten Blick scheint. Trotzdem wird es sicher häufig sinn-voll anzuwenden sein und ist eine Grundidee hinter unseren anderenVerfahren. Besonders deutlich wird das im Falle der hempelschen Instan-zenbestätigung, aber eigentlich auch im Falle des hypothetisch-dedukti-ven Schließens. Allerdings führt uns (NR) manchmal sogar in Parado-xien. Da ist vor allem die sogenannte Rabenparadoxie zu nennen, die al-lerdings ebenso die meisten anderen induktiven Schlussformen plagt.

Es gehe wieder um unsere Rabentheorie R. Aber diesmal betrachtenwir noch eine dazu logisch äquivalente Theorie K: „Alle nicht-schwarzenDinge sind Nicht-Raben.“ Das ist logisch gesehen die Kontraposition derRabentheorie und daher logisch mit dieser äquivalent. Es ist nun eine

Page 141: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

129 Thomas Bartelborth: Induktives Schließen

naheliegende und kaum bestrittene Forderung, dass logisch äquivalenteAussagen durch dieselben Daten bestätigt werden. Das war HempelsÄquivalenzforderung. Nehmen wir jedoch (NR) hinzu, geraten wir so-gleich in Schwierigkeiten. Sehe ich z.B. eine weiße Küchenmaschine (E),so handelt es sich dabei um einen nicht-schwarzen Nicht-Raben. Alsowird nach (NR) unsere kontraponierte Rabentheorie K durch E bestä-tigt. Die Theorie K ist logisch äquivalent zur Rabentheorie R, also sollteR ebenfalls durch E bestätigt werden. Danach bestätigt die weiße Kü-chenmaschine unsere Vermutung, dass alle Raben schwarz sind. Dochdieses Ergebnis (Quine spricht hier von indoor ornithology) ist kaumplausibel.

Carl Gustav Hempel, der das Paradox entwickelte und dessen Instan-zenbestätigung davon ebenfalls betroffen war, war schließlich bereit, die-ses unangenehme Resultat zu schlucken. Auch die modernen bayesiani-schen Ansätze (s. Fitelson & Hawthorne 2010), die ebenso davon be-troffen sind, haben sich letztlich dazu bekannt (vgl. Kap. 5.6.4). Sie be-weisen mit Hilfe einer Reihe von empirischen Zusatzannahmen wie der,dass es viel mehr nicht-schwarze Dinge als Raben gibt, dass zumindestder Grad der Bestätigung durch einen schwarzen Raben für R deutlichhöher ist, als der durch die weiße Küchenmaschine. Das ist ihre „Lö-sung“ des paradoxen Resultats.

Das kommt mir nicht wirklich akzeptabel vor. Man stelle sich vor,ein Biologe möchte unsere Rabentheorie begründen und sagt dazu, dasser nun besonders viele nicht-schwarze Dinge in irgendwelchen Küchendaraufhin untersuchen möchte, ob sie zugleich Nicht-Raben sind. Dadas jeweils nur eine schwache Bestätigung der Rabentheorie bietet,möchte er das durch größere Anzahlen wettmachen. Untersucht er nurgenügend nicht-schwarze Dinge, käme er so zu einer guten Bestätigungder Rabentheorie, wenn Hempel und die Bayesianer Recht hätten. Wirkönnen über diesen Ansatz wohl nur lachen, denn er untersucht vermut-lich niemals Raben und daher erfährt er auch nichts über deren Farbe,unabhängig davon, ob es viele Raben gibt oder nicht. Wir sollten alsodarauf beharren, dass die weißen Küchenmaschinen uns keine Informa-tionen über Raben liefern, gleichgültig wie viele wir davon untersuchen.Der Forschungsantrag des Biologen gehört abgeschmettert (vgl. a. Siebel2004 und Kap. 5.6.4).

Wie können wir aber dann dem Rabenparadox entkommen? Wirmüssen auf eine Lösung zurückgreifen, die schon durch das letzte Kapi-tel nahegelegt wurde und bereits bei Quine (1969) zu finden ist. Wirmüssen (NR) auf die Fälle beschränken, in denen unsere fragliche Hypo-

Page 142: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 3: Qualitative Induktionsverfahren 130

these gesetzesartigen Charakter hat. Die Prädikate unserer Theorie müs-sen sich auf natürliche Arten beziehen und die Hypothese muss eine(kausale) gesetzesartige Behauptung (ein nomisches Muster mit Erklä-rungswert) darstellen. Die sind nicht leicht zu erkennen und man benö-tigt weiteres Hintergrundwissen dazu (vgl. Bartelborth 2007). Das wirdjedenfalls der Lösungsvorschlag des Schlusses auf die beste Erklärungsein. Demnach gilt (NR) nur in den Fällen, in denen die Theorie die In-stanzen auch erklärt. Dazu benötigen wir mehr, als dass das Datum einebloße Instanz unserer Hypothese ist. Insbesondere kommt es auf unserweiteres Hintergrundwissen über die Art der vorliegenden Zusammen-hänge an. Die Beispiele des letzten Abschnitts legen diese neue Art vonInstanzenbestätigung nahe (vgl. a. Kap. 5.5.23).

Das wirft allerdings die Frage auf, ob unsere ursprüngliche Raben-theorie überhaupt auf diese einfache Weise bestätigt werden kann. Dashängt davon ab, wie die Theorie genau zu verstehen ist. Ich habe sie hierimmer schon so verstanden, dass ein bestimmter gesetzesartiger Zusam-menhang behauptet wird. Es gehört demnach zur genetischen Ausstat-tung von Raben dazu, dass sie schwarz sind. Wird das durch unsere bio-logischen Erkenntnisse gestützt, können schwarze Raben unsere Raben-hypothese stützen.

Ein Problem für die Regel (NR) ist daneben die Frage, was eigentlicheine Instanz einer Generalisierung wie H x(RxSx) (Alle Raben sindschwarz) ist. Da kommen neben A Ra&Sa auch andere Aussagen wiez.B. Sa in Betracht, weil daraus bereits RaSa ableitbar ist. Jedenfallsbestätigt A die Hypothese H nicht im Sinne des deduktiv-hypothetischenBestätigungskonzeptes und darin wird schon eine bestimmte Asymmetrieerkennbar. So gilt einerseits H&Ra⊨Sa, d.h., es gilt B(H:Sa;Ra), alsowird H durch Sa in einer bestimmten Situation (mit HintergrundwissenRa) bestätigt, in der schon bekannt ist, dass es sich bei a um einen Rabenhandelt. Das wird manchmal auch so dargestellt, dass hier ein zweistufi-ges Verfahren vorliegt: In einem ersten Schritt wird ein Rabe (zufällig)ausgewählt und erst im zweiten Schritt daraufhin überprüft, ob erschwarz ist. Einige Wissenschaftstheoretiker suchen nach der Lösung derRabenparadoxie in dieser Richtung. Da die zeitliche Reihenfolge aberletztlich in unseren bisherigen Ansätzen nicht zum Tragen kommt, schei-nen diese Ansätze nicht wirklich erfolgreich zu sein. Es bleibt aber zu-mindest die oben erwähnte Asymmetrie, denn andererseits gilt:

H&~Sa ⊨ ~Ra, also B(H:~Ra;~Sa).

Page 143: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

131 Thomas Bartelborth: Induktives Schließen

Also haben wir in diesem Fall ebenfalls ein kontraintuitives Ergebnis.Wenn wir bereits wissen, dass etwas nicht-schwarz ist, so könnte aller-dings die Entdeckung, dass es sich nicht um einen Raben handelt, intui-tiv schon eher dazu beitragen, die Hypothese H zu stützen, denn es wirdein möglicher Falsifikator von H ausgeschlossen. Wenn es uns gelingt,alle Falsifikatoren auszuschließen, wird dadurch schließlich ebenfalls dieHypothese H bewiesen. Allerdings könnte sie dann noch auf trivialeWeise wahr sein, indem es etwa überhaupt keine Raben gibt. Doch wennwir von diesem Spezialfall einmal absehen, wirkt das Verfahren nichtmehr ganz so paradox, sondern nur noch sehr ineffektiv. Es wären ex-trem viele nicht-schwarze Gegenstände zu untersuchen, ob sie Nicht-Ra-ben sind, bevor wir auf diesem Wege einen beachtlichen Teil der poten-tiellen Falsifikatoren von H ausgeschlossen hätten. Dazu kommt, dassdie Rabenhypothese implizit auch noch über unendlich viele Zeitpunktespricht. Sie besagt nicht nur, dass alle Raben schwarz sind, sondernebenfalls, dass sie das zu allen Zeitpunkten dauerhaft sind. Wir müsstenalso alle Objekte immer wieder testen, ob die Hypothese noch gilt, bzw.die nicht-schwarzen Gegenstände immer wieder testen, ob sie nichtdoch inzwischen Raben geworden sind, wenn wir alle Gegeninstanzenauf diesem Weg ausschließen wollen.

Das scheint ähnlich wie die eliminative Induktion abzulaufen. Aberder entscheidende Schritt fehlt hier leider. Für die eliminative Induktionmüssen wir zunächst eine endliche Liste von substantiellen Konkurrenz-hypothesen entwerfen, die hier nicht in Sicht ist. Die Anzahl der mögli-chen Falsifikatoren ist potentiell unendlich, wenn wir noch bedenken,dass auch zukünftige nicht-schwarze Gegenstände und alle möglichenZeitpunkte zählen. Daher ist nicht erkennbar, wie es uns auf diesem We-ge gelingen sollte, tatsächliche Fortschritte in der Bestätigung der Hypo-these H zu erzielen. Der Anteil der nicht-scharzen Gegenstände und derjeweiligen Untersuchungszeitpunkte, die wir tatsächlich untersuchenkönnen, dürfte immer recht klein bleiben. Der Forschungsantrag desBiologen scheint somit doch nicht zu retten zu sein. Das bedeutet, dassdas Rabenparadox vermutlich weiterhin ein gravierendes Problem derRegel (NR) und ähnlicher Regeln darstellt und wir zu seiner Auflösungauf stärkere inhaltliche Anforderungen wie natürliche Arten und die Er-klärungsstärke von H zurückgreifen müssen.

Auf ähnliche Probleme stoßen wir auch im sogenannten „grue“-Para-dox. Dabei ist „grue“ ein Kunstwort, das aus den Ausdrücken „green“und „blue“ gebildet wird. Im Deutschen könnten wir von dem „graun“-Paradox sprechen. Das stammt ursprünglich von Nelson Goodman und

Page 144: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 3: Qualitative Induktionsverfahren 132

wir können es in etwas abgewandelter Form wie folgt rekonstruieren:Zwei Juweliere streiten sich über die Farbe von Smaragden. Juwelier Xspricht deutsch und behauptet:

(1) Alle Smaragde sind grün.(2) Das wird durch alle bisher untersuchten Smaragde bestätigt.

Juwelier Y spricht dagegen die Sprache „graunblün“. Die ist eng mitdem Deutschen verwandt und kennt allerdings nur statt der Farbprädi-kate „grün“ und „blau“ die Farbprädikate „graun“ und „blün“. Die las-sen sich wie folgt ins Deutsche übersetzen:

x ist graun bedeutet: x ist grün bis zum Jahr 2020 und blau danach.x ist blün bedeutet: x ist blau bis zum Jahr 2020 und grün danach.

Juwelier Y vertritt nun die beiden Behauptungen:

(1*) Alle Smaragde sind graun.(2*) Das wird durch alle bisher untersuchten Smaragde bestätigt.

Nehmen wir an, beide Juweliere haben dieselben Erfahrungen E mitSmaragden im Laufe ihrer Tätigkeit erworben. Außerdem stützten sichbeide auf eine einfache Instanzenkonzeption von Rechtfertigung. Da-nach stützen die bisher beobachteten Smaragde, die alle nach unsererAnsicht grün waren, die Behauptung (1). Doch Juwelier Y beschreibt dasetwas anders. Für ihn waren die Smaragde graun und sie stützen daherseiner Meinung nach seine Behauptung (1*). Zumindest für den Zeit-raum nach 2020 stellen beide Juweliere also unterschiedliche Behaup-tungen auf. Stützt die Instanzenbegründung nun beide Behauptungen ingleicher Weise oder womöglich doch nur die erste von beiden? Wir glau-ben natürlich das Letztere, aber können wir das auch so begründen, dasses einen gewissen Grund sogar für Y bieten könnte, an seiner Auffassungzu zweifeln? Dafür ist jedoch nicht leicht zu argumentieren.

Juwelier Y könnte etwa behaupten, die Prädikate graun und blün sei-en deshalb so seltsam, weil sie aus blau und grün und einem zusätzlichenZeitpunkt so künstlich konstruiert wurden. Damit wird ein Farbwandelim Jahr 2020 angenommen, für den es keine empirischen Anhaltspunktegibt. Das sieht Juwelier Y aber ganz anders. Für ihn sind die Prädikateblau und grün seltsam konstruiert:

x ist grün bedeutet: x ist graun bis zum Jahr 2020 und blün danach.x ist blau bedeutet: x ist blün bis zum Jahr 2020 und graun danach.

Page 145: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

133 Thomas Bartelborth: Induktives Schließen

Für ihn ist es Juwelier X, der einen Farbwandel (von graun zu blün) imJahr 2020 prognostiziert. Je nachdem, was wir also als Grundprädikatebetrachten, werden wir vielleicht andere induktive Schlüsse für natürlichhalten. Welche Prädikate tatsächlich projizierbar sind und mit welchenwir tatsächlich nomische Muster beschreiben, die wir dann für Erklärun-gen und Prognosen heranziehen dürfen, lässt sich leider nicht durch eineinfaches Kriterium beantworten. Es gibt nur im Rahmen unserer Theo-rienbildung Hinweise darauf, welche Prädikate wir wählen sollten. Sogibt es systematische Zusammenhänge zwischen unserer Farbwahrneh-mung und den Wellenlängen des reflektiertes Lichts. Für die Entstehungdieser Reflektionen haben wir Erklärungen, die sie auf die Stoffeigen-schaften der reflektierenden Gegenstände zurückführen etc. In diesemgrößeren Rahmen wird sich die „graunblün“-Auffassung erst noch zu be-währen haben. Wird etwa die Wellenlänge des reflektierten Lichts zu2020 sich ändern? Oder was passiert dann aus Sicht von Juwelier Y? So-lange der „graunblün“-Ansatz keine umfassende Konzeption mit Ant-worten auf solche Fragen anzubieten hat, haben wir gute Gründe, unsJuwelier X anzuschließen. Erst der größere Rahmen und die darin ange-siedelten Erklärungszusammenhänge entscheiden somit darüber, welchePrädikate wir nutzen sollten, um zu guten Vorhersagen zu kommen.

3.9 FazitDie qualitativen induktiven Schluss- bzw. Begründungsverfahren stellenschon die Grundideen für die Bestätigung von wissenschaftlichen Theo-rien durch bestimmte Daten bereit und zeigen uns einige der grundle-genden Probleme induktiven Schließens auf. Eine Theorie T wird typi-scherweise durch ihre Instanzen bestätigt oder zumindest indirekt da-durch bestätigt, dass sich ihre Vorhersagen E als wahr herausstellen. Stel-len wir dagegen fest, dass dann non-E auftritt, betrachten wir die Theo-rie als geschwächt oder sogar falsifiziert. Genauso testen wir unsere em-pirischen Theorien im Normalfall. Leider ist es nicht so ganz einfach,diese intuitiven Ideen in einem präziseren Verfahren zu erfassen. Die lo-gische Ableitbarkeit von E aus T genügt für eine induktive Bestätigungvon T durch E leider noch nicht. Wir benötigen einen stärkeren inhaltli-chen Zusammenhang zwischen T und E, und es nicht klar, ob wir denmit überwiegend logischen Hilfsmitteln allein beschreiben können, oderob wir (wie Achinstein es annimmt: vgl. Kap. 5.5.23) auf Erklärungsbe-ziehungen und damit letztlich auf kausale Zusammenhänge angewiesensind. Außerdem stoßen wir auf das Problem der Hilfsannahmen, diemeist erforderlich sind, um aus einer Theorie beobachtbare Vorhersagen

Page 146: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 3: Qualitative Induktionsverfahren 134

ableiten zu können. Damit unser Verfahren nicht willkürlich wird, müs-sen wir Ad-hoc-Annahmen ausschließen und nur plausible Annahmenzulassen. Die müssen dann aber schon anderweitig induktiv begründetsein. Doch damit verschieben wir unser Problem nur. Ganz spezielleHilfsannahmen im Sinne von Brückenprinzipien benötigen wir schließ-lich, wenn wir Theorien mit theoretischen Termen empirisch testen wol-len. Deren Status ist erstens nicht ganz klar (sind sie etwa rein analyti-scher Art, wie das Carnap früher vermutete, oder stellen sie doch gewis-se empirische Behauptungen dar?), und zweitens ist keineswegs sicherge-stellt, dass sie immer das leisten, was wir uns von ihnen erhoffen, näm-lich eine Messbarkeit der theoretischen Terme in bestimmten Situatio-nen. Im Falle der Propensitäten treten z.B. ganz besondere Probleme auf(vgl. Bartelborth 2011 und Kapitel 5.4).

Überhaupt stellen probabilistisch formulierte Theorien eine besonde-re Herausforderung für das qualitative Induktionsverfahren dar, aberauch für die Verfahren, die selbst mit Wahrscheinlichkeiten arbeiten.Das erste Problem ist schon darin zu sehen, was diese Theorien genaubehaupten. Schließlich müssen wir in unseren empirischen Tests derTheorie diese Behauptungen auf die Probe stellen. Doch dazu spätermehr. Außerdem bleibt in unseren bisherigen Verfahren immer die Frageoffen, welche Rolle komparativen Überlegungen zukommt. Zu unsererTheorie T existieren vielleicht Konkurrenztheorien T*, die E ebenso ab-zuleiten gestatten. Schwächt das in jedem Fall schon unsere Bestätigungvon T durch E? Das werden wir weiter im Blick behalten müssen.

Insbesondere scheinen die Verfahren nur dann die erwünschte Induk-tionseigenschaft aufzuweisen, wenn wir uns in ihrer Anwendung auf no-mische Muster beschränken, die wiederum eng mit bestimmten Kausal-konzeptionen und Erklärungstheorien zusammenhängen. Anderenfallslassen sich auch Paradoxien wie die der Raben nicht mehr auf intuitiveWeise lösen. Auch der inhaltliche Aspekt, dass wir nach möglichst erklä-rungsstarken Theorien suchen, wurde bisher in den Induktionsverfahrennoch nicht berücksichtigt. Damit sind schon die Grundprobleme be-nannt, mit denen sich jede Konzeption induktiven Schließens beschäfti-gen muss. Der Schluss auf die beste Erklärung soll unser weiterer Weg-weiser sein, um die genannten Probleme anzugehen.

Page 147: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

4 Der Schluss auf die beste Erklärung

4.1 Die Ursachen der CholeraBeginnen möchte ich mein Plädoyer für den Schluss auf die beste Erklä-rung bzw. das abduktive Schließen mit einem historischen Beispiel. Da-bei handelt es sich vermutlich um eine der wichtigsten Entdeckungender Menschheit und den Beginn der modernen epidemiologischen For-schung. Die wird sicher gern mit der modernen Statistik assoziiert, aberdas Beispiel zeigt schon, dass es sich vor allem um eine Form abduktivenSchließens handelt, und das war auch das Resümee des StatistikersFreedman in seinem spannenden Artikel (1999) zu diesem Thema. Cho-lera war eine der schlimmsten Plagen der Menschheit, die vermutlichaus Indien nach Europa gelangte und vor allem im 19. Jahrhundert gera-de in den großen Städten laufend zu neuen Epidemien mit Tausendenvon Toten führte. Es war vor allem dem Einsatz des Londoner ArztesJohn Snow zu verdanken, dass die Ursachen bzw. die Überträger derCholera identifiziert werden konnten, was – allerdings erst einige Zeitnach dem Ableben Snows – schließlich zu einer Eindämmung dieser Epi-demien führte. Snow veröffentlichte seine Theorie und seine Daten dazuin seinem Buch „On the Mode of Communication of Cholera“, das erzunächst 1849 veröffentlichte, aber mit deutlich mehr Belegen in einerzweiten Auflage 1855 herausgab.

Die allgemein akzeptierte Theorie über Cholera war zu dem Zeit-punkt die sogenannte Miasma-Theorie, nach der spezielle giftige Aus-dünstungen (also vor allem die schlechte Luft in den Städten) zu denCholera-Epidemien führten. Deshalb wurden während der Epidemienmanchmal bestimmte Fabriken vorübergehend geschlossen, um die Luftwieder zu verbessern. Die Theorie der Übertragung durch direkten Kon-takt war demgegenüber zurückgetreten. Zu der Miasma-Theorie entwi-ckelte Snow eine Konkurrenztheorie, die seiner Meinung nach die Fak-ten im Zusammenhang mit der Cholera viel besser erklären konnte, dieer z.T. selbst in mühevoller Kleinarbeit recherchieren musste. Unter-stützt wurde er bei seiner Datensammlung aber auch von dem Leitereiner Untersuchungskommission zum Cholera-Ausbruch 1854 in Lon-don von Dr. William Farr, der allerdings selbst ein überzeugter Vertreterder Miasma-Theorie war. Snows Infektionstheorie (wie ich sie jetzt mo-

Page 148: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 4: Der Schluss auf die beste Erklärung 136

dern nennen möchte), behauptete, dass es sehr kleine und daher nichtsichtbare lebende Erreger der Krankheit gäbe, die mit dem Wasser oderder Nahrung in den Körper gelangen, sich dort vermehren, was die un-angenehmen Symptome (besonders Durchfall) hervorruft, und den Kör-per dann mit den Ausscheidungen wieder verlassen. Schließlich gelangensie vor allem über das Wasser wieder in andere Menschen, was zu denepidemischen Auswüchsen der Cholera führt. Diese für die damaligeZeit doch recht phantasievolle Geschichte konnte sich zu LebzeitenSnows leider nicht durchsetzen, aber Dr. Farr war bereits 1866 vonSnows Theorie überzeugt, nachdem er dessen Werk von 1855 studierthatte. Das stellte einen schönen Fall abduktiver Rechtfertigung dar.

Snow hatte dazu die folgenden Fakten vor allem vom Beginn der Epi-demie 1854 in London zusammengetragen (vgl. Freedman 1999):

1. Es gab ein Zeitintervall zwischen der Infektion (dem Kontakt mitentsprechend verunreinigtem Wasser) und dem Ausbruch derKrankheitssymptome von etwa 2-3 Tagen. Das war nach Snowdie Zeit, die die Erreger benötigten, um sich im Körper zu ver-mehren. Das könnte die Miasma-Theorie natürlich auch noch da-durch erklären, dass sie den Zeitpunkt des ersten Kontakts andersbestimmt. Wenn man auf diesen Zusammenhang allerdings ersteinmal aufmerksam wird, bietet Snows Theorie auf jeden Fall diegehaltvollere Erklärung.

2. Die Cholera breitet sich entlang der menschlichen Handelswegeaus. Das passte gut zur Infektionstheorie, stellte hingegen eineklare Erklärungsanomalie für die Miasma-Theorie dar. Es warkaum anzunehmen, dass der Wind die schlechte Luft genau ent-lang der Handelswege wehte. Außerdem hätte sich die Wirkungbald verflüchtigen müssen.

3. Die Seeleute auf Schiffen im Hafen erkrankten nur an der Krank-heit, wenn sie mit den Menschen der Hafenstädte in Kontakt ka-men. Die Luft übertrug sich aber natürlich in jedem Fall auch aufdie Schiffe.

4. Für den Ausbruch der Cholera in London 1848 konnte Snow denSeemann (John Harnold) identifizieren, von dem die Krankheitihren Ursprung in London nahm. Die nächsten Opfer hatten nachHarnold in dessen Zimmer gewohnt.

5. Während der Startphase der Epidemie 1854 zeichnete Snow aufeiner Karte die Wohnorte aller Opfer als detaillierte Strichlistenauf der Karte ein und konnte eine eindeutige Häufung der Opferum die Pumpe in der Broad Street zeigen.

Page 149: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

137 Thomas Bartelborth: Induktives Schließen

6. Leider konnte er im Wasser der Pumpe keine Erreger beobachten.Trotzdem ging er davon aus, dass es sie darin geben müsse und sienur zu klein für eine Beobachtung seien.

7. Snow konnte sogar erklären, warum ganz bestimmte Personen inder Broad Street trotzdem nicht sogleich erkrankten. Sie verfüg-ten nämlich – wie z.B. eine Brauerei in der Broad Street – übereigene Brunnen für ihr Trinkwasser.

8. Er konnte auch einen Zusammenhang (wir würden sagen eineKorrelation) zwischen den Todesraten von Cholera und der Was-serqualität in bestimmten Gegenden von London nachweisen.

9. Eine Ausnahme bildete die „Chelsea Water Company“, die zwarzunächst auch kontaminiertes Wasser verkaufte, dann aber beson-dere Methoden der Wasserreinigung einsetzte, wie Sandfiltrationund Bestrahlung mit Sonnenlicht u.a. Bei ihren Kunden waren dieTodesraten dann geringer als bei der Konkurrenz.

Die meisten dieser Fakten (2-5 und 6-9) konnte nur seine Theorie guterklären, während sie für die Miasma-Theorie eindeutig Erklärungsan-omalien darstellten. Seine Auswertung der Korrelationen erfolgte reinintuitiv anhand seiner Grafik und ohne den Einsatz von statistischenHilfsmitteln. Die Karten (im Internet an verschiedenen Stellen zu fin-den) zeigten den Zusammenhang sichtbar auf und die Frage war vor al-lem, wie er sich erklären lässt. Im Vergleich der Erklärungskraft schnei-det hier die snowsche Infektionstheorie so deutlich besser ab als dieMiasma-Theorie, dass das ein klarer Hinweis darauf war, dass die Infek-tionstheorie die Zusammenhänge richtig erklärt. Das ist jedoch nurdann der Fall, wenn wir annehmen, dass sie auch wahr ist und die ver-muteten Erreger nicht nur fiktive Gegenstände sind, sondern sich tat-sächlich ungefähr in der beschriebenen Weise verhalten. Das wurdeschließlich weiter gestützt durch die bald folgende Entdeckung von gro-ßen Zahlen von Bakterien im Darminhalt der Choleraopfer, die aller-dings immer noch nicht sogleich zum Durchbruch für die Infektions-theorie führten, da die Miasma-Theorie noch zu stark in den Köpfen derMediziner verankert war. Aufhalten ließ sich die neue Theorie aberdann nicht mehr lange. Und auch im Rückblick scheint die Argumenta-tion für die Infektionstheorie sehr überzeugend zu sein. Dabei sind keinequantitativen Wahrscheinlichkeiten im Spiel und es wäre auch wohl sehrschwierig, für die beteiligten Phänomene Wahrscheinlichkeiten oderLikelihoods zu vergeben, auf die etwa der Bayesianer angewiesen ist,den wir noch kennenlernen werden. Hier haben wir es vielmehr miteinem klaren Schluss auf die beste Erklärung zu tun. Wir sammeln dazu

Page 150: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 4: Der Schluss auf die beste Erklärung 138

zunächst alle bekannten Fakten zu einem bestimmten Thema und erhe-ben vielleicht noch neue. Dann stellen wir eine Liste von möglicherwei-se diese Fakten erklärenden Theorien auf und vergleichen schließlich,welche der Theorien die meisten der Fakten erklären kann und im Not-fall auch noch, welche der Erklärungen besser sind. Auf die setzen wirsodann unsere größten Hoffnungen.

Das Relevanzproblem des hypothetisch-deduktiven Schließens sollbeim abduktiven Schließen dadurch gelöst werden, dass wir nicht nurverlangen, dass die Daten ableitbar sind, sondern dass die Theorie dieDaten auch tatsächlich erklärt. Der Schluss auf die beste Erklärung ver-sucht so, den bisher aufgeführten Überlegungen Rechnung zu tragen. Ereliminiert bestimmte Hypothesen von unserer Liste durch ihre Erklä-rungsanomalien und bezieht letztlich die metaphysischen Aspekte des in-duktiven Schließens mit ein, denn wir werden sehen, dass sie gerade be-stimmte Aspekte wissenschaftlicher Erklärungen darstellen. Die Elimina-tionen bestimmter Hypothesen sind weiche Falsifikationen in dem Sin-ne, dass es sich meist nur um hartnäckige Erklärungsanomalien handelt,die dann zu einer Elimination führen, aber wir müssen nicht behaupten,dass unsere Daten sich logisch zwingend gegen die Hypothesen selbstrichten.

4.2 Das Grundschema des Schlusses auf die besteErklärung

Der Schluss auf die beste Erklärung besteht demnach schematisch zu-nächst aus zwei Schritten ähnlich der eliminativen Induktion. Im erstenSchritt versuchen wir eine Liste von potentiellen Erklärungshypothesenaufzustellen. Diese sollte zum einen nicht zu groß sein, sondern nochübersichtlich bleiben, zum anderen sollte sie jedoch keine relevantenMöglichkeiten übersehen. Unser Hintergrundwissen erlaubt es uns inder Praxis häufig, solche Auswahllisten zu erstellen. Das belegen schondie genannten Beispiele und ebenso die folgenden. Im zweiten Schrittversucht man eine Selektion möglichst nur einer Theorie vorzunehmen.Zunächst durch Elimination einiger Hypothesen und dann durch Ver-gleich der restlichen Hypothesen im Hinblick auf ihre Erklärungsstärkefür die vorliegenden Daten. Das heißt, der zweite Schritt beinhaltet ge-naugenommen wiederum zwei unterschiedliche Verfahren. Die Elimina-tion muss keineswegs eine strikte deduktive Falsifikation sein, sondernes genügt oft schon, wenn eine Hypothese eine Reihe von Erklärungsan-

Page 151: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

139 Thomas Bartelborth: Induktives Schließen

omalien aufweist, während mindestens eine Konkurrenzhypothese deut-lich mehr Phänomene erklären kann.

Schurz (2008) hat eine hilfreiche Typologie abduktiver Schlüsse auf-gestellt, die sich vor allem daran orientiert, welche Art von Konklusionwir jeweils erzielen möchten und welche Art von Hintergrundwissen wirdabei voraussetzen. Wenn wir bereits wissen, dass Alkoholgenuss zuKopfschmerzen führt, können wir unter bestimmten Umständen aus vor-liegenden Kopfschmerzen auf die singuläre Tatsache zurückschließen,dass vermutlich ein Alkoholgenuss vorausgegangen ist. Das können wiretwa als bloße Faktenabduktion beschrieben. Informatiker denken beiihren Charakterisierungen des abduktiven Schließens meist an diesenTyp von Schluss. Wir können aber auch aus mehreren Episoden von Al-koholkonsum und darauf folgendem Kopfschmerz auf die allgemeineRegel schließen, dass Alkohol zu Kopfschmerzen führt. Das können wirals eine Theorienabduktion kennzeichnen. Das sind für die Wissenschaftnormalerweise die spannenderen Schlüsse, denn dabei geht es darum,die nomischen Muster zu ermitteln, die einem Phänomenbereich zu-grundeliegen, weshalb sie hier im Vordergrund stehen.

Schurz unterscheidet vor allem zwischen rein selektiven Schlüssenund kreativen Formen der Abduktion. In den rein selektiven Fällen wäh-len wir nur noch in einer gegebenen Auswahlliste den besten Kandida-ten. Man könnte sagen, der erste Schritt der Abduktion wird hier bereitsdurch unser Hintergrundwissen vorgegeben. In den kreativen Abduktio-nen führen wir dagegen sogar neue Begriffe und mit deren Hilfe neueHypothesen ein. Allerdings kann man auch den Schritt zu ganz neuenHypothesen (wenn auch mit den alten Begriffen) bereits als eine Formvon Kreativität bezeichnen. Wir können also von begrifflicher Kreativitätund reiner Hypothesenkreativität sprechen. Fallstudien zeigen uns, dassabduktives Schließen in der wissenschaftlichen Forschung oft ein länge-rer Prozess ist, in dem beide Elemente (die bloße Auswahl und kreativeAspekte) eng miteinander verwoben sind.

Gerade in der Wissenschaft befinden wir uns häufiger in der episte-misch komfortablen Situation, dass eine Auswahl ganz bestimmterHypothesen bereits „vorgegeben“ ist und wir nur noch entscheiden müs-sen, welche davon die beste ist. Wenn wir heutzutage in der Medizinnach der Ursache einer neuen Krankheit suchen, haben wir bereits eineListe von möglichen Ursachentypen im Hinterkopf, die wir bereits imRahmen der eliminativen Induktion beschrieben haben. In dem oben ge-schilderten Fall der Untersuchung von Rinderwahnsinn war man durcheinen rein selektiven Prozess schnell zu der Überzeugung gekommen,

Page 152: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 4: Der Schluss auf die beste Erklärung 140

dass es sich um eine Infektionskrankheit handelt. Die entsprechendenPhänomene können die anderen Hypothesen praktisch nicht erklärenund konnten so eliminiert werden. Dann aber erfolgte ein kreativerSchritt (begrifflicher Art und Hypothesenkreativität) in Form der Prio-nenhypothese. Der kreative Prozess wurde hier durch die eliminativeAbduktion vorbereitet (man wusste schon, in welchem Hypothesenbe-reich die Lösung liegen sollte: Infektionskrankheit), aber der kreativeSchritt selbst ist nicht durch ein spezielles Schlussverfahren als Entde-ckungsverfahren zu erreichen. Die Abduktion diente vielmehr der nach-träglichen Rechtfertigung der Prionenhypothese als der besten verfügba-ren Erklärung für die bekannten Fakten. Je genauer sie die Details derKrankheit zu erklären weiß, um so besser wird sie dadurch bestätigt.Ganz ähnlich lässt sich das Beispiel der Entdeckung des Kindbettfiebersals eine Form von Abduktion beschreiben, die selektive und kreative Ele-mente enthält.

Welche Faktoren unseres Hintergrundwissens die Auswahlliste be-stimmen, ist von Fall zu Fall verschieden. In der Basisdisziplin Physiknehmen wir an, die vier Grundkräfte unserer Welt zu kennen. Darandrohen etwa astrologische Erklärungen zu scheitern, weil sie nicht erklä-ren können (nicht einmal andeutungsweise), wie der Einfluss der Gestir-ne bei unserer Geburt auf unsere Gene so vonstattengehen soll, dass je-weils ganz bestimmte Charaktereigenschaften dabei herauskommen. Sokann die Physik uns helfen, die Listen nicht zu sehr ausufern zu lassen,weil viele Hypothesen sich als inkompatibel zu unseren Rahmentheorienerweisen. Das bedeutet aber natürlich nicht, dass sie nicht später nocheine zweite Chance erhalten können. Das ist etwa dann möglich, wennalle Kandidaten aus unserer Liste inzwischen eliminiert werden konnten.Die Liste eines Detektivs wird von einfachen ersten Überlegungen zuMotiv und Gelegenheit bestimmt. Man könnte den ersten Schritt als ers-ten groben Eliminationsschritt bezeichnen. Von allen möglichen Hypo-thesen bleiben nur noch die übrig, die zum einen gemäß unserem Hin-tergrundwissen eine Erklärung erbringen könnten und zum anderennicht als zu utopisch (d.h. als nicht zu inkohärent zu unserem Hinter-grundwissen) sofort ausgeschlossen werden. Wie gesagt: Dieser Schrittist irrtumsgefährdet, aber er ist auch immer wieder aufrollbar. Prusinerhat seine neue Hypothese erst entwickelt, als die anderen Hypothesenschon versagt hatten. Die Schritte sind also nicht als endgültige Verfah-rensschritte in einer bestimmten Reihenfolge zu denken. Der erste istnur ein grober Kohärenzfilter plus kreativen Anteilen, während demzweiten die Feinarbeit überlassen bleibt, konkurrierende Erklärungen ge-

Page 153: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

141 Thomas Bartelborth: Induktives Schließen

nau miteinander zu vergleichen. Beide Schritte können immer wiederzum Einsatz kommen. Auch wenn wir hier die Induktionsschlüsse gerneals fast algorithmische Verfahren darstellen, sollten wir doch immer imBlick behalten, dass sie das nicht sind, sondern nur Schritte in einemkomplexen Abwägungsprozess, für den wir nur die Ziele und bestimmteTeilschritte angeben können.

Im zweiten Schritt starten wir dann die Detailarbeit mit einer Listevon Hypothesen {H1,...,Hn} mit ihren jeweiligen Erklärungen der Daten{d1,...,dm}. Zunächst suchen wir nach Hypothesen bzw. ihren zugeord-neten Erklärungsansätzen, bei denen einige der Daten nicht erklärt wer-den können, obwohl die Theorien diese Daten oder Phänomene erklä-ren können sollten. Wenn eine Gravitationstheorie bestimmte Planeten-bewegungen nicht erklären kann, so ist das eine eindeutige Erklärungs-anomalie für diese Theorie. Deswegen muss sie nicht sofort eliminiertwerden, wenn es keine klar besseren Konkurrenten gibt. Wir erinnernuns an Lakatos und sein Motto vom Ende der Sofortrationalität. Dienewtonsche Gravitationstheorie war in ihrer Anfangszeit mehrfach indieser Situation. Da sie sehr viele Phänomene erklären konnte und keineernstzunehmenden Konkurrenten besaß, wurde sie sinnvollerweise bei-behalten, da sie zumindest einige Phänomene gut erklären konnte. Sollteeine Theorie allerdings viele Erklärungsanomalien aufweisen und es gibterkennbar bessere Konkurrenten, sollte sie eliminiert werden.

Diese Eliminationen und weitere Erklärungsvergleiche verlangenletztlich einen komplexen holistischen Gesamtvergleich der Hypothesen(s.u.). Insbesondere müssen wir dabei auch die positiven Erklärungsleis-tungen der Konkurrenten berücksichtigen. Damit gehen wir über denersten Schritt hinaus. Es beginnt ein kleinteiliger Vergleich der einzelnenErklärungsleistungen. Ein großer Vorteil der Stufen-Konzeption ist da-bei, dass wir uns auf dieser Stufe auf paarweise Vergleiche zwischen end-lich vielen potentiellen Erklärungen beschränken können. Das ist oftsehr viel einfacher, als eine absolute Erklärungsstärke bestimmen zu wol-len. Vor allem Paul Thagard (2000) und seine Mitstreiter haben in zahl-reichen Fallstudien aus der Wissenschaft, aber ebenso für Fälle in Ge-richtsverfahren, gezeigt, wie ein solcher Vergleich vorgenommen werdenkann. In der Wissenschaft müssen wir abwägen, welche Theorie mehrPhänomene mit weniger Hilfsannahmen mindestens gleichgut erklärenkann, um unseren Favoriten zu bestimmen. Dazu werden wir uns imnächsten Kapitel mit den unterschiedlichen Aspekten der Erklärungsstär-ke beschäftigen. Ob wir die am besten erklärende Theorie dann akzep-tieren, hängt noch davon ab, wie groß der Vorsprung zu ihren Konkur-

Page 154: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 4: Der Schluss auf die beste Erklärung 142

renten ist und für wie gut wir die Erklärungsleistung der Theorie insge-samt erachten. Hier sollten wir also Sherlock Holmes widersprechen,der meinte, man müsse den nach der Elimination übrig bleibenden Kan-didaten akzeptieren, ganz gleich wie unwahrscheinlich er sei (für einekritische Darstellung des abduktiven Schließens s. a. Klärner 2003). DieErklärungsleistung der besten Hypothese muss jedoch noch einen deut-lich positiven Beitrag zur Gesamtkohärenz unseres Meinungssystems bie-ten, sonst sollten wir lieber Agnostiker bleiben.

Grundschema des abduktiven Schließens auf bestimmte Hypothesen1. Wir beobachten bestimmte Phänomene d1,...,dm aus einem be-

stimmten Bereich.2. Wir wählen eine möglichst umfassende Liste von potentiell erklä-

renden Hypothesen H1,...,Hn dazu aus, die noch eingermaßenplausibel erscheinen bzw. keine größeren Inkohärenzen zu unse-rem weiteren Hintergrundwissen aufweisen (grober Kohärenzfil-ter).

3. Wir eliminieren die Hypothesen, die einige der Daten nicht erklä-ren können (Erklärungsanomalien).

4. Wir vergleichen die verbleibenden Hypothesen im Hinblick aufihre Erklärungsqualität für möglichst viele der Phänomened1,...,dm und erhalten als Sieger etwa H1.

5. H1 liefert deutlich bessere Erklärungen als seine KonkurrentenH2,...,Hn.

6. H1 trägt (erheblich) positiv zur Gesamtkohärenz unseres Überzeu-gungssystems bei.

7. Schlussfolgerung: H1 ist als vermutlich wahr zu akzeptieren.

Der Schluss auf die beste Erklärung oder auch das abduktive Schließenstellt eine Weiterentwicklung der deduktiv-hypothetischen Theorienbe-stätigung und der eliminativen Induktion dar und vereint so die bestäti-genden und falsifizierenden Aspekte einer Theorienwahl in einem Ver-fahren. Ich unterscheide hier der Einfachheit halber wiederum nichtweiter zwischen abduktiven Schlüssen und abduktiven Rechtfertigungenund gehe außerdem davon aus, dass alle Abduktionen auch Schlüsse aufdie beste Erklärung sind. Andere Abduktionen werden hier nicht be-trachtet. Für ein mögliches Beispiel s. Gabbay & Woods 2006, §2.

Dazu einige weitere Beispiele, die das Verfahren weiter illustrierenkönnen: Sehen wir vor uns Fußabdrücke im Schnee, so schließen wir so-gleich, dass dort ein Mensch entlang gegangen sein muss. Dieser Schlusslässt sich am besten als Schluss auf die beste Erklärung rekonstruieren.

Page 155: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

143 Thomas Bartelborth: Induktives Schließen

Bei normalem Hintergrundwissen verfügen wir kaum über eine andereErklärung für die beobachteten Spuren. In solchen Fällen verkürzt sichalso das beschriebene Verfahren und solche Fälle finden wir an vielenStellen unseres Alltags. Kommt jemand nass von draußen herein, neh-men wir sogleich an, dass es draußen regnet, denn das wäre eine guteErklärung für seine Nässe. Allerdings fallen einem in Ausnahmefällennoch andere Erklärungen ein, die wir unter Umständen genauer zu be-trachten haben.

Speziell Detektive verfahren typischerweise so. Wenn Sherlock Hol-mes anhand von Indizien (dazu sollen auch Augenzeugenberichte gehö-ren) nach dem Mörder von Fritz sucht, so stellt er in einem erstenSchritt eine Liste der potentiellen Täter zusammen. Das sind etwa dieje-nigen, die über ein Motiv und die Gelegenheit verfügten, Fritz zu töten.Vorsichtshalber sollte man diese Liste eher größer halten und vielleichtalle aus dem Umfeld des Ermordeten hinzunehmen, die über kein Alibiverfügen, auch wenn wir noch kein Motiv erkennen können. Jeder Ver-dächtige führt zu einer entsprechenden Hypothese über die Ursachender Tat. In einem zweiten Schritt versucht Holmes dann, möglichst vieledieser Hypothesen zu eliminieren. Gegenüber Watson stellt er dasmanchmal so dar, als ob es sich um ein deduktives Verfahren handelnwürde: Eliminiere alle Verdächtigen bis auf einen, dann ist derjenige derTäter, ganz gleich wie unwahrscheinlich das auch ist.

Diese Darstellung ist aber aus gleich drei Gründen nicht ganz richtig:Erstens ist das Verfahren nicht deduktiv. Es bleibt bei der Auswahl derVerdächtigen und ebenso im Verfahren der Elimination immer ein Irr-tumsrisiko. Wir können etwa einen Verdächtigen übersehen haben odereinen fälschlicherweise ausschließen. Zweitens muss der Übrigbleibendebzw. die entsprechende Hypothese tatsächlich die Indizien gut erklärenkönnen. Wenn etwa Fingerabdrücke auf der vermutlichen Tatwaffe ge-funden wurden, die nicht von ihm stammen, sollten wir das zumindestgut erklären können. Drittens kann natürlich leicht mehr als ein Ver-dächtiger übrig bleiben und wir müssen dann trotzdem nach einer Ent-scheidung suchen. Das geschieht typischerweise so, dass wir dann ineinem dritten Schritt die verbleibenden Kandidaten daraufhin verglei-chen, wer am besten zu einer Erklärung der Indizien beiträgt. Das ist ty-pisch für Abduktionen. Wir hatten außerdem schon gesehen, wieschwierig strikte Falsifikationen von Hypothesen sind, daher ist es oftbesser, etwas vorsichtiger zu formulieren, dass eine Hypothese bestimm-te Daten nicht gut erklären kann und deshalb zurückgewiesen wird. Daspasst daher eher in das Abduktionsverfahren.

Page 156: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 4: Der Schluss auf die beste Erklärung 144

Das sei noch an einem weiteren Beispiel aus der Wissenschaft erläu-tert, das von Paul Thagard (1999) ausführlich untersucht wurde. Für dieEntstehung von Gastritis und Magengeschwüren gab es zu Beginn der1980er Jahre nur eine akzeptierte Theorie, nach der sie durch Stress ent-stehen. Dann kam die Hypothese hinzu, dass sie durch das BakteriumHelicobacter-Pylori verursacht werden. Die neue Hypothese konnte u.a.erklären, wieso eine Neu-Infektion mit dem Bakterium zu entsprechen-den Magenbeschwerden führte (Selbstversuch der Ärzte), wieso eineAntibiotikabehandlung so erfolgreich gegen die Erkrankung war undweshalb die bisherigen Behandlungen mit säurebindenden Medikamen-ten nur kurzfristige Erfolge zeitigten. Daneben gab es jedoch weiterhingroße Erklärungslücken, wie etwa, dass viele Träger des Bakteriums kei-ne Beschwerden aufwiesen. Aufgrund der größeren Erklärungskraft undweiterer Befunde setzte sich aber die Bakterienhypothese durch (vgl.Thagard 1999), obwohl die Mediziner es zunächst noch einige Zeit fürausgeschlossen hielten, dass überhaupt Bakterien in der sauren Umge-bung des Magens überlebensfähig wären. Hier wurde also eine sorgfälti-ge Abwägung der Erklärungsmöglichkeiten der beiden Ansätze erforder-lich. Tatsächlich konnte die Stresshypothese die genannten Phänomenekaum oder nur mit gewagten Hilfsannahmen erklären (vgl. die quantita-tiven Abwägungen in Kap. 4.4). Trotzdem müssen wir natürlich immerwieder die Frage stellen, ob es nicht ganz andere Erklärungen gibt (alsoandere erklärende Hypothesen oder Theorien) und ob unser Auswahl-kandidat tatsächlich eine zufriedenstellende Erklärung für alle bekann-ten Phänomene aufweist. Damit haben wir das grobe Schema des Schlus-ses auf die beste Erklärung kennengelernt.

4.3 ErklärungsstärkeDoch was sollen wir unter einer (wissenschaftlichen) Erklärung verste-hen, und wie lassen sich Erklärungsstärken bestimmen? Dazu habe ichan anderer Stelle (Bartelborth 2007) für einen Vorschlag argumentiert,den ich in seinen Grundideen kurz vorstellen möchte. Man kann ihn et-was vereinfacht als eine Ergänzung und Abwandlung des bekanntenhempelschen Schemas der deduktiv-nomologischen Erklärung verstehen.Nach Hempels DN-Schema wird ein Ereignis E dadurch erklärt, dasswir es aus wahren Naturgesetzen G und vorliegenden Rand- oder An-fangsbedingungen A deduktiv ableiten können. Das Schema soll zeigen,wie sich aus bestimmten Umständen A zwangsläufig E entwickelt hat.Die Gesetze, die diesen Übergang beschreiben, müssen in der Erklärungexplizit angegeben werden.

Page 157: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

145 Thomas Bartelborth: Induktives Schließen

Das deduktiv-nomologische Erklärungsschema1. Wir haben Naturgesetze G1,...,Gr und2. Randbedingungen A1,...,Am

3. Schlussfolgerung: Das Explanandum-Ereignis E

Dabei wird verlangt, dass für eine wahre und nicht nur potetielle Erklä-rung die Explanans-Bedingungen (1) und (2) wahr sind und dass der Ex-planandum-Satz E deduktiv aus (1) und (2) folgt.

4.3.1 RelevanzproblemeLeider kann die hempelsche Forderung der Deduktion des Explanan-dums E aus dem Explanans G&A die Idee des Erklärens nicht korrektumsetzen (vgl. Bartelborth 2007). Für die logischen Empiristen war dieRelevanz des Explanans für das Explanandum durch die Bedingung derdeduktiven Ableitbarkeit (bzw. einer probabilistischen Erwartbarkeit) ge-geben. Doch schon ein einfaches Beispiel von Vorwegnahme („preempti-on“) von Achinstein (1983) belegt, dass das nicht ausreicht:

Gegenbeispiel zum DN-Schema(1) Gesetz: Jeder Mensch, der ein Pfund Arsen zu sich nimmt,

stirbt innerhalb von 24 Stunden.(2) Randbedingung: Jones aß ein Pfund Arsen.(3) Explanandum Satz: Jones starb innerhalb von 24 Stunden.

Das Beispiel genügt dem deduktiv nomologischen Schema und würde si-cherlich eine gute Erklärung abgeben, wenn Jones tatsächlich an derEinnahme des Arsens gestorben wäre. Doch es gibt keine Erklärung fürdas Ableben von Jones an, wenn dieser stattdessen von einem LKWüberfahren wurde, ehe das Arsen anfing zu wirken. Dann handelt es sichzwar weiterhin um einen logisch gültigen Schluss, aber das Explanansbeschreibt nicht die tatsächlichen Ursachen des Explanandums und stelltsomit nicht mehr die korrekte Erklärung des Todes dar. Um unser Erklä-rungs-Schema zu verbessern, können wir die Zusatzforderung aufstellen,dass im Explanans eine oder die Ursache des Explanandumereignissesgenannt werden muss.

Jedenfalls sollte die Relevanzbeziehung über die logischen Beziehun-gen in unserer Darstellung der Erklärung hinausgehen. Wir sind außer-dem gezwungen, uns auf einen objektiv vorliegenden Zusammenhang zuberufen (vgl. Bartelborth 1996, Kap. VIII.D.1). Das geht wiederum überden Rahmen der klassischen empiristischen Ansätze hinaus. Für dieseRelevanzbeziehung müssen wir entweder verlangen, dass bestimmteRandbedingungen im Explanans echte Ursachen des Explanandum-Er-

Page 158: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 4: Der Schluss auf die beste Erklärung 146

eignisses sind und das Gesetz als Kausalgesetz den entsprechenden kau-salen Zusammenhang angibt, der hier realisiert wurde, oder noch etwasallgemeiner (und diesem Weg aus Bird 2005 und Bartelborth 2007 wer-den wir hier folgen), dass das vorliegende Gesetz hier tatsächlich instan-tiiert wurde (ähnlich wie eine einfache Eigenschaft instantiiert wird).Das sind die metaphysischen Aspekte des Erklärens, um die wir abernicht herumkommen, wenn wir eine angemessene Erklärungstheorieentwickeln wollen. Sie müssen daher in unserem neuen Erklärungssche-ma berücksichtigt werden (vgl. Bartelborth 2007).

Wir müssen außerdem vom DN-Schema noch darin abrücken, dasswir keine strikten Naturgesetze verlangen können. In den Sozialwissen-schaften oder der Medizin werden wir keine strikten ausnahmslosen Ge-setze finden, sondern bestenfalls Normalfallhypothesen (Schurz 2004)bzw. Generalisierungen mit einer bestimmten Stabilität, die ich nomischeMuster genannt hatte. Damit sieht unser neues vereinfachtes Schema fürdas Erklären wie folgt aus:

Neues ErklärungsschemaAE (es gilt ein nomisches Muster: As führen zu Es)Am (eine Instantiierung m von A liegt vor)AmEs (die Instanz s von E wurde verursacht von Am bzw. das

Muster AE wurde für s und m instantiiert)Also Es (eine Instantiierung s von E liegt vor)

Dabei ist es wieder erkennbar von Bedeutung, dass nomische Mustervorliegen und nicht nur irgendwelche Generalisierungen. Es gibt zwareine Vielzahl möglicher Prädikate, aber nur einige davon beziehen sichauf erklärende (substantielle) Eigenschaften. Wir würden z.B. „grue“-ar-tigen Prädikaten (im Sinne von Nelson Goodmans „grue“-Paradox)nicht zubilligen, dass sie auf erklärende Eigenschaften verweisen. Auchviele andere relationale Eigenschaften eignen sich nicht für wissenschaft-liche Erklärungen wie z.B. die Eigenschaft von Franz „größer zu sein alseine bestimmte Ute“. Wir erwarten nicht, dass wir einen Wachstums-schub von Franz so erklären können: Er war immer größer als Ute unddie hatte einen Wachstumsschub, daher hatte er ebenfalls einen. Selbstwenn Franz immer größer war als Ute, erklärt das nicht seinen Wachs-tumsschub. Franz’ Größer-sein-als-Ute ist normalerweise keine solcheEigenschaft, die eine intrinsische stabile kausale Eigenschaft von Franzdarstellt. Derartige Eigenschaften können sich schnell ändern, ohne dasssich Franz verändert, was ihrer Stabilität schon im Wege steht.

Page 159: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

147 Thomas Bartelborth: Induktives Schließen

Typischerweise erklären wir das Verhalten eines Systems S anhandseiner intrinsischen Eigenschaften (hier also etwa anhand der hormonel-len Situation von Franz), natürlich durchaus in Reaktion auf äußere Ein-flüsse. Aber die verwendeten Eigenschaften sollten selbst zunächstEigenschaften des jeweiligen Systems S sein, die es dann disponieren, inbestimmter Weise auf solche Einflüsse zu reagieren. Die erklärendenEigenschaften müssen jeweils gewisse stabile und natürliche Charakteris-tika der Systeme darstellen. Das erwarten wir von intrinsischen Eigen-schaften dieser Systeme, jedoch nicht von kontingenten relationalen Be-ziehungen zu anderen Objekten. Die Frage, was wir unter der gesuchtenInvarianz bzw. Stabilität genau zu verstehen haben, habe ich im Ab-schnitt über nomische Muster schon beantwortet.

Betrachten wir als Beispiel ein bestimmtes nomisches Muster G, indem wir es mit zwei oder mehr Zufallsvariablen A und E zu tun habenund diese unsere beteiligten kausalen Faktoren darstellen (vgl. Wood-ward & Hitchcock 2003, Halpern & Pearl 2005). Dabei kann es sichdurchaus auch um dichotome Variablen handeln, die qualitative Prädika-te repräsentieren, aber genauso gut um quantitative Größen. Wir müs-sen uns jedenfalls zunächst um eine genaue Charakterisierung dieserFunktionen bemühen. Mein Vorschlag dazu ist: Es seien A(x,s,t) undE(x,s,t’) Funktionen, die bestimmten Objekten oder Systemen x in einerbestimmten Situation s (unter bestimmten Bedingungen) zu einem Zeit-punkt t bzw. t’ eine reelle Zahl zuordnen, die die Ausprägung der Eigen-schaften A bzw. E darstellen. Durch die Wahl von t’ möchte ich dieMöglichkeit eröffnen, dass die Wirkung zeitlich nach der Ursache ein-tritt. Außerdem soll die Funktion f darstellen, wie die Faktoren (A könn-te mehrere Faktoren beinhalten) zusammenwirken, um E hervorzubrin-gen. Zusammen mit einem Faktor für mögliche Abweichungen oder Feh-ler bzw. nicht beachtete Restfaktoren U erhalten wir so die typische Dar-stellung solcher kleinen Theorien (vgl. etwa Pearl 2000, Kap. 5; Wood-ward 2003, Kap. 7):

(G) E(x,s,t’) = f(A(x,s,t)) + U(x,s,t)

Denken wir als Beispiel an den Fall, dass ein größerer Funke (F) einenBrand (B) in einer Scheune verursacht. Dazu kommen die FaktorenSauerstoff (S) und die Abwesenheit von Nässe (N) und alle Faktoren sei-en dichotom und nehmen nur die Werte 0 und 1 an. Dann erhalten wir(wobei wir U im Folgenden meist weglassen):

(1) B = F · S · (-N)

Page 160: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 4: Der Schluss auf die beste Erklärung 148

Hier müssen drei Faktoren zusammenwirken, um die Wirkung zu erzie-len. Die Variablen können wie in unserem Beispiel dichotome Größenaber ebenfalls quantitative Größen darstellen. Die Darstellung als Funk-tionsgleichung legt das keineswegs schon fest.

M sei etwa die Menge eines Medikaments und N die Anzahl derNebenwirkungen, während a>0 eine reelle Zahl sei. Dann hat in einembestimmten Bereich unsere Gleichung vielleicht die Gestalt:

(2) N = aM,

Das heißt, die Anzahl der Nebenwirkungen oder der Umfang derNebenwirkungen (N) steigt linear mit der Menge des eingenommenenMedikaments (M). Unsere kleine Theorie sollte genau genommen nebender Gleichung (2) immer die Angabe des Definitionsbereichs für dieFunktion f enthalten, für den die Gleichung gilt, sonst ist sie unvollstän-dig.

Die Idee der nomischen Muster war nun, dass in (G) A nur dann eineUrsache von E darstellt, wenn es eine Intervention an A relativ zu E gibt,so dass, wenn A bei ansonsten gleicher Situation s einen anderen Wertannähme, damit auch der Wert von E ein anderer wäre. [Hinweis zurNotation: „A“ und „E“ werden hier sowohl für die generischen Ereignis-se oder Sachverhalte wie auch für ihre Instanzen eingesetzt und der Kon-text sollte klären, was genau gemeint ist.] Eine Erklärung für das Auftre-ten von Nebenwirkungen in einem bestimmten Umfang N* könnte dannso aussehen:

Erklärung für das Auftreten der Nebenwirkungen N*N=aM ist ein nomisches Muster und die Person bekam das Medika-ment in der Dosierung M* mit N*=aM*, deshalb waren Nebenwir-kungen vom Umfang N* (mit gewissen möglichen Abweichungen,die durch U zu beschreiben wären) zu erwarten.

U ist dann eine Zufallsvariable, die eine bestimmte Wahrscheinlichkeits-verteilung für bestimmte Abweichungen aufweist. Darauf werden wirnoch im letzten Kapitel genauer eingehen. Das ist natürlich nur danneine korrekte Erklärung, wenn die Nebenwirkungen N* tatsächlichdurch die Gabe des Medikaments verursacht wurden und N=aM denkausalen Mechanismus korrekt beschreibt. Zu der Erklärung gehört alsodie Angabe des instantiierten nomischen Musters bzw. des tatsächlichenkausalen Mechanismus sowie die Angabe der Randbedingungen, die vor-liegen müssen, damit der Mechanismus gerade die zu erklärende Wir-kung herbeiführt.

Page 161: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

149 Thomas Bartelborth: Induktives Schließen

4.3.2 Dimensionen der ErklärungsstärkeWelche Stabilität sollte nun ein nomisches Muster bzw. eine erklärendeGeneralisierung aufweisen, um möglichst erklärungsstark zu sein? FürWoodward und Hitchcock (2003) stehen die oben genannten Interven-tionen ganz im Vordergrund. Nur sie entscheiden demnach, ob unsernomisches Muster (G) eine gewisse Erklärungskraft besitzt. Dazu musses als Minimalforderung zumindest eine Intervention geben (eine ent-sprechende Änderung der Werte von A), die zu neuen Werten der Funk-tion E führen würde. Das ist in Beispielen gut nachvollziehbar. Damitder Funke tatsächlich Ursache des Brandes ist, muss gelten: Hätten wirden Funken verhindert, wäre es auch nicht zu dem Brand gekommen. Istder Bereich von Interventionen, unter denen (G) für das gerade unter-suchte System stabil bestehen bleibt (bzw. die funktionalen Zusammen-hänge weiterhin richtig beschreibt), größer, so entscheidet das über dieErklärungsstärke von (G) im Falle eines bestimmten Systems x.

Für die klassische Konzeption der Gesetzesartigkeit und der Verein-heitlichung zählt dagegen nur, ob die Gleichung ebenso für andere Ob-jekte x Bestand hat und darüber hinaus, ob sie unter anderen Umstän-den bzw. für andere Situationen s bestehen bliebe. Damit (G) eine mög-lichst große Erklärungskraft aufweist, muss es auf möglichst viele andereSysteme x unter möglichst vielen Bedingungen s anwendbar bleiben.Wer hat hier Recht? Meines Erachtens haben beide Konzeptionen einStück weit Recht, vor allem wenn es um die Bestimmung von Aspektender Erklärungsstärke geht, und sind dann im Unrecht, wenn sie die Inva-rianzforderungen der anderen Seite ganz ablehnen (vgl. zum FolgendenBartelborth 2008).

Die Woodward und Hitchcocksche Stabilitätsforderung möchte ichals funktionale oder manchmal auch als lokale Invarianzforderung be-zeichnen, weil sie verlangt, dass die funktionale Gleichung (G) erhaltenbleibt, bei einer Abänderung des Wertes von A für ein und dasselbe Ob-jekt oder System unter denselben Randbedingungen. Die minimale funk-tionale Invarianzforderung ist die nach Invarianz unter wenigstens einersolchen Testintervention. Testinterventionen sollen den Unterschied zwi-schen einer bloßen Korrelation und echten Kausalbeziehungen aufde-cken. Es mag zwar so sein, dass gelbe Finger immer mit einer erhöhtenLungenkrebsrate einhergehen, aber sie sind nicht die Ursache dafür.Wenn wir die anderen Einflussfaktoren wie das Rauchen konstant hal-ten, und nur die Eigenschaft gelbe Finger auf null setzen (d.h. bei Rau-chern etwa die Finger schützen oder säubern), dann sinkt trotzdem ihreLungenkrebsrate nicht; d.h., dass in diesem Fall die Gleichung nicht

Page 162: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 4: Der Schluss auf die beste Erklärung 150

mehr korrekt Auskunft darüber gibt, was wir zu erwarten haben. DieGleichung ist also nicht invariant unter dieser Intervention. Die funktio-nale Invarianz der Gleichung (G) unter mindestens einer Intervention istdamit geradezu eine Voraussetzung dafür, dass (G) überhaupt kausalinterpretierbar ist. Sonst könnte (G) noch eine reine Korrelationsglei-chung sein oder sogar nur ein einzelnes Datum darstellen.

Als globale Invarianzforderung können wir demgegenüber zunächstan die Situationsinvarianz denken, wobei wir verlangen, dass unsereGleichung ebenso unter anderen Randbedingungen s gilt. Das sollteeigentlich für jede Generalisierung für bestimmte Situationen s erfülltsein. Es können sich etwa Rahmenbedingungen ändern, die weit ent-fernt liegen und für den betreffenden Zusammenhang vermutlich völligirrelevant sind. Das sind die uninteressanten Fälle der Situationsinva-rianz. Es gibt aber auch spannendere Fälle und in einem Vergleichzweier Hypothesen kann die Situationsinvarianz daher trotzdem denAusschlag geben. Erweist sich die Darstellung der Wirkung eines Medi-kaments als nicht mehr stabil unter einer Änderung der Außentempera-turen, ist diese Wirkung schwächer als eine mit der betreffenden Stabili-tät.

Die Gleichung sollte außerdem für möglichst viele Objekte gelten,und wir erwarten damit eine weitere globale Invarianz, nämlich eine ge-wisse Objektinvarianz bzw. Vereinheitlichung durch (G). Was wäre, wenn(G) nur für ein einziges Objekt a gelten würde? Das passte nicht zusam-men mit unserer Konzeption, wie Eigenschaften wirken, nämlich gleich-artig unter gleichen Umständen. Es könnte natürlich de facto so sein,dass bestimmte Umstände nur einmal vorliegen, aber wenn sie sich wie-derholen, erwarten wir auch gleiche Wirkungen von denselben Eigen-schaften.

Außerdem erwarten wir natürlich auch eine starke Zeitinvarianz fürPaare <t,t’> und <r,r’>, die durch eine bloße zeitliche Verschiebungauseinander hervorgehen, für gesetzesartige Generalisierungen. Wennsich bestimmte Zusammenhänge zwischen Eigenschaften nur in einembestimmten Zeitraum zeigen, aber nicht in einem anderen, obwohl dieSituationen ansonsten dieselben sind, so handelt es sich typischerweisenur noch um eine zufällige Korrelation und nicht um ein gesetzesartigesMuster.

Um diese Invarianzen präzise darstellen zu können, so dass wir uns inder Explikation der Erklärungsstärke darauf stützen können, möchte ichdie folgenden Konzepte einführen: Ein System m=<x,s,t,t’> bestehendaus einem Objekt x in einer bestimmten Situation s (die als ein Komplex

Page 163: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

151 Thomas Bartelborth: Induktives Schließen

von gemeinsam instantiierten Eigenschaften oder Randbedingungen zuverstehen sind) und zwei Zeitpunkten t und t’ mit tt’ nenne ich einpotentielles Modell unserer Minitheorie G (mit Definitionsbereich ).Die potentiellen Modelle bilden praktisch den Definitionsbereich fürunsere Variablen A und E, die die betrachteten Eigenschaften wiederge-ben. Wenn m dazu die Gleichung G und zugleich eine gewisse funktio-nale Invarianzforderung erfüllt, so nennen wir m ein Modell der Theorie(G).

Die Modelle von GM(G) = {m; set(A(m)=r) E(m)=f(r)},[wobei A(x,s,t,t’) gerade dem alten A(x,s,t) und E(x,s,t,t’) demfrüheren E(x,s,t’) entsprechen sollen].

Dabei bedeutet set(A(m)=r), dass die Größe A für das System m perIntervention auf den Wert r gesetzt wird (vgl. etwa Pearl 2000, Kap. 5;Woodward 2003, Kap. 7). Wenn in diesem speziellen Fall also die Glei-chung (G) erfüllt ist, handelt es sich bei m um ein Modell unserer klei-nen Theorie (G). Dann erhalten wir für unseren lokalen Invarianzbereich(G) die Charakterisierung:

(G) = {rℝ; m M(G) & A(m)=r}

Die minimale Forderung nach funktionaler Invarianz besagt nun, dass(G) mindestens zwei Werte r1 und r2 enthalten muss mit f(r1)f(r2).Man beachte, dass f einfach nur eine mathematische Funktion ist, (G)aber eine empirisch zu bestimmende Größe.

Die Menge M(G) der Modelle unserer kleinen Theorie (G) gibt nunan, auf welche Systeme unsere Theorie erfolgreich anwendbar ist. Damitliefert sie uns im Wesentlichen die globale Vereinheitlichung, zu derunsere Theorie (G) imstande ist. Je größer also M(G) ist, umso verein-heitlichender ist unsere Theorie (G) und umso besser sind ihre Erklärun-gen. Das beruht vor allem darauf, dass eine große Menge M(G) anzeigt,dass das nomische Muster (G) ein in unserer Welt grundlegendes undsehr stabiles Muster darstellt. Erklärungen sollen unsere Erscheinungenmöglichst auf solche zentralen Muster in unserer Welt zurückführen.Man könnte sogar sagen, je größer M(G) ist, umso gesetzesartiger ist ce-teris paribus (G). Damit haben wir schon einen entscheidenden Parame-ter für die Erklärungsstärke durch (G) gefunden. Je größer M(G) ist,umso basaler ist (G) und umso besser ist dann eine Erklärung durch (G)als eine Zurückführung auf grundlegende Kausalgesetze in unserer Welt.Je grundlegender der beschriebene kausale Mechanismus in unserer Welt

Page 164: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 4: Der Schluss auf die beste Erklärung 152

verankert ist bzw. je grundlegender die in (G) beschriebenen Eigenschaf-ten sind, umso besser wird auch die Erklärung durch (G). Das lässt sicham leichtesten erkennen, wenn wir einfache Beispiele dafür betrachten.

Nehmen wir an, wir vergleichen die Erklärungen, die zwei Theorienfür bestimmte Aspekte der Umlaufbahn des Mars bereitstellen. Die eineist die newtonsche Gravitationstheorie und die andere eine reine Marst-heorie, die nur für den Mars eine Bahnbeschreibung liefert und so für je-den späteren Zeitpunkt E jeweils die Marsposition angibt. Wollen wirnun erklären, warum der Mars auf einer bestimmten elliptischen Bahnum die Sonne läuft, würde die Marstheorie einfach die Bahnkurve dazuangeben und keine weitergehenden Erklärungen oder Vereinheitlichun-gen anbieten. Genau genommen könnte man hier wirklich nur noch voneiner einfachen Beschreibung und nicht mehr von einer Erklärung spre-chen. Die newtonsche Gravitationstheorie bietet dagegen eine Beschrei-bung des zugrundeliegenden Mechanismus bzw. der zugrundeliegendendispositionellen Eigenschaft der Gravitationskraft und führt die Bahndes Mars wie auch vieler andere Phänomene auf dieses grundlegendeMuster zurück. Erst dadurch erhalten wir eine Erklärung der Marsbahn.Diese Form der Vereinheitlichung ist also unabdingbar für das Erklären.Nomische Muster sind daher vor allem dadurch ausgezeichnet, dass sie(im Unterschied zu den bloß lokal invarianten Generalisierungen beiWoodward) intrinsische dispositionale Eigenschaften oder Kräfte be-schreiben, die immer wieder dieselben anderen Eigenschaftsvorkomm-nisse hervorbringen, sobald sie in einer geeigneten Umgebung auftreten.Erst diese globale Invarianz zeigt, dass es sich hier um ein nomischesMuster handelt, das auch einen bestimmten kausalen Mechanismus inunserer Welt beschreibt.

Allerdings ist die Situation für die Vereinheitlichung und Erklärungs-stärke noch etwas komplizierter, denn wir finden ein komplexeres Ab-hängigkeitsverhältnis zwischen M und (G). Wenn wir uns mit kleinerenBereichen M(G) zufriedengeben, erhalten wir unter Umständen größereBereiche für und damit einen größeren funktionalen Invarianzbereich.Hier werden also gegenseitige Verrechnungen der zwei unterschiedli-chen Formen von Vereinheitlichung möglich.

Betrachten wir die einfache Theorie, dass die Menge eines eingenom-menen Medikaments (Variable A) linear wachsend eine Menge anNebenwirkungen (Variable E) jeweils auf einer Skala von 0 bis 1 verur-sacht:

(g) E = cA, mit cℝ (hier ist also f(x)=cx)

Page 165: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

153 Thomas Bartelborth: Induktives Schließen

Nun gebe es aber zwei Typen von Menschen, die Robusten (r) und dieSensiblen (s), und es gebe Menschen in unterschiedlichen Situationen:diejenigen, die noch andere Medikamente (m für „mit“) einnehmen unddiejenigen, die ansonsten keine weiteren Medikamente (o für „ohne“)einnehmen. Dann kann Folgendes der Fall sein: Für die Robusten ohneweitere Medikamente (Mro) gilt (g) auf dem ganzen Intervall [0,1], fürdie Sensiblen ohne weitere Medikamente (Mso) ergeben sich ab der Dosie-rung ½ bereits deutlich höhere Raten von Nebenwirkungen als nur li-near anwachsende (ebenso für die Robusten mit weiteren Medikamen-ten: Mrm) und für die Sensiblen mit weiteren Medikamenten (Msm) sogarbereits ab einer Dosierung von ¼. So erhalten wir als lokale Invarianz-mengen: (Mro)ro=[0,1] sowie so=rm=[0,½] und sm=[0,¼]. Wirhaben es also mit vier unterschiedlichen Situationen zu tun, die durchdie vier Gruppen von Personen charakterisiert sind:

Robuste, die keine weiteren Medikamente einnehmen (Mro)Robuste, die weitere Medikamente einnehmen (Mrm)Sensible, die keine weiteren Medikamente einnehmen (Mso) undSensible, die weitere Medikamente einnehmen (Msm)

Dafür treten die drei Bereiche auf, in denen die Gleichung (g) dieNebenwirkungen korrekt beschreibt, wobei wir annehmen, dass dieNebenwirkungen oberhalb der drei Bereiche schneller als linear anwach-sen, wenn wir auch nicht genau wissen, in welchem Umfang das jeweilsder Fall ist.

Hier zeigt sich dann die enge gegenseitige Abhängigkeit von Modell-menge und Invarianzbereich. Typischerweise erhalten wir für größereModellmengen kleinere Invarianzbereiche und umgekehrt. Deshalb ha-ben wir es eigentlich nicht nur mit einer Theorie (g), sondern mit dreiTheorien (gro, gro+rm+so, gro+rm+so+sm) zu tun, in denen unsere Funktion fjeweils einen anderen Definitionsbereich hat. Die drei Theorien besagendann:

(gro) Für alle mMro gilt:E(m) = cA(m) im Bereich A(m)[0, 1],

(gro+rm+so) Für alle mMroMrmMso gilt:E(m) = cA(m) im Bereich A(m)[0, ½],

(gro+rm+so+sm) Für alle mMroMrmMsoMsm gilt:E(m) = cA(m) im Bereich A(m)[0, ¼]

Man sieht hieran sehr schön, wie bei größerer Modellmenge (d.h. beigrößerer globaler Invarianz der Theorie) ihre lokale Invarianz abnimmt.

Page 166: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 4: Der Schluss auf die beste Erklärung 154

Die Frage ist dann, welche der drei Theorien die größte Erklärungsstär-ke aufweist. Das werden wir gleich unter dem Stichwort der Vereinheit-lichung weiter diskutieren. Es gibt dazu zwei unterschiedliche Ansichten,was die relevante Vereinheitlichung ist.

Es gibt aber neben diesen zwei Unterdimensionen der Vereinheitli-chung m.E. eine weitere Dimension, die die Erklärungsstärke einesDatums E durch eine Theorie T bestimmt. Das ist die spezielle Informa-tion, die uns T über das Auftreten von E gibt, bzw. der Informationsge-halt von T relativ zu E, worauf ich gleich zu sprechen kommen werde(vgl. Bartelborth 2002). Beide Dimensionen lassen sich als plausible As-pekte der Erklärungskraft auffassen und werden auch immer wieder ge-nannt, aber die Frage bleibt bestehen, was genau darunter zu verstehenist. Außerdem übersehen oder vernachlässigen alle Ansätze jeweils ganzbestimmte Aspekte der Erklärungsstärke.

Vereinheitlichung. Was soll man nun unter Vereinheitlichung verstehen?Hitchcock/Woodward (2003, 184ff.) nennen einige Aspekte von Erklä-rungsstärke, von denen ich die wichtigsten aufgreifen möchte. Für siezählt im Bereich der Vereinheitlichung vor allem die lokale Invarianz.Eine Theorie G mit größerem Anwendungsbereich ist für sie deshalberklärungsstärker als eine Theorie G* mit kleinerem *, weil G mehrkontrafaktische Fragen darüber beantworten kann, was passiert wäre,wenn A einen anderen Wert aufgewiesen hätte.

Das erscheint auf den ersten Blick noch plausibel, wird jedoch sofortproblematisch, wenn wir berücksichtigen, dass eine größere funktionaleInvarianz mit einer kleineren globalen Invarianz einhergehen kann, d.h.,es könnte dann M(G*) echt enthalten sein in M(G), ähnlich wie es inunserem Beispiel oben der Fall ist. Das beunruhigt Woodward undHitchcock nicht, da sie schlicht behaupten, dass eine Invarianz bzgl. derObjekte x keine Relevanz für die Erklärungsstärke besitzt. Für sie wärealso unsere Theorie gro eindeutig die erklärungsstärkste Theorie.

Es sollte sie jedoch beunruhigen, denn auch sie erkennen an, dasseine größere Invarianz bzgl. der Randbedingungen s die Erklärungsstär-ke vergrößert. Die steht aber ebenso in einem Spannungsverhältnis zurfunktionalen Invarianz wie die Objektinvarianz, wie die Abhängigkeitvon der Einnahme weiterer Medikamente in unserem Beispiel belegt.Außerdem wurde schon in den klassischen Vereinheitlichungsansätzendafür argumentiert, dass auch die Objektinvarianz sowohl für Kausalbe-hauptungen und insbesondere für Erklärungsbehauptungen eine großeBedeutung besitzt. Deshalb wurde sie bisher in Vereinheitlichungskon-zeptionen des Erklärens sogar meistens in den Mittelpunkt gestellt.

Page 167: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

155 Thomas Bartelborth: Induktives Schließen

Woodward und Hitchcock haben Recht, dass damit die ebenfalls wichti-ge funktionale Invarianz übersehen wurde, aber diese kann die globalenicht ersetzen, sondern ergänzt sie nur. Das wird in unserem Beispieldurch die enge Verzahnung der beiden Typen von Vereinheitlichungdeutlich. Damit haben wir bereits im Bereich der Vereinheitlichung zu-mindest zwei Unterdimensionen der Vereinheitlichung, die in gegensätz-liche Richtungen ziehen (außerdem können natürlich ebenso die Objekt-invarianz und die Situationsinvarianz in Konflikt geraten).

Wir erhalten somit nur eine partielle Ordnung für die Erklärungsstär-ke. Doch es kommen noch weitere Aspekte der Erklärungsstärke hinzu.Woodward und Hitchcock weisen darauf hin, dass (jedenfalls fürquantitative Größen A und E) möglichst nicht in Mengen isolierterPunkte zerfallen darf, sondern eher zusammenhängend sein sollte. Wirkönnen zumindest behaupten, dass für eine bessere Erklärung wenigs-tens offene Intervalle enthalten sollte, so dass benachbarte Systeme nor-malerweise auf ähnliche Weise durch G erklärt werden können.

Als erstes Resultat erhalten wir damit, dass die Theorie G* dann diebesseren Erklärungen liefert als G, wenn ceteris paribus (G)(G*) istoder wenn M(G)M(G*) ist und außerdem, wenn (G*) zusammenhän-gender ist als (G). Für quantitative Theorien erhalten wir damit als Er-klärungsschema für die Erklärung, warum ein bestimmtes Objekt o ineiner bestimmten Situation s zu t’ gerade die Eigenschaft E im Ausmaß vaufweist:

Erklärungsschema für quantitative Größen(G) Gesetz: zM(G) gilt: E(z)=f(A(z)) im Bereich A(z)(G)

Randbedingung: m=<o,s,t,t’>M(G) & A(m)=u(G)Explanandum: Daher ist: E(m)=f(u)=v

Doch es gibt noch einen weiteren Aspekt von Vereinheitlichung zu be-achten. Die Vereinheitlichung sollte nicht auf triviale Weise erfolgen,sondern durch ein einheitliches Muster, das in vielen Fällen instantiiertist. Das ist ein altes Problem der Vereinheitlichungsansätze, dass die Ver-einheitlichung z.B. nicht dadurch zustande kommen darf, dass zweiTheorien mit ganz unterschiedlichen Mustern per Konjunktion zusam-mengefügt werden. Natürlich können mehrere Muster in einer Erklä-rung zusammenwirken und etwa einen komplexeren kausalen Mechanis-mus beschreiben, doch durch die Konjunktion wird dabei keine zusätzli-che Vereinheitlichung erzielt. Diese Forderung ist intuitiv verständlich,aber nicht leicht zu präzisieren. Eine ältere Idee ist dazu, dass es zueinem vereinheitlichenden nomischen Muster keine zwei Muster geben

Page 168: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 4: Der Schluss auf die beste Erklärung 156

darf, deren Konjunktion denselben (empirischen) Gehalt aufweist. Eineformale Präzisierung dieser Idee findet sich in Bartelborth (2002, 1996)im Rahmen der strukturalistischen Theorienauffassung unter dem Stich-wort der organischen Einheitlichkeit einer Theorie. Dabei geht es dar-um, wie eng die Modelle einer Theorie untereinander vernetzt sind oderob die Modellmenge in zwei oder mehr separate Klassen zerlegt werdenkann.

Neben der Vereinheitlichung durch ein nomisches Muster G müssenwir aber auch berücksichtigen, was uns G direkt zum Auftreten von E zusagen hat. Das ist eine Dimension von Erklärungsstärke, die wiederumin einem Spannungsverhältnis zu den bisherigen Dimensionen steht.

Höhere Wahrscheinlichkeit für E. Von dem erklärenden nomischenMuster G verlangen wir, dass es eine gute Vereinheitlichung bietet, aberzunächst sollte es auch möglichst gehaltvolle Informationen dazu anfüh-ren, warum gerade E aufgetreten ist (und nicht etwa F) und warum E indieser Situation zu erwarten war. Besonders Lipton (1991) hat das kon-trastive Element von Erklärungen betont. Oft können wir sogar nur er-klären, warum E statt F aufgetreten ist und nicht, warum E aufgetretenist, denn wir verfügen vielleicht nur über Gründe, die E gegenüber F be-vorzugen, die aber nicht viel mehr besagen. So bin ich vielleicht ins All-gäu statt nach Südtirol gefahren, weil das Allgäu nicht so weit entferntist, aber ich kann vielleicht nicht erklären, warum ich überhaupt verreistbin, bei meiner Abneigung gegen das Reisen.

In der Debatte um das induktiv-statistische Modell der Erklärung hatsich gezeigt, dass es für Erklärungen oft nicht ausreicht, wenn das Expla-nans schlicht zu einer hohen Wahrscheinlichkeit für das Explanandumführt. Es fehlt dabei eine Forderung der Relevanz des Explanans für dasExplanandum. Daher hat sich die Bedingung der Erhöhung der Wahr-scheinlichkeit als plausible Forderung durchgesetzt (das statistische-Rele-vanz-Modell), die allerdings als Relevanzforderung selbst zu kurz greift.So erhöhen zwar gelbe Finger die Wahrscheinlichkeit für das Auftretenvon Lungenkrebs (durch ihre Korrelation mit dem Rauchen), haben da-für aber keinen Erklärungswert. Deshalb musste auch die SR-Konzep-tion durch die Forderung nach einer Kausalbeziehung ergänzt werden.Trotzdem hat der Siegeszug der SR-Bedingung dazu geführt, dass dieForderung der hohen Wahrscheinlichkeit des IS-Modells ganz aufgege-ben wurde (vgl. Strevens 2000). Das ist ein offensichtlicher Fehler. DieForderung nach einer möglichst guten Information darüber, warum die-ses spezielle Ereignis E (und nicht andere wie F) aufgetreten ist, findetsich am ehesten in der Forderung nach möglichst hoher Wahrscheinlich-

Page 169: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

157 Thomas Bartelborth: Induktives Schließen

keit wieder. Wenn P(E|G) größer wird, dann wird P(F|G) damit kleiner,wenn F eine echte Alternative zu E darstellt. Somit ist eine Erklärungvon E durch G ceteris paribus umso besser, je höher P(E|G) ausfällt. Fürdie Relevanzbedingung sind wir ohnehin auf eine Forderung nach einemKausalzusammenhang bzw. der Instantiierung des nomischen Mustersangewiesen.

In unserer Gleichung (G) sind die Wahrscheinlichkeiten nicht explizitaufgeführt, aber intuitiv in der Zufallsvariable U angesiedelt, die wir al-lerdings in den letzten Darstellungen von (G) aus Gründen der Vereinfa-chung immer weggelassen haben. Wir haben einfach so getan, als ob (G)eine deterministische Theorie wäre. Doch in vielen Fällen haben wir esmit probabilistischen Theorien zu tun, für die U für jedes m nun eineWahrscheinlichkeitsverteilung P(U=x) aufweist, die den Abweichungenvom Erwartungswert 0 jeweils eine bestimmte Wahrscheinlichkeit zu-weist. Das heißt, U liefert eine reelle Zahl x für jedes einzelne Experi-ment mit einer Wahrscheinlichkeit P(U=x), die oft als normalverteilt an-genommen wird und deren Werte typischerweise als von A unabhängigangesehen werden. Ist U dabei eine Zufallsvariable mit kontinuierlichemWertebereich, so soll P(U=x) gerade die Dichtefunktion fU(x) der Vertei-lung repräsentieren oder wir müssten genau genommen mit kleinenIntervallen I arbeiten und die Wahrscheinlichkeit P(UI) betrachten. Wirwürden dann nicht erklären, warum E einen ganz bestimmten Wert an-nimmt, sondern, warum E einen Wert aus dem Intervall I annimmt. Die-se kleinen technischen Komplikationen werde ich hier aber weitgehendausklammern, da sie für uns nicht von großer Bedeutung sind. U dientjedenfalls zunächst dazu, die für E kausal relevanten Faktoren zu reprä-sentieren, die wir mit A noch nicht erfasst haben, es kann aber ebensodazu dienen, Messfehler anzugeben oder genuin indeterministische Ef-fekte zu beschreiben.

Statt mit unserer Gleichung (G) zu arbeiten, lassen sich solche inde-terministischen Theorien natürlich auch so beschreiben, dass wir direktE und A als Zufallsvariable betrachten und die Funktion P(E=y|set(A=x)) hernehmen, die uns direkt die Auswirkungen unterschiedli-cher Ausprägungen von A auf E als probabilistisch darstellt. So liefertunsere Theorie bestimmte Wahrscheinlichkeiten für bestimmte Ergebnis-se.

Betrachten wir zur Forderung hoher Wahrscheinlichkeiten für dasExplanandum ein Beispiel. Nehmen wir zwei Theorien T1 und T2. Dieerste besagt, dass die Krankheit K mit 5% Wahrscheinlichkeit zum Todeführt, während die zweite für K 90% Todeswahrscheinlichkeit annimmt.

Page 170: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 4: Der Schluss auf die beste Erklärung 158

Wenn nun Fritz ohne anderen erkennbaren Grund gestorben ist, dann istdie Auskunft, dass er K hatte, zwar in jedem Fall ein relevanter Faktor,der zu einer Erklärung führt, aber im Falle von T1 bleibt die Frage vieloffener, warum hat es gerade Fritz erwischt, wenn doch nur 5 von 100daran sterben. Die Erklärung mit Hilfe von T2 ist intuitiv weitaus über-zeugender. Strevens (2000) erläutert das an Beispielen aus der statisti-schen Mechanik, in denen speziell die hohe Wahrscheinlichkeit einenwesentlichen Erklärungsfaktor darstellt. Das heißt, ceteris paribus isteine Erklärung für E umso besser, umso größer P(E|G) ist (bzw. für kon-tinuierliche Zufallsvariablen: je größer ihre Dichtefunktion an dieserStelle ist).

Das lässt sich auch anhand von Überlegungen zur Stärke der Kausali-tät bzw. Bedeutung des in (G) genannten Kausalfaktors erläutern, wobeiwir auf die in Kapitel 7 Kausalkonzeption der minimalen Theorie zu-rückgreifen können (vgl. Bartelborth 2008). Dabei kommt dabei heraus,dass ein deterministisch wirkender Faktor A, der allerdings auf gewisseKofaktoren angewiesen ist, um zu wirken, umso größeren Einfluss beimHervorbringen von E zeigt, je verbreiteter seine Kofaktoren sind undumso seltener er selbst auftritt. Das liefert wichtige Hinweise darauf,welche Faktoren wir im Normalfall für besonders erklärungsrelevant er-achten. Die Erklärungsstärke wird dabei nicht nur durch pragmatischeAspekte bestimmt (was manche Autoren wie Lipton 1991 annahmen),sondern auch von Verteilungshäufigkeiten in unserer Welt. Ist eineScheune abgebrannt (E), werden wir im Normalfall dafür die brennendeZigarette (A) zur Erklärung nennen und nicht die (allgegenwärtige) An-wesenheit von Sauerstoff, weil die nur als Kofaktor unsere Wahrschein-lichkeitsdifferenz erhöht. Andere notwendige Faktoren sind hingegenseltener und daher ist ihre Nennung in einer Erklärung informativer.Sind ihre Kofaktoren außerdem weitverbreitet, liefern sie gute Erklärun-gen. Die Erklärungsstärke ist hier an die Stärke des kausalen Zusammen-hangs gekoppelt, den wir in Kapitel 7.3.3 weiter explizieren werden.

Vergleiche der Erklärungskraft. Eine einfache Erklärung eines Ereignis-ses oder einer Tatsache E besteht somit aus zwei Elementen: einem gene-rellen und einem singulären. Das generelle Element ist die Angabe einesnomischen Musters G (AE), wonach generell Ereignisse vom Typ AEreignisse vom Typ E (bzw. Ereignisse eines Typs, zu dem E gehört) her-vorbringen. Zum singulären Element gehört, dass dieses Muster auchtatsächlich in unserem konkreten Fall instantiiert ist, bzw. im Falle kau-saler Muster, dass eine Instanz von A vorliegt, die die tatsächliche Ursa-che einer Instanz von E darstellt. Damit wir überhaupt davon sprechen

Page 171: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

159 Thomas Bartelborth: Induktives Schließen

können, ein nomisches Muster sei instantiiert, muss die Minimalbedin-gung von Hitchcock und Woodward erfüllt sein, wonach es mindestensnoch eine Testintervention an A gibt, so dass E nicht aufgetreten wäre(bzw. einen anderen Wert angenommen hätte), wenn A nicht aufgetretenwäre (bzw. einen anderen Wert angenommen hätte). Doch das ist nocheine recht schwache Forderung an Erklärungen und sagt uns wenig dar-über, was bessere von schlechteren unterscheidet.

Die Erklärungsstärke selbst ist ein multidimensionales Konzept, dasfür den Vergleich der Stärke von Erklärungen (bzw. für einen Vergleichder erklärenden Theorien) zunächst nur eine Halbordnung liefert. DieDimensionen für eine einfache Theorie T (mit Muster G) im Hinblickauf eine Erklärung von E haben wir nun beisammen. Sie nehmen Bezugauf die beiden Hauptaspekte des Erklärens. Zunächst muss die Theoriemöglichst gehaltvolle Informationen über unsere zu erklärende Instanzvon E liefern, die sich so zusammenfassen lassen, dass für dichotomeGrößen P(E|A)–P(E) möglichst groß sein sollte. Die Erklärungsstärkedurch T ist also umso größer, umso größer P(E|A) wird.

Das heißt, dass das Muster (G) eine relativ zu unserer Welt möglichststarke Ursache angeben sollte, die deshalb stark ist, weil die erforderli-chen Kofaktoren normalerweise vorliegen, während die Angabe von Abesonders informativ ist, weil A selbst als keineswegs selbstverständlicheHintergrundbedingung angesehen werden kann, sondern eher unge-wöhnliche Umstände darstellt. Für quantitative Größen erwarten wir,dass sie den Wert von E möglichst genau spezifizieren, dass die Vertei-lung P(U) an der betreffenden Stelle also möglichst konzentriert ist (einekleine Streuung aufweist).

Dazu kommt als Zweites der Aspekt möglichst guter Vereinheitli-chung durch (G). Der findet sich zunächst in der funktionalen Invarianzals Grundlage dafür, dass wir es überhaupt mit einem nomischen Musterzu tun haben. Die Erklärungsstärke ist ceteris paribus umso größer, jeumfangreicher (G) ist. Aber informativ wird eine Gleichung G erst,wenn wir es auch mit einer gewissen globalen Invarianz zu tun haben.Das gehört seinerseits zu unserem Verständnis der kausalen Wirkungenvon dispositionalen Eigenschaften. Hierhin gehört ebenfalls die Forde-rung, dass möglichst ganze Phänomene – also Typen von Situationen undObjekten – insgesamt erklärt werden.

Die Erklärungskraft von (G) ist also größer als die von (G’) für dasVorliegen einer Instanz von E, wenn(1) M(G’) M(G) gilt, wobei zugleich (G’) (G) gegeben ist und(2) P(E|A)/P(E|A’) ≥ 1 ist.

Page 172: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 4: Der Schluss auf die beste Erklärung 160

(Für Zufallsvariable E mit kontinuierlichem Wertebereich werdenwir den Quotienten der Wahrscheinlichkeitsdichten betrachtenfG(a)/fG’(a) anstelle des Quotienten der Wahrscheinlichkeiten.)

Entsprechende Vergleiche ergeben sich, wenn wir eine der anderen Di-mensionen der Erklärungsstärke in den Vordergrund stellen. Insbesonde-re ist hier die Inklusionsbedingung für die Modelle so zu verstehen, dasssie möglichst für ganze Klassen von Modellen gilt, die intuitiv ein Phä-nomen repräsentieren. Die drei so explizierten Aspekte lassen sich wo-möglich in konkreten Einzelfällen gegeneinander verrechnen, aber esfinden sich bisher keine allgemeinen Regeln dafür, wie das geschehensoll. Daher bleibt nur die allgemeine Redeweise, dass eine Theorie Tdann gegenüber einer Theorie T* vorzuziehen ist, wenn sie entwedereine größere Vereinheitlichung (in allen Aspekten) oder eine gehaltvolle-re Ableitung der Daten E zu bieten hat. Dabei ist klar, dass E dabei aucheine Konjunktion von mehreren Datenaussagen darstellen kann.

Komplexe wissenschaftliche Theorien haben eine spezielle Struktur,um die beiden Hauptdimensionen der Erklärungsstärke gemeinsam zuverwirklichen. Sie bestehen aus allgemeineren Komponenten, in denensie ihre große Vereinheitlichungskraft zeigen und spezielleren Kompo-nenten, in denen sie für kleinere Mengen intendierter Anwendungen ge-haltvollere Muster zur Verfügung stellen. Die newtonsche Mechanik bie-tet mit f=ma zunächst ein sehr allgemeines und nicht sehr gehaltvollesMuster, das dann um spezielle Kraftgesetze etwa für die Haftreibungoder für die Gravitationskraft oder für Federkräfte für spezielle Anwen-dungen ergänzt wird und erst dadurch einen größeren Gehalt erhält. ImRahmen der strukturalistischen Theorienauffassung lassen sich solcheStrukturen weiter präzisieren (vgl. Bartelborth 2002).

Eine etwas andere Darstellung von Erklärungsstärke findet sich beiThagard (2007). Dort wird untersucht, welche Anhaltspunkte es in derEntwicklungsgeschichte einer Theorie für uns gibt, dass die Theorie ver-mutlich wahr oder wenigstens approximativ wahr ist. Thagard setzt sichdabei insbesondere mit der pessimistischen Metainduktion von Laudan(1981) auseinander, nach der sich im Laufe der Wissenschaftsgeschichteschließlich doch die meisten Theorien als falsch herausgestellt haben,selbst wenn sie zunächst eine gute Erklärungsleistung zeigten. Nebendem „broadening“, das Theorien zeigen, bei dem sie zunehmend mehrPhänomene erklären können (was in etwa der Forderung nach möglichsthoher Vereinheitlichung entspricht), setzt Thagard vor allem auf ein„deepening“, bei dem eine Theorie zu immer tieferen Erklärungen führtbzw. neue Theorien, diese vertiefenden Erklärungen liefern. Sie bieten

Page 173: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

161 Thomas Bartelborth: Induktives Schließen

nach Thagard die wichtigeren Hinweise auf die Wahrheit einer Theorie.Tatsächlich vertiefte Theorien haben sich seiner Meinung nach in derWissenschaftsgeschichte noch nie als ganz falsch erwiesen. Mit einer sol-chen Vertiefung bezieht sich Thagard speziell auf mechanistische Erklä-rungen, für die der erklärende Mechanismus selbst schließlich durchnoch grundlegendere Mechanismen erklärt wird. Solche Mechanismensind Beschreibungen von Systemen, die aufzeigen, wie die Komponentendes Systems ein bestimmtes Gesamtverhalten produzieren. Die Vertie-fungen beziehen sich dann etwa auf weitere Teil- oder Unterkomponen-ten der Komponenten, für die wir noch grundlegendere Zusammenhän-ge aufzeigen können. Das beschreibt sicher auf intuitive Weise, was in ei-nigen solchen Beispielen passiert (Thagard gibt dazu zahlreiche Beispieleaus der Wissenschaftsgeschichte an), aber wir müssen natürlich nachfra-gen, was genau mit einem Mechanismus gemeint ist. In Bartelborth(2007) findet sich dazu schon eine Diskussion, die zu dem Ergebniskommt, dass die Beschreibungen des Zusammenspiels der Komponentenim Wesentlichen durch nomische Muster zu geschehen hat, wenn wirdamit genuine Erklärungen produzieren möchten. Die Vertiefung hängtdaher auch mit gehaltvolleren nomischen Mustern zusammen. Aller-dings lassen sich sicher nicht alle Aspekte dieser Vertiefungen quantitativerfassen. Wir müssen solche Vorstellungen von vertieften Erklärungendaher auch informell als ergänzende Idee zur Verbesserung von Erklä-rungen mit hinzunehmen. Die Konzeption der vertiefenden Erklärungliefert gerade für die speziellen Wissenschaften eine sehr plausible undintuitive Vorstellung von Erklärungskraft und einer weitergehenden Ver-netzung und damit Erklärungskohärenz unseres Überzeugungssystems.

Insgesamt wurde hier zunächst die (metaphysische) Kernidee dafürgenannt, was eine Erklärung ausmacht. Sie nennt nomische Muster, dietypischerweise kausale Dispositionseigenschaften beschreiben, die tat-sächlich wesentlich daran beteiligt waren, ein Explanandum Ereignis Eherbeizuführen. Dazu benennt sie die aktuellen Randbedingungen, diezugegen waren, damit der Effekt E so eintreten konnte. Dazu wurdendie wichtigsten Parameter für die Beurteilung von Erklärungsstärken an-gegeben. Sie beziehen sich auf den empirischen Gehalt der erklärendenTheorie, die uns mehr oder weniger über das Explanandum mitteilt unddadurch, dass sie mehr ausschließt, auch deutlicher macht, warum wirgerade E und nicht etwas anderes erwarten sollten. An diesen Stellen fin-det sich auch ein impliziter Hinweis auf den konstrastiven Charaktervon Erklärungen. Außerdem zeigt sich die Erklärungsstärke auch darin,wie gut die Theorie es schafft, möglichst viele Phänomene einzubeziehen

Page 174: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 4: Der Schluss auf die beste Erklärung 162

und zu erklären. Eine stark vereinheitlichende Theorie beschreibt einenfür unsere Welt zentraleren und tiefergehenden Mechanismus als eineweniger vereinheitlichende Theorie. Daher betrachten wir die Verein-heitlichung als einen wesentlichen Parameter der Erklärungsstärke.

Allerdings sind unterschiedliche Aspekte der Vereinheitlichung zuunterscheiden und stehen sogar in einem Spannungsverhältnis zueinan-der. Außerdem besteht ebenfalls ein Spannungsverhältnis zu dem Gehaltder Theorie. Wie gut eine Theorie also tatsächlich in einem konkretenFall ein Phänomen oder ein einzelnes Ereignis erklärt, ist nur durcheinen schwierigen Abwägungsprozess für den Einzelfall anhand der ge-nannten Parameter durchzuführen. Der Vergleich von Erklärungsstärkenist sicher kein leichtes Geschäft, für das ganz einfache Regeln angebbarwären, die immer zu einer definitiven Einschätzung führen würden. Esverbleibt ein gewisser Beurteilungsspielraum. Das ist natürlich trotzdemweit entfernt vom „anything goes“-Geschrei mancher Relativisten, je-doch scheint hier Kuhn Recht zu behalten, dass die epistemische Beurtei-lung von Theorien nicht immer zu einem definitiven Ergebnis kommenmuss. Sie können in dem Sinne methodologisch inkommensurabel sein,dass die eine Theorie eine bessere Vereinheitlichung bietet, während dieandere eine höhere Wahrscheinlichkeit für das Auftreten des Explanan-dumereignisses E anbietet und damit die Konkurrenten besser zurück-weist. Für rein probabilistische Ansätze wie den Bayesianismus wird dasnicht so deutlich, weil sie z.B. den Aspekt der Erklärungsstärke nicht be-rücksichtigen und einfach davon ausgehen, dass nur die höhere Wahr-scheinlichkeit der Theorie den Ausschlag bei der Theorienwahl gibt.Doch das wird der Praxis der Theorienwahl in der Wissenschaft nichtgerecht, worauf wir im Zusammenhang mit einer Diskussion des Baye-sianismus im nächsten Kapitel zurückkommen werden.

4.3.3 Kausale MechanismenWenn wir komplexere Erklärungen untersuchen, wird das Problem na-türlich noch deutlicher, dass es keine einfache Verrechnung von Erklä-rungsqualitäten gibt. Oft sprechen wir davon (etwa in der Medizin, derBiochemie oder den Sozialwissenschaften vgl. Bartelborth 2007), dasswir etwas anhand eines kausalen Mechanismus erklären. So erklären wiretwa, warum im Normalfall ein größeres Angebot eines bestimmten Kos-numgutes zu einem niedrigeren Preis dieses Gutes führt, indem wir dengenaueren Mechanismus beschreiben, der zu diesem Effekt führt. Hierkönnen wir also sogar nomische Muster selbst weitergehend erklären,

Page 175: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

163 Thomas Bartelborth: Induktives Schließen

bzw. eine tiefergehende Erklärung der Phänomene liefern, die sie be-schreiben.

Erklärung durch einen kausalen MechanismusDabei wird eine bestimmte Eigenschaft E oder ein bestimmtes Ver-halten E eines Systems S (hier bestehend aus einer Gruppe von Kon-sumenten und Produzenten) aus dem Verhalten bestimmter Teile desSystems S anhand kausaler Gesetze abgeleitet.

In unserem Fall sind es die Dispositionen der Konsumenten, möglichstwenig bezahlen zu wollen und die der Produzenten trotz eines Überan-gebots, ihre Waren verkaufen zu wollen, und dazu zur Not mit demPreis herunterzugehen, um dadurch ihre Konkurrenz auszustechen, diehier zu dem genannten Zusammenhang von Angebot und Nachfrageführen. In Bartelborth (2007) habe ich dafür plädiert, dass wir für wis-senschaftliche Erklärungen wiederum darauf angewiesen sind, das Ver-halten und Zusammenspiel der Teile des Systems durch nomische Mus-ter zu beschreiben. Allerdings kann es dabei natürlich Lücken geben undnicht alle mechanistischen Erklärungen werden immer gleich vollständigsein.

Jedenfalls setzt sich eine solche mechanistische Erklärung dann wie-der aus vielen kleineren Ableitungen durch nomische Muster zusammenund eine Gesamtbewertung muss die dann alle gemäß den oben genann-ten Kriterien berücksichtigen und etwa mit entsprechenden Konkurrenz-erklärungen vergleichen. Hier wird man typischerweise bestimmte Ebe-nen unterscheiden. So sind meistens die Mikroerklärungen gegenüberden Makroerklärungen tieferliegend und dadurch auch oft die besserenErklärungen eventuell sogar mit der größeren Vereinheitlichungskraft.Außerhalb der Naturwissenschaften sind wir z.T. sogar angewiesen aufbestimmte Mikrofundierungen (s. Bartelborth 2007) unserer Erklärun-gen. Aber es dürfte offensichtlich sein, dass ein solches komplexes Zu-sammenspiel von einzelnen Erklärungsschritten noch einmal schwierigerzu bewerten ist als die einfachen Erklärungen, die wir im vorigen Ab-schnitt beschrieben haben. Aber auch hier werden wir wieder Faktenab-duktionen vornehmen (wie etwa die auf bestimmte Atome oder anderekleine Teilchen) und ebenso auf bestimmte Kausalgesetze schließen.

4.4 ErklärungskohärenzEs gibt allerdings noch (weitere) holistische Aspekte des Schlusses aufdie beste Erklärung zu berücksichtigen. Gerade beim Akzeptieren wis-senschaftlicher Theorien geht es darum, dass unser gesamtes Überzeu-

Page 176: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 4: Der Schluss auf die beste Erklärung 164

gungssystem hinterher plausibler ist als vorher. Das bedeutet insbesonde-re, dass die neuen Theorien, die wir akzeptieren, gut zu unserem weite-ren Hintergrundwissen passen müssen (insbesondere zu unseren anderenTheorien über die Welt) und durch ihren Erklärungsbeitrag unser Über-zeugungssystem insgesamt besser zu einem System zusammenfügen – al-so die Gesamtkohärenz des Systems befördern. Damit ist gemeint, dassunsere Überzeugungen möglichst eng untereinander vernetzt sind undsich somit gegenseitig stützen. Sie stehen nicht isoliert nebeneinander,sondern bilden eine möglichst zusammenhängende Geschichte darüber,wie unsere Welt funktioniert. Dadurch ist jede Überzeugung innerhalbder Geschichte durch andere Überzeugungen begründbar, während dasganze System vor allem dadurch begründet ist, dass es weiteren Input inForm von Daten auf kohärente Weise einbauen kann. Das heißt entwe-der, dass es diesen Daten einen Platz in der Gesamtgeschichte so zuwei-sen kann, dass sie dort im Prinzip erklärt werden können, oder dass eserklären kann, wieso diese Daten Messfehler bzw. Irrtümer einer ande-ren Art sind, die wir nicht in unser System einzubauen haben, sondernschlicht zurückweisen können. Mit der Zeit werden wir unser Wissenüber die Welt vervollständigen, untereinander vernetzen und vertiefen.Anomalien im Sinne der Kohärenz wären dann etwa Wunder, also Ereig-nisse von der Art, dass wir uns nicht erklären können, wie sie in unse-rem System einen Platz finden könnten, aber wir sehen auch keine Mög-lichkeit, sie als fehlerhaft zu erweisen.

Denken wir z.B. daran, wir würden direkt danebenstehen, wie je-mand im Schneidersitz über dem Boden schwebt. Dann würden wir zumeinen zugeben müssen, dass wir das nicht mehr als im Prinzip erklärbarin unser Modell der Welt einbauen können, wenn uns jedenfalls keinTrick dabei auffällt, aber wir können es im Normalfall ebenso wenig alsWahrnehmungsfehler abtun, wenn wir bei guter Sicht direkt danebenstehen. Allerdings sollten uns Zauberkunststücke vor Augen führen, dasswir manchmal bestimmte Ereignisse letztlich doch einbauen können, nurdass uns nicht so schnell einfällt, wie das geschehen kann. Gelingt esaber nicht, das Schweben als Trick zu entlarven, bleibt eine Erklärungs-anomalie in unserem System zurück, die wir als echte Inkohärenz deutenmüssen. Solche Inkohärenzen sind typischerweise ein Ansporn, unserSystem zu verbessern.

Als Niels Bohr seine Theorie des Atoms in Analogie zu einem Plane-tensystem entwarf, konnte er damit über einen längeren Zeitraum im-mer mehr Daten über die Abstrahlungsspektren von Atomen erklären.Allerdings gab es von Anfang an eine wesentliche Erklärungsanomalie.

Page 177: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

165 Thomas Bartelborth: Induktives Schließen

Er konnte nicht erklären, warum die um den Atomkern kreisenden Elek-tronen nicht in kürzester Zeit ihre gesamte Bewegungsenergie abstrahl-ten, wie sie es gemäß den Maxwellschen Gleichungen tun sollten, unddann in den Kern stürzen (vgl. Bartelborth 1989). Bohr vermied eine di-rekte Inkonsistenz seiner Theorie zur Elektrodynamik, indem er den An-wendungsbereich der Maxwellschen Elektrodynamik auf nicht-gebunde-ne Elektronen einschränkte. Trotzdem blieb es natürlich eine Inkohärenzin seinem System, dass die grundlegenden Theorien für elektromagneti-sche Felder und elektrisch geladene Teilchen zwar für freie Elektronengalten, aber nicht auf die im Atom gebundenen Elektronen ausdehnbarwaren, zumal die Beschränkung des Anwendungsbereichs nicht weitererklärt werden konnte, sondern eher einen Ad-hoc-Charakter zu habenschien. Damit wurde die vereinheitlichende Kraft der Elektrodynamikstark eingeschränkt, aber noch schlimmer war, dass Objekte, die offen-bar zu ein und derselben natürlichen Art gehörten, unterschiedlich be-handelt wurden. Das war eine deutliche Inkohärenz, die uns nach neuenTheorien suchen ließ und letztlich mit zur Entwicklung der Quanten-theorien beigetragen hat.

Entsprechendes findet sich in der Geschichte der Erklärung der Pla-netenbewegung. Einige Umlaufbahnen konnten mit Hilfe der newton-schen Gravitationstheorie erklärt werden, andere aber nicht. Einige die-ser Rätsel ließen sich durch die Entdeckung neuer Planeten und ihrerEinflüsse auf die Bewegung der anderen Planeten lösen, aber insbeson-dere für die Perihelbewegung des Merkurs war das nicht der Fall. DieWissenschaftler ließ diese Inkohärenz nicht in Ruhe, bis sie letztlich inder allgemeinen Relativitätstheorie eine neue Theorie fanden, mit derenHilfe die Erklärungen wieder vereinheitlicht werden konnten.

Erst wenn es uns gelingt, ein kohärentes Modell eines ganzen Phäno-menbereichs zu entwerfen, haben wir die Hoffnung, dass es sich nun umeine in weiten Teilen korrekte Darstellung dieses Gebiets handeln könn-te. Susan Haak (1993) verglich die Suche nach Kohärenz mit dem Löseneines Kreuzworträtsels. Ob wir in den einzelnen Zeilen und Spalten je-weils die richtigen Lösungen gefunden haben, erkennen wir vor allemdaran, ob sich eine Gesamtlösung ergibt, die auch an den Schnittpunk-ten die erforderlichen Übereinstimmungen aufweist.

Man könnte das Entstehen wissenschaftlichen Wissens vielleichtnoch besser mit einem ganz speziellen Puzzle vergleichen. Bestimmtekleine Teile des Puzzles (die Daten) werden uns durch unsere Beobach-tungen geliefert. Andere größere Teile (die Theorien) müssen wir selbstentwickeln. Die größeren Teile dienen dazu, die kleineren Teile zu einem

Page 178: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 4: Der Schluss auf die beste Erklärung 166

Gesamtbild zusammenzufügen. Ein gutes Passen der großen zu den klei-nen Teilen wird repräsentiert durch die guten Erklärungsbeziehungen.Ergibt sich ein verständliches Gesamtbild, so ist das für uns ein wichtigesIndiz, dass wir das richtige Bild entwickelt haben. Als Besonderheit ha-ben wir noch das Phänomen, dass wir manchmal kleine Teile zurückwei-sen dürfen, weil sie einfach nicht in unser Gesamtbild passen. Natürlichverbleiben in dieser Analogie viele Disanalogien. Die Beobachtungenwerden nicht so einfach geliefert. Um sie in Worte zu fassen, müssen wirschon bestimmte Begriffe benutzen. Die können mehr oder weniger ge-eignet sein und entwickeln sich zusammen mit unseren Theorien. Außer-dem können wir zwar kleine Teile als Irrtümer zurückweisen, aber nurunter ganz bestimmten Bedingungen. Wir benötigen Erklärungen dafür,warum wir sie für irreführend halten. Diese schönen Analogien werdenaußerdem einen Skeptiker nicht besänftigen, aber sie können für uns einwenig erhellen, wie wir Wissen generieren und warum für uns die Kohä-renz und speziell die Erklärungskohärenz dabei so bedeutsam ist. Auf dieZusammenhänge zur Wahrheit werden wir noch einmal zurückkommen.

Verschiedene Autoren wie Keith Lehrer (1974), Lawrence BonJour(1989) oder Paul Thagard (2000) haben unterschiedliche Konzeptionenvon Kohärenz entwickelt und z.T. sogar in Programme gegossen (vgl.Schoch 2000), die sie anschließend auf viele Bereiche in einigen Fallstu-dien angewandt haben (vor allem Thagard 2000). Sogar die Bayesianerentwickeln inzwischen rein probabilistische Maße für Kohärenz (vgl. Fi-telson 2003, Bovens & Hartmann 2006, Glass 2007). Deren Problem istallerdings, dass die Erklärungsdebatte gezeigt hat, dass keine rein proba-bilistische Konzeption von Erklärung adäquat ist. Die probabilistischenKohärenzmaße sind daher keine Maße für die Erklärungskohärenz, son-dern es handelt sich vielmehr um komplexe Maße der probabilistischenTheorienbestätigung.

Glass (2007) sieht diese Defizite der rein bayesianischen Ansätze zurKohärenz sehr deutlich, hofft aber trotzdem weiterhin, ein probabilisti-sches Maß zumindest für die Erklärungsstärke entwickeln zu können.Solche Aspekte probabilistischer Kohärenz, die etwa durch die Stärkeder Korrelation zweier Aussagen bestimmt werden, spielen in normalenAnsätzen der Erklärungskohärenz zwar auch eine Rolle, aber nur eineNebenrolle. Im Vordergrund stehen die Erklärungsbeziehungen zwi-schen unseren Überzeugungen, die nicht auf Korrelationen reduzierbarsind. Statt einfacher probabilistischer Zusammenhänge sind hier viel-mehr die kausalen Zusammenhänge spielentscheidend. Daneben kommtes auch nicht nur auf die Wahrscheinlichkeitserhöhung an, die die Baye-

Page 179: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

167 Thomas Bartelborth: Induktives Schließen

sianer praktisch ausschließlich im Blick haben, sondern ebenso auf denGehalt der Theorien. Olsson (2005) beweist sogar, dass die probabilisti-schen Maße nicht mit einer Wahrscheinlichkeitserhöhung verträglichsind, weshalb in dieser Hinsicht Kohärenzansätze und rein bayesianischeÜberlegungen nicht zusammenpassen.

Um das probabilistische Zusammenpassen zu messen, sind etwa diefolgenden Maße für das Zusammenpassen von zwei Aussagen A und Bvorgeschlagen worden:

C1(A,B) = P(A&B) / P(A)P(B) (Shogenij 1999)C2(A,B) = P(A&B) / P(AB) (Glass 2002 und Olsson 2002)

Fitelson (2003) stützt sich auf eine ältere Idee, um die Unterstützungs-funktion F einer Aussage B für eine Aussage A zu bestimmen und nimmtdann den Durchschnitt über all diese Stützungsbeziehungen als Maß fürihre Kohärenz. Dabei ist die Funktion F für den P(A)<1 und P(B)>0wie folgt definiert:

F(A,B) = [P(A|B)–P(A|~B)] / P(A|B)+P(A|~B)]

Eine Debatte dieser Maße findet sich etwa schon in Bovens & Hart-mann (2006). Sie alle setzen auf unterschiedliche Art eine Idee davonum, wann zwei Aussagen (oder auch mehrere) aus der Sicht einer Wahr-scheinlichkeitsverteilung P mehr oder weniger gut zusammenpassen bzw.eine gewisse Korrelation aufweisen. Das verlangt allerdings, dass wir be-reit sind, allen Aussagen eine Wahrscheinlichkeit zuzuweisen, was spe-ziell die Probabilisten kennzeichnet. Der klassische Statistiker wird unsda schon nicht mehr folgen, aber er kann zumindest noch die Likeli-hoods akzeptieren, auf die ich mich in meiner Konzeption von Erklä-rungskohärenz stützen werde.

Die Grundideen der traditionellen Ansätze zur Erklärungskohärenzsind inzwischen zumindest klar erkennbar (vgl. dazu BonJour 1985,Bartelborth 1996, Thagard 2000). Danach gibt es positive Beziehungenzwischen Aussagen, die die Kohärenz befördern, wie deduktive Bezie-hungen, Erklärungsbeziehungen und auch probabilistische Stützungsbe-ziehungen, bei denen eine Aussage andere wahrscheinlicher erscheinenlässt. Nur für diesen letzten Aspekt könnte man gegebenenfalls etwa andas Maß von Fitelson (s.o.) oder ähnliche Ansätze denken (vgl. Bovens& Hartmann 2006). Außerdem gibt es negative Verhältnisse zwischenAussagen, die die Kohärenz mindern bzw. zu Inkohärenzen führen. Dassind vor allem logische Inkonsistenzen und außerdem probabilistischeInkonsistenzen (das sind Fälle, in denen unsere Theorien etwa bestimm-

Page 180: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 4: Der Schluss auf die beste Erklärung 168

ten Ereignissen unterschiedliche Wahrscheinlichkeiten zuordnen) undvor allem Erklärungsanomalien sowie isolierte Subsysteme. Danebenkönnen bestimmte Aussagen sich natürlich ebenso neutral zueinanderverhalten.

Die Kohärenzkonzeption harmoniert so schließlich mit unserer Vor-stellung von (wissenschaftlichem) Wissen. Wissen ist schließlich ebenfallsein relativ holistisches Konzept. Nehmen wir etwa an, dass all unsere ak-zeptierten Aussagen (also alle Überzeugungen unseres Überzeugungssys-tems) Wissen darstellen. Dann sind all diese Überzeugungen gut begrün-det und die Begründungen selbst sind wiederum Wissen (also ebenfallsgut begründet) und weisen zudem keine relevanten Unterminierer aufund haben keine starken Gegengründe gegen sich, die natürlich Inkohä-renzen darstellen würden. Ein solches Überzeugungssystem (das natür-lich nur eine idealisierte Zielvorstellung darstellt) weist somit eine rela-tiv hohe Kohärenz auf, jedenfalls dann, wenn wir auch noch unserezweite Forderung nach informativen Überzeugungen mit Vorhersage-und Erklärungskraft umsetzen. Sonst bestünde wiederum die Gefahr,dass wir uns mit trivialem Wissen zufriedengeben könnten.

Ein sehr kohärentes Überzeugungssystem bietet uns andererseits ersteHinweise darauf, dass es sich bei den Überzeugungen um Wissen han-deln dürfte. Die Kohärenzkonzeption wird allerdings üblicherweise (undauch hier) als internalistisches Begründungsverfahren angesehen, so dassdie externalistischen Forderungen im Wissensbegriff nach Wahrheit oderder Abwesenheit unbekannter Unterminierer nicht direkt erfüllt werden,aber die guten Begründungen in einem kohärenten Überzeugungssystemsind für uns zumindest die besten Hinweise darauf, dass die externalisti-schen Forderungen tatsächlich erfüllt sind. Für abduktive Schlüsse sindtypische Unterminierer Konkurrenztheorien zu unseren Theorien mitähnlich guter Erklärungsleistung oder Daten, die nicht zu unseren Theo-rien passen, obwohl sie eigentlich in deren intendierten Anwendungsbe-reich fallen sollten.

Frühe Ansätze zur Kohärenz hielten Aussagensysteme für besonderskohärent, in denen jede Aussage durch die anderen deduktiv abgeleitetwerden kann, doch das kann kaum gemeint sein (vgl. Bartelborth1996b). Diese Systeme sind eher redundant als kohärent. Nehmen wiretwa eine Menge X={A1,...,An} von beliebig inkohärenten, aber konsis-tenten Aussagen. Die würde etwa plötzlich kohärent, wenn ich sie umdie eine Aussage A1&...&An zur Menge X*={A1,...,An,A1&...&An} er-gänze, obwohl eigentlich nichts substantiell Neues hinzugekommen ist.Das so beschriebene Stern-Verfahren zeigt, wie leicht wir Mengen „de-

Page 181: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

169 Thomas Bartelborth: Induktives Schließen

duktiv-kohärent“ gestalten können und wie wenig wir uns auf deduktiveBeziehungen verlassen dürfen, wenn es um Erklärungskohärenz geht.Ganz entscheidend für die Kohärenz sind statt der deduktiven Zusam-menhänge vielmehr Erklärungsbeziehungen, die in unserer Menge X undauch in der ergänzten Menge X* überhaupt nicht vorkommen müssen.Das Stern-Verfahren ist auch ein Problem für einige probabilistische Ko-härenzmaße, die auf die gegenseitige Ableitbarkeit als Ideal setzen.Selbst das recht interessante Maß von Fitelson (2003) ist so gestaltet,dass für eine Menge X von unzusammenhängenden Aussagen der Über-gang zu X* die Kohärenz i.A. erheblich erhöht, obwohl keine substan-tiellen neuen Einsichten hinzugekommen sind. Das liegt einfach daran,dass für alle Aussagen Ai P(Ai|A1&...&An)=1 ist und daher durch Hin-zunahme von A1&...&An entsprechende positive Werte hinzukommen,die dann den Durchschnitt im Normalfall anheben. Man beachte hier,dass das Maß für inkohärente Aussagen sonst im Bereich zwischen 0 und-1 liegt.

Die wichtigsten Träger der Kohärenz sind daher nicht die deduktivenZusammenhänge, sondern die Erklärungsbeziehungen, wobei die Stärkeder Erklärung jeweils Auskunft über das Maß an Kohärenz gibt. Außer-dem sind dann unsere erklärenden Theorien entscheidend für die Fragenach Kohärenz und Inkohärenz. Zunächst stehen etwa Beobachtungs-aussagen zusammenhanglos nebeneinander. So erzeugen die folgendenAussagen desselben Tages mit Zeitindex keineswegs von sich aus Inkohä-renz:

11.10 Uhr: Ich sehe vor mir das Brandenburger Tor.11.11 Uhr: Ich sehe vor mir den Eiffelturm in Paris.11.12 Uhr: Ich sehe vor mir die Freiheitsstatue in New York.

Rein logisch gesehen können wir durchaus derartige Beobachtungen ma-chen. Sie schließen sich nicht in irgendeiner Weise logisch aus, sondernnur verkehrstechnisch (vgl. Bartelborth 1996). Wir wissen, dass es unsbei den heutigen Verkehrsmitteln nicht gelingen kann, so schnell hinter-einander den Ort zu wechseln. Es ist erst unser Hintergrundwissen undhier speziell unsere Theorien über das Funktionieren unserer Welt, dieuns die Inkohärenzen aufzeigen. Ohne unsere Theorien könnten wirnoch nicht einmal sagen, dass eine der Aussagen die anderen wahr-scheinlicher oder unwahrscheinlicher macht. Legen wir die zeitlichen Ab-stände noch deutlich kürzer, könnten wir sogar schon eine physikalischeUnmöglichkeit für entsprechende Wahrnehmungen proklamieren, aberwiederum nur, wenn wir die entsprechenden physikalischen Theorien

Page 182: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 4: Der Schluss auf die beste Erklärung 170

annehmen. Jedenfalls sind wir auf Theorien angewiesen, um überhauptZusammenhänge zwischen den Daten zu generieren.

Das gilt auch für die positiven Zusammenhänge. Dass bestimmte Ab-läufe eine zusammenhängende und damit kohärente Geschichte ergeben,wird erst durch unsere Theorien bestimmt. Wir haben Theorien oderModelle dafür, wie sich Objekte normalerweise bewegen und wie sichMenschen typischerweise verhalten. Hierzu verfügen wir zunächst überAlltagstheorien und außerdem natürlich über wissenschaftliche Theo-rien. Diese spezielle Rolle von Theorien wird von Bayesianern leidernicht entsprechend geschätzt. Der Bayesianismus erweist sich sogar alsrelativ theorienfeindlich, denn gerade erklärungsstarke Theorien stelleninhaltlich anspruchsvolle Behauptungen über die Welt auf, die dazu füh-ren, dass wir den Theorien meist kleinere Wahrscheinlichkeiten zuwei-sen müssen (vgl. Kap. 5.5.19). Das war schon Poppers Punkt, dass eseine Spannung zwischen seiner Forderung nach möglichst riskantenTheorien und den empiristischen Ansätzen gibt, die üblicherweise ver-langten, dass die Theorien besonders wahrscheinlich sein sollten, bevorwir sie akzeptieren dürfen. Darauf werden wir wieder zurückkommen.Neben den Theorien mit ihrer Erklärungskraft zählen für die Erklä-rungskohärenz aber natürlich auch deduktive und probabilistische Bezie-hungen.

Auf der negativen Seite stehen zunächst die logischen Inkonsistenzen,die die schwerwiegendste Inkohärenz darstellen, die ein Überzeugungs-system aufweisen kann. Manche Kohärenztheoretiker möchten solcheSysteme sogar ganz als vollkommen inkohärent verbieten, doch lokaleInkonsistenzen an bestimmten Stellen (auch zwischen bestimmten Theo-rien) müssen deshalb noch nicht die Begründungen in anderen Berei-chen unterminieren. An zweiter Stelle finden wir die probabilistischenInkonsistenzen. Wir halten z.B. zwei Theorien T und T* in unseremÜberzeugungssystem X für probabilistisch inkonsistent, die für ein Ereig-nis A unterschiedliche Wahrscheinlichkeiten vergeben: P(A|T)P(A|T*).Je größer die Differenz zwischen den beiden Wahrscheinlichkeiten ist,umso inkohärenter sind T und T* zueinander. Ein typisches Maß fürdiesen Abstand von T und T* ist der sogenannte Kullback-Leibler-Ab-stand (s. a. Kap. 5.5.9), der sich nur auf die Likelihoods stützen muss.Weiterhin stören vor allem die Erklärungsanomalien die Kohärenz unse-res Überzeugungssystems X. Erklärungsanomalien sind Ereignisse oderPhänomene, die eigentlich zum regulären Anwendungsbereich einerTheorie T aus X gehören, aber sich jedem Erklärungsversuch mit Hilfevon T widersetzen.

Page 183: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

171 Thomas Bartelborth: Induktives Schließen

Schließlich gibt es auch noch holistischere Phänomene, die zu Inko-härenzen führen können, auf die uns ebenfalls schon Laurence BonJour(1985) aufmerksam gemacht hat. Nehmen wir dazu ein Überzeugungs-system X, das in zwei Bereiche Y und Z zerfällt, die zwar in sich jeweilsgut vernetzt sind, aber zwischen denen es kaum positive Verbindungengibt. Dann würden wir im Normalfall ebenfalls sagen, dass hier wenigerKohärenz im Gesamtsystem vorliegt, als in einem gleichmäßiger vernetz-ten Überzeugungssystem mit derselben durchschnittlichen Vernetzung.So ein Überzeugungssystem mit einem isolierten Subsystem könnte etwaaus einem wissenschaftlichen Aussagenteil und einem astrologischen Teilbestehen. Selbst wenn der astrologische Anteil so gestaltet wäre, dass erdem wissenschaftlichen Teil nicht direkt widerspricht, wäre es schonseltsam, über zwei so verschiedene Weltbilder zu verfügen, dass es kaumVernetzungen zwischen ihnen gäbe. Das Gesamtbild hätte dadurch eineInkohärenz aufzuweisen, die auch intuitiv erkennbar wäre. Im Prinziphätten wir es dann mit zwei völlig unterschiedlichen Darstellungen einund derselben Welt zu tun, die untereinander so inkommensurabel wä-ren, dass sie sich noch nicht einmal explizit widersprechen. Dieser Ex-tremfall scheint kaum vorstellbar zu sein, aber zeigt doch, wieso wir mitisolierten Subsystemen als Kohärenztheoretiker nicht wirklich zufriedensein können.

Die Kohärenz eines Überzeugungssystems X={A1,...,An} berechnetsich dann insgesamt, indem wir zunächst alle positiven Zusammenhängequantifizieren, wobei wir die relativen Erklärungsstärken gegeneinanderabwägen müssen. Haben wir keine Anhaltspunkte dafür, dass bestimmteErklärungen besser sind als andere, können wir einfach alle Erklärungenmit +1 bewerten. Dann summieren wir diese Werte und müssen die ne-gativen Werte von unserer Summe abziehen. Die negativen Verbindun-gen wie etwa die logischen Inkonsistenzen wiegen besonders schwer.Hier müssen wir eine intuitive Kalibrierung vornehmen, so dass die In-konsistenzen z.B. mit -4 zu Buche schlagen. Solche Kalibrierungen sindanhand von Fallstudien möglich, in denen wir uns relativ sicher darübersind, was als Ergebnis herauskommen sollte. Ähnliche Einschätzungenmuss der Bayesianer ebenfalls vornehmen, wenn er etwa Vorher-Wahr-scheinlichkeiten für ganze Theorien vergeben muss, und schließlich sindseine subjektiven Wahrscheinlichkeiten bzw. Glaubensgrade auch nurtheoretische Größen (s.u.). Der Bayesianer muss sogar eine komplexereholistische Abwägung gegenüber der eher lokalen Einschätzung der Ko-härenztheoretiker vornehmen, denn der letztere muss nur bestimmen,

Page 184: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 4: Der Schluss auf die beste Erklärung 172

wie gut jeweils ganz bestimmte Erklärungen sind und nicht gleich kom-plette Theorien bewerten.

Statt der Gesamtsumme als Maß für die Gesamtkohärenz sollten wirallerdings lieber den Durchschnittswert berechnen und Überzeugungs-systeme anhand ihres durchschnittlichen Zusammenhangs bewerten,weil es uns nicht darum gehen sollte, möglichst viele Daten anzusam-meln, die nur schwach eingebunden sind, sondern eher um ein aussage-kräftiges bzw. informationsreiches Modell der Welt geht.

Wenn es uns gelingt, die Kohärenzbeziehungen auf paarweise Bezie-hungen zu reduzieren, wie es etwa Thagard (2000) annimmt, dann kön-nen wir die positiven wie negativen Verbindungen zwischen zwei Aussa-gen Ai und Ak jeweils durch einen Faktor eik (etwa als reelle Zahl) be-schreiben und erhalten als Kohärenzmaß für X in etwa ein Maß wie dasfolgende:

Koh(X) = 1/n ik eik

Das wäre allerdings ein komplexes Maß mit vielen intuitiven Einschät-zungen, die wir dafür vornehmen müssten. Die Isolation von Subsyste-men ist dabei noch nicht einmal erfasst, da sie unseren Maßstab deutlichverkomplizieren würde.

Aussagekraft hätte das Kohärenzmaß vor allem als Vergleichsmaßstabfür konkurrierende Überzeugungssysteme. Daher möchte ich das Vorge-hen noch weiter vereinfachen, indem wir nur zwei Szenarien S und S*miteinander vergleichen, die jeweils Varianten eines Überzeugungssys-tems X darstellen. Dann erhalten wir zumindest noch eine interessantekomparative Konzeption von Begründung, die in vielen realen Situatio-nen in der Wissenschaft hilfreich ist. Das ist so gedacht, dass sich dieSzenarien vor allem in einer Theorie T plus einigen dazugehörigenHilfsannahmen A unterscheiden und im Prinzip in X (in allen anderenTheorien und den Beobachtungsaussagen) übereinstimmen:

S = X{T, A} und S* = X{T*, A*}

Wir vergleichen also nur noch, wie gut sich zwei konkurrierende Theo-rien (oder auch eine Theorie und die Abwesenheit dieser Theorie im an-deren Szenario) in unser restliches Überzeugungssystem einpassen undinwieweit sie zu dessen Kohärenz beitragen. Dazu müssen wir nur dierelativen Kohärenzwerte von S und S* bestimmen. Für den Vergleichsind aber viele der Werte eik in S und S* identisch und müssen somitnicht extra geschätzt werden. Listen mit mehreren Theorien lassen sichdurch entsprechende Paarvergleiche schließlich auf die besten beiden

Page 185: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

173 Thomas Bartelborth: Induktives Schließen

Theorien einschränken, wenn wir davon ausgehen, dass unsere Theorie-bewertungen untereinander transitiv sind, was wir natürlich anstrebenmüssen.

Der Vorteil für die Bewertung ist also, dass wir nur noch zwei Artenvon Verbindungen prüfen müssen, nämlich zum einen die Verbindungenunserer neuen Theorien T und T* zu den anderen Theorien aus X undzum anderen, inwieweit T und A bzw. T* und A* bestimmte Daten ausX erklären können. Dadurch müssen wir keine Kohärenzwerte für S undS* mehr ermitteln, sondern können uns ganz auf lokale Vergleiche be-schränken, die die wichtigsten Auswirkungen von T und T* auf die Ko-härenz unseres Überzeugungssystems bestimmen.

Nehmen wir etwa den einfachen Fall, in dem T und T* (dabei lassenwir A und A* zunächst weg oder denken sie uns in die Theorien inte-griert, um die Sache etwas übersichtlicher zu gestalten) in etwa gleichgut zu den anderen Theorien aus X passen und sie beide gleich vieleDaten E={E1,...,Em} erklären können. Dann müssen wir sie nur nochanhand einer Dimension der Erklärungsstärke miteinander vergleichenund haben z.B. nur noch den Wert des Likelihoodquotienten LQ dafürzu bestimmen:

LQ(T,T*:E) = ln [P(E|T) / P(E|T*)],

wobei wir der Einfachheit halber davon ausgehen, dass im Folgenden al-le Werte P(E|T) und P(E|T*) echt größer Null sind, denn für die Fällevon verschwindenden Likelihoods müssten wir sonst extra Vorsorgetreffen (wie das z.B. Hawthorne ausführlich in 2011a und 2011c unter-nimmt). Ist dann LQ(T,T*:E)>0 so erklärt T die Daten besser, istLQ(T,T*:E)<0, so liegt T* um den entsprechenden Betrag vorn und beiLQ(T,T*:E)=0 haben wir es mit einem Unentschieden zu tun, und wirkönnen keine der beiden Theorien bevorzugen. Sind die Daten auchnoch statistisch unabhängig relativ zu beiden Theorien (gilt alsoP(Ei&Ek|T) = P(Ei|T)P(Ek|T) und Entsprechendes für T* für alle i undk), dann erhalten wir sogar eine Additivität für die Vergleichsdaten:

LQ(T,T*:E) = LQ(T,T*:E1) +...+ LQ(T,T*:Em)

Es könnten natürlich auch schwierigere Fälle auftreten, in denen T we-niger gut zu den anderen Theorien passt als T*, aber dafür etwas bessereErklärungen der Daten liefert. Außerdem werden wir im Kapitel 5.5.20noch andere Möglichkeiten kennenlernen, wie man im Rahmen desLikelihoodismus gleich mehrere Hypothesen gegeneinander antreten las-sen kann.

Page 186: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 4: Der Schluss auf die beste Erklärung 174

Als naheliegendes Maß für den Abstand von Theorien könnten wiretwa den sogenannten Kullback-Leibler-Abstand D wählen, der in derInformationstheorie eine wichtige Rolle spielt und uns auch an andererStelle wieder begegnen wird (s. Kap. 5.5.9 und auch Hawthorne stütztsich in 2011a und 2011c auf ihn, um den Abstand von Hypothesen imRahmen der induktiven Logik zu bestimmen, nur dass er ihn andersnennt). Damit können wir für jede der beiden Theorien T und T* be-stimmen, wie stark sie sich von anderen akzeptierten Hypothesen H ausunserem Hintergrundwissen X unterscheidet, d.h. wie inkohärent sie zudiesen Hypothesen ist. Das Maß wird nur Null für ideal kohärenteTheorien und wächst mit zunehmenden Abweichungen an, stellt aller-dings keine Metrik dar, da es weder symmetrisch ist noch die Dreiecks-ungleichung erfüllt. Wir hätten demnach für beide Theorien den folgen-den Wert jeweils negativ in Anschlag zu bringen, für alle Daten ei, fürdie sowohl die Theorie wie auch die Hypothese eine positive Likelihoodliefern:

D(H,T) := i P(ei|H) ∙ LQ(H,T:ei)

Damit könnten wir etwa die Werte LQ(T,T*:e1&...&en) − D(H,T) undLQ(T*,T:e1&...&en) − D(H,T*) als erste Kohärenzabschätzungen fürunsere beiden Szenarien miteinander vergleichen.

S ist kohärenter als S* gdw.LQ(T,T*:e1&...&en) − D(H,T) > LQ(T*,T:e1&...&en) − D(H,T*)

Dabei können wir natürlich auch noch weitere akzeptierte Hypothesenneben H berücksichtigen. Doch letztlich lassen sich nicht alle Aspekteder Erklärungsstärke und Kohärenz durch einfache Größen erfassen undwir sind am Ende gezwungen, eine z.T. intuitive Abschätzung aller As-pekte vorzunehmen, was die Gesamtkohärenz unseres Überzeugungssys-tems mehr erhöht, und ob es überhaupt noch einen klaren Favoritengibt, den wir auswählen können, oder ob wir in dem Fall nicht lieberAgnostiker bleiben und keine der beiden Theorien akzeptieren sollten.

Außerdem sollten wir an weiteren Beispielen aus der Wissenschafts-praxis untersuchen, ob diese Art der Kohärenzeinschätzung auch immerzu plausiblen Ergebnissen führt. Vermutlich sollten wir noch einen An-passungsparameter a (eine positive reelle Zahl) einführen, der die beidenGrößen unterschiedlich zu gewichten gestattet und dann etwa die ent-sprechenden Werte für LQ(T,T*:e1&...&en) − a·D(H,T) miteinandervergleichen. Um derartige Verrechnungen kommt kein Ansatz indukti-ven Schließens herum. Das muss aber nicht immer problematisch sein,

Page 187: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

175 Thomas Bartelborth: Induktives Schließen

wie viele Beispiele zeigen. Wir werden uns gleich eines ansehen. Zumin-dest kommt auch der Bayesianer nicht um intuitive Einschätzungen her-um, denn er muss zu Beginn seines Verfahrens immer quantifizieren, wiegut die vorgelegten Hypothesen H durch das bisherige gesamte Hinter-grundwissen gestützt werden bzw. wie plausibel H in unserem bisherigenHintergrundwissen genau ist.

Ein Punkt sollte schon an dieser Stelle erwähnt werden. Fitelson hatin (2007) ein Beispiel gegen einfache Likelihoodvergleiche angegeben,das uns vielleicht Sorgen bereiten könnte: Wir ziehen eine beliebige Kar-te aus einem gut gemischten Kartenspiel und haben dazu zwei Hypothe-sen: (H1) Die Karte ist ein Pikass und (H2) Die Karte ist schwarz undunser Datum (E) besagt: Die Karte ist ein Pik. Dann gilt: P(E|H1)=1und P(E|H2)=1/2. Demnach würde H1 durch E stärker gestützt als H2,aber andererseits folgt H2 sogar logisch aus E. Das passt nicht zusam-men. Das Problem ist hier, dass es sich in dem Beispiel nicht um Erklä-rungsbeziehungen, sondern vielmehr um logische Zusammenhänge han-delt. Die Likelihoodquotienten sollten im Rahmen der Kohärenzkonzep-tion jedoch nur dazu dienen, einen bestimmten Aspekt der Erklärungs-stärke zu bestimmen und sind in diesem Ansatz nicht allgemein und un-abhängig vom Vorliegen einer Erklärungsbeziehung als bedeutsam anzu-sehen.

Der Bayesianer wird vielleicht gegen das ganze Verfahren protestie-ren und sagen, er hätte doch ein Verfahren, in dem wir alle Theoriennach einem Maßstab bemessen können, nämlich gemäß ihrer Nachher-Wahrscheinlichkeit und das wäre alles, was wir benötigen oder anführenkönnen. Doch wenn wir das ernst nähmen, würde für die Daten E1,...,En

immer die Theorie t=E1&...&Em dabei als Sieger hervorgehen. Sie hatim Lichte unserer Daten E={E1,...,Em} die Wahrscheinlichkeit 1 undfolgt sogar deduktiv aus den Daten (vgl. dazu Kap 5.5.19). Mehr zähltfür den Bayesianer strenggenommen nicht. Jedenfalls könnten auch kei-ne Abwertungen durch andere Theorien erfolgen, denn die Daten E ={E1,...,Em} haben wir schließlich in jedem Fall in X zu integrieren. Dieneue „Theorie“ t sollte danach sogar besser sein als echte Theorien mitErklärungskraft, denn die enthalten immer weitere hypothetische Ele-mente und sollten daher eine Wahrscheinlichkeit kleiner als 1 erhalten.

Die „Theorie“ t erklärt allerdings keines unserer Daten und trägtkein Stück zu einem Verständnis oder zu begründeten Vorhersagen bei.Sie ist erkenntnistheoretisch völlig wertlos. Das zeigt wieder, dass wireigentlich zwei epistemische Ziele haben (keine falschen Meinungen,aber möglichst viele informative Meinungen) und die Idee der hohen

Page 188: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 4: Der Schluss auf die beste Erklärung 176

Wahrscheinlichkeit nur die erste davon bedient. Daher hilft uns das Ver-fahren der Bayesianer hier auch nicht wirklich weiter. Ein Bayesianerhat mir gegenüber dazu einmal den Vorschlag gemacht, es sollten nursolche Theorien anhand ihrer Nachher-Wahrscheinlichkeiten miteinan-der verglichen werden, die dieselbe Erklärungskraft haben. Das kommtdem hier gemachten Vorschlag sehr entgegen, setzt aber schon voraus,dass wir die Erklärungskraft überhaupt berücksichtigen und ein Maß derErklärungsstärke kennen, was den Bayesianismus deutlich verändernwürde. Vorrang hätte nach diesem Vorschlag die Erklärungsstärke unddie Wahrscheinlichkeiten würden erst in zweiter Linie zur Theorienwahlherangezogen. Außerdem bliebe natürlich noch das Problem der gegen-seitigen Verrechnung, wenn die eine Theorie mehr erklärt und die ande-re dafür etwas wahrscheinlicher ist. Es muss ja nicht gleich so ein krasserFall vorliegen wie mit unserer Theorie t. Um eine Bestimmung der Er-klärungsstärken und eine Verrechnung kommen wir also auch im Falledes Bayesianismus nicht herum, denn natürlich wollen wir nicht in je-dem Fall eine sehr erklärungsstarke Theorie akzeptieren, wenn diese da-für vollkommen spekulativ bleibt und nur eine sehr geringe Wahrschein-lichkeit aufweist.

An dieser Stelle hat somit Kuhn definitiv einen Sieg davon getragen,wenn er von methodologischer Inkommensurabilität spricht. Damit istneben der Vagheit der Maßstäbe vor allem gemeint, dass wir unter-schiedliche Dimensionen der Beurteilung für unsere Theorien haben, diein unterschiedliche Richtungen ziehen können, für die es aber nicht nureine Möglichkeit der gegenseitigen Verrechnung gibt. So entstehenSpielräume in der Theorienwahl, die nicht durch zwingende Argumenteentschieden werden können. Damit liegt er m.E. richtig, auch wenn ernoch nicht so klar die Dimensionen der Beurteilung zu benennen weiß.Wir haben das bereits dort kennengelernt, wo ich die zwei Ziele der Er-kenntnistheorie vorgestellt habe. Jedes für sich ist leicht zu erreichenund eine eindeutige Gewichtung, welches uns im Einzelfall wichtiger ist,liegt hier nicht vor. Konkreter werden die möglichen Konflikte in denDebatten um die Erklärungsstärke und schließlich um die Kohärenz. DieFrage ist aber, ob diese Fälle von schwierigen gegenseitigen Verrechnun-gen der Vor- und Nachteile von Theorien in der Praxis wirklich so oftauftreten.

De facto müssen wir selbst im Alltag in anderen Kontexten immerwieder derartige Abwägungen verschiedener Kriterien vollziehen. Wennwir z.B. eine neue Wohnung aussuchen, haben wir in der Regel eine Rei-he von Kriterien, die alle in Konflikt miteinander geraten können und

Page 189: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

177 Thomas Bartelborth: Induktives Schließen

das oft genug auch tun wie etwa: der Preis der Wohnung, die Größe, La-ge, Verkehrsanbindung, Helligkeit etc. In einigen Fällen wird es unsschwer fallen, eine Abwägung vorzunehmen, weil es gleichgewichtigeVor- und Nachteile auf beiden Seiten gibt, aber in vielen Fällen sind wiruns trotzdem ganz sicher, dass die eine Wohnung besser ist als eine ande-re, weil sie in einem Punkt klar vorne liegt, selbst wenn sie in anderenPunkten etwas schwächelt. So ähnlich sieht es auch für wissenschaftlicheTheorien aus. Wir haben die relevanten Dimensionen der Beurteilunggenauer beschrieben und haben schon erste Daumenregeln für eine Ab-wägung angeben. Trotzdem behält Kuhn im Prinzip Recht, dass es kei-nen vernünftig begründbaren einfachen Bewertungsprozess für Theoriengibt, der quasi algorithmisch auf eine bestimmte Theorie hinweist. Esverbleiben manchmal Spielräume der Unterbestimmtheit, und es istnicht garantiert, dass eine detailliertere Analyse uns jedes Mal weiter-hilft.

Eine Frage der Erklärungskohärenz war die, wie unsere Theorienüberhaupt zueinander in Konflikt geraten können. Ein Beispiel findenwir in dem Verhältnis zwischen der darwinschen Evolutionstheorie undden klassischen Vorstellungen über die Energieerzeugung auf der Sonneaus der Physik. Lord Kelvin war einer der prominentesten Kritiker Dar-wins, dessen Überlegungen auch Darwin verunsicherten. Er hatte näm-lich innerphysikalische Gründe dafür, dass die Sonne noch nicht sehrlange brennen konnte (er kannte noch keine Kernfusion), und dann hät-te der Evolution nicht genügend Zeit zur Verfügung gestanden, um zu sokomplexen Lebewesen zu gelangen, wie wir sie auf der Erde finden. Sokönnen Erkenntnisse aus der (Kern-) Physik von entscheidender Bedeu-tung für die Beurteilung biologischer Theorien sein. Diese Inkohärenzzwischen Theorien kann sogar eine ansonsten erklärungsstarke Theorieerkennbar schwächen.

Um in einfachen Beispielen eine erste Bewertung vornehmen zu kön-nen, in denen wir keine echten Wahrscheinlichkeiten angeben können,können wir etwa für erfolgreiche Erklärungen einen Punkt vergeben, füreinfache Erklärungsanomalien –1 für schwerwiegende –2 und für Inkon-sistenzen z.B. –4 und die Beziehungen zu anderen Theorien zunächstaußen vor lassen. Damit können wir unser Beispiel aus der Ursachenfor-schung der Cholera nun rekonstruieren. Dazu betrachten wir nicht dieeinzelnen erklärten Beobachtungen, sondern ganze Phänomene, die aberrecht fein individuiert werden. Als Phänomen, das beide Theorien erklä-ren können, wählen wir unter der Nummer 0 die Ausbreitung derKrankheit vor allem in Städten, in denen sowohl Luft- als auch Wasser-

Page 190: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 4: Der Schluss auf die beste Erklärung 178

qualität nicht sehr gut waren. Ansonsten wählen wir die Nummerierung,die wir oben gewählt hatten.

PhänomeneMiasma-Theorie

Infektions-theorie

0. Epidemie 1 1

1. Zeitintervall 1 1

2. Handelswege -1 1

3. Kontakt (Hafen) -1 1

4. Ursprung 1854 -1 1

5. Häufung Pumpe -1 1

6. keine Erreger 0 -1

7. spezielle Brunnen -1 1

8. Wasserqualität -1 1

9. Wasserreinigung -2 1

Summe -6 8

Tab. 4.1: Erklärungskohärenz von Miasma- und Infektionstheorie

In unserem Beispiel gibt es einen klaren Sieger, wie wir das bereits intui-tiv erkannt hatten. Da würde es auch nicht viel ändern, noch weitereDebatten über die genaue Erklärungsstärke für die einzelnen Erklärun-gen anzustrengen. Paul Thagard hat in einer Reihe von Aufsätzen etlicheBeispiele aus der Wissenschaft und von Gerichtsfällen mit Hilfe seinerVariante der Kohärenztheorie rekonstruiert und anhand seines etwaskomplexeren Programms ausgewertet. Schauen wir uns nun einen Fallmit einem etwas knapperen Ausgang an.

Greifen wir dazu noch einmal unser Beispiel der Magengeschwüreauf: Anfang der 1980er Jahre war die gängige Auffassung, dass Magen-geschwüre durch Übersäuerung des Magens hervorgerufen werden, dieihrerseits vor allem durch Stress entsteht. Eine weitaus ausführlichereDarstellung der Geschichte findet sich bei Thagard (1999, Kap. 3-6), dieich hier nur stark verkürzt wiedergeben möchte, um die Grundidee derKohärenzbetrachtung zu erläutern. Im Jahre 1983 berichteten dann dieaustralischen Ärzte Robin Warren und Barry Marshal, dass sie eine neueBakterienart im Magen der Patienten mit Gastritis gefunden hatten, dieerst deutlich später Helicobacter Pylori (HP) genannt wurde. Sie entwi-ckelten daraufhin die Bakterienhypothese, wonach die Gastritis und dar-aus resultierende Magengeschwüre auf dieses Bakterium zurückzuführen

Page 191: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

179 Thomas Bartelborth: Induktives Schließen

seien. Diese Hypothese wurde u.a. deshalb von der damaligen Fachweltals völlig lächerlich abgelehnt, weil man annahm, dass im sauren Milieudes Magens keine Bakterien überleben könnten. Man vermutete viel-mehr, dass die Bakterienfunde höchstens als Verunreinigungen bei derEntnahme der Proben entstanden sein könnten. Aber bereits Anfang der1990er Jahre hatte sich die Ansicht gewandelt. 1994 gab es sogar einenoffiziellen Konsens, dass die HP-Infektion eine wichtige Rolle bei derEntstehung von Magengeschwüren spielt und daher Antibiotika für dieBehandlung zu empfehlen seien. 2005 erhielten die beiden Ärzte über-dies den Nobelpreis für Medizin.

Dazu können wir zunächst die wichtigsten Daten etwa um 1983 zu-sammenstellen. Damals besagte die Stresstheorie, dass die Magenge-schwüre aus Übersäuerung wegen Stressbelastungen entstehen, währenddie Bakterienfunde auf Verunreinigungen zurückzuführen sind. Es sinddabei einige Hilfsannahmen erforderlich. Zum damaligen Hintergrund-wissen gehört aber auch, dass (A) Bakterien im Magen nicht überlebenkönnen. Die Bakterientheorie hat damit die größten Schwierigkeiten.Dafür kann sie andere Befunde erklären. Auch bei der Beschreibung derAuswirkungen der Bakterien kann die erhöhte Magensäure eine wichtigeRolle spielen. Zu den Daten gehört etwa, dass (1) einige Personen Ma-gengeschwüre entwickeln und (2) dass Antacida die Beschwerden lin-dern. Allerdings hat Warren (3) die Bakterien gerade bei den Patientenmit Gastritis und Magengeschwüren gefunden. Damit ergab sich um1983 etwa das folgende Bild:

Phänomene Stress-theorie

Bakterien-theorie

(A) Magen zu sauerfür Bakterien

0 -2

(1) Magen-geschwüre

1 1

(2) Antacida heilen 1 0,5

(3) Bakterienfunde 0,5 1

Summe 2,5 0,5

Tab. 4.2: Erklärungskohärenz von Stress- und Bakterientheorie 1983

Es ist also durchaus nachvollziehbar, dass um 1983 die Stresstheorienoch vorne liegt. Dann änderte sich die Situation in verschiedenen Hin-sichten. Es wurden immer wieder entsprechende Bakterien im Magenvon Gastritis-Patienten gefunden, so dass die „Hilfserklärung“, es hande-

Page 192: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 4: Der Schluss auf die beste Erklärung 180

le sich um bloße Verunreinigungen, nicht mehr aufrechtzuerhalten war.Damit wurde zugleich das Hintergrundwissen verändert. Es musste nunakzeptiert werden, dass es tatsächlich bestimmte Bakterien schaffen, imMagen zu überleben. Außerdem sind zwei neue wichtige Daten hinzuge-kommen. Zum einen (4) haben die Konstrukteure der Bakterienhypo-these im Selbstversuch gezeigt, dass die Einnahme der entsprechendenBakterien die Symptome der Gastritis auslöst. Außerdem hat sich erwie-sen, dass (5) die Behandlung mit Antibiotika nachhaltigere Heilung mitsich bringt, als die mit Antacida. Damit erhalten wir dann eine neue Ta-belle für die Situation 1995:

Phänomene Stress-theorie

Bakterien-theorie

(~A) Magen enthältBakterien

0 0

(1) Magenge-schwüre

1 1

(2) Antacida heilen 1 0,5

(3) Bakterienfunde 0 1

(4) Bakterien lösenGastritis aus

-1 1

(5) Antibiotikaheilen

-2 1

Summe -1 4,5

Tab. 4.3: Erklärungskohärenz von Stress- und Bakterientheorie 1995

Um 1995 hatte sich die Situation also tatsächlich grundlegend geändert,was die entsprechende Modifikation in der Bewertung der Bakterien-hypothese erklärt. Auch wenn man die genauen Erklärungsstärken wie-der diskutieren kann, sollte doch deutlich geworden sein, wieso einedeutliche epistemische Änderung erfolgt ist. Unsere Abduktionen sindalso eingebettet in ein größeres Überzeugungssystem und diese Einbet-tung entscheidet mit darüber, welches die bessere Erklärung ist.

4.5 Van Fraassens Kritik an der AbduktionBas van Fraassen hat (1984) eine spezielle Art von Kritik an dem Schlussauf die beste Erklärung vorgetragen, die in verschiedenen Varianten im-mer wieder zu hören ist. Sie stützt sich in ihrer speziellen Form auf be-stimmte Dutch-Book-Argumente im Rahmen des Bayesianismus, die wir

Page 193: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

181 Thomas Bartelborth: Induktives Schließen

genauer erst im nächsten Kapitel behandeln werden. Sie setzt dazu auchauf das sogenannte Reflexionsprinzip, das ich ebenfalls im nächsten Ka-pitel als unbegründet ablehnen werde. Aber es gibt einen verständlichenKern dieses Einwands, den wir auch ohne größeren technischen Auf-wand diskutieren können. Van Fraassen gibt ein Dutch-Book-Argument(s. Kap. 5.3.4) dafür an, dass es nicht rational sein könne, dem abdukti-ven Schlussschema zu folgen, weil man dann Wetten gegen uns etablie-ren könne, bei denen wir nur verlieren könnten. Das setzt allerdingsschon voraus, dass wir unser Überzeugungssystem probabilistisch gestal-ten, was wir im nächsten Kapitel kritisch beleuchten werden. Doch dieFrage an den Abduktivisten können wir einfacher formulieren: Woherweißt Du, dass die am besten erklärende Theorie auch die wahrschein-lichste ist? Und wenn sie das nicht ist, ist es dann nicht irrational an siezu glauben? Auf diesen Einwand sind wir oben schon kurz zu sprechengekommen, aber da er immer wieder in verschiedenen Varianten gegenden Schluss auf die beste Erklärung vorgetragen wird, möchte ich michdoch noch expliziter mit ihm auseinandersetzen und gleich den Skepti-ker mit ansprechen.

Was spricht überhaupt dafür, eine Theorie zu akzeptieren, die vielePhänomene erklären kann? Die Beispiele sollten als Erstes belegen, dasses sich dabei um ein intuitiv plausibles Verfahren handelt. Wir könnennatürlich nicht erwarten, dass wir für unsere grundlegendsten Induk-tionsverfahren selbst wieder zwingende Begründungen finden. DenZahn sollte uns Hume mit seiner Kritik der Induktion schon gründlichgezogen haben. Die Beispiele sollten aber auch schon belegen, dass wirauch in der Wissenschaft dieses Verfahren anwenden und damit sowohlim Alltag aber vor allem in der Wissenschaft bisher gut gefahren sind.Dann sollten wir uns auch weiter darauf stützen. Die zugrundeliegendenVerfahren der eliminativen Induktion und der hypothetisch-deduktivenTheorienbestätigung waren selbst schon plausibel und das abduktiveSchließen war gerade so konstruiert worden, dass es deren Schwächenvermied. Somit ist klar, dass eine Theorie, die viele Daten erklärenkann, durch diese Daten in jedem Fall ein Stück weit gestützt wird. Dassollten wir anerkennen.

Des weiteren tragen erklärenden Theorien erheblich zur Kohärenzunseres Überzeugungssystems dar, was m.E. ebenfalls ein Indiz für ihreWahrheit darstellt. Dafür habe ich u.a. in Bartelborth (1996) argumen-tiert. Meine obigen Analogien mit einem erfolgreich gelösten Rätseloder Puzzle sollten uns das vor Augen führen. Wiederum dürfen wirnicht zu viel erwarten, sondern können nur darauf verweisen, dass das

Page 194: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 4: Der Schluss auf die beste Erklärung 182

Verfahren in sehr vielen Anwendungsbeispielen untersucht wurde (u.a.v.Paul Thagard) und sich dabei als sehr erfolgreiche wissenschaftliche Pra-xis erwiesen hat. Es bleibt eigentlich immer nur noch der Vergleich zuanderen Verfahren zu ziehen. Insbesondere bleibt noch der Verglich mitden Probabilisten zu untersuchen. Sie fragen uns nämlich: Warum soll-ten wir eine am besten erklärende Theorie akzeptieren, wenn sie nichtdie wahrscheinlichste ist? Ist sie aber die wahrscheinlichste, so werdenwir sie mit unseren Verfahren am ehesten als solche erweisen und benö-tigen nicht mehr den Schluss auf die beste Erklärung.

Tatsächlich könnte es passieren, dass eine Theorie T1 die beste Erklä-rung für eine Menge von Daten E1,...,En liefert, aber eine Theorie T2sich als wahrscheinlicher im Lichte der Daten erweist. Einen einfachenKandidaten für unsere Theorie T2 kann ich sogleich anbieten: Wähleeinfach T2 E1&...&En. Die hat die Wahrscheinlichkeit 1 im Lichteunserer Daten. Also warum sollten wir lange weitersuchen? Die Antworthabe ich allerdings schon in Kapitel 2.1. gegeben. Wir haben zwei epis-temische Ziele zu erfüllen und der Bayesianer hat ganz in der Traditionder Empiristen stehend nur das eine im Sinn (vgl. Bartelborth 2005).

Es kann also tatsächlich passieren, dass wir eine Theorie zu unserenDaten finden, die wahrscheinlicher ist als T1 und die die Daten sogarabzuleiten gestattet, wir sie aber trotzdem nicht gegenüber T1 vorziehenwürden. Unsere Theorie T2 kann etwa nichts erklären und nichts vor-hersagen. Sie ist eigentlich komplett epistemisch wertlos. Sie geht nichtüber die Daten hinaus. Spannende Fälle wären also erst solche, in deneneine etwa gleich gut erklärende Theorie T2 auch noch die wahrscheinli-chere wäre. Allerdings würde dann auch diese Theorie eher zur Gesamt-kohärenz beitragen, sie hätte etwa einen geringeren probabilistischenAbstand zu unseren anderen Theorien (oder woher soll ihre höhereWahrscheinlichkeit ansonsten stammen?) und würde damit auch nachdem Verfahren ausgewählt, die Theorien zu akzeptieren, die zu derhöchsten Gesamtkohärenz führen. Wenn wir also nicht wieder in einenSkeptizismus verfallen wollen, gibt es gute Gründe am Schluss auf diebeste Erklärung festzuhalten und dann ist auch nicht zu sehen, wieso wirdann nicht die wahrscheinlichste Theorie unter denen wählen sollten,die in etwa gleiche Erklärungskraft haben. Allerdings können wir wiederauf Kuhns Problem zurückkommen, dass wir keine einfachen Verrech-nungsverfahren für den Fall finden, dass eine Theorie, die etwas besse-ren Erklärungen liefert, während die andere etwas wahrscheinlicher ist.Doch das habe ich schon zugegeben, dass gewisse Spielräume in derTheorienwahl verbleiben, die wir nicht auf einfache Weise und zugleich

Page 195: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

183 Thomas Bartelborth: Induktives Schließen

epistemisch zwingend eliminieren können. Die nächste Frage wird imnächsten Kapitel dann aber sein, wie wir überhaupt zu Wahrscheinlich-keiten für Theorien kommen. Das wird ausführlich zu diskutieren seinund sich keineswegs als unproblematisch erweisen.

Ein anderer Kritikpunkt, den van Fraassen stark macht, ist der Hin-weis auf die Abhängigkeit des abduktiven Schließens von unserer Hypo-thesenliste. Unser Verfahren der Theorienwahl wird natürlich nicht zudem gewünschten Ergebnis (einer zumindest approximativ wahren underklärungsstarken Theorie) führen, wenn diese nicht in unserer Listeenthalten ist. Da wir in der Liste alle bekannten berücksichtigen müssenund ebenso alle, die uns einfallen, kann es sich dann bei der gesuchtenTheorie nur um eine handeln, die uns völlig entgangen ist. Dann kannaber auch keines der anderen Induktionsverfahren uns in dieser Situa-tion weiterhelfen. Das ist eben ein Risiko des induktiven Schließens, daswir nicht völlig vermeiden können. Die meisten der anderen Verfahrensind aber letztlich auch auf das Vorgehen der eliminativen Induktion an-gewiesen − insbesondere der Bayesianismus − und sind damit ebenfallsdavon abhängig, dass wir eine Liste aufstellen, die zumindest bereits eineapproximativ wahre Theorie enthält. Es ist schließlich auch schon einewichtige erkenntnistheoretische Aufgabe, die beste Theorie in einer vor-gegebenen Liste zu ermitteln.

4.6 Kreative Formen der AbduktionAbduktive Schlüsse nehmen viele Formen an und unterscheiden sich vorallem darin, worauf wir jeweils schließen (vgl. Schurz 2008). Zu einerErklärung gehören jeweils die einzelnen Randbedingungen und dieHilfsannahmen sowie die nomischen Muster. All diese Bestandteile derErklärung können dann Ziele des Schlusses auf die beste Erklärung sein.Im Falle des nassen Gastes, der von draußen hereinkommt, schließenwir auf den Regen. Hier sind uns einige Rahmenbedingungen und vorallem die relevanten Gesetze längst bekannt, und nur das einzelne Fak-tum, dass es draußen regnet, wird von uns noch abduktiv erschlossen.Aber wir können abduktiv sogar auf noch gänzlich unbekannte Objekteschließen. Im Falle des Rinderwahnsinns waren uns bestimmte Mecha-nismen der Ansteckung durchaus vertraut, nur das infizierende Agenswar neu und dazu noch unbekannt und praktisch unbeobachtbar.

Wir können aber ebenso die Gesetze erschließen, die hinter bestimm-ten Phänomenen stehen. Betrachten wir dazu noch einmal das Beispielder Entdeckung der Cholera: Als der Londoner Arzt John Snow im 17.Jahrhundert die Ursachen der Cholera erforschte, waren Infektions-

Page 196: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 4: Der Schluss auf die beste Erklärung 184

krankheiten noch weitgehend unbekannt. Daher musste er neue Entitä-ten postulieren und zugleich neue Hypothesen darüber aufstellen, wel-che Gesetzmäßigkeiten sich hinter den Erscheinungen der Cholera ver-bargen. Seine Beschreibung der Mechanismen unterschied sich daherstark von der der Konkurrenztheorie der Miasma-Theorie, die das Gan-ze als eine Art von Vergiftung auf schlechte Luft zurückführte. Snowmusste auf eine komplett neue Theorie schließen, die viele Phänomeneerstmals erklären konnte. Auch Newton führte zur Erklärung der Bewe-gung von Planeten, Pendeln, Kanonenkugeln, des Mondes und eine Rei-he anderer Phänomene seine Gravitationstheorie als völlig neue Theorieein. Er erschloss zugleich eine neue Entität (nämlich die Gravitations-kraft) und ein neues Gesetz dafür.

Diese doppelt kreativen Abduktionen sind offensichtlich besondersriskant. Wie gut sind unsere Gründe für die Annahme dieser neuen Enti-täten bzw. ihrer Eigenschaften jeweils? Nach Schurz (2008) sollten wirnur solchen kreativen Abduktionen zustimmen, in denen eine kausaleVereinheitlichung vorgenommen wird, d.h., in denen unterschiedlichePhänomene auf eine neue grundlegende Eigenschaft zurückgeführt wer-den. Das scheint mir allerdings eine etwas zu eingeschränkte Sichtweiseder kreativen Abduktion zu sein, die jedoch besonders gut zu seinen Bei-spielen aus der Chemie passt. Hitchcock und Woodward (2003) haltendagegen diese Art der Vereinheitlichung für nicht so bedeutsam für dieErklärungsstärke und setzen stattdessen ganz auf die funktionale Inva-rianz als lokale Vereinheitlichung im Einzelfall. Dabei geht es darum,dass eine bestimmte funktionale Abhängigkeit zweier Größen auch unterÄnderungen dieser Größen invariant im konkreten Anwendungsfall er-halten bleibt. Diese Art von Invarianz eines funktionalen Zusammen-hangs deutet für Woodward & Hitchcock bereits auf einen kausalen Zu-sammenhang hin und kann als Indiz für echte Erklärungskraft im Unter-schied zu Pseudoerklärungen dienen. Da m.E. beide Formen von Verein-heitlichung Indizien guter Erklärungen darstellen (s. Kap. 4.3.2), sind sieauch beide geeignet, um abduktive Schlüsse als akzeptabel auszuweisen.Gelingt es also zu einer neuen Entität nomische Muster anzugeben, dieihre Wirkungen auf invariante Weise beschreiben, so dürfen wir eben-falls auf diese Entitäten schließen, wenn sich diese Muster empirisch be-währen.

Im Falle der Prionen schließen wir sinnvollerweise auf neue Entitä-ten, obwohl diese zunächst nur einen relativ einheitlichen Phänomenbe-reich erklären können. Faradays Einführung von Kraftlinien diente da-gegen dazu, verschiedene unterschiedliche elektromagnetische Phänome-

Page 197: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

185 Thomas Bartelborth: Induktives Schließen

ne zu vereinheitlichen und uns zu erklären, wie elektrisch geladene Kör-per oder Magnete auf andere Körper einwirken können. Sie wurdetrotzdem kaum beachtet, weil sie keine sehr große Erklärungskraft be-saß, da die Stärke seiner Größen nur geometrisch durch eine höhereDichte der Kraftlinien angezeigt wurde und die funktionale Invarianzzunächst unerkannt blieb. Erst James Clerk Maxwell gelang es, mit sei-nen Gleichungen eine gehaltvolle Theorie zu formulieren und entspre-chende invariante Generalisierungen anzugeben, die gute Gründe für dieExistenz eines elektromagnetischen Feldes darstellten. Sie beschreibendessen Erzeugung und Interaktionen exakt und in nachprüfbarer Weise.Die Rezeption verzögerte sich zwar noch, weil Maxwell und andere da-mit zunächst ein seltsames mechanisches Äthermodell verknüpften, abernachdem Heinrich Hertz sie davon befreit hatte, stand der Annahmeeines Feldes nichts mehr im Wege. Was sind demnach unsere Kriterienfür die Einführung neuer Größen? Zum einen müssen die resultierendenErklärungen eine möglichst große Erklärungsstärke aufweisen, indem siegehaltvolle nomische Muster einführen, zum zweiten sollte ein deutli-cher Vorsprung in der Erklärungsstärke gegenüber den Konkurrenztheo-rien vorliegen. Im Idealfall können wir uns das Phänomen E nur nocherklären, indem wir bestimmte Randbedingungen A und ein Gesetz Gannehmen, dann spricht das für A und G.

Darunter fallen allerdings auch Dämonenerklärungen (die Schurz inähnlicher Weise warnend anspricht), wenn tatsächlich keine Konkur-renzerklärungen denkbar sind. So wurden Wunder m.E. zu Recht als(schwache?) Hinweise auf das Wirken übernatürlicher Wesen angesehen,solange wir uns keine anderen Erklärungen dafür denken können. Siehaben heute nicht mehr diese epistemische Kraft, weil wir sie nicht mehrfür echte Wunder halten, d.h., weil uns inzwischen andere Erklärungenfür die entsprechenden Phänomene einfallen. Wie gut solche Begrün-dungen für Übernatürliches sind, hängt natürlich von weiteren Annah-men über die Welt ab, denn wir hatten bereits gesehen, dass die Beurtei-lung von Erklärungen letztlich eine holistische Angelegenheit ist und sol-che Abduktionen nur dann zulässig sind, wenn sie die Gesamtkohärenzunseres Überzeugungssystems vergrößern. Unter dem Stichwort der Kla-bautermanntheorien werde ich gleich noch einmal auf dieses Problemabduktiven Schließens hinweisen.

Zu den wichtigen Formen von Abduktion in der Wissenschaft gehö-ren aber sicher die Mikroabduktionen. Wir erklären bestimmte Makro-phänomene wie Festigkeit, Wasserlöslichkeit oder elektrische Leitfähig-keit unter Hinweis auf eine unbeobachtbare Mikrostruktur, die wir so

Page 198: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 4: Der Schluss auf die beste Erklärung 186

abduktiv erschließen. Das ist schon eine recht alte Strategie kreativenSchließens, die allerdings wiederum die Gefahren dieses Verfahrens auf-deckt. So waren die Vorstellungen der antiken Atomisten sicher nochsehr weit entfernt von unseren durch die Quantenmechanik geprägtenVorstellungen von der Mikrostruktur der Materie, aber auch bei ihnenhandelte es sich um typische Abduktionsschlüsse. Es ist also eine ständi-ge Herausforderung für unser induktives Schließen, genauer zu bestim-men, in welchen Fällen Schlüsse auf unbekannte oder sogar unbeobacht-bare Entitäten gut begründet sind und wann sie eher problematisch wer-den. Der Empirist macht es sich einfach, indem er darauf antwortet, sieseien nie gut begründet und wir sollten ganz auf sie verzichten. Aller-dings muss er dann einen großen Teil der wissenschaftlichen Theorienals rein fiktiv beschreiben. Es handelt sich für den Empiristen bei vielentheoretischen Größen in der Wissenschaft dann nur um Fiktionen, dieeiner Systematisierung unseres Wissens dienen, die wir aber nicht zukorrekten Erklärungen heranziehen dürfen, da wir über keine gutenGründe dafür verfügen, an die Existenz entsprechender Objekte oderEigenschaften zu glauben. Die darauf folgende Debatte um den wissen-schaftlichen Realismus werde ich gleich noch einmal kurz aufgreifen.

4.7 Indirekte Formen der AbduktionEine schwierige Frage ist außerdem noch, inwiefern auch Analogie-schlüsse abduktiven Charakter haben. Thagard (2000) und Schurz(2008) gehen davon aus. Eine Idee ist dabei, dass eine bestimmte Struk-turtheorie, die verschiedenen Phänomenen zugrunde liegt, abduktiv er-schlossen wird. Schließen wir etwa von unserer Kenntnis von Wasserwel-len darauf, dass auch Schall aus Wellen besteht, dann identifizieren wirdemnach zunächst eine allgemeine Wellentheorie. Die erklärt bestimmtePhänomene durch Überlagerung und Auslöschung von Wellen. Findenwir diese Phänomene dann im Schallbereich wieder, können wir unsereWellentheorie dort wiederum in Analogie zum Ausgangsbereich zumEinsatz bringen. Auch die Übertragung vom Tierexperiment zum Men-schen etwa für eine bestimmte Medizin lässt sich wohl eher als ein Ana-logieschluss denn als eine einfache Extrapolation verstehen. Die Über-gänge sind hier allerdings fließend und wir müssen irgendwo einen sinn-vollen Schnitt zwischen einfachen Extrapolationen und Analogieschlüs-sen ziehen. Man könnte sonst schon die Übertragung bestimmter Ergeb-nisse von einem Menschen zu einem anderen als Analogieschluss be-trachten. Für die hier angegebene Lesart von Analogien spricht, dass dienatürliche Art Lebewesen in sich bereits sehr heterogen ist und wir na-

Page 199: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

187 Thomas Bartelborth: Induktives Schließen

türlich viel eher für die einzelnen Arten von Lebewesen substantielleVerallgemeinerungen erwarten dürfen. Daher werden wir im Normalfallnur diese Gruppierungen unseren Extrapolationen zu Grunde legen,denn letztlich zählt wieder die Erklärungsleistung im Unterschied zurKonkurrenz, für die Frage, wie gut unsere Gründe nun sind, an be-stimmte Verallgemeinerungen zu glauben.

Wir sind jedenfalls oft darauf angewiesen, über die einfachen extra-polierenden Schlüsse hinauszugehen und etwa zu Analogieschlüssen zugreifen. Die möchte ich als indirekte Abduktionen bezeichnen, da wirnicht direkt von einem Phänomen auf ein anderes schließen, sondern zu-nächst auf eine dahinterstehende gemeinsame Theorie und erst anhanddieser Theorie Vorhersagen für neue Arten von Anwendungen generie-ren. Ähnliche indirekte Abduktionen finden wir in anderen Formen desinduktiven Schließens wieder, die wir bereits kennengelernt haben.Schließe ich vom Fall des Barometers auf den aufziehenden Sturm, so istdas genau genommen ein indirekter Abduktionsschluss. Ohne einenSchluss auf die zugrundeliegende erklärende Kausalstruktur hat derSchluss praktisch kaum Gewicht und genügt zumindest nicht wissen-schaftlichen Standards. Wir müssen zumindest vermuten, dass es eine ge-meinsame Ursache für beides gibt, um vom Barometerstand auf einenSturm schließen zu dürfen, denn sonst nähern wir uns wieder dem Be-reich der zufälligen Korrelationen, auf die wir keine Schlüsse stützendürfen.

Vergleichbare indirekte abduktive Schlüsse finden wir schon in denSchlüssen von Ursachen auf zu erwartende Wirkungen. Geben wir einemKranken ein Medikament M, von dem wir annehmen, dass es seineKrankheit heilen wird, so sollte das keine einfache Extrapolation dar-stellen, sondern einen indirekten Weg über die Generalisierung nehmen,dass Kranke eines bestimmten Typs durch M mit einer bestimmten Quo-te geheilt werden. Diese Generalisierung ist zunächst selbst abduktiv zuerschließen, bevor wir Gründe für unsere Annahme der Heilung desKranken haben.

Ich kann daher Schurz (2008, 202) nicht zustimmen, der für die kon-servative Induktion eine gewisse Sonderstellung gegenüber der Abduk-tion in Anspruch nimmt:

That, vice versa, inductions cannot be reduced to abductions is seenas follows. Harman (1965) and Armstrong (1983, p. 78ff) have triedto reduce inductions to abductions by the following argument: thebest explanation of the regularities R(ti) which we have observed attimes t1,…,tn so far is that they are instances of a universal law

Page 200: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 4: Der Schluss auf die beste Erklärung 188

t:R(t). However, I think that this argument is reasonable only ifone already presupposes that our world is inductively uniform. In theabsence of an inductive uniformity assumption, there is no reasonwhy the ‘true’ laws of nature should not change in time, and why theinfinitely many Goodman-laws t: R*(t) (where R*(t): (t ≤tn & R(t)) (t > tn & R’(t)), for R’(t) incompatible with R(t)) should not countas equally good candidates for explanation (cf. Howson 2000, p.43ff). This shows that an independent justification of induction isneeded − although I will not speak about this problem in this article.

Schurz hat Recht, dass wir mit einem abduktiven Schluss zugleich be-stimmte (metaphysische) Annahmen über unsere Welt unterschreiben.Das müssen wir aber auch schon bei humeschen Induktionen tun, dennsonst ergeben sie keine sinnvollen Schlüsse. Das wird geradezu nachge-wiesen durch die von Schurz genannten goodmanschen Gesetze. Eineallgemeine Gleichförmigkeitsannahme kann gerade die goodmanschenGesetze vom „grue“-Typ nicht ausschließen. Sie stellen sich als äquiva-lente Verallgemeinerungen zu unseren normalen Extrapolationen dar.Hier wird R* so gebildet, dass es mit R bis zu einem bestimmten Zeit-punkt t0 übereinstimmt und danach dann mit R’, dass eine andere Be-hauptung formuliert. Doch warum sollte R* nicht ein Grundbegriffeiner bestimmten Sprache sein, während R und R’ dort nur abgleitet wä-ren? Dann aber wäre in dieser Sprache t: R*(t) durch eine allgemeineGleichförmigkeitsannahme gerechtfertigt. Es ist zumindest deutlich, dasswir auf einer rein syntaktischen Ebene nicht zwischen sinnvollen undunsinnigen Verallgemeinerungen unterscheiden können. Wir werdendurch das „grue“-Paradox gezwungen, eine inhaltliche Einschränkungfür solche Generalisierungen vorzunehmen und der Schluss auf die besteErklärung liefert Hinweise, warum das so ist und in welcher Richtungwir suchen müssen. Wir suchen nach natürlichen Arten, die in geeigne-ten nomischen Mustern auftreten und nur die haben dann die Eigen-schaft der Projizierbarkeit. Welche Prädikate aber natürliche Arten be-zeichnen, wird es im größeren theoretischen Rahmen bzw. unseren allge-meinen Modellen der Welt deutlich. Es gibt demnach keine vortheoreti-schen einfachen Induktionsverfahren, die sich noch nicht auf weiteresHintergrundwissen stützen müssen, und die wir zunächst begründenkönnen, ehe wir dann zu komplexeren abduktiven Schlüssen übergehendürfen. Jedes sinnvolle induktive Schließen ist bereits dreistellig undmuss sich schon auf weitere Annahmen über die vorliegenden kausalenStrukturen stützen. Dieser Art von Holismus entkommen wir leider

Page 201: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

189 Thomas Bartelborth: Induktives Schließen

nicht und es gibt danach keine akzeptablen theoriefreien konservativenInduktionsschlüsse.

Es scheint also vielmehr eine Schwäche der konservativen Induktionzu sein, die Schurz hier im Auge hat, dass sie versucht, mit möglichstsubstanzlosen allgemeinen Annahmen zu arbeiten, nach der die Welt ein-fach möglichst viele, irgendwelche Regelmäßigkeiten aufweist. Doch soverfahren wir glücklicherweise nicht. Stattdessen habe ich dafür argu-mentiert, dass wir keine allgemeine Gleichförmigkeitsannahme benöti-gen, sondern vielmehr konkretere (substantiellere) nomische Muster er-schließen müssen, weil wir sonst überall Regularitäten erkennen können,die nur momentane zufällige Zusammenhänge darstellen und dannfälschlicherweise daraus schließen. Bei der großen Anzahl von Faktoren,die unser Leben bestimmen, werden sich immer bestimmte Regularitätenzeigen, denen wir trotzdem keine Beachtung schenken, wenn wir dahin-ter nicht einen systematischen kausalen Zusammenhang vermuten. Soscheint es immer dann nicht zu regnen, wenn ich einen Schirm mitneh-me. Darüber mache ich schon Scherze zu meiner Frau und sage voraus,dass wir wohl so vom Regen verschont bleiben würden. Aber das ist na-türlich keine ernstgemeinte Vorhersage, wenn ich nicht einen kausalenMechanismus dahinter vermuten würde, etwa der Art, dass ein allmäch-tiger Regenmacher von meinen Handlungen Kenntnis hat und sich einSpielchen mit mir erlauben möchte. Da ich nicht zu solchen Erklärungenneige, schließe ich nicht im Ernst, dass es nicht regnen wird, wenn ichmeinen Regenschirm mitnehme. Vermutlich habe ich einfach das Glückin einer relativ regenarmen Stadt zu leben, in der trotz aufziehender Re-genwolken in den meisten Fällen kein Regen fällt, sondern diese überuns hinwegziehen. Dann sollte ich mir aber auch keine Sorgen machen,wenn ich den Regenschirm mal daheim gelassen habe. Es zeigt sich wie-der, dass die genaue Art des induktiven Schließens stark von weiterenHintergrundannahmen abhängt und keineswegs eine zweistellige Struk-tur hat, wonach wir von Daten gleich auf bestimmte Generalisierungenoder andere Daten schließen können.

Harman und Armstrong haben also Recht, dass wir nur dann induk-tiv schließen dürfen, wenn wir damit die Annahme verbinden, dass zu-mindest ein nomisches Muster (das ist etwas weniger als ein allgemeinesGesetz) hinter diesem Schluss steht, das wir zunächst abduktiv erschlie-ßen müssen, weshalb insgesamt wiederum ein indirekter abduktiverSchluss vorliegt. Sonst entstehen zu viele Regularitäten, die zu Fehl-schlüssen Anlass geben würden. Fälle von „grue“-artigen Prädikaten ver-langen nach speziellen Gleichförmigkeitsannahmen und nicht nach allge-

Page 202: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 4: Der Schluss auf die beste Erklärung 190

meinen. Psychologische Resultate von Thomas Gilovich (1991) zeigenallerdings, dass wir zu schnell selbst dort nach Mustern suchen, woeigentlich keine vorliegen. So sind Sportler etwa im Basketball nicht da-von abzubringen, dass sie Phasen mit einer „glücklichen Hand“ haben,in denen ihnen fast jeder Wurf gelingt und andere, in denen es in der an-deren Richtung geht, obwohl eine statistische Auswertung der Daten daskeineswegs bestätigt. Das zeigt für uns wieder einmal, dass wir beiSchlüssen auf die beste Erklärung große Vorsicht walten lassen müssenund immer offen für die Daten und alternative Erklärungen bleiben soll-ten.

Im Folgenden werde ich jedenfalls in der Richtung von Harman ar-gumentieren, dass alle anderen induktiven Schlussformen genau genom-men Unterarten der Abduktion im hier verstandenen Sinne sind. Wirdürfen nur dann aus bestimmten Daten auf neue Daten extrapolieren,wenn dieser Schluss durch zugrundeliegende nomische Muster gedecktwird. Das Grundmerkmale des abduktiven Schließens, das typischerwei-se komparativ und eliminativ ist, und das auf zugrundeliegende nomi-sche Muster mit Erklärungswert angewiesen ist, finden wir in allenSchlussformen mehr oder weniger wieder. Allerdings sind abduktiveSchlüsse, besonders wenn wir die indirekten mit hinzunehmen, sehr viel-gestaltig und lassen sich nicht auf ein einfaches Schema zurückführen, sogerne wir das induktive Schließen weiter vereinheitlichen würden.

4.8 Problemfälle abduktiven Schließens:„Klabautermanntheorien“

Eine ständige Herausforderung für das abduktive Schließen sind „Kla-bautermanntheorien“, so möchte ich sie jedenfalls nennen. Das sindTheorien, die uns letztlich als unbegründet erscheinen, für die es aber(scheinbar?) gute abduktive Gründe gibt. Der Klabautermann ist eine Fi-gur aus dem Aberglauben der Seemänner, der Eingang in die Literaturgefunden hat. Er ist meist unsichtbar und warnt den Kapitän eines Schif-fes vor Gefahren. Insbesondere geht er von Bord, wenn das Schiff sinkt.Bemerkbar macht er sich vor allem durch Polter- und Bumsgeräusche (s.Wikipedia). Dort liegt wohl seine vornehmliche „Erklärungskraft“.Doch der Schluss von derartigen Geräuschen auf die Annahme, das müs-se der Klabautermann gewesen sein, scheint uns eindeutig unseriös zusein. Dazu müssen wir aber fragen, ob uns der Vertreter der Abduktiondas erklären kann. Stellt die Einführung des Klabautermanns eine guteErklärung für bestimmte Phänomene im Schiff dar? Das ist natürlich

Page 203: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

191 Thomas Bartelborth: Induktives Schließen

eine analoge Frage zu der Einführung anderer Geister in entsprechendenKontexten und lässt sich schließlich auch auf die Einführung theoreti-scher Größen wie Felder oder Neutrinos übertragen. Wann dürfen wirabduktiv auf die Existenz derartiger Entitäten schließen und wann soll-ten wir uns lieber zurückhalten? Wie lässt sich eine Antwort darauf mitden Hilfsmitteln der Abduktion erläutern? Es gibt keine einfache Ant-wort auf diese Fragen, sondern sie verlangt immer nach einem komple-xen holistischen Abwägungsprozess, der die Frage beantworten muss:Welches Modell unserer Welt ist im Lichte unserer Daten insgesamt ko-härenter? Ist es das ohne Annahme eines Klabautermanns oder das unterder Annahme, dass ein Klabautermann eines bestimmten Art existiert?

Was muss eine Klabautermanntheorie nach Möglichkeit alles mitbrin-gen, damit sie den Klabautermannstatus hinter sich lassen kann und denStatus einer seriösen Theorie erreichen kann? Dazu müssen wir die Kla-bautermanntheorien gemäß unseren Bewertungskriterien beurteilen. Bie-ten sie etwa Theorien, die gehaltvolle (kausale) nomische Muster aufzei-gen? Dazu müssten sie u.a. Zusammenhänge aufzeigen, die Auskunftdarüber geben, wie wir zumindest im Prinzip durch bestimmte Interven-tionen Veränderungen in den Verhaltensweisen und Auswirkungen derKlabautermänner angeben. Das ist mir in diesem Falle nicht bekanntund fehlt z.T. auch in anderen Theorien wie der Astrologie. Wir müssenüberprüfen, wie erfolgreich und gehaltvoll die Erklärungen und insbe-sondere die Vorhersagen der Theorie tatsächlich sind. Auch da könnenKlabautermanntheorien nicht gerade punkten. Außerdem müssen wirimmer nach alternativen Theorien Ausschau halten, die ebenfalls die inFrage stehenden Phänomene erklären können. Auf Segelschiffen könnenTaue an Stellen des Schiffes schlagen, Holzplanken reiben aneinanderund das Holz „arbeitet“. Das kann eine Vielzahl von Geräuschen erklä-ren, ohne dass wir zu neuen Entitäten wie Klabautermännern greifenmüssen. Letztlich gibt es aber keine Kristallkugel, die für alle Theorienvorhersehen kann, ob sie nicht doch irgendwann Erklärungserfolge fei-ern werden. Es gilt also auch die fallibilistische Regel, dass wir uns unse-rer Theorien nie ganz sicher sein dürfen und somit immer ein offenesOhr für andere Überlegungen bewahren müssen. Der Wunsch, der oftan die Wissenschaftstheorie herangetragen wird, sie möge doch einfacheKriterien vorlegen, nach denen sich sofort unsinnige Theorien erkennenund aussondern lassen, ist daher zwar verständlich, aber eben nicht rea-lisierbar. Wir müssen uns immer der Mühe unterziehen, komplexere Be-wertungen vorzunehmen gemäß der Richtschnur: Liefert die Theoriegute Erklärungen für viele Phänomene, und wie gut sind diese Erklärun-

Page 204: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 4: Der Schluss auf die beste Erklärung 192

gen im Vergleich zu denen der Konkurrenztheorien? Die in den nächstenKapiteln zu erörternden Schlussverfahren können dazu weitere Hilfestel-lungen anbieten, bieten aber auch nicht die einfachen hellseherischenVerfahren an, die wir uns wünschen würden.

4.9 Wissenschaftlicher RealismusEin wichtiges Anwendungsfeld der Abduktion und der Kohärenzüberle-gungen innerhalb der Philosophie finden wir in den Fragen des Realis-mus. Uns soll es hier vor allem um den wissenschaftlichen Realismus ge-hen. Die grundlegende Fragestellung ist hier, ob die von unseren Theo-rien postulierten Entitäten tatsächlich existieren oder ob wir mit unse-rem Akzeptieren einer Theorie nur behaupten möchten, dass sie empi-risch adäquat ist, also die beobachtbaren Phänomene richtig beschreibt,wie es van Fraassen (1980) annimmt. Dazu sind verschiedene antirealis-tische oder instrumentalistische Deutungen der theoretischen Größeneiner Theorie denkbar. Sie werden dann z.B. als bloß heuristische Hilfs-mittel betrachtet, mit deren Hilfe wir uns leichter ein Bild der Welt ma-chen können, ohne dass wir sie als korrekte Beschreibungen der Weltannehmen sollten. So wie man sagt: (A) „Die Pflanze wendet sich derSonne zu, weil sie mehr Licht aufnehmen möchte.“ Mit (A) wollen wirnicht wirklich behaupten, dass die Pflanze einen eigenen Willen hätte.Es ist einfach eine vermenschlichende Beschreibung, die uns hilft, dasVerhalten der Pflanze zu verstehen und sogar ein Stück weit vorherzusa-gen, ohne dass wir uns mit den physiologischen Details der Pflanze aus-einandersetzen müssen. Ähnlich gehen wir oft vor, wenn wir das Verhal-ten von Tieren erklären. Wenn man uns dazu befragt, geben wir meis-tens zu, dass wir diese „Erklärung“ nicht wörtlich nehmen. Es bleibtdann allerdings die weitere Frage offen, ob es sich dabei überhaupt nochum eine Erklärung handelt. Schon Hempel forderte zu Recht, dass tat-sächliche Erklärungen im Unterschied zu bloß potentiellen Erklärungenein wahres Explanans aufweisen müssen.

Gegenüber der instrumentalistischen Deutung behaupten wissen-schaftliche Realisten zunächst, dass wir mit dem Akzeptieren einerTheorie zugleich die Entitäten akzeptieren müssen, die von der Theoriepostuliert werden. Hier gibt es als Erstes den bescheidenen reinen Enti-tätenrealismus, der nur fordert, dass die Entitäten akzeptiert werdenmüssen, ohne damit zugleich zu fordern, dass die Theorie die meistenEigenschaften dieser Entitäten bereits zutreffend beschreibt. Danebengibt es den anspruchsvolleren wissenschaftlichen Realismus, der auchdiese weitergehende Forderung unterschreibt. Ein „richtiger“ wissen-

Page 205: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

193 Thomas Bartelborth: Induktives Schließen

schaftlicher Realist wird sich dabei wohl immer dem anspruchsvollerenRealismus verschreiben.

In der Debatte um den wissenschaftlichen Realismus sind an unter-schiedlichen Stellen Schlüsse auf die beste Erklärung im Spiel. Es fängtbereits auf der normalen Objektebene der wissenschaftlichen Theorienan. Wenn wir die Theorien abduktiv erschließen, schließen wir bereitsauf ihre Wahrheit, denn echte Klabautermanntheorien erklären nicht.Sie liefern potentielle Erklärungen, aber keine aktualen. Das sollten unsBeispiele schnell vor Augen führen. Bin ich davon überzeugt, dass es kei-ne Klabautermänner gibt, wird eine Klabautermann-Erklärung für dieGeräusche auf einem Schiff nicht mehr ernsthaft akzeptiert. So geht esuns auch in der Wissenschaft. Stellt sich etwa heraus, dass es doch keineNeutrinos gibt, wären Erklärungen für die Energieerhaltung beim Beta-Zerfall, die sich auf Neutrinos stützen, nicht mehr akzeptabel. Wenn wiralso eine Erklärung als richtig akzeptieren, akzeptieren wir damit imNormalfall die Existenz der daran beteiligten Entitäten. Würden dieseEntitäten sich dann ganz anders verhalten als in den Theorien behaup-tet, würde das ebenso unsere Erklärungen untergraben, allerdings sindsicher gewisse kleinere Fehler in der Beschreibung erlaubt.

Gegen die Annahme, dass Erklärungen i.w. wahre Theorien voraus-setzen, argumentierte Bas van Fraassen (1980) unter Hinweis auf die Er-klärungen durch die newtonsche Gravitationstheorie, von denen wir vie-le noch immer akzeptieren, obwohl wir inzwischen wissen, dass dieTheorie falsch ist und eigentlich durch die entsprechende relativistischeTheorie zu ersetzen wäre. Allerdings ist die newtonsche Gravitations-theorie keine Klabautermanntheorie. Sie postuliert bestimmte Gravita-tionskräfte zwischen je zwei Körpern und gibt an, wie die zu Beschleuni-gungen führen. Diese Kräfte existieren und werden von der newton-schen Theorie auch i.w. korrekt beschrieben. Nur für besondere Situa-tionen, in denen hohe Geschwindigkeiten auftreten oder sehr großeRäume betrachtet werden, benötigen wir einen relativistischen Korrek-turterm. Das ist alles andere als eine Klabautermanntheorie. Wir erken-nen die Erklärungen der newtonschen Theorie insbesondere deshalbnoch an, weil wir sie für approximativ korrekt halten. Also ist das ersteabduktive Argument für die Existenz bestimmter theoretischer Größendie normale abduktive Rechtfertigung dieser Theorien. Vertreter der An-sicht, dass selbst falsche Theorien erklären können, müssten zeigen, dassauch echte Klabautermanntheorien wie die Phlogistontheorie (bei denenwir also bestimmte Größen inzwischen komplett verworfen haben) im-

Page 206: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 4: Der Schluss auf die beste Erklärung 194

mer noch Erklärungskraft aufweisen. Solche Fälle sind mir jedenfallsnicht bekannt.

Darüber hinaus gibt es aber noch ein recht allgemeines Argument,dass sich in verschiedenen Varianten ebenfalls auf einen Schluss auf diebeste Erklärung stützt. Diese Erklärung ist aber eher intuitiv und keinekausale Erklärung, die Ableitungen aus nomischen Mustern vornimmt.Sie ist auch als das „no-miracle“ Argument von Putnam (1975) bekannt.Danach wären die Erfolge unserer akzeptierten Theorien als ein Wunderzu betrachten, wenn sie nicht im Großen und Ganzen wahr wären. Die-se Idee steckt natürlich ein Stück weit hinter dem ganzen induktivenSchließen und schon hinter der hypothetisch-deduktiven Theorienbestä-tigung. Es wäre wohl ein sehr großer Zufall, wenn unsere konkretenVorhersagen anhand unserer Theorien zwar immer wieder zutreffen, ob-wohl die Theorien eigentlich ganz falsche Beschreibungen der Welt lie-ferten.

Nehmen wir an, wir hätten die falsche Karte auf eine Wanderungmitgenommen, dann würden wir kaum erwarten, dass sie uns trotzdemimmer wieder korrekte Hinweise auf unseren Weg liefert. Je häufigerund an umso mehr Stellen unsere Karte uns zutreffende Daten überunsere Gegend liefert, umso mehr sind wir zu Recht davon überzeugt,dass es sich um eine i.w. korrekte Beschreibung der Gegend handelt. Si-cherheit können wir allerdings beim induktiven Schließen dafür nie er-warten. Aber es wäre schon ein Wunder, wenn unsere falsche Karte im-mer die richtigen Beschreibungen unseres jeweiligen Weges liefern wür-de. Erst wenn wir annähmen, dass jemand – wie Descartes böser Dämon– uns systematisch in die Irre führen wollte, sähe die Sache schon etwasanders aus, aber wir gehen im Hinblick auf unsere Naturerkenntnisnicht davon aus, dass es da jemanden gibt, der unsere Sinne beliebig täu-schen kann und das auch tun möchte. Solche Ideen verfolgt höchstensder radikale Skeptiker, den wir aber bereits hinter uns gelassen haben.

Die Meta-Erklärung des allgemeinen Erfolgs unserer Theorien an-hand ihrer Wahrheit verlangt allerdings nach anderen Formen von Er-klärung als die überwiegend kausalen Erklärungen auf der Objektebene.Hier sind wir noch viel mehr auf eine vage und intuitive Einschätzungder Erklärungskraft angewiesen als im Falle der Erklärungen auf der Ob-jektebene. Doch das ist in der speziellen Debatte um den wissenschaftli-chen Realismus weiter auszuloten und soll hier nicht weiter verfolgtwerden.

Der moderate Skeptiker stellt höchstens in Frage, ob unsere Theo-rien tatsächlich immer so erfolgreich sind, wie wir das in dem Argument

Page 207: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

195 Thomas Bartelborth: Induktives Schließen

als Prämisse annehmen. Er setzt dem die pessimistische Metainduktionentgegen, wonach wir aus der Geschichte der Wissenschaften vielmehrextrapolieren sollten, dass sich alle Theorien letztlich als falsch heraus-stellen. Das kann nur anhand einer sorgfältigen Betrachtung der Wissen-schaftsgeschichte beurteilt werden und geht oft damit einher, dass wirauch zwischen Theorien in einem frühen Stadium der Entwicklung einerDisziplin und einer in einem fortgeschrittenen Stadium unterscheiden,doch das geht über unseren jetzigen Rahmen hinaus.

4.10 FazitDer Schluss auf die beste Erklärung gibt für alle bisher vorgestellten in-duktiven Schlussverfahren den Rahmen ab, innerhalb dessen wir sie an-wenden sollten. Die einfachen Extrapolationsverfahren übersehen zu-nächst den Einfluss des Hintergrundwissens, aber in kritischen Situatio-nen wird deutlich, dass wir es eigentlich berücksichtigen sollten undsonst zu offensichtlich falschen Schlüssen gelangen. Im Rahmen der fal-sifikationistischen Ansätze wird ersichtlich, dass es letztlich doch „nur“Erklärungsanomalien sind, die zu einer Elimination bestimmter Hypo-thesen führen. Diese Eliminationen sind aber nur dann tatsächlich wei-terführend, wenn wir eine weitere Annahme des abduktiven Schließensunterschreiben, nämlich, dass es uns gelingt, eine endliche Liste aller re-levanten Hypothesen aufzustellen, unter denen wir eine wahre Hypothe-se vermuten.

Auch die positive Bestätigung von Theorien, die sie aus erfolgreichenVorhersagen gewinnen, sind vor allem anhand der Erklärungsleistungder Theorien zu beurteilen. Erst über die Erklärung von Daten gewinnteine Theorie tatsächlich eine induktive Bestätigung, denn erst dadurchstützen wir die Vermutung, auf ein grundlegendes nomisches Muster inunserer Welt gestoßen zu sein, das wir dann auch für Vorhersagen nut-zen dürfen. Allerdings liefert uns das Schema des abduktiven Schließensnur eine Reihe von Kriterien für die Beurteilung, wie stark unsere Theo-rie nun durch bestimmte Daten gestützt wird. Eine gegenseitige Verrech-nung ist einer lokalen Analyse der Einzelfälle vorbehalten und muss na-türlich nicht immer zu einem eindeutigen Ergebnis führen. Dabei ist vorallem wichtig, dass wir uns auf Vergleiche zwischen einzelnen Theorienzurückziehen können. Das ist letztlich eine wesentliche Einsicht, wonachwir mit unseren Theorien vor allem die Konkurrenz besiegen müssenund wenn es geht, epistemisch eliminieren sollten, um unseren Favoritenzu bestätigen.

Page 208: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 4: Der Schluss auf die beste Erklärung 196

Selbst außerhalb der empirischen Wissenschaften setzen wir gern aufSchlüsse auf die beste Erklärung und weitergehende Kohärenzannah-men. Dazu hat Paul Thagard (2000) einige Beispiele zusammengetragen.Die belegen wiederum, wie zentral das abduktive Schließen für unserepistemisches Projekt ist. Es beherrscht unser ganzes induktives Schlie-ßen. Im nächsten Kapitel werden wir nun einen echten Konkurrentengenauer kennenlernen, der bereits einige Grundannahmen verändert,wie etwa die darüber, wie unser Überzeugungssystem zu repräsentierenist. Trotzdem werden wir viele Annahmen des induktiven Schließenswieder finden, wie etwa die, dass wir auf eine Liste von Hypothesen an-gewiesen sind und dass die Likelihood P(E|H) ein wesentlicher Parame-ter für die Stärke der Bestätigung einer Hypothese H durch ein Datum Eist.

Page 209: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

5 Probabilistische Ansätze

Es ist eine naheliegende Idee, unsere Unwissenheit über unsere Theorienund unsere Daten sowie unsere induktiven Schlüsse mit Hilfe des Be-griffs der Wahrscheinlichkeit zu beschreiben. Einige Ansätze versuchenauf diesem Wege genauer zu bestimmen, wann eine induktive Rechtferti-gung vorliegt und möglichst sogar zu quantifizieren, wie stark sie aus-fällt. Der prominenteste Ansatz ist hier sicher der subjektive Bayesianis-mus. Bevor wir uns diesen Ansatz genauer ansehen können, sind aller-dings noch einige Vorarbeiten zu leisten.

5.1 Ein grundlegendes BeispielZur Einführung in dieses Gebiet möchte ich mit einem einfachen Bei-spiel beginnen, das in ähnlicher Form immer wieder als besonders er-folgreicher und typischer Anwendungsfall für den Bayesianismus ge-nannt wird (vgl. a. Beck-Bornholdt & Dubben 1998). Nehmen wir an,Herr Vorsichtig kommt aus dem Dschungelurlaub in den Tropen zurück.Er weiß, dass man sich dort das Dschungelfieber holen kann. DieseKrankheit bricht erst nach einigen Wochen aus und ist dann schwer zubehandeln. Also möchte er schon jetzt Gewissheit darüber haben, ob ersich nun infiziert hat oder nicht. Deshalb lässt er beim Arzt einen Blut-test auf Dschungelfieber durchführen. Der Arzt beruhigt ihn zunächstund meint, dass sich nur jeder tausendste Urlauber infizieren würde.Außerdem hat er einen sehr zuverlässigen Test auf Dschungelfieber, dener nun an Herrn Vorsichtig ausprobiert. Überraschenderweise fällt derTest T positiv aus (T+). Wie wahrscheinlich ist es aber nun, dass HerrVorsichtig tatsächlich Dschungelfieber hat? Dass das so ist, sei unsereHypothese H.

Dazu müssen wir als Erstes wissen, wie zuverlässig der Test tatsäch-lich ist. Üblicherweise werden hierfür zwei Kennzahlen herangezogen,nämlich die Sensitivität und die Spezifität des Tests. Die seien in unse-rem Fall: Sensitivität P(T+|H)=99% und Spezifität P(T-|~H)=97%.Das sind die bedingten Wahrscheinlichkeiten zunächst dafür, dass derTest anschlägt (T+), wenn wir einmal annehmen, dass unsere HypotheseH wahr ist, Herr Vorsichtig also infiziert ist, und dann dafür, dass der

Page 210: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 198

Test nicht anschlägt, wenn wir annehmen, dass Herr Vorsichtig nicht in-fiziert ist. Die Werte sollen bedeuten, dass der Test bei 100 Infiziertenim Durchschnitt 99-mal Alarm schlägt, allerdings auch bei 100 Nichtin-fizierten 3-mal Fehlalarm gibt (bzw. nur in 97 Fällen Entwarnung gibt).Das sieht dann wohl nicht gut aus für Herrn Vorsichtig, denn der Testscheint eine hohe Aussagekraft zu besitzen. Die meisten Menschen (übri-gens auch die Ärzte vgl. Gigerenzer 2002) schätzen, dass die Wahr-scheinlichkeit deutlich über 90% liegen muss, dass Herr Vorsichtig beipositivem Testresultat nun auch tatsächlich Dschungelfieber aufweist.Doch das ist ein Irrtum. Wir neigen dazu, die Prävalenz oder Basisratefür Dschungelfieber von 1/1000 zu übersehen, die der Bayesianer be-rücksichtigt, der klassische Statistiker nach Ansicht der Bayesianer aberebenfalls übersieht. Doch dazu später mehr. Die gesuchte Wahrschein-lichkeit berechnet sich anhand des bayesschen Theorems und dem soge-nannten Theorem der totalen Wahrscheinlichkeit für P(T+):

Bayessches Theorem (ausführlichere Variante)

Hier kommt nun unter anderem die sogenannte Prävalenz zum Tragen.Das ist die Wahrscheinlichkeit dafür, dass Herr Vorsichtig überhaupt in-fiziert zurückgekommen ist: P(H)=1/1000. Entsprechend ist P(~H)=999/1000. Außerdem ergibt sich P(T+|~H)=3/100. Setzen wir dieseWerte in (*) ein, erhalten wir für die Wahrscheinlichkeit, dass Herr Vor-sichtig nach positivem Test nun Dschungelfieber aufweist: P(H|T+)=0,032, also bloß ca. 3,2%.

Die Daten der BerechnungP(H)=1/1000 P(~H)=999/1000P(T+|~H)=3/100 P(T+|H)=99/100Resultat: P(H|T+) = 0,032

Das Ergebnis überzeugt die meisten Personen bei dieser Berechnungsartnoch nicht, aber die folgende Abschätzung sollte es tun. Eine Veran-schaulichung durch relative Häufigkeiten ist nach Gigerenzer 2002meistens anschaulicher und erfolgreicher, wenn wir mit Wahrscheinlich-keiten rechnen müssen: Nehmen wir an, 100 000 Menschen kämen ausden Tropen zurück und ließen sich testen, dann hätten ca. 100 davonDschungelfieber. Davon würden 99 positiv getestet. Von den übrigenknapp immer noch 100 000 gesunden Menschen würden aber immernoch ca. 3000 Personen positiv getestet. Damit würden also insgesamt

Page 211: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

199 Thomas Bartelborth: Induktives Schließen

3099 Personen positiv getestet, aber nur 100 davon hätten auch Dschun-gelfieber. Also wäre die Quote 99/3099=0,032 dafür, an Dschungelfie-ber zu leiden, wenn man positiv getestet wird. Das ist erheblich wenigerals bisher gedacht. Wir haben die Prävalenz bzw. Vorher-Wahrscheinlich-keit dafür, überhaupt an Dschungelfieber zu erkranken, zunächst überse-hen.

100 000 Urlauber davon positiv getestet

davon ca. 100 mitDschungelfieber

99

weiterhin immer noch ca.100 000 ohne Dschungelfieber

3000

also 3099 positiv, aber davonnur 99 mit Dschungelfieber

Tabelle 5.1: Test auf Dschungelfieber

Doch das ganze Schlussverfahren enthält bereits eine ganze Reihe an ein-zelnen Schlüssen, die wir nun genauer unter die Lupe nehmen wollen.Zunächst einmal stellt sich die Frage, warum wir überhaupt die bedingteWahrscheinlichkeit P(H|T+) für so bedeutsam halten. Das ist vermutlichdeshalb der Fall, weil wir sie als die neue Wahrscheinlichkeit interpretie-ren, dass Herrn Vorsichtig nach positivem Testausgang nun an Dschun-gelfieber leidet: Pnachher(H)=Pvorher(H|T+). Das nennt man in der allge-meinen Form mit bestimmten Daten E auch die Konditionalisierungsre-gel.

Bayessche Konditionalisierungsregel: Pnachher(H) = Pvorher(H|E)

Sie ist die zentrale Regel des Bayesianismus und keineswegs so unum-stritten, wie sie hier erscheint. Sie besagt, dass wir, sobald eine neue Be-obachtung E (E für „evidence“) oder mehrere aufgetreten sind, als neueWahrscheinlichkeit für eine Hypothese H die Wahrscheinlichkeit wählensollten, die wir vor dem Auftreten von E als bedingte WahrscheinlichkeitP(H|E) angenommen haben. Das ist in gewisser Weise eine Form vonzeitlicher Kohärenz oder Konsistenz. Wir halten uns damit heute nur andas, was wir gestern geglaubt haben.

Aktiv könnte man das so interpretieren: Haben wir bisher behauptet,dass wir H die Wahrscheinlichkeit r zuweisen würden, sollte E wahrsein, und nun ist tatsächlich noch E aufgetreten, dann weisen wir H nunschlicht die Wahrscheinlichkeit r zu und beginnen nicht mit einer kom-pletten Neubewertung. Das bayessche Theorem selbst spielt in der Kon-ditionalisierungsregel noch keine Rolle. Es wird nur eingesetzt, um die

Page 212: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 200

bedingte Wahrscheinlichkeit P(H|E) rechnerisch zu bestimmen, aber wirsollten im Blick behalten, dass es sich beim bayesschen Theorem nur umeine mathematisch wahre Aussage handelt. Die eigentliche Behauptungdes Bayesianismus steckt in der Konditionalisierungsregel, auf die wirspäter noch eingehen werden. Nur so viel: Sie kam oben zum Einsatz,indem der positive Testausgang unser empirisches Datum darstellte undwir haben dann die beiden folgenden Theoreme angewandt, die sichleicht aus den Wahrscheinlichkeitsaxiomen ergeben (s.u.).

Bayessches Theorem:

Gesetz von der totalen Wahrscheinlichkeit:P(E) = P(E|H)P(H)+P(E|~H)P(~H)

Dabei wird der rechte Ausdruck oft zur Berechnung von P(E) im Nennerins bayessche Theorem eingesetzt, und so haben wir auch die obereGleichung (*) erhalten. Das Gesetz von der totalen Wahrscheinlichkeitbesagt einfach, dass wir, um die Wahrscheinlichkeit von E zu bestimmen,zwei Fälle betrachten müssen: Zum einen den Fall, in dem H gilt. Wasbedeutet das für E? Und zum anderen den „Rest“, also hier den Fall, indem H nicht gilt. Was bedeutet das für E? Die Ergebnisse für diese bei-den einander ausschließenden Fälle sind dann zu addieren, wobei wir alsGewichte berücksichtigen müssen, wie häufig (oder wie wahrscheinlich)H und ~H auftreten.

Außerdem ist klar, dass wir es hier meistens mit sogenannten subjek-tiven Wahrscheinlichkeiten oder Glaubensgraden zu tun haben, die z.B.ein klassischer Statistiker vollständig ablehnt. Dass Herr Vorsichtig nunDschungelfieber hat, trifft entweder zu oder ist falsch. Es sollte also nurdie trivialen objektiven Wahrscheinlichkeiten 0 oder 1 aufweisen. Diegenannten Wahrscheinlichkeiten drücken dagegen unser Unwissen ausbzw. unseren Kenntnisstand im Hinblick auf das Vorliegen von Dschun-gelfieber (vgl. Kap. 5.3). Ein klassischer Statistiker dürfte dagegen nursagen: Das ganze Verfahren des Tests T ist von der Art, dass in ca. 3,2%aller Fälle mit positivem Testergebnis auch ein Fall von Dschungelfiebervorliegt. Damit haben wir noch keine direkte Aussage über Herrn Vor-sichtig getroffen, sondern nur über das Verfahren und seine Zuverlässig-keit gesprochen. Um zu einer Aussage über Herrn Vorsichtig zu gelan-gen, müssen wir zu subjektiven oder epistemischen Wahrscheinlichkeitenübergehen und außerdem noch den sogenannten statistischen Syllogis-

Page 213: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

201 Thomas Bartelborth: Induktives Schließen

mus anwenden, der eigentlich ein wichtiges Grundprinzip der sogenann-ten induktiven Logik darstellt, die wiederum von den klassischen Statisti-kern abgelehnt wird.

Übrigens sollte Herr Vorsichtig, um nun größere Sicherheit über sei-nen Gesundheitszustand zu erhalten, weitere Tests in Auftrag geben.Auch die Wiederholung desselben Tests kann dabei gute Dienste leisten,wenn der mögliche Fehler im Falle von Herrn Vorsichtig nur zufälligerNatur war und nicht einen systematischen Charakter hatte, gemäß demgerade bei Herrn Vorsichtig oder ähnlichen Personen der Test nicht zu-verlässig funktioniert. Da wir das jedoch nicht so genau wissen, wäre esvermutlich hilfreicher, nun einen anderen Test zu verwenden.

5.2 Der statistische SyllogismusDer statistische Syllogismus entspricht dem folgenden Schluss von einerGesamtheit auf den Einzelfall (vgl. Campbell & Franklin 2004): Wennin einer Urne 100 Kugeln enthalten sind und davon sind 99 weiß undnur eine schwarz, und ich ziehe eine Kugel, über die ich sonst nichtsweiter weiß, dann ist die (subjektive/objektive/logische?) Wahrscheinlich-keit (vgl. Kap. 5.4) dafür, dass ich eine weiße Kugel ziehe 99%. Das er-scheint uns ganz natürlich und liegt vielen Überlegungen auch in derklassischen Statistik zugrunde. Im Prinzip kommt keine Anwendung vonWahrscheinlichkeiten auf empirische Fragen um den Einsatz eines sol-chen Prinzips herum (vgl. Franklin 2001). Welchen anderen Wert sollteman an dieser Stelle auch sonst wählen?

Oder sollte man etwa behaupten, die Wahrscheinlichkeitsrechnungsei hier nicht zuständig, bzw. es gäbe nur die trivialen Wahrscheinlichkei-ten 0 und 1 in diesem Fall. Man könnte sagen, dass hier ein bestimmtesepistemisches Prinzip im Hintergrund zur Anwendung kommt, das alseine schwache epistemische Variante des Satzes vom unzureichendenGrunde beschrieben werden kann, wonach wir ohne zureichende Grün-de keine epistemischen Unterschiede machen sollten. Man könnte dasPrinzip ungefähr so beschreiben:

Epistemisches Gleichbehandlungsprinzip: Wenn in unserem Überzeu-gungssystem genau dieselben Gründe für A wie für B sprechen, sosollten wir A und B epistemisch gleich behandeln.

Das Prinzip klingt recht plausibel und eher harmlos. Die Anwendung aufunseren Fall können wir dann so beschreiben: Wir wissen, dass von 100Kugeln im Normalfall 99 weiß und nur eine schwarz ist. Jeder Grund,der dafür spricht, dass die eine schwarze Kugel gezogen wird, spricht

Page 214: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 202

ebenso dafür, dass eine der 99 weißen Kugeln gezogen wird und umge-kehrt. Also müssen wir schließlich jeden der 100 Fälle als epistemischgleichwertig und damit in unserem Fall als gleichwahrscheinlich behan-deln nach dem Gleichbehandlungsprinzip. Dann werden wir aber in 99von hundert Fällen eine weiße Kugel ziehen. Also ist unsere (epistemi-sche oder logische) Wahrscheinlichkeit dafür, eine weiße Kugel zu zie-hen, gerade 99%.

Wir können die Anwendung in unserem Beispiel auch aktiver formu-lieren: Wir gehen in unserem Schluss einfach davon aus, dass das Wahl-verfahren fair ist in dem Sinne, dass jede der Kugeln dieselbe Wahr-scheinlichkeit hat, gezogen zu werden, solange wir keine Einflüsse aufdas Verfahren kennen, die das Verfahren verfälschen. Wir nehmenschlicht an, jede Kugel hätte dieselbe Chance, gezogen zu werden, solan-ge keine gegenteiligen Informationen vorliegen. Dann sollten wir zumin-dest erwarten, dass bei wiederholten Versuchen im Durchschnitt in 99%aller Fälle eine weiße Kugel gezogen und nur in 1% eine schwarze. Dasheißt zumindest, dass unsere subjektive oder epistemische Wahrschein-lichkeit für eine weiße Kugel im Einzelfall gerade 99% sein sollte. Sorechtfertigt sich der statistische Syllogismus. Die aktivere Formulierungsieht schon nicht mehr ganz so unschuldig aus.

Das ist eine Form oder eine Anwendung des Indifferenzprinzips, nachder wir alle Kugeln (bzw. alle Möglichkeiten) als gleichwahrscheinlicheinstufen sollten, solange wir keine Gründe für eine gegenteilige Annah-me haben. Wir werden später sehen, dass ein solches Indifferenzprinzipzwar als sehr plausibel erscheint, und wir auch tatsächlich darauf ange-wiesen sind, es aber keineswegs unproblematisch ist (vgl. Franklin2001). Es bleibt zunächst noch die Frage offen, ob wir nur eine subjektivepistemische Lesart finden können oder ob wir nicht sogar eine objektivepistemische Lesart unterschreiben sollten, wonach die 99% eine Artvon logischer Wahrscheinlichkeit darstellen. Tatsächlich wird unserSchluss auf die Aussage „Die nächste gezogene Kugel ist mit Wahrschein-lichkeit 99% eine weiße Kugel“ durch objektive Tatsachen untermauert,nämlich die tatsächlichen Anzahlen in der Urne und ein Wahlverfahren(Mischen und Ziehen), das (zumindest nach unserer Kenntnis) keine Ku-gel bevorzugt. Allgemeiner lässt sich der statistische Syllogismus wiefolgt formulieren:

Statistischer Syllogismus: Ist die relative Häufigkeit von Fs in derGrundgesamtheit G gerade r und wir betrachten ein a aus G, vondem wir keinen Grund zu der Annahme haben, dass seine Auswahlspeziell mit dem Haben der Eigenschaft F verknüpft ist bzw. bei dem

Page 215: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

203 Thomas Bartelborth: Induktives Schließen

wir nichts weiter darüber wissen, ob es F ist, dann sollte unsere (sub-jektive/logische) Wahrscheinlichkeit P(Fa)=r sein.

Die Form des statistischen Syllogismus:Pepistemisch(Fa|h(F/G)=r & ~W(Fa)) = r

Dabei soll h(F/G) die relative Häufigkeit der Fs in G angeben und~W(Fa) soll heißen, dass wir kein weiteres Wissen über das Vorliegenvon Fa haben. Dieser Schluss scheint zumindest keinen rein subjektivenCharakter zu haben, sondern ist ebenfalls in objektiver Weise gerechtfer-tigt. Er ist ein grundlegendes Prinzip der induktiven Logik. Die besagt,dass der statistische Syllogismus uns die objektive Wahrscheinlichkeit an-gibt, mit der unser Hintergrundwissen in einem solchen Fall die Vermu-tung Fa stützt, nämlich im Grade r. Die subjektiven Bayesianer sind dar-auf allerdings zunächst nicht zwingend festgelegt, sondern könnten statt-dessen genauso einen beliebigen anderen subjektiven Glaubensgrad wäh-len. Allerdings sieht man schon in dem Beispiel, dass sie damit die An-bindung an die Empirie verlieren würden und das ihre Position im Nor-malfall kaum plausibler macht. Später werden wir noch sehen, dass Kri-tiker der rein subjektiven Lehre wie Patrick Maher dafür argumentieren,dass wir zu stärkeren und objektiveren Interpretationen unserer Wahr-scheinlichkeiten ganz im Sinne der induktiven Logik greifen sollten.

Betrachten wir noch ein weiteres Beispiel: Nehmen wir an wir wüss-ten über Joe nur, dass er Banker ist, und wüssten außerdem, dass 80%aller Banker reich sind. Wie groß sollte dann unser Glaubensgrad dafürsein, dass auch Joe reich ist? Der statistische Syllogismus sieht das so:

P(Joe ist reich| Joe ist Banker & 80% der Banker sind reich) = 80%

Das epistemische Gleichbehandlungsprinzip sagt uns dazu, dass wir fürzwei beliebige Banker X und Y, über die wir sonst nichts weiter wissen,die Aussagen (A) „X ist reich“ und (B) „Y ist reich“ epistemisch gleichbe-handeln müssen. Das heißt, wenn wir ihnen epistemische Wahrschein-lichkeiten zuweisen, dann sollten die jeweils gleich sein. Das heißt wei-terhin aber auch, dass wir für alle Banker Z dieselbe Wahrscheinlichkeitdafür zu wählen haben, dass sie reich sind. Insgesamt ist aber nur bei80% der Banker Reichtum zu erwarten. Also sollten wir für jeden einzel-nen nicht etwa die Wahrscheinlichkeit 1 wählen bzw. „Z ist reich“ ablei-ten (das wird manchmal als statistischer Syllogismus bezeichnet s.u.),sondern bei der entsprechenden Quote von 80% bleiben, denn nur dannist auch vernünftigerweise zu erwarten, dass 80% der Banker insgesamt

Page 216: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 204

reich sind. Vom epistemischen Gleichbehandlungsprinzip findet sich alsoein naheliegender Weg zum statistische Syllogismus.

Der statistische Syllogismus kommt in unserem Dschungelfieber-Bei-spiel gleich mehrfach und in gewissen Variationen zur Anwendung. Zu-nächst geben wir Herrn Vorsichtig die Wahrscheinlichkeit 1/1000 mitDschungelfieber infiziert zu sein, als er in die Praxis kommt, auf derGrundlage der relativen Häufigkeit der Krankheit bei Urlaubern. Daswäre natürlich anders, wenn er bereits wegen bestimmter Symptomevon Dschungelfieber zum Arzt gegangen wäre. Es trieb ihn aber nur dieallgemeine Vorsicht an und sonst nichts. Dann dürfen wir nach dem sta-tistischen Syllogismus davon ausgehen, dass die Prävalenz von 1/1000gerade die Wahrscheinlichkeit ist, mit der wir davon ausgehen sollten,dass er, ohne weitere Symptome aufzuweisen, am Dschungelfieber er-krankt ist. Allerdings steckt im Hintergrund genau genommen bereitsein statistischer Schluss hinter unseren Daten, den wir aber hier zu-nächst einmal akzeptieren. Schließlich haben wir die Prävalenz vermut-lich nicht erhalten, indem für alle Heimkehrer aus den Tropen endgültigermittelt wurde, ob sie das Dschungelfieber aufwiesen (zumindest dieZukünftigen sind definitiv noch nicht dabei), sondern wir haben diesenAnteil bereits anhand von Stichproben geschätzt. Nur für einen kleinenTeil der Heimkehrer aus den Tropen wurde diese Quote erhoben. Unddie Stichprobe war vermutlich noch nicht einmal repräsentativ, dennschließlich gehen nur die besonders vorsichtigen Zeitgenossen zum Arztund die verhalten sich wahrscheinlich auch in den Tropen besondersvorsichtig, und nur die gelangen in unsere Statistik, jedenfalls wenn sienicht erkranken.

Ebenso ist dann 3,2% die richtige epistemische Wahrscheinlichkeitnach positivem Testergebnis für das Vorliegen von Dschungelfieber, weilwir sagen können, dass in der Grundgesamtheit der positiv Getestetenim Durchschnitt gerade 3,2% tatsächlich das Dschungelfieber aufweisen.Somit finden wir in der Anwendung der Sensitivität und der Spezifitätdes Tests T auf die entsprechenden Werte bei Herrn Vorsichtig wieder-um Anwendungen des statistischen Syllogismus. In der Grundgesamtheitder Dschungelfiebrigen weisen eben 99% ein positives Testergebnis auf.Ohne weitere Hinweise darauf, dass Herr Vorsichtig auf diesen Testaußergewöhnlich reagiert, sind das gemäß dem statistischen Syllogismusunsere besten Wahrscheinlichkeitswerte für Herrn Vorsichtig. Wir benö-tigen den statistischen Syllogismus immer wieder, wenn wir von Aussa-gen über relative Häufigkeiten oder solchen über allgemeine Wahr-scheinlichkeiten auf die Wahrscheinlichkeiten im Einzelfall schließen

Page 217: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

205 Thomas Bartelborth: Induktives Schließen

möchten, und die allgemeinen Wahrscheinlichkeiten haben meistens nurdann eine Bedeutung für uns, wenn wir damit eine Aussage ebenfallsüber den Einzelfall treffen können. Sie müssen uns etwas darüber sagen,in welchem Ausmaß wir bestimmte konkrete Sachverhalte zu erwartenhaben. Wenn wir etwa wissen, dass die Aufgabe des Rauchens im Allge-meinen die Lungenkrebswahrscheinlichkeit um einen erheblichen Betragsenkt, so können wir daraus nur dann eine Empfehlung für die Bürgergewinnen, wenn die Information auch eine Bedeutung für den einzelnenBürger besitzt. Er muss rationalerweise erwarten dürfen, dass seine Aus-sicht einen Lungenkrebs zu bekommen durch die Aufgabe des Rauchenssinkt, sonst bietet die ganze Information keine rationale Motivation fürihn, mit dem Rauchen aufzuhören.

Ohne den statistischen Syllogismus wäre der Arzt bzw. ein Bayesia-ner schon für die Vorher-Wahrscheinlichkeit auf eine rein subjektiveEinschätzung angewiesen. Seine Erwartungen im Einzelfall wären eherwillkürlich, weil sie sich nicht mehr an den Daten orientieren würden.Um den subjektiven Anteil zu reduzieren und solche Beispiele in sinnvol-ler Weise behandeln zu können, sollte sich der Bayesianer also auf denstatistischen Syllogismus festlegen. Er gibt am besten wieder, was uns diebisherigen Daten über ein bestimmtes Resultat besagen und ist unabhän-gig von speziellen Vorlieben der epistemischen Subjekte.

Diese Art des Schließens in unserem Beispiel hat offensichtlich prak-tische Bedeutung, nicht nur im Einzelfall, sondern auch für die Gesund-heitspolitik. Wenn wir einmal von ca. 40 000 HIV-Infizierten inDeutschland ausgehen, so ergäbe sich etwa für den gängigsten und rechtgenauen HIV-Test, den ELISA-Test, mit einer Sensitivität von 99,9% undeiner Spezifität von 99,8%, dass bei einer flächendeckenden Reihen-untersuchung aller Deutschen ca. 160 000 Deutsche fälschlicherweiseHIV-positiv getestet würden gegenüber ca. 40 000 tatsächlich Infizier-ten. Das belegt schon, wie fragwürdig die Ergebnisse wären. Von dendann ca. 200 000 positiv Getesteten wäre nur 1/5 tatsächlich infiziertund 4/5 würden umsonst alarmiert und in Schrecken versetzt. Das zeigtwiederum die große Bedeutung der Prävalenz, die vor allem der Bayesia-ner ernst nimmt, die aber in der klassischen Statistik etwa bei Signifi-kanztests leider keine entsprechende Berücksichtigung findet.

Der statistische Syllogismus hat für unser statistisches Schließen eben-falls in anderen Anwendungen eine enorme Bedeutung. Er ist nicht nurdie Grundlage, um von Grundgesamtheiten auf Stichproben zu schlie-ßen, sondern genauso unsere Grundlage, um von Stichproben aufGrundgesamtheiten zu schließen (vgl. Campbell & Franklin 2004). Neh-

Page 218: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 206

men wir z.B. an, ich ziehe aus einer großen Grundgesamtheit G mithG(F)=r viele Stichproben von je 1000 Elementen, und ich nehme dabeiim Sinne des statistischen Syllogismus an, dass jede der möglichen Stich-proben dieselbe Wahrscheinlichkeit hat, gezogen zu werden, dann kannman berechnen, dass die meisten dieser Stichproben eine relative Häu-figkeit der Fs nahe bei r aufweisen werden; was wir letztlich für einenRückschluss von der Stichprobe auf die Grundgesamtheit G benötigen.

Betrachten wir etwa den Raum aller derartigen Stichproben S1000,dann ist eine Mehrheit dieser Stichproben gleichartig oder ähnlich be-züglich der relativen Häufigkeit von Fs in der Stichprobe zu der relati-ven Häufigkeit von Fs in G. Das bedeutet, dass die relative Häufigkeitder Fs in den meisten Stichproben nahe bei r liegt. Diese Gleichartigkeitist aber eine symmetrische Beziehung. Für diese Stichproben ist auch Gwiederum gleichartig zu unserer Stichprobe. Das bedeutet dann, dass ichebenso von einzelnen solchen Stichproben approximativ korrekt aufhG(F) schließen kann, weil der statistische Syllogismus besagt, dass ichzumindest mit hoher (epistemischer) Wahrscheinlichkeit erwarten darf,dass eine einzelne Stichprobe, für die ich keine besonderen Gründe zuder Annahme habe, dass sie besonders viele oder wenige Fs aufweist, inBezug auf den F-Anteil der Grundgesamtheit G ähnelt. Diese Vorausset-zungen sind typischerweise für Zufallsstichproben erfüllt, so dass ichdann den statistischen Syllogismus anwenden darf.

Speziell für Punktschätzungen oder Intervallschätzungen etwa inForm von sogenannten Konfidenzintervallen nutzen wir genau dieseUmkehrung aus. Um hier aber etwa das Konfidenzintervall auch im Ein-zelfall entsprechend interpretieren zu können, sind wir wieder auf denstatistischen Syllogismus angewiesen. Das sieht dann so aus, dass wir an-nehmen dürfen, alle Stichproben der Stichprobenmenge S1000 hätten die-selbe Chance gezogen zu werden, wenn keine Gründe dafür vorliegen,dass bei der Stichprobenauswahl eine Verzerrung stattfindet, die ganzbestimmte Stichproben bevorzugt. Haben wir dann eine spezielle Stich-probe vor uns, bei der die relative Häufigkeit von Fs gerade q ist, sokommt der statistische Syllogismus ins Spiel und besagt: Wenn 95% allerStichproben in einem Abstand um die relative Häufigkeit r herum zufinden sind (also q[r-,r+]), dann ist der wahre Wert r in 95% allerFälle nicht weiter als von der relativen Häufigkeit s in unserer Stich-probe entfernt; d.h. er liegt mit einer epistemischen Wahrscheinlichkeitvon 95% im Intervall KI=[q-,q+]. Für diese Stichprobe dürfen wir al-so berechtigterweise annehmen, dass wir mit KI in unserer Stichprobe

Page 219: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

207 Thomas Bartelborth: Induktives Schließen

die relative Häufigkeit der Fs in der Grundgesamtheit korrekt schätzenkönnen.

Betrachten wir das kurz an einem einfachen Zahlenbeispiel. Nehmenwir an, unsere Grundgesamtheit G wäre sehr groß gegenüber unsererStichprobe sS1000, so dass wir eine Binomialverteilung für unsere Stich-proben annehmen dürfen. (Sonst müssten wir mit der hypergeometri-schen Verteilung arbeiten, die berücksichtigt, dass sich mit jedem gezo-genen Element der Stichprobe die relative Häufigkeit von F in G einklein wenig ändert, was nur ein wenig umständlicher ist, aber in der Sa-che keinen Unterschied bedeutet.) Außerdem sei in G hG(F)=r=0,3.Dann liegen die relativen Häufigkeiten von über 95% aller Stichprobenaus S1000 in dem Intervall [0,27;0,33]. Betrachten wir die als gleichartigzu G bezüglich F, so haben wir einen „95%-igen Grund“ zu der Annah-me, dass wir mit s eine gleichartige Stichprobe zu G erzielen werden.Das besagt jedenfalls der statistische Syllogismus. Entsprechend könnenwir mit etwas größerem Aufwand genauso in der anderen Richtungschließen und das Konfidenzintervall KI(s) etwa zu einem Stichprobener-gebnis s mit hs(F)=q=0,3 bestimmen. Da können wir etwa KI(s) =[0,27;0,33] zum Konfidenzniveau 95% festlegen und dürfen so mit Hil-fe des statistischen Syllogismus behaupten, dass wir uns zu 95% sichersein können, dass der wahre Wert hG(F) sich in KI(s) befindet. Damithätten wir eine wichtige Einsicht über unsere Grundmenge G erzielt.

Ein besonders einfaches Verfahren, um ein entsprechendes Konfi-denzintervall zunächst approximativ zu bestimmen, soll kurz geschildertwerden: Für große Stichproben (>30) können wir diese als approxima-tiv normalverteilt betrachten und dort gilt die 3-Sigma-Regel, wonach imDurchschnitt im Abstand von einer Standardabweichung vom Mittel-wert 67%, im Abstand von 2: 95,5% und im Abstand von 3 vom Mit-telwert 99,7% aller Werte zu finden sind. Dann können wir umgekehrtein 2-Intervall um den Mittelwert der Stichprobe bilden und erhaltenmit 2=1000p(1–p) (als Varianz der Binomialverteilung) schließlich=14,5 und somit wieder in etwa das Intervall [270;330], was für dierelativen Häufigkeiten unser Konfidenzintervall ergibt. Dabei wird dieStandardabweichung in der Grundgesamtheit meist anhand der Stan-dardabweichung in der Stichprobe geschätzt, was ebenfalls bereits An-wendungen des statistischen Syllogismus beinhaltet.

Leider zieht der klassische Statistiker hier nicht mit, da er den Ein-satz von epistemischen Wahrscheinlichkeit – besonders im Sinne der sub-jektiven Wahrscheinlichkeiten – vermeiden möchte. Er wird über dasKonfidenzintervall KI(s) etwa nur sagen, dass es nach einem Verfahren

Page 220: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 208

entwickelt wurde, das in 95% aller Fälle den gesuchten Wert überdeckt.Damit trifft er aber überhaupt keine Aussage mehr über unseren konkre-ten Einzelfall. Was sagt nun KI(s) über unsere konkrete Grundgesamt-heit G? Genau genommen nichts mehr, wenn wir den statistischen Syllo-gismus nicht anwenden. Die Häufigkeit von 95%, mit der solche Konfi-denzintervalle den wahren Wert überdecken, kann nur mit Hilfe des sta-tistischen Syllogismus als eine epistemische Sicherheit im Einzelfall ge-deutet werden. Um also mit dem Konfidenzintervall im konkreten Falleine verständliche Behauptung verbinden zu können, sind wir wiederumauf den statistischen Syllogismus angewiesen.

Der klassische Statistiker könnte sich dabei einer logischen Deutung(im Sinne einer induktiven Logik) des statistischen Syllogismus anschlie-ßen, um die Gefahren durch subjektive Elemente in seinen Überlegun-gen zu vermeiden. Dass wir auf diese Art von logischen Schlüssen in denAnwendungen der Wahrscheinlichkeitsrechnung angewiesen sind unddaher nicht alle Formen logischer Wahrscheinlichkeit zurückweisen soll-ten, dafür plädiert schon Franklin (2001) sehr überzeugend. Der statisti-sche Syllogismus ist eine recht basale und dabei plausible Form, relativeHäufigkeiten und Wahrscheinlichkeiten zusammenzubringen und solltedaher von Bayesianern wie von klassischen Statistikern gleichermaßenakzeptiert werden, obwohl beide von ihrem Grundprogramm her dazukeineswegs verpflichtet sind. Im Hintergrund steht das epistemischeGleichbehandlungsprinzip bzw. bestimmte Indifferenzprinzipien, auf dieich noch gesondert eingehen werde.

Der klassische Statistiker möchte den Einsatz epistemischer Wahr-scheinlichkeiten unbedingt vermeiden, aber erst durch eine entsprechen-de Übersetzung von objektiven Wahrscheinlichkeiten oder relativenHäufigkeiten in subjektive Wahrscheinlichkeiten oder entsprechendeGlaubensgrade gewinnen diese Informationen überhaupt eine Bedeu-tung für unser Handeln. Erst wenn wir die Informationen für uns alsunsere Erwartung annehmen, werden sie dadurch handlungsrelevant.Diese Übernahme scheint zu einem echten Verständnis objektiver Wahr-scheinlichkeiten geradezu dazuzugehören, auch wenn wir diesen Schrittnicht immer explizit durchführen. Ganz explizit findet er sich im soge-nannten „principal principle“ wieder, das wir gleich einführen und unsspäter auch noch genauer ansehen werden. Jedenfalls sollten objektiveWahrscheinlichkeiten einen Wegweiser für unser Leben darstellen.

Der subjektive Bayesianer arbeitet mit rein subjektiven Wahrschein-lichkeiten bzw. Glaubensgraden und muss sich daher nicht zwingend anrelativen Häufigkeiten orientieren. Er könnte andere wählen und trotz-

Page 221: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

209 Thomas Bartelborth: Induktives Schließen

dem in sich konsistent bleiben, aber die meisten modernen Bayesianerakzeptieren aus guten Gründen bestimmte Wahrscheinlichkeitskoordinie-rungsprinzipien wie den statistischen Syllogismus (vgl. Kap. 5.3.10) oderzumindest das sogenannte „principal principle“, das ein schwächeresPrinzip darstellt, das wir später (vgl. Kap. 5.4.4.) noch ausführlicher dis-kutieren werden. In der Praxis ist jedenfalls der statistische Syllogismusfür den Bayesianer das wichtigste Prinzip, um von relativen Häufigkei-ten zu objektiven Wahrscheinlichkeiten zu gelangen. Ohne dieses Prinziphätte der Bayesianer keine Möglichkeit, Informationen über relativeHäufigkeiten auszunutzen und bliebe auf den bloß subjektiven Wahr-scheinlichkeiten sitzen, die den Bayesianern immer vorgeworfen wer-den. Der Bayesianer sollte daher unbedingt den statistischen Syllogismusals zusätzliches Wahrscheinlichkeitskoordinierungsprinzip akzeptierenund damit für seine Ausgangswahrscheinlichkeiten eine Anbindung andie Empirie erreichen. Zusammen mit der Likelihoodanbindung werdendas die wichtigsten Objektivierungsschritte für den Bayesianismus sein.Allerdings ist er damit ein gutes Stück in Richtung der induktiven Logikgegangen, doch das ist sicher gut so.

Überhaupt scheint mir der wichtigste Vorteil der probabilistischenAnsätze etwa gegenüber anderen Ansätzen, die mit epistemischen Unsi-cherheiten umgehen (wie z.B. den spohnschen Rangfunktionen (vgl.Kap. 5.6.12) oder dem sogenannten AGM-Ansatz für rationalen Über-zeugungswandel), der zu sein, dass die probabilistischen Ansätze es ge-statten, so gut an unsere Daten anzuknüpfen und diese aufzugreifen. Da-für ist der statistische Syllogismus ein wesentliches Hilfsmittel. Wir müs-sen uns nur immer darüber im Klaren sein, dass wir uns damit bereitseinen Teil der induktiven Logik einkaufen. Eine völlige Ablehnung derinduktiven Logik kann dann nicht mehr auf unserem Programm stehen.

Das Hauptprinzip besagt im Unterschied zum statistischen Syllogis-mus (auch hier lassen sich allerdings unterschiedliche Formen finden,die z.T. wieder stärker dem statistischen Syllogismus ähneln), dass wirals subjektive Wahrscheinlichkeit für q in dem Fall, in dem eine objekti-ve Wahrscheinlichkeit oder Chance für q vorliegt (ch(q)=r), diese auchals subjektive Wahrscheinlichkeit übernehmen sollten. Wir sollten sie so-gar dann übernehmen, wenn wir noch über anderslautende Informatio-nen E zu p verfügen, die dem jedoch nicht zwingend entgegenstehen.Das ist in jedem Fall ein Unterschied zum statistischen Syllogismus, derden Schluss nur erlaubt, wenn keine derartigen Informationen vorliegen.

Hauptprinzip: („principal principle“ von Lewis (s.u.))P(q|ch(q)=r & E) = r, mit zulässigen Informationen E

Page 222: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 210

In vielen Fällen werden wir aber nur vermuten können, welches die ob-jektiven Wahrscheinlichkeiten wohl sein könnten und können diese Ver-mutung wiederum nur mit Hilfe des statistischen Syllogismus begrün-den, weshalb dieser normalerweise das stärkere Prinzip in der Praxisdarstellen dürfte. Der statistischen Syllogismus verlangt keine so starkenAnnahmen über vorliegende Chancen oder Propensitäten (wie wir siespäter nennen werden), die hier mit der Angabe ch(q)=r gemeint sind.Mit ch(q)=r wird typischerweise unterstellt, dass es sich nicht nur umeine logische Wahrscheinlichkeit handelt, sondern sogar um eine objekti-ve physikalische Eigenschaft der Welt (eine Art von Tendenz) mit einerbestimmten Stärke r gerade q hervorzubringen. Kennen wir die Stärkedieser Eigenschaft, können uns irgendwelche relativen Häufigkeiten, diein diesem Zusammenhang auftreten, sogar vollkommen gleichgültigsein. Darauf werde ich weiter unten noch genauer eingehen.

Der klassische Statistiker wird sich in Anwendungen der Statistik si-cher an bestimmten Stellen implizit auf den statistischen Syllogismusstützen, auch wenn er offiziell epistemische Wahrscheinlichkeiten (sub-jektive und objektive) ablehnt. Dieser Abschnitt sollte also ein Plädoyerdafür sein, dass er hier aufgeschlossener sein müsste, um seine Metho-den überhaupt auf die Wirklichkeit anwenden zu können (vgl. a. Frank-lin 2001).

Leider gibt es für die Wissenschaftstheorie gleich noch ein Problemdes statistischen Syllogismus zu vermelden. Probabilisten und speziell dieBayesianer versuchen auch für wissenschaftliche Theorien mit Glaubens-graden zu arbeiten, doch es ist z.B. nicht erkennbar, wie uns der statisti-sche Syllogismus für diesen wichtigen Fall weiterhelfen soll. Was sind diestatistischen Daten, die uns eine Ausgangswahrscheinlichkeit für wissen-schaftliche Theorien liefern könnten? Alle Ansätze, die hier denkbarsind, wirken recht phantastisch. Sollten wir uns etwa an der Quoteorientieren, mit der ein bestimmter Wissenschaftler bisher wahre neueTheorien produziert hat? Das hätte neben anderen absurden Konsequen-zen zur Folge, dass eine Theorie dann bereits als glaubwürdiger oder un-glaubwürdiger gelten würde, je nachdem, wer sie vorgeschlagen hat. In-tuitiv sollte sie dagegen besser anhand unseres bisherigen Hintergrund-wissens als mehr oder minder plausibel eingestuft werden. Alles anderesind höchstens psychologische Effekte, die etwa bestimmten „Big-Shots“auch eine besondere epistemische Bedeutung geben würden. Doch neuewissenschaftliche Hypothesen werden üblicherweise nicht mit der bishe-rigen Erfolgsquote ihrer Autoren versehen, zumal eine solche Quotenormalerweise noch nicht einmal existiert, denn wer schlägt schon so

Page 223: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

211 Thomas Bartelborth: Induktives Schließen

viele neue Theorien vor, von denen wir dann sogar noch wissen, ob siewahr sind oder nicht? Mir ist jedenfalls nicht bekannt, dass man ernst-haft versucht hätte, den statistischen Syllogismus zu diesem Zweck ein-zusetzen. Hier sind offensichtlich die Grenzen seiner Anwendbarkeit er-reicht. Möchten wir also wissenschaftlichen Hypothesen eine epistemi-sche Wahrscheinlichkeit zuweisen, sind wir auf andere Verfahren ange-wiesen und können diese Wahrscheinlichkeiten nicht mehr an bestimmterelative Häufigkeiten anbinden.

Da die Bezeichnungen in der Literatur leider nicht eindeutig sind,gilt es noch, ein ähnliches Schlussverfahren zu erwähnen, dass auchmanchmal den Namen statistischer Syllogismus erhält. Ich werde es alsstarken statistischen Syllogismus bezeichnen. Es ist durchaus relevant,wenn es darum geht, aus Wahrscheinlichkeitsaussagen zu unbedingten(und nicht-modalen) Aussagen zu gelangen. Wenn die relative Häufig-keit für Fs in G sehr hoch ist und wir ein Element a aus G erhalten, überdass wir sonst nichts weiter wissen, schließt man manchmal direkt dar-auf, dass Fa gilt.

Starker statistischer Syllogismus: Wenn gilt: h(F/G) ist sehr hoch (et-wa >90%) und a ist aus G und wir verfügen über keine Gründe da-für, dass ~Fa gilt, dann schließen wir auf Fa.

Der Schluss ist eher stärker als der einfache statistische Syllogismus.Man könnte fast sagen, dass gilt: Pepistemisch(Fa|h(F/G) ist sehr hoch &~G(~Fa)) = 1, aber das passt nicht ganz, weil es keinen so einfachenZusammenhang zwischen epistemischen Wahrscheinlichkeiten und demAkzeptieren von Aussagen gibt. Man könnte eher davon sprechen, dasses sich um eine Art von Schwellenwertkonzeption des Akzeptierens han-delt, nach der wir eine Aussage akzeptieren, sobald ihre Wahrscheinlich-keit einen bestimmten Schwellenwert k überschreitet. Doch selbst daraufwird sich der Probabilist nicht sogleich einlassen. Doch dazu spätermehr. Die obigen Überlegungen zur Begründung des statistischen Syllo-gismus lassen sich jedenfalls nicht einfach auf dieses stärkere Schlussver-fahren übertragen, aber es bildet zumindest ebenfalls gewisse grundle-gende Intuitionen dazu ab, was eine hohe epistemische Wahrscheinlich-keit (bzw. die dahinter vermutete hohe objektive Wahrscheinlichkeit) füruns bedeutet. Wird sie sehr hoch, heißt das, dass wir Fa erwarten dür-fen. Das wird uns im Kapitel 5.4 bei den Interpretationen von Wahr-scheinlichkeit wieder begegnen und ebenfalls bei den Debatten um denZusammenhang zwischen Probabilisten und klassischen Erkenntnistheo-retikern in Kapitel 5.3.7. Der starke statistische Syllogismus stellt somit

Page 224: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 212

eine wichtige Verbindung zwischen Wahrscheinlichkeitsaussagen undsolchen ohne Wahrscheinlichkeiten dar, allerdings ist seine epistemischeBegründung nicht so klar. Diese Zusammenhänge werden uns im weite-ren immer wieder beschäftigen.

5.3 Klassische und probabilistischeÜberzeugungssysteme

Wir hatten nun schon des Öfteren über eine subjektive oder eine episte-mische Wahrscheinlichkeit gesprochen, die wir benötigen, um statisti-sche Resultate interpretieren zu können und z.B. in konkrete Hand-lungsanweisungen umzusetzen. Klassische Erkenntnistheoretiker undStatistiker lehnen diese Konzepte allerdings ab. Für sie gibt es nur dasAkzeptieren (oder Glauben g) von bestimmten Aussagen (g(A)) bzw. dasAblehnen von Aussagen (g(~A)) und eventuell noch eine neutrale Ein-stellung ihnen gegenüber (n(A) ~g(A)&~g(~A)). Wahrscheinlichkei-ten kommen demnach bestenfalls bestimmten Zufallsereignissen zu, abernicht allen Aussagen unserer Sprache. Unsere wissenschaftlichen Hypo-thesen fallen auf jeden Fall nicht in diese Kategorie. Für sie bleibt diezweiwertige oder kategorische Auffassung von Überzeugungen im Rah-men der klassischen Erkenntnistheorie verbindlich.

Diejenigen Aussagen, die wir akzeptieren oder glauben, weil wir da-für Gründe haben, enthalten dann auch noch die Untergruppe von Aus-sagen, die sogar Wissen darstellen. Für die verfügen wir über besondersgute Begründungen, für die es keine relevanten Unterminierer und über-trumpfenden Gegengründe gibt. Damit können wir mit Hilfe einesGlaubensprädikats g (mit g(A) bedeutet, dass das epistemische Subjekt Aglaubt) und einem Neutralitätsprädikat n(A) : ~g(A)&~g(~A) ein klas-sisches Überzeugungssystem wie folgt darstellen:

Die klassische Konzeption unseres Überzeugungssystems (L,g)Alle Aussagen A einer Sprache L werden in genau eine der dreiGruppen eingeteilt: (1) g(A) oder (2) g(~A) oder (3) n(A)

Für diese Sicht von Überzeugungen, mit einer einfachen Kategorie derakzeptierten Aussagen, spreche ich auch von kategorischen Überzeugun-gen, die eben kategorisch behauptet werden (und nicht mit den Ein-schränkungen einer bestimmten Wahrscheinlichkeit versehen sind), oderich nenne sie zweiwertige Überzeugungen, was sich ein Stück weit einge-bürgert hat, wobei allerdings der neutrale Wert (die Möglichkeit ihnengegenüber Agnostiker zu bleiben) meist schlicht übersehen wird. Wir

Page 225: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

213 Thomas Bartelborth: Induktives Schließen

können allerdings das Schwergewicht auf den Glauben legen und die ex-plizite Ablehnung sowie die neutrale Einstellung unter dem Nichtglau-ben zusammenfassen. Allerdings unterscheiden sich die formalen Zusam-menhänge für diese beiden Fälle. So gilt typischerweise (wenn wir etwalogische Konsistenz für unser Glaubenssystem verlangen), dass aus n(A)auch n(~A) folgt, während für g(~A) gerade ~g(A) folgt.

Die klassische Auffassung von Überzeugungen muss natürlich nichtganz auf den Einsatz von Wahrscheinlichkeiten verzichten. Es können et-wa Aussagen A akzeptiert werden, die bestimmten Ereignissen eineWahrscheinlichkeit zuordnen, wie z.B.:

A: Die Wahrscheinlichkeit an Lassa-Fieber zu sterben ist 20%.

Nur die Aussage A selbst ist entweder wahr oder falsch und sollte dahernach Ansicht des klassischen Erkenntnistheoretikers nicht mit einerWahrscheinlichkeit versehen werden, denn die kann man seiner Mei-nung nach nicht sinnvoll interpretieren. A ist also entweder zu akzeptie-ren oder abzulehnen und, solange man sich ihrer nicht sicher genug ist,sollten wir schlicht unentschieden ihr gegenüber bleiben.

Probabilisten versuchen stattdessen, eine radikal neue Konzeption fürunser Überzeugungssystem einzuführen. Demnach müssen wir uns vonder alten Zwei- oder Dreiteilung verabschieden und stattdessen Glau-bensgrade zwischen 0 und 1 für alle Aussagen einführen, die die Plausi-bilität dieser Aussagen wiedergeben. Es wird dann dafür argumentiert,dass diese Glaubensgrade den Wahrscheinlichkeitsaxiomen gehorchenmüssen, wenn sie rational sein sollen, weshalb wir schließlich von denrationalen Glaubensgraden sagen, dass es sich um subjektive Wahrschein-lichkeiten handelt. Probabilisten behaupten also zwei Dinge:

Probabilismus(1) Für alle Aussagen einer Sprache L inklusive ihrer logischen Kom-

binationen verfügen wir über einen Glaubensgrad zwischen 0und 1.

(2) Die vernünftigen Glaubensgrade gehorchen den Wahrscheinlich-keitsaxiomen.

Unser probabilistisches Überzeugungssystem ist dann ein Paar (L,P), be-stehend aus einer Sprache L und einer Wahrscheinlichkeitsfunktion Pdarauf. Als Wahrscheinlichkeitsaxiome wählen wir hier nur die einfa-chen drei Forderungen:

Page 226: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 214

Wahrscheinlichkeitsaxiome: Für alle Aussagen A und B einer SpracheL nennen wir eine reellwertige Funktion P mit den folgenden Eigen-schaften eine Wahrscheinlichkeit:(1) 0 P(A) 1(2) P(T) = 1 für jede Tautologie T(3) P(AB) = P(A)+P(B), falls A und B sich gegenseitig logisch

ausschließen

Die Axiome sind einfach gestaltet, und es soll zunächst weder -Addi-tivität gefordert werden, noch verlangen wir unbedingt, dass die Mengeder Aussagen, auf denen P definiert wird, eine boolesche Algebra dar-stellt oder Ähnliches. Wir möchten die Anwendung von Wahrscheinlich-keiten nicht durch starke Anforderungen unnötig schwierig gestalten.

Doch die letzte Bedingung soll zumindest kurz erläutert werden. Sowird etwa oft von unserer Sprache L gefordert, dass mit A und B immerauch A&B und AB und ~A in L liegen. Wir sagen dann, dass die Men-ge L zusammen mit diesen Operationen eine boolesche Algebra darstellt.Auch ich gehe im Folgenden normalerweise davon aus, dass es keineEinschränkungen gegenüber solchen logischen Operationen gibt, wäreaber bereit, sie zu im Notfall zu diskutieren, falls das in speziellen Fällenhilfreich erschiene. Man könnte damit z.B. die Flut der Glaubensgradeetwas einschränken, die wir gemäß den Probabilisten plötzlich kennenmüssen.

Man könnte nun sagen, dass die Wahrscheinlichkeitsverteilung Punser neues Überzeugungssystem repräsentiert, und so werde ich jeden-falls manchmal auch reden. Mit dem neuen Überzeugungssystem meineich also die Funktion P für die Glaubensgrade zusammen mit einer be-stimmten Menge von Aussagen L, auf denen P definiert ist. Man könntesagen, die klassischen Überzeugungssysteme sind eine Art von Grenzfall,in dem den Aussagen nur die Werte 0 und 1 zugeschrieben werden undvielleicht noch die 0,5 für den neutralen Zustand. Allerdings wird einegenauere Analyse der Zusammenhänge belegen, dass es nicht so leichtist, eine Zuordnung zwischen klassischer Betrachtungsweise und der derProbabilisten herzustellen.

In der mathematischen Wahrscheinlichkeitsrechnung arbeitet manmeist mit einem Grundraum von Ereignissen und den entsprechendenMengenoperationen darauf, also Durchschnittsbildung, Vereinigung undKomplementbildung. Philosophen oder Informatiker, die sich mit derRepräsentation von epistemischer Unsicherheit und bestimmten Plausibi-litätsmaßen beschäftigen, wählen dementsprechend gern eine Menge Wvon möglichen Welten oder von Möglichkeiten und wählen als Aussagen

Page 227: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

215 Thomas Bartelborth: Induktives Schließen

darauf eine Algebra W von Teilmengen von W. Jede Menge AW stelltdann die Aussage dar, die genau in allen A-Welten wahr ist bzw. die gera-de die A-Möglichkeiten zulässt.

In der mathematischen Wahrscheinlichkeitsrechnung nimmt man ger-ne zur einfachen Additivität eine Stetigkeitsbedingung hinzu, die für vie-le Beweise, in denen man zu Grenzwerten übergeht, hilfreich ist, näm-lich die -Additivität. Damit ist gemeint, dass auch noch für abzählbarunendliche Mengensysteme (Mi)iℕ von paarweise disjunkten MengenMi eine Additionsregel gilt:

-Additivität:P(iMi) = i P(Mi) für paarweise disjunkte Mengen Mi

Die einfachen Regeln entsprechen einander für beide Ansätze (mit Wahr-scheinlichkeiten auf Aussagen oder auf Ereignissen definiert), aber un-endliche Disjunktionen werden in den meisten Sprachen eigentlich nichtmehr zugelassen, weshalb die -Additivität eher ein Spezialfall der ma-thematischen Herangehensweise ist, die ich nur am Rande erwähnenmöchte. Mengen, die solche abzählbaren Vereinigungen oder Disjunktio-nen ebenfalls noch enthalten, nennt man übrigens -Algebren.

In jedem Fall benötigen wir nicht nur die Glaubensgrade und Wahr-scheinlichkeiten für einfache Aussagen, sondern auch die entsprechen-den bedingten subjektiven Wahrscheinlichkeiten bzw. Glaubensgrade.Einige Autoren halten sogar die bedingten Wahrscheinlichkeiten für ba-saler, andere führen sie durch eine Definition ein:

(4) Bedingte Wahrscheinlichkeit: P(A|B) := P(A&B)/P(B)

Mit P(A|B) ist die Wahrscheinlichkeit gemeint, die A aufweist, wenn wirschon wissen, dass B der Fall ist. Für einen fairen Würfel ist die Wahr-scheinlichkeit für eine 4 gerade 1/6: P(4)=1/6. Wissen wir etwa übereinen Wurf aber schon, dass eine gerade Zahl gekommen ist, setzt dasdie Wahrscheinlichkeit für eine 4 auf 1/3 herauf, weil dann nur nochdrei Möglichkeiten übrigbleiben: P(4|gerade Zahl)=1/3.

Das heißt jedenfalls, dass wir nicht nur die Wahrscheinlichkeit für A,sondern auch noch die für A&B und die für A&B&C usw. kennen müs-sen, um damit alle benötigten Glaubensgrade bzw. Wahrscheinlichkeitenbestimmen zu können. Für endlich viele Basisaussagen X={A1,...,An},die zusammen mit allen logischen Kombinationsmöglichkeiten unsereSprache L aufspannen sollen, müssen wir daher die gemeinsame Wahr-scheinlichkeitsverteilung P für alle Vollkonjunktionen ±A1&...&±An

von Aussagen aus X kennen, die sich jeweils ergeben, indem wir alle

Page 228: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 216

Kombinationen der Basisaussagen bzw. ihrer Negationen konjunktiv zu-sammenfügen. Diese Vollkonjunktionen spannen für uns den Raum allermöglichen Weltzustände auf. Alle weiteren Aussagen unserer Sprache Lsind dann logisch äquivalent zu einer Disjunktion solcher Vollkonjunk-tionen (das ist ihre sogenannte kanonische disjunktive Normalform). Al-lerdings benötigen wir so Wahrscheinlichkeiten für immerhin 2n Kombi-nationen (genauer 2n–1, da sich die Wahrscheinlichkeiten zu eins aufad-dieren, aber diese kleine Ersparnis fällt hier nicht ins Gewicht); das sindfür 64 Basisaussagen bereits ca. 1019 Wahrscheinlichkeiten, und das isteine enorm große Zahl, die mit wachsendem n schnell weiter wächst,weshalb diese Vorgehensweise sogar Informatikern Sorgen bereitet, obdieses exponentielle Wachstum für größere Mengen an Aussagen mitdem Computer noch beherrschbar ist. Es handelt sich jedenfalls um einerecht starke Idealisierung, mit der Probabilisten an dieser Stelle lebenmüssen.

Im Falle von wissenschaftlichen Hypothesen und unseren Daten dazumüssen als zu berücksichtigende Aussagen sogar alle denkbaren Hypo-thesen und alle möglichen Daten erfasst werden. Außerdem müssen wiralle logischen Beziehungen kennen, also logisch allwissend sein. Das deu-tet schon an, dass hier Einiges von den epistemischen Objekten erwartetwird.

Aus den Axiomen folgen schnell weitere Rechenregeln, von denenich einige kurz angeben möchte. So gilt für alle A, B:

(T5) P(A) = P(B), falls A und B logisch äquivalent sind.(T6) P(~A) = 1 – P(A), für alle A.(T7) P(A) = 0, falls A eine Kontradiktion ist.(T8) P(A) P(B), falls A logisch B impliziert.(T9) P(AB) = P(A) + P(B) – P(A&B), für alle A und B.

(T10) P(A&B) = P(A)P(B|A) = P(B)P(A|B), für alle A und B.(T10a) P(A&B&C) = P(A|BC)P(B|C)P(C) usw. (Kettenregel)

Und mit (T10) erhalten wir das einfache Bayessche Theorem:(T11) P(B|A) = P(B) P(A|B) / P(A), für alle A und B.

Definition: A und B sind statistisch unabhängig gdw(T12) P(A|B) = P(A) oder P(A&B) = P(A)P(B)

Und der Satz von der totalen Wahrscheinlichkeit:(T13) P(A) = P(A|B) P(B) + P(A|non-B) P(non-B)(T14) P(A) = i P(A|Bi) P(Bi), für eine Menge von Aussagen

Page 229: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

217 Thomas Bartelborth: Induktives Schließen

{B1,...,Bn}, die gegenseitig inkompatibel sind und für die B1...Bn

eine Tautologie darstellt.

Die Regel (T5) ergibt sich eigentlich noch aus der Definition der Wahr-scheinlichkeitsfunktion, denn die ist extensional gedacht und auf Aussa-gen definiert, so dass hier zwei Sätzen oder Aussagen, die logisch äquiva-lent sind, automatisch derselbe Wert unter P zugewiesen wird. Das istähnlich wie im klassischen Fall, in dem man meistens ebenfalls annimmt,dass logisch äquivalente Aussagen (oder Sätze) als Gegenstände derÜberzeugungen gleich zu behandeln sind. Das ist natürlich selbst bereitseine gewisse Idealisierung, aber die erscheint notwendig, wenn mannicht in die Untiefen idiosynkratischer Redeweisen der einzelnen episte-mischen Subjekte eintauchen möchte. Wem das nicht akzeptabel er-scheint, der kann (T5) einfach als weiteres Axiom für die Wahrschein-lichkeitsfunktion hinzunehmen.

Eventuell gibt es bestimmte probabilistische Unabhängigkeiten, wo-durch sich die Zahl der Wahrscheinlichkeiten, die ein epistemisches Sub-jekt kennen muss, wieder reduzieren ließe, doch das hängt natürlich vonden speziellen Überzeugungssystemen ab. Sind etwa A und B probabilis-tisch unabhängig, können wir P(A&B) aus P(A) und P(B) nach (T12) be-rechnen und müssen sie nicht eigens hinzufügen. Sind A und B wenigs-tens noch relativ zu C probabilistisch unabhängig, gilt immerhin noch:

(T12a) P(A&B|C) = P(A|C)P(B|C)

Diese Gleichung werden wir im Folgenden häufiger verwenden undauch sie reduziert letztlich die Anzahl der Wahrscheinlichkeiten, überdie das epistemische Subjekt einzeln verfügen muss.

Zunächst einmal dürfte jedenfalls klar sein, dass es sich beim Über-gang zum Probabilismus um einen wirklichen Paradigmenwechsel gegen-über der klassischen Erkenntnistheorie handelt. Es wird sich weiterhinzeigen, dass es keine einfachen Übersetzungen zwischen diesen beidenKonzeptionen gibt. Versuche, eine solche vorzunehmen, wie die vonHawthorne (s.u.) führen zu höchst komplexen Theorien über den Zu-sammenhang zwischen Glaubensgraden und kategorischen Überzeugun-gen.

Wir können uns nun analog ein einfaches klassisches Überzeugungs-system folgendermaßen vorstellen: Es gibt zunächst eine endliche Basis-menge von atomaren Aussagen X={A1,...,An} und dazu bilden wir dieBoolesche Algebra A von Aussagen, die sich aus den Ai durch Hinzufü-gen aller logischen Verknüpfungen der Aussagen aus X ergibt (A&B,AB, ~A etc.), die damit unsere Sprache darstellt. Aus dieser Menge

Page 230: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 218

wird im klassischen Ansatz eine Überzeugungsmenge oder Glaubens-menge GA ausgesondert, die die Aussagen angibt, die wir akzeptieren.Um rational zu bleiben, sollte die Menge zumindest konsistent sein, d.h.,es gibt keine Aussagen p, so dass p und ~p aus G ableitbar sind. Ideali-sierend wird dann oft noch angenommen, dass die Menge G deduktivabgeschlossen ist. Wir sollten zumindest im Prinzip bereit sein, die logi-schen Konsequenzen unserer Überzeugungen ebenfalls zu akzeptieren.Das ist zwar eine recht starke Anforderung, die nach logischer Allwis-senheit verlangt, aber ich möchte an dieser Stelle den klassischen Ansatzähnlich stark ausstatten wie den probabilistischen. Um den Vergleichmit dem probabilistischen Ansatz weiter zu befördern, können wir dasklassische Überzeugungssystem nun in ähnlicher Form darstellen: (A,B)mit einer Bewertungsfunktion B:A{0,1}, wobei die Aussagen derMenge G gerade auf die 1 abgebildet werden. Die Rationalitätsforderun-gen können wir dann so formulieren:

(A,B) ist ein klassisches rationales Überzeugungssystem, wenn füralle p, q A gilt:(1) Deduktive Abgeschlossenheit: Wenn q aus p deduktiv folgt und

B(p)=1 ist, dann ist auch B(q)=1.(2) Konsistenz: Aus B(p)=1 folgt B(~p)=0.

Ein zweiter grundlegender Unterschied zwischen probabilistischen undklassischen Ansätzen besteht darin, dass vor allem der Bayesianismussich ganz auf die Übergänge zwischen zwei aufeinanderfolgenden Über-zeugungssystemen konzentriert. Für sie liefert er uns eine zentrale Regel(die Konditionalisierungsregel), während für die momentane Ausgestal-tung der Systeme nur die relativ schwachen Wahrscheinlichkeitsaxiomeals Kohärenzforderungen dienen. Die probabilistischen Ansätze sind alsovor allem dynamische Erkenntnistheorien, die Regeln für die Dynamikunserer Überzeugungssysteme aufstellen und nicht so sehr für ihre Sta-tik. Sie erlauben als Startwerte sehr unterschiedliche und sogar intuitivunplausible Wahrscheinlichkeitswerte, die erst durch wiederholtes „Up-daten“ mit aktuellen Daten einen objektiveren Charakter gewinnen.

Die Veränderungen unseres Überzeugungssystems durch neue Datenkönnen wir natürlich auch im klassischen Rahmen so beschreiben, dassbestimmte Beobachtungsaussagen o neu in die Glaubensmenge G:={p|B(p)=1} aufgenommen werden, bzw. B(o)=1 gesetzt wird, und da-durch bestimmte weitere Anpassungen von G bzw. B erforderlich wer-den, die dann eine klassische dynamische Erkenntnistheorie beschreiben

Page 231: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

219 Thomas Bartelborth: Induktives Schließen

kann. Die Dynamik unseres Überzeugungssystems ist in dem Fall durchÜbergänge

(A,B) (A,B+) (A,B++) ...

gekennzeichnet, die die jeweils neuen Bewertungen beschreiben. Dieklassische Erkenntnistheorie ist normalerweise allerdings nicht daraufeingestellt, spezielle Regeln für diese Änderungen zu formulieren.

Es gibt allerdings insbesondere im Rahmen des „belief revision“-An-satzes (vgl. Hansson 2006) den Versuch, vor allem die Veränderungen ander Menge G zu beschreiben und gewisse Regeln für die Aufnahme neu-er Aussagen o explizit und sogar axiomatisch präzise zu formulieren. Imsogenannten AGM-Modell werden sowohl Regeln für die einfache Auf-nahme bzw. Erweiterung von G um eine Aussage o (expansion) sowiefür eine Anpassung (revision) angegeben, bei der o mit den bisherigenÜberzeugungen in Konflikt steht und daher bestimmte Aussagen aus G(möglichst schonend) wieder entfernt werden müssen (contraction).

Dieser Ansatz ist noch am ehesten vergleichbar mit der probabilisti-schen Vorgehensweise, bei der unser Überzeugungssystem ganz ähnlichdurch ein Paar (L,P) wiedergegeben wird, nur dass es sich bei P nun umeine Funktion für Glaubensgrade handelt und die Rationalitäts- bzw.Konsistenzforderung nun besagt, dass es sich bei P um eine Wahrschein-lichkeitsfunktion handeln sollte.

(L,P) mit einer Funktion P:L[0,1] ist ein rationales probabilisti-sches Überzeugungssystem, wenn P die Wahrscheinlichkeitsaxiomeerfüllt.

Auch hier erwarten wir wieder, dass sich vor allem die Übergänge zueinem neuen Überzeugungssystem anhand von neuen Daten als Ände-rungen der Funktion P beschreiben lassen:

(L,B) (L,P+) (L,P++) ...,

wobei der Bayesianismus gerade besagt, dass diese Übergänge rationaler-weise durch die bereits genannte Konditionalisierungsregel P+(A)=P(A|E) bestimmt werden sollten, die angibt, wie sich alle Wahrschein-lichkeiten ändern, wenn ein neues Datum E auftritt. Dem Datum E wirddabei im neuen System die Wahrscheinlichkeit 1 gegeben: P+(E)=1. Ge-mäß der Konditionalisierungsregel legen die alten bedingten Glaubens-grade die neuen unbedingten fest, sobald entsprechende Daten vorlie-gen. Wir werden später noch darauf eingehen und als Alternative etwadie Konditionalisierungsregel von Jeffrey kennenlernen, für die auch an-

Page 232: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 220

dere Werte r<1 erlaubt sind: P+(E)=r. Das neue Datum wird in diesenAnsätzen nicht als unbedingt sicher betrachtet.

Ein weiterer wichtiger Unterschied zwischen dem klassischen Ansatzund dem probabilistischen wurde bereits oben erwähnt. Im klassischenAnsatz müssen wir die Bewertungsfunktion nur für die n BasisaussagenX festlegen und können die Werte für die weiteren Aussagen aus (A,B)dann anhand der Rationalitätsforderungen erschließen. Das ist für pro-babilistische Überzeugungssysteme leider nicht der Fall. Selbst wenn wirP(A) und P(B) schon kennen, legt das P(A&B) i.A. nicht fest. Wir wissennur, dass P(A&B) irgendwo zwischen 0 und min{P(A), P(B)} (einschließ-lich) liegen muss. Im Falle, dass A und B nicht als probabilistisch unab-hängig angenommen werden, müssen wir solche Wahrscheinlichkeitenzusätzlich annehmen und erhalten so schnell die immens hohen Anzah-len an neuen Wahrscheinlichkeiten, die wir für unser Überzeugungssys-tem benötigen. Im Rahmen z.B. der Fuzzy-Logik hat man es dagegenmit den sogenannten t-Normen zu tun, die den Fuzzy-Wert für die Kon-junktion aus denen der beiden Konjunkte berechnen. Eine wichtige t-Norm ist etwa die Wahl des Minimums, die wir im probabilistischenFall nur dann finden, wenn die eine Aussage aus der anderen deduktivfolgt. Probabilisten wenden dagegen ein, dass man damit nicht alle ent-sprechenden Zusammenhänge von relativen Häufigkeiten korrekt nach-zeichnen kann, weshalb wir zu den komplexeren Regeln der Wahr-scheinlichkeitsrechnung greifen müssen.

Für die Festlegung der Wahrscheinlichkeitsfunktion P müssen wirwie oben schon gesagt zumindest alle Vollkonjunktionen der atomarenAussagen betrachten: A1&...&An, und für sie Wahrscheinlichkeitenfestlegen. Dann lassen sich die Wahrscheinlichkeiten für alle anderenAussagen unserer Sprache leicht berechnen, weil sich als kanonischedisjunktive Normalform von Vollkonjunktionen schreiben lässt und dieVollkonjunktionen untereinander inkonsistent sind. P() ergibt sich da-her als die Summe der Wahrscheinlichkeiten der Vollkonjunktionen inder disjunktiven Normalform von .

Das können wir an einem einfachen Beispiel sicher am leichtestenverdeutlichen. Nehmen wir atomare Aussagen nur A, B und C und alsihre Negationen a, b und c. Dann schreiben wir vereinfachend „AB“ fürdie Konjunktion „A&B“. Dann lässt sich z.B. die Aussage B darstellenals: B ABCaBCaBcAbc, wobei die Disjunkte einander ausschlie-ßen. Daher gilt dann: P(B) = P(ABC) + P(aBC) + P(aBc) + P(ABc). Ent-sprechend können wir auch komplexere Aussagen in die kanonische dis-junktive Normalform bringen wie etwa: (A&B) (A&C) (ABC ABc)

Page 233: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

221 Thomas Bartelborth: Induktives Schließen

(ABC AbC) ABC ABc AbC, wobei der Term ABC einmal weg-fällt, weil er sonst doppelt aufträte. Damit ist gezeigt, dass wir die 2n

Wahrscheinlichkeiten für die Vollkonjunktionen benötigen, aber auchnicht mehr, denn jede andere Aussage in unserem System lässt sichschreiben als Disjunktion dieser Vollkonjunktionen.

Bei 64 Basisaussagen wären es ca. 1019 Wahrscheinlichkeiten, die wirbenötigen. Da wir ungefähr über 1014 Gehirnzellen verfügen, müsste al-so jede Zelle ungefähr zum Speichern von 10 000 Wahrscheinlichkeitendienen. Das belegt noch einmal die Dimensionen, die dabei im Spielsind. Auch die Aufgabe, so viele Wahrscheinlichkeiten in konsistenterWeise zu vergeben, ist deutlich schwieriger als die Vergabe konsistenterWahrheitswerte im klassischen Fall. Man betrachte etwa die Wahrschein-lichkeiten P(A|B)=0,7 und P(B|A)=0,3 sowie P(B)=0,7. Das siehtharmlos aus, aber wenn wir bedenken, dass P(A|B)·P(B) = P(A&B) =P(B|A)·P(A) ist, so verlangen die obigen Zuordnungen, dass P(A) größerwäre als 1,6 sein müsste. Also war die ursprüngliche Wahrscheinlich-keitsverteilung bereits inkonsistent. Diese Konsistenz für 1019 Wahr-scheinlichkeiten zu erhalten, ist eine Herkulesaufgabe, die als sehr starkeIdealisierung erscheint und von realen Personen offensichtlich nicht zuleisten ist.

Wir können natürlich L verkleinern und müssen nicht darauf be-stehen, dass es sich um eine boolesche Algebra handelt oder anhand be-stimmter Kausalbeziehungen auf einige probabilistische Unabhängigkei-ten schließen und etwa annehmen, dass unsere Überzeugungen ein (bay-essches) Netz bilden, das entsprechende Unabhängigkeitsbeziehungenmodelliert und so die Anzahl der erforderlichen Wahrscheinlichkeitenwieder deutlich reduzieren kann (vgl. Beierle & Kern-Isberner 2008,Kap. 12). Darauf kommen wir wieder zurück. In der Praxis werden wires oft auch mit kleineren Anwendungsgebieten und nicht sogleich mitganzen Überzeugungssystemen zu tun haben, dann kann sich die Mengeder benötigten Wahrscheinlichkeiten schon eher in Grenzen halten.

Lassen wir also zunächst einmal die Probleme der großen Anzahlenvon Glaubensgraden, über die wir verfügen müssten, als eine Form vonIdealisierung beiseite, und konzentrieren uns nur auf den intuitivenUnterschied zur klassischen Konzeption sowie auf die Frage nach der Be-gründung für diesen Paradigmenwechsel sowie auf die Frage nach denAnwendungsmöglichkeiten für beide Ansätze. Doch zunächst möchte ichnoch ein einfaches Beispielüberzeugungssystem vorführen, das sogleichbelegt, wie schwierig es ist, überhaupt konsistente Wahrscheinlichkeitenfür unsere Überzeugungen zu vergeben.

Page 234: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 222

Ein Beispielsystem: Um die Schwierigkeiten und Möglichkeiten dafür,ein guter Bayesianer zu sein, einmal konkret aufzuzeigen, möchte ich einsehr einfaches Beispiel-Überzeugungssystem X={E, D, H, H’} diskutie-ren. Denken wir uns dazu zwei einfache Hypothesen H und H’, die ein-ander ausschließen sollen, von denen wir aber eine Hypothese für wahrhalten, also P(H) = 1–P(H’). Außerdem besagen die Hypothesen, wel-che Wahrscheinlichkeit das Ergebnis Kopf bei einem Münzwurf hat:H=Die Wahrscheinlichkeit von Kopf ist 0,7 und H’=Die Wahrscheinlich-keit von Kopf ist 0,3. Die Münze ist also in jedem Fall gefälscht, die Fra-ge ist nur in welcher Richtung das der Fall ist. Außerdem haben wir zweiDaten E und D, mit denen ich in dieser Reihenfolge update und beidebesagen, dass jeweils Kopf gefallen ist. Die neuen Wahrscheinlichkeitennach dem Updaten werden mit P+ und nach dem zweiten Updaten mitP++ beschrieben. Außerdem nehmen wir einfach bestimmte Grundwahr-scheinlichkeiten als Vorgaben für unser Beispiel an, wie z.B., dass wirmit gleichen Wahrscheinlichkeiten für beide Hypothesen starten:

(1) P(H) = 0,5 = P(H’)(2) P(E|H) = P(D|H) = 0,7(3) P(E|H’) = P(D|H’) = 0,3

Diese Wahrscheinlichkeiten müssen wir nun zu einem kohärenten Sys-tem ergänzen, was nicht leicht ist. Dazu betrachten wir alle gemeinsa-men Wahrscheinlichkeiten unserer vier Aussagen, wobei wir die Nega-tionen jeweils durch kleine Buchstaben charakterisieren. Außerdem sindalle Wahrscheinlichkeiten gleich Null, bei denen H und H’ zusammenauftreten. Dann müssen wir nur noch die folgenden Wahrscheinlichkei-ten festlegen, wobei wir weitere Symmetrien zwischen E und D anneh-men und anstatt H’ auch einfach h schreiben können, da H und H’ sichgegenseitig ausschließen (auf die Konjunktionszeichen verzichten wir zu-gunsten der besseren Übersichtlichkeit):

P(EDH) = x P(EDh) = tP(EdH) = P(eDH) = y P(Edh) = P(eDh) = uP(edH) = z P(edh) = v

Um die Größen x bis v nun bestimmen zu können, müssen wir zunächstunsere Vorgaben (1) bis (3) auswerten bzw. umsetzen:

Aus (1) folgt: x+2y+z = 0,5 = t+2u+vAus (2) folgt: x+y = 0,35Aus (3) folgt: t+u = 0,15

Page 235: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

223 Thomas Bartelborth: Induktives Schließen

Damit verträglich ist z.B. die folgende Verteilung:

P(EDH) = x= 0,25 P(EDh) = t = 0,05P(EdH) = P(eDH) = y = 0,1 P(Edh) = P(eDh) = u = 0,1P(edH) = z = 0,05 P(edh) = v = 0,25

Mit dieser Verteilung sind nun alle Wahrscheinlichkeiten in unserem Sys-tem festgelegt. Wir können beispielhaft einige ausrechnen. Man bedenkedazu, dass z.B. DE DEHDEh ist etc.:

P(DE) = x+t = 0,3P(EH) = x+y = 0,35P(D|EH) = P(EDH) / P(EH) = x / (x+y) = 0,25 / 0,35 = 0,714P(E) = x+y+t+u = P(D) = 0,5Damit erhalten wir die upgedateten Wahrscheinlichkeiten:P+(H) = P(H|E) = P(EH) / P(E) = (x+y) / (x+y+t+u) = 0,7Damit sinkt die Wahrscheinlichkeit für H’: P+(H’) = 0,3P+(D) = P(D|E) = P(ED) / P(E) = 0,3 / 0,5 = 0,6P+(D|H) = P(D|EH) = 0,714 (s.o.)P+(D|H’) = P(D|Eh) = t / (t+u) = 0,333P+(E) = 1P++(H) = P(H|DE) = P(EDH) / P(DE) = 0,25 / 0,3 = 0,833Damit sinkt die Wahrscheinlichkeit für H’: P+(H’) = 0,167P++(E) = P++(D) = 1

Das Problem, selbst in einem so überschaubaren Beispiel eine konsistenteVerteilung zu finden, die unsere intuitiven Vorgaben erfüllt, belegt zu-gleich, wie schwierig es ist, ein guter Bayesianer zu sein. Der Leser mögeeinmal selbst versuchen, konsistente Wahrscheinlichkeiten für ein be-stimmtes System von Aussagen vergeben. Dazu kommt dann noch, dasswir in den praktischen Anwendungen oft die entsprechenden bedingtenWahrscheinlichkeiten erst noch berechnen müssen. Das Eingangsbeispielvom Dschungelfieber zeigt zugleich, dass wir das nicht immer auf intuiti-ve Weise korrekt durchführen, sondern oft auf die konkrete Berechnungangewiesen sind. Damit wird deutlich, wie groß der Schritt von einemklassischen Ansatz und Überzeugungssystem zu einem probabilistischenausfällt. Der Probabilist wird nun argumentieren, dass wir mit seinemSystem aber zumindest im Prinzip mehr epistemische Differenzierungendarstellen können, als mit dem „groben“ klassischen System, aber derenorme Preis, den wir dafür zahlen müssen, sollte uns dabei immergegenwärtig sein.

Page 236: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 224

Es gibt natürlich auch einen leichten Weg, Wahrscheinlichkeiten füralle Vollkonjunktionen zu vergeben, indem wir etwa im Sinne einesweitgehenden Indifferenzprinzips allen Vollkonjunktionen denselbenWert (hier also 1/8) zuweisen. Doch das ist auch ein besonders langweili-ges Überzeugungssystem, denn alle Überzeugungen erhalten damit denWert 1/2 und auch alle Likelihoods der Art P(E|H) sowie P(H|E) erhal-ten diesen Wert. Beim Updaten ändern sich jeweils nur die Wahrschein-lichkeiten der Daten und wir finden keine induktiven Effekte für die an-deren Größen. Unsere Hypothese verharrt trotz zweifachen Updatensbei Wahrscheinlichkeit 1/2. Man sieht sehr gut, wie wichtig die Aus-gangswahrscheinlichkeiten sind. Sie beinhalten bereits alle inhaltlichenZusammenhänge für zwischen den Aussagen unseres Systems, auf diewir uns in unseren induktiven Schlüssen stützen können.

5.3.1 Argumente für GlaubensgradeWarum sollten wir nach Meinung der Probabilisten zu Glaubensgradenanstelle von kategorischem Glauben übergehen, wenn wir Erkenntnis-theorie treiben möchten? Zwei Argumente dafür sollen kurz diskutiertwerden. Die Diskussion um die Sinnhaftigkeit von Glaubensgraden mussm.E. letztlich vor allem über die Erfolge bzw. Probleme der gesamtenKonzeptionen im Hinblick auf die Anwendungen geführt werden. Trotz-dem sollen erste intuitive Überlegungen an dieser Stelle bereits ange-sprochen werden.

Eine Überlegung der Probabilisten ist, dass wir nicht einfach nureinen kategorischen Glauben (also ein unbedingtes Glauben bestimmterAussagen) bzw. ein einfaches Akzeptieren von Aussagen kennen, sondernauch intuitiv deutliche Unterschiede in unserem Vertrauen in einzelneÜberzeugungen feststellen können. Bestimmte einfache mathematischeBehauptungen wie 2+2=4 oder logische Wahrheiten (Tautologien) er-scheinen uns deutlich sicherer als praktisch alle empirischen Behauptun-gen; doch selbst für die setzt sich diese Einteilung weiter fort. Wir unter-scheiden bei wissenschaftlichen Hypothesen, die wir inzwischen akzep-tieren, zwischen ziemlich sicher wahren Theorien bis hin zu eher speku-lativen Theorien. Einfache Zusammenhänge aus der Physik (Reibung er-zeugt Wärme) erscheinen uns besser gestützt, als Aussagen darüber, dassein hoher Anteil an LDL-Cholesterin im Blut zu Herzinfarkten führt.

Auch Behauptungen über den genauen Umfang des Klimawandelssind sicher zurückhaltender zu beurteilen als Theorien über die Bewe-gungen von Billiard-Bällen. Mit Theorien über das Higgs-Boson oderüber den Aufbau von Baryonen durch Quarks gehen wir noch einen

Page 237: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

225 Thomas Bartelborth: Induktives Schließen

Schritt weiter ins Hypothetische und trotzdem würden viele Physikervermutlich zustimmen, dass sie diese Theorien akzeptieren. Hier gibt esalso ein Spektrum von Aussagen, die wir akzeptieren, aber ebenso einSpektrum im Bereich der Aussagen, die wir ablehnen. Theorien überKlabautermänner erscheinen uns zu Recht als noch unwahrscheinlicherals Annahmen über die kalte Fusion.

Das kennen wir genauso im Alltag. Denken wir nur an die unter-schiedlichen Quellen, aus denen wir unser Wissen beziehen. Unter-schiedliche Zeitungen oder andere Medien, verschieden qualifizierteund vertrauenswürdige Gewährsleute, die etwas Bestimmtes beobachtethaben, sowie unterschiedlich gute Beobachtungssituationen, die selbstunser direktes Beobachtungswissen als unterschiedlich sicher erscheinenlassen. Jeder kann sich dazu viele Beispiele ausdenken, die das Spektrumseiner Überzeugungen beschreiben. Wir haben für diese Zwecke etwaBeschreibungen wie „das ist ganz sicher“ oder „Franz ist ein zuverlässi-ger Zeuge“ oder „das können wir nur vermuten“ etc. Leider werden dievon verschiedenen Leuten recht unterschiedlich verstanden und ergebenkein klares Spektrum.

Deshalb schlägt der Probabilist vor, eine einheitliche Repräsentationfür diese Unterschiede einzuführen, die dem klassischen Erkenntnistheo-retiker mit seiner einfachen Dreiteilung entgehen. Die sicheren Aussagensollen dabei den Wert 1 zugewiesen bekommen, die sicher falschen denWert 0 und Fälle mit völliger Indifferenz den Wert 0,5. Die anderenAussagen müssen entsprechend in den Zwischenräumen angesiedelt wer-den. Dazu gibt es z.T. weitere Regeln. Wir können uns z.B. an bestimm-ten relativen Häufigkeiten orientieren oder unterschiedliche Indifferenz-prinzipien heranziehen etc. Doch dazu später mehr.

Ein anderer Grund für den Probabilisten, nun auf Glaubensgrade zusetzen, ist darin zu sehen, dass wir sonst gewisse innere Widersprüch-lichkeiten akzeptieren müssten, die u.a. im Lotterie-Paradox sowie imVorwort-Paradox zu finden sind. Das Vorwort-Paradox geht davon aus,dass wir als Autoren eines wissenschaftlichen Buches etwa der Ansichtsind, dass alle Aussagen A1,...,An des Buches wahr sind, denn sonst wür-den wir sie schließlich verändern. Wir gehen jedenfalls einmal von derSituation aus, dass das Buch nicht als „schönfärberische Auftragsarbeit“für bestimmte Firmen angefertigt wird, sondern schlicht unser bestesWissen wiedergeben soll. Also gilt g(A1)&...&g(An). Die deduktive Abge-schlossenheit unseres Glaubens impliziert dann: g(A1&...&An). Anderer-seits wissen wir aus zahlreichen Erfahrungen mit früheren eigenen Wer-ken und denen von Kollegen, dass sich trotzdem noch Fehler in dem

Page 238: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 226

Buch finden werden. Zumindest eine dort getroffene Aussage wird wohlfalsch sein. Also sollten wir außerdem glauben, dass eine der Aussagenim Buch falsch ist: g(~(A1&...&An)). Doch das passt nicht mehr zusam-men. Unser Glaubensoperator g (bzw. unser Operator für das Akzeptie-ren von Aussagen) führt so in widersprüchliche Konsequenzen, diegegen die Konsistenzforderung verstoßen. Der Probabilist kann diese Si-tuation besser darstellen und die Inkonsistenz vermeiden. Er wird sagen,dass wir zwar für jeden Satz unseres Buches eine hohe Wahrscheinlich-keit annehmen werden, aber uns seiner trotzdem nicht völlig sicher seinkönnen. Wenn aber gilt: P(A1)=...=P(An)=99%, so muss dass keinenWiderspruch zu der Aussage ergeben, dass P(A1&...&An) klein ist. Fürhinreichend viele und viele unabhängige Aussagen ergibt sich das sogarrechnerisch aus dem neuen Ansatz. Der klassische Erkenntnistheoretikerhat keine Ausdrucksmittel, um diese etwas paradoxe Situation angemes-sen zu beschreiben, der Probabilist aber schon.

Ähnlich sieht es für das Lotterieparadox aus. Nehmen wir eine faireLotterie mit eintausend Losen, von denen genau eines gewinnt. Ai seinun die Aussage, dass das i-te Los eine Niete ist. Da nur eines von tau-send Losen gewinnt, scheint es nur plausibel, Ai zu akzeptieren. Das giltaber für jedes i in derselben Weise. Also sollte gelten: g(A1)&...&g(A1000). Aber andererseits sind wir davon ausgegangen, dass die Lotteriefair ist, weshalb wir ebenso akzeptieren sollten, dass nicht alle Lose Nie-ten sind: g(~(A1&...&An)). Auch hier kommen wir zu keiner adäquatenBeschreibung im klassischen Rahmen. Es scheint auch nicht begründbarzu sein, gegenüber Ai neutral zu bleiben, da wir schließlich gute Gründefür Ai haben. Wir könnten sie sogar noch verbessern, indem wir miteiner Million Lose arbeiten. Letztlich kommen wir nicht darum herum,Ai für so gut begründet zu halten, dass wir es akzeptieren müssen, underhalten schließlich unsere Paradoxie. Wiederum verfügt der Probabilistüber die bessere Beschreibung dieser Situation: P(A1)=...=P(A1000)=99,9%, aber es gilt zugleich P(A1&...&A1000)=0, denn die Ai sind nichtunabhängig voneinander. Jedes Los i, das sich als Niete entpuppt (Ai istwahr), erhöht die Wahrscheinlichkeit für die anderen Lose keine Nietezu sein. Das kann der klassische Erkenntnistheoretiker mit seiner zwei-wertigen Glaubenskonzeption nicht nachzeichnen.

5.3.2 Benötigen wir den zweiwertigen Glauben?Benötigen wir dann überhaupt noch den kategorischen Glauben bzw.das Akzeptieren von Aussagen oder wissenschaftlichen Theorien? VieleProbabilisten scheinen nicht dieser Ansicht zu sein. Basaler und ausrei-

Page 239: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

227 Thomas Bartelborth: Induktives Schließen

chend sind ihrer Meinung nach die Glaubensgrade, und wir können so-mit auf eine „Rückkehr“ zum kategorischen oder zweiwertigen Glaubenganz verzichten. Insbesondere spricht dafür, dass eine Schwellenwert-konzeption mit einem Schwellenwert q (z.B. mit 0,5<q<1) des Glau-bens uns wieder in die genannten Paradoxien zurückführt, wie sich derLeser leicht überlegen kann, denn wir müssten wiederum alle entspre-chenden Lose kategorisch für Nieten halten und trotzdem die Annahme,dass es alles Nieten sind, auf der kategorischen Ebene definitiv ableh-nen.

Schwellwertkonzeption des Glaubens:g(A) gdw P(A)>q (oder P(A)q)

Wählen wir dabei q=1 scheint das zu viel zu verlangen für einen be-gründeten Glauben. Dann wäre der gesamte Bereich zwischen 0 und 1als neutral anzusehen, aber einer Aussage gegenüber, der wir 99% Wahr-scheinlichkeit zubilligen, sollten wir unsere Einstellung wohl kaum alsneutral betrachten.

Doch was schadet es schließlich, wenn es dem Probabilisten nicht ge-lingt, von den subjektiven Wahrscheinlichkeiten zum dreiwertigen Glau-ben zurückzukehren? Dazu müssen wir ermitteln, welche Anwendungenwir für die Konzeption von akzeptierten Aussagen im Auge haben undwie der Probabilist nun damit umgehen kann. Zumindest ist ein guterTeil unserer alltäglichen Erkenntnistheorie und auch die klassische Sta-tistik im Rahmen einer Konzeption kategorischer Aussagen formuliertund funktioniert damit nicht schlecht. Insbesondere genügt es dann inunserem obigen Beispiel mit 64 Basisaussagen, 64 Einstufungen vorzu-nehmen und nicht 1019 Wahrscheinlichkeiten schätzen zu müssen. Lohntsich also der hohe Mehraufwand? Für die Situationen des Lotteriepara-doxes und des Vorwortparadoxes können wir auch im klassischen Rah-men zumindest Ad-hoc-Lösungen entwickeln. Zumindest kann der klas-sische Erkenntnistheoretiker auch mit objektiven Wahrscheinlichkeits-aussagen bzw. relativen Häufigkeiten operieren. Er glaubt im Lotteriefalletwa die Aussage: A Die Wahrscheinlichkeit dafür, dass ein Los eineNiete ist, beträgt 999/1000.

Akzeptierte Aussagen dienen u.a. dazu, bestimmte Dinge zu erklärenbzw. zu verstehen, aber vor allem für Vorhersagen und die sich daraufstützenden (rationalen) Entscheidungen und Handlungen. Wenn ich je-mandem eine Medizin verordne, dann ist das nur sinnvoll, wenn ichGründe zu der Vorhersage habe, dass die Nebenwirkungen erträglichsein werden und die Krankheit des Betreffenden dadurch geheilt werden

Page 240: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 228

wird. Überhaupt sind solche Vorhersagen, die als Grundlage für Hand-lungen bzw. unser Eingreifen in die Welt dienen, die wohl wichtigstenAufgaben für induktives Schließen bzw. das Begründen unserer Behaup-tungen. Dabei stützen wir uns typischerweise auf die Aussagen, die wirakzeptieren. Dafür müssen wir einen Punkt festlegen, ab dem wir Aussa-gen akzeptieren, um sie als Grundlage unserer Vorhersagen und Hand-lungen einzusetzen.

Der Probabilist wird nun sagen, dass eine bayesianische Entschei-dungstheorie statt des klassischen Ansatzes die optimalen Anknüpfungs-punkte für ein probabilistisch konzipiertes Überzeugungssystem dar-stellt; doch es stellt sich die Frage, ob das tatsächlich der Fall ist. Be-trachten wir ein Beispiel: Zu Anfang der 1980er Jahre gab es zweihauptsächliche Theorien zu der Entstehung von Magengeschwüren: 1.Stress führt zu einer Übersäuerung des Magens und die zu Magenge-schwüren, und 2. Bakterien (später Helicobacter Pylori genannt), diesich in der Magenschleimhaut eingenistet haben, führen zu einer Ent-zündung der Magenschleimhäute und einer Übersäuerung des Magensund so zu Magengeschwüren. Die erste Theorie empfiehlt gegen Gastri-tis und mögliche Magengeschwüre: Beruflich und privat kürzertreten.Die zweite Theorie empfiehlt dagegen eine Antibiotika-Therapie mitmehreren Antibiotika, da die Bakterien nur schwer auszurotten sind.Wie sollen wir im Fall unsicheren Wissens nun vorgehen? Nehmen wiran, die Theorien würden einander ausschließen und es wäre also nureine richtig. Außerdem sei die erste Theorie etwas schlechter gestütztund hätte nur noch eine Wahrscheinlichkeit von 0,3, während die zweiteeine Wahrscheinlichkeit von 0,7 aufwiese. Es sind nun mehrere Wegedenkbar, dieses Wissen zu nutzen. Nehmen wir an, wir könnten oderwollten nur eine der Therapien durchführen; sonst wäre ein einfacherVorschlag natürlich, einfach beides durchzuführen. Den könnte aller-dings der klassische Erkenntnistheoretiker genauso rechtfertigen. Eineweitere Möglichkeit bestünde rein theoretisch noch in der Mischung derTherapien, aber das sieht nicht besonders hilfreich aus, zumal eine nurzu 70% durchgeführte Antibiotika-Therapie sogar gefährlich wäre.

Die Doppeltherapie lässt sich nicht immer realisieren oder ist wegendoppelter Nebenwirkungen auch nicht sinnvoll. Dazu noch ein anderesBeispiel: Wenn wir eine bemannte Rakete zum Mond senden möchtenund haben dafür zwei unterschiedliche Gravitationstheorien (z.B. dieNewtonsche mit 1/x2-Gesetz und eine mit einem 1/x3-Gesetz) zur Verfü-gung, die nun unterschiedliche Wege und Vorgehensweisen für den Flugvorschlagen, so können wir im Normalfall nur einen der beiden Wege

Page 241: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

229 Thomas Bartelborth: Induktives Schließen

wählen und nicht beide einschlagen. Wir sind in einem solchen Falldann auf ein eindeutiges Entscheidungsverfahren festgelegt.

Gehen wir im Falle der Therapien nun so vor, dass wir die Theoriemit der höheren Wahrscheinlichkeit wählen (also in unserem Beispiel dieAntibiotikatherapie), so sind wir genau genommen wieder zu einem ka-tegorischen Ansatz zurückgekehrt. Wir wählen die am besten begründeteTheorie und entscheiden uns so, als ob sie die allein akzeptierte Theoriewäre. Dass die Konkurrenztheorie ebenfalls noch eine Wahrscheinlich-keit von 0,3 aufweist, spielt dann keine große Rolle mehr. Dann hättenwir im Prinzip bereits einen Übergang zu einer klassischen Konzeptionvon Überzeugungen vollzogen – etwa im Sinne einer Schwellenwertkon-zeption. Genauso würde der klassische Erkenntnistheoretiker vorgehen.Er würde sagen, lass uns die Theorie akzeptieren, für die die besserenBelege vorliegen und auf ihrer Grundlage entscheiden. Er kann genausoakzeptieren, dass es daneben noch Gründe gibt, die für die andere Theo-rie sprechen, aber wir müssen eben eine Gesamtabwägung vornehmen,etwa im Sinne eines umfassenden Kohärenzvergleichs.

Wenn der Probabilist hier auf einer eigenständigen Lösung besteht,müsste er uns neue Wege aufzeigen. Er könnte z.B. vorschlagen, dass wirin den betrachteten Fällen eine spezielle gemischte Strategie wählen. Diekann nun nicht so aussehen, dass wir die Therapien mischen – das wäreoffensichtlich Unsinn –, sondern muss in einer probabilistischen Mi-schung der beiden Handlungsoptionen bestehen; so wie wir das aus derSpieltheorie kennen. Demnach wäre die rationalste Lösung die, zunächstmit den entsprechenden Wahrscheinlichkeiten eine der beiden Thera-pien auszuwählen und dieser dann zu folgen. Also wir wählen etwa an-hand eines Losverfahrens mit Wahrscheinlichkeit 0,3 die Antistressthera-pie und mit Wahrscheinlichkeit 0,7 die Antibiotikatherapie.

Würde das dem Patienten (oder wenigstens dem Arzt) als rationalesVerfahren einleuchten? Oder dem Raumfahrer in einem Fall mit entspre-chenden Wahrscheinlichkeiten? Wohl kaum! Stellen wir uns vor, derArzt würde uns nach einem Losverfahren nur die Antistresstherapie ge-ben, obwohl es doch deutlich unwahrscheinlicher ist, dass sie erfolgreichist, bzw. der Raumfahrer müsste der schlechteren Theorie folgen undden Weg wählen, der ihn mit deutlich höherem Risiko ins Verderbenführt. Beide würden wohl auf dem besseren Weg bestehen. Die Auskunftdes Arztes, die bessere Therapie hätte ja auch die höhere Wahrschein-lichkeit gehabt, ausgewählt zu werden, und wäre dadurch schon ange-messen in unserer Entscheidung repräsentiert gewesen, müssten wir of-fensichtlich als Humbug abtun. Was nützt uns das noch, wenn das Los

Page 242: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 230

erst einmal auf die schlechtere Therapie gefallen ist? Sie ist jedenfalls füruns die schlechtere nach allem was wir wissen, denn die Theorie dazu istnach unserem Kenntnisstand schließlich deutlich schlechter begründet.

In der Spieltheorie sind gemischte Strategien bereits umstritten, aberdort haben sie noch einen guten Zweck. In Fällen, in denen unser Kon-trahent etwa nicht erfahren oder vorhersagen soll, was wir genau tunwerden, können wir das mit Hilfe eines Losverfahrens erreichen. Gibt esz.B. drei Routen für einen Geldtransporter und man möchte nicht, dassdie richtige Route den möglichen Räubern bekannt wird, dann ist es einsinnvolles Verfahren, die Route erst direkt vor der Abfahrt auszulosen.Dann kann die richtige Route nicht durchsickern oder vorherberechnetwerden. Wählen wir einfach die schnellste, so ließe sich das vorhersagenund der wichtigste Effekt wäre damit vielleicht verschenkt. Überhauptkönnten sich in jedem anderen Verfahren eher bestimmte Vorlieben desEntscheiders zeigen, die wiederum einem Kontrahenten als Anhalts-punkt dienen könnten und es ihm unter Umständen sogar erlauben wür-den, begründete Vorhersagen über eine bestimmte Routenwahl zu tref-fen.

In unseren obigen Entscheidungsbeispielen gibt es aber keinen sol-chen gegen uns kalkulierenden Gegner, den wir überlisten müssten,wenn wir nicht die Natur selbst als boshaft annehmen wollen. Somit ent-fällt der einzig triftige Grund für eine gemischte Strategie und damitsind wir an dieser Nahtstelle der Entscheidung aufgrund unserer Über-zeugungen doch wieder auf die klassische kategorische Position zurück-gefallen. Wir müssen eine Theorie als die deutlich bessere auswählenund werden ihr gemäß entscheiden.

Was passiert aber, wenn das nicht möglich ist, weil die Theorien etwabeide gleich gut bestätigt sind bzw. jeweils eine Wahrscheinlichkeit vonca. 0,5 aufweisen? Dann allerdings haben beide Ansätze kein geeignetesVerfahren mehr vorzuschlagen. Tatsächlich könnten wir nun eine Varian-te auswürfeln. Wir haben es hier mit dem neutralen Zustand zu tun.Aber das ist der Sonderfall, in dem wir über keine klaren Vorteile voneiner der Seiten mehr verfügen und auch hier sind wir nicht wirklich aufeine gemischte Strategie angewiesen, sondern könnten uns willkürlichfür eine der Seiten entscheiden. Genau genommen kommen wir daher indiesen Beispielen in unseren Entscheidungen doch wieder zu einem drei-wertigen Glaubensbegriff zurück und der Probabilist sollte auf eine Artvon Schwellenwertkonzeption dafür zurückgreifen, ab wann wir auf derGrundlage bestimmter Annahmen entscheiden sollten.

Page 243: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

231 Thomas Bartelborth: Induktives Schließen

Zunächst denkt man, dazu müssten wir ein q>0,5 als Schwellenwertfestlegen und uns dann nach einer Theorie T richten, sobald diese die-sen Wert überschreitet:

Schwellenwert für Glauben: P(T)q>0,5

Aber leider ist der Fall nicht so einfach. Zunächst könnte z.B. der Fallvorliegen, dass wir 7 konkurrierende Theorien haben mit folgender Ver-teilung:

P(T1) =...= P(T6) = 0,1 und P(T7) = 0,4

Nach welcher Theorie sollten wir uns in unseren Entscheidungen dannrichten? Wenn wir keine weiteren Überlegungen zur Verfügung haben,scheint T7 der klare Sieger zu sein, aber der liegt noch unterhalb von0,5. Er ist nur eben deutlich besser als alle Konkurrenten. Haben wir al-so Grund zu der Annahme, dass die wahre Theorie in unserer Liste da-bei ist, wäre die Wahl von T7 durchaus rational begründet. Die vorlie-gende Wahrscheinlichkeitsverteilung betont eine bestimmte Theorieoder hebt sie hervor. Das auszunutzen scheint in solchen Fällen unserbester Weg zu einer Entscheidung zu sein. Auch hier kehren wir genaugenommen zu einem kategorischen Urteil zurück, sobald wir eine Ent-scheidung treffen möchten. Allerdings ist diese Rückkehr zu einer kate-gorischen Konzeption in unserem Beispiel komplexer als es die einfacheSchwellenwertkonzeption darstellt. Außerdem spricht gegen die Schwel-lenwertkonzeption – wie schon erwähnt –, dass wir unsere Paradoxienletztlich zurückerhalten. Das löst bei Probabilisten natürlich keine Be-geisterung für eine Festlegung auf diese Konzeption aus.

Nicht nur die zahlreiche Konkurrenz führt uns manchmal zu Theo-rien mit Wahrscheinlichkeiten unterhalb von 0,5, die wir trotzdem ak-zeptieren, sondern auch die Tiefe der Theorien (wie Popper das nannte)kann das bedingen. Vor allem in der Wissenschaft suchen nach gehalt-vollen und erklärungsstarken Theorien (zumal nur die uns bei Entschei-dungen wirklich helfen können) und dann stoßen wir wieder auf dasProblem, dass diese keine ganz hohen Wahrscheinlichkeiten aufweisen.Wenn wir aus T etwa eine Reihe von voneinander probabilistisch unab-hängigen Daten E1,...,En ableiten können, so sollte eine Abschätzung wiedie folgende gelten (vgl. auch Kap. 5.3.9):

P(T) P(E1&...&En) = P(E1)...P(En)

Da auch die Daten selbst alle nicht sicher sind, wird somit die Theorieeine entsprechend niedrige Wahrscheinlichkeit aufweisen. Trotzdem

Page 244: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 232

möchten wir sie vielleicht als Entscheidungsgrundlage mit heranziehen.Also benötigen wir oft eine komplexere Entscheidungsregel als die einfa-che Schwellenwertkonzeption.

Das hat Probabilisten wie Mark Kaplan (2006) schon dazu geführt,keine einfachen Zusammenhänge zwischen Glaubensgraden und solchenkategorischen Entscheidungen mehr zu sehen. Aber das kann eigentlichnicht das Ziel der Probabilisten sein, denn sie sollten schließlich mitihrer neuen Erkenntnistheorie auch einen Anknüpfungspunkt für prakti-sche Anwendungen in der Hand haben.

Der einzige Fall, in dem wir mit der bayesianischen Entscheidungs-theorie einen Weg wählen können, der dem klassischen Erkenntnistheo-retiker versperrt bleibt, ist der, in dem wir für alle potentiellen nützli-chen und alle schädlichen Wirkungen einer Handlung genau Nutzenwer-te angeben können, die wir mit den Wahrscheinlichkeiten und gegenein-ander verrechnen können, um so zu einer Handlungsempfehlung zu ge-langen. Haben die beteiligten Medikamente etwa beachtenswerteNebenwirkungen, und auch ihre Hauptwirkungen treten nur mit be-stimmten Wahrscheinlichkeiten ein, und können wir diese Wirkungenmit Nutzenwerten versehen, so können wir im Sinne der rationalen Ent-scheidungstheorie entsprechende Verrechnungen vornehmen, und be-trachten dann den Erwartungsnutzen als das Entscheidungskriterium –jedenfalls dann, wenn wir den Nutzen in objektiver Weise quantifizierenkönnen.

Viele Vertreter der klassischen Erkenntnistheorie werden hier aller-dings generelle Bedenken gegen die bayesianische Entscheidungstheoriemit ihren subjektiven Schätzungen der Wahrscheinlichkeiten anmeldenund eine entsprechende Entscheidungstheorie mit objektiven Wahr-scheinlichkeiten bevorzugen. Außerdem werden sie einwenden, dass wirin vielen Fällen wie den obigen kaum sinnvolle gegeneinander verre-chenbare Nutzenwerte angeben können.

Zunächst zur bayesianischen Entscheidungstheorie: Haben wir dieHandlungsoptionen h1,...,hm und können jeweils Wahrscheinlichkeitenwij dafür vergeben, dass eine der Konsequenzen k1,...,kn auftritt, die füruns bestimmte Nutzenwerte u(ki) aufweisen, so können wir den folgen-den Erwartungswert für den Nutzen u bilden:

Erwartungsnutzen: EU(hi) = j wij u(kj)

Die bayesianische Entscheidungstheorie rät uns dann: Wähle die Hand-lung hi mit dem höchsten Wert E(hi). Hier werden alle Nutzen- bzw.Schadenswerte mit der Wahrscheinlichkeit gewichtet, dass sie auftreten

Page 245: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

233 Thomas Bartelborth: Induktives Schließen

werden, und diese Wahrscheinlichkeiten sollten sich aus unserem proba-bilistischen Entscheidungsmodell ergeben (vgl. Kap. 5.6.1).

Der klassische Erkenntnistheoretiker kann natürlich solche Abwägun-gen auf etwas andere Weise ebenfalls durchführen und dafür plädieren,in dem Ausdruck auf der rechten Seite objektive Wahrscheinlichkeitenbzw. nach objektiven Regeln geschätzte objektive Wahrscheinlichkeiteneinzusetzen. Weiterhin wird er nicht unbedingt die subjektiven Wahr-scheinlichkeiten dadurch aufgewertet sehen, dass sie sich nun mit einemanderen problematischen Begriff (dem des Nutzens) verrechnen lassen.Seine Ableitung aus bestimmten Präferenzen bietet ebenfalls zahlreicheUnklarheiten und neue Schwierigkeiten (vgl. etwa Nida-Rümelin &Schmidt 2000). Insbesondere müssen wir hier wieder auf die Problememit der Bestimmung der Glaubensgrade hinweisen. Bereits dort sind wirauf Nutzenwerte angewiesen und können eine gegenseitige Anpassungmit Nutzenwerten vornehmen (s.u.).

Die Glaubensgrade drohen damit eher zu etwas Praktischen zu wer-den als zu einem grundlegenden Bestandteil der Erkenntnistheorie, wasebenfalls ihren subjektiven Charakter betont. Sie beschreiben dann nichtmehr, wie stark ein bestimmtes Hintergrundwissen eine Überzeugungstützt, sondern eher, als wie nützlich wir bestimmte Überzeugungen er-achten. Doch das sollte sich nach Ansicht des klassischen Erkenntnis-theoretikers besser andersherum ausrechnen lassen. Wir bestimmen zu-nächst, für welche Überzeugungen wir gute Gründe haben, und die soausgewählten Überzeugungen entscheiden dann, welche Konsequenzenund damit welchen Nutzen bestimmte Handlungen wohl mit sich brin-gen werden. Wir werden außerdem sehen, dass bereits bei der Bestim-mung von Nutzenwerten und subjektiven Wahrscheinlichkeiten gegen-seitige Verrechnungen möglich sind, die diese Art von subjektiven Wahr-scheinlichkeiten für einen klassischen Erkenntnistheoretiker suspekt er-scheinen lassen.

Auch für den klassischen Ansatz können (wie gesagt) durchaus Wahr-scheinlichkeiten ins Spiel kommen, aber nur auf der objektsprachlichenEbene der Aussagen, die wir jeweils akzeptieren oder zurückweisen. Sokönnen wir als klassische Erkenntnistheoretiker z.B. die Aussage akzep-tieren, dass jemand mit einer bestimmten Krankheit eine Wahrschein-lichkeit von 0,3 hat, daran zu sterben, wie wir das schon im statistischenSyllogismus gesehen haben. Diese Wahrscheinlichkeit kann dann auch ineine Nutzenkalkulation eingehen, sofern man diese in solchen Fällen fürsinnvoll hält, und weitere Wahrscheinlichkeiten auf der Metaebene dar-über, wie wahrscheinlich diese Aussage wiederum ist, sind dann unnötig.

Page 246: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 234

Klassische Erkenntnistheoretiker können so ebenfalls Aussagen über ob-jektive Häufigkeiten oder Wahrscheinlichkeiten nutzen, wie z.B. die fol-genden: Etwa 60% der an Y Erkrankten sind nach Behandlung mit Me-dikament M genesen und in 30% der Fälle sind schwere Nebenwirkun-gen aufgetreten. Dann kann eine Nutzenabwägung mit objektiven Wahr-scheinlichkeiten erfolgen, die der klassische Erkenntnistheoretiker einermit subjektiven Wahrscheinlichkeiten für die jeweils dahinterstehendenTheorien vorziehen wird. Die Debatte, welcher Ansatz für unsere Ent-scheidungen und Handlungen der geeignetere ist, ist zumindest nichtklar zugunsten der Probabilisten entschieden, wie diese das gern behaup-ten. Denken wir dazu daran, wie gut kategorische Überzeugungen inunserer Alltagspsychologie verankert sind und welche Probleme die Pro-babilisten haben etwa mit der großen Anzahl der Glaubensgrade undden zahlreichen Paradoxien der bayesianischen Entscheidungstheorie.Beide Ansätze haben somit Licht- und Schattenseiten.

Insbesondere sind wir mit den kategorischen Überzeugungen sehrvertraut und verbinden sie leicht mit unseren Entscheidungen, währendder Probabilist hier weiter zu zeigen hat, ob das mit Glaubensgradenebenso gut oder sogar besser gelingen kann. Der Arzt wird jedenfallsnach einem Konsens verlangen, der bestimmte Behandlungsmethodenals die richtigen auszeichnet, und kann kaum etwas mit der Auskunft an-fangen, wir hätten stattdessen eine komplizierte Wahrscheinlichkeitsver-teilung auf unterschiedlichen Hypothesen zu dieser Krankheit. Wir allewerden vermutlich an dieser Stelle eine Form von Rückkehr zu der klas-sischen Überzeugungskonzeption erwarten. Der Probabilist wird nocheinige Überzeugungsarbeit zu leisten haben, bis wir in diesem Punktneue Wege bevorzugen werden. Eine weitere Frage ist außerdem, wasGlaubensgrade überhaupt sind. Das Konzept erscheint zunächst als sehranschaulich und klassische Probabilisten hielten es daher für einfachoperationalisierbar. Doch diese Hoffnung erwies sich als trügerisch(s.u.).

Weisberg (2010) diskutiert auch noch andere Ansätze wie den einerfriedlichen Koexistenz beider Begriffe. Doch er verweist zu Recht dar-auf, dass die Frager nach dem Zusammenhang beider Konzepte dadurchnicht wirklich zum Schweigen gebracht werden können. Natürlich musses einen Zusammenhang geben, wenn beide Konzepte etwas mit demEntscheidungsverhalten von Menschen zu tun haben und als Grundlagefür weitere Inferenzen dienen sollen.

Page 247: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

235 Thomas Bartelborth: Induktives Schließen

5.3.3 Was sind Glaubensgrade?Probabilisten versuchen vor allem deshalb das Konzept der Glaubensgra-de zu operationalisieren, um es uns dadurch als unproblematisch verkau-fen zu können. Doch solche Operationalisierungen sind selbst unterBayesianern keineswegs unumstritten. Allerdings haben sie eine langeTradition innerhalb des Bayesianismus, weshalb wir sie in jedem Fall ge-nauer unter die Lupe nehmen müssen. Die Grundidee besagt, dass dieGlaubensgrade bestimmte Auswirkungen auf unser Verhalten haben soll-ten, ähnlich wie die zweiwertigen Überzeugungen. Natürlich vertrauenwir den Aussagen mehr, die einen höheren Glaubensgrad aufweisen. DieFrage bleibt dann aber, wie sich der genaue Glaubensgrad in unseremVerhalten manifestieren kann. Der Trick ist darauf zu schauen, welcheWettquoten auf eine Behauptung A jemand gerade noch akzeptierenwürde bzw. welche er für fair hält. Die sollen dann seinen Glaubensgradfür A festlegen. Für de Finetti (1990) ergibt sich P(A) wie folgt:

Glaubensgrad: Glaubensgrad(A)=P(A)=r soll der Glaubensgrad vonA sein gdw. man einen Einsatz von r Euro für eine Wette auf A fürfair hält, die 1 Euro bei Gewinn auszahlt.

Allgemeiner ergibt sich: Wenn man gerade noch r gegen s auf A wet-tet, dann ist die subjektive Wahrscheinlichkeit P(A)=r/r+s.

Das ist so gedacht, dass wir den Wettquotienten (r zu s) als fair betrach-ten, bei dem wir bereit sind, beide Seiten zu übernehmen. Das ist alsogenau der Betrag, bei dem der Wunsch, die Wette auf A einzugehen, inden Wunsch übergeht, auf ~A zu setzen. Diese Stelle identifiziert so dasAusmaß, in dem wir an A glauben. Zahlen wir beispielsweise geradenoch 0,5 Euro für die Wette mit Auszahlung 1 Euro, so geben wir demAuftreten von A genau eine 50-prozentige Chance; daher ist der Erwar-tungswert der Wette gerade 0,5 Euro, was wir eben noch zu bezahlenbereit wären. Halten wir dagegen 0,9 Euro für die Wette für angemes-sen, erscheint uns das Auftreten von A so wahrscheinlich (nämlichP(A)=0,9), dass wir im Durchschnitt eine Auszahlung bei Wetten dieserArt von 90 Cent erwarten. Das geht aber nur, wenn diese Wette auch in9 von 10 Fällen tatsächlich zur Auszahlung kommt. Das bedeutet abergerade, dass A für uns eine Wahrscheinlichkeit von 0,9 besitzt. Für unsist also ein Wettquotient fair, wenn bei entsprechenden Wetten der Er-wartungswert der Wette sich genau mit unserem Einsatz deckt, d.h.,wenn wir im Durchschnitt bei solchen Wetten weder Gewinne noch Ver-luste zu verzeichnen haben.

Page 248: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 236

Im Folgenden werde ich meist von Wetten ausgehen, die im Gewinn-fall 10 Euro auszahlen. Das ist schön übersichtlich. Bin ich bereit, 6Euro dafür zu bezahlen (also 6:4 zu wetten), so erwarte ich, dass ich dieWette im Durchschnitt in 60% der Fälle gewinne (habe also einen Glau-bensgrad von 0,6 für den Gewinn der Wette). Für 10 Spiele müsste ichdann 60 Euro setzen und würde davon ungefähr 6 gewinnen und bekä-me so auch 60 Euro wieder heraus – jedenfalls im Mittel. Das belegtnoch einmal, was mit einer fairen Wette gemeint ist. Das ist eine Wette,bei der im Durchschnitt (bzw. im Erwartungswert) keine Seite einen Vor-teil hat.

Der intuitive Zusammenhang sollte klar geworden sein. Umgekehrtergibt sich dann der folgende Zusammenhang von Glaubensgraden undWettquoten:

Faire Wettquoten: Wenn mein Glaubensgrad für A gerade P(A)=r ist,so betrachte ich die Wettquotienten von r zu 1–r als fair und wäredemnach bereit, bis zum Betrag r auf A gegen 1–r zu setzen und ober-halb von 1–r (bzw. ab 1–r) auf ~A zu setzen.

Auch hier ist wieder gemeint, dass nur die Zahlenverhältnisse zählenund nicht die Höhe der Einsätze. Bei P(A)=r wäre ich also genauso be-reit r106 Euro gegen (1–r)106 Euro zu setzen.

Erste Probleme mit diesem Ansatz sind offensichtlich. Zunächst zähltdabei nur die Wettquote und nicht z.B. die Höhe der Einsätze, doch dasist eher unrealistisch. Nehmen wir an, ich glaube, dass Deutschland eineChance von 33% hat, der nächste Fußballweltmeister zu werden. Sollteich dann mein ganzes Vermögen oder eine Million Euro darauf wetten?Selbst wenn ich dabei über 2 Millionen gewinnen könnte, käme mir dasunsinnig vor. Aber ich würde auch nicht von der anderen Seite her die 2Millionen dagegen setzen wollen. Damit würde ich schließlich meineganze Existenz aufs Spiel setzen. Warum sollte man eine solche Wetteeingehen? Dazu muss man wohl schon ein Hasardeur sein. WelchenGlaubensgrad habe ich dann für die Aussage A: „Deutschland wird dernächste Fußballweltmeister.“? Das scheint auf diesem Weg nicht zu klä-ren zu sein.

Beschränken wir den Einsatz daher lieber auf kleinere Beträge. Erhal-ten wir denn dann unseren Glaubensgrad anhand unseres Wettverhal-tens? Nicht unbedingt. Wir müssen z.B. unterscheiden zwischen Perso-nen, die Spaß am Wetten haben und solchen, die das nicht haben oder essogar vehement ablehnen. Wer gerne wettet, ist vielleicht schneller dazubereit, auf bestimmte Wetten einzugehen, ich bin das z.B. nicht. Warum

Page 249: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

237 Thomas Bartelborth: Induktives Schließen

sollte ich mein mühsam verdientes Geld beim Wetten aufs Spiel setzen,selbst wenn ich gewisse Chancen habe, etwas dabei zu verdienen? DieseEinstellung darf aber nicht schon ausschließen, dass ich über Glaubens-grade verfüge.

Spieltheoretiker diskutieren dazu noch besondere Situationen. Neh-men wir an, wir sind in einer Nachbarstadt und haben nur noch 12Euro, benötigen aber 20 Euro für eine Rückfahrkarte und haben keineEC-Karte oder Ähnliches dabei und müssten daher einen weiten Wegnach Hause laufen. Nun wird eine Münze geworfen (die wir z.B. für fairhalten), und wir können darauf setzen, dass Kopf kommt (A). Dann wä-ren wir vermutlich bereit, unsere 12 Euro gegen 10 Euro auf Kopf zusetzen. Genauso wären wir aber auch bereit, unsere 12 Euro gegen 10Euro auf Zahl (also nicht-Kopf) zu setzen. Was ist dann unsere Wettquo-te? (55% für Kopf und 55% für Zahl?) Wir wären sogar bereit, auch 14Euro gegen 6 Euro zu setzen, wenn wir denn 14 Euro hätten oder sogarnoch schlechtere Kurse zu akzeptieren. Das oben genannte Messverfah-ren scheint hier nicht mehr richtig zu funktionieren.

Um mit solchen Fällen besser umgehen zu können, wird normaler-weise ein weiteres Konzept nämlich der Nutzenbegriff eingeführt. Eszählt für uns nicht einfach nur der Geldbetrag, sondern vielmehr derNutzen oder Wert, den der Betrag jeweils für uns hat. Der steigt in die-sem Beispiel genau bei 20 Euro stark an. Außerdem kommt hier nocheine Budgetgrenze ins Spiel. Mit Hilfe eines Nutzenbegriffs könnten wirwomöglich wieder begründen, dass unser Glaubensgrad an A 0,5 sei.Das könnte man etwa aus der Symmetrie der Situation erschließen. Al-lerdings könnten wir auch tatsächlich der Meinung sein, dass die Münzeunfair ist und z.B. nur eine Wahrscheinlichkeit von 0,4 besteht, dassKopf kommt, und das wäre in diesem Fall unser tatsächlicher Glaubens-grad an A. Der würde sich durch das genannte Messverfahren aberkaum ermitteln lassen, weil die Situation immer noch symmetrisch blie-be. Wir wären weiterhin bereit, auf oder gegen A ähnlich extreme Wett-quoten zu akzeptieren. Es bleibt also hier in jedem Fall ein Problem fürdie Bestimmung des korrekten Glaubensgrades zurück. Dabei zeigt sichinsbesondere, dass die Wettquote nun von nicht-epistemischen Aspektenmitbestimmt wird und sicher nicht mit unserem Glaubensgrad zu identi-fizieren ist. Selbst als Messverfahren taugt die Wettquote in diesem Fallnicht mehr.

Außerdem ist der Nutzenbegriff seinerseits wieder schwer bestimm-bar, so dass in einigen Ansätzen Nutzen und subjektiven Wahrscheinlich-keiten zugleich anhand unseres Verhaltens erraten werden müssen. Da-

Page 250: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 238

mit kommt eine weitere Variable ins Spiel, die eigentlich nicht direkt mitunserem rein epistemischen Glaubensgrad zusammenhängt. Es zeigt sichwiederum, was wir eigentlich schon wissen sollten, nämlich dass Opera-tionalisierungen nicht wirklich funktionieren.

Verfügen wir bereits über Glaubensgrade, dann lassen sich die Nut-zenwerte noch einigermaßen gut anhand unserer Präferenzen empirischermitteln (vgl. Ramsey 1931). Nehmen wir an, wir hätten bestimmteHandlungen Ai, die mit bestimmten Wahrscheinlichkeiten P(Ai) zu be-stimmten Konsequenzen etwa k, l, m führen (z.B. in Abhängigkeit da-von, welche der Situationen Sj auftritt, was eben mit der entsprechendenUnsicherheit behaftet ist). Nehmen wir außerdem an, wir könnten aufder Menge der Konsequenzen eine Präferenzrelation „<“ (die u.a. voll-ständig und transitiv ist) ermitteln, wonach k<l besagt, dass ich die Kon-sequenz l der Konsequenz k gegenüber vorziehe. Nehmen wir weiterhinan, ich hätte zwei recht extreme Konsequenzen k und m ermittelt, sodass für die meisten meiner Konsequenzen l gilt: k<l<m. Dann kannich eine Nutzenfunktion für diese Konsequenzen einführen, indem ichzunächst u(k)=0 und u(m)=1 wähle. Das soll meine Normierung für dieNutzenfunktion sein. (Andere Nutzenfunktionen u’ mit anderen Rand-werten können sich etwa durch affine Transformationen daraus ergeben:u’=au+b, mit reellen Zahlen a und b, wobei gilt a>0.) Jedenfalls kannich dann auf folgende Weise einen Nutzenwert u(l) festlegen. Ich bietedazu zwei Lotterien an: L1 (man erhält in jedem Fall l) und L2 (man er-hält k mit Wahrscheinlichkeit p und m mit Wahrscheinlichkeit 1−p).Dann variiere ich p so lange, bis eine Indifferenz zwischen L1 und L2 vor-liegt. Das interpretiere ich so, dass der erwartete Nutzen von L1 und L2derselbe ist:

u(L1) = u(l) = u(L2) = pu(k)+(1–p)u(m) = 1–p

Also wähle ich einfach u(l)=1–p und erhalte damit eine Nutzenfunktion,die tatsächlich einen Zusammenhang zwischen Nutzenwerten und sub-jektiven Wahrscheinlichkeiten herstellt. So versucht man manchmal, em-pirisch bestimmte Nutzenwerte zu ermitteln.

Doch im allgemeinen Fall, in dem weder Nutzenfunktion noch Wahr-scheinlichkeiten vorliegen, müssen wir beide Funktionen zugleich ausden Präferenzen bestimmen. Dazu sind recht starke – und oft unrealis-tisch starke – Anforderungen an die Präferenzen auf der Menge derHandlungen A, B, ... zu stellen, denn erst dann erhalten wir ein entspre-chendes Repräsentationstheorem (vgl. Gintis 2009, Kap. 1). Handlun-gen sollen schließlich anhand ihres Erwartungsnutzens beurteilt werden:

Page 251: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

239 Thomas Bartelborth: Induktives Schließen

Erwartungsnutzen: EU(A) = i u(A,Si) p(Si)

Dabei gibt u(A,Si) den Nutzen an, den die Handlung A hat, wenn die Si-tuation Si eintritt und p(Si) die subjektive Wahrscheinlichkeit dafür, dassSi eintritt. Bei hinreichend starken Anforderungen F an die Präferenzen-funktion (u.a. Transitivität und Vollständigkeit) ergibt sich dann dasTheorem:

Repräsentationstheorem: Wenn „<“ die Forderungen F erfüllt (hiernicht weiter ausgeführt), dann gibt es genau ein Paar von Funktionen(u,p), wobei p eine Wahrscheinlichkeit darstellt, so dass für alleHandlungsoptionen A und B gilt:A<B gdw. EU(A) < EU(B).

Doch die rationale Entscheidungstheorie führt zu vielen neuen Proble-men und Paradoxien, in denen unser Verhalten systematisch von denVorhersagen der Theorie abweicht, die wir hier aber nicht ausführlichbehandeln können. Jedenfalls zeigen die vielen Paradoxien, dass auchdiese Idee keineswegs unproblematisch ist (vgl. Gintis 2009), weil dieAnforderungen F normalerweise nicht erfüllt sind. Geld war dagegen zu-nächst ein viel greifbareres Gut als die Nutzenwerte, das auch in allge-meiner Weise wertvoll ist. Es bietet von daher einen guten intuitiven Zu-gang zu unserem Wettverhalten. Wir wollen im Weiteren einfach davonausgehen, dass unsere Wettsituationen eben keine solchen Besonderhei-ten wie in unserem letzten Beispiel aufweisen und wir daher ohne spe-zielle Nutzenfunktionen arbeiten dürfen.

Außerdem hat Lyle Zynda (2000) gezeigt, dass statt durch (u,p) unse-re Präferenzen ebenso durch andere Funktionen (u*,p*) repräsentiertwerden können, wobei wir nur die Annahme aufgeben müssen, dass p*Glaubensgrade repräsentiert, die sich additiv verhalten und damit nachden Wahrscheinlichkeitsaxiomen richten. Lassen wir auch andere Glau-bensgrade zu und setzen nicht an dieser Stelle bereits voraus, dass sichunsere Glaubensgrade an den Wahrscheinlichkeitsaxiomen orientieren,können wir neue Funktionen für den Erwartungsnutzen EU* einführen,indem wir einfach eine Funktion eine beliebige nichtverschwindendeFunktion f(A,Si) einführen, womit wir erhalten:

EU(A) = EU*(A) = i [u(A,Si)f(A,Si)] [p(Si)/f(A,Si)]

Dann ergeben sich neue Nutzenfunktion u*=fu (s. erste eckige Klam-mer) und p*=p/f (s. zweite eckige Klammer). Lassen wir also nicht-addi-tive Glaubensgrade zu, für die wir z.B. Vorbilder in der Fuzzy-Logikoder anderen Ansätzen finden, so geht die Eindeutigkeit verloren und

Page 252: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 240

damit liefert noch nicht einmal das Repräsentationstheorem mehr ein-deutige subjektive Wahrscheinlichkeiten. Unser Wettverhalten lässt sichalso auf unterschiedliche Weise interpretieren, und für die Wahrschein-lichkeitsaxiome als Rationalitätspostulate für unsere Glaubensgrademuss der Probabilist schließlich erst noch argumentieren.

Weiterhin bleiben die Fragen nach Glaubensgraden besonders proble-matisch, in denen jemand nach wissenschaftlichen Theorien fragt. Neh-men wir etwa: A Die Quantenmechanik ist wahr. Wie viel sollten wirauf A setzen? Wetten auf A erscheinen schon deshalb nicht besonderssinnvoll, weil die Wahrheit von A nicht endgültig nachgewiesen werdenkann (vgl. Earman 1992, Kap. 2.4). Eher schon könnte man feststellen,dass A falsch ist. Man denke hier an Poppers Überlegungen zur Falsifi-zierbarkeit. Da die Wette aber vermutlich niemals und jedenfalls nicht zuunseren Lebzeiten positiv für uns ausgehen kann, sollten wir lieber nichtauf A wetten. Zeigt das schon, dass wir ein Skeptiker gegenüber derQuantenmechanik sind? Wohl kaum. Gerade für unsere intendierten An-wendungsfälle in der Wissenschaft haben wir also besondere Probleme,das Operationalisierungsverfahren anzuwenden. Allgemein kann man sa-gen, dass Aussagen mit gemischter Quantorenstruktur (wie z.B. xyHxy), wobei die Quantoren über einen potentiell unendlichen Bereichlaufen, normalerweise weder verifizierbar noch falsifizierbar sind. Inwie-fern ist es dann vernünftig oder auch nur sinnvoll darauf zu wetten?

Auch wenn man Wissenschaftler, die über bestimmte Theorien gesagthaben, sie seien sehr wahrscheinlich wahr, danach fragt, welche Wahr-scheinlichkeit sie ihnen beimessen würden, weigern die sich meist stand-haft, eine konkrete Zahl zu nennen. Nun könnte man das sicher ein we-nig erleichtern, indem wir auch Intervalle zuließen oder sogar Fuzzy-Mengen von Wahrscheinlichkeiten, doch eigentlich wollten wir unsereepistemischen Unsicherheiten bereits durch die Punkt-Wahrscheinlich-keiten zum Ausdruck bringen und nicht noch auf weitere Hilfsmittel zu-rückgreifen. Solche zusätzlichen Ausdrucksmöglichkeiten würden unse-ren ganzen Kalkül jedenfalls erheblich erschweren (vgl. etwa den Demp-ster-Shafer-Ansatz u.a. in Beierle & Kern-Isberner 2008, Kap. 13). Blei-ben wir daher bei Punkt-Wahrscheinlichkeiten als hinreichenden Ideali-sierungen. In jedem Fall stellen die wissenschaftlichen Theorien einenProblemfall für Glaubensgrade dar, den wir weiter im Auge behaltensollten.

Patrick Maher (2006) (früher selbst ein subjektiver Probabilist heuteeher ein Vertreter der induktiven Logik) wendet gegen die Operationali-sierungsversuche ein, dass beim Wetten viele artfremde Gesichtspunkte

Page 253: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

241 Thomas Bartelborth: Induktives Schließen

ins Spiel kommen können. Gesichtspunkte, die nicht direkt verknüpftsind mit unseren epistemischen Einstellungen, sondern eher einen prak-tischen Charakter haben. Möchte ich mich etwa selbst motivieren, nunmit dem Rauchen aufzuhören, setze ich vielleicht einen hohen Betraggegen einen kleinen, dass ich die nächsten 12 Monate clean bleiben wer-de. Doch das zeigt womöglich nicht, dass ich von meinem Erfolg tat-sächlich sehr überzeugt bin, sondern hat vielmehr nur die Absicht, es et-was wahrscheinlicher zu machen, dass ich auch durchhalte. Der hoheBetrag ist hier vermutlich eher ein Indiz dafür, dass ich eigentlich nichtglaube, es zu schaffen und nun eine zusätzliche starke Motivation dafürbenötige. Hier gehen unsere Wünsche ein in die Gestaltung der Wettenund in die Höhe der Wettbeträge.

Außerdem müssen wir noch eine weitere Unterscheidung berücksich-tigen: Das Wettverhalten könnte zum einen als mehr oder weniger gutesMessverfahren für Glaubensgrade gedacht sein, die eigentlich nicht wei-ter definiert werden können, sondern einen Grundbegriff (einen theore-tischen Term etwa) darstellen sollen. Dann bleibt allerdings weiter dieFrage offen, was denn Glaubensgrade sind. Oder das Wettverhaltendient als echte Operationalisierung in dem Sinne, dass es uns tatsächlichsagt bzw. definiert, was ein Glaubensgrad ist. Bei de Finetti und vielenanderen Probabilisten dürfen wir wohl davon ausgehen, dass sie voneiner echten Definierbarkeit ausgingen. Doch das kommt uns ganz be-sonders unplausibel vor, denn wir treffen hier auf die zahlreichen Ein-wände gegen den Operationalismus und im Speziellen gegen den logi-schen Behaviorismus, der versucht hat, intentionale Zustände durch Ver-haltensmuster zu definieren (vgl. Eriksson & Hajek 2007).

Eriksson und Hajek (2007) haben noch einige weitere Problemeeiner derartigen Operationalisierung zusammengestellt. Normalerweiseerwarten wir von Messgeräten, dass ihre Messungen auch fehlerbehaftetsein können, doch das ist für den Operationalisten unmöglich, denn dieMessung definiert gerade die gesuchte Größe. Wir würden eigentlich er-warten, dass die Glaubensgrade ein bestimmtes Verhalten erzeugen undhervorrufen und dabei Fehler z.B. durch Fehlschätzungen der Nutzen-werte auftreten können, doch das ist für einen Operationalisten ausge-schlossen. Speziell die Einwände gegen einen logischen Behaviorismuskommen hier ebenfalls zum Tragen. Die besagen z.B., dass Schmerznicht einfach identifizierbar ist mit einem bestimmten Schmerzverhalten,denn Putnams Superspartaner könnte das Schmerzverhalten unterdrü-cken, obwohl er Schmerzen hat, oder ein guter Schauspieler kann sievortäuschen, obwohl keine Schmerzen vorliegen. Ein Stück weit können

Page 254: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 242

wir das alle, und das zeigt wiederum, dass wir Schmerzen haben nichtmit unserem Schmerzverhalten identifizieren dürfen, und ebenso wenigkönnen wir Glaubensgrade mit einem bestimmten Wettverhalten identi-fizieren. Die Spieler einer Mannschaft wetten vielleicht auf ihren Ge-winn, um damit ihre Loyalität der Mannschaft gegenüber und ihre Ein-satzbereitschaft zu signalisieren. Das mag durchaus vernünftig sein, istaber keineswegs ein zuverlässiger Gradmesser für ihre Glaubensgrade.

Außerdem dürfte klar sein, dass wir normalerweise bereits immerGlaubensgrade zuschreiben müssen, obwohl der Betreffende keine tat-sächlichen Wetten abgeschlossen hat. Das Wettverhalten, auf das wir unsbeziehen, wenn wir von Glaubensgraden sprechen, ist nur ein hypotheti-sches. Wir würden wohl bestimmte Wetten abschließen, wenn wir be-stimmte Glaubensgrade aufwiesen. Man denke dazu noch an die extremgroße Zahl von Wetten, die wir benötigen, um unsere Glaubensgrade zumanifestieren. Den Aktualisten kann das zumindest nicht zufriedenstel-len. Hier werden hypothetische Glaubensgrade durch hypothetischeWetten definiert. Dazu kommen die vielen Abweichungen, die selbstunser vernünftiges Wettverhalten von unseren Glaubensgraden trennen,denn es gibt viele nicht epistemische Aspekte beim Wetten zu berück-sichtigen. Das zeigen inzwischen zahllose Beispiele.

Eriksson und Hajek (2007) plädieren daher schließlich dafür, dieGlaubensgrade als Grundbegriff zu betrachten, der sich eben nicht defi-nieren oder anderweitig auf grundlegendere Begriffe reduzieren lässt.Unser Wettverhalten in bestimmten Situationen mag eine erste approxi-mative Messung dafür abgeben, aber die Glaubensgrade sind nicht soeinfach und intuitiv wie der Name vielleicht suggeriert. Allerdings istdieser Schritt nicht ganz so unproblematisch, wie die beiden Autorendenken, denn die Analogien, die Eriksson und Hajek zu anderen basalenempirischen Konzepten in der Wissenschaft sehen, sind nicht unbedingtüberzeugend, weil diese Konzepte vor allem dadurch gerechtfertigt sind,dass sie in empirischen Theorien ihre Erklärungskraft unter Beweis stel-len. Doch für die subjektiven Wahrscheinlichkeiten ist nicht so klar, obsie tatsächlich zu Erklärungszwecken taugen. Die Psychologie setzt nachvielen negativen empirischen Resultaten zumindest nicht mehr allzu gro-ße Hoffnungen in die rationale Entscheidungstheorie (oder die Wert-Er-wartungstheorie, wie sie in der Psychologie genannt wird) als erklären-der Theorie (vgl. a. Gintis 2009). Sie ist wohl eher eine normative Theo-rie rationalen Entscheidens. Dann hinken allerdings die Analogien zuden basalen empirischen Begriffen in der Wissenschaft erheblich.

Page 255: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

243 Thomas Bartelborth: Induktives Schließen

Von den genannten Problemen sind ebenso die Dutch-Book-Argu-mente betroffen, die eine zentrale Stellung für den Probabilisten einneh-men. Ohne gute Gründe dafür, dass vernünftige Glaubensgrade denWahrscheinlichkeitsaxiomen gehorchen müssen, lässt sich der ganze Ap-parat der Wahrscheinlichkeitsrechnung nicht ins Spiel bringen. Für denneuen Grundbegriff der Glaubensgrade wird letztlich also seine theoreti-sche Fruchtbarkeit für die Erkenntnistheorie sowie seine Erklärungskraftim Rahmen von Handlungserklärungen ausschlaggebend sein. Wir wer-den uns hier nur mit der erkenntnistheoretischen Seite beschäftigen undmüssen am Ende des Kapitels beurteilen, wie erfolgreich insbesondereder Bayesianismus in diesem Feld ist.

Zunächst müssen wir im Gedächtnis behalten, was der Probabilist an-nimmt. Er geht davon aus, dass wir für alle Überzeugungen und dieKombinationen daraus Glaubensgrade besitzen. Selbst für recht abstrak-te Theorien aus der Wissenschaft nimmt er solche Glaubensgrade an.Diese Annahmen haben einen empirischen und einen normativen Aspektund beide sind nicht immer strikt voneinander zu trennen. Der empiri-sche besagt, dass wir unsere Überzeugungssysteme durch Glaubensgraderepräsentieren können und dadurch in die Lage versetzt werden, vielezumindest große Teile unseres Entscheidungsverhaltens zu erklären undnach Möglichkeit sogar vorherzusagen. Das bleibt sicher – trotz derzahlreichen Rückschläge – weiter ein spannendes Gebiet der empiri-schen Forschung, auf das ich hier aber nicht weiter eingehen kann. Dernormative Aspekt besagt, dass wir mit Hilfe der Glaubensgrade beson-ders gut unsere epistemische Situation modellieren können. Dadurchkönnen wir schließlich Konzepte wie Rechtfertigung und Wissen oderneue Ersatzbegriffe dafür explizieren, die helfen, unsere epistemische Si-tuation zu erhellen, und uns Hilfen dafür geben, wann wir uns auf be-stimmte Behauptungen in unseren Entscheidungen stützen dürfen bzw.stützen sollten. Hier geht es also mehr um die normative Frage, was wirunter einem vernünftigen Entscheidungsverhalten zu verstehen habenbzw. wie wir uns verhalten sollten. Das verweist auf ein weiteres Pro-blem der Operationalisierung. Sie dient bestenfalls dazu, die tatsächli-chen Glaubensgrade einer Person zu messen, aber das sind nicht unbe-dingt die rationalen Glaubensgrade, die wir ihr zuschreiben sollten,wenn wir sie rationalisieren. Auf das Problem kommen wir wieder zu-rück.

Außerdem trennen wir meist die kognitiven von den volitionalen As-pekten des Entscheidens. Oft nehmen wir sogar an, dass es für unsereÜberzeugungen bzw. Glaubensgrade begründete Rationalitätsanforde-

Page 256: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 244

rungen gibt, während unsere Wünsche dem nicht unterliegen. Sie sinddemnach eine reine Geschmackssache. Wenn jemand Schmerzen anDienstagen gut und an allen anderen Tagen nicht so gut findet, obwohlwir keine physiologischen Unterschiede zwischen diesen Tagen ausma-chen können, ist das demnach nicht irrational, sondern eben nur sein be-sonderer Geschmack. Von dieser Herangehensweise bin ich nicht wirk-lich überzeugt, aber das zeigt zumindest wiederum die Gefahren der Ver-quickung von Glaubensgraden mit Präferenzen, wenn es uns docheigentlich um eine Konzeption vernünftigen induktiven Schlussfolgernsgeht. Unser nächstes Thema ist nun vor allem die zweite Forderung derProbabilisten, dass Glaubensgrade den Wahrscheinlichkeitsaxiomen ge-horchen sollten.

5.3.4 Dutch-Book-ArgumenteSelbst wenn Glaubensgrade mit Wettquoten zusammenhängen, ist nichtausgemacht, ob sie den Wahrscheinlichkeitsaxiomen gehorchen. Das ver-langen Probabilisten aber, damit sie ihren wahrscheinlichkeitstheoreti-schen Apparat zum Einsatz bringen können. Sie behaupten, dass zumin-dest vernünftige Glaubensgrade sich danach richten. Sollten sie das tun,nennen wir sie kohärent. Das heißt z.B., dass P(A)=1–P(~A) gilt, dass al-so die entsprechenden Glaubensgrade oder Wahrscheinlichkeiten für Aund ~A intern zusammenpassen. Die Wahrscheinlichkeitsaxiome er-scheinen uns inzwischen recht natürlich, da wir den Umgang mit ihnengewohnt sind, aber das war nicht immer so. Sie wurden erst spät ent-deckt, was schon darauf hindeutet, dass sie nicht ganz so selbstverständ-lich sind, wie es uns heute oft erscheint. Tatsächlich haben Psychologenwie Kahneman und Tversky (vgl. Gintis 2009) immer wieder zeigenkönnen, dass Menschen in ihren Schlüssen davon abweichen, und habendazu die Prospect-Theorie entwickelt, die menschliches Entscheidungs-verhalten besser beschreiben kann als die klassische rationale Entschei-dungstheorie. In der Prospect-Theorie gehen die Wahrscheinlichkeitenjedoch nur noch in verzerrter Form in die Entscheidung ein. Auch dieFuzzy-Logik (vgl. Gottwald 1993) hat für die Konjunktion und Disjunk-tion eine ganze Reihe anderer Regeln (etwa die verschiedenen T-Nor-men und T-Konormen) vorgeschlagen, die auf andere Weise mit Unsi-cherheiten umgehen. Warum sollten wir uns also im Sinne der Wahr-scheinlichkeitsaxiome kohärent verhalten?

Probabilisten behaupten, dass wir sonst ausbeutbar sind, sobald wirunsere Glaubensgrade nicht kohärent gestalten, und das wäre offensicht-lich irrational. Unter der Annahme, dass unsere Glaubensgrade sich in

Page 257: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

245 Thomas Bartelborth: Induktives Schließen

entsprechenden Wettquoten manifestieren und wir tatsächlich bereitsind, entsprechende Wetten einzugehen, lässt sich zeigen: Es gibt keinDutch-Book gegen uns genau dann, wenn unsere Glaubensgrade kohä-rent sind. Dabei ist mit einem Dutch-Book ein System von Wetten ge-meint, bei dem wir in jedem möglichen Fall nur verlieren können, wennwir uns darauf einlassen. Es scheint jedenfalls offensichtlich irrational zusein, sich auf ein Paket von Wetten einzulassen, wenn von vornhereinfeststeht, dass wir in jedem Fall Geld dabei verlieren werden.

Nehmen wir ein einfaches Beispiel, um das zu illustrieren: UnserGlaubensgrad sei sowohl für A wie auch für ~A gerade 0,8 (P(A) =P(~A) = 0,8). Dann wären wir bereit, 8 Euro für eine Wette zu bezah-len, die 10 Euro auszahlt, falls A eintritt, und ebenso noch einmal 8Euro für eine Wette zu bezahlen die 10 Euro auszahlt, falls ~A eintritt.

Wette 1: 8 Euro auf AWette 2: 8 Euro auf ~A

Insgesamt hätten wir also 16 Euro bezahlt, würden aber nur eine derbeiden Wetten gewinnen, d.h., wir bekämen in jedem Fall genau 10Euro ausgezahlt und blieben immer auf einem Verlust von 6 Euro sitzen.(Tritt A ein, gewinnen wir Wette 1, bei ~A Wette 2.) Das sieht nicht sehrvernünftig aus, weil wir in jedem Fall Geld verlieren. Man kann in die-sem Beispiel schön erkennen, dass wir für die zweite Wette nicht mehrals 2 Euro zahlen sollten, sonst tritt das Malheur ein. Bei einer 2-Euro-Wette wäre etwa P(~A)=0,2 und es wäre also P(A)=1–P(~A) genau er-füllt. Was würde aber passieren, wenn wir nun, um auf Nummer sicherzu gehen, nur 1 Euro für die Wette auf ~A setzen würden? Das brächteuns wiederum in Schwierigkeiten, da der Probabilist davon ausgeht, dasswir dann ebenfalls bereit wären, die andere Seite der Wette zu überneh-men (es handelt sich ja um die für uns fairen Wettquoten) und wir müss-ten somit bereit sein, 9 Euro gegen ~A zu setzen, für einen Pott von 10Euro. Ebenso müssten wir bereit sein, die andere Seite von Wette 1 zuübernehmen. Damit ergäbe sich:

Wette 1: 2 Euro gegen AWette 2: 9 Euro gegen ~A

Damit würden wir wieder nur eine Wette und damit 10 Euro gewinnen(im Falle, dass A eintritt, würden wir diesmal Wette 2 gewinnen), hättendafür aber zusammen 11 Euro bezahlt. So sehen einfache Dutch-Booksaus. Sie zeigen schon, dass wir auch in diesem Fall die Regel P(A)=1–P(~A) zu respektieren hätten, um keine Verluste zu machen.

Page 258: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 246

Diese Idee können wir nun direkt auf die Axiome anwenden. Die ers-ten beiden Axiome sind relativ leicht nachvollziehbar. Es lohnt sichnicht, gegen Tautologien zu wetten, und es lohnt sich ebenso wenig, füreine Wette, die nur 10 Euro auszahlt, mehr als 10 Euro zu bezahlen. Et-was schwieriger ist wieder die Begründung der Additivitätsregel, von derwir eben einen Sonderfall betrachtet haben.

Nehmen wir wieder eine Reihe von Wetten, die alle im Gewinnfall10 Euro auszahlen. Außerdem seien A und B inkonsistent. Man wähledann P(A)=0,4 und P(B)=0,5 und P(AB)=0,6. Dann sollten wir bereitsein, die folgenden drei Wetten zu akzeptieren:

Wette 1: 4 Euro auf AWette 2: 5 Euro auf BWette 3: 4 Euro gegen (AB)

Für die Wetten muss ich zusammen 13 Euro einzahlen, doch was be-komme ich heraus? Dazu gibt es drei Fälle zu betrachten: 1. A ist wahr:Dann ist B falsch und meine 3. Wette verliere ich auch. Ich gewinne alsonur 10 Euro. 2. B ist wahr: Das ist analog, nur dass jetzt A falsch ist undich auch meine 3. Wette verliere. 3. A ist falsch und B ist falsch: Danngewinne ich endlich die dritte Wette, verliere aber die beiden anderen;also gehe ich wiederum mit einem Minus von 3 Euro nach Hause. Umdabei nicht zu verlieren, dürfte ich in der dritten Wette nur 1 Euro set-zen, und das heißt im Umkehrschluss, dass mein Glaubensgrad für ABmindestens 0,9 sein sollte, weshalb dann gilt: P(AB)=P(A)+P(B). Weni-ger darf es aber auch nicht sein, sonst können wir wieder wie im erstenBeispiel zu den jeweiligen Gegenwetten übergehen und verlieren wiedermit Sicherheit Geld.

Das kann man natürlich etwas systematischer analysieren: Es seiP(A)=r, P(B)=s und P(AB)=m. Nehmen wir außerdem einmal an, nunsei m>s+r und wir wetten jeweils insgesamt um einen Euro, dann müss-ten wir die drei folgenden Wetten akzeptieren:

Wette 1: 1–r Euro gegen A (gegen r Euro)Wette 2: 1–s Euro gegen B (gegen s Euro)Wette 3: m Euro auf (AB) (gegen 1–m Euro)

Nun lässt sich bestimmen, welche Auszahlungen sich in den unterschied-lichen Fällen ergeben:

Page 259: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

247 Thomas Bartelborth: Induktives Schließen

Situationen: Auszahlung:1. Fall: A und B falsch r+s–m<02. Fall: A falsch, B wahr r–(1–s)+(1–m)=r+s–m<03. Fall: A wahr, B falsch –(1–r)+s+(1–m)=r+s–m<0

Also wird hier deutlich, dass wir in allen möglichen Fällen (man beach-te, dass A und B sich gegenseitig ausschließen) immer einen Verlust zugegenwärtigen haben. Ähnliche Probleme ergeben sich, wenn m<s+rgilt, nur dass wir nun die umgekehrten Wetten akzeptieren müssten:

Wette 1: r Euro auf A (gegen 1–r Euro)Wette 2: s Euro auf B (gegen 1–s Euro)Wette 3: 1–m Euro gegen (AB) (gegen m Euro)

Damit ergibt sich für die Auszahlungen:

Situationen: Auszahlung:1. Fall: A und B falsch –r–s+m<02. Fall: A falsch, B wahr –r+(1–s)–(1–m)=–r–s+m<03. Fall: A wahr, B falsch –(1–r)+s–(1–m)=–r–s+m<0

Es lässt sich überdies die andere Richtung zeigen, so dass wir insgesamtdas folgende Theorem erhalten:

Dutch-Book-Theorem: Es existiert kein Dutch-Book gegen uns gdw.unsere Glaubensgrade kohärent sind.(d.h., sich nach den Wahrscheinlichkeitsaxiomen richten)

Kaum jemand dürfte bezweifeln, dass es irrational ist, ein Dutch-Bookzu akzeptieren. Kritik an der Argumentation kommt daher eher aus derRichtung, ob unser Wettverhalten im Falle bestimmter Glaubensgradedurch diese Argumentation richtig wiedergegeben wird. Der letzte Ab-schnitt sollte uns schon hinreichend dafür sensibilisiert haben, dass eseine deutliche Kluft zwischen Glaubensgraden und entsprechendenWettquoten gibt. Dann ist das Argument nicht mehr so überzeugend,denn auf diesen Zusammenhang waren wir schließlich in unserem Argu-ment angewiesen. Doch wir erkennen noch weitere Probleme in dem Ar-gument.

Ist es denn automatisch vernünftig, ein Paket von Wetten zu akzeptie-ren, sobald es vernünftig ist, die einzelnen Wetten zu akzeptieren? Die-ses „package-principle“ hat schon Schick (1986) kritisiert. Das stecktaber hinter der Argumentation der Dutch-Books. Die Probabilisten be-haupten nämlich, dass unsere Wetten einzeln deshalb nicht rational seinkönnen, weil ein entsprechendes Paket von Wetten nicht rational sei.

Page 260: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 248

Das setzt aber genau das Paket-Prinzip voraus. Nur wenn wir zu den ein-zelnen Wetten diese auch noch im Paket akzeptieren sollten, dann gera-ten wir in die erwähnten Schwierigkeiten. Ein rationaler Entscheiderkönnte also genau an dieser Stelle „Halt!“ rufen.

Das Paket-Prinzip: Wenn es vernünftig ist, bestimmte Wetten w1,...,wn jeweils für sich zu akzeptieren, so ist auch vernünftig, all dieseWetten zugleich als Paket zu akzeptieren.

Doch das Paket-Prinzip sieht nicht wirklich überzeugend aus. Denkenwir uns z.B. folgende Situation: Wir haben eine potentiell tödlicheKrankheit und verfügen über 700 Euro, benötigen zum Überleben aberein Medikament, das 1000 Euro kostet. Stehlen können wir das Medika-mente nicht, da es gut gesichert ist. Dann wäre es durchaus rational, al-les auf eine Karte zu setzen und die 700 Euro gegen 300 Euro auf„Kopf“ bei einem Münzwurf zu setzen. Genauso wäre es rational, die700 Euro gegen 300 Euro auf „Zahl“ bei diesem Münzwurf zu setzen.Doch offensichtlich wäre es völlig kontraproduktiv und irrational, beideWetten zugleich einzugehen, auch wenn der Buchmacher gern bereit wä-re, einem die 700 Euro für die zweite Wette (aber eben nur für die Wet-te) zu stunden, bis die Wetten zur Auszahlung kommen.

Ein pedantischer Skeptiker könnte vielleicht noch einwenden, dassdie Gesamtwette zumindest keine Verschlechterung gegenüber dem Zu-stand darstellt, in dem wir überhaupt nicht wetten. Über 300 oder 700Euro zu verfügen sei kein relevanter Unterschied. Das würde sich aller-dings auch noch ändern, wenn es eine winzig kleine Chance gäbe, ohneWette noch 300 Euro geschenkt zu erhalten. Die wäre zu klein, um sichnicht auf die einzelnen Wetten einzulassen, aber würde zumindest nocheinen Unterschied zwischen den 300 und 700 Euro Zuständen aufzei-gen. Das Paket-Prinzip ist also in jedem Fall keine brauchbare Rationali-tätsforderung, wodurch die Dutch-Book-Argumente klar unterminiertwerden. Ein rationaler Wettender würde sich eben nicht auf Dutch-Books einlassen, müsste aber deswegen nicht gleich seine Glaubensgradean die Wahrscheinlichkeitsaxiome anpassen, zumal er vielleicht auchnicht wüsste, welche seiner Glaubensgrade er dafür am besten ändernsollte (s.u.). Unser Wettverhalten kann also rational sein, weil es für dieeinzelnen Wetten gute Gründe gibt, während das entsprechende Paketvon Wetten offensichtlich irrational ist.

Bei Arntzenius et al. (2004) findet sich noch ein hübsches Beispielgegen das Paket-Prinzip im abzählbar additiven Fall. Gott hat einen Ap-fel in abzählbar unendlich viele Stücke zerlegt. Davon darf Eva endlich

Page 261: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

249 Thomas Bartelborth: Induktives Schließen

viele essen, aber niemals unendlich viele. Eva möchte möglichst viel vomApfel essen. Für jedes einzelne Stück gilt dann, dass sie es zu sich neh-men sollte. Sie kann dabei ruhig immer wieder eines dazu nehmen.Trotzdem gilt nicht das Paket-Prinzip, denn sie darf nicht alle Stücke zusich nehmen. Das wäre irrational, da sie dann von Gott bestraft würde.

Was bleibt schließlich als Fazit für die Einführung von Glaubens-graden? In jedem Fall sind vernünftige Glaubensgrade nicht operationali-sierbar. Selbst messen können wir bestenfalls die tatsächlichen Glaubens-grade; die gehorchen aber oft nicht den Wahrscheinlichkeitsaxiomen.Insbesondere verlangen die vernünftigen Glaubensgrade logische Allwis-senheit, die niemand leisten kann, denn Axiom 2 setzt z.B. voraus, dasswir alle logischen Tautologien identifizieren können. Überhaupt bleibtvöllig unklar, wie wir einer bestimmten Person, die nicht schon über ko-härente Glaubensgrade verfügt, vernünftige Glaubensgrade zuschreibensollen. Hat sie etwa zwei Glaubensgrade, die nicht zusammenpassen (et-wa P(A)=P(~A)=0,4), so ist nicht festgelegt, wie wir (oder sie selbst)das auflösen sollen. Welche Glaubensgrade sollte sie dann stattdessen an-nehmen? Soll sie etwa beide Glaubensgrade auf 0,5 anheben, oder sollsie einen auf 0,6 setzen oder beiden Aussagen ganz neue passende Wertezuweisen und nach welchen Regeln? Es wird nur die Kohärenz gefor-dert, aber es gibt keine Vorgaben, welche Glaubensgrade anzunehmenbzw. zu verändern sind, um diese Kohärenz zu erreichen. Das ist ineinem solchen Fall kaum besonders hilfreich. Insbesondere die kohären-ten Glaubensgrade sind daher für eine bestimmte Person nicht in irgend-einer Weise messbar und vermutlich noch nicht einmal seine tatsächli-chen Glaubensgrade. Das Konzept der rationalen Glaubensgrade ist eintheoretisches Konzept, das durch seine Funktionen vor allem im Bayesia-nismus gekennzeichnet ist, das damit aber keineswegs so harmlos daher-kommt, wie es zunächst klingt.

5.3.5 Andere Begründungen der WahrscheinlichkeitsaxiomeEs gibt eine Reihe von Ansätzen, die andere Axiome anführen, die unsintuitiver erscheinen sollen und die es letztlich gestatten, die Wahr-scheinlichkeitsaxiome abzuleiten. Der bekannteste ist wohl der Ansatzvon Cox (1946). Allerdings bleibt bei all diesen Ansätzen immer die Fra-ge, ob die anfänglichen Axiome tatsächlich so viel plausibler sind als dieWahrscheinlichkeitsaxiome selbst. Vermutlich bleibt uns letztlich zur Be-antwortung der Frage nach der Plausibilität des probabilistischen Ansat-zes nichts anderes übrig, als eine Gesamtbewertung seiner Erfolge in der

Page 262: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 250

Anwendung durchzuführen und dabei sind diese anfänglichen Einschät-zungen zum Schluss schließlich nicht mehr von so großer Bedeutung.

Ein anderer Weg, um die Wahrscheinlichkeitsaxiome für unsereGlaubensgrade zu rechtfertigen, wurde neuerdings von James Joyce(1998) beschritten. Er argumentiert dafür, dass es sinnvoll ist, davon zusprechen, dass unsere Glaubensgradfunktion einen bestimmten Abstandvon der Wahrheit in allen möglichen Welten aufweist. Anhand bestimm-ter Axiome plädiert er für eine bestimmte Abstandsfunktion. Für diekann er nun aufzeigen, dass es zu jeder Glaubensfunktion P, die dieWahrscheinlichkeitsaxiome nicht erfüllt, eine Glaubensfunktion P* gibt,die die Wahrscheinlichkeitsaxiome erfüllt, die aber näher an der Wahr-heit liegt. Da wir nach wahren Überzeugungssystemen streben, wird sichnach Meinung von Joyce ein vernünftiges epistemisches Subjekt also denGlaubensfunktionen zuwenden, die zugleich Wahrscheinlichkeitsfunktio-nen darstellen.

Das stellt zwar eine recht phantasievolle Begründung der Axiomedar, ist jedoch kaum zwingend. Zunächst gibt es natürlich genauso im-mer Glaubensfunktionen, die die Wahrscheinlichkeitsaxiome erfüllen,die weiter von der Wahrheit entfernt liegen als die ursprüngliche Funk-tion P. Außerdem hat Maher (2002) gezeigt, dass eine naheliegende Ab-standsfunktion bei Joyce ausgeschlossen wird, für die sein Ergebnis nichtmehr gilt. Schließlich werden wir also nicht umhin kommen, den ganzenbayesianischen Ansatz in den Blick zu nehmen, um eine weitere Bewer-tung durchführen zu können.

Leitgeb und Pettigrew (2010) gehen in zwei Aufsätzen einen Schrittweiter in dieser Richtung. Sie zeigen, dass es Gründe gibt, ein bestimm-tes Maß für die Ungenauigkeit unserer Glaubensgrade zu wählen. Dazuwerden endlich viele mögliche Welten und Glaubensgrade in ein geome-trisches Modell übersetzt. Das Maß in dem Modell ist dann i.w. das eu-klidische Abstandsmaß. Sobald wir das akzeptieren und darauf aufbau-end einen Wert für die zu erwartende Ungenauigkeit (ähnlich aufgebautwie die Erwartungswerte in der Statistik) ermitteln, erweist es sich alssinnvoll, Probabilist zu sein, also die Wahrscheinlichkeitsaxiome fürunsere Glaubensgrade zu berücksichtigen, da so die zu erwartende Unge-nauigkeit minimiert werden kann. Das sei aber nach Ansicht der Auto-ren der zentrale epistemische Wert, den wir aus einer internalistischenPerspektive überhaupt nur erreichen können.

In diesem Ansatz wird dann auch noch eine neue Konditionalisie-rungsregel abgeleitet und als Ersatzregel für die Jeffreys-Regel (s. Kap.5.5.6) formuliert, da sie dem Ziel der Ungenauigkeitsreduktion besser

Page 263: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

251 Thomas Bartelborth: Induktives Schließen

dient als die Regel von Jeffrey. Allerdings ist die neue Regel besonderssensibel gegenüber der Reihenfolge der Daten, was von Bayesianern nor-malerweise als großes Manko betrachtet wird. Außerdem schließen sichdie Autoren Bradleys (2005) kritischer Sichtweise der sogenannten Inva-rianz- oder Rigiditätsforderung (rigidity) an, die wir bisher nur implizitunterschrieben haben, deren erkenntnistheoretischer Wert aber bestrit-ten werden kann. Sie ist die entscheidende Voraussetzung, die uns zuJeffreys-Regel der Konditionalisierung führt. Danach behalten wir beimUpdaten, wenn wir ein neues Datum E lernen zumindest die konditiona-len Wahrscheinlichkeiten P(B|E) für alle Aussagen B bei:

Die Invarianz oder Rigidität unseres probabilistischen Überzeugungs-systems: Wenn wir mit einem neuen Datum E updaten, gilt für alleweiteren Aussagen B unseres Systems: P+(B|E) = P(B|E).

Diese Forderung wird von Bayesianern üblicherweise als Rationalitäts-forderung betrachtet und wird zum einen durch Dutch-Book-Argumentebegründet, aber ebenso durch ein intuitives Verständnis des Updatens(vgl. Bradley 2005). Als neues Datum lernen wir nur E, dann sollten wirvernünftigerweise (aus Sicht der Bayesianer) nicht darüber hinausgehenddie Wahrscheinlichkeiten ändern, die das Verhältnis von E zu anderenAussagen betreffen. Dazu haben wir eigentlich keine neuen Einsichtenerhalten und sollten es daher im Sinne einer möglichst konservativenÜberzeugungsänderung auch beibehalten. Die Regel von Jeffrey, die wirspäter weiter diskutieren werden, stützt sich auf diese Rigidität, aber er-laubt, dass die neuen Daten eine Wahrscheinlichkeit kleiner 1 erhalten(P+(E)<1). Nur die Rigidität bleibt erhalten, womit wir (automatisch?)zu folgender Update-Regel gelangen, auf die wir später noch eingehenwerden:

P+(H) = P(H|E)P+(E) + P(H|~E)P+(~E)

Gegen diese Rigidität argumentiert allerdings Bradley (2005).Als Drittes wird in Leitgeb und Pettigrew (2010) noch abgleitet, dass

der beste Ansatz bei den Startwahrscheinlichkeiten der des objektivenBayesianers ist, der ein Indifferenzprinzip (auf der Grundlage unsererMenge von möglichen Welten) annimmt. Das ist insgesamt sicher einsehr kreativer Ansatz, gleichwohl müssen die Autoren selbst zugeben,dass sie sehr viele idealisierende Annahmen zugrunde gelegt haben, umdie Übersetzung unserer Frage in ein geometrisches Problem zu bewerk-stelligen, die alle für sich bestreitbar sind. Auch diese Überlegungen sindalso weit davon entfernt, eine intuitiv zwingende Argumentation für den

Page 264: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 252

probabilistischen Ansatz zu ergeben. Außerdem führt sie uns nicht zumklassischen Bayesianismus. Es gibt somit insgesamt einige schwächereGründe dafür, sich in seinen Glaubensgraden nach den Wahrscheinlich-keitsaxiomen zu richten, doch letztlich keine starken oder sogar endgül-tigen Begründungen. Die Anwendbarkeit und die Erfolge des Ansatzesmüssen für sich sprechen.

An dieser Stelle kann uns auch der statistische Syllogismus weiterhel-fen. Wenn ich meine Glaubensgrade an den relativen Häufigkeiten aus-richten möchte, so spricht das für die Annahme der Additivitätsregel.Nehmen wir an, wir haben einen verfälschten Würfel mit den Glaubens-graden oder Wahrscheinlichkeiten P(4)=1/5=P(5), die sich aus bestimm-ten relativen Häufigkeiten ergeben haben. Wie hoch sollte dann unserGlaubensgrad bzw. unsere Wahrscheinlichkeit dafür sein, dass die 4 oderdie 5 beim nächsten Wurf oben liegen? Die relative Häufigkeit dafürwird bei 2/5 liegen und daher sollten wir diese auch für unsere Glau-bensgrade übernehmen. Allerdings ist einschränkend zu ergänzen, dassder statistische Syllogismus ja nur für den Fall gilt, dass wir über keineanderen spezifischen Informationen über das Zutreffen der disjunktivenBehauptung verfügen.

5.3.6 Komparative Bestätigung und qualitative WahrscheinlichkeitWir hatten schon gesehen, dass es keine einfachen Zusammenhänge zwi-schen kategorischem Glauben bzw. Akzeptanz von Aussagen auf dereinen Seite und Glaubensgraden auf der anderen Seite gibt. Insbesonde-re akzeptieren Probabilisten typischerweise nicht die locksche These (sonennt sie Hawthorne 2009), wonach ein hinreichend hoher Glaubens-grad zugleich hinreichend für das Akzeptieren der entsprechenden Über-zeugung sein soll, da wir sonst wieder in das Lotterie-Paradox zurückfal-len. Ein älterer, aber m.E. sehr interessanter Weg, um den Zusammen-hang weiter aufzuklären, ist der über einen komparativen Bestätigungs-begriff zu einem quantitativen zu kommen. Das ist ähnlich wie für ande-re Konzepte in der Wissenschaft, bei denen wir mit einem komparativenKonzept starten und darauf aufbauend etwa anhand von Repräsenta-tionstheoremen zu einem quantitativen Konzept gelangen. Das sagt unsmehr darüber, was wir für den quantitativen Begriff tatsächlich benöti-gen. Die Grundlagen finden sich bei Savage (1972), dann weitere Ergeb-nisse im Überblick bei Fishburn (1986) bis hin zu den Überlegungen vonHawthorne (2009). Bei Fishburn (1986) finden sich darüber hinaus Hin-weise auf die mathematischen Zusammenhänge und Beweise für unter-schiedliche Situationen sowie Gegenbeispiele für einige Fälle, in denen

Page 265: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

253 Thomas Bartelborth: Induktives Schließen

nicht alle Anforderungen erfüllt sind. Dieser Weg kann obendrein neueGründe dafür bieten, mit einem quantitativen Glaubensgradkonzept zuarbeiten. Deshalb verfolgen wir ihn an dieser Stelle.

Doch bevor ich darauf eingehe, möchte ich mit einem Unterthemastarten, nämlich der Frage, ob Wissen und epistemische Rechtfertigungbzw. das Akzeptieren von Aussagen abgeschlossen unter Konjunktionensind. Die Konjunktionen stellen das spezielle Problem beim Lotterie-paradox dar. Wenn ich weiß, dass p und weiß, dass q, weiß ich dannauch, dass p&q? Wir hatten die generellen Probleme der deduktiven Ab-geschlossenheit von Wissen schon (im Umfeld des Skeptikers) diskutiert,stoßen hier aber auf eine speziellere Frage. Schauen wir uns dazu dieWissensbedingungen kurz der Reihe nach an. Die Wahrheitsbedingungist unproblematisch. Die Glaubensbedingung sollte es eigentlich ebensosein, obwohl wir hier natürlich bereits einwenden können, dass dann fürviele atomare Überzeugungen noch sehr viele Konjunktionen hinzukom-men müssen, die es ebenfalls zu glauben gilt. Doch wir können zumin-dest sagen, dass wir diese konjunktiven Überzeugungen wenigstens im-plizit besitzen, wenn wir bereit sind, ihre Elemente auf Nachfrage hinauch explizit zu akzeptieren.

Größere Probleme machen aber die Begründungsfragen, das zeigteschon das Lotterie-Paradox. Wenn wir nämlich viele begründete Über-zeugungen zusammenfügen, muss die Konjunktion nicht mehr genausogut begründet oder überhaupt gut begründet sein. Das gilt letztlich ge-nauso für unanfechtbare Begründungen, es sei denn, wir würden diegleichartigen Aussagen im Lotterie-Paradox, die aber doch nicht zusam-men wahr sein können, als eine Art von Gegengrund gegen die Bestäti-gung der einzelnen Aussagen auffassen, was mir jedoch recht unplausibelerscheint. So war das Konzept der Gegengründe zunächst nicht gemeint.Allerdings lässt sich das Lotterieproblem hier nicht direkt reproduzieren,weil Wissen verlangt, dass alle Konjunkte wahr sind. Trotzdem bleibenwir mit einem intuitiven Problem übrig: Einerseits sollte der Wissensbe-griff so stark sein, dass er unter Konjunktionen stabil bleibt, andererseitsscheinen die Bedingungen für Wissen das nicht zu garantieren. Einenmöglichen Kompromiss zeigt Hawthorne (2009) auf. Jedenfalls würdenwir uns eine entsprechende – vielleicht etwas eingeschränkte – Stabilitätauch für Begründungen wünschen und wollen nun nachsehen, inwiefernuns das Konzept der komparativen Bestätigung bzw. der qualitativenWahrscheinlichkeit (so wird es oft genannt) dabei helfen kann, zumindesteine gewisse Stabilität der Begründungen und des Akzeptierens unterKonjunktionen zu garantieren.

Page 266: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 254

Dazu gehen wir als neuem Grundbegriff der komparativen Bestäti-gung davon aus, dass wir „AB“ für zwei Aussagen A und B lesen als „Aist mindestens genauso plausibel wie B“ oder „A ist mindestens so gut be-gründet wie B“, wobei das immer für ein bestimmtes epistemisches Sub-jekt S gemeint ist bzw. für das jeweilige Hintergrundwissen von S. Umhier aber nicht immer einen Index mitzuschleppen, lasse ich diese Be-zugnahme auf S weg. Für diesen komparativen Bestätigungsbegriff kön-nen wir nun eine Reihe von Regeln angeben, die ein ideal rationalesepistemisches Subjekt erfüllen sollte. Wir werden also eine Art von Lo-gik der komparativen -Beziehung aufstellen. Dabei folge ich Haw-thorne (2009), der das ausgeführt hat. Dazu definiert er noch ein daraufaufbauendes Konzept, nämlich das der Gewissheit „gewiss(A)“, das ge-wissermaßen unsere oberste Stufe an Plausibilität oder Begründetheit be-schreibt. Es lässt sich definieren, durch einen Vergleich mit einer Tauto-logie:

gewiss(A) A~A

Dann erhalten wir in einem ersten Schritt für eine vorgegebene SpracheL mit den Aussagen A, B, C,... die folgenden Axiome:

Basale komparative Bestätigungsbeziehung (BKB)Für alle Aussagen A, B, C, D, der Sprache L gilt:A1. Es gilt nie: ~(A~A) (AÚ~A) (Nichttrivialität)A2. B ~(AÚ~A) (Minimalität)A3. A A (Reflexivität)A4. Wenn A B und B C, dann gilt: A C (Transitivität)A5.1 Wenn gilt: gewiss[CD] und A C, dann gilt: A D

(Rechtsäquivalenz)A5.2 Wenn gilt: gewiss[CD] und C B, dann gilt: D B

(Linksäquivalenz)A6.1 Wenn für ein E gilt: gewiss[~(A&E)], gewiss[~(B&E)] und

(AÚE) (BÚE), dann gilt: A B (Subtrahierbarkeit)A6.2 Wenn gilt: A B, dann gilt: für alle G mit gewiss[~(A&G)]

und gewiss[~(B&G)], (AÚG) (BÚG) (Additivität)A7. Wenn A eine logische Tautologie ist, dann gilt: gewiss[A]

(tautologische Gewissheit).

Dazu können wir durch einige einfache Definitionen neue Konzepte ein-führen:

A = B (gelesen: A ist genauso plausibel/gut bestätigt wie B) gdw.A B und B A

Page 267: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

255 Thomas Bartelborth: Induktives Schließen

A > B (gelesen: A ist echt besser bestätigt als B) gdw.A B und nicht B A, und

A ≈ B (gelesen: As Bestätigung ist unbestimmt relativ zu der von B)gdw. nicht (A B) und nicht (B A)

Daraus lassen sich bereits etliche logische Schlussfolgerungen ziehen,d.h., wir verfügen mit (BKB) schon über einen recht beachtlichen Bestä-tigungsbegriff. Die Frage ist aber, ob diese Axiome als Rationalitätsan-forderungen an eine komparative Bestätigungsbeziehung zu rechtferti-gen sind. Dazu müssen wir uns im Einzelnen damit beschäftigen, wie in-tuitiv die jeweiligen Forderungen sind. Die Regel (1) dient dazu festzule-gen, dass der Begriff der komparativen Bestätigung zumindest die grund-legenden Beziehungen zwischen Kontradiktionen und Tautologien re-spektiert. Das dürfte kaum zu bestreiten sein. Regel (2) legt fest, dass dieKontradiktionen den „Boden“ unserer Vergleiche bilden, während in (7)festgelegt wird, dass die Tautologien jedenfalls (vielleicht mit anderenAussagen) ganz oben stehen. Allerdings impliziert (7) zugleich, dass wiruns der Tautologien gewiss sind. Diese Art von logischer Allwissenheitist natürlich keine realistische Forderung für reale epistemische Subjekte,sondern nur eine ideale Zielvorstellung für unser Konzept der rationalenkomparativen Bestätigung. In (3) bestimmen wir nur, wie wir uns diekomparative Bestätigung denken, nämlich als gleichstark bestätigte Aus-sagen einbeziehend. Die Regel (4) ist sicher schon etwas stärker, sollteaber für einen Bestätigungsbegriff trotzdem relativ unproblematischsein. Sonst hätten wir keinen komparativen Begriff mehr. Gehen wiraber davon aus, dass es ein komparatives Konzept von Bestätigung gibt,was zunächst recht plausibel erscheint, dann sollten wir wenigstens des-sen Transitivität annehmen. Die Regeln (5.1) und (5.2) bestimmen denBegriff der Gewissheit noch weiter. Wenn wir uns der logischen Äquiva-lenz zweier Aussagen gewiss sind, dann dürfen wir die zumindest in ein-fachen Kontexten füreinander ersetzen. So bringen wir grundlegendeKonzepte der komparativen Bestätigung auf intuitive Weise zusammenmit logischen Grundkonzepten. Gewisse Aussagen werden dabei schlichtals Basis für weitere Schlussfolgerungen betrachtet – ähnlich wie das beiWissen der Fall ist.

Die Bedingungen (6.1) und (6.2) sehen etwas komplizierter aus, sindaber wieder ähnlich wie im Falle der vorigen Bedingungen zu verstehen.Zu (6.1): Wenn wir schon zu wissen glauben, dass E sowohl mit A wieauch mit B inkompatibel ist und (AÚE)(BÚE), dann darf der möglicheBestätigungsvorsprung des ersten Terms nur auf einen möglichen Vor-sprung von A gegenüber B zurückzuführen sein. Das ist eine wesentliche

Page 268: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 256

Bedingung für den komparativen Bestätigungsbegriff, der eine Verbin-dung zum logischen „oder“ zeigt. In (6.2) wird die umgekehrte Bezie-hung gefordert. Das disjunktive Hinzufügen von inkompatiblen Aussa-gen sollte die Richtung der komparativen Bestätigung nicht beeinträchti-gen. Das kann man sich vielleicht am besten an einem Beispiel klarma-chen.

Nehmen wir an, wir möchten für eine seltsam verbogene Münze be-stimmen, welches die Wahrscheinlichkeit p für Kopf ist. Wir gehen hierdavon aus, dass es sich um einen indeterministischen Prozess mit einemfesten p handelt. Unsere drei Aussagen geben nun jeweils ein Intervallan, in dem sie p vermuten: A sagt in I1=[0,2;0,4], B sagt in I2=[0,3;0,6],E sagt in I3=[0,6;0,8]. Die Inkompatibilitätsbedingungen sind offen-sichtlich erfüllt. Dann sollte auch intuitiv gelten: (AÚE)(BÚE) liegt ge-nau dann vor, wenn AB gegeben ist. Betrachten wir zunächst den Fall,dass (AÚE)>(BÚE) ist. Dann muss diese bessere Bestätigung einen Grundhaben, und der kann nur darin zu suchen sein, dass es uns plausibler er-scheint, dass p in I1 liegt als in dem Intervall I2, etwa weil wir bisher nurkleine relative Häufigkeiten von Kopf beobachten konnten. Sind wir unsdagegen schon ganz sicher, dass E zutrifft, könnte dieser Unterschiednicht auftreten. In jedem Fall ist klar, wenn (AÚE)=(BÚE) gilt, dann dür-fen A und B keinen solchen Unterschied in der Bestätigung aufweisen,sonst wäre etwa p eher im ersten Intervall als im zweiten zu vermutenund damit müsste wieder gelten: (AÚE)>(BÚE). Also sollte auch A=Bsein. In der anderen Richtung scheinen uns die Beziehungen ähnlichplausibel zu sein, so dass die Axiome (6) durchaus sinnvolle Anforderun-gen an eine komparative Bestätigung sind. Übrigens sind die folgendenebenso naheliegenden Anforderungen nun ableitbar und werden dahernicht als Axiome eingeführt:

(a) gewiss(AB), dann gilt AB, und(b) AB, dann gilt ~B~A

Weiterhin ist klar, dass jede Wahrscheinlichkeitsverteilung P auf L einesolche basale komparative Bestätigungsbeziehung (BKB) impliziert: Erin-nern wir uns, dass wir von einer derartigen Wahrscheinlichkeitsvertei-lung verlangen, dass für alle Q und R gilt: (1) P(R)0, (2) P(t)=1 fürTautologien t und schließlich die einfache Additivität (3) falls R und Qinkompatibel sind: P(QR)=P(Q)+P(R). Daraus folgen die Axiome,wenn wir aus dem „“ für die Wahrscheinlichkeiten das „“ für die Aus-sagen gewinnen. (Der Leser kann hier aus dem Kontext hoffentlich

Page 269: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

257 Thomas Bartelborth: Induktives Schließen

leicht ermitteln, welche der beiden Relationen gemeint ist, obwohl das-selbe Zeichen für beide Relationen verwandt wird.)

Für P(A) P(B) setzen wir also: A B,

dann erfüllt eine so definierte Beziehung „“ offensichtlich die Axiomevon (BB). Allerdings leistet P natürlich noch viel mehr. Es liefert einenVergleich der Bestätigung bzw. Plausibilität für alle Paare von AussagenQ und R. Um ein Repräsentationstheorem zu erhalten, wird man also(BKB) verstärken müssen. Wir suchen nach Anforderungen, so dass wirschließen dürfen, dass es zu einer komparativen Bestätigungsbeziehung„“ mindestens eine passende Wahrscheinlichkeitsverteilung P gibt, mit:

(PW) P(A) P(B) genau dann, wenn A B

Solche passenden Wahrscheinlichkeiten P lassen sich zu einer BKB „“natürlich nur finden, wenn die BKB zumindest in konsistenter Weise zueiner vollständigen Ordnung erweiterbar ist. Eine vollständige kompara-tive Bestätigungsbeziehung (VKB) ist eine BKB, bei der das schwachebisherige Reflexivitätsaxiom (3) nun zu einem Vollständigkeitsaxiom(3*) verstärkt wurde:

(3*) Für alle A und B gilt: A B oder B A

Hawthorne (2009) argumentiert nun dafür, dass wir nur dann eine BKBals rational bezeichnen sollten, wenn sie zumindest zu einer VKB erwei-tert werden kann. Dabei kann es möglicherweise unterschiedliche Erwei-terungen geben. Gibt es hingegen überhaupt keine solche Erweiterung,so versteckt sich bereits eine Art von Inkonsistenz in unserer ursprüngli-chen BKB und wir sollten zu einer kohärenten neuen BKB wechseln, diezumindest im Prinzip erweiterbar ist. Das scheint mir recht überzeu-gend.

Leider genügt selbst das noch nicht, um eine passende Wahrschein-lichkeitsverteilung zu erhalten, sondern es muss noch eine weitere starkeAnnahme darüber hinzukommen, dass die Ordnung durch die neue VKBauch noch ordnungsdicht ist, d.h., dass es zu zwei Aussagen A und B mitA>B auch noch eine dazwischenliegende Aussage C gibt mit A>C>B.Wir verlangen noch etwas mehr, um schon eine Art von Maßstab aufunserer Menge von Aussagen zu gewinnen, nämlich, dass es eine n-stufi-ge gleichplausible Zerlegung mit bestimmten Eigenschaften gibt, mit de-ren Hilfe wir unsere Aussagen letztlich einstufen können. Dafür wirdzur Not für die Einbettung der BKB in eine entsprechende VKB nocheine Erweiterung der Sprache L zu einer Sprache L* zugelassen.

Page 270: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 258

Wir sagen dann, eine BKB ist geeignet erweiterbar, wenn es eine Er-weiterung * in einer Sprache L* gibt, mit den folgenden Eigenschaften:

Vollständig erweiterbare Bestätigungsbeziehung (VEB)Die BKB „“ ist eine VEB gdw es eine BKB „*“ in einer erweitertenSprache L* gibt, die die folgenden Bedingungen für alle A und B ausL erfüllt:(1) Für alle A und B aus L: AB A*B (Erweiterung)(2) Für alle A und B aus L*: A*B oder B*A (Vollständigkeit)(3) Für alle A und B aus L* gibt es ein nℕ mit: Wenn A>*B, dann

gibt es eine n-stufige gleichplausible Zerlegung Z=(R1,...,Rn)bzgl. *, für die gilt: A>*(BRi) für alle i. (n-Zerlegbarkeit)

Was ist nun mit einer solchen Zerlegung gemeint, die schon auf Savagezurückgeht? Es ist eine Einteilung für unsere Aussagen in L*, die sehrfein ist; so fein, dass der „Abstand“ zwischen A und B jeweils „größer“ist als die der einzeln Ri. Dabei ist eine Zerlegung Z eine Menge vonAussagen mit den folgenden Eigenschaften:

Z ist eine n-stufige gleichplausible Zerlegung in L* bzgl. * gdw.(1) Z=(R1,...,Rn) und(2) die Ri sind gegenseitig inkompatibel

(gewiss*(~(Ri&Rj)) für alle ungleichen i und j)(3) die Ri sind zusammen erschöpfend bzw. gewiss

(gewiss*(R1...Rn))(4) die Ri sind gleichplausibel: Ri=*Rj für alle i und j.

Typische Beispiele für solche Zerlegungen wären etwa Lotterien mit nLosen, von denen nur eines gewinnt. Ri ist dann die Aussage, dass das i-te Los gewinnt. Bei einer fairen Lotterie sind die Bedingungen für eineZerlegung erfüllt. Um die Zerlegungen so fein zu gestalten, dass die Be-dingung A>*(BRi) erfüllt ist, müssen wir n nur groß genug wählen.Auch unser Beispiel mit den Intervallen lässt sich dazu ausbauen. Wir be-nötigen eine Zerlegung in n-Intervalle, die alle dieselbe Plausibilität da-für aufweisen, dass p dort hineingehört. Bei einer Gleichverteilung aufdem Einheitsintervall würde man gleichlange Intervalle wählen, allge-meiner gilt das aber natürlich nicht. Die Intervalle müssen nur jeweils alsgleichplausibel ausgewählt werden, und indem wir sie verkürzen, kön-nen wir auch eine beliebig feine Verteilung erreichen, so dass A>*(BRi)für alle i erfüllt ist. Ist dabei das zu Ri gehörige Intervall in B enthalten,d.h., folgt Ri logisch aus B, so gilt gerade (BRi)=*B, aber es gibt natür-lich auch Intervalle, für die das nicht der Fall ist (schließlich ist B nicht

Page 271: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

259 Thomas Bartelborth: Induktives Schließen

gewiss), und daher gilt für mindestens ein j: (BRj)>*B, weshalb wirnun zugleich die Ordnungsdichtheit gewährleistet haben. Außerdem lie-fern uns die Zerlegungen insgesamt eine Art von Maßstab für die Wahr-scheinlichkeiten. Sie können zumindest eine erste Einteilung und Ein-ordnung der anderen Aussagen vornehmen, die schließlich in der Hier-archie zwischen bestimmten Disjunktionen von Ri’s angesiedelt sind.

Hawthorne (2009) gibt dazu zwei Theoreme an. Erstens gilt, dass je-de Wahrscheinlichkeitsverteilung auf L eine BKB induziert, die eine voll-ständig erweiterbare Bestätigungsbeziehung darstellt. Zweiten gilt einRepräsentationstheorem in der anderen Richtung: Zu jeder BKB „“, diezu einer vollständigen Bestätigungsbeziehung erweiterbar ist, die dieAxiome für VEBs erfüllt, gibt es mindestens eine Wahrscheinlichkeitsver-teilung, die sie induziert. Man könnte nun sagen, die Menge aller zu „“passenden Wahrscheinlichkeitsverteilungen repräsentiert genau den epis-temischen Zustand, der durch die BKB „“ gegeben ist. Die Vagheiten,die in dem Zustand enthalten sind, werden dadurch wiedergegeben,dass wir eine Menge von Verteilungen betrachten. Damit verliert das Ar-gument, dass eine solche Verteilung übergenau sei in der Repräsentationunseres epistemischen Zustands etwas an Kraft.

Wir können dann Eindeutigkeit für die WahrscheinlichkeitsfunktionP erreichen, wenn die Axiome für VEBs bereits für unsere Relation „“gelten. Allerdings müsste unser epistemischer Zustand dann schon sofein ausdifferenziert sein, dass es zu je zwei Aussagen mit A>B, beliebigfeine Zerlegungen gibt. Das ist eine enorm idealisierende Vorstellungund es ist alles andere als klar, welche intuitiven Anforderungen damitfür „“ außer der zunächst genannten Konsistenzforderung für unsereÜberzeugungssysteme entstehen. Die Konsistenzbedingung sorgt zu-nächst nur dafür, dass wir die Aussagen aus L irgendwie im Einheits-intervall ansiedeln können. Dabei können aber noch alle als sehr pausi-bel oder als sehr unplausibel eingestuft werden. Erst die Einführung derZerlegungen als eine Art von Maßstab sorgt dann für eine sinnvolle Ver-teilung auf die konkreten Werte im Einheitsintervall. Die komplexeKonstruktion belegt geradezu, wie groß der Schritt von einer komparati-ven Plausibilitätseinstufung zu einer absoluten Skala wie der Wahr-scheinlichkeitsskala noch ist.

5.3.7 Hawthornes n-stufige GlaubenslogikInteressant an der ganzen Konstruktion ist auch noch eine Verbindungzum kategorischen Glauben g, den Hawthorne hier im Sinne der Lock-eschen Idee findet. Diese Verbindung wird so gestaltet, dass sie eine ers-

Page 272: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 260

te Antwort auf das Lotterie-Paradox anzubieten hat. Deshalb möchte ichsie zumindest kurz besprechen. Dazu müssen wir zunächst zwei sinnvol-le Anforderungen stellen:

A8. Wenn gilt: gewiss(A), dann gilt: g(A)(Gewissheit führt zu Glaube) und

A9. Wenn gilt: AB und g(B), dann gilt: g(A)(Glaube besitzt einen Schwellenwert)

Damit gelangen wir schließlich zu einer Schwellenwertkonzeption desGlaubens für eine Wahrscheinlichkeitsverteilung P. Die könnte eine derfolgenden Formen annehmen:

Schwellenwertkonzeption kategorischen Glaubens(i) g(R) gdw P(A)>q oder(ii) g(R) gdw P(A)q

Dazu schlägt Hawthorne (2009) eine interessante Zusatzregel für unserekomparative Plausibilitätsrelation vor:

A10. (n-Regel): Für alle A1,...,An gilt: Wenn gewiss(A1...An),dann gilt nicht: g(~A1) &...& g(~An)

Das bedeutet, wenn man sich einer n-Disjunktion sicher ist, darf manhöchstens n-1 der Negationen der Disjunkte glauben. Das vermeidet zu-mindest entsprechende Widersprüchlichkeiten bis zur Stufe n. Für Dis-junktionen mit mehr als n Aussagen sagt das allerdings nichts.

Wählen wir nun q>(n-1)/n, so erfüllt die Schwellenwertkonzeptiondes Glaubens automatisch die n-Regel. Wenn etwa gilt gewiss(A1...An), so muss P(A1...An)=1 sein, da Gewissheit ebenso große Wahr-scheinlichkeit verlangt wie die einer Tautologie. Nun ergibt ein wenigRechnen:

1 = P(A1...An) P(A1)+...+P(An) = [1–P(~A1)]+...+[1–P(~An)]= n–P(~Ai), also: (*) P(~Ai) n–1.

Das wäre aber nicht erfüllbar, wenn für all i gelten würde: P(~Ai) q > (n–1)/n, denn dann wäre P(~Ai) nq > n (n–1)/n = n im Wi-derspruch zu (*).

Also könnten wir nicht alle ~Ai im Sinne der Schwellenwertkonzeptionglauben, wenn wir uns der Disjunktion A1...An sicher wären, geradeso, wie es die n-Regel verlangt.

Angewandt auf das Vorwortparadox (mit Ai=i-te Aussage ist falsch)bedeutet das: Wenn wir uns sicher sind, dass bei n Aussagen unseres Bu-

Page 273: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

261 Thomas Bartelborth: Induktives Schließen

ches eine falsch ist, so dürfen wir nicht mehr alle Aussagen glauben. Biszu n Aussagen sind wir durch die n-Regel also vor dem Vorwortparadoxgeschützt, bei einem Schwellenwert von q>(n–1)/n, allerdings nichtmehr darüber hinaus. Für mehr als n Aussagen kann es wieder auftreten.

Außerdem soll eine entsprechende Regel für Konjunktionen gelten:

A11. (n*-Regel): Für alle A1,...,An+1 gilt: Wenn für alle ij gilt:gewiss(~[Ai&Aj]), dann gilt: g(~A1) &...& g(~An+1)

Wenn wir uns für die n+1 Aussagen bereits sicher sind, dass höchstenseine davon wahr sein kann, dann sollten wir wenigstens eine der Nega-tionen der Aussagen glauben. Auch das ist eine weitere Regel zur Ver-meidung von Widersprüchlichkeiten zwischen „gewiss“ und „g“.

Mit Hilfe der Axiome A1-A11 definiert Hawthorne (2009) dann sei-ne n-stufige Glaubenslogik:

Basale n-stufige Glaubenslogik (nach Hawthorne)Ein Paar von Operatoren (,g)n definiert über einer Sprache L, dasdie Axiome A1-A11 erfüllt, heiße eine basale n-stufige Glaubenslo-gik.

Hawthorne zeigt dafür, dass man mit dieser Glaubenslogik Widersprü-che wie im Lotterieparadox oder im Vorwortparadox bis zur Stufe n ver-meiden kann. Außerdem gibt es hier auch wieder passende Wahrschein-lichkeitsverteilungen P zu solchen Glaubenslogiken. Wählen wir etwa:

g(A) gdw P(A)q, mit n/(n+1)>q>(n–1)/n,

so ergibt sich eine basale n-stufige Glaubenslogik. Ist umgekehrt einesolche Logik wieder konsistent erweiterbar (in ähnlicher Weise, wie wirdas schon für die BKBs kennengelernt haben), so ist sie auf entsprechen-de Weise durch eine Wahrscheinlichkeitsverteilung P repräsentierbar.Hawthorne stellt also auf recht komplizierte Weise wieder einen Zusam-menhang zwischen Wahrscheinlichkeitsverteilungen und Glaubenslogi-ken her, der einige der Vorteile der probabilistischen Behandlung derParadoxien (bis zur Stufe n) erhalten kann.

Das ist ein hilfreicher erster Schritt zur Untersuchung des Zusam-menhangs der beiden Ansätze, aber sicher noch nicht das Ende der De-batte. So wird u.a. deutlich, dass die Stufe der Glaubenslogik von der je-weiligen Sprache abhängt. Ein Wechsel der Sprache etwa zu einer feine-ren Beschreibung derselben Sachverhalte (man denke nur an mein Bei-spiel der Intervalle, in dem offensichtlich ist, wie wir aus einer Aussagemehrere machen können) lässt die grundlegenden Zusammenhänge lei-

Page 274: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 262

der nicht invariant. Trotzdem zeigen sich hier interessante Zusammen-hänge zwischen beiden Ansätzen und wir können schon erkennen, dassdie nicht einfach beschaffen sind, auch wenn wir uns wieder einerSchwellenwertkonzeption verschrieben haben. Außerdem sind der kom-parative Bestätigungsbegriff und die darauf aufbauende Glaubenslogikauch für sich genommen interessante Vorstufen zu probabilistischen An-sätzen, die es weiter zu erkunden gilt. Insbesondere belegen die Überle-gungen aber auch, was alles in einem probabilistischen Überzeugungssys-tem enthalten ist. Es ist keineswegs harmlos oder inhaltsarm, von einerprobabilistischen Bewertung all unserer Überzeugungen auszugehen. Dasist im Gegenteil ein anspruchsvoller Schritt über den klassischen Ansatzhinaus und selbst für einen komparativen Ansatz sind einige Anforde-rungen zu erfüllen, bis wir sicherstellen können, dass er zumindest eineprobabilistische Repräsentation besitzt.

5.3.8 Bayessche NetzeEin Problem des probabilistischen Ansatzes war die unübersehbar großeAnzahl an Glaubensgraden bzw. subjektiven Wahrscheinlichkeiten, diewir benötigen, um ein solches Überzeugungssystem vollständig zu be-schreiben. Eine Frage ist deshalb, wie wir etwa bestimmtes schon vor-handenes Wissen z.B. über kausale Zusammenhänge einbringen können,um die Anzahlen wieder deutlich zu verringern.

Probabilistische Überzeugungssyteme werden dazu oft mit einer ge-wissen Struktur gedacht. Wir haben nicht nur eine amorphe Masse vonAussagen vor uns mit einer gemeinsamen Wahrscheinlichkeitsverteilungdarauf, sondern eine komplexere Struktur von Rechtfertigungsbeziehun-gen und dementsprechenden probabilistischen Unabhängigkeiten zwi-schen diesen Aussagen. Dabei haben sich vor allem bayesianische Netze(bzw. bayessche Netze) als Modell für diese Zusammenhänge durchge-setzt, auf die wir im Rahmen des kausalen Schließens noch zurückkom-men werden. Jedenfalls hat es sich als sehr hilfreich erwiesen, probabilis-tische Unabhängigkeitsbeziehungen zwischen Aussagen durch entspre-chende Graphen darzustellen. Auch das Problem, konsistente Wahr-scheinlichkeiten zu erhalten, lässt sich mit Hilfe der bayesschen Netzelösen.

Bayessche Netze enthalten also zunächst einen Graphen G. EinGraph G=<V, E> besteht aus einer Menge V von Knoten oder Ecken(vertices) und einer Menge E von Kanten (edges), die wir formal etwadurch geordnete Paare (v,w) von Knoten beschreiben können, wenn dieKanten gerichtet sind und z.B. durch Doppelpaare (v,w) und (w,v),

Page 275: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

263 Thomas Bartelborth: Induktives Schließen

wenn die Kanten ungerichtet sind. Anschaulich lässt sich die Konzeptionvon Graphen leicht verstehen und die gerichteten Kanten sollen inhalt-lich etwa die Richtung von direkten Kausalbeziehungen wiedergeben.Allgemein werden die Aussagen durch die Knoten des Graphen oderNetzes angegeben und die Abhängigkeiten als die Kanten des Graphen.Dann lassen sich selbst komplexere Unabhängigkeitsbeziehungen als to-pologische Eigenschaften des Graphen verstehen. Man spricht davon,dass im Zusammenhang des Graphen bestimmte Knoten andere Knotenvoneinander trennen oder separieren (vgl. Beierle & Kern-Isberner2008, Neapolitan 2004, 2009). Dadurch lassen sich etwa kausale Unab-hängigkeitsbeziehungen anschaulich darstellen. Kausalbeziehungen wer-den typischerweise durch einen gerichteten Graphen wiedergegeben, beidem die Kanten jeweils orientiert sind und eine Ursache-Wirkungsbezie-hung repräsentieren. Jedenfalls stellt man sich bestimmte Zusammen-hänge zwischen Aussagen − gerade im Bereich der Wissenschaften − alseine gerichtete Struktur vor, bei der auch die Begründungsbeziehungenin einer Richtung verlaufen und sich etliche statistische Unabhängigkei-ten dadurch ergeben. So sinkt die Informationsmenge bzw. Menge anWahrscheinlichkeiten, die wir zur Verfügung haben müssen, um über al-le Zusammenhänge im Netz Bescheid zu wissen, deutlich. Das lässt dasganze Modell wieder etwa humaner und realistischer erscheinen, dennich hatte schon darauf hingewiesen, dass wir für n Aussagen ansonstenüber 2n Wahrscheinlichkeiten verfügen müssten, was sich schon für we-nige Aussagen als extreme große Menge an Informationen entpuppt. Imeinfachsten Fall ausschließlich probabilistisch unabhängiger Aussagenlassen sich etwa alle Konjunktionen durch die entsprechenden Produktevon Wahrscheinlichkeiten berechnen und wir benötigen nur noch nWahrscheinlichkeiten.

Üblicherweise dienen sogenannte bayessche Netze dazu, bereits be-kannte kausale Zusammenhänge zu modellieren und man denkt sichdann die Begründungszusammenhänge bzw. den Informationsfluss imNetz als parallel zu den kausalen Zusammenhängen gestaltet. Die kausa-le Struktur stellt man sich dabei als gerichtetes Netz vor, das keine Rück-kopplungen oder Schleifen enthält, das also azyklisch ist. Diese Netzewerden auch als DAGs bezeichnet für „directed acyclic graph“. Die pro-babilistischen Unabhängigkeitsbeziehungen können wir dann anhand dersogenannten d-Separation (d für „directed“) aus der Topologie des Net-zes ableiten (s. ausführlicher Kap. 7.3.8) und somit die Anzahl der benö-tigten Wahrscheinlichkeiten erheblich reduzieren.

Page 276: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 264

Für eine Reihe von Anwendungen konnte man auf diesem Wege er-folgreiche Expertensysteme aufbauen (vgl. Beierle & Kern-Isberner2008, Neapolitan 2004). Diese bayesianischen Netze stellen letztlich dasbayesianische Schließen für den etwas komplexeren Fall als dem im Bei-spiel des Dschungelfiebers dar, und wir werden uns das an einem Bei-spiel von Neapolitan (2004, 4 ff.) kurz anschauen. Doch dazu benötigenwir zunächst noch einige formale Konzepte, die dabei zum Einsatz kom-men.

Zufallsvariablen (oder Aussagenvariablen, die Aussagen als Werte an-nehmen vgl. dazu Beierle & Kern-Isberner 2008, Anhang A) sind zu-nächst Funktionen X:ℝ eines Grundraumes von Ereignissen etwain einen Zahlenraum ℝ meist die Menge der reellen Zahlen oder ineinen Raum, der auf andere Weise die Ausprägung bestimmter Eigen-schaften darstellt. Die Zufallsvariablen dienen u.a. dazu, bestimmte Er-gebnisse von Zufallsprozessen zu beschreiben. So kann einem Wurf mitdrei Würfeln z.B. die Summe der Augen der Würfel zugeordnet werden.Dann erhalten wir eine Wahrscheinlichkeitsverteilung für die Zufallsva-riable X als Verteilung auf der Menge der Ergebnisse, die X annehmenkann. So schreiben wir etwa (X=3) für das Urbild der 3 unter X, alsofür die Menge aller Würfe mit insgesamt drei Augen: {; X()=3}.Da es dafür nur ein Elementarereignis gibt, gilt P(X=3)=1/216, wenn essich um faire Würfel handelt.

Oft bestimmen wir den Grundraum aber überhaupt nicht mehr,sondern wenden uns direkt den Wahrscheinlichkeiten für die Werte derZufallsvariablen X zu. Wir benötigen eigentlich nur die Wahrscheinlich-keiten dafür, dass X bestimmte Ergebnisse annimmt, um mit diesen Zu-fallsvariablen rechnen zu können (oder die Wahrscheinlichkeiten für be-stimmte Aussagen, die solche Ergebnisse repräsentieren). Dann ersparenwir uns gerne die Konstruktion eines ursprünglichen Grundraums (vgl. Neapolitan 2004, Kap. 1.2.2), der oftmals nicht leicht zu konstruie-ren wäre. Die Zufallsvariablen stehen dann einfach für kausale Fakto-ren, die bestimmte Ausprägungen annehmen können. So könnte X fürdie Stärke oder Häufigkeit der Nebenwirkungen stehen oder für die An-zahl der eingenommenen Tabletten etc. und unsere Wahrscheinlichkeits-verteilung sagt uns, wie häufig diese Nebenwirkungen im Durchschnittauftreten. Jedenfalls benötigen wir nur noch die Wahrscheinlichkeitendes Typs P(X=x), die danach fragen, wie wahrscheinlich es ist, dassunsere Zufallsvariable X genau den Wert x annimmt, ohne das über dieWahrscheinlichkeiten im Grundraum berechnen zu wollen.

Page 277: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

265 Thomas Bartelborth: Induktives Schließen

Unsere bisherigen dichotomen Variablen (oder Aussagenvariablen) Asind eine Art von Sonderfall davon und lassen sich durch eine Zufallsva-riable mit den Werten 0 und 1 charakterisieren. Die Wahrheit von Awird dann etwa durch X=1 und die Falschheit von A durch X=0 wie-dergeben, aber wir wissen eben nicht genau, welcher Wert in unseremFall zutrifft und das wird durch die Wahrscheinlichkeitsverteilung für Xangegeben. Statt mit P(A) arbeiten wir dann etwa mit P(X=1). Außer-dem werden bestimmte Konstellationen von Zufallsvariablen X1,...,Xn

auf einfache Weise dargestellt, so schreiben wir vereinfachend:

P(x1,...,xn) := P(X1=x1 &...& Xn=xn)

für die Wahrscheinlichkeit, dass unsere Zufallsvariablen gerade die Wer-te x1,...,xn annehmen, bzw. für die gemeinsame Verteilung der Zufallsva-riablen X1,...,Xn. Insbesondere müssen wir nun nicht mehr nur einfacheKorrelationen von Zufallsvariablen berücksichtigen, sondern haben aucheine komplexere Definition der statistischen Unabhängigkeit anwenden:

Danach sind zwei Zufallsvariablen X und Y statistisch unabhängig,wenn für alle Werte x und y aus ihren jeweiligen Wertebereichen gilt:P(x|y)=P(x) bzw. äquivalent dazu: P(x,y)=P(x)P(y),d.h., dass die Wahrscheinlichkeit mit der die eine Zufallsvariable be-stimmte Werte annimmt, völlig unabhängig davon ist, welche Wertedie andere gerade annimmt. Wir schreiben dafür auch: XY.Außerdem schreiben wir später auch noch (XY|Z), wenn wir damitzum Ausdruck bringen möchten, dass X und Y statistisch unabhängigsind gegeben die Variable Z. Für jeden vorgegebenen Wert von Zsind also die Werte von X und Y statistisch unabhängig.

Damit es sich bei P um eine solche gemeinsame Wahrscheinlichkeitsver-teilung der n Zufallsvariablen X1,...,Xn handelt, sind noch zwei Bedin-gungen zu erfüllen:

(1) 0P(x1,...,xn)1 für alle möglichen Wertekombinationen x1,...,xn

(2) gesamt P(x1,...,xn)=1

Dabei wird in (2) die Summe über alle Wertekombinationen x1,...,xn ge-bildet, die unsere Zufallsvariablen annehmen können. Nehmen wir alseinfaches Beispiel zwei Zufallsvariablen X und Y, die einfach die Ergeb-nisse zweier Würfel darstellen. Sie können dann die 36 Kombinationen(1,1), (1,2),..., (6,6) annehmen und sollten für jede Kombination denWahrscheinlichkeitswert 1/36 für zwei faire Würfel ergeben.

Page 278: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 266

Wir können natürlich auch eine neue Zufallsvariable Z=X+Y ein-führen, die die Werte von 2 bis 12 annehmen kann und dann eine etwaskomplexere Wahrscheinlichkeitsverteilung aufweist, die sich aber leichtausrechnen lässt. So ist etwa P(3)=1/18, weil es zwei Kombinationenvon X und Y gibt, nämlich (1,2) und (2,1), die gerade als Summe 3 erge-ben. Kennen wir die gemeinsame Verteilung von X und Y können wirleicht alle Wahrscheinlichkeiten im Zusammenhang mit diesen beidenZufallsvariablen ausrechnen. Wie hoch ist etwa die WahrscheinlichkeitP(x<3,y>4|y ist gerade)? Wenn y gerade ist, dann kann sich die vorde-re Bedingung nur auf die Fälle (1,6) und (2,6) beziehen und ergibt:1/18.

Allgemeiner lassen sich also neue Zufallsvariablen einschließlichihrer Wahrscheinlichkeitsverteilung konstruieren. Nehmen wir an, dasswir die 4 Zufallsvariablen X, Y, Z und W kennen, und die können je-weils bestimmte Werte xi, yj, zk und wl annehmen (die jeweiligen Werte-bereiche sollen diskret und endlich sein, sind aber ansonsten beliebig zudenken). Außerdem kennen wir bereits die gemeinsame Verteilungsfunk-tion P für unsere Variablen, dann lassen sich damit z.B. die folgendenWahrscheinlichkeiten ausrechnen:

(1) P(zk) = i,j,l P(xi, yj, zk, wl)

Das heißt, die Wahrscheinlichkeit dafür, dass Z gerade den Wert zk an-nimmt, ergibt sich, indem wir über alle Werte der gemeinsamen Vertei-lung aufsummieren, in denen dieser Wert für Z realisiert ist. Das sindeinfach alle disjunkten Fälle, in denen Z diesen Wert annimmt. Die zu-sammengenommen sind für uns alle Fälle, in denen zk auftritt. (Das isteine Variante des Theorems der totalen Wahrscheinlichkeit.) Entspre-chend können wir auch alle bedingten Wahrscheinlichkeiten im Prinzipausrechnen:

(2) P(yj|zk,wl) = P(yj,zk,wl)/P(zk,wl) =i P(xi, yj, zk, wl)/i,j P(xi, yj, zk, wl)

Umgekehrt können uns manchmal bestimmte bedingte Wahrscheinlich-keiten bereits genügen, um die gemeinsame Wahrscheinlichkeitsvertei-lung festzulegen, was wir uns an einem Beispiel von Neapolitan (2004, 4ff.) anschauen wollen. Dazu betrachten wir ein kleines bayesianischesNetz (1) mit 5 Zufallsvariablen, die wir zunächst in einer Tabelle darstel-len wollen:

Page 279: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

267 Thomas Bartelborth: Induktives Schließen

Variable Werte Bedeutung der Werte

Hh1 Es gibt eine Rauchervorgeschichte.h2 Es gibt keine Rauchervorgeschichte.

B b1 Bronchitis liegt vor.b2 Bronchitis liegt nicht vor.

Ll1 Lungenkrebs liegt vor.l2 Lungenkrebs liegt nicht vor.

Ff1 Müdigkeit liegt vor.f2 Müdigkeit liegt nicht vor.

Cc1 Die Röntgenaufnahme des Thorax ist

positiv.

c2 Die Röntgenaufnahme des Thorax istnegativ.

Tabelle 5.2: Ein kleines bayesianisches Netz

Dazu gibt es eine kleine kausale Geschichte, die auch die probabilisti-schen Beziehungen beschreibt. So erhöht die Rauchervorgeschichte dasRisiko für Lungenkrebs und ebenfalls für Bronchitis. Sowohl Lungen-krebs wie auch Bronchitis führen häufig zu Müdigkeit, aber nur derLungenkrebs erhöht die Wahrscheinlichkeit für eine „positive“ Röntgen-aufnahme des Thorax. Damit können wir die Zusammenhänge als einNetz (1) wie folgt darstellen:

Bayessches Netz 1: Lungenkrebs

Die hier auftretenden bedingten Wahrscheinlichkeiten liefern uns danneine gemeinsame Wahrscheinlichkeitsverteilung unserer 5 Zufallsvaria-blen, weil die anderen möglichen Zusammenhänge als Fälle von proba-bilistischer Unabhängigkeit gedacht werden. Darauf kommen wir in Ka-pitel 7 im Zusammenhang mit Kausalschlüssen noch ausführlicher zu-rück. In unserem Beispiel starten wir mit einer „Vorher-Wahrscheinlich-keit“ für H und dann entsprechenden bedingten Wahrscheinlichkeiten.

Page 280: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 268

Wahrscheinlichkeiten in unserem Netz (1)

P(h1)=0,2 P(b1|h1)=0,25 P(f1|b1,l1)=0,75

P(h2)=0,8 P(b1|h2)=0,05 P(f1|b1,l2)=0,10

P(l1|h1)=0,003 P(f1|b2,l1)=0,5

P(l1|h1)=0,0005 P(f1|b2,l2)=0,05

P(c1|l1)=0,6

P(c1|l2)=0,02

Tabelle 5.3: Wahrscheinlichkeiten für ein kleines bayesianisches Netz

Mehr als diese 12 (bedingten) Wahrscheinlichkeiten benötigen wir nunnicht mehr. (Für den Wurzelknoten könnten wir sogar noch eine einspa-ren.) Wenn etwa X z.B. ein direkter Vorfahr von Y im Netz ist, d.h. X istdirekte Ursache von Y, so geben die Werte jeweils an, wie wahrscheinlichdie verschiedenen „Ursachenwerte“ x für X sind, und legen dann nochzusätzlich fest, mit welcher Wahrscheinlichkeit der Knoten Y in den je-weiligen Fällen bestimmte Werte y annimmt, wenn seine Ursache geradex ist. Dadurch ist mit Hilfe der Kausalbeziehung jede Auftretenswahr-scheinlichkeit im Netz eindeutig bestimmt.

Nur 12 Werte festlegen zu müssen, bietet immerhin schon eine deut-liche Ersparnis gegenüber den 25=32 Werten, die wir ohne unsereStruktur angeben müssten. Auf der Grundlage dieser bedingten Wahr-scheinlichkeiten können wir dann weitere Wahrscheinlichkeiten gemäßunseren Formeln ausrechnen. Hilfreich ist dazu die allgemeine Kettenre-gel, die sich schnell aus der wiederholten Anwendung der Produktregelfür Wahrscheinlichkeiten ergibt.

Kettenregel: P(x1, ..., xn) = P(xn|xn–1, xn–2, ..., x1)· ... ·P(x2|x1)P(x1)

Für bayesianische Netze gilt außerdem die Markov-Bedingung (vgl. auchKap. 7), wonach die Wahrscheinlichkeiten für eine Variable nur von denbedingten Wahrscheinlichkeiten (gegeben sind dabei die Elternvariablender Variablen) im Netz abhängig sind. Oder anders ausgedrückt: Die El-tern paj (mit p für parents) der Variablen Xj schirmen die Variable Xj sta-tistisch von allen anderen Variablen ab (außer von den Nachkommenvon Xj). Das heißt, es gilt dann die folgende Regel, die bayesianischeNetze charakterisiert, die sich durch geschickte Anordnung der Faktorenmit Hilfe der Kettenregel ableiten lässt:

Markov Bedingung:P(xn,..., x1) = P(xn|pan)P(xn–1|pan–1)· ... ·P(x1|pa1),

Page 281: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

269 Thomas Bartelborth: Induktives Schließen

für den Fall, dass die bedingten Wahrscheinlichkeiten auf der rechtenSeite alle existieren.

Diese Forderung scheint uns für kausale Beziehungen geradezuselbstverständlich zu sein. Wenn wir alle direkten Ursachen U einer Wir-kung W kennen, dann sollte uns gemäß der Markov Bedingung dieKenntnis der vorhergehenden Ursachen V von W keine zusätzlichen In-formationen über das Auftreten von W mehr geben. Wir können dannausrechnen, mit welcher Wahrscheinlichkeit die entsprechenden Wir-kungen eintreten. Das entspricht ganz unserer intuitiven Vorstellung vonkausalen Strukturen. Damit erhalten wir:

Bayessche Netze (G,P) sind gerichtete azyklische Graphen G mit Zu-fallsvariablen als Knotenpunkten und einer gemeinsamen Wahr-scheinlichkeitsverteilung P darauf, die die Markov-Bedingung erfüllt,d.h., dass die Unabhängigkeitsbeziehungen im Graphen G von derVerteilungsfunktion P respektiert werden. (Weiteres im Rahmen derDebatte um Kausalität s. Kap. 7)

Ein bayessches Netz ist also ein azyklischer gerichteter Graph mit einerdazu passenden gemeinsamen Wahrscheinlichkeitsverteilung auf denKnoten, die uns bereits optisch die probabilistischen Unabhängigkeitsbe-ziehungen von P erkennen lässt. Für den einfachen Fall eines kleinenNetzes (2) XYZ ergibt sich damit:

(für Netz 2) P(x, y, z) = P(z|y)P(y|x)P(x)

Im Falle unseres Netzes (1) ergibt sich:

(für Netz 1) P(f,c,b,l,h) = P(f|b,l)P(c|l)P(b|h)P(l|h)P(h),

Jetzt beherrschen wir alle Informationsflüsse in unseren Netzen undkönnen beliebige Wahrscheinlichkeiten darin berechnen. Wenn wir etwaberechnen möchten, wie hoch die Wahrscheinlichkeit für Lungenkrebsist, für jemanden, der eine Rauchervorgeschichte hat und ein positivesErgebnis beim Röntgen, so können wir das im Prinzip nun ausrechnen.Allerdings sind immer noch sehr viele Rechenschritte nötig. In Neapoli-tan (2004) und Beierle & Kern-Isberner (2008) werden einige Algorith-men vorgestellt, mit denen sich die Anzahl der Rechenschritte weiter re-duzieren lässt. Dabei werden z.B. mehrere Knoten zusammengenom-men, um die Komplexität des Netzes zu reduzieren. Leider bleiben dieVerfahren für tatsächliche Berechnungen trotzdem noch recht umständ-lich, weshalb man typischerweise eine entsprechende Software für baye-sianische Netze zu diesem Zweck einsetzt. Der Leser kann sich einmal

Page 282: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 270

an der Berechnung von P(l1|h1,c1) versuchen, um die Berechnungspro-blematik ernst zu nehmen. Uns genügt es aber hier zu zeigen, wie wir imPrinzip solche Berechnungen durchführen können.

Wie sich die Berechnungen tatsächlich für einfache Netze vereinfa-chen, mag das folgende Beispiel von Neapolitan (2009, 100 ff.) ein we-nig veranschaulichen (Netz 3):

X Y Z WP(x1)=0,4 P(y1|x1)=0,9 P(z1|y1)=0,7 P(w1|z1)=0,5

P(y1|x2)=0,8 P(z1|y2)=0,4 P(w1|z2)=0,6

Netz 3: eine einfache (kausale) Kette

Dabei gehen wir davon aus, dass jede Zufallsvariable jeweils zwei Werteannehmen kann. Dann sind das die einzigen Wahrscheinlichkeiten, diewir benötigen, da sich die restlichen Werte wie etwa P(x2)=1-P(x1) je-weils daraus ergeben. Außerdem können wir nun leicht ermitteln, wieder Informationsfluss im Netz aussieht. In Pfeilrichtung können wir vonkausalen Schlüssen sprechen und in der Gegenrichtung spricht man vondiagnostischen Schlüssen. Zunächst bietet es sich an, die unbedingtenWahrscheinlichkeiten der Knoten mit Hilfe des Theorems der totalenWahrscheinlichkeit zu berechnen:

P(y1) = P(y1|x1)P(x1) + P(y1|x2)P(x2) = 0,90,4 + 0,80,6 = 0,84und entsprechendP(z1) = P(z1|y1)P(y1) + P(z1|y2)P(y2) = 0,652P(w1) = P(w1|z1)P(z1) + P(w1|z2)P(z2) = 0,5348

Als nächstes können wir nun verfolgen, wie sich bestimmte Informatio-nen im Netz ausbreiten. Nehmen wir etwa an, wir erfahren, dass für Xgerade x1 realisiert wurde. Was bedeutet das für die Wahrscheinlichkeitder anderen Faktoren? Was passiert etwa für Y und was für Z und W?Das berechnen wir mit Hilfe der Kettenregel und der Markov-Bedin-gung:

P(y1|x1) = 0,9P(z1|x1) = P(z1|y1,x1)P(y1|x1) + P(z1|y2,x1)P(y2|x1) =

P(z1|y1)P(y1|x1) + P(z1|y2)P(y2|x1) = 0,67P(w1|x1) = P(w1|z1,x1)P(z1|x1) + P(w1|z2,x1)P(z2|x1) =

P(w1|z1)P(z1|x1) + P(w1|z2)P(z2|x1) = 0,533

Page 283: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

271 Thomas Bartelborth: Induktives Schließen

Im ersten Berechnungsschritt nutzen wir nur die Regel der totalen Wahr-scheinlichkeit, während wir uns im zweiten dann auf die Markov-Bedin-gung für Aussagen A, B und C stützen:

Die eingesetzten Rechenregeln:(1) P(A|C) = P(A|C,B)P(B) + P(A|C,~B)P(~B) und dann(2) P(A|C,B)P(B) + P(A|C,~B)P(~B) =

P(A|B)P(B) + P(A|~B)P(~B),falls A unabhängig ist von C gegeben B.

Dabei ergibt sich also im zweiten Schritt ein einfaches und nachvollzieh-bares Muster, das auch für längere Pfade Bestand hat. In der anderenRichtung können wir diagnostische Schlüsse mit Hilfe des bayesschenTheorems vollziehen. Wenn wir etwa wissen, dass w1 realisiert wurdeund möchten wissen, was das für Z und Y und X bedeutet, können wirso vorgehen:

P(z1|w1) = P(w1|z1)P(z1) / P(w1) = 0,6069 und entsprechend:P(y1|w1) = P(w1|y1)P(y1) / P(w1), hierbei fehlt uns allerdings nochdie bedingte Wahrscheinlichkeit P(w1|y1), die wir erst noch gemäßdem oberen Verfahren ermitteln müssten usf.

Damit ist zumindest für einfache Pfade deutlich geworden, wie wir hierrechnen können. Für komplexere Fälle gibt es – wie gesagt – noch spe-ziellere Algorithmen, um die Berechnungen zu vereinfachen, aber dasüberlassen wir lieber dem Computer. Uns genügt es zu wissen, wie dieseRechnungen im Prinzip funktionieren, wenn wir ein bayessches Netz voruns haben.

Bayessche Netze werden allerdings nicht nur eingeführt, um kausaleBeziehungen wiederzugeben, sondern dienen ebenso dazu, bestimmte in-ferentielle Zusammenhänge und Unabhängigkeiten anschaulich darzu-stellen. In Bovens & Hartmann (2006) wird z.B. untersucht, wie sichunterschiedliche Zeugenaussagen oder wie sich unterschiedliche Mes-sungen auf die Wahrscheinlichkeit einer Hypothese auswirken. Dabeiwird immer wieder eine (oder mehrere) Zufallsvariable(n) Rel einge-führt, die die jeweilige Zuverlässigkeit der Zeugen bzw. die Zuverlässig-keit der Messungen (bzw. Hilfshypothesen) repräsentieren soll. Damitwird natürlich nicht unbedingt behauptet, dass Rel einen eigenständigenkausalen Faktor wiedergibt, sondern nur, dass es sich dabei um einen ineiner bestimmten Modellierung der Zusammenhänge relevanten Para-meter handelt, der von anderen Parametern oder Aspekten der Situation(kausal) abhängig bzw. unabhängig ist. Dessen Abhängigkeit von ande-

Page 284: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 272

ren Faktoren bzw. die Unabhängigkeiten verschiedener Zeugen in punc-to Zuverlässigkeit können dann in Form eines bayesschen Netzes sicht-bar gemacht werden, wodurch die unterschiedlichen Modelle, die indem Buch diskutiert werden, leichter nachvollziehbar sind. Die jeweili-gen Unabhängigkeitsannahmen sind direkt aus dem Netz ersichtlich.

Bayessches Netz 4: Drei Zeugenaussagen

Dabei soll Hyp die Behauptung der drei Zeugen darstellen (bzw. einewissenschaftliche Hypothese) und Rep die Aussagen der Zeugen (bzw.die Messergebnisse), während der Faktor Rel die jeweilige Zuverlässig-keit der Zeugen (bzw. die der Messgeräte) angeben soll. Unser Netz be-sagt dann z.B., dass in dieser Modellierung ihre jeweilige Zuverlässigkeitvoneinander unabhängig ist und sowohl die Wahrheit der Behauptungwie auch die Zuverlässigkeit der Zeugen Einfluss darauf hat, was dieZeugen behaupten. Wir können in einem solchen Netz nicht nur auf dieWahrscheinlichkeit für die Behauptung der Zeugen schließen, sondernes auch in der anderen Richtung nutzen und etwa auf die Zuverlässig-keitsfaktoren schließen (vgl. Boven & Hartmann 2006). Wir werdenspäter auf diese Anwendungen noch einmal zurückkommen, wenn wirbesprechen, wie sich Zeugenaussagen im bayesianischen Rahmen einbin-den lassen.

Der Einsatz dieser bayesschen Netze ist m.E. aber schon deshalb sobedeutsam, weil er nun das einbringt, was nach meinen früheren Aus-führungen von entscheidender Bedeutung ist für das induktive Schlie-ßen, was aber im Bayesianismus bisher nicht zu finden war, nämlichunser kausales Hintergrundwissen darüber, wie bestimmte Faktoren inunserer Welt untereinander kausal zusammenhängen. Man erkennt dassehr schön in den Überlegungen von Bovens & Hartmann (2006), indenen die Autoren unterschiedliche Situationen, die sich durch Zeugen-aussagen oder Messungen ergeben können, zunächst durch ein bayes-

Page 285: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

273 Thomas Bartelborth: Induktives Schließen

sches Netz modellieren, das unsere kausalen Kenntnisse über die Zusam-menhänge in diesen Beispielen einbringt, und dieses dann als Grundlagefür ihre bayesianischen Berechnungen verwenden. Genau genommenkönnen wir sagen, dass wir uns damit schon wieder ein gutes Stück weitvom klassischen Bayesianismus entfernen, denn es zählen nun nichtmehr nur unsere einfachen Wahrscheinlichkeitsschätzungen, sondern eswerden explizit kausale Annahmen eingespeist – erst durch das Netzund dann durch den entsprechenden Einfluss, das unser Netz auf unsereBerechnungen hat. Aus meiner Sicht versucht der Bayesianismus an die-ser Stelle ein Versäumnis zu berichtigen, dem er bis dahin unterliegt.Dass es sich dabei um ein Versäumnis handelt, dafür habe ich bereits inKapitel 1.4.3 anhand von Beispielen argumentiert, in denen deutlichwurde, wie insbesondere unsere kausalen Annahmen unsere weiteren in-duktiven Schlüsse beeinflussen. Hier gehen solche kausalen Annahmenin die Gestaltung unserer Netze und damit in unsere Modellierung derSituation ein, und beeinflussen so massiv die bayesianischen Berechnun-gen der Wahrscheinlichkeiten.

Eine spannende Teilaufgabe für entsprechende bayesianische Berech-nungen nennt sich auch im Rahmen der bayesschen Netze abduktiveSchlüsse. Dabei geht es darum, zu bestimmten Symptomvariablen S1,...,Sr

die Krankheitsvariablen D1,...,Dn zu finden, die dazu die wahrschein-lichsten Erklärungen bieten. Das wird in Neapolitan (2004, Kap. 4.3)aber so gedeutet, dass wir die Einstellungen d suchen, die zu den vorge-geben Symptomen d am wahrscheinlichsten werden:

Bayesianische Abduktion: Wähle d so, dass P(d|m) maximal ist.

Das ist eine typisch bayesianische Herangehensweise an die Abduktion.Alle klassischen abduktiven Ansätze würden stattdessen verlangen, dassd so zu wählen ist, dass vor allem P(m|d) möglichst groß wird. Dabeisind die di etwa als (Krankheits-)Hypothesen konzipiert und m repräsen-tiert jeweils die Daten bzw. Symptome. Dann werden abduktiv dieHypothesen ausgewählt, die die Daten am wahrscheinlichsten erschei-nen lassen, während der Probabilist obendrein den Hypothesen Wahr-scheinlichkeiten zuordnet und daher auch diesen anderen Weg einschla-gen kann. Warum man den unbedingt als Abduktion bezeichnen sollte,ist mir aber keineswegs klar. Allerdings gibt es natürlich gewisse Zusam-menhänge zwischen beiden Wegen. Nur dass für die bayesianische Ab-duktion wieder die Vorher-Wahrscheinlichkeiten das Verfahren prägen,während für die klassische Abduktion die Frage im Vordergrund steht,wie gut die Theorien die Daten erklären können.

Page 286: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 274

5.3.9 Das DogmatismusverbotOft wird dem Bayesianismus vorgeworfen, dass er zu subjektiv sei unddie Ausgangswahrscheinlichkeiten bzw. die Ausgangsglaubensgrade zuwillkürlich bestimmt würden. Deshalb suchen Bayesianer immer wiedernach sinnvollen Möglichkeiten, diese „Vorher-Wahrscheinlichkeiten“weiter zu begrenzen. Eine solche Forderung findet sich im sogenanntenDogmatismusverbot.

Darin wird verlangt, dass nur analytisch wahren oder falschen Aussa-gen die Wahrscheinlichkeiten 1 oder 0 zugeschrieben werden dürfen.

Dogmatismusverbot: Ist A weder eine analytisch noch logisch wahrebzw. falsche Aussage, so gilt: 0<P(A)<1.

Das sieht zunächst recht plausibel aus und setzt nur den Fallibilismusum, den wir üblicherweise mit unserer wissenschaftlichen Methodologieverbinden. Wir müssen danach immer zumindest die Möglichkeit be-rücksichtigen, dass sich eine empirische Behauptung als falsch (oderauch als wahr) erweisen kann. Für den Bayesianer ist jedenfalls klar, dasseine einmal auf 1 oder 0 gesetzte Wahrscheinlichkeit nicht wieder durchirgendwelche Daten E zu revidieren ist. Dazu können wir schlicht aufdie folgende Gleichung schauen:

Bayesianisches Updaten: P+(H) = P(H|E) = P(H)[P(E|H)/P(E)]

Dabei bezeichnen wir mit „P+“ immer die Nachher-Wahrscheinlichkei-ten, also die Wahrscheinlichkeiten, die unsere Hypothesen nach demUpdaten mit den Daten annehmen, während „P“ die Vorher-Wahrschein-lichkeiten meint. Den Faktor in den eckigen Klammern nenne ich denUpdate-Faktor, da die Vorher-Wahrscheinlichkeit P gerade damit multi-pliziert wird, um die Nachher-Wahrscheinlichkeit zu erhalten. FürP(H)=0 gilt offensichtlich P+(H)=0. Für P(H)=1 folgt ebensoP+(H)=1. Man erhält nämlich durch Einsetzen der entsprechenden For-meln: P+(H)=P(E&H)/P(E) und das ist 1, denn P&H ist logisch äquiva-lent zu E, weshalb Zähler und Nenner gleich sind. (Oder man betrachteteinfach ~H, das schließlich eine Wahrscheinlichkeit von 0 haben muss,woraus folgt P+(~H)=0 etc.) Also zählt gegen eine einmal auf 1 gesetzteAussage kein Datum mehr, sie ist tatsächlich unrevidierbar im bayesiani-schen Apparat. Das Entsprechende gilt für eine auf 0 gesetzte Aussage.Das sollte für einen Bayesianer einen guten Grund darstellen, dem Dog-matismusverbot zuzustimmen.

Insbesondere würde eine dogmatisch vertretene Aussage A mitP(A)=1 überdies dazu führen, dass jede Beobachtung, die wir anstellen,

Page 287: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

275 Thomas Bartelborth: Induktives Schließen

die scheinbar gegen sie spricht, nun durch A entkräftet würde. Deshalbsind wir normalerweise nicht bereit, dogmatisch vertretene Aussagenhinzunehmen. Allerdings wird der klassische Bayesianer bald schon eineAusnahme gestatten und Beobachtungsaussagen auf 1 setzen. Das be-trachtet er normalerweise als hilfreiche Idealisierung. Aber dazu spätermehr.

Bedauerlicherweise hat das Dogmatismusverbot bereits einige Konse-quenzen, die uns nicht alle als plausibel erscheinen. Schon Popper hattedarauf hingewiesen, dass ein Naturgesetz wie das newtonsche Gravita-tionsgesetz behauptet, dass alle Körper gemäß der bekannten Formeleine Gravitationskraft F auf alle anderen Körper ausüben. Das hat etwadie logische Struktur:

Logische Allstruktur des Gravitationsgesetzes: G xy (Fxy)

Solche Allaussagen sollen für alle Objekte zu allen Zeiten gelten. Damitscheint das Gesetz G eine Behauptung über zumindest potentiell unend-lich viele Objekte aufzustellen. Das hat Popper bewogen, dafür einzutre-ten, dass es eigentlich die (Ausgangs-)Wahrscheinlichkeit 0 haben sollte.Dafür gibt es unterschiedliche Überlegungen. Recht einfach gedachtkönnte man so argumentieren: Nehmen wir zunächst als Grundlage einnoch einfacheres Gesetz vom Typ: x Fx (Für alle Objekte x gilt F) undschreiben es anhand von Termen ai, die für bestimmte Objekte oder Si-tuationen stehen sollen. Dann ist das intuitiv äquivalent zu einer unend-lichen Konjunktion:

Gesetze als unendliche Konjunktionen: H i Fai Fa1&Fa2&...

Dann finden wir für die Teilaussagen Fn Fa1&...&Fan einige erste Ab-schätzungen. Im einfachsten Fall können wir die Fai als voneinander sta-tistisch unabhängig zu unserem Überzeugungssystem P betrachten (imallgemeinen Fall können wir die Kettenregel anwenden) und erhalten:

(a) Unabhängige Daten: P(Fn) = P(Fa1)...P(Fan)(b) Allgemeiner Fall (Kettenregel):P(Fn) = P(Fa1)P(Fa2|Fa1)P(Fa3|Fa2&Fa1)...P(Fan|Fa1&...&Fan-1) =

= P(Fa1)P(Fa2|F1)P(Fa3|F2)...P(Fan|Fn-1)

Im Fall (a) wird nun am deutlichsten, was gemeint ist (vgl. a. Kap. 3.1).Wenn wir für jede Aussage Fai etwa annehmen, dass ihre Wahrschein-lichkeit eben nicht 1 ist, sondern unterhalb einer bestimmten Schrankeq<1 liegt, dann ergibt sich schnell:

(c) P(Fn) qn

Page 288: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 276

Dann würde die Wahrscheinlichkeit P(Fn) gegen 0 konvergieren fürwachsendes n, wie es Popper uns prophezeite. Um das Dogmatismusver-bot auch für H einzuhalten, darf es also kein solches q für alle n geben.Das ginge nur, wenn die P(Fai) schnell gegen 1 konvergieren würden.Wir müssten also schon davon ausgehen, dass die späteren Fälle ai mithoher Wahrscheinlichkeit F wären, was wir eigentlich erst per Induk-tionsschluss zeigen möchten.

Noch klarer wird die Situation für die bedingten Wahrscheinlichkei-ten im Falle (b). Sollten die alle echt kleiner 1 sein und würden eine ähn-liche Abschätzung erfüllen, wonach es ein q<1 gibt, so dass für alle ngilt:

(d) P(Fan|Fn-1) < q < 1 gilt,

dann würde auch die Ungleichung (c) gelten und damit wäre:

(e) P(H) = limn P(Fn) = 0(was voraussetzt, dass unser Glaubensgrad P -additiv ist)

Das wird aber gerade durch das Dogmatismusverbot ausgeschlossen,denn es besagt, dass selbst H nicht die Wahrscheinlichkeit 0 erhaltendarf. Es darf also keine entsprechende Schranke q<1 geben und daswürde bedeuten, dass dann der Term P(Fan|Fn-1) sehr schnell gegen 1konvergieren müsste für wachsendes n (vgl. Earman 1992). Damit gilt:Gemäß unserem Überzeugungssystem P erscheint es fast ganz sicher,dass das nächste Objekt an für genügend großes n auch die Eigenschaft Fhat, wenn die Vorgänger Objekte a1,...,an-1 sich alle als F erwiesen haben.Das ist aber genau die Induktionseigenschaft, die wir schon oft vergeb-lich beweisen wollten. Das Dogmatismusverbot ist in diesem Fall also sostark, dass hier ein Induktionsprinzip für bestimmte Anwendungen so-gleich mit impliziert wird, das wir direkt eigentlich nicht begründenkönnen. Das Dogmatismusverbot entpuppt sich also als nicht so harm-los, wie es zunächst aussieht. Es impliziert die folgende Induktionseigen-schaft:

(IE) Induktionseigenschaft: Für (hinreichend großes) n gilt:P(Fan+1|Fn) > P(Fan+1) bzw.P(Fan+1|Fn)1 für wachsendes n, bzw. lim P(Fan+1|Fn) = 1

Das besagt im Anwendungsfall, dass wir von dem nächsten noch nichtbeobachteten Raben mit hoher Wahrscheinlichkeit wissen, dass er auchschwarz sein wird, wenn wir bisher viele schwarze Raben beobachtet ha-ben.

Page 289: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

277 Thomas Bartelborth: Induktives Schließen

Was uns daran stutzig machen sollte, sind zwei Dinge: Zunächst istauffällig, dass wir quasi durch die Hintertür ein Induktionsprinzip ge-schenkt bekommen, obwohl wir nur ein relativ harmlos erscheinendesVerbot für extreme Wahrscheinlichkeiten aussprechen wollten. Vielleichtsollten wir das Dogmatismusverbot daher doch lieber auf Aussagen überendlich viele Individuen bzw. Anwendungsfälle einschränken. Dann trittdieser eher seltsame Nebeneffekt nicht auf. Die Bayesianer müssten sichfreilich überlegen, wie sich das präzisieren ließe.

Außerdem ist seltsam, dass es keine Beschränkungen für die Art derEigenschaften gibt. Für alle Eigenschaften (also z.B. auch goodmanscheEigenschaften wie „grue“, die vermutlich nicht projizierbar sind) gilt dieInduktionseigenschaft (IE). Damit haben wir vermutlich zu viel bewie-sen. So einfach sollten wir ein Induktionsprinzip nicht postulieren. Estritt auch nur in Kraft, wenn wir Aussagen über einen abzählbar unendli-chen Individuenbereich machen, die sich in abzählbar unendlich vieleEinzelaussagen zerlegen lassen. Es sieht eher wie ein formales Artefaktunserer Darstellung aus, als der lang ersehnte Durchbruch in der Debat-te um das humesche Induktionsproblem. Trotzdem wird er von Bayesia-nern gern als solcher gefeiert (vgl. Howson 2000).

Außerdem können wir hier eigentlich nur das Problem beobachten,dass wir für unendlich viele voneinander probabilistisch unabhängigeAussagen A1, A2,... keine Möglichkeit sehen, allen Aussagen eine festeWahrscheinlichkeit kleiner als q mit 0<q<1 zuzuweisen, so dass auchnoch die Allaussage i Ai eine Wahrscheinlichkeit echt größer null erhal-ten kann. Damit wir das Dogmatismusverbot für die Allaussage aufrecht-erhalten können, müssen die Ai nun Wahrscheinlichkeiten erhalten, diesehr schnell anwachsen. Das gilt für beliebige Aussagen Ai und hat dahernicht viel mit der gesuchten Induktionseigenschaft zu tun, denn fürunsere Aussagen Ai wird nicht verlangt, dass sie in irgendeiner Weiseüber eine bestimmte Art von Individuen sprechen.

Interessant ist noch, dass das Problem dort in gewisser Weise wiederverschwindet, wo wir überabzählbar viele Aussagen erhalten, die ineiner Aussage zusammenkommen. Nehmen wir an, wir haben eineHypothese H[2;4], wonach die uns unbekannte Masse des nächstenGranitblocks, den wir finden, zwischen 2 und 4 kg liegt. Diese Hypothe-se − wie beliebig viele andere Hypothesen − muss dann eine nichttrivia-le Wahrscheinlichkeit aufweisen, sagen wir einfach P(H[2;4])=0,6. Dazugibt es eine Reihe von Hypothesen Hx, die besagen, dass die gesuchteGröße gerade x ist. Auch diese Hypothesen sollten nach dem Dogmatis-musverbot alle eine von Null verschiedene Wahrscheinlichkeit aufwei-

Page 290: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 278

sen. Doch wenn wir die Menge M={Hx: x[2;4]} betrachten, sollte die-se wieder die Wahrscheinlichkeit 0,6 aufweisen. Das ist aber für eineüberabzählbar große Menge nicht möglich. Jede sinnvolle Summenbil-dung würde zu unendlich großen Werten führen. Wir haben aber jetztwieder (anders als im abzählbar unendlichen Fall) die Möglichkeit, eineGleichverteilung auf der Menge zu definieren, nämlich durch eine Dich-tefunktion auf unserem Intervall. Doch die besagt gerade, dass sogar füralle x gilt: P(Hx)=0. Für überabzählbare Mengen ist das Dogmatismus-verbot also sowieso nicht konsistent anwendbar. Solche Menge erhaltenwir aber schon dann, wenn wir unendliche Folgen von Daten zulassenund nun die Menge aller solcher Folgen betrachten. Die meisten Folgenmüssten dann wieder die Wahrscheinlichkeit 0 erhalten.

Das Resultat ist, dass das Dogmatismusverbot überraschend starkeKonsequenzen hat und daher kaum als sinnvolle generelle Anforderunggelten darf. Trotzdem scheint es auf endlichen Mengen durchaus plausi-bel zu sein, so dass wir es nicht ganz aus dem Blick verlieren sollten.Jedenfalls dürfen wir es nicht einfach als Sieg über den Induktionsskepti-ker feiern, da es viel zu schwach begründet ist, um solch weitreichendenFolgen rechtfertigen zu können. Es wurde vielmehr eingeführt zur Ab-wehr überzogener epistemischer Ansprüche und sollte dann nicht plötz-lich zu unserer stärksten Waffe gegen den Skeptiker mutieren, wenn wirerkennen, dass es auf abzählbar unendlichen Mengen solch überraschen-de Konsequenzen besitzt.

5.3.10 Wahrscheinlichkeitskoordinierungsprinzipien:Statistischer Syllogismus und Likelihoodanbindung

Einen anderen Weg, die Vorher-Wahrscheinlichkeiten einzuschränkenbzw. zu objektivieren, finden wir in den sogenannten Wahrscheinlich-keitskoordinierungsprinzipien (so hat Michael Strevens sie zumindest ge-tauft), die alle eine Form von Anbindung der subjektiven an die objekti-ven Wahrscheinlichkeiten verlangen. Ein solches Prinzip hatten wirschon kennengelernt, nämlich den statistischen Syllogismus (vgl. Kap.5.2).

Statistischer Syllogismus: Ist die relative Häufigkeit von Fs in derGrundgesamtheit G gerade r und wir betrachten ein a aus G, vondem wir keinen Grund zu der Annahme haben, dass seine Auswahlspeziell mit dem Haben der Eigenschaft F verknüpft ist, dann sollteunsere subjektive Wahrscheinlichkeit P(Fa)=r sein.

Page 291: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

279 Thomas Bartelborth: Induktives Schließen

Wir hatten mit Hilfe des epistemischen Gleichbehandlungsgrundsatzesdafür argumentiert, dass es sich schon um eine logische Wahrscheinlich-keit handelt, die wir hier erhalten, und daher auch der Probabilist gutdaran täte, in den Fällen, in denen entsprechende relative Häufigkeitenvorliegen, diese als seine subjektiven Wahrscheinlichkeiten zu überneh-men. Ohne diese Regel ginge den Bayesianern sonst die wichtigste An-bindung ihrer Startwahrscheinlichkeiten an empirische Daten verloren.

Betrachten wir nur kurz noch einmal ein Beispiel dazu: Nehmen wiran, wir wissen, dass im Durchschnitt 30% aller Patienten mit Lassa-Fie-ber sterben. Tom hat Lassa-Fieber und wir haben keine weiteren Kennt-nisse über Toms Abwehrkräfte oder seine spezielle Behandlung. Was istdann der vernünftigste Tipp dafür, dass auch Tom sterben wird? Esscheint offensichtlich zu sein, dass wir uns in solchen Fällen für die 30%entscheiden sollten, da das die einzige Information ist, die wir effektivüber Tom haben. Somit bietet der statistische Syllogismus (wie in unse-rem Beispiel des Dschungelfiebers) einen ersten Weg an, um bei der Be-stimmung von Vorher-Wahrscheinlichkeiten auf objektive Daten zurück-zugreifen. Da uns in einigen Fällen entsprechende Statistiken vorliegen,handelt es sich tatsächlich um ein praktikables Verfahren zu erstenWahrscheinlichkeiten zu gelangen, die wir als Bayesianer anschließendmit weiteren Informationen updaten können. Allerdings setzt der statis-tische Syllogismus voraus, dass wir keine weiteren relevanten Informa-tionen über Tom haben, was seine Anwendung einschränkt. Natürlichkönnen wir sogar versuchen, diese Situation hypothetisch zu betrachtenund dann erst unsere weiteren Informationen über Tom in Form bayesia-nischen Updatens einzubringen. Abgekürzt hat der statistische Syllogis-mus die folgende Form:

Statistischer Syllogismus: P(Fa|hn(F/G) = r & Ga & ~Ia) = r

wobei mit ~Ia gemeint ist, dass wir über keine weiteren Informationenüber a verfügen im Hinblick darauf, ob a F ist, außer den hier angeführ-ten.

Ein weiteres zentrales Koordinierungsprinzip können wir als Likeli-hoodanbindung bezeichnen. Starten wir wieder mit einem Beispiel.Unsere Hypothese H besage, dass eine Münze gefälscht ist und dieWahrscheinlichkeit für Kopf gerade 0,4 betrage. Wie hoch sollte dannunsere subjektive Wahrscheinlichkeit dafür sein, dass im nächsten Wurfmit dieser Münze Kopf kommt, wenn wir die Hypothese H dabei vor-aussetzen? Auch hier liegt es nahe, P(Kopf|H)=0,4 zu wählen. Zumin-dest diese spezielle bedingte subjektive Wahrscheinlichkeit könnten wir

Page 292: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 280

so objektivieren. Allerdings ist ein Probabilist darauf nicht zwingendfestgelegt, sondern kann sich nur entschließen, seine Position dadurch zuobjektivieren und damit zugleich für den klassischen Statistiker attrakti-ver zu gestalten. Allgemeiner könnten wir die Likelihood der Daten E,die durch unsere Hypothese vorgegeben ist [manchmal sagt man auchdie Likelihood der Hypothese H relativ zu einem Datum E (so irrefüh-rend redet man oft im Umgang mit Likelihoods, doch dem möchte ichnicht folgen)] mit PH(E) bezeichnen, um sie an dieser Stelle von den be-dingten Wahrscheinlichkeiten des Probabilisten zu unterscheiden. Damitist die Wahrscheinlichkeit gemeint, die E nach Auskunft der HypotheseH hat, sollte diese existieren. (Im Englischen spricht man manchmal von„direct likelihood inference“.) Die Wahrscheinlichkeit PH(E) bringt füruns zum Ausdruck, welche Bedeutung die Hypothese H besitzt und da-her sollte der Probabilist sich in seinen Wahrscheinlichkeiten daran auchhalten, weil er sonst der Hypothese einen anderen empirischen Gehaltzuweisen würde.

Die Likelihoodanbindung: P(E|H) = PH(E)

Hawthorne (u.a. in 2011c) verweist darauf, was passieren würde, wennsich zwei Wissenschaftler an diesem Punkt uneins wären. Der erst würdeetwa P(E|H)=0,8 und der zweite P(E|H)=0,1 ansetzen. Dann würdeim Normalfall das Auftreten von E die Hypothese H für den ersten Wis-senschaftler bestätigen, während es für den zweiten Wissenschaftler inden meisten Fällen wohl gegen H sprechen würde. Die Wissenschaftlersind sich jedenfalls uneinig darüber, welchen empirischen Gehalt dieHypothese hat, d.h. sie verstehen die Hypothese H jeweils anders. Siebenutzen zwar denselben syntaktischen Ausdruck, um ihre Hypothesedarzustellen, aber sie interpretieren sie so unterschiedlich, dass wir vonzwei Hypothesen sprechen sollten. Wir können dafür natürlich keinesinnvollen Induktionsregeln mehr erwarten. Eine Voraussetzung unsererFragestellung nach geeigneten Induktionsverfahren ist geradezu, dasswir uns auf eine Hypothese und eine Interpretation dieser Hypothesegeeinigt haben. Dann sollten wir zumindest in den Likelihoods P(E|H)übereinstimmen, die den empirischen Gehalt der Hypothese zum Aus-druck bringen. Die Likelihoods drücken gerade aus, was uns die Hypo-thesen über die Daten zu sagen haben. Nur bei gegebener Übereinstim-mung über diese Likelihoods können Bayesianer jedenfalls erwarten,dass wir mit Hilfe der Funktion P die Bestätigung in objektiver Weise an-geben können, die H durch die Daten erfährt. Gehören dann sogar kon-krete Aussagen über bestimmte Wahrscheinlichkeiten zum Inhalt der

Page 293: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

281 Thomas Bartelborth: Induktives Schließen

Hypothese, dann müssen wir das ernst nehmen und in Form der Likeli-hoodanbindung umsetzen, sonst werden wir keine sinnvolle Bestäti-gungsbeziehung mehr erhalten.

Auch hier müssen wir aber als strikte Bayesianer wieder verlangen,dass wir über keine anderen relevanten Informationen für das Auftretenvon E verfügen. Wir können zunächst nur erwarten, dass die Likelihood-anbindung für die Starwahrscheinlichkeiten funktioniert. Das wird hieretwa angenommen, in dem wir als Vorwissen explizit nur von H ausge-hen. Es könnte aber sogar Unterminierer zu H geben oder Gegengründegegen E, die wir dann berücksichtigen müssten, um Es bedingte Wahr-scheinlichkeit zu bestimmen. Sie können etwa schon Eingang in unserePlausibilitätseinschätzung P gefunden haben und wären dann im Sinnedes Bayesianismus zu berücksichtigen. Solange wir die nicht kennen,scheint es jedoch auch für den Bayesianer rational zu sein, sich ganz aufdie vorgegebenen Likelihoods zu stützen. Das kann für den Bayesianerallerdings bedeuten, dass er noch andere Anpassungen für P vornehmenmuss, die er vielleicht aus anderen Gründen nicht vornehmen möchte.Darauf werden wir zurückkommen.

Allerdings muss diese objektive Likelihood nicht immer existieren.Prominente Problemfälle sind disjunktive Hypothesen wie die folgenden:

H1: Die Wahrscheinlichkeit für Kopf beträgt 0,3 oder 0,4.H2: Die Wahrscheinlichkeit für Kopf liegt im Intervall [0,2;0,4]

In beiden Fällen ist PH(E) nicht direkt bestimmt, weil keine definitiveAussage darüber getroffen wird, welche Wahrscheinlichkeit E nach An-nahme von H nun zukommt. Der klassische Statistiker kommt an dieserStelle nur mit gewissen Tricks noch einen Schritt weiter. Er könnte einIndifferenzprinzip anwenden und im Falle von H1 vermuten, dass beideMöglichkeiten dieselbe Chance haben, weshalb dann PH1(Kopf)=0,35 zuwählen wäre. Im Falle von H2 könnte das Indifferenzprinzip besagen,dass alle Werte zwischen 0,2 und 0,4 dieselbe Chance haben (wir hättendann eine konstante Dichtefunktion auf dem Intervall) und entspre-chend PH2(Kopf)=0,3 gewählt werden könnte. Doch die Anwendungsolcher Indifferenzprinzipien lehnt der klassische Statistiker eigentlichab, denn sie gehören nur in das Repertoire der Vertreter einer indukti-ven Logik und stellen zumindest epistemische Wahrscheinlichkeiten dar.

Der Probabilist kann dagegen versuchen, diese Informationen weiterauszuwerten. Er kann etwa die folgenden Unterhypothesen für sich be-trachten und ihnen jeweils eigene Wahrscheinlichkeiten zuordnen:

Page 294: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 282

H1a: Die Wahrscheinlichkeit für Kopf beträgt 0,3.H1b: Die Wahrscheinlichkeit für Kopf beträgt 0,4.

Unter der Annahme, dass H1 gilt, sollten diese sich zu 1 aufsummieren,also könnte etwa gelten:

P(H1a|H1) = 0,2P(H1b|H1) = 0,8

Dann erhalten wir PH1(Kopf) = 0,20,3+0,80,4 = 0,38, denn es gilt:P(E|H1) = P(E|H1a)∙P(H1a|H1) + P(E|H1b)∙P(H1b|H1), da H1aund H1b einander ausschließen. Für die Hypothese H2 könnte der Pro-babilist mit Apriori-Dichten arbeiten und entsprechende Ergebnisse er-zielen. Auf solche Fälle gehen wir später noch ein. Damit werden die be-kannten Informationen über die Wahrscheinlichkeit von Kopf danndoch noch ausgewertet. Es dürfte allerdings klar sein, dass die strikteLikelihoodanbindung, wie sie zunächst vorgestellt wurde, auch demklassischen Statistiker gefällt, während die erweiterten Ideen, die wirdann eingeführt haben, eigentlich nicht mehr seine Zustimmung finden,weil wir dort sogar den Hypothesen selbst bestimmte Wahrscheinlichkei-ten geben und nicht nur bestimmten Zufallsereignissen. Die Hypothesensind aber entweder wahr oder falsch und damit sind die entsprechendenvon 0 und 1 verschiedenen Wahrscheinlichkeiten für diese Hypothesensubjektiver Natur (oder eben epistemische Wahrscheinlichkeiten) undsomit für den klassischen Statistiker abzulehnen. Die Likelihoods sinddagegen im einfachen Fall einfach nur Behauptungen unserer Theorie,auf die wir uns beim Testen der Theorie natürlich beziehen müssen,sonst wäre eine probabilistische Theorie überhaupt nicht mehr testbar.

Der Bayesianer sollte also zunächst von der Likelihoodanbindungeinen Gebrauch machen, denn er wertet dabei nur konsequent seine In-formationen aus und stützt sich dabei auf so viele objektive Informatio-nen, wie es nur geht. Erst wenn er damit allein nicht mehr weiter-kommt, muss er wieder seine Zuflucht in subjektiveren epistemischenWahrscheinlichkeiten suchen, um etwa mit dem Problem disjunktiverHypothesen umzugehen.

Im Update-Faktor des bayesianischen Updatens kommt die Wahr-scheinlichkeit P(E) der Daten vor und dort ist der Bayesianer normaler-weise froh, die Likelihoodanbindung einsetzen zu können. Das gelingtihm z.B. dann, wenn er bereits über eine vollständige Menge von paar-weise einander ausschließenden Hypothesen {H1,...,Hn} für seine An-wendung verfügt, denn dann gilt:

Page 295: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

283 Thomas Bartelborth: Induktives Schließen

P(E) = i P(E|Hi) P(Hi) = i PHi(E) P(Hi)

Dadurch kann zumindest eine Komponente in der Berechnung von P(E)objektiviert werden. Da es sich bei der Likelihoodanbindung außerdemum ein sehr naheliegendes Verfahren der Bestimmung unserer Likeli-hoods geht, sollten wir dieses Prinzip übernehmen. Es ist auch tatsäch-lich oft anwendbar und nicht nur theoretischer Natur, wie das später zudiskutierende Hauptprinzip.

Allerdings werden wir noch sehen (im Zusammenhang mit dem Pro-blem der „old evidence“), dass gerade Bayesianer sich einerseits gern aufdieses Prinzip stützen möchten, aber andererseits es nicht immer zuihrem Verfahren des Updatens passt, weshalb wir womöglich eine zweiteWahrscheinlichkeitsfunktion benötigen, neben der Funktion für dieGlaubensgrade, nämlich eine, die nur die objektiven Zusammenhängezwischen den Hypothesen und den Daten zum Ausgangspunkt nimmtund dann nur bestimmt, wie stark die Daten die Hypothese stützen, wiehoch also die Wahrscheinlichkeit der Hypothese nach dem Updaten seinsollte, ohne dabei immer schon einzubringen, wie wahrscheinlich dieDaten aus anderen Gründen sind (vgl. a. Kap. 5.5.16+17). Wir könnensagen, dass eine Anfangs-Likelihoodanbindung durchaus zum Bayesianis-mus passt, aber eine stabile Likelihoodanbindung, die auch bei weiterenUpdate-Schritten eingehalten wird, leider nicht immer mit dem Bayesia-nismus kompatibel ist.

Allgemein ist es ein Problem, wie wir Wahrscheinlichkeitskoordinie-rungsprinzipien mit dem Updaten zusammenbringen können. Relativunproblematisch ist es zunächst die Koordinierungsprinzipien für eineAusgangswahrscheinlichkeit einzusetzen und danach nur noch upzu-daten. Aber schon zu Beginn können weitere Informationen E vorliegen,die wir alternativ im Hintergrundwissen der Startwahrscheinlichkeitenansiedeln können, so dass sie im Prinzip durch Anwendung unserer Ko-ordinierungsprinzipien eigentlich keinen Eingang in unsere Wahrschein-lichkeitseinschätzungen finden, oder wir lassen sie zunächst heraus undupdaten dann erst später damit. Beide Wege müssen keineswegs immerzu denselben Ergebnissen führen.

Das ist kein Problem für den statistischen Syllogismus, da zu seinenAnwendungsbedingungen definitiv dazugehört, dass keine weiteren In-formationen über die fragliche Aussage vorliegen. Das Problem siehtman dagegen sogleich am Beispiel der Likelihoodanbindung. Nehmenwir an, wir würden P zunächst mit E’ updaten und fragen uns, was dannaus der Likelihood P(E|H) dabei wird: Wenn wir also zunächst updaten,wobei P in P+ übergeht, und wir erst daran anschließend wieder unsere

Page 296: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 284

Likelihoodanbindung einsetzen, dann würde die Likelihoodanbindungbesagen:

P+(E|H) = PH(E) = P(E|H),

jedenfalls, wenn auch schon in P das P(E|H) mit Hilfe der Likelihoodan-bindung festgelegt wird. Doch damit implizierten wir zugleich eine be-dingte Unabhängigkeit der Daten E und E’ gegeben H, denn es gilt:

P+(E|H) = P+(E&H) / P+(H) = P(E&H|E’) / P(H|E’) =P(E&H|E’)P(E’) / P(H|E’)P(E’) = P(E&H&E’) / P(H&E’) =P(E|H&E’) = P(E|H)

Man sieht also an der letzten Gleichung, dass P+(E|H)=P(E|H) nurdann gilt, wenn die Daten E und E’ probabilistisch unabhängig sind, ge-geben H, d.h., wenn gilt: P(E&E’|H)=P(E|H)·P(E’|H) oder äquivalentdazu eben P(E|H&E’)=P(E|H). Das werden wir später auch so notie-ren: (E⊥E’|H). Nur wenn diese Unabhängigkeit in P enthalten ist, kön-nen wir also im Falle unserer Daten E und E’ entweder zunächst dieLikelihoodanbindung ausnutzen und dann mit E’ updaten oder erst mitE’ updaten und dann die Likelihoodanbindung erst für E nutzen. Giltdie Unabhängigkeitsbeziehung dagegen nicht, kann der Bayesianer dieLikelihoodanbindung nur einmal zu Beginn nutzen und muss anschlie-ßend die neuen Likelihoods anhand des üblichen bayesianischen Up-datens ermitteln. In unserem Beispielüberzeugungssystem in Kapitel 5.3war die Likelihood für D gegeben H zunächst 0,7, aber nach dem Up-daten mit E war sie schon auf 0,714 angewachsen. Damit erhalten wirdas Problem, dass unser Startpunkt (bei dem unsere Likelihoodanbin-dung zum Einsatz kommt) eine gewisse Willkür aufweist oder die Likeli-hoodanbindung sogar nie zum Einsatz kommt, weil wir natürlich meistschon über ein bestimmtes Hintergrundwissen verfügen. Außerdem er-scheint es auch seltsam, dass wir in dem Beispiel davon ausgehen, dasseine der beiden Hypothesen wahr ist (Kopf also die objektive Wahr-scheinlichkeit 0,3 oder 0,7 hat), dann aber bei Annahme von H dieWahrscheinlichkeit von 0,7 für das Auftreten von noch überschreiten,nur weil bereits E aufgetreten ist. E sollte zwar für H im Unterschied zuH’ sprechen, aber H besagt dann nur, dass das Auftreten von Kopf dieWahrscheinlichkeit 0,7 hat, und es scheint nicht sinnvoll, stattdessennun 0,714 für Kopf anzusetzen.

Die Likelihoodanbindung scheint jedoch eigentlich auch für den Fallwiederholten Updatens weiterhin als Forderung recht plausibel zu sein.Besagt unsere Hypothese, dass die Wahrscheinlichkeit für Kopf gerade

Page 297: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

285 Thomas Bartelborth: Induktives Schließen

0,4 ist, so sollte unsere subjektive Wahrscheinlichkeit dafür, dass zwei-mal Kopf kommt, gerade 0,4·0,4=0,16 sein. Zumindest die bedingteWahrscheinlichkeit für ein weiteres Mal Kopf gegeben unsere Hypothe-se sollte weiterhin 0,4 sein. Das ließe sich etwa so begründen: Nur wennunsere Glaubensgrade P so gestaltet sind, erfassen sie richtig, was der In-halt unserer Hypothese ist, und nur dann wird die Bestätigung, die unse-re Hypothese durch diese speziellen Daten erfährt, angemessen darge-stellt. Schließlich ändert sich der Inhalt unserer Hypothese nicht durchneue Daten und sollte daher auch nach dem Auftreten neuer Daten den-selben Wert für das Auftreten von Daten eines bestimmten Typs liefern.Dann erst können wir die Wirkungen wiederholten Updatens für unsereHypothese auch auf nachvollziehbare Weise berechnen. Nehmen wir da-gegen an, dass sich die bedingten Wahrscheinlichkeiten für die Daten Emit immer mehr Kopf-Ergebnissen langsam etwa in Richtung zu höhe-ren Werten hin verschieben (man beachte, dass exakterweise gilt:P(E&E’|H)=P(E|E’&H)·P(E’|H)), dann benötigen wir irgendwoherwieder Wahrscheinlichkeiten für die entsprechenden Konjunktionen.Die sind allerdings wieder einmal rein subjektiv festzulegen. Nehmenwir dagegen an, dass E und E’ probabilistisch unabhängig sind gegebenH, so ergibt sich P(E&E’|H)=P(E|H)·P(E’|H) und wir können an derLikelihoodanbindung festhalten.

Was passieren könnte, wenn wir uns überhaupt nicht an die Likeli-hoodanbindung halten, können wir an unserem Beispielüberzeugungs-system aus Kapitel 5.3 erläutern. Behalten wir in dem Fall etwa alleGlaubensgrade bei, tauschen aber die Inhalte der beiden Hypothesen Hund H’ gerade aus, so dass nun H besagt, dass die Wahrscheinlichkeitfür Kopf 0,3 sei. Trotzdem behalten wir aber den GlaubensgradP(E|H)=P(D|H)=0,7. Dann führt das Updaten mit zweimal Kopf zueiner Bestätigung von H (P++(H)=0,833) und zu einer entsprechendenAbwertung von H’, obwohl das unserer intuitiven Einschätzung massivwiderspricht, denn die Daten sprechen eindeutig gegen diese neueHypothese H. Schon um solche antiintuitiven Resultate zu vermeiden,sind wir auf die Likelihoodanbindung angewiesen und sollten daher dieLikelihoods auch möglichst stabil halten.

Um die Likelihoodanbindung in unserem Beispielsystem aus Kapitel5.3 auch stabil zu gewährleisten (also auch für das zweite Updaten),müssen wir zusätzlich verlangen, dass die Daten E und D probabilistischunabhängig sind, gegeben unsere Hypothese H und auch gegeben unsereHypothese H’, etwa im Sinne eines bayesschen Netzes mit einem Eltern-

Page 298: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 286

knoten für H bzw. H’ und den Kindern E und D. Dann erhalten wir dieForderungen:

(1) P(H) = 0,5 = P(H’)(2) P(E|H) = P(D|H) = 0,7 (anfängliche Likelihoodanbindung)(3) P(E|H’) = P(D|H’) = 0,3 (anfängliche Likelihoodanbindung)und nun zusätzlich(4) P(D|EH) = P(D|H) = 0,7 (stabile Likelihoodanbindung)(5) P(D|Eh) = P(D|h) = 0,3 (stabile Likelihoodanbindung)

Wenn wir dann wieder unsere Vollkonjunktionen betrachten, lassen sichdie entsprechenden leicht gerundeten Werte nun aufgrund der Forderun-gen (1) bis (5) definitiv ausrechnen. Sie sind nicht weit entfernt vonunseren ersten Einschätzungen:

P(EDH) = x= 0,245 P(EDh) = t = 0,045P(EdH) = P(eDH) = y = 0,105 P(Edh) = P(eDh) = u = 0,105P(edH) = z = 0,045 P(edh) = v = 0,245

Das ergibt sich aus den Gleichungen:

Aus (1) folgt: x+2y+z = 0,5 = t+2u+vAus (2) folgt: x+y = 0,35Aus (3) folgt: t+u = 0,15Aus (4) folgt: x = (0,7/0,3)·y = 2,33·yAus (5) folgt: u = (0,7/0,3)·t = 2,33·t

Dann erhalten wir als neue Werte nun die folgenden. Wir können wie-der beispielhaft einige ausrechnen. Man bedenke dazu wiederum, dassz.B. DE DEHDEh ist etc.:

P(DE) = x+t = 0,29 (statt 0,3)P(EH) = x+y = 0,35 (bleibt nach Voraussetzung)P(D|EH) = P(EDH) / P(EH) = x / (x+y) =

0,245 / 0,35 = 0,7 wie gewünscht (statt 0,714)P(E) = x+y+t+u = P(D) = 0,5Damit erhalten wir die upgedateten Wahrscheinlichkeiten:P+(H) = P(H|E) = P(EH) / P(E) = (x+y) / (x+y+t+u) = 0,7Damit sinkt die Wahrscheinlichkeit für H’: P+(H’) = 0,3P+(D) = P(D|E) = P(ED) / P(E) = 0,29 / 0,5 = 0,58 (statt 0,6)P+(D|H) = P(D|EH) = 0,7 (statt 0,714)P+(D|H’) = P(D|Eh) = t / (t+u) = 0,3P+(E) = 1P++(H) = P(H|DE) = P(EDH) / P(DE) =

Page 299: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

287 Thomas Bartelborth: Induktives Schließen

0,245 / 0,29 = 0,845 (statt 0,833)Damit sinkt die Wahrscheinlichkeit für H’: P+(H’) = 0,155P++(E) = P++(D) = 1

Damit ist die Bestätigung unserer Hypothese H durch das zweite Datumetwas größer geworden als im ersten Beispielsystem, weil wir angenom-men haben, dass es unabhängig vom ersten ist gegeben H. Das ist abernicht unbedingt unerwünscht.

Bayesianer argumentieren allerdings manchmal in einer anderenRichtung, wenn sie etwa innerhalb ihres Ansatzes rekonstruieren möch-ten, weshalb die wiederholte Ausführung von ein und demselben Experi-ment keine so guten Bestätigungen einer Hypothese liefert, wie dieDaten unterschiedlich gestalteter Experimente. Allerdings ändert sichder Update-Faktor P(D|H)/P(D) in unserem Beispiel auch schon lang-sam dadurch, dass P(D) durch das Updaten mit E größer wird, weil sichdie Gewichte für die Hypothesen langsam verschieben und P(D) geradedie gewichtete Summe der bedingten Wahrscheinlichkeiten P(D|Hi) dar-stellt, die ihrerseits durch die Likelihoodanbindung stabil gehalten wer-den. Daher könnten wir durchaus an der Likelihoodanbindung festhal-ten, und erhielten trotzdem das oben geschilderte Phänomen.

Wenn wir etwa zunächst mit E updaten und dann mit D, so ergäbesich bei Likelihoodanbindung:

P+(D) = i P(D|Hi) P+(Hi)

Da sich dabei die P+(Hi) entsprechend den vorherigen Daten zu den ambesten treffenden Hypothesen verändern, werden sich auch die Wahr-scheinlichkeiten P+(D) dem langsam anpassen. Jedenfalls werden wir imFolgenden in der Regel so rechnen, weil wir sonst neue Wahrscheinlich-keiten für den Term P+(D|Hi) bestimmen müssten.

Das Hauptproblem dürfte wohl eher darin zu sehen sein, dass vieleunserer Hypothesen für viele Daten keine genauen Wahrscheinlichkeitenangeben. Besagt die Hypothese etwa, dass eine größere Nachfrage nacheinem Konsumgut zu einem höheren Preis für dieses Gut führt, so gibtsie uns (selbst wenn sie quantitativ formuliert wird) normalerweise nochlange keine Wahrscheinlichkeiten für unterschiedliche Preise an. Um zukonkreten Wahrscheinlichkeiten zu gelangen, müssen Bayesianer dieseSpielräume dann doch subjektiv ausfüllen. Das nächste Problem ist diemangelnde Likelihoodanbindung im Rahmen des „old-evidence“-Pro-blems, das wir in Kapitel 5.5.16 aufgreifen werden.

Page 300: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 288

5.3.11 Mehrfaches Updaten und bayesianische KonvergenzAkzeptieren wir die Likelihoodanbindung, so können wir relativ schnellzu ersten Konvergenzüberlegungen im Rahmen des Bayesianismus kom-men. Die sind wichtig für den Ansatz, weil sie das Hauptargument dafürsind, dass die Subjektivität der Startwahrscheinlichkeiten nicht wirklichbedeutsam ist; denn bei einigermaßen eindeutigen Daten nivellieren sichdie unterschiedlichen Startwahrscheinlichkeiten verschiedener Personendurch wiederholtes Updaten schnell und führen langfristig zu einheitli-chen Bewertungen. Das kann man mit Hilfe der Likelihoodanbindungschnell überprüfen und es gibt einfache Programme dazu etwa auf derSeite des „Bayes’ Theorem Calculator“ (http://statpages.org/bayes.html),mit deren Hilfe wir das weiter ausprobieren können. Aber in entspre-chender Weise lassen sich diese Berechnungen natürlich auch (mit höhe-rer Präzision) mit Hilfe eines Tabellenkalkulationsprogramms wiederge-ben. Wir benötigen dafür eine Liste von einander ausschließenden abererschöpfenden Hypothesen H1,...,Hn und ihren Startwahrscheinlichkei-ten mit P(Hi)=1, die jeweils einem bestimmten Datum E eine be-stimmte bedingte Wahrscheinlichkeit P(E|Hi) geben. Der Rest lässt sichdann berechnen. Betrachten wir dazu ein kleines Beispiel.

Zunächst wird deutlich, dass die Reihenfolge des Updatens keineRolle spielt. Sehen wir uns also das Updaten zuerst mit E und dann mitE’ an:

P++(H) = P+(H|E’) = P+(H&E’) / P+(E’) =P(H&E’|E) / P+(E’|E) = P(H&E’&E) / P(E’&E) = P(H|E&E’)

Es kommt dasselbe heraus, ob wir nacheinander mit E und dann mit E’updaten oder gleich mit E&E’. Schauen wir uns nun die Daten einesBeispiels an, wobei wir immer wieder mit demselben Datum E updaten,d.h. es kommt etwa immer wieder Kopf und wir möchten ermitteln,welche der 3 Hypothesen in unserem Fall die richtige ist. Wir startenmit 3 Hypothesen und festen Likelihoods für E:

P(H1)=0,2 P(H2)=0,001 P(H3)=0,799 undP(E|H1)=0,3 P(E|H2)=0,8 P(E|H3)=0,7

Wir sehen hier, dass H2 die besten Vorhersagen für unser Datum E ab-gibt, aber was die Startwahrscheinlichkeiten angeht, eindeutig auf demletzten Platz liegt. Mit „E“ könnte z.B. das Auftreten von Kopf gemeintsein, und die Hypothesen vergeben dafür unterschiedliche bedingteWahrscheinlichkeiten bzw. Likelihoods, wobei wir aber bereits anneh-men, dass eine der drei Likelihoods für Kopf die richtige ist. Wenn etwa

Page 301: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

289 Thomas Bartelborth: Induktives Schließen

die Hypothese 2 die richtige sein sollte, dann wird sie sich letztlichdurchsetzen, obwohl wir ihr zunächst nur eine sehr geringe Plausibilitäteingeräumt haben. Im bayesianischen Verfahren wächst die Wahrschein-lichkeit der richtigen Hypothese mit hoher Wahrscheinlichkeit gegen 1.Letztlich konzentriert sich also im Normalfall die Wahrscheinlichkeit aufdie richtige Hypothese (wobei wir hier immer davon ausgehen, dass siein unserer Liste tatsächlich enthalten ist). Wie entwickeln sich nun dieHypothesenwahrscheinlichkeiten, wenn E einfach mehrfach auftritt?Das zeigt die folgende Tabelle:

Anzahl H1 H2 H3 Anzahl H1 H2 H3

1 0,097 0,0013 0,9 40 0 0,2 0,8

2 0,044 0,0016 0,95 50 0 0,5 0,5

8 0,0003 0,0036 0,996 80 0 0,98 0,02

10 0,0001 0,0047 0,995 100 0 0,995 0,005

30 0 0,06 0,94 120 0 0,999 0,001

Tabelle 5.4: Ein Beispiel zur bayesianischen Konvergenz

Man sieht hieran, dass die Hypothese H1 mit den schlechtesten Vorher-sagen relativ schnell falsifiziert wird. Sie sinkt von 20% schon nach zweiDatenupdates auf ca. 4% und ist nach 10 Wiederholungen praktisch beiNull und damit falsifiziert. Hypothese H2, die eigentlich die besten Vor-hersagen abgibt, hat dagegen sehr große Mühe, zunächst aus dem Kellerzu kommen, was vor allem daran liegt, dass sie in H3 einen sehr starkenKonkurrenten hat, der zu Beginn viel besser dasteht mit ca. 80% Wahr-scheinlichkeit und nur ein wenig schlechter in seinen Vorhersagen ist alsH2. Daher sieht lange Zeit H3 wie der klare Sieger aus und verliert erstnach 50 Wiederholungen langsam gegen H2.

Man könnte hier sagen, dass uns der Bayesianismus lange Zeit in dieIrre führt, weil wir H2 eine so „miese“ Ausgangswahrscheinlichkeit gege-ben hatten. Der Likelihoodist, der nur die Likelihoods betrachtet (bzw.den Quotienten P(E|H2)/P(E|H3), würde das als Wasser auf seine Müh-len ansehen und einwenden, dass wir ohne die weiteren subjektiven An-teile des Bayesianer besser gefahren wären. Dann hätte sich schonschnell H2 als die beste Hypothese erwiesen.

n 1 2 8 15 30 40 50 80 100 120Quo-tient:

1,14 1,31 2,91 7,41 54,9 209 794 43587 629788 9099838

Tabelle 5.5: Die Likelihoodquotienten P(E|H2)/P(E|H3)

Page 302: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 290

Bereits ab ca. 15 Wiederholungen wird hier die klare Überlegenheit derHypothese H2 gegenüber der Hypothese H3 deutlich.

Allerdings wird das in beiden Ansätzen wieder deutlich schwieriger,wenn wir es mit gemischten Ergebnissen zu tun bekommen. Sollte H2

korrekt sein, müssten wir im Durchschnitt mit 80% Köpfen, aber in20% der Fälle auch mit Zahl rechnen. Für diese Verteilung finden wirdann die obigen irreführenden Effekte noch in verstärkter Form:

Anzahl H1 H2 H3 Anzahl H1 H2 H3

1 0,13 0,0011 0,87 250 0 0,43 0,56

30 0 0,0027 0,997 300 0 0,74 0,26

50 0 0,0045 0,995 400 0 0,97 0,03

100 0 0,0161 0,98 500 0 0,998 0,002

200 0 0,17 0,82 600 0 0,9998 0,0002

Tabelle 5.6: Ein Beispiel zur bayesianischen Konvergenz (E zu ~E im Verhältnis 8 zu 2)

Bei diesen gemischten Daten setzt sich H2 noch viel langsamer gegen-über H3 durch, doch letztlich erkennen wir auch hier wieder die Kon-vergenz der Wahrscheinlichkeit von H2 gegen 1 bzw. die Falsifikationder anderen Hypothesen. Allerdings benötigen wir hier viel mehr Daten,um die Qualität von H2 zu erkennen. Die Irreführung ist hartnäckigergeworden. Das gilt in ähnlicher Form für die Likelihoodquotienten:

n 1 2 8 15 30 40 50 80 100 120Quotient: 1,03 1,05 1,23 1,47 2,16 2,8 3,62 7,83 13,11 21,93Tabelle 5.7: Likelihoodquotienten P(E|H2)/P(E|H3) (Kopf/Zahl im Verhältnis 8 zu 2)

Statt bei 15 Wiederholungen stellt sich ein signifikanter Unterschied(den die Likelihoodisten bei ca. 8 erkennen) erst ab ca. 80 Wiederholun-gen ein. Und dass kann natürlich noch schlechter werden, wenn wirnoch Zufallsschwankungen in den Daten berücksichtigen, die womög-lich erst bei höheren Anzahlen ausgeglichen werden.

Doch auch hier ist die angestrebte Konvergenz erkennbar, die sichauch allgemeiner beweisen lässt (s.u.). Die Frage bleibt allerdings (undwird später in einer Glosse verarbeitet), ob sich die erwünschte Konver-genz schnell genug einstellt, wenn wir mit sehr unterschiedlichen Aus-gangswahrscheinlichkeiten arbeiten. Der objektive Bayesianer oder derinduktive Logiker setzt genau an dieser Stelle an und wird gegen dieVorgehensweise des subjektiven Bayesianers einwenden, dass wir ohnesehr gute Gründe niemals so unterschiedliche Vorher-Wahrscheinlichkei-ten vergeben dürfen. Vielmehr sollte ein Indifferenzprinzip (vgl. nächs-

Page 303: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

291 Thomas Bartelborth: Induktives Schließen

ter Abschnitt) zu einer möglichst gleichen Verteilung von jeweils 1/3 alsStartwahrscheinlichkeit führen. Dann findet sich selbstverständlich einviel besseres Konvergenzverhalten selbst bei gemischten Daten. So hatH2 dann bereits nach 100 Wiederholungen eine Wahrscheinlichkeit vonca. 93% (statt 2% bei ungleichen Startbedingungen).

Die Likelihoodanbindung kann allerdings nicht für immer aufrecht-erhalten werden, denn P(E|H) ist eine epistemische Wahrscheinlichkeit,und sobald uns E erst einmal bekannt geworden ist und wir also P(E)=1setzen, wird natürlich auch P(E|H)=1. Diese Problematik werden wirspäter wieder aufgreifen.

Noch ein Wort zur Redeweise im Umgang mit Likelihoods, die leidernicht einheitlich ist. Im Folgenden werde ich meist kurz und intuitiv da-von sprechen, dass die Daten E eine Likelihood von r haben gegeben H,wenn gilt: P(E|H)=r; oder wir sagen dazu, das Datum E wäre im Maßer „likely“ bzw. zu erwarten oder auch einfach wahrscheinlich gegeben H.Der klassische Statistiker möchte hier nicht unbedingt von Wahrschein-lichkeit sprechen (da sie nur hypothetisch ist und sich nicht als aktualerelative Häufigkeit wiederfinden lässt) und wählt lieber die Likelihood-Redeweise. Jedenfalls soll ab jetzt das Prinzip der Likelihoodanbindungangenommen werden, wonach wir in den Fällen, in denen objektiveLikelihoods vorliegen, diese einfach übernehmen.

5.3.12 Das HauptprinzipNoch umstrittener als die Likelihoodanbindung ist das sogenannteHauptprinzip („principal principle“), das vor allem von David Lewispropagiert wurde. Ein Vorläufer davon findet sich in „Millers Prinzip“(das Miller (1966) allerdings als inkonsistent ablehnte). Die Frage isthier, welchen Glaubensgrad wir in den Fällen annehmen sollten, indenen wir über noch stärkere Informationen als die oben genannten ver-fügen, aber zugleich möglicherweise gegenläufige Informationen erhal-ten? Nehmen wir einmal an, wir wüssten schon, dass die objektive Wahr-scheinlichkeit oder Chance (wir werden später auch von Propensitätsprechen) für ein konkretes Ereignis A in einem bestimmten Zeitraumgenau r sei. Über die Problematik solcher physikalischen Einzelfallwahr-scheinlichkeiten werden wir später noch diskutieren. Nehmen wir sie andieser Stelle einfach einmal als gegeben hin.

Als Beispiel könnten wir an den radioaktiven Zerfall denken. Ein be-stimmtes Atom hat in einem vorgegebenen Zeitraum eine bestimmteWahrscheinlichkeit zu zerfallen. In dem Fall verfügen wir über guteGründe für die Annahme, dass es sich dabei tatsächlich um einen genuin

Page 304: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 292

indeterministischen Vorgang handelt, so dass die Chance für einen Zer-fall eine objektive physikalische Größe darstellt. Außerdem liegen hiernicht nur die trivialen Wahrscheinlichkeiten 0 und 1 vor. Da es etwasumständlich ist, immer über den radioaktiven Zerfall zu sprechen, solluns als Beispiel ein Münzwurf genügen, und wir nehmen einfach an,dass dieser gleichfalls genuin indeterministisch sei. Wird die Münze ausgrößerer Höhe geworfen, finden viele Zusammenstöße mit Luftmolekü-len statt. Diese Ereignisse finden zum einen auf der Mikro-Ebene stattund unterliegen somit den Regeln der Quantenmechanik, zum anderenhaben wir es hier mit großen unkalkulierbaren Anzahlen von Zusam-menstößen zu tun, weshalb die Indeterminiertheitsannahme jedenfallsnicht ganz unplausibel ist. Nehmen wir also an, die objektive Chance fürKopf (K) beim nächsten Wurf sei 0,4. Die Münze ist also wieder einmalnicht fair, sondern vermutlich in irgendeiner Weise asymmetrisch. DieArt des Werfens sei dagegen fair und bevorzuge keine Seite.

Wenn wir nun nichts anderes wissen, als dass gilt ch(K)=0,4 (Chancevon K sei 0,4), so sollten wir auch unsere subjektive WahrscheinlichkeitP(K)=0,4 wählen. Das nennt man in allgemeinerer Form gerade MillersPrinzip, und es wirkt recht plausibel.

Millers Prinzip: P(A|ch(A)=r) = r

Es besagt schlicht und einfach: Wenn wir schon annehmen, dass A eineobjektive Wahrscheinlichkeit von r besitzt, wahr zu sein, so sollte unseresubjektive Wahrscheinlichkeit das widerspiegeln. Das würde in der bis-herigen Form allerdings noch nichts darüber sagen, ob wir über weiteresWissen über A verfügen.

Um damit realistischere Situationen erfassen zu können, hat DavidLewis es zu dem sogenannten Hauptprinzip ausgebaut. Dabei wird ange-nommen, dass wir noch eine ganze Menge an weiteren Informationen Ehaben dürfen, die sogar das Auftreten von E betreffen können und diesogar in eine ganz andere Richtung weisen dürfen. Dann sollen wirtrotzdem nach dem Hauptprinzip weiterhin an r als subjektiver Wahr-scheinlichkeit festhalten. Solche zusätzlichen Informationen, für die dasHauptprinzip gilt, werden als die zulässigen Informationen relativ zu Abezeichnet.

Hauptprinzip: P(A|ch(A)=r & E) = r

Die Idee beim Münzwurf ist etwa: Wenn wir definitiv wüssten, dass dieChance für Kopf beim nächsten Wurfe genau 0,4 ist, dann würde diesesWissen viele andere Informationen, die wir sonst noch über den Münz-

Page 305: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

293 Thomas Bartelborth: Induktives Schließen

wurf haben könnten, aus dem Felde schlagen. Etwa die Information,dass in den bisherigen Würfen eine Quote von 80% Köpfen mit dieserMünze erzielt wurde.

Man muss sich allerdings erst einmal vorstellen, wir verfügten tat-sächlich über dieses besondere Wissen über die tatsächliche Chance fürKopf bei unserem nächsten Wurf. Das fällt uns nicht so ganz leicht, dadieses Wissen uns im Normalfall nicht vorliegen wird. Am ehesten könn-ten wir solche Werte aus bestimmten Theorien erhalten, die wir akzep-tieren und deren Vorhersagen bestimmter Wahrscheinlichkeiten wir des-halb ebenfalls akzeptieren würden. Nehmen wir hier einmal der An-schaulichkeit halber an, der liebe Gott würde uns mit der wahren Wahr-scheinlichkeit für Kopf versorgen. Er würde sagen: „Es stimmt schon,dass der Werfer bisher eine sehr gute Trefferquote von 0,8 für Kopf hat-te, aber ich garantiere, dass die reale Chance für Kopf beim nächstenWurf nur 0,4 ist.“ Welche Wetten auf Kopf sollten wir dann akzeptie-ren? Nicht mehr als Quoten von 4:6, denn entscheidend bleibt dochwohl die reale Wahrscheinlichkeit für Kopf und nicht, was der Werferfrüher erreicht hat. Wenn uns der liebe Gott nicht hilft, sind wir natür-lich immer ganz auf die früheren Quoten angewiesen und verfügen ebennicht über die Informationen über die tatsächlichen objektiven Chancen.Doch in unserem fiktiven Fall haben wir diese spezielle Information, diedas alles aus dem Felde schlägt. Das scheint klar zu sein, sobald wir unsmit dieser recht ungewöhnlichen Situation einmal vertraut gemacht ha-ben.

Es gibt aber auch nicht-zulässige Informationen. Gott könnte etwa sa-gen: „Die objektive Chance für A ist zurzeit 0,4, aber ich kann bereits indie Zukunft sehen und weiß, worauf die Münze fallen wird. Sie wirdnämlich tatsächlich auf Kopf fallen.“ Solche Art hellseherischer Informa-tionen sind unzulässig. Sie könnten natürlich unsere bisherigen Informa-tionen über die tatsächlichen Chancen übertrumpfen. Um das Prinzipbesser zu verstehen und schließlich zum Verständnis der beteiligten Be-griffe von Wahrscheinlichkeit beizutragen, müssten wir nun genauer spe-zifizieren, welche Informationen zulässig sind. Dafür gibt es keine einfa-che Abgrenzung, aber doch einige klare Fälle. Die Idee ist, dass üblicheInformationen über unsere Welt, wie wir sie eben normalerweise erlan-gen können, durchaus zulässig sind. Dazu gehören (nach Lewis 1980)zum einen alle Informationen über Ereignisse vor dem Zeitpunkt t, zudem die Chancen bestehen, und zum anderen all unsere Theorien zumZeitpunkt t über gesetzesartige Zusammenhänge, die auch zukünftigeChancen betreffen können.

Page 306: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 294

Doch selbst wenn diese Prinzipien plausibel erscheinen, können wiruns natürlich trotzdem fragen, warum wir sie akzeptieren sollten, unddas muss etwas mit der Trefferquote zu tun haben, die wir erzielen,wenn wir uns danach richten, im Vergleich dazu, wenn wir andere Ver-fahrensweisen nutzen. Einige Autoren (s. dazu Strevens 1999) haben ar-gumentiert, dass objektive Wahrscheinlichkeiten einen guten Führerdurch unser Leben abgeben. Die Idee ist die folgende: Wenn ch(A)=rist, so dürfen wir zumindest auf lange Sicht erwarten, dass A mit der re-lativen Häufigkeit r eintritt. Diese Kenntnis kann uns helfen, wichtigeEntscheidungen zu treffen. Führt etwa ein BWL-Studium mit einer ob-jektiven Wahrscheinlichkeit von 90% für mich zu einem hohen Einkom-men, so könnte das ein guter Grund für mich sein, das BWL-Studiumaufzunehmen, denn in den meisten Fällen wird sich das Studium schließ-lich auszahlen. Hätte es dagegen nur eine Quote von 10%, wäre derGrund zumindest deutlich schwächer. Wir müssten das jeweils mit denQuoten der alternativen Studiengänge vergleichen, einen hochbezahltenJob zu erreichen.

Doch wie gut ist die Leitfunktion objektiver Wahrscheinlichkeitentatsächlich? Strevens (1999) kommt schließlich zu einem skeptischen Er-gebnis. Das liegt vor allem daran, dass die Aussage B [ch(Das BWL-Studium führt für mich zu hohem Einkommen.)=0,9] selbst so weniggreifbar ist. Wir verstehen sie nicht richtig (vgl. Kap. 5.4) und behelfenuns mit Formulierungen wie: „auf lange Sicht gilt ...“. Hätten wir ein-fach die Aussage A „Das BWL-Studium führt zu hohem Einkommen“,so wären wir auf der sicheren Seite und könnten daraus direkt unsereKonsequenzen ziehen. Im Falle der Aussage B geht das nicht. Fritz könn-te uns fragen, warum er nun BWL studieren sollte. B sagt doch nur et-was über große Anzahlen und auch für die gibt es eigentlich wieder nureine Wahrscheinlichkeit an, dass sich das BWL-Studium für die meistenauszahlt. Doch wie hilft ihm das für seinen eigenen Fall weiter? Er stehtnur einmal vor dieser Entscheidung und ist nur eine Person. Soll er alsoerwarten (=subjektive Wahrscheinlichkeit dafür ist hoch), dass seinBWL-Studium sich auszahlt?

Genau genommen ist unsere ganze Argumentation an dieser Stellezirkulär. Wir möchten das Prinzip rechtfertigen, dass wir bei einer ho-hen objektiven Wahrscheinlichkeit für A nun A auch erwarten sollten.Eine hohe Wahrscheinlichkeit für A führt aber nur zu der Konsequenz,dass mit hoher objektiver Wahrscheinlichkeit in den meisten Fällen auchA auftreten wird. Sollten wir daher A erwarten? Das war eigentlichunsere Ausgangsfrage. Wir sind hier tatsächlich auf das Hauptprinzip an-

Page 307: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

295 Thomas Bartelborth: Induktives Schließen

gewiesen, um die Frage positiv beantworten zu können. Dann bleibt fastnur der Ausweg, den David Lewis vorschlägt, dass zumindest eine be-stimmte Konsequenz dieser Art bereits zum Begriff der objektiven physi-kalischen Wahrscheinlichkeit dazugehört. Wir denken uns objektiveWahrscheinlichkeit so, dass sie u.a. einen Leitfaden für unsere Entschei-dungen abgibt.

Darauf müssen wir u.a. in Kapitel 5.3.12 noch einmal zurückkom-men. So wird selbst für den Probabilisten oder spezieller den subjektivenBayesianer die Frage bedeutsam, was wir unter einer objektiven physika-lischen Wahrscheinlichkeit verstehen sollten. Leider haben Wahrschein-lichkeitsaussagen keine Konsequenzen, die nicht selbst wieder mit demVorbehalt der Wahrscheinlichkeit versehen sind. Insbesondere gebenWahrscheinlichkeitsaussagen keine klaren Vorhersagen ab, sondern wie-derum nur wahrscheinliche Vorhersagen. Ohne zu verstehen, was mit ob-jektiver Wahrscheinlichkeit gemeint ist, sind wir dann noch nicht wirk-lich weitergekommen. Strevens (1999) vergleicht dieses Problem mitdem ursprünglichen Humeschen Induktionsproblem und vertritt hierden Skeptiker.

Strevens (1999) hat mit diesen Überlegungen strikt betrachtet Recht,aber wir arbeiten bereits auf eine bestimmte intuitive Weise mit dem Be-griff der Wahrscheinlichkeit, auf die wir uns hier stützen dürfen. Danachkommt uns eine Frage wie die folgende schon sehr seltsam vor:

(F) Natürlich habe ich eine objektive Wahrscheinlichkeit von 99%eine Querschnittslähmung davonzutragen, wenn ich von dieser Höheins Wasser springe, aber weshalb sollte das ein Grund sein, es nichtzu tun?

Nehmen wir an, es sei klar, dass der Fragende die Querschnittslähmungals genauso unerfreulich betrachtet wie wir. Wenn er dann trotzdemnicht versteht, wieso hier ein (prima-facie) Grund vorliegt, den Sprungzu unterlassen, so scheint er uns nicht richtig zu verstehen, was wir mitobjektiver Wahrscheinlichkeit meinen. (Das scheint analog zum Fall desstatistischen Syllogismus zu sein, und schließlich führen normalerweisedie entsprechenden objektiven Wahrscheinlichkeiten auch zu den relati-ven Häufigkeiten, die wir anschließend im Rahmen des statistischen Syl-logismus entsprechend nutzen würden, nur dass der nicht so stark ist,weitere Informationen aus dem Felde zu schlagen.)

Wir nehmen jedenfalls eine gewisse analytische Verbindung zwischenobjektiver Wahrscheinlichkeit und Erwartbarkeit an, die in Frage (F)verletzt wird. Deshalb erscheint sie uns so seltsam. Natürlich wäre sie

Page 308: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 296

noch seltsamer, wenn die Querschnittslähmung mit Sicherheit eintretenwürde. Es bleibt ein gewisser Unterschied zwischen Wahrscheinlichkeits-aussagen und sicheren Aussagen zurück, doch die hier behaupteten Zu-sammenhänge sind ebenso wenig von der Hand zu weisen.

Allerdings ist das Hauptprinzip − wie schon erwähnt − eher theore-tischer Natur, weil wir normalerweise keine zuverlässigen Informationenüber objektive Einzelfallwahrscheinlichkeiten besitzen. Es gibt für unsnur eine Zielvorstellung dafür ab, was wir mit entsprechenden Informa-tionen anfangen könnten, und liefert uns gute Gründe anhand von sta-tistischen Daten und Theorien, solche Informationen zumindest zuschätzen, weil sie unser Leben anleiten können. Es erläutert damit dieBedeutung des Konzepts der objektiven physikalischen Wahrscheinlich-keit und bietet so auch Gründe, Theorien mit objektiven Wahrschein-lichkeiten anzustreben.

Häufiger werden wir jedoch auf den statistischen Syllogismus zurück-greifen können, der allerdings ähnliche Rechtfertigungsprobleme mitsich bringt. Man könnte das sogar so ausdrücken: Wir nutzen die relati-ven Häufigkeiten als unseren besten objektiven Hinweis auf eine be-stimmte objektive Wahrscheinlichkeit für den Einzelfall, jedenfalls solan-ge keine anderen Informationen vorliegen. Dann nutzen wir diese objek-tive Einzelfallwahrscheinlichkeit im Sinne des Hauptprinzips, um damitunsere Erwartungen festzulegen. Doch das Hauptprinzip ist an dieserStelle noch deutlich stärker, denn es lässt zu, dass wir zusätzlich nochüber viele weitere Informationen verfügen. Dann ist der statistische Syl-logismus aber nicht mehr anwendbar.

Die Stärke der Chancen-Information bringt den Bayesianer aber auchin Schwierigkeiten, denn eigentlich sollen wir doch mit relevanten Infor-mationen jeweils updaten und diese nicht einfach links liegen lassen.Doch die Frage ist dann, wann wir mit dem Updaten beginnen und wielange wir unsere Chancen-Information schlicht dazu nutzen, um damitandere Informationen zurückzuweisen. Eigentlich ist das Hauptprinzipnur dazu gedacht, bestimmte Startwahrscheinlichkeiten festzulegen, mitdenen wir dann das bayesianische Update-Spiel beginnen können. Be-trachten wir dazu noch einmal das Beispiel des möglichen Dschungelfie-bers von Herrn Vorsichtig und denken uns dazu zwei unterschiedlicheSituationen. Nur soll diesmal Herr Vorsichtig schon vor seinem Urlaubbeurteilt werden und der Test ist ein Test für die Empfänglichkeit vonDschungelfieber. Ansonsten seien alle Werte dieselben.

Die Daten der BerechnungP(H) = 1/1000

Page 309: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

297 Thomas Bartelborth: Induktives Schließen

P(~H) = 999/1000P(T+|~H) = 3/100P(T+|H) = 99/100Resultat: P(H|T+) = 0,032

In Situation S1 wird die Wahrscheinlichkeit für Herrn Vorsichtig diesmalnicht anhand des statistischen Syllogismus, sondern anhand des Haupt-prinzips festgelegt. Nehmen wir also an, er hätte die objektive Wahr-scheinlichkeit von 1/1000 dafür, Dschungelfieber im Urlaub zu entwi-ckeln. Das nehmen wir als Ausgangspunkt für weitere Überlegungen.Kommt dann das positive Testergebnis (für erhöhte Anfälligkeit fürDschungelfieber) hinzu, müssen wir eigentlich damit updaten und erhal-ten als neue Wahrscheinlichkeit für Herrn Vorsichtig im Urlaub anDschungelfieber zu erkranken nun 0,032.

Situation S2 ist ähnlich, aber wir erhalten das positive Testergebniszugleich mit der Information über seine objektive Wahrscheinlichkeitvon 1/1000 für Dschungelfieber. Das positive Testergebnis ist sicher einezulässige Information im Sinne des Hauptprinzips. Sie wird also im Sin-ne des Hauptprinzips durch die objektive Wahrscheinlichkeit aus demFelde geschlagen. Statt updaten zu müssen, müssen wir dann bei derWahrscheinlichkeit 0,001 für Dschungelfieber stehenbleiben.

Das heißt, je nachdem, wann und in welcher Situation uns bestimmteInformationen erreichen, werden sie entweder mit Hilfe der Konditiona-lisierungsregel zum Updaten verwendet oder durch das Hauptprinzipeinfach übertrumpft. Hauptprinzip und klassischer Bayesianismus ver-fahren eben ganz unterschiedlich mit Informationen und passen dahernicht wirklich zusammen. In den beiden Situationen erhalten wir jeden-falls unterschiedliche Endwahrscheinlichkeiten, obwohl wir in beiden Si-tuationen insgesamt über dieselben Informationen verfügen. Der Baye-sianismus passt eben besser zu Prinzipien, die für den Fall gedacht sind,dass keine weiteren Informationen vorliegen, wie das im statistischenSyllogismus der Fall war oder wie das auch für die Indifferenzprinzipienz.T. der Fall ist. Bayesianer können sich allerdings damit trösten, dass essich beim Hauptprinzip eher um ein theoretisches Prinzip handelt, dawir in der Praxis nirgends über so starke Informationen verfügen, wiesie im Hauptprinzip vorausgesetzt werden.

Schön wäre es auch, wenn es ein sinnvolles Prinzip in der anderenRichtung gäbe, nach dem wir von bestimmten epistemischen Wahr-scheinlichkeiten auf objektive physikalische Wahrscheinlichkeiten schlie-ßen könnten, doch das ist normalerweise kaum möglich. Ein solchesPrinzip hätte darüber zu entscheiden, wann unsere Plausibilitätsgrade

Page 310: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 298

gut genug gestützt wären, so dass wir gute Gründe für die Annahme hät-ten, wir könnten damit einigermaßen zuverlässig objektive Wahrschein-lichkeiten schätzen. Das setzt eine anspruchsvolle Metabewertung unse-rer epistemischen Wahrscheinlichkeiten voraus, über die wir leider nichtverfügen. Um auf objektive Zusammenhänge schließen zu können, benö-tigen wir vielmehr objektive Daten, etwa um darauf Hypothesen überkausale Tendenzen im Sinne von Chancen zu stützen, und wir werdendazu im letzten Kapitel etwa die Differenzmethode kennenlernen, dieuns typischerweise die erforderlichen Daten liefert, um relativ direkt aufkausale Zusammenhänge zu schließen.

5.3.13 Das ReflexionsprinzipAuch das letzte Prinzip in dieser Rubrik hat eher einen theoretischenCharakter und wird mehr der Vollständigkeit halber erwähnt, und weiles etwas über die Qualität von Dutch-Book-Argumenten aussagen kann.Es handelt sich eigentlich nicht um ein Wahrscheinlichkeitskoordinie-rungsprinzip, weil es nur Glaubensgrade miteinander verbindet, aber daes ebenfalls weitere Einschränkungen für die Glaubensfunktionen bietenkann, erwähne ich es kurz an dieser Stelle. Gemeint ist das sogenannteReflexionsprinzip, das auf van Fraassen (1984) zurückgeht und dortdurch ein diachronisches Dutch-Book-Argument begründet wird. Wennwir schon heute wüssten, dass wir in Zukunft einen bestimmten Glau-bensgrad für A haben werden P+(A)=r, dann sollten wir gemäß diesemPrinzip schon heute den entsprechenden Glaubensgrad übernehmen:

Reflexionsprinzip: P(A|P+(A)=r) = r

Doch das Prinzip ist keineswegs unproblematisch. Es könnte passieren,dass meine späteren Glaubensgrade daran kranken, dass ich inzwischenbestimmte Daten vergessen habe oder dass ich senil geworden bin oder− noch einfacher − dass ich schlicht und einfach irreführenden Datenaufsitzen werde, obwohl ich diese verantwortungsvoll ausgewertet habe.Es ist etwa ein glaubwürdiger Alibizeuge aufgetaucht, der uns aber tat-sächlich anlügt. Zumindest die ersten Probleme mit dem Reflexionsprin-zip können vielleicht dadurch ausgeräumt werden, dass wir es abschwä-chen und nur noch solche zukünftigen Glaubensgrade zu unserem heuti-gen Maßstab erheben, die auf rationale Weise entstanden sind. Die Defi-nition von „rational“ ist dabei natürlich wieder mit all den hier disku-tierten Problemen belastet. Das letztgenannte Problem erledigt sich nichtso einfach. Jedenfalls ist es nicht zweifelsfrei rational, heute schon Glau-

Page 311: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

299 Thomas Bartelborth: Induktives Schließen

bensgrade anzunehmen, die durch Daten entstehen werden, die ich ausheutiger Sicht nicht kenne und daher nicht bewerten kann.

Mein Problem ist aber ein noch anderes: Wenn ich heute in meinenGlaubensgraden nicht mit meinen zukünftigen übereinstimme, kann wie-der ein diachronisches Dutch-Book gegen mich konstruiert werden –gleichgültig, wie vernünftig meine zukünftigen Glaubensgrade sein wer-den. Nehmen wir an, meine Glaubensgrade für A seien die folgenden:

(1) P(A) = 0,4(2) P+(A) = 0,6

Dann muss ich heute bzw. in der Zukunft die folgenden beiden Wettenjeweils um einen Topf von 10 Euro akzeptieren:

(1) Wette 1 (heute): 6 Euro auf ~A(2) Wette 2 (in Zukunft): 6 Euro auf A

Wiederum ist klar, dass ich 12 Euro bezahle, aber nur 10 Euro erhaltenwerde und damit in jedem Fall mit einem Verlust zurückbleibe. Stellenfür uns solche diachronischen Dutch-Books (diachronisch, weil die Wet-ten zu verschiedenen Zeitpunkten stattfinden) aber einen guten Grunddar, unsere heutigen Glaubensgrade schon den morgigen anzupassen, somüssten wir für das einfache Reflexionsprinzip eintreten, das wir obenaufgeführt haben, ohne zusätzliche Rationalitätsforderungen. Das Refle-xionsprinzip ist aber − wie die Beispiele zeigen − nicht sehr plausibelund könnte daher auf andere Weise ausgebeutet werden.

Nehmen wir an, ich bin mir heute aufgrund vieler guter Gründe sehrsicher (Wahrscheinlichkeit 99%), dass ein bestimmtes Wunder W nichteintreten wird, bzw. habe nur eine 1% Wahrscheinlichkeit dafür, dassdas Wunder eintritt. Allerdings weiß ich nun, dass ich gezwungen werde,mich einer bestimmten Form von Gehirnwäsche innerhalb einer Sektezu unterziehen und man kann mir praktisch garantieren, dass ich danachden Glaubensgrad 95% haben werde, dass das Wunder W eintritt. Sollteich den dann heute schon übernehmen, um die sonst auftretende dia-chronische Inkohärenz zu vermeiden und damit einem Dutch-Book-Ar-gument zu entgehen? Das scheint erkenntnistheoretisch kaum sinnvollzu sein. Vielleicht kann man es durch diese Überlegung praktisch recht-fertigen, aber mit meiner heutigen epistemischen Situation hat es nichtviel zu tun (vgl. dazu auch Christensen 1991).

Es hieße außerdem, dass ich nun heute hohe Summen auf das Auftre-ten des Wunders gegen kleine Beträge setzen müsste, obwohl doch allemeine bisherigen Kenntnisse das Wunder als praktisch unmöglich er-

Page 312: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 300

scheinen lassen. Nach meinem heutigen Kenntnisstand würde ich durchsolche Wetten bereits heute viel Geld verlieren. Also bleibe ich heute beimeinen jetzigen Überzeugungen und gehe heute einfach keine Wettengegen das Wunder ein, weil ich schon weiß, dass man die morgen aus-schlachten könnte. Meine beste Reaktion auf die Information, dass ichmorgen an das Wunder glauben werde, ist also nicht, heute auch schondaran zu glauben, damit ich möglichst kohärent bleibe, sondern einfachnur Enthaltsamkeit zu üben, was Wetten gegen das Wunder angeht, undmir das besonders für die Zukunft fest vorzunehmen.

Das Dutch-Book-Argument „beweist“ hier zu viel. Folgen wir ihm,sollten wir unsere morgigen Glaubensgrade schon heute übernehmen,was aber nicht wirklich vernünftig wäre. Es ist jedenfalls nicht zwin-gend, dass wir heute bereits etwas rationalerweise akzeptieren sollten,was uns morgen als plausibel erscheint, aber eben aufgrund unserer jetzi-gen Datenlage heute keineswegs bereits wahrscheinlich ist. Vernünftigscheint es eher zu sein, das heute zu akzeptieren, wofür heute unsereDaten sprechen und die alleinige Auskunft, dass wir morgen etwas an-ders akzeptieren werden, kann kaum als gute Begründung für eine be-stimmte Überzeugung herhalten. Dieses Resultat schwächt zugleich dieÜberzeugungskraft von diachronischen Dutch-Book-Argumenten allge-mein. Insbesondere wird auch die Konditionalisierungsregel durch ent-sprechende diachronische Dutch-Book-Argumente begründet. Die bishe-rige Debatte belegt nun aber, dass wir diesen Überlegungen nicht zu vielGewicht geben dürfen.

5.3.14 IndifferenzprinzipienDas bekannteste Verfahren, um zu ersten Wahrscheinlichkeiten zu gelan-gen, finden wir in den Indifferenzprinzipien, die wir oft anwenden, oh-ne uns dessen bewusst zu sein. Wenn ich frage: „Wie hoch ist die Wahr-scheinlichkeit mit zwei Würfeln eine Augensumme echt kleiner 5 zuwürfeln?“, so werden Sie rechnen: Es gibt die Paare (1,1), (1,2), (2,1)und (2,2), die die Bedingung erfüllen, also erhalten wir: 4/36=1/9. Dasist meistens auch genauso beabsichtigt. Aber damit haben wir schon vor-ausgesetzt, dass beide Würfel fair sind, oder zumindest, dass es für unsrational ist, eine Wahrscheinlichkeit von 1/6 für jede Augenzahl der bei-den Würfel anzunehmen und anzunehmen, dass sich die Augenzahlender beiden Würfel unabhängig voneinander einstellen. Die erste Annah-me wollen wir nun weiterverfolgen. Ich könnte etwa fragen: „Woherweißt Du, dass alle Ergebnisse dieselbe Wahrscheinlichkeit haben?“ Dar-auf ist eine naheliegende Antwort, dass wir bisher keinen Grund dafür

Page 313: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

301 Thomas Bartelborth: Induktives Schließen

haben, dass irgendeine Zahl bevorzugt wird, und dann müsste unser bes-ter Tipp doch wohl sein, von einer Gleichverteilung auszugehen. Eineähnliche Argumentation hatten wir schon im Falle des statistischen Syl-logismus kennengelernt. Ich finde diese Argumentation auch durchausüberzeugend, wenn es uns darum geht, zu epistemischen Wahrschein-lichkeiten zu gelangen. Sie stützt sich wieder auf das epistemischeGleichbehandlungsprinzip. Leider gibt es eine Reihe von Paradoxien, diedas Indifferenzprinzip und seine Verwandten in Verruf gebracht haben,so dass es heute oft abgelehnt wird.

Indifferenzprinzip (IP): Gibt es eine Reihe von Möglichkeiten m1,...,mk, die einander ausschließen, aber zusammen erschöpfend sind (einedavon wird also eintreten), und wir haben keinen Grund anzuneh-men, dass eine davon wahrscheinlicher ist als eine andere (bzw.schlicht: eine zu bevorzugen), dann sollten wir eine Gleichverteilungannehmen: P(m1)=...=P(mk)=1/k.

Das ist zunächst eine Variante für unsere subjektiven epistemischenWahrscheinlichkeiten. Wir könnten darüber hinaus versuchen, eine ob-jektive Variante des Indifferenzprinzips zu formulieren, die sich daraufstützen müsste, dass es keine objektiven, relevanten Unterschiede zwi-schen den Möglichkeiten gibt. Das hieße also im Falle des Würfels, dasser objektive Symmetrien aufweist, die keine der Seiten hervorstechen las-sen. Das sollte jedenfalls einen positiven Grund dafür bieten, von glei-chen Wahrscheinlichkeiten auszugehen. Doch eine solche objektive Va-riante verlangt nach stärkerem Hintergrundwissen als (IP) selbst. Wirmüssten schon wissen, welche Eigenschaften für das Ergebnis relevantsind, und für die einen Gleichstand verlangen. Ist eine der Augenzahlenetwa gelb und sind die anderen rot aufgedruckt, müssten wir schon wis-sen oder zumindest begründen können, dass das keinen Einfluss auf dasErgebnis hat, um sagen zu können, dass alle Seiten in relevanten Hin-sichten symmetrisch sind. Stattdessen verlangt (IP) nur, dass wir überkeinen Grund für die Annahme verfügen, dass rot oder gelb einen Vor-zug darstellen. Mit (IP) versuchen wir also gerade aus der Abwesenheitvon Wissen erste Schlüsse zu ziehen. Das soll hier mein Thema sein.

Das ist auch schon ein erster Kritikpunkt der Skeptiker. Wie kannman aus Nichtwissen nun mit (IP) Wissen machen? Nämlich das Wissenum bestimmte Wahrscheinlichkeiten für die einzelnen Möglichkeiten.Doch das verkennt den obigen Schluss. Er soll nur unser Unwissen in be-stimmte Zahlen übersetzen. Da unser Unwissen symmetrisch bzgl. derMöglichkeiten ist, besagt es nur, dass unsere Glaubensgrade das ebenso

Page 314: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 302

sein sollten. Mehr nicht. Wir sagen nichts über die objektiven Wahr-scheinlichkeiten. Das wäre zu viel verlangt. Trotzdem scheint das dochein guter Ausgangspunkt gerade für bayesianische Überlegungen zu sein.Die induktiven Logiker haben diese Idee sehr stark gemacht und als Aus-gangspunkt all ihrer Überlegungen hergenommen. Wenn unser bisheri-ges Hintergrundwissen neutral bzgl. verschiedener Möglichkeiten ist, sosollte sich diese Neutralität genauso in unseren Glaubensgraden wider-spiegeln. Jede Abweichung von der Neutralität wäre demnach begrün-dungspflichtig.

Leider lässt sich diese Neutralität nicht immer so einfach aufrecht-erhalten. Zunächst bestimmt sich die Anzahl der Optionen anhand unse-rer sprachlichen Darstellung dieser Möglichkeiten. Wie das passiert,mag ein einfaches Beispiel erläutern. Nehmen wir an, wir haben weiße,blaue und rote Kugeln in einem unbekannten Mischungsverhältnis ineiner Urne. Wie groß ist in diesem Fall die Wahrscheinlichkeit, eine wei-ße Kugel zu ziehen? Nach (IP) müssten wir sagen: 1/3. Aber wir hättendie Situation auch anders beschreiben können. Vielleicht hätten wir so-gar nur die Farbprädikate weiß und bunt zur Verfügung gehabt. Dannhätten wir gesagt: Es sind weiße und bunte Kugeln in der Urne, aber wirkennen das Mischungsverhältnis nicht. Dann hätte man mit (IP) sagenmüssen, dass die Wahrscheinlichkeit für eine weiße Kugel 1/2 gewesenwäre. Die Anwendung führt also je nach Beschreibung oder Sprache zuunterschiedlichen Ausgangswahrscheinlichkeiten.

Nach Franklin (2001) müssen wir deswegen nicht gleich verzweifeln,sondern sollten weiter an solchen Beispielen arbeiten. Wir können indiesem Fall nach grundlegenderen Beschreibungen Ausschau halten unddie Anwendung von (IP) auf diese beschränken (hier also auf den erstenFall) oder wir müssen uns darauf einlassen, verschiedene Darstellungenals gleichwertig zu betrachten und etwa eine Mischung daraus zulassenoder eben mit einer Menge von zulässigen Wahrscheinlichkeiten weiter-zuarbeiten. Oder manchmal müssen wir sogar zugeben, dass (IP) hiereinfach nicht anwendbar ist. Niemand kann uns zu der verrückten Be-hauptung zwingen, (IP) müsste auf jedes Beispiel anwendbar sein undwürde immer zu sinnvollen Ergebnissen führen. Sind wir davon erst ein-mal abgerückt, können wir nach weiteren Anforderungen an (IP) su-chen, die zu sinnvollen Einschätzungen führen sollen. Insbesonderekönnten wir solche Fälle ausschließen, in denen gleichermaßen grundle-gende Beschreibungen zu unterschiedlichen Einschätzungen durch (IP)führen.

Page 315: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

303 Thomas Bartelborth: Induktives Schließen

Das könnte uns auch für wissenschaftliche Hypothesen oder ähnlicheFälle passieren. So könnte jemand fragen, ob wir eine neue quantenme-chanische Theorie Q mit ganz neuen Gesetzen für wahr oder falsch hal-ten. Da wir bisher noch nicht wissen, wie erfolgreich die Theorie Q an-gewandt werden kann, sollten wir seiner Meinung nach (IP) einsetzenund müssten dann sagen: Wir haben zwei Möglichkeiten (wahr oderfalsch). Also ist die Ausgangswahrscheinlichkeit für die Theorie 1/2.Doch das erscheint uns nicht besonders plausibel und ist vermutlich zuhoch angesetzt. Wir könnten ebenso ganz anders rechnen: Die Theoriestellt Behauptungen über die potentiell unendlich große Zahl an beob-achtbaren Sachverhalten b1, b2,... auf und behauptet, dass genau dieseauftreten und nicht ihre Negationen. Dann könnten wir die komplexenzugrundeliegenden Sachverhalte etwa als unendliche Vollkonjunktionen±b1 & ±b2, &... beschreiben. Im Idealfall sagt uns die Theorie Q also,dass genau einer dieser komplexen Sachverhalte (nämlich b1 & b2 & ...)realisiert ist. Doch jeder dieser Sachverhalte kann zunächst falsch oderrichtig sein. Also ist die Anzahl an Möglichkeiten durch die Menge allerFolgen ±b1, ±b2,... gegeben. Die ist aber sogar überabzählbar. Dahersollte bei einer Gleichverteilung jede Folge die Wahrscheinlichkeit 0 er-halten. Nur eine der Folgen besagt, dass unsere Theorie wahr ist, alsosollten wir der Theorie die Ausgangswahrscheinlichkeit 0 geben, was be-kanntlich für den Bayesianer fatal ist, da sich die Theorie selbst durchwiederholtes Updaten davon nicht mehr erholen kann. Das war schonPoppers Überlegung. Der Probabilist müsste an dieser Stelle vermutlichdafür eintreten, dass wir immer nur Theorien über de facto endlich vieleObjekte betrachten, wenn wir das Indifferenzprinzip zum Einsatz brin-gen möchten, aber wir erkennen die auftretenden Probleme des Prinzipsauch in diesen Fällen. Die Wahrscheinlichkeit für die Theorie müsste beider zweiten Zählweise recht klein ausfallen, während die erste Zählwei-se den neuen Theorien bereits eine recht hohe Plausibilität einräumt.

Schauen wir dazu noch auf ein weiteres Beispiel von van Fraassen(1989). Nehmen wir an, eine Fabrik stellt Holzwürfel mit einer Kanten-länge zwischen 0 und 1 Meter her. Dann liegen die Flächen der Würfelzwischen 0 und 1 Quadratmeter. Wir denken uns im Folgenden die Ein-heiten hinzu. Gehen wir davon aus, wir wüssten nicht mehr über dieProduktion und fragen uns nun, welche Ausgangswahrscheinlichkeit wirfür bestimmte Würfelgrößen annehmen sollten. Fragen wir etwa, wiehoch die Wahrscheinlichkeit p ist, dass die Würfel eine Kantenlänge zwi-schen 0 und 0,5 haben werden. Zunächst bietet es sich an, auf demIntervall [0;1] eine Gleichverteilung anzusetzen (eine konstante Dichte-

Page 316: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 304

funktion mit Wert 1 auf dem Intervall) und dann den beiden Intervallen[0;0,5] und (0,5;1] dieselbe Wahrscheinlichkeit p=1/2 dafür zu geben,dass unser Würfel eine Kantenlänge aus diesem Intervall hat. Ähnlichkönnen wir aber auch für die Flächen vorgehen (und schließlich nochfür die Volumina). Nehmen wir auf den Flächen wieder eine Gleichver-teilung an, wäre p=P(Kantenlänge zwischen 0 und 0,5)=1/4. Wendenwir das Indifferenzprinzip auf die Volumina an, ergibt sich p=1/8.

Die so generierten Wahrscheinlichkeitsverteilungen widersprecheneinander also. Es ist auch nicht ersichtlich, warum einer der Ansätze ba-saler sein sollte. Je nach Beschreibung dessen, was in der Fabrik ge-schieht, bieten sich die unterschiedlichen Ansätze an. Darauf kommenwir im Rahmen der bayesianischen Parameterschätzung noch einmal zu-rück. Die Anwendungen des Indifferenzprinzips drohen also beschrei-bungsabhängig zu werden. Wir müssen also nach besonders grundlegen-den Beschreibungen Ausschau halten oder die unterschiedlichen Be-schreibungen wiederum in gleicher Weise mit berücksichtigen und erhal-ten dann durch (IP) keine eindeutigen Werte mehr.

Es gibt auch noch modernere Varianten des Indifferenzprinzips. Daist vor allem das Prinzip der maximalen Entropie zu nennen. Wenn wirz.B. bestimmte Nebenbedingungen haben, wie etwa die, dass eine Wahr-scheinlichkeit mindestens doppelt so groß wie eine andere ist (oder na-türlich auch beliebige andere Vorgaben für die Wahrscheinlichkeiten),dann möchte man z.B. wissen, welche der dann noch zulässigen Vertei-lungen diejenige ist, die einer Gleichverteilung am nächsten kommt.Nehmen wir also an, wir haben nur zwei Möglichkeiten mit zwei Wahr-scheinlichkeiten p1 und p2 und es gilt p12p1, dann sind noch viele Ver-teilungen zulässig. p1=2/3 und p2=1/3 ist dabei sicherlich die gleichmä-ßigste Verteilung, die noch möglich ist. Heißt unsere Nebenbedingungallerdings p1>2p1, dann finden wir schon keine solche Lösung mehr,sondern nur noch Annäherungen daran. Haben wir n Möglichkeitenund müssen darauf n Wahrscheinlichkeiten festlegen, die aber einenNebenbedingung N erfüllen müssen, so sollten wir die Entropie unsererVerteilung im Bereich der Nebenbedingung N maximieren:

Entropie: H(p) = H(p1,...,pn) = – i pi log(pi)

Da der Logarithmus der Wahrscheinlichkeiten negativ ist, wird die rech-te Seite mit einem Minuszeichen versehen. H(p) nimmt bei einer Gleich-verteilung sein Maximum an. Einige Eigenschaften der Informationsen-tropie finden sich etwa bei MacKay (2005, 32 ff., 308). Sind weitereNebenbedingungen N zu erfüllen, sollte nach dem Prinzip der maxima-

Page 317: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

305 Thomas Bartelborth: Induktives Schließen

len Entropie nach der Verteilung gesucht werden, die N erfüllt und fürdie dabei H(p) maximal wird.

Prinzip der maximalen Entropie (MaxEnt): Wähle die Verteilung paus einer Menge N, für die H(p) maximal wird.

Das ist in diesem Fall die Verteilung mit der niedrigsten Information inder Wahrscheinlichkeitsfunktion, die nach N noch zulässig ist. So erhal-ten wir eine Verallgemeinerung von (IP), die z.B. E.T. Jaynes (2003) alszentralen Startpunkt weiterer Überlegungen der Bewertung wissen-schaftlicher Theorien betrachtet.

5.3.15 Bedingte Wahrscheinlichkeiten als basalWir haben konditionale Wahrscheinlichkeiten bisher immer durch einfa-che Wahrscheinlichkeiten definiert:

Bedingte Wahrscheinlichkeit: P(A|B) := P(A&B)/P(B)

Diese Definition setzt aber voraus, dass P(B)>0 gilt. Doch selbst in denFällen, in denen P(B)=0 ist, können wir oft noch sinnvoll von bedingtenWahrscheinlichkeiten sprechen. Wenn z.B. das Ereignis E, dass eine gera-de Zahl gewürfelt wird, aus irgendwelchen Gründen im Moment dieWahrscheinlichkeit 0 hat (z.B. weil die Würfel bereits gefallen sind),dann können wir doch trotzdem die Frage stellen, welche Wahrschein-lichkeit die 4 gehabt hätte, wenn eine gerade Zahl gefallen wäre. Hajek(2003) bietet andere Beispiele, in denen wir gezwungenermaßen eineWahrscheinlichkeit von 0 für B erhalten. Was ist z.B. die Wahrscheinlich-keit dafür, dass ein zufällig herausgegriffener Punkt auf der Erde in derwestlichen Hemisphäre liegt, wenn wir schon wissen, dass er auf demÄquator liegt? Naheliegende Antwort 1/2, obwohl die Wahrscheinlich-keit für das Liegen auf dem Äquator selbst wiederum 0 ist, da es sich umeine sogenannte Nullmenge innerhalb der Kugeloberfläche handelt. Umdiese Fälle korrekt beschreiben zu können, scheint es sinnvoll zu sein,unsere ganze Betrachtung der Wahrscheinlichkeitsanwendungen mit be-dingten Wahrscheinlichkeiten zu starten und diese dann als basal zu be-trachten.

Außerdem können wir in praktischen Anwendungen versuchen, dieAnzahl der zu schätzenden Wahrscheinlichkeiten deutlich zu reduzieren,indem wir uns auf wenige relevante Wahrscheinlichkeiten beschränken,die wir tatsächlich für Berechnungen zu einem bestimmten Problem be-nötigen. So wissen wir etwa, dass die bedingte Wahrscheinlichkeit dafür,dass es in Moskau nass ist, gegeben, es hat dort geregnet, sehr hoch ist,

Page 318: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 306

selbst wenn wir uns mit den klimatischen Bedingungen in Moskau nichtwirklich auskennen (vgl. Hajek 2003). Das bedeutet etwa, dass es unsnicht gelingen mag, auf vernünftige Weise zu schätzen, wie hoch dieWahrscheinlichkeit dafür ist, dass es in Moskau regnet und es dort nassist. Dann können wir unsere konditionale Analyse der bedingten Wahr-scheinlichkeit nicht wirklich einsetzen, und es erscheint in derartigenFällen viel naheliegender, die bedingten Wahrscheinlichkeiten als diegrundlegenden zu betrachten. Diese lassen sich auf einfache Weise axio-matisieren:

Bedingte Wahrscheinlichkeiten als basal:Es gilt für alle A, B und C aus unserer Sprache L:(A1) P(|A) ist eine Wahrscheinlichkeitsfunktion im ersten Argument

(für alle A)(A2) P(A|A) = 1(A3) P(B&C|A) = P(B|A&C)P(C|A)

Es wurden darüber hinaus einige andere Axiomensysteme vorgeschla-gen, aber dieses hat sich schon fast als recht einfacher Standard etabliert(vgl. Earman 1992, Appendix 1). Popper war einer der Ersten, die sichin den Anhängen (etwa *IV und *V) zur Logik der Forschung ausführli-cher mit derartigen Systemen auseinandergesetzt haben.

Man erhält natürlich eine unbedingte Wahrscheinlichkeitsfunktionwieder zurück, indem wir als Bedingung eine feste Aussage üblicherwei-se eine Tautologie t wählen:

Unbedingte Wahrscheinlichkeit: P*(A) = P(A|t)

Außerdem gilt dann natürlich:

P(A|B) = P*(A&B)/P*(B)

So erhalten wir als Basis nun die konditionalen Wahrscheinlichkeiten,die in bestimmten Kontexten spezielle inhaltliche Interpretationen erfah-ren können, wie etwa im Rahmen einer induktiven Logik. Dort stehtP(A|B) dafür, wie die Aussage A durch die Aussage B induktiv gestütztwird, und ist ein Maß der Bestätigung von A durch B. Auch wenn Baye-sianer ihre Relativierung der Plausibilitätseinschätzungen auf ein be-stimmtes Hintergrundwissen explizit machen möchten, haben sie eseigentlich immer mit bedingten Wahrscheinlichkeiten zu tun und könn-ten die sehr wohl als grundlegend betrachten. Das scheint daher einedurchaus interessante Alternative zur klassischen Vorgehensweise zusein.

Page 319: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

307 Thomas Bartelborth: Induktives Schließen

5.4 Objektive Wahrscheinlichkeiten und PropensitätenNeben den subjektiven oder epistemischen Wahrscheinlichkeiten, dieAuskunft darüber geben, wie sicher wir uns bestimmter Aussagen bereitssind oder wie plausibel bestimmte Aussagen im Lichte unseres Hinter-grundwissens sind, wird man üblicherweise auch eine Konzeption objek-tiver Wahrscheinlichkeit einsetzen. Im Hauptprinzip hatten wir schon ge-fordert, dass sich die epistemischen Wahrscheinlichkeiten an den objekti-ven Chancen zu orientieren haben. Außerdem kommen objektive Wahr-scheinlichkeitsaussagen in vielen wissenschaftlichen Theorien vor. Siebehaupten, dass bestimmte Ereignisse mit einer von uns und unseremKenntnisstand unabhängigen Tendenz auftreten. Diese Tendenz ist aller-dings meist erst in längeren Folgen von gleichartigen Ereignissen als rela-tive Häufigkeit erkennbar, mit der ein bestimmtes Resultat auftritt.Wenn ein bestimmtes Atom A eine gewisse Tendenz etwa der Stärke 0,7besitzt, in einem bestimmten Zeitraum T zu zerfallen und wir beobach-ten viele zu A gleichartige Atome über den Zeitraum T, dann werdenwir feststellen, dass ca. 70% diese Atome zerfallen.

Wichtig ist immer, sich vor Augen zu führen, dass es uns hierbei nichtum die formale Theorie der Wahrscheinlichkeit geht, sondern um dieAnwendungen des Wahrscheinlichkeitsbegriffs auf die Wirklichkeit, indenen wir versuchen, bestimmte Aspekte der Wirklichkeit durch Wahr-scheinlichkeiten zu modellieren. Man spricht auch von Interpretationender Wahrscheinlichkeit, wenn wir thematisieren, wie wir solche empiri-schen Wahrscheinlichkeitsaussagen verstehen können. In derartigen Aus-sagen beziehen wir uns mit „Wahrscheinlichkeit“ nicht nur auf das for-male Konzept, sondern möchten damit reale physikalische Eigenschaftenbezeichnen.

5.4.1 Objektive physikalische WahrscheinlichkeitStatt von Atomen, die zerfallen, oder anderen komplexen Systemen wer-de ich allerdings meist nur von geworfenen Münzen als Zufallsexperi-ment sprechen, die in einer bestimmten Situation geworfen werden unddabei Kopf oder Zahl ergeben. Das soll mein Beispiel für ein indetermi-nistisches System sein, weil das etwas einfacher und übersichtlicher istals etwa quantenmechanische Beispiele. Wir werden später noch darüberdiskutieren, ob es überhaupt genuin indeterministische Systeme gibt. Zu-nächst gehe ich hier einfach davon aus und wähle oft das Münzbeispieldafür. Wem das nicht plausibel erscheint, der muss dieses eben durcheigene Beispiele etwa aus dem quantenmechanischen Bereich ersetzen.Hat meine Münze eine Wahrscheinlichkeit von 0,6 dafür, Kopf zu erge-

Page 320: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 308

ben (es ist also keine faire Münze), so erwarte ich, dass bei 100 Würfenca. 60-mal Kopf auftreten wird. Das ist eine bekannte erste Erläuterungeines objektiven physikalischen Wahrscheinlichkeitsbegriffs. Doch wasbehauptet man hier genau, wenn man einem solchen System eine objek-tive Wahrscheinlichkeit von 0,6 für ein bestimmtes Ergebnis zuschreibt?Untersuchen wir also die Behauptung:

(*) Die objektive physikalische Wahrscheinlichkeit für Kopf ist 0,6

Das mathematische Konzept der Wahrscheinlichkeit wird durch die ge-nannten einfachen Axiome beschrieben, aber damit ist noch nichts dar-über gesagt, welche empirische Behauptung wir mit der Aussage (*) auf-stellen. Das zu klären ist Aufgabe einer Interpretation von objektiverWahrscheinlichkeit.

Wir versuchen typischerweise mit Hilfe des Konzepts physikalischerWahrscheinlichkeit Phänomene zu beschreiben und sie womöglich sogarzu erklären, bei denen wir lokal ein regelloses (zufälliges) Verhalten vor-finden, für die sich aber bei längeren Versuchsreihen stabile relativeHäufigkeiten einstellen. Zumindest für einige derartige Prozesse etwa imRahmen der Quantenmechanik haben wir zusätzliche gute Gründe zuder Annahme, dass sie genuin indeterministisch sind. Die Frage, ob einAtom A in einem vorgegebenen Zeitraum T zerfällt, deutet demnachnicht nur auf eine Wissenslücke im Hinblick auf die Ursachen des Zer-falls hin, sondern dieser Vorgang ist durch alle seine Ursachen nicht de-terminiert. Dafür sprechen zumindest diejenigen Überlegungen aus derQuantenmechanik, die Gründe gegen die Existenz verborgener Parame-ter darstellen.

Wir finden also z.B. gewisse Situationen, in denen es durchaus seinkann, dass ein Atom in einem bestimmten Zeitraum eine starke Zerfalls-tendenz hat; dann sollten wir eher darauf wetten, dass es in T zerfällt,als dass es durchhält. Die solchen Vorgängen zugrunde liegende disposi-tionale Eigenschaft hat Popper als Propensität bezeichnet. Das ist inunserem Beispiel eine Disposition zu zerfallen von einer bestimmtenStärke, die gerade durch unsere physikalische Wahrscheinlichkeit alsMaß für das Zerfallen gekennzeichnet wird. Darauf kommen wir gleichwieder zurück. Jedenfalls dürfen wir solange davon ausgehen, dass es ge-nuin indeterministische Vorgänge gibt, wie wir die Quantenmechanikakzeptieren und verborgene Parameter weiterhin ablehnen.

In anderen Bereichen ist es dagegen eher unklar, ob wir dort genuinindeterministische Prozesse vorfinden, oder ob sie uns nur indeterminis-tisch erscheinen, weil wir ihre Ausgangsbedingungen nicht genau genug

Page 321: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

309 Thomas Bartelborth: Induktives Schließen

kennen bzw. nicht einmal genau genug bestimmen können, oder ob diebeteiligten Vorgänge einfach so komplex sind, dass wir sie nur noch alsindeterministische Vorgänge beschreiben können (vgl. Strevens 2003).Wir sollten zumindest darauf vorbereitet sein, auch objektive Wahr-scheinlichkeitsaussagen richtig verstehen zu können, und es ist nicht aus-geschlossen, dass wir sie ebenso in anderen Bereichen außerhalb derQuantenmechanik benötigen, zumal Quanteneffekte durchaus makro-skopische Auswirkungen haben können, wie jeder Messvorgang demons-triert. Wenn wir im Rahmen der klassischen Mechanik bestimmte Ideali-sierungen wie die der Kontinuität des Raumes aufgeben, kann es selbstdort indeterministische Systeme geben (vgl. Bartelborth 1994).

5.4.2 Wahrscheinlichkeit und relative HäufigkeitenDie naheliegendste und prominenteste Idee zur Explikation von objekti-ver physikalischer Wahrscheinlichkeit ist natürlich, die genannte Verbin-dung zur relativen Häufigkeit auszunutzen. Wie groß ist danach dieWahrscheinlichkeit für das Auftreten einer Eigenschaft A (also z.B.„Kopf oben“) für ein bestimmtes Zufallsexperiment (z.B. einen Münz-wurf)? Sie ist gleich der relativen Häufigkeit hn(A)=r/n mit der A ineiner langen Reihe n gleichartiger Zufallsexperimente (vom Typ S) auf-tritt, wenn r die Anzahl der As in der Reihe darstellt:

1. Reduktionsversuch (endliche relative Häufigkeit)P(A) = hn(A) für eine große natürliche Zahl n

Dieser erste Reduktionsversuch für Wahrscheinlichkeitsaussagen scheintsogar strikten empiristischen Ansprüchen zu genügen, denn im Definienssteht eine im Prinzip leicht beobachtbare Größe. Allerdings werden so-gleich drei erste Schwierigkeiten sichtbar: 1. Wie groß muss denn n sein,damit wir hn(A) als Wahrscheinlichkeit deuten dürfen? Sehr kleine Zah-len wie n=1 genügen sicher nicht, denn bei n=1 gäbe es nur die trivia-len Wahrscheinlichkeiten 0 und 1. Die Anzahl der Versuche n sollte alsoschon recht groß sein, aber eine genauere Zahl können wir nicht nen-nen. 2. Außerdem finden wir nur rationale Zahlen (also Brüche) alsWahrscheinlichkeiten, obwohl wir in unserem mathematischen Modellsonst typischerweise reelle Zahlen erlauben (und das sind sehr viel mehrZahlen). Die reellen Zahlen können wir jedoch zunächst einfach als ma-thematische Idealisierung ansehen, während die tatsächlichen empiri-schen Werte eben nur rational sind. 3. Wir stoßen bereits hier auf ein vi-rulentes Problem der Wahrscheinlichkeitseinschätzungen, nämlich dieFrage, wann wir es mit gleichartigen Zufallsexperimenten zu tun haben.

Page 322: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 310

Das wird uns noch als sogenanntes Problem der Referenzklasse verfol-gen. Jedenfalls vergeben wir diese Wahrscheinlichkeiten nicht für ganzheterogene Versuchsreihen, sondern erwarten intuitiv vielmehr, dass Ain diesen Experimenten immer mit derselben Wahrscheinlichkeit auftrittund diese sich dann bei größeren Zahlen entsprechend manifestiert. Be-liebigen Reihen von Zufallsexperimenten ihre relativen Häufigkeiten,mit der ein bestimmtes Resultat auftritt, als Wahrscheinlichkeit zuzuord-nen, ergibt dagegen nur wenig Sinn. Darauf kommen wir wieder zurück.Die gerade formulierte intuitive Auszeichnung der gleichartigen Zufalls-experimente würde allerdings zirkulär wirken und wäre so nicht einsetz-bar. Daher ist das Referenzklassenproblem noch nicht gelöst, sondernnur beschrieben worden.

Neben diesen Unklarheiten der Definition 1 gibt es leider noch eineganze Reihe von hartnäckigen Problemen, die dieser Definition im Wegestehen. Das erste nennt Rosenthal (2004) das „Lückenproblem“. Esbleibt eine intuitive Lücke zwischen Definiendum und Definiens. Neh-men wir an, wir werfen 1000-mal unsere Münze und erhalten 496-malKopf. Nähmen wir unsere Definition ernst, müssten wir nun behaupten,dass die Münze mit Sicherheit gefälscht sei, denn die WahrscheinlichkeitP(Kopf)=496/1000 ist nicht genau 1/2. Doch tatsächlich gehört zu Zu-fallsprozessen immer ein gewisser Spielraum und immer eine Schwan-kung der Ergebnisse. Unser Resultat passt durchaus zu einer fairen Mün-ze. Wir erwarten überhaupt nicht, dass bei einer fairen Münze (d.h.P(Kopf)=1/2) immer genau in der Hälfte der Fälle Kopf kommt. Für un-gerades n ist das sogar unmöglich. Aufgrund der Lücke zwischen Defi-niens und Definiendum kann es sich in unserem ersten Versuch nicht umeine echte Definition handeln. Wir werden auf solche relativen Häufig-keiten erst zurückgreifen dürfen, wenn es uns nur noch um eine Mes-sung der Wahrscheinlichkeit geht und nicht mehr um eine definitorischeReduktion.

Endliche relative Häufigkeiten können also durchaus von der zugrun-deliegenden Wahrscheinlichkeit abweichen. Das gehört sogar zwingendzu unserem Konzept von Wahrscheinlichkeit dazu. Größere Abweichun-gen haben allerdings kleinere Wahrscheinlichkeiten aufzutreten, dochdas hilft uns für eine Definition von Wahrscheinlichkeit zunächst nichtweiter. Es wird aber natürlich ein wichtiger Gedanke für die Messungvon objektiven Wahrscheinlichkeiten sein.

Ein zweites Problem ist damit verwandt. Die relativen Häufigkeitenschwanken stark, wenn wir weiter werfen. Wir suchen andererseits nacheiner festen Wahrscheinlichkeit für unseren Münzwürfe und nicht nach

Page 323: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

311 Thomas Bartelborth: Induktives Schließen

einer Zahl, die auf einen bestimmten Zeitpunkt oder eine konkrete Ver-suchsreihe zu relativieren wäre. Wahrscheinlichkeit würde ein höchst in-stabiles Gut, das je nach Anzahl meiner Versuche hin und her schwankt.Die relativen Häufigkeiten stellen daher keine geeignete Explikation vonobjektiver Wahrscheinlichkeit dar.

Drittens bleibt immer die Frage offen, ob wir auf diese Weise auchWahrscheinlichkeiten für Einzelfälle vergeben können. Wir sagen doch:Beim nächsten Wurf mit diesem Würfel ist die Wahrscheinlichkeit 1/6,dass wir eine 5 erzielen. Dann suchen wir nach einer Einzelfallwahr-scheinlichkeit, doch wie bestimmt man die? Etwa so: Wir suchen nacheiner Referenzklasse von Würfen zu dem nächsten Wurf, deren relativeHäufigkeit des Auftretens der 5 dann unsere Wahrscheinlichkeit be-stimmt, dass beim nächsten Wurf eine 5 fällt. Besteht die Referenzklasseaber nun aus allen Würfen mit demselben Würfel oder auch solchen mitähnlichen Würfeln? Nehmen wir nur die Würfe bis heute oder auch nureinen Teil davon? (Etwa die, bei denen nicht so ein starker Seitenwindgeweht hat.) Müssen wir die zukünftigen Würfe ebenfalls mit berück-sichtigen? Wie soll das jedoch gehen? Tue ich das nicht, schwankt dieWahrscheinlichkeit aber wiederum stark. Und was ist mit dem Fall, indem wir einen einzigartigen Würfel haben und ihn nach einem Versuchgleich wieder zerstören? Hatte der überhaupt keine Wahrscheinlichkeitdafür, dass sich eine 5 ergibt, oder war es einfach nur nicht möglich,über die relative Häufigkeit die tatsächliche physikalische Wahrschein-lichkeit dieses einen Wurfs zu bestimmen?

Um eine Lösung des Referenzklassenproblems kommen wir eigent-lich nie herum in der Anwendung der Wahrscheinlichkeitsrechnung.Doch wie könnte die aussehen? Jedes Zufallsereignis können wir als einElement unterschiedlicher Versuchsreihen betrachten. Welche davon be-stimmt die Wahrscheinlichkeit für unser spezielles Zufallsereignis, d.h.,welches ist die passende Referenzklasse für das Ereignis? Oder mankönnte das auch so formulieren: Wann dürfen wir davon sprechen, dasses sich bei bestimmten Ereignissen um (gleichartige) Wiederholungenunseres ursprünglichen Ereignisses handelt? Wir werden sehen, dass derVertreter der Propensitäten dieses Problem vermeidet, indem er von derTendenz im Einzelfall spricht, dass ein bestimmtes Ergebnis auftritt. De-ren Stärke sei unsere objektive Wahrscheinlichkeit. Erst wenn wir dieseGröße bestimmen wollen (also beim Messverfahren), muss auch der Pro-pensitätenvertreter sich dem Referenzklassenproblem zuwenden.

Um zumindest die Relativität auf eine bestimmte endliche Folge vonWürfen aufzuheben, hören wir von Mathematikern meist: Wahrschein-

Page 324: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 312

lichkeit ist die relative Häufigkeit auf lange Sicht. Und mit „langerSicht“ meinen sie dann oft eine unendliche Folge. Die Wahrscheinlich-keit für Kopf wäre also die relative Häufigkeit von Kopf, die sich erge-ben würde, wenn wir unendlich oft unsere Münze in gleichartigen Ver-suchen werfen würden. Dazu gehört demnach die Definition:

2. Reduktionsversuch (unendliche relative Häufigkeit)P(A) = limn∞ hn(A)

Dieser Ansatz setzt wiederum eine ganze Menge voraus. Er nimmt an, esgäbe unendlich viele irgendwie bestimmte, allerdings fiktive oder hypo-thetische Folgenglieder, die wir für unsere Definition heranziehen dür-fen. Damit stoßen wir schon auf das erste Problem dieses Ansatzes. Ob-wohl dieser Vorschlag aus dem empiristischen Lager kam, kann ein über-zeugter Empirist damit nicht wirklich glücklich sein. Die fiktiven Folgen-glieder können wir nicht beobachten und die Mathematik sagt uns zu-sätzlich, dass wir in einer unendlichen Folge jede endliche Teilfolgedurch eine andere ersetzen könnten und dabei trotzdem denselbenGrenzwert behalten. Das heißt, bei der zweiten Definition spielen dieendlich vielen Resultate unserer Zufallsexperimente, die wir tatsächlichbeobachten können, für den Grenzwert eigentlich keine Rolle. Sie gebenuns aus rein mathematischer Sicht nicht den geringsten Hinweis auf denGrenzwert im Unendlichen. Jedenfalls dann nicht, wenn wir nicht spe-zielle weitere Annahmen über die endlichen Ergebnisse oder Einzelfällein der Folge hinzunehmen, wie es der Propensitätenvertreter unter-nimmt. Für ihn manifestiert sich in jedem Wurf der Münze eine spezielleTendenz zu Kopf und daher geben die ersten Folgenglieder bereits ersteInformationen über diese Tendenz. In der rein formalen Definition derEmpiristen, die ohne die Bezugnahme auf solche Propensitäten auskom-men muss, haben endlich viele Folgenglieder aber überhaupt keine Aus-sagekraft mehr, denn es zählt nur der Grenzwert der relativen Häufig-keiten im Unendlichen. Das kann also einen Empiristen nicht wirklicherfreuen, denn damit sagen uns alle tatsächlich beobachtbaren Ereignissenichts mehr über die Wahrscheinlichkeit. Außerdem setzt man voraus,dass die Folge der relativen Häufigkeiten tatsächlich konvergieren wird.Das ist keineswegs zwangsläufig der Fall.

Um aus unseren endlich vielen Beobachtungen etwas über denGrenzwert sagen zu können, müssen wir unsere Definition so ergänzen,dass wir Grund zu der Annahme hätten, dass sich in den ersten Folgen-gliedern und frühen relativen Häufigkeiten bereits der Grenzwert zeigenwürde. Das wird aber erst in unserem Propensitätenansatz (s.u.) der Fall

Page 325: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

313 Thomas Bartelborth: Induktives Schließen

sein. Der verlangt, dass die kausal relevanten Umstände des Versuchs inall den betrachteten Zufallsexperimenten immer gleich sein müssen. Dasist eine zusätzliche Annahme, die so etwas besagt wie: Die Wahrschein-lichkeit für das Auftreten von A sollte in allen Experimenten unsererFolge die gleiche sein. Das würde die Idee der kausalen Relevanz expli-zieren. Eine solche Zusatzbedingung ließe unsere Definition allerdingszirkulär werden.

Die Forderung nach Konvergenz hat der Mathematiker Richard Ed-ler von Mises (1928) einfach seiner Konzeption von sogenannten Kollek-tiven hinzugefügt. Ein solches Kollektiv nach von Mises ist eine unendli-che Folge von Ereignissen (Ei), bei der die relative Häufigkeit, mit derdie Ereignisse die Eigenschaft A aufweisen, im Grenzwert konvergiert.Außerdem verlangt von Mises noch, dass für jede Teilfolge, die durcheinen einfachen Algorithmus ausgewählt wird (der nicht auf die jeweili-gen Resultate in der Folge Bezug nimmt), sich derselbe Wert als Grenz-wert der relativen Häufigkeiten ergibt. Das soll sicherstellen, dass es sichbei den Kollektiven tatsächlich nur um Zufallsfolgen handelt und nichtetwa um solche Folgen wie: „Kopf, Zahl, Kopf, Zahl, Kopf,...“, die kei-nen wirklichen Zufallscharakter haben. Dieser Aspekt ist für uns aller-dings nicht so wesentlich, so dass wir uns nicht weiter mit den Proble-men dieses Zufallsaxioms beschäftigen müssen, sondern eher mit denendes Konvergenzaxioms.

Für von Mises war jedenfalls klar, dass der Begriff der Wahrschein-lichkeit immer auf ein ganz bestimmtes Kollektiv zu relativieren ist undAussagen über Einzelfallwahrscheinlichkeiten demnach sinnlos sind.Dann sind jedoch ebenfalls alle Aussagen über die Wahrscheinlichkeit,mit der endliche Folgen auftreten, sinnlos, denn endliche Folgen sindschließlich wiederum Einzelfälle etwas komplexerer Experimente. Fürvon Mises ist die Wahrscheinlichkeit hingegen immer nur eine Eigen-schaft unendlicher Kollektive. Damit haben wir den Kontakt zu endli-chen relativen Häufigkeiten verloren und erhalten genau genommen kei-ne empirische Interpretation von Wahrscheinlichkeit mehr, sondern nureine rein mathematische Ergänzung der mathematischen Theorie derWahrscheinlichkeit. Über endliche Teilfolgen der Kollektive können wirkeine weiteren Aussagen treffen. Sie auszutauschen ändert schließlichden Grenzwert der relativen Häufigkeiten nicht, und sie sind daher inder Konzeption von von Mises schlicht irrelevant.

Erst der Propensitätenvertreter schreibt jedem einzelnen Versuch eineWahrscheinlichkeit zu und damit natürlich gleichfalls den endlichen Fol-gen gebildet aus solchen Versuchen. Die Konvergenz der relativen Häu-

Page 326: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 314

figkeiten im Unendlichen (zumindest mit der Wahrscheinlichkeit 1) er-gibt sich dabei von selbst (im Gesetz der großen Zahlen), spielt aber kei-ne so bedeutsame Rolle mehr im Propensitätenansatz.

Für von Mises bleiben andererseits viele weitere Probleme übrig, vondenen ich nur einige erwähnen möchte (für weitere vgl. Hajek 2010).Eine unangenehme Eigenschaft dieser unendlichen Folgen ist z.B., dasseine Umordnung der fiktiven Resultate uns jeweils zu ganz neuen relati-ven Häufigkeiten führen kann. Nehmen wir etwa die folgenden Ergeb-nisse jeweils durch 0 (Zahl) und 1 (Kopf) wiedergegeben:

Beispielfolge 1: a1=1, a2=0, a3=1, a4=0 usw.Umordnungsfolge 2: a1,a3,a2,a5,a7,a9,a4,...also: 1,1,0,1,1,1,0,1,1,1,1,0,1,1,1,1,1,0....

Dabei wird in Folge 2 die Anzahl der vorgezogenen ungeraden Folgen-glieder immer um 1 erhöht, bis wieder ein gerades Folgenglied aus derFolge 1 eingesetzt wird. Man sieht, dass die Grenzwerte sich unterschei-den: Folge 1 konvergiert gegen 1/2 (für die relativen Häufigkeiten) undFolge 2 gegen 1, obwohl jedes Element aus Folge 1 auch in Folge 2 auf-tritt. Auch wenn diese spezielle Folge gegen das Zufallsaxiom verstößt,erkennt man daran das Prinzip des Umordnens, das zu neuen Grenzwer-ten führen kann. Die Reihenfolge der fiktiven Folgenglieder spielt hieralso eine wichtige Rolle. Doch wie soll man für fiktive Zufallsresultateeine Reihenfolge festlegen? Höchstens durch eine fiktive Zeit, zu der sieaufgetreten sind. Das ist jedenfalls alles andere als empiristisch akzepta-bel.

Schlimmer ist aber wohl noch, dass selbst die Lücke zwischen Wahr-scheinlichkeit und relativer Häufigkeit verbleibt. Das können wir unsam leichtesten klar machen, wenn wir die folgenden beiden Ergebnisfol-gen für eine faire Münze betrachten, bei denen die 1 wieder für Kopfsteht und die 0 für Zahl:

Folge A: 1,0,0,0,1,1,0,0,1,1Folge B: 1,1,1,1,1,1,1,1,1,1

Welche Folge stellt das wahrscheinlichere Ergebnis dar? Beide sindgleichwahrscheinlich und haben jeweils die Wahrscheinlichkeit210=1/1024. Das Entsprechende gilt auch für längere Folgen dieser Art.Obwohl Folgen vom Typ A repräsentativer aussehen für eine faire Mün-ze als die vom Typ B, hat jede konkrete Folge vom Typ B immer dieselbeWahrscheinlichkeit wie eine gleichlange Folge vom Typ A. Damit steuernwir auf eine Seltsamkeit solcher unendlichen Mengen zu. Die Menge al-

Page 327: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

315 Thomas Bartelborth: Induktives Schließen

ler solchen unendlichen Folgen ist bereits überabzählbar. Wenn wirihren Elementen noch eine Wahrscheinlichkeit zuordnen möchten unddabei gemäß dem Phänomen unserer zwei Folgen davon ausgehen, dassalle konkreten Folgen dieselbe Wahrscheinlichkeit erhalten sollen, dannbleibt nur die Wahrscheinlichkeit 0 für die einzelnen Folgen. Wir müs-sen auf dem Raum dieser Folgen schließlich mit einer Wahrscheinlich-keitsdichte arbeiten, um auch komplexere Fragestellungen behandeln zukönnen.

Die angekündigte Seltsamkeit ist die Folgende: Wenn wir davon aus-gehen, dass wir jedenfalls definitiv eine solche unendliche Folge würfeln,dann erhalten wir als Ergebnis eine unendliche Folge, die auf jeden Falldie Wahrscheinlichkeit 0 hat. Wir erhalten also zwangsläufig ein Ergeb-nis mit Wahrscheinlichkeit 0. Das zeigt, dass Wahrscheinlichkeit gleich 0in diesen Fällen nicht bedeutet, dass ein Ereignis unmöglich ist.

Insbesondere können wir selbst mit einer fairen Münze noch die Fol-ge 1,1,1,1,1,... werfen. Diese Folge ist genauso wahrscheinlich wie jedeandere einzelne Folge. Sie hat zwar die Wahrscheinlichkeit 0 wie die an-deren Folgen auch, aber sie kann eben trotzdem auftreten. Sie ist sozusa-gen gleichberechtigt zu allen anderen konkreten Folgen. Damit habenwir wieder unsere Lücke. Die relative Häufigkeit kann somit nicht zurDefinition der Wahrscheinlichkeit dienen, Kopf zu werfen, denn in unse-rem Beispiel ist diese Wahrscheinlichkeit 1/2, aber die relative Häufig-keit in der B-Folge bleibt immer 1 und konvergiert so ebenfalls gegen 1.Das gilt übrigens auch für jede Teilfolge, die wir daraus auswählen.

Das Besondere an unserer Folge B ist, dass es nur eine solche Folgegibt und nur wenige ähnliche Folgen mit wenigen Nullen, aber viel mehrFolgen, für die die relative Häufigkeit in der Nähe von 1/2 liegt. Daherist es sehr viel wahrscheinlicher, Folgen mit einer relativen Häufigkeitnahe 1/2 zu finden, als Folgen, die die relative Häufigkeit 1 aufweisen.Doch für eine definitorische Festlegung ist das zu wenig. Das Gesetz dergroßen Zahlen besagt zwar, dass die Wahrscheinlichkeit für eine Folgemit dem „falschen“ Grenzwert Null ist, aber das bedeutet leider nicht,dass sie nicht auftreten können. Dann hilft es uns für unser Problemnicht weiter.

Zusammenfassend ergibt sich: Insbesondere Empiristen könneneigentlich nicht glücklich mit der ganzen Konzeption sein. Fiktive Fol-genglieder sind nicht beobachtbar und damit sind die hier betrachtetenhypothetischen relativen Häufigkeiten ebenso wenig beobachtbar. Insbe-sondere dürfte das für unendliche Folgen deutlich sein, denn alle tat-sächlichen Beobachtungen betreffen nur endlich viele Ereignisse vom

Page 328: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 316

Typ eines Münzwurfs. Haben wir tatsächlich nichts anderes zur Verfü-gung als die rein mathematischen Bestimmungen der Kollektive von vonMises, wird es gleich noch viel schlimmer, denn jede endliche Teilfolgeeiner unendlichen Folge F sagt uns nichts über den Grenzwert der FolgeF. Wir könnten also insbesondere jeden endlichen Anfangsabschnitteiner solchen Folge durch einen beliebigen anderen Anfangsabschnitt er-setzen und erhielten trotzdem denselben Grenzwert der relativen Häu-figkeiten. Das bedeutet: Wenn es sich nur um von Misesche Kollektivehandelt, geben uns tatsächlich beobachtete relative Häufigkeiten nichtmehr den geringsten Hinweis auf die relativen Häufigkeiten auf langeSicht und damit keinen Hinweis mehr auf die zugrunde liegenden Wahr-scheinlichkeiten. Die bleiben empirisch völlig unzugänglich. Die endli-chen relativen Häufigkeiten sind noch nicht einmal mit hoher Wahr-scheinlichkeit approximative Hinweise auf den gesuchten Grenzwert.Das ist verheerend für diesen Ansatz.

Außerdem sind selbst Wahrscheinlichkeiten für längere endliche Fol-gen dann sinnlos, wenn es keine Einzelfallwahrscheinlichkeiten gibt,denn jede längere endliche Folge solcher Ereignisse – also z.B. 1000Münzwürfe mit derselben Münze – ist selbst ein Einzelfall eines komple-xeren Zufallsexperiments. Das könnte etwa aus einzelnen Ereignissenbestehen, die immer Experimentserien von 1000 Münzwürfen sind unddamit natürlich einen etwas größeren Ereignisraum haben. Jedenfallswürde es dann zugleich sinnlos zu sagen: Die Wahrscheinlichkeit bei die-ser einen Experimentserie, mehr als 950-mal Kopf zu erhalten, ist sehrklein. Wenn aber selbst solche Aussagen sinnlos werden, dann ist diesesKonzept von Wahrscheinlichkeit überhaupt nicht mehr in der empiri-schen Welt anwendbar und damit genau genommen keine Interpretationvon Wahrscheinlichkeit, sondern nur noch eine innermathematische Er-läuterung des Konzepts.

Letztlich werden wir also nicht umhin kommen, doch wieder überEinzelfallwahrscheinlichkeiten zu sprechen, wenn wir überhaupt einenempirischen Wahrscheinlichkeitsbegriff mit realen Anwendungen erhal-ten wollen. Dabei müssen wir uns auf die jeweiligen Erzeugungsbedin-gungen der Resultate beziehen. Das ist bereits in den Definitionen vonKolmogorov und von von Mises an einigen Stellen angelegt. Doch eswar vor allem Popper, der daraus eine Interpretation von Wahrschein-lichkeit entwickelt hat, die als Propensitätenkonzeption weiter unten er-läutert werden wird. Es gibt eine Reihe weiterer Probleme dieser Häu-figkeitskonzeption, die man etwa bei Hajek (2010) findet, aber die ge-nannten sollten genügen, die Konzeption ad acta zu legen.

Page 329: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

317 Thomas Bartelborth: Induktives Schließen

5.4.3 Die klassische Auffassung der WahrscheinlichkeitEin klassischer Ansatz ist der von Laplace, wonach die Wahrscheinlich-keit für ein Ereignis einfach in der Anzahl der günstigen Fälle geteiltdurch die Anzahl der möglichen Fälle zu sehen ist:

Laplacesche DefinitionP(A) = (Anzahl der günstigen Fälle) / (Anzahl aller gleichmöglichenFälle)

In bestimmten Fällen ist das gut nachvollziehbar wie etwa beim fairenWürfel. Bei Würfen mit zwei fairen Würfeln sind insgesamt 36 verschie-dene Konstellationen denkbar, die wir alle für gleichmöglich halten. Wiehoch ist dann die Wahrscheinlichkeit dafür, insgesamt drei Augen zu er-halten? Dazu müssen wir nur noch die günstigen Fälle zählen: <1,2>und <2,1>. Also ist die gesuchte Wahrscheinlichkeit gerade 1/18.

Doch die ersten Probleme mit dieser Auffassung setzen bei unseremVerständnis von „gleichmöglich“ an. Wie sollen wir diesen Ausdruckverstehen, ohne ihn einfach als „gleichwahrscheinlich“ zu lesen? Würdeunsere Definition aber „gleichwahrscheinlich“ enthalten, erschiene siezirkulär, denn wir möchten schließlich erst erläutern, was wir mit be-stimmten Wahrscheinlichkeitsaussagen meinen.

Ein zweites Problem ist dann, dass die Definition nur auf solche Fälleanwendbar ist, bei der wir eine eindeutige Menge von gleichmöglichenFällen haben. Auf einen nicht-fairen Würfel ist die laplacesche Konzep-tion bereits nicht mehr anwendbar. Im Hintergrund des Ansatzes findenwir das Indifferenzprinzip (s.o.), wonach wir die Wahrscheinlichkeit aufalle Fälle in gleicher Weise aufteilen sollten, für die wir keine Gründehaben, die eine oder die andere Möglichkeit vorzuziehen. Das ist aucheine Grundidee der logischen Wahrscheinlichkeitsansätze.

Genau genommen ist das die epistemische Lesart des Indifferenzprin-zips, die uns hier nicht interessiert. Wir können uns daneben eine objek-tive physikalische Lesart vorstellen. Danach sind die Fälle gleich zu be-handeln, in denen eine objektive Symmetrie in den Bedingungen vor-liegt, wonach die Möglichkeiten (bzw. hier die Seiten des Würfels) alsoin allen relevanten Bedingungen übereinstimmen. Es geht dann für denWürfel nicht darum, dass wir kein Wissen darüber haben, ob eine Seiteanders ist als die anderen, sondern darum, dass die Seiten objektiv ein-ander ähnlich sind bzw. objektive Symmetrien des Würfels vorliegen.Dazu benötigen wir bereits eine Menge an Wissen über die Situation,während das epistemische Indifferenzprinzip, um das es uns meistensgeht, gerade aus dem Nichtvorliegen von Informationen Schlussfolge-

Page 330: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 318

rungen zieht. Leider ist diese klassische Konzeption in beiden Lesartennur sehr eingeschränkt anwendbar und wir sind uns nicht immer dar-über im Klaren, dass wir dabei auf das Indifferenzprinzip angewiesensind, von dem wir schon wissen, dass seine Anwendung uns in Parado-xien führen kann.

Die Grundidee dieser Probleme ließ sich bereits an dem sehr einfa-chen Urnen-Beispiel mit roten, blauen und weißen Kugeln erkennen.Wir können die Urne als bunte und weiße Kugeln enthaltend oder alsblaue, rote und weiße Kugeln enthaltend beschreiben und erhaltenunterschiedliche Wahrscheinlichkeitswerte. Beide Anwendungen schei-nen aber durchaus zu rechtfertigen zu sein. Dann wird die Anwendungdes Indifferenzprinzips letztlich eine beschreibungsabhängige Angelegen-heit, die bestenfalls für epistemische Wahrscheinlichkeiten geeignet er-scheint. Natürlich können wir uns in diesem Fall noch überlegen, dasswomöglich die erste Beschreibung bei unserem momentanen Kenntnis-stand die grundlegendere ist und sie daher zu bevorzugen sei. Oder wirkönnen zumindest sagen, dass es nicht allzu viel Spielraum bei der Zu-weisung von Wahrscheinlichkeiten gibt; allerdings müssen wir bestimm-te Mehrdeutigkeiten akzeptieren. Insbesondere für die Unterteilung vonkontinuierlichen Größen traten entsprechende Mehrdeutigkeiten in derAnwendung des Indifferenzprinzips auf (s.o.). Also liefert das Indiffe-renzprinzip keine eindeutigen Wahrscheinlichkeitsverteilungen für sol-che Fälle mehr. Vertreter einer modernen induktiven Logik würden al-lerdings zugestehen, dass wir nicht in allen Fällen immer eindeutigeWahrscheinlichkeiten erhalten müssen. Es genügen manchmal schonmehrdeutige Verteilungen, um damit weitere Schlüsse ziehen zu könnenoder diese mit weiteren Daten upzudaten. Das sei immer noch besser,als bloß über rein subjektive Ausgangswahrscheinlichkeiten zu verfügen,wie es bei den Bayesianern der Fall sei. Allerdings haben wir es an dieserStelle wieder mit epistemischen Wahrscheinlichkeiten zu tun und nichtmehr mit objektiven physikalischen, nach denen wir hier eigentlich su-chen. Die klassische Wahrscheinlichkeitskonzeption hilft uns daher andieser Stelle nicht viel weiter.

5.4.4 Reduktion der physikalischen Wahrscheinlichkeit auf diesubjektive

Insbesondere David Lewis (1980) hat eine recht trickreiche Reduktionder objektiven physikalischen Einzelfallwahrscheinlichkeit, die er Chan-ce nennt, auf subjektive Wahrscheinlichkeiten versucht. So sagt er zu Be-ginn seines Aufsatzes, dass sein sogenanntes Hauptprinzip (das wir be-

Page 331: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

319 Thomas Bartelborth: Induktives Schließen

reits kurz eingeführt haben) alles wäre, was man über Chancen sagenkann; erst später drückt er sich dann wieder etwas zurückhaltender aus.

Hauptprinzip („Lewis’ principal principle“)P(A|ch(A)=r & E) = r ist rational für zulässige Informationen E

Das Hauptprinzip besagt, dass es rational ist, sich in seiner subjektivenWahrscheinlichkeit P(A) für A an den Chancen für A zu orientieren,wenn ansonsten nur „normale“ zulässige Informationen vorliegen. Da-mit sind vor allem Informationen über die Vergangenheit gemeint, undes werden z.B. solche durch einen perfekten Hellseher ausgeschlossen.David Lewis gibt noch weitere Hinweise dazu, welche Informationen zu-lässig sind (s.o.), und es finden sich weitere Debatten zu diesem Punkt,die für uns an dieser Stelle jedoch nicht unbedingt bedeutsam sind.

Weiß ich etwa über eine Münze, dass die objektive Chance für Kopf0,6 ist, so sollte ich das zugleich als subjektive Wahrscheinlichkeit wäh-len, selbst wenn die Münze in der Vergangenheit viel häufiger auf Zahlgefallen ist. Solche Informationen werden durch die Information überdie tatsächliche Chance übertrumpft. Eine Information über Chancenbzw. über objektive physikalische Wahrscheinlichkeiten ist also etwas,das in der Lage ist, andere Informationen aus dem Felde zu schlagen.Das zeigt wiederum, wie grundlegend diese objektiven Wahrscheinlich-keiten sind, und es scheint eine recht naheliegende Forderung zu sein,dass sich unsere subjektiven Wahrscheinlichkeiten daran orientieren soll-ten. Doch das ist hier nicht unser Thema, sondern die Frage, inwiefernuns das Hauptprinzip eine geeignete Charakterisierung der Chancen lie-fert. Leider kann das Hauptprinzip das aus verschiedenen Gründen gera-de nicht leisten.

Zunächst einmal haben wir gute Gründe für die Annahme, dassGlaubensgrad ebenfalls ein Grundbegriff ist bzw. einen theoretischenTerm darstellt (vgl. Eriksson & Hajek 2007), für den es jedenfalls sehrschwer ist, Gründe dafür zu finden, dass er sich an den Wahrscheinlich-keitsaxiomen orientieren sollte. Das hat unsere bisherige Debatte schongezeigt. Daher kann ich den Optimismus von Rosenthal (2004) auchnicht teilen, dass wir mit dem Hauptprinzip sogleich schnell die Wahr-scheinlichkeitsaxiome für das Konzept der Chancen erhielten. DasHauptprinzip dient auch nicht als Brückenprinzip für einen theoreti-schen Term, da in diesem Prinzip nur zwei theoretische Terme miteinan-der verbunden werden, statt dass eine Verbindung zwischen theoreti-schen Termen und Beobachtungsausdrücken hergestellt würde. Dennselbst, wenn wir Eriksson & Hajek (2007) nicht darin folgen sollten,

Page 332: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 320

dass Glaubensgrade Grundbegriffe darstellen, so dürfte doch klar sein,dass die rationalen Glaubensgrade nicht messbar sind, sondern nur dietatsächlichen.

Das Hauptprinzip lässt auch völlig offen, was Chancen sind und obes solche Größen mit normativer Kraft überhaupt gibt (vgl. Rosenthal2004). Man hat vielmehr den Eindruck, dass hier die falsche Reihenfol-ge der Explikation gewählt wird, da die Chancen basaler sind als diesubjektiven Wahrscheinlichkeiten, die sich an den Chancen orientierensollten, sollten die Chancen als Erstes expliziert werden. Außerdem wirdauch der für Chancen zentrale Zusammenhang zu relativen Häufigkei-ten hier nicht thematisiert. Insgesamt scheint daher das Hauptprinzipnicht den entscheidenden Fortschritt für die Explikation von objektivenphysikalischen Wahrscheinlichkeiten darzustellen. Es beschreibt unszwar eine wichtige Aufgabe für Chancen, aber es kann nicht viel Erhel-lendes darüber sagen, was es ist, das diese Aufgabe wahrnimmt.

5.4.5 Chaotische SystemeFür deterministische Systeme, die uns aber indeterministisch erscheinen(etwa aufgrund ihrer Komplexität oder weil wir die Anfangsbedingun-gen nicht beliebig genau bestimmen können), gibt es noch eine interes-sante Interpretation, die Rosenthal (2004) die Inhaltsauffassung nennt.Die Grundidee ist recht anschaulich. Wir stellen dafür jeden Zustandeines Systems durch einen Punkt in seinem Zustandsraum Z dar. Für einabgeschlossenes n-Teilchen-System benötigen wir für jedes Teilchen etwa3 Dimensionen für seinen Ort und 3 Dimensionen für seinen Impuls.Damit wird Z eine Teilmenge des 6n-dimensionalen reellen Raumes. Füreine Münze, die wir werfen, wird der Zustandsraum M für den Anfangs-zustand etwa durch die Höhe über dem Tisch, bei der wir sie loslassen,sowie dem Impuls und dem Drehimpuls angegeben und womöglich eini-gen weiteren Randbedingungen. Da wir davon ausgehen, dass als Endzu-stand nur die beiden Zustände {Kopf, Zahl} relevant sind, teilen wirnun den Ausgangsraum Z in zwei Teilmengen auf, nämlich die ZuständeK, die zu Kopf führen und die Zustände Z, die zu Zahl führen:M=KZ. Sind diese beiden Mengen in der Grundmenge M gut ver-mengt, so können wir bei normaler begrenzter Kenntnis des Ausgangszu-standes nicht mehr vorhersagen, ob Kopf oder Zahl auftreten wird.

Im Idealfall liegen K und Z so zerstreut in M, dass in jeder offenenUmgebung eines Punktes aus K noch mindestens einer aus Z zu findenist und umgekehrt. (Genauer sollten wir fordern, dass in jeder offenenUmgebung eines Punktes aus K noch mindestens eine Menge von Punk-

Page 333: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

321 Thomas Bartelborth: Induktives Schließen

ten aus Z mit einem Lebesgue-Maß echt größer Null zu finden ist undumgekehrt.) Dann erscheint uns das System als komplett indeterminiert,wenn wir den jeweiligen Anfangszustand nicht mit unendlicher Genauig-keit kennen, was physikalisch unmöglich zu sein scheint. Um für ein sol-ches System noch Vorhersagen abgeben zu können, sind wir auf dasKonzept der Wahrscheinlichkeit daher zwingend angewiesen. Wir benö-tigen etwa ein Inhaltsmaß µ (z.B. das Lebesgue-Maß) auf dem Raum Mund vergeben die Wahrscheinlichkeiten für das Auftreten von Kopf undZahl nach ihren Inhaltsanteilen am Ausgangsraum M. Sollten diese dar-über hinaus noch relativ stabil für die meisten Intervalle in unseremRaum M sein, können wir diese Anteile als Wahrscheinlichkeiten auffas-sen: Wissen wir etwa, dass der Ausgangszustand in einem (m-dimensio-nalen) Intervall IM liegt, dann gilt:

PI(Kopf) = µ(KI) / µ(I)

Wenn dann für alle Intervalle I im Bereich M dieser Wert approximativderselbe ist, so können wir sagen, dass das die objektive Wahrscheinlich-keit dafür liefert, dass wir Kopf erhalten. Ergibt sich etwa ein Wert von0,6, so bedeutet das, dass eben 60% der Zustände am Anfangsraum zuKopf führen und das ist eine objektive Auskunft über unser System undkeine Auskunft nur über unsere Unkenntnis. Außerdem gewinnen wirdamit ein aussagekräftiges Konzept für unsere Prognosen. Im Durch-schnitt werden wir in 60% unserer Würfe das Ergebnis Kopf erzielen.

Ein solches System können wir äußerlich überhaupt nicht von einemgenuin indeterministischen System unterscheiden. Strevens (2003) weistdarauf hin, dass wir manche komplexen Systeme so beschreiben müssen.Einen besseren Zugang haben wir zu solchen Systemen oft nicht. Esbleibt dann nur die Frage offen, ob ein bestimmtes System bloß chao-tisch ist, jedoch eigentlich ein deterministisches System darstellt, oder obes nicht sogar genuin indeterministisch ist. Das werden wir vielfachnicht wirklich entscheiden können. Die indeterministischen Einflüssekönnen etwa durch quantenmechanische Effekte hervorgerufen werden,die sich für die Münze etwa aus Stößen mit bestimmten Atomen derLuft ergeben können. Zum anderen ist nicht ausgemacht, dass wir esaußerhalb der Quantenmechanik mit einer deterministischen Welt zutun haben. Die meisten unserer physikalischen Basistheorien sind letzt-lich nicht deterministisch (vgl. Earman 1986). Das gilt umso mehr, wennwir beachten, dass es sich bei den zugrundegelegten kontinuierlichenRäumen genau genommen um eine Idealisierung handelt. Wir habenkeine guten Gründe für die Annahme, dass unser physikalischer Raum

Page 334: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 322

tatsächlich kontinuierlich statt diskret mit sehr kleinen diskreten Abstän-den ist. Doch erst die Annahme beliebig genauer Anfangsbedingungenführt zu einer teilweise deterministischen nomischen Struktur, die unsetwa in der newtonschen Mechanik den Eindruck vermittelt, sie be-schreibe eine deterministische Welt.

Für viele Systeme sollten wir daher am besten Agnostiker bleiben inFragen des Determinismus. Da es zumindest einige vermutlich indeter-ministische Systeme gibt, müssen wir in unserem Interpretationsprojektauf jeden Fall auch für genuin ontologisch indeterministische SystemeVorsorge treffen und dafür eine Interpretation entwickeln, die m.E. vorallem in einem Propensitätenansatz im Sinne Poppers zu suchen ist.

Zumindest erscheinen uns viele Lebensbereich recht zufällig und eswäre schon eine gewagte Annahme, dass das, was uns im Laufe mehre-rer Jahre im Leben zustößt (etwa im Straßenverkehr), zu Beginn schondeterminiert war oder sogar bereits sehr lange Zeit vor unserer Geburtdeterminiert war. Die Konzeption eines weitgehenden Determinismuswiderspricht (auch in der Makrowelt) vielfach unserer Lebenserfahrungund wird in der Philosophie manchmal zu schnell als gut begründet an-genommen. Trotzdem wären wir selbst in einer deterministischen Weltauf Wahrscheinlichkeitsaussagen angewiesen und dafür kann die Inhalts-auffassung eine Erläuterung anbieten, die wir ebenfalls als objektiveKonzeption von Wahrscheinlichkeit bezeichnen können.

5.4.6 Poppersche Propensitäten als theoretischer TermIm Folgenden gehen wir nun davon aus, dass wir mit unseren Wahr-scheinlichkeitsaussagen Systeme beschreiben, die genuin indeterminis-tisch sind. Da die Häufigkeitenkonzeption versagt hat und die Reduk-tionsversuche auf rein subjektive Wahrscheinlichkeiten ebenso wenig er-folgreich waren, führte Popper ein neues Konzept ein: Propensität. MitPropensität bezeichnet er eine dispositionale Eigenschaft bestimmter Sys-teme, mit einer gewissen Stärke ein bestimmtes Ereignis bzw. ein be-stimmtes Eigenschaftsvorkommnis hervorzubringen. In unserem Münz-wurfbeispiel besitzt das System bestehend aus der Münze und dem Wer-fer sowie weiteren Umgebungsbedingungen etwa eine Tendenz der Stär-ke 0,5 bei entsprechenden Würfen dafür, dass Kopf oben zu liegenkommt. Damit ist die Verwirklichungstendenz für Kopf und die für Zahl(bzw. kein Kopf) hier gleich groß. Dabei handelt es sich um Tendenzenfür den Einzelfall, aber messbar werden sie natürlich erst durch Wieder-holung des Vorgangs, denn erst dadurch lassen sich diese Tendenzen an-hand der relativen Häufigkeiten quantitativ bestimmen.

Page 335: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

323 Thomas Bartelborth: Induktives Schließen

Dieser Zusammenhang hat Gillies (2000) und Rosenthal (2004) wohldazu verführt anzunehmen, Popper könnte eine „long run“ Propensitätim Sinn gehabt haben, doch die Propensität soll uns nach Popper vor al-lem helfen, die probabilistischen Einzelfallaussagen etwa im Rahmen derQuantenmechanik zu verstehen. Nur für die Messung von Propensitätensind wir dann auf längere Versuchsreihen angewiesen. Die (zugegebenetwas vage) Bedeutung dieser Quantität einer solchen Propensität wäreapproximativ durch die relativen Häufigkeiten längerer Versuchsreihengegeben.

Besser sind Propensitäten als theoretische Terme zu verstehen, die be-stimmte Axiome und bestimmte Brückenprinzipien zu erfüllen habenund vor allem daraus ihre Bedeutung beziehen. Da auch die subjektivenWahrscheinlichkeiten bzw. Glaubensgrade sich ebenfalls nur als theoreti-sche Terme darstellen ließen, ist das für die noch grundlegenderen Pro-pensitäten eigentlich keine besondere Überraschung mehr. Sie sindEigenschaften, die ganzen Systemen zukommen können und dann aufden möglicherweise noch grundlegenderen Eigenschaften dieser Systemesupervenieren – oder sie sind selbst bereits basal. Die jeweiligen Realisie-rungen solcher Propensitäten können jedoch sehr unterschiedlich ausse-hen, was Eagle (2004) kritisch anmerkt. Aber dasselbe Problem kennenwir bereits aus dem Beispiel der Fitness in der Biologie. Was jeweils mitFitness gemeint ist, variiert sehr stark von Fall zu Fall. Es können langeHälse sein oder ein gutes Immunsystem, um auch Aas fressen zu können,oder spezielle Vorrichtungen und Fertigkeiten zum Klettern oder be-stimmte Färbungen der Außenhaut etc. Trotzdem bringt das theoretischeKonzept der Fitness all diese unterschiedlichen Eigenschaften unter einevolutionäres nomisches Muster, mit dessen Hilfe wir das Auftreten die-ser Eigenschaften erklären und besser verstehen können.

Ähnlich müssen wir Propensitäten verstehen. Sie lassen uns neue no-mische Muster erkennen. Dabei treten bestimmte Eigenschaften lokalzwar völlig regellos auf, aber auf längere Sicht zeigt sich eine große Sta-bilität der relativen Häufigkeiten, mit deren Hilfe wir bestimmte Ergeb-nisse prognostizieren können. Realisiert werden die Propensitäten dabeidurch unterschiedliche Systeme, das sollte aber kein entscheidender Ein-wand für einen theoretischen Term sein. Es zählt vielmehr seine Verein-heitlichungs- und Erklärungskraft. Die Frage ist allerdings, welche Brü-ckenprinzipien und eventuell weiteren methodologischen Regeln uns dasKonzept der Propensität tatsächlich explizieren helfen, und es nachMöglichkeit sogar gestatten, es zumindest in einigen Anwendungen we-nigstens approximativ zu messen.

Page 336: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 324

Zunächst können wir feststellen, dass uns allgemein Dispositionenaus dem Alltag und der Wissenschaft recht vertraut sind. Allerdings wei-sen die popperschen Verwirklichungstendenzen doch bestimmte Eigen-heiten auf. Eine Disposition wie zerbrechlich zu sein können wir etwadurch ein kontrafaktisches Konditional im Sinne einer konditionalenAnalyse (KA) erläutern:

(KA) „x ist zerbrechlich“ bedeutet in etwa: Würde man x auf einenSteinboden werfen, würde x zerbrechen.

Propensitäten sind dagegen nur probabilistische Dispositionen, die nichtin jedem Fall bestimmte Ergebnisse zeitigen, sobald die Manifestations-bedingungen der Disposition vorliegen, sondern eben nur in manchenFällen. Allerdings gilt genau genommen etwas Ähnliches ebenfalls fürnormale Dispositionen. Selbst eine an sich zerbrechliche Flasche zer-springt nicht immer zuverlässig beim Auftreffen auf einen harten Boden.Der Mutige wird nicht in jeder Situation wieder seinen Mut beweisenetc. Neu ist eher, dass wir die Stärke der Disposition nun quantifizierenund sogar sehr schwache Dispositionen (solche mit kleinen Wahrschein-lichkeiten) zulassen. Außerdem muss Popper darauf bestehen, dass zu-mindest bestimmte Dispositionen wie die Propensität keiner reduktivenkonditionalen Analyse zugänglich sind. Dann liefert (KA) zwar gute Indi-katoren für das Vorliegen einer solchen Disposition, ist aber keineswegsbedeutungsgleich oder extensionsgleich mit dem Vorliegen der Disposi-tion. (KA) stellt nur eine Indikatoraussage dar, sowie das Testergebnis ineinem IQ-Test einen Indikator für das Vorliegen von Intelligenz darstellt,aber keineswegs damit zu identifizieren ist. Stärkere Forderungen nachOperationalisierung theoretischer Terme haben selbst Empiristen wieCarnap schon zurückgewiesen (s.u.). Allerdings weist die konditionaleAnalyse selbst auch viele Probleme auf, so dass wir sie nicht einmal fürnormale Dispositionen verbindlich verlangen sollen (vgl. Bartelborth2007).

Neben den Wahrscheinlichkeitsaxiomen als den Grundgesetzen füreinen Propensitätsbegriff benötigen wir noch Brückenprinzipien, um denBegriff weiter zu charakterisieren. Allerdings dürfen wir uns von diesenPrinzipien nicht zu viel erwarten. Es sind zunächst einmal gesetzesartigeAussagen, die sowohl theoretische Begriffe wie Beobachtungsbegriffe be-inhalten. Viel mehr verlangen auch Empiristen wie Carnap nicht mehrvon Brückenprinzipien. Auf Reduktionsbehauptungen wird für theoreti-sche Terme inzwischen verzichtet.

Page 337: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

325 Thomas Bartelborth: Induktives Schließen

“There is a temptation at times to think that the set of rules providesa means for defining theoretical terms, whereas just the opposite isreally true. A theoretical term can never be explicitly defined on thebasis of observable terms, [...].” (Carnap 1995, 234).

“There is always the possibility of adding new rules, thereby increas-ing the amount of interpretation specified for the theoretical terms;but no matter how much this is increased, the interpretation is neverfinal.” (Carnap 1995, 238)

Auch darf man sich diese Regeln nicht unbedingt als präzise Gleichun-gen denken, denn die Beobachtungsterme müssen keineswegs immerscharfe quantitative Größen sein. Aus vielen Beispielen aus der Wissen-schaftsgeschichte hat etwa Ernest Nagel das gelernt:

“The haziness that surrounds such correspondence rules is inevitable,since experimental ideas do not have the sharp contours that theoret-ical notions possess. This is the primary reason why it is not possibleto formalize with much precision the rules (or habits) for establishinga correspondence between theoretical and experimental ideas.” (Na-gel 1979, 100)

Wir werden aber über die Forderungen der Empiristen hinausgehen undwerden noch nach weiteren methodologischen Regeln suchen, die es unserlauben, die theoretischen Terme zumindest in manchen Anwendungenapproximativ zu bestimmen.

Schauen wir uns das Verfahren für das theoretische Konzept des elek-trischen Feldes E einmal exemplarisch dazu an. Die Maxwellschen Glei-chungen stellen die Grundaxiome für E zur Verfügung und die Lorentz-kraftgleichung F=qE liefert einen Zusammenhang für Partikel mit La-dung q, die sich im Feld E befinden, zu einer beobachtbaren Größe,nämlich der Kraft, die das Feld E auf einen Partikel mit Ladung q aus-übt. Unser Verfahren zur Messung von E sieht dann etwa so aus, dasswir einen Probepartikel mit einer recht kleinen Ladung q in das elektri-sche Feld einbringen und die Kraft auf dieses Partikel messen, um dannanhand des Lorentzkraftgesetzes auf die Feldstärke an dieser einen Stelleschließen zu können. Dabei treten allerdings eine ganze Reihe von Pro-blemen auf. Zunächst wirken noch andere Kräfte auf das Partikel wie et-wa die Gravitationskräfte aller anderen Objekte, die wir nicht abschir-men können. Gravierender ist allerdings, dass das Einbringen des Probe-teilchens in das Feld bereits das Feld verändert. Wir müssen hier mitkleinen Ladungen arbeiten, die dann nur kleine Änderungen des Feldes

Page 338: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 326

bedeuten. Deren Umfang können wir allerdings wiederum nur anhandder Maxwellschen Gleichungen abschätzen, die wir u.a. mit diesem Ver-fahren empirisch testen wollen.

Des weiteren bestimmen wir das Feld auf diese Weise nur an endlichvielen einzelnen Stellen: Es ist aber auf einem Kontinuum definiert.Außerdem funktioniert das Verfahren nicht mehr für sich schnell än-dernde Felder. Schließlich haben wir weitere ganz spezielle Probleme,die elektrischen Felder innerhalb von Materie zu messen. Um ein solchesFeld anhand endlich vieler Messungen weiter bestimmen zu können undfür das ganze Kontinuum festzulegen, müssen wir bestimmte Stetigkei-ten annehmen und annehmen, dass unsere Feldgleichungen auch für dieweiteren Raumstellen gelten, und können diese dann eventuell berech-nen. Schon an diesem Beispiel sieht man, dass das Messen von theoreti-schen Größen alles andere als ein Kinderspiel ist und natürlich mit eini-gen Idealisierungen und Approximationen verbunden ist.

Noch problematischer wird es, wenn wir die Ladung q ebenfalls zuden theoretischen Termen zählen, deren Werte nicht schon unabhängigvon der Elektrodynamik zu bestimmen wären. Dann liefert uns das Lo-rentzkraftgesetz zwar immer noch ein Brückenprinzip, ist aber weit da-von entfernt, zu konkreten Messverfahren zu führen. Diesem Problemkönnen wir hier nicht weiter nachgehen, es illustriert aber noch einmaldie Problematik von theoretischen Termen. Wir dürfen auch für seriösetheoretische Terme nicht erwarten, dass es einfache Messverfahren fürsie gibt.

Ein weiteres Problem finden wir in den Messfehlern, wie sie etwaFreedman et al. (1983) beschreiben. Das amerikanische Eichamt hatüber Jahre hinweg immer wieder das Probegewicht NB 10 mit einemNominalgewicht von 10g gemessen und dabei besonders genaue Mes-sungen für diese recht einfache Größe durchgeführt. Trotzdem streuendie Messergebnisse immer in einem gewissen Ausmaß, und es findensich sogar genuine Ausreißer. Das zeigen die Veröffentlichungen dieserMessungen, die als ein Vorbild für typische Messergebnisse gelten kön-nen. Mehr darf man für die Messung einer quantitativen Größe ebennicht erwarten. Wir erhalten ein Intervall, in dem die meisten Messwer-te enthalten sind, und das uns daher als Messergebnis gilt. Möchten wiruns dann noch auf einen Wert konzentrieren, wird man etwa den arith-metischen Mittelwert dazu hernehmen. Ähnlich werden wir auch für dieMessung von Propensitäten vorgehen können. Es gilt aber immer dieRegel:

Messwert = wahrer Wert + Messfehler (bzw. „Rauschen“)

Page 339: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

327 Thomas Bartelborth: Induktives Schließen

Diese Messfehler erhalten wir schon im Falle einfacher Größen, und na-türlich sind sie umso mehr im Falle theoretischer Größen zu erwarten,für die wir eher größere Probleme und Vagheiten bei der Messung zu ge-wärtigen haben, was wir im Falle der elektrischen Felder erkennenkonnten.

Dafür benötigen wir als Erstes ein geeignetes Brückenprinzip. Häufigwird als mögliches Prinzip das Gesetz der großen Zahlen genannt, dennschließlich besagt es, dass die relativen Häufigkeiten sich im Grenzwertden Wahrscheinlichkeiten annähern, und stellt damit einen Zusammen-hang zwischen Wahrscheinlichkeiten und relativen Häufigkeiten her.Doch es taugt nicht wirklich als Brückengesetz, weil die Grenzwerte derrelativen Häufigkeiten selbst nicht beobachtbar sind, und ein Brückenge-setz immer theoretische Größen und beobachtbare Größen zusammenenthalten sollte. Wir sollten uns also besser an eine Vorstufe des Geset-zes der großen Zahlen halten, nämlich an die Tschebyscheffsche Unglei-chung.

Zu diesem Zwecke haben wir allerdings zunächst genauer zu überle-gen, wie wir die Propensitäten konzipieren. Sie sollen Einzelfalltenden-zen sein, die für einzelne konkrete Situationen eine bestimmte Ver-wirklichungstendenz P(a) für ein bestimmtes Resultat a vom Typ A an-geben. Um sie mit einer bestimmten relativen Häufigkeit in Verbindungzu bringen, benötigen wir dann einen Situationstyp S(), der die relevan-te Situation beschreibt (bzw. die Referenzklasse zu angibt). Damit istein Typ von Situation gemeint, der praktisch alle für das Auftreten von Ain relevanten Faktoren umfasst. In unserem Beispiel des Münzwurfswäre A etwa das Resultat Kopf und a demnach das konkrete Ereignis desAuftretens von Kopf in einer konkreten Situation , in der wir denMünzwurf betrachten. S() wäre dann der dazu gehörige Typ von Situa-tion (unsere Referenzklasse), der alle für das Auftreten von Kopf inunserem Anwendungsfall relevanten Merkmale der Situation enthält. Soerst gelangen wir zu einer Reihe von Situationen, in denen wir eine be-stimmte Zufallsvariable Zn,S()(A), die die relative Häufigkeit von A-Er-eignissen in der Folge unserer wiederholten Zufallsexperimente anzeigt,als Resultat von identisch verteilten unabhängigen Ereignissen betrach-ten können, die der Statistiker immer schnell annimmt, um seine mathe-matischen Theoreme wie das Gesetz der großen Zahlen oder die Tsche-byscheffsche Ungleichung ableiten zu können.

Page 340: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 328

5.4.7 Der Einwand von Gillies und eine transzendentale AnnahmeOb es so etwas wie den Situationstyp S() aber überhaupt gibt, ist prak-tisch unsere erste Frage. Gillies (2000) bezweifelt das. Seiner Meinungnach kommt als Situationstyp nur ein gesamter Weltzustand vor a in Fra-ge und bei Popper gibt es ebenfalls einige Äußerungen in dieser Rich-tung. Dann wären wir allerdings in großen Schwierigkeiten, denn wirkönnten die Situation nicht wirklich wiederholen und erhielten damitauch keine entsprechenden relativen Häufigkeiten mehr, mit deren Hilfewir P(a) zumindest in einigen Fällen approximativ bestimmen könnten.Unser Konzept von Propensität würde damit nach Gillies im starken Sin-ne metaphysisch, da wir es niemals messen könnten. Zumindest würdees kaum als praktisch anwendbares Konzept durchgehen und bliebewohl nur eine theoretische Abstraktion.

Gillies (2000) argumentiert für seine These anhand eines klassischenBeispiels. Was ist die objektive Wahrscheinlichkeit für einen 40-jährigenMann in seinem 41-ten Jahr zu sterben? In dem Jahr können ihm un-überschaubar viele Dinge zustoßen, die wir kaum nachbilden können. Erkann in einen Verkehrsunfall verwickelt werden, es kann ihm ein Blu-mentopf auf den Kopf fallen, er kann einem Verbrechen zum Opfer fal-len oder einer Krankheit erliegen etc. Wie sollen wir seine spezielleWahrscheinlichkeit in seiner Situation bestimmen? Wie könnten wir ge-nau seine Situation mehrfach wiederholen? Das ist sicher nicht mehrpraktisch ausführbar.

Dazu sind m.E. zwei Dinge zu sagen. Erstens müssen theoretischeTerme nicht in all ihren Anwendungen bestimmbar sein. Denken wirdaran, dass wir für das kontinuierliche elektrische Feld auch nur endlichviele ausgewählte Punkte für eine Messung heranziehen können. Aber esdürfte zweitens vor allem klar sein, dass es unterschiedliche Typen vonSituationen gibt. Für einfache Spielsituationen (etwa beim Roulett) oderdie Frage, ob ein Atom in einer bestimmten (nicht allzu langen) Zeit zer-fallen wird, können wir viel eher die Situationen nachstellen und dürfensogar die Hoffnung haben, dass wir dabei nur endlich viele Faktoren be-rücksichtigen müssen. Dazu unterscheide ich Situationen mit einem lo-kalen Einflussbereich für A und solche mit einem globalen bzw. diffusenEinflussbereich wie in Gillies Sterbebeispiel. Auf die Letzteren müssenwir das Konzept der Propensität nicht unbedingt anwenden. Dort hättees jedenfalls nur theoretische Bedeutung.

Doch im Falle nur lokaler Einflussbereiche sieht die Sache ganz an-ders aus. Für viele solcher Situationen nehmen wir in der Wissenschaftund im Alltag mit großem Erfolg an, die Menge an relevanten Faktoren

Page 341: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

329 Thomas Bartelborth: Induktives Schließen

wäre endlich und relativ klein, so dass wir sie approximativ wiederholenkönnen und so brauchbare Einschätzungen der Wahrscheinlichkeiten er-halten. Im Prinzip nehmen wir an, dass die Menge der wirklich relevan-ten Einflussfaktoren klein und sogar recht überschaubar bleibt. Vieleunserer Praktiken in der Wissenschaft wie die Randomisierung würdensonst nicht funktionieren. Wir hätten auch bei anderen Gelegenheitenkaum eine Chance, Kausalzusammenhänge zu ermitteln, wenn es vonmöglichen einflussreichen Faktoren und Kofaktoren nur so wimmelnwürde. Wie sollten uns dann bestimmte Zusammenhänge zwischen Ein-zelfaktoren überhaupt noch auffallen? Wir setzen in der Wissenschaft ge-radezu als transzendentale Annahme voraus, dass wir in vielen Fällennur einen lokalen Einflussbereich haben, für den sich bestimmte Mess-verfahren anbieten, und jedenfalls schnell stabile relative Häufigkeitenauftreten (vgl. Bartelborth 2011). Daher gelingt es uns in solchen Fällenmeist, den Situationstyp S() zu bestimmen und oft, weitere Instanzenzu finden, so dass sich eine Auswertung der relativen Häufigkeiten vor-nehmen lässt. Davon müssen wir zumindest in vielen Anwendungen aus-gehen, wenn wir weiterhin hoffen wollen, erfolgreich Wissenschaft be-treiben zu können und die Zusammenhänge der Natur überhaupt enträt-seln zu können. Für einfache Beispiele gesteht Gillies uns das sogar zuund mehr sollte man für einen theoretischen Term eben nicht erwarten.

Bestimmte idealisierende Annahmen sind dabei zulässig und gewisseApproximationen unerlässlich. Denken wir an die Prognosen des Ge-wichts oder Gravitationskraft anhand unserer Gravitationstheorien. Da-bei wissen wir zwar, dass wir im Prinzip auch die gravitativen Einflüssevon Milliarden weit entfernter Himmelsobjekte berücksichtigen müssten(er ist auch nicht abschirmbar), doch das ist in der Praxis unmöglich undunnötig, denn in den meisten Anwendungen ist deren Einfluss sehr ge-ring und kann daher vernachlässigt werden. Solche „kleinen Faktoren“dürfen wir auch bei der Bestimmung von S() vernachlässigen.

5.4.8 Das Brückenprinzip und Regeln der Propensitäts-MessungAls Brückenprinzip für die Propensität (BPP) haben wir bereits oben diesogenannte Tschebyscheffsche Ungleichung genannt, die eine Verbin-dung zwischen den angeführten Größen angibt und damit den Bodenfür erste Messverfahren der Propensität in bestimmten Anwendungsfäl-len bereitet.

(BPP) Für alle A, nN, >0: Pmeta(Zn,S()(A)–P(a)≤)>1-1/4n2,

Page 342: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 330

dabei ist Zn,S()(A) eine Zufallsvariable, die die relative Häufigkeit der A-Ergebnisse in einer Versuchsreihe von n Versuchen mit nahezu gleichver-teilten und voneinander unabhängigen Zufallsvariablen Xi beschreibt,die die einzelnen Resultate der Versuche festhalten und in Zn,S()(A) =1/n i Xi zusammenführen (vgl. zum Folgenden Bartelborth 2011).

Einer echten Reduktion der Propensität durch (BPP) steht die speziel-le Metawahrscheinlichkeit Pmeta entgegen, die in unserem Prinzip enthal-ten ist, die besagt, dass eine kleine Abweichung von Propensität und re-lativen Häufigkeiten selbst nur mit einer bestimmten Wahrscheinlichkeitzu erwarten ist. Diese Metawahrscheinlichkeit müssen wir zunächst bes-ser verstehen. Aber wir dürfen eben nicht wieder in den Fehler verfallen,dabei eine Reduktion von Propensitäten zu erwarten. Selbst Carnap sahletztlich diese Forderung für theoretische Terme als falsch an, wie seinobiges Zitat sehr deutlich zeigt. Um nun eine Aussage wie Pmeta(|Z–p|≤) = Pmeta() >0,99 in (BPP) zu interpretieren, stehen uns unter-schiedliche Möglichkeiten offen.

Zunächst können wir Pmeta() ebenfalls als gewöhnliche Propensitätauffassen. Dann liefert (BPP) immer noch eine Verbindung zwischenPropensitäten und relativen Häufigkeiten, aber eben keine reduzierende.Trotzdem liefern hier die Axiome und das Brückenprinzip eine partielleBedeutung für Propensitäten. Allerdings werden durch (BPP) allein sonoch nicht einmal einzelne Messungen von Propensitäten möglich. Dazumüssten wir verstärkt auf weitere methodologische Regeln setzen.

In einer zweiten Lesart können wir Pmeta() als epistemische Wahr-scheinlichkeit auffassen, die angibt, in welchem Ausmaß wir Grund zuder Annahme haben, dass auftritt. Das geht wieder einen Schritt wei-ter in die Richtung einer Reduktion der Propensitäten. Da wir sowiesonicht jede Wahrscheinlichkeitsaussage als eine Aussage über objektivephysikalische Wahrscheinlichkeiten deuten können, sind wir auch soschon darauf angewiesen, solche epistemischen Wahrscheinlichkeiten an-zuerkennen und einzusetzen. Wenn wir sie für wohldefiniert und gutverständlich halten, können wir uns ohne Bedenken an dieser Stelle in(BPP) auf sie stützen, um damit unser Verständnis von Propensitäten zubefördern.

Klassische Statistiker werden allerdings nach einer dritten und mög-lichst objektiven Interpretation von Pmeta() Ausschau halten und wärenim Gegenzug vielleicht bereit, dafür eine vagere Interpretation zu akzep-tieren, die dafür Pmeta() näher an nicht-probabilistische Dispositionenheranbringt. Wenn Pmeta() etwa größere Werte wie 0,95 oder 0,99 an-nimmt, können wir als Normalfall ansehen, d.h., wir gehen in der Pra-

Page 343: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

331 Thomas Bartelborth: Induktives Schließen

xis schlicht davon aus an, dass gilt. Nach Nagel (s. Zitat oben) sindsolche Vagheiten für eine „Übersetzung“ theoretischer Terme in die All-tagssprache zu erwarten. Für die Frage der empirischen Überprüfbarkeitbedeutet diese Interpretation, dass wir Daten, die gegen sprechen,ebenso als Daten betrachten dürfen, die gegen Pmeta() sprechen. EinVorteil von (BPP) ist, dass wir solche vagen Interpretationen der Meta-Wahrscheinlichkeit nur für recht große Wahrscheinlichkeitswerte benöti-gen und die ergänzenden methodologischen Regeln daher auch nur fürdiesen Fall gelten müssen. Wir könnten uns an dieser Stelle also auch aufeine Art von starkem statistischen Syllogismus stützen und damit auf schließen. Das ist dann schon relativ ähnlich zu den Fällen von norma-len Dispositionen, in denen wir auch nicht in allen Fällen erwarten dür-fen, dass sie sich manifestieren, sondern nur in der großen Mehrzahl derFälle. Trotzdem werden wir den Objekten weiterhin etwa die Disposi-tion der Zerbrechlichkeit zuschreiben, selbst wenn sie nicht bei jedemFall zu Boden zerspringen. Ähnliche Schwellenwertregeln finden wir inder anderen Richtung in den Regeln der klassischen Signifikanztests, indenen konventionell bestimmte Irrtumswahrscheinlichkeiten festgelegtsind, die wir in probabilistischen Falsifikationen zu akzeptieren geden-ken (vgl. dazu Kapitel 6).

Das Brückenprinzip (BPP) erlaubt es uns darüber hinaus, einfacheKonfidenzintervalle für die gesuchte Wahrscheinlichkeit p festzulegen.Wenn wir als Konfidenzniveau etwa 99% wählen, wissen wir, dass in ca.99% aller Fälle unser Konfidenzintervall I den gesuchten Wert p überde-cken wird. Damit können wir I als eine approximative Messung von pbetrachten, die uns also in ca. 99% der Fälle eine approximativ korrekteMessung bietet und nur in 1% eine grob fehlerbehaftete Messung. Dabeisollte wiederum beachtet werden, dass wir die relative Häufigkeit Z nurals einen Indikator für die gesuchte Wahrscheinlichkeit p ansehen undkeinesfalls als definierend für p betrachten. Natürlich müssen wir immerMessfehler erlauben, die zu Abweichungen zwischen Z und p führen,die in Ausnahmefällen sogar so groß sein können, dass p eben nicht in Iliegt. Doch das ist ganz normal für alle Messverfahren quantitativerGrößen, wie wir oben bereits gesehen haben.

Unsere ergänzende methodologische Regel könnte also ungefähr fol-gendermaßen lauten: Wähle ein Konfidenzintervall I mit Hilfe von(BPP) um die gemessene relative Häufigkeit herum als approximativeMessung von p und wähle dazu das Konfidenzniveau, das gemäß denjeweiligen Zwecken als angemessen erscheint.

Page 344: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 332

Zur Illustration können wir uns ein konkretes Zahlenbeispiel ansehen:Nehmen wir an, wir werfen eine Münze 1000-mal und erhalten dabei600-mal Kopf. Zum Konfidenzniveau von 99% erhalten wir dann mitHilfe von (BPP) die folgende Ungleichung: 1-(1/40002)≥0,99. Darauskönnen wir schließen: 0,16, und erhalten also das IntervallI=[0,44;0,76]. Für 10000 Würfe mit 6000-mal Kopf würden wir daskleinere Intervall I=[0.55;0.65]) erhalten. So könnten wir unsere Mes-sung weiter verbessern. Immerhin erhalten wir damit ein Intervall, dasunseren gesuchten Messwert p in ca. 99% der Fälle enthält. UnsereMeta-Wahrscheinlichkeit Pmeta() erfährt so eine Deutung als Unschärfe-maß für unsere Messung von p und sagt uns insbesondere, wie häufigwir im Durchschnitt mit Ausreißern zu rechnen haben, d.h., in wie vie-len Fällen unser Intervall den Wert p noch nicht enthält.

Das sieht ganz ähnlich aus wie für Messungen anderer recht „harm-loser“ (also empiristisch unverdächtiger) Größen wie etwa des Gewichts.Denken wir dazu wieder an die Messungen des Gewichts NB 10 durchdas amerikanische Eichamt (s.o.). Auch diese streuen um den Nennwertvon 10 Gramm und es treten dabei sogar gelegentlich Ausreißer auf, ob-wohl die Messungen höchsten Qualitätsanforderungen genügen. Oftnimmt man an, dass diese Messwerte ungefähr im Sinne einer Normal-verteilung um den wahren Wert streuen, und kann dann etwa erwarten,dass in einem Intervall von drei Standardabweichungen um den Mittel-wert der Messung herum der wahre Wert in ca. 99% der Fälle zu findenist. Damit haben wir eine vernünftige Interpretation von objektiver phy-sikalischer Wahrscheinlichkeit auch für den Einzelfall gefunden, die zu-mindest in den Situationen mit lokalem Einflussbereich durchaus sinn-voll erscheint und sich zumindest im Prinzip approximativ messen lässt.

Jedenfalls sind die Probleme dabei nicht unbedingt von ganz andererArt oder größerem Ausmaß als für andere theoretische Größen. Trotz-dem bleiben natürlich noch viele Fragen offen. Anthony Eagles (2004)hat 21 davon zusammengestellt, auf die ich in Bartelborth (2011) ant-worte. Da wir auf Propensitäten m.E. sowohl in der Quantenmechanikaber möglicherweise auch in anderen Bereichen angewiesen sind undselbst Bayesianer sich im Hauptprinzip darauf stützen, sollten wir jeden-falls nicht zu schnell die Flinte ins Korn werfen und aufgrund empiristi-scher Skrupel gleich ganz auf einen objektiven physikalischen Begriffvon Wahrscheinlichkeit verzichten. Den Weg, den wir dabei beschreitenkönnen, habe ich skizziert, so dass wir uns im Folgenden auf ein entspre-chendes Konzept von Propensität stützen dürfen, ohne sogleich einschlechtes Gewissen haben zu müssen.

Page 345: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

333 Thomas Bartelborth: Induktives Schließen

5.5 Der klassische Bayesianismus

5.5.1 Grundlegende VerfahrenKlassische Bayesianer sind in erster Linie Probabilisten, die für alle Aus-sagen Wahrscheinlichkeiten vergeben. Diese Wahrscheinlichkeiten gebenunseren Grad an, in dem wir an etwas glauben, man könnte sie als Plau-sibilitätsgrade bezeichnen, die darstellen, inwiefern unser übriges Hinter-grundwissen die in Frage stehenden Aussagen plausibel erscheinen lässt.Wie man zu Beginn zu Glaubensgraden oder Wahrscheinlichkeiten ge-langt, darüber sagt der klassische Bayesianismus aber nicht sehr viel. Dassind für ihn subjektive Einschätzungen, für die wir uns zwar nach Mög-lichkeit an objektiven Gegebenheiten orientieren sollen, die aber letzt-lich doch einen subjektiven Charakter haben.

Der Bayesianismus ist dann vor allem eine Theorie darüber, wie sichdie Wahrscheinlichkeiten ändern, wenn wir neue Informationen erhal-ten. Insbesondere denken wir dabei daran, dass wir Theorien bzw.Hypothesen H betrachten und bestimmte Daten E erhalten, durch diedie Theorien mehr oder weniger gestützt werden. Die Grundidee desUpdatens durch Konditionalisierung hatten wir bereits kennengelernt.Man sehe sich dazu noch einmal das Beispiel des Dschungelfiebers zuBeginn des Kapitels an. Im Weiteren werden wir mit P+ immer die neu-en Wahrscheinlichkeiten nach dem Updaten von P bezeichnen:

(BU) Bayesianisches UpdatenP+(H) = P(H|E) = P(H) [P(E|H)/P(E)]

Wenn wir also die neue Beobachtung E machen, wird die Wahrschein-lichkeit der Hypothese H damit „upgedatet“, aber zugleich wird auch je-de andere unserer Überzeugungen mit Hilfe der Regel (BU) upgedatet.Wir gehen insgesamt von einer Wahrscheinlichkeitsverteilung P (bzw.dem Überzeugungssystem P) zu der neuen WahrscheinlichkeitsverteilungP+ (bzw. dem neuen Überzeugungssystem P+) über. Daraus ergibt sichauch die neue Wahrscheinlichkeit von E zu: P+(E)=P(E|E)=1. Hier ver-letzt der klassische Bayesianismus also bereits das Dogmatismusverbot,indem zumindest die gemachten Beobachtungen ausgenommen werden.Sie erhalten nach der Beobachtung direkt den Status sicheren Wissens.Wir können das als eine Art von Idealisierung betrachten, und außerdemgibt es auch noch die Jeffrey-Konditionalisierung, die andere Wahr-scheinlichkeiten für das Datum E erlaubt, die wir noch kennenlernenwerden.

Page 346: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 334

Im klassischen bayesianischen Rahmen nehmen wir jedenfalls an,dass durch eine Beobachtung die entsprechende Beobachtungsaussage zuunserem sicheren Wissen gezählt werden darf und die Wahrscheinlich-keit 1 erhält. Das ist ein exogener Einfluss auf das Netz unserer Über-zeugungen. Wir greifen eine Überzeugung heraus und setzen ihren Wertauf 1. Alle anderen Überzeugungen müssen dann entsprechend ange-passt werden. Zunächst ist klar, dass P+(~E)=0 sein muss. Für alleHypothesen T, aus denen ~E logisch folgt, gilt das Entsprechende, dasssie ebenso auf 0 gesetzt werden müssen. Die Regel (BU) gibt also für alleanderen Fälle an, wie wir die neuen Wahrscheinlichkeiten berechnenmüssen. Somit liefert schließlich P+ die neue Wahrscheinlichkeitsvertei-lung auf unserem Netz von Überzeugungen. Das kann so fortgesetztwerden und wir erhalten durch weiteres Updaten mit weiteren Dateneine Wahrscheinlichkeit P++ usf. Dazu haben wir uns schon überlegt,dass die Reihenfolge, mit der die Daten eintreffen, und in der wir dannmit ihnen „updaten“, dabei keine Rolle spielt.

Außerdem gibt es einige andere sichtbare Effekte, auf die ich gleichhinweisen möchte. Sollte E sogar deduktiv aus H folgen, so ist P(E|H)=1. Da P(E)<1 gemäß dem Dogmatismusverbot gelten sollte, gilt dannalso P+(H)>P(H), denn der Update-Faktor P(E|H)/P(E) in (BU) wirdgrößer als 1. Das heißt zugleich, H wurde durch das Auftreten desDatums E plausibler oder wir werden auch sagen, dass E unsere Hypo-these H bestätigt hat. Das entspricht der deduktiv-hypothetischen Theo-rienbestätigung, die wir schon kennengelernt haben, und wird von Baye-sianern gern als Bestätigung ihrer Konzeption betrachtet; aber wir erin-nern uns, dass das deduktiv-hypothetische Bestätigungsverfahren miteiner Reihe von Problemen wie dem der irrelevanten Bestätigung belas-tet war, die sich damit auf den Bayesianismus übertragen können. Dader Bayesianismus die logischen Beziehungen respektiert, ist zunächstkein Platz vorhanden, um z.B. mehr als logische Ableitbarkeit der Datenzu verlangen, wie etwa die Erklärung der Daten durch die Theorien,denn die beste Beziehung zwischen Theorie und Daten ist für den Baye-sianer, dass P(E|H)=1 ist.

Auch die Falsifikation finden wir hier wieder. Sollte ~E logisch ausH folgen, so wird P(E|H)=0 und es gilt: P+(H)=0; unsere Hypothese Hwurde also endgültig falsifiziert. Das zeigt zugleich, dass unserer Verlet-zung des Dogmatismusverbots in Bezug auf E nun eine weitere in Bezugauf H folgt.

Wenn wir auf den Update-Faktor P(E|H)/P(E) schauen, werdenaußerdem zwei durchaus erwünschte Phänomene deutlich: 1. Je stärker

Page 347: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

335 Thomas Bartelborth: Induktives Schließen

H das Datum E vorhersagt, um so stärker ist ceteris paribus auch die Be-stätigung durch E, wenn E tatsächlich auftritt. 2. Allerdings spielt für dieStärke der Bestätigung ebenso die Vorher-Wahrscheinlichkeit von E einewichtige Rolle. Ist E eine Tautologie (also P(E)=1), so findet keine Be-stätigung mehr statt. Ist E schon beinahe selbstverständlich, fällt die Be-stätigung relativ schwach aus, und erst wenn E vorher sehr unwahr-scheinlich war und trotzdem von der Theorie vorhergesagt wurde, er-gibt sich eine starke Bestätigung durch E.

Gerade dieser zweite Effekt scheint sich in der Wissenschaftsge-schichte wiederzufinden. Die Vorhersage der einsteinschen allgemeinenRelativitätstheorie, dass eine deutliche Lichtablenkung im Schwerefeldder Sonne zu beobachten sein würde, stellte, als diese während einerSonnenfinsternis tatsächlich beobachtet werden konnte, einen derstärksten Gründe für viele Zeitgenossen dar, die Theorie zu akzeptieren.Doch Wissenschaftler sehen den Punkt auch kritisch. Es mag zwar psy-chologisch plausibel sein, einer Theorie zu vertrauen, die uns mit soüberraschenden und dann zutreffenden Vorhersagen versorgt, aber solltedas tatsächlich über die Bestätigungsstärke durch ein Datum entschei-den? Ist das Ausmaß der Überraschung nicht nur subjektiver oder zufälli-ger Natur? Hätten wir das Datum zufälligerweise schon früher kennen-gelernt, wäre der Überraschungseffekt nicht mehr gegeben. Würde dannunsere Theorie durch die Daten weniger gut bestätigt werden? Dasscheint uns nicht besonders überzeugend zu sein. Von subjektiven Ein-schätzungen und historischen Zufälligkeiten sollte die Bestätigungsstärkemöglichst nicht abhängen. Was auf den ersten Blick ein besonders intui-tiver Aspekt der bayesianischen Konzept war, entpuppt sich auf denzweiten Blick schon als ein mögliches Problem. Dem werden wir inForm des Problems der alten Evidenz („old evidence“) wiederbegegnen.

Eine andere Frage ist, ob die Reihenfolge, in der neue Daten auftre-ten, einen Unterschied ausmacht. Das ist solange nicht der Fall, wieunser übriges Hintergrundwissen stabil bleibt, d.h., solange die Verände-rungen der Überzeugungswahrscheinlichkeiten P nur durch die Datenveranlasst werden und nicht durch einen anderen Sinneswandel. Ein sol-cher Sinneswandel könnte etwa die Wahrscheinlichkeiten P(E) verän-dern und damit sogleich die Stärke der Bestätigung verändern. In derWissenschaft finden wir einen solchen Sinneswandel etwa an den Stel-len, an denen jemand eine neue Theorie ins Spiel bringt. Wenn wir sieins Netz unserer Überzeugungen aufnehmen, müssen wir zwangsläufigdie Wahrscheinlichkeiten anpassen, obwohl keine neuen Daten vorliegenmüssen. Der Bayesianer muss daher davon ausgehen, dass alle mögli-

Page 348: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 336

chen Theorien, auf die wir jemals kommen werden, von Anfang an inder Menge L, auf der unser P definiert ist, enthalten sind. Das ist eineweitere deutliche Idealisierung.

Betrachten wir das Problem der Reihenfolge und des mehrfachen„Updatens“ kurz noch einmal in einer etwas anderen Berechnungsweise,wobei wir statt „e&f“ kürzer „ef“ schreiben werden. Bestimmte Abkür-zungen dieser Art sind für Berechnungen oft hilfreich und üblich. Wirnehmen eine Hypothese H und zwei Daten e und f, die nacheinanderoder gleichzeitig auftreten. Zunächst das Updaten bei gleichzeitigemAuftreten:

(1) P*(H)=P(H|ef)=P(H) [P(ef|H) / P(ef)]=P(H) [P(e|Hf)P(f|H) / P(e|f)P(f)]=P(H) [P(f|He)P(e|H) / P(f|e)P(e)]

In der zweiten Reihe finden sich die beiden Möglichkeiten, den oberenTerm weiter aufzulösen. Wie sieht es nun aus, wenn wir erst mit e unddann mit f updaten?

(2) P+(H)=P(H|e)=P(H) [P(e|H) / P(e)] und außerdem istP+(f)=P(f|e)=P(f) [P(e|f) / P(e)] undP+(f|H)=P(f|He)=P(f|H) [P(e|Hf) / P(e|H)]

Wenn wir nun noch mit f updaten ergibt sich durch Einsetzen:

(3) P++(H)=P+(H|f)=P+(H) [P+(f|H) / P+(f)]=P(H) [P(e|H) / P(e)] (P(f|H) [P(e|Hf)/P(e|H)] /P(f) [P(e|f)/P(e)])= P(H) [P(f|H)P(e|Hf) / P(f)P(e|f)]

Diese kleine Rechenübung zeigt zum einen, wie mehrfaches Updatenfunktioniert und dass wir in (3) wieder dasselbe Ergebnis erzielen wie in(1), wo wir gleichzeitig mit e und f upgedatet haben. Wegen der Symme-trie in e und f zeigt das sogleich, dass die Reihenfolge des Updatens fürdas Endergebnis ohne Bedeutung bleibt, wenn wir jedenfalls daran fest-halten, dass Veränderungen der Wahrscheinlichkeiten nur durch die Re-gel (BU) erfolgen und keine anderen Formen von veränderten Einschät-zungen auftreten.

5.5.2 Hintergrundwissen im BayesianismusWir hatten schon früher gesehen, dass wir aus Daten nicht einfachSchlüsse auf bestimmte Theorien ziehen können, ohne unser Hinter-grundwissen einzubringen. Das induktive Schließen stützt sich immer

Page 349: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

337 Thomas Bartelborth: Induktives Schließen

auf weiteres Hintergrundwissen. Das sollte sich ebenfalls in den beding-ten Wahrscheinlichkeiten wiederfinden. Wenn Fritz plötzlich und wäh-rend einer Grippewelle hohes Fieber bekommt, dann spricht das dafür,dass ihn eine Grippe erwischt hat. Man könnte also vermuten, dass indiesem Fall gilt: P(Fritz hat Grippe|Fritz hat Fieber) sehr hoch ist. Schonfür diese Einschätzung benötigten wir Hintergrundwissen. Aber viel-leicht wissen wir außerdem noch, dass Fritz gegen Grippe geimpft wur-de. Dann wird P(Fritz hat Grippe|Fritz hat Fieber) wieder klein. Diesebedingten Wahrscheinlichkeiten hängen also von unserem konkretenHintergrundwissen K ab. Das hat einige Autoren (etwa Hajek 2003) da-zu gebracht, dieses Hintergrundwissen immer explizit aufzuführen unddavon zu sprechen, dass es sich bei P immer um eine bedingte Wahr-scheinlichkeit handelt. Statt P(E) müssen wir dann eigentlich P(E|K) be-trachten. Dabei ist K eine Menge von Aussagen bzw. ihre Konjunktion.

Doch das ist nicht unproblematisch. Zunächst einmal müsste K dieWahrscheinlichkeit 1 erhalten: P(K)=P(K|K)=1. Um welche Aussagensollte es sich dabei handeln? Das widerspricht zumindest dem Dogmatis-musverbot. Wenn unsere Wahrscheinlichkeitsfunktion regulär wäre,d.h., wenn aus P(K)=1 bereits folgt, dass K eine Tautologie ist, dannkönnten wir gleich nachweisen, dass wir darauf verzichten dürfen, K ex-plizit aufzuführen; denn für den Fall ist ableitbar: P(H|E&K)=P(H|E).Doch das sollte in gleicher Weise im Normalfall gelten, denn unser Hin-tergrundwissen ist schließlich bereits in unserer Überzeugungsfunktion Pkodiert. Gehört unser Wissen um die Grippeimpfung von Fritz zu unse-rem Hintergrundwissen, so sollte sich das darin äußern, dass die Wahr-scheinlichkeit P(Fritz hat Grippe|Fritz hat Fieber) klein wird. Dannmüssen wir das Hintergrundwissen nicht unbedingt noch einmal explizitanführen.

Wir könnten das Hintergrundwissen K auch als Index aufführen: PK,wenn es denn überhaupt noch eine klare Bedeutung innerhalb des pro-babilistischen Ansatzes hätte. Doch das ist eigentlich nicht der Fall. Wirhaben nur P und keine Auszeichnung bestimmter Überzeugungen alsHintergrundwissen mehr. Insbesondere gerät eine solche Auszeichnungmit dem Dogmatismusverbot in Konflikt, das wir zwar schon gelockerthatten, das aber trotzdem noch für viele Elemente unseres Hintergrund-wissens sinnvoll zu sein scheint. Dass Fritz sich gegen Grippe hat impfenlassen und diese ihn gut vor der Grippe schützt, mag zu meinem Hinter-grundwissen gehören, doch deshalb muss es noch nicht so irrtumssichersein, dass ich ihm Wahrscheinlichkeit 1 geben sollte. Genau genommenist daher die Rede von Hintergrundwissen im Rahmen des subjektiven

Page 350: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 338

Bayesianismus nicht besonders sinnvoll. An manchen Stellen, wo dashilfreich erscheint, werde ich trotzdem wieder auf K als Hintergrund-wissen zurückgreifen und es manchmal explizit einbauen, schon um zukennzeichnen, ob in verschiedenen Situationen dasselbe oder unter-schiedliches Hintergrundwissen vorliegt.

Insbesondere dort, wo jemand wie Hawthorne (2010) versucht, aufobjektivere Wahrscheinlichkeitsfunktionen (bei ihm konditionale Pop-per-Funktionen) zurückzugreifen, die nicht mehr nur den subjektivenGehalt ganz bestimmter Überzeugungssysteme wiedergeben sollen, kannes wieder sinnvoller erscheinen, ein bestimmtes Hintergrundwissen ex-plizit in die Wahrscheinlichkeitsfunktionen aufzunehmen. Sie werden ge-wissermaßen nicht als das Hintergrundwissen einer bestimmten Personeinfach in der Wahrscheinlichkeit „versteckt“, sondern wieder offen alsBedingungen bestimmter Hintergrundannahmen aufgeführt. Wir werdenspäter sehen, dass Hawthorne eine Behauptung wie „P(A|B)=r“ dann soliest: In den möglichen B-Welten ist der Anteil der A-Welten gerade r. Eshandelt sich also schon eher um eine logische Beziehung zwischen Aus-sagen, für die wir dann natürlich alle beteiligten Aussagen offenlegensollten. Die objektiven Bayesianer versuchen hier vor allem, die Aus-gangswahrscheinlichkeiten objektiver zu gestalten.

5.5.3 Die Rechtfertigung der KonditionalisierungsregelWie im Falle der Wahrscheinlichkeitsaxiome können wir auch hier wie-derum fragen, warum wir der Konditionalisierungsregel folgen sollten.In unserer jetzigen Schreibweise fragen wir also, warum wir als neueWahrscheinlichkeit P+ gemäß der folgenden Regel wählen sollten:

Bayesianische Konditionalisierung: P+(H) = P(H|E)

Diese Vorschrift besagt anschaulich, dass wir einer bestimmten TheorieH, die wir gestern etwa noch für unwahrscheinlich hielten, heute dieWahrscheinlichkeit P(H)=0,9 geben sollten, wenn zwei Dinge gelten: 1.Wir haben gestern gesagt, dass sie die Wahrscheinlichkeit 0,9 hätte, soll-te E eintreten, und 2. E tatsächlich inzwischen eingetreten ist. So wie dieWahrscheinlichkeitsaxiome synchronische Konsistenzbedingungen dar-stellen, findet sich in der Konditionalisierungsregel eine diachronischeKonsistenzbedingung. Meine heutigen Glaubensgrade sollten zu meinengestrigen passen. Das erscheint zunächst plausibel. Bayesianer stützensich dazu aber weiterhin auf ein Dutch-Book-Argument, um es als einzigrationale Verhaltensweise zu begründen.

Page 351: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

339 Thomas Bartelborth: Induktives Schließen

Dazu ist zu klären, wie bedingte Glaubensgrade P(H|E) zu einem be-stimmten Wettverhalten passen. Die entsprechende Wette auf H gegebenE soll dabei nur dann zur Auszahlung kommen, wenn E eintritt, ansons-ten passiert einfach nichts. Nehmen wir nun an, jemand hat die folgen-den Glaubensgrade: P(H|E)=0,3 und P+(H)=0,7 (was durch Updatenmit E entsteht). Dann sollte er die folgenden Wetten mit einer Auszah-lung von 10 Euro für den Fall akzeptieren, dass E eintritt:

(1) Wette 1 (heute): 7 Euro auf ~A (falls E eintritt)(2) Wette 2 (morgen nach dem Eintreffen von E): 7 Euro auf A

Im Falle von ~E passiert hier nichts, denn die erste Wette wird annul-liert und die zweite wird erst gar nicht abgeschlossen. Aber im Falle desEintreffens von E werden beide Wetten abgeschlossen und auch akti-viert. Dann zahlt der Akteur 14 Euro ein und erhält nur 10 Euro ausge-zahlt. Er kann also nur verlieren bei diesem Wettsystem. Man kann dieWetten noch durch geeignete Wetten auf E aufpeppen, so dass der Ak-teur in jedem Fall draufzahlt. Aber auch ohne diese Ergänzungen dürftedie Problematik von diachronisch nicht zusammenpassenden Glaubens-graden offenbar geworden sein.

Bayesianer verweisen darauf, dass wir, selbst wenn wir die Wetten et-wa nicht als Paket akzeptieren wollen, wir doch bemerken müssten, dassetwas in unserem Überzeugungssystem nicht stimmt. Der Vorzug passen-der Glaubensgrade sollte für uns intuitiv erkennbar sein. Doch wir müs-sen auch an das Beispiel des einfachen Reflexionsprinzips denken, daskeineswegs so plausibel war, aber trotzdem durch ein diachronischesDutch-Book-Argument gerechtfertigt werden konnte. Es gibt natürlichdaneben wieder andere axiomatische Ansätze, um die Konditionalisie-rungsregel zu begründen (vgl. etwa Earman 1992, 46 ff.), doch die Fra-ge bleibt immer, wie plausibel uns die grundlegenden Forderungen indiesen anderen Ansätzen erscheinen und ob sie tatsächlich plausiblersind, als es die Konditionalisierungsregel selbst schon ist.

5.5.4 Sind vernünftige Glaubensgrade messbar?Manchmal nehmen Bayesianer für sich in Anspruch, dass ihre Grund-größen − die Glaubensgrade − messbar sind, und betrachten das alsVorteil ihres Ansatzes. Wir hatten bereits gesehen, dass die Verbindungder Glaubensgrade zu einem bestimmten Wettverhalten keineswegs soeng ist, wie das Probabilisten gerne darstellen, weshalb wir dafür eintra-ten, die Glaubensgrade eher als theoretische Größen einzuschätzen. Nunkommt noch ein weiteres Problem hinzu. Psychologen wie Kahneman

Page 352: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 340

und Tversky (z.B. in 1982) haben uns gelehrt, dass Menschen ihre Glau-bensgrade normalerweise nicht von selbst nach den Wahrscheinlichkeits-axiomen richten, sondern dazu eine spezielle Ausbildung benötigen. InFällen wie dem Dschungelfieberbeispiel wird selbst von Ärzten und an-deren Fachleuten, aber noch mehr von Laien, systematisch der Effektdes Tests auf die neue Wahrscheinlichkeit überbewertet gegenüber demEffekt der geringen Prävalenz der Krankheit in der Grundgesamtheit.Man nennt das den „base-rate-fallacy“, weil man eben diese Basisratevergisst. Es kommen viele andere systematische Fehler dieser Art hinzu.Daher werden schon die Ausgangsglaubensgrade nicht kohärent be-stimmt sein, aber weitere Abweichungen von den Wahrscheinlichkeits-axiomen entstehen danach beim Updaten. Selbst wenn wir also die tat-sächlichen Glaubensgrade messen könnten, gilt das nicht mehr für dievernünftigen Glaubensgrade, die korrigiert gegenüber den realen Glau-bensgraden den Wahrscheinlichkeitsaxiomen gehorchen.

Überhaupt können wir die vernünftigen Glaubensgrade (die sichnach den Wahrscheinlichkeitsaxiomen und der Konditionalisierungsre-gel richten) keiner realen Person mehr zuschreiben. Nehmen wir an, wirhätten eine reale Person s mit den Glaubensgraden Ps, die aber bestimm-te Inkohärenzen beinhalten. Die wären vermutlich etwas versteckt, aberwir nehmen der Einfachheit halber an, dass schlicht und einfachPs(A)=0,6 und Ps(~A)=0,7 sei. Wie sähen denn dann die korrigiertenvernünftigen Glaubensgrade von s aus? Für dieses Paar von Überzeugun-gen könnten wir etwa die Paare [0,6;0,4] oder [0,3;0,7] oder[0,46;0,54] oder ganz andere Werte wählen und müssten jeweils weitereAnpassungen im restlichen Überzeugungssystem vornehmen. Tatsächlichführt kein vernünftiger Weg zu einer dieser speziellen Lösungen.

Wir könnten stattdessen auch gleich eine Menge von Glaubensgrad-funktionen betrachten, die alle mit den unproblematischen Überzeugun-gen von s übereinstimmen und an der Stelle A alle kohärenten Möglich-keiten erlauben. Doch wir erhalten so schnell eine große Menge vonÜberzeugungssystemen und die Frage bleibt, ob uns das tatsächlich vor-anbringt.

Wir erfinden also eine fiktive Person t und schreiben ihr vernünftigeGlaubensgrade also Wahrscheinlichkeiten Pt zu, die vielleicht noch ge-wisse Ähnlichkeiten zu den Glaubensgraden von s aufweisen. Eigentlichsind wir damit bereits einen kleinen Schritt hin zu einer induktiven Lo-gik gegangen, nämlich weg von realen Glaubensgraden hin zu vernünfti-gen Glaubensgraden, die sich an bestimmte epistemisch rationale Spiel-regeln halten. Je mehr solcher Spielregeln wir jeweils einführen, um so

Page 353: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

341 Thomas Bartelborth: Induktives Schließen

mehr nähern wir uns einer modernen induktiven Logik (im Sinne vonHawthorne), die keineswegs verlangt, dass ihre Regeln so stark seinmüssen, dass sie bereits alle Wahrscheinlichkeiten eindeutig festlegen.Man sollte dann wohl eher von Graden der Bestätigung als von Glau-bensgraden sprechen.

Wir werden später noch sehen, dass jeder dieser Schritte (der Einfüh-rung objektiver Regeln) einen erkenntnistheoretischen Fortschritt bedeu-tet. Ohne solche Regeln liefert der Bayesianismus weder eine Erkennt-nistheorie noch eine Methodologie, sondern bestenfalls ein Buchhal-tungsverfahren, das unsere anderweitig bestimmten Glaubensgrade no-tiert. Daher müssen wir diese Spielregeln so genau betrachten und sinddarauf zwingend angewiesen. Zumindest gewinnen wir hier die Erkennt-nis, dass die vernünftigen Glaubensgrade nicht messbar oder anderwei-tig operationalisierbar sind, weil kein direkter Weg von aktualen zu ver-nünftigen Glaubensgraden führt.

5.5.6 Jeffreys KonditionalisierungsregelEin Problem des klassischen Bayesianismus ist die Verletzung des Dog-matismusverbots, wonach den Daten, die wir beobachtet haben, dieWahrscheinlichkeit 1 zugewiesen wird. Das scheint auch erkenntnistheo-retisch keineswegs so unproblematisch zu sein, denn natürlich müssenwir zugestehen, dass wir uns bei unseren Beobachtungen zumindestmanchmal irren können, und daher die neue Wahrscheinlichkeit für Ezumindest etwas kleiner als 1 sein sollte. Außerdem haben wir es in derWissenschaft zum einen mit Rohdaten in Form von einfachen Beobach-tungen zu tun, doch die sind noch nicht mit unseren Theorien vergleich-bar, weshalb wir diese Rohdaten interpretieren müssen, um sie dann mitunseren Theorien konfrontieren zu können.

Wollen wir unsere Theorie der Elektrodynamik testen und müssendazu eine Stromstärke mit Hilfe eines Amperemeters messen, so ist etwaein Rohdatum, dass das Anzeigegerät auf der 3 steht. Doch das sagt zu-nächst noch nichts über die Elektrodynamik. Erst wenn wir diesesDatum interpretieren als: „Es fließt ein Strom von 3 Milliampere inunserem Leiter“, sagt es etwas über elektromagnetische Phänomene undlässt sich direkt mit den Vorhersagen unserer Theorie vergleichen. Dochspätestens der Schritt vom Rohdatum zum interpretierten Datum ist feh-leranfällig. Er muss sich auf eine Theorie stützen (in diesem Fall pikan-terweise sogar u.a. auf die Elektrodynamik selbst), und die könnte zu-mindest fehlerhaft sein. Also ist es nur vernünftig, wenn wir das in unse-

Page 354: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 342

rer Modellierung des Vorgangs auch berücksichtigen, und so das inter-pretierte Datum eine Wahrscheinlichkeit kleiner 1 aufweist.

Natürlich kann man immer versuchen, den ganzen Prozess mit allenbeteiligten Hilfsannahmen bayesianisch zu rekonstruieren, doch daswürde den Einsatz des Bayesianismus erheblich erschweren und ließeuns nicht direkt die spannenden Zusammenhänge zwischen Theorienund Daten diskutieren (vgl. auch Bovens & Hartmann 2006). Wir wer-den darauf später noch zurückkommen. Also sollten wir die schon inter-pretierten Daten als Daten zum Updaten von Theorien zulassen, dannmüssen wir umso mehr einräumen, dass es für sie eine Fehlermöglichkeitgibt, denn z.B. könnten unsere Messgeräte falsch kalibriert sein oder aufandere Art zu Fehlern führen.

Um diesen Fall von nicht-irrtumssicheren Daten korrekt beschreibenzu können, kann der Bayesianer die Konditionalisierungsregel von Jeff-rey verwenden. Hier geht man nicht mehr davon aus, dass die Wahr-scheinlichkeit einer Aussage auf 1 wächst, sondern nur, dass sie sich ver-ändert und wir dann die anderen Wahrscheinlichkeiten anpassen müs-sen. Jeffrey selbst motivierte seine Regel unter Hinweis auf Beobachtun-gen, bei denen wir uns nicht sicher sind − etwa weil die Lichtverhältnis-se suboptimal sind. Trotzdem sollten wir die daraus resultierenden Infor-mationen nicht verlieren, sondern weiterverarbeiten. Dazu benötigenwir eine Regel, die keine Sicherheit der Daten voraussetzt. Nehmen wiran, dass wir durch Beobachtungen die Wahrscheinlichkeit einer AussageE verändern zu P+(E). Dann ändern sich die Wahrscheinlichkeiten deranderen Aussagen gemäß der:

(1) Jeffrey Konditionalisierung:P+(H) = P(H|E)P+(E) + P(H|~E)P+(~E)

Das entspricht der klassischen Konditionalisierungsregel, für den Spe-zialfall P+(E)=1 und damit P+(~E)=0. Es können sogar Fälle auftreten,in denen wir unsere Wahrscheinlichkeit auf eine vollständige Zerlegung{E1,...,En} aufteilen. Bisher haben wir nur die einfache Zerlegung{E,~E} betrachtet. Nehmen wir an, wir würden nicht genau erkennen,welche Farbe ein Objekt hat (sehr schlechte Beleuchtung!), und es wür-den nur die folgenden drei Farben in Frage kommen: P+(blau)=0,2 undP+(grün)=0,7 und P+(rot)=0,1. Dann könnten wir auch diese neue Ver-teilung auf unsere Datenaussagen Ei zum Updaten heranziehen und er-hielten:

(2) Jeffrey Konditionalisierung: P+(H) = i P(H|Ei)P+(Ei)

Page 355: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

343 Thomas Bartelborth: Induktives Schließen

Obwohl diese Konditionalisierungsregel so plausibel erscheint, wird sievon klassischen Bayesianern eher abgelehnt. Eine ganze Reihe von Kri-tikpunkten finden wir bei Weisberg (2010). Ein zentraler Einwand ist,dass es bei dieser Regel auf die Reihenfolge der Daten ankommen kann,in der mit ihnen upgedatet wird. Es kann also passieren, dass zwei Baye-sianer mit denselben Startwahrscheinlichkeiten zwei gleiche Beobachtun-gen machen, die auch entsprechend in neue Wahrscheinlichkeiten um-setzen, aber trotzdem zu anderen Nachher-Wahrscheinlichkeiten gelan-gen, weil sie ihre Beobachtungen in einer anderen Reihenfolge gemachthaben. Die formalen Eigenschaften haben schon Diaconis & Zabell(1982) untersucht. Wenn wir etwa zweimal bezüglich derselben Zerle-gung updaten, so bestimmt jeweils das zweite Updaten die Werte P(Ei),während das erste damit für unsere Datenaussagen Ei wieder „verloren-geht“.

Somit scheint ein eigentlich kontingentes Faktum, nämlich die Rei-henfolge, in der wir die Daten erhalten, einen zu großen Einfluss auf dasErgebnis zu haben. Es gibt allerdings auch Verteidiger dieses Aspekts derJeffrey Konditionalisierung. Lange (2000) zeigt an speziellen Beispielen,dass die Reihenfolge durchaus einmal relevant sein kann. Die jeweilsspätere Information kann z.B. die frühere dabei ein Stück weit diskredi-tieren. Doch das sind recht spezielle Fälle. Diaconis & Zabell (1982) ge-ben zu der fehlenden Kommutativität weitere Beispiele an und diskutie-ren unterschiedliche Bedingungen, unter denen die Kommutativitätdoch wieder hergestellt wird.

Allerdings benötigen wir jeweils eine Zerlegung {E1,...,En}, um dieRegel anwenden zu können, was eine gewisse Willkür in der Anwen-dung bedeutet, und bei mehrfachem Updaten können sich die Zerlegun-gen wiederum unterscheiden, wodurch die Problematik sich verschärft.

Die Jeffrey-Konditionalisierung besitzt allerdings einige schöneEigenschaften, die wir für eine echte Wahrscheinlichkeitskinematik er-warten. Wenn etwa für alle i die Wahrscheinlichkeit P(Ei)>0 ist (wasman meisten als sinnvolle Forderung einbringt), so ergibt ein erneutesUpdaten mit den alten Wahrscheinlichkeiten für die Ei wieder die ur-sprüngliche Verteilung. Insbesondere ist sie dadurch bereits ausgezeich-net und festgelegt, dass für alle Aussagen A und alle i gilt:P+(A|Ei)=P(A|Ei). Das finden etwa Howson & Franklin (1992) beson-ders bedeutsam, da es ihrer Meinung nach geradezu zur Logik des Up-datens gehört.

Eine spezielle Frage ist aber, ob die Jeffrey-Regel schon alle Fälle vonInformationsgewinn abdeckt. Van Fraassen (1981) hat dazu als Problem-

Page 356: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 344

fall das Judy-Benjamin-Beispiel entwickelt, und ähnliche Beispiele wur-den von etwa von Richard Bradley (2005) vorgeschlagen (s. Weisberg2010). Judy Benjamin sprang mit dem Fallschirm aus einem Flugzeug ineinen bestimmten Bereich, der in vier gleiche Sektoren (Quadranten)nach Himmelsrichtungen aufgeteilt wurde: NW, NO, SW und SO. Judyglaubt nun zunächst, dass jeder der Sektoren dieselbe Chance hat, ge-troffen zu werden: Für jeden Quadranten haben wir die Wahrscheinlich-keit 1/4. Sie schildert nach der Landung über Funk ihre Umgebung underhält dann die Information, dass man zwar nicht wisse, ob sie im Nor-den oder Süden gelandet sei, aber wenn sie im Norden gelandet sei,dann wären ihre Chancen 3:1, dass sie im Osten sei. Wie soll Judy dieseInformationen nun verarbeiten?

Das Problem ist hier, dass die Information, die sie erhalten hat, nichtwie für die Konditionalisierungsregel vorgesehen eine unbedingte Wahr-scheinlichkeit liefert, sondern nur eine bedingte, nämlich dassP(NO|N)=3/4 ist. Um solche Fälle einer Veränderung bei den bedingtenWahrscheinlichkeiten ebenfalls behandeln zu können, können wir nachnoch allgemeineren Regeln des Updatens Ausschau halten oder wir kön-nen versuchen, es auf die bisherigen Regeln zurückzuführen, indem wirdie Aussage über Funk selbst mit einer bestimmten Wahrscheinlichkeitwahr zu sein versehen und dann damit updaten (vgl. Grove & Halpern1997). Das werden wir hier aber nicht weiter verfolgen.

Auch für Jeffreys Regel wurden wieder Dutch-Book-Argumente an-geführt, aber spannender ist hier ein anderer Ansatz. Man kann argu-mentieren, dass sie eine Lösung für die folgende Vorgehensweise liefert.Suche zu einer Wahrscheinlichkeitsverteilung P und einigen neuen Wer-ten auf einer Zerlegung Z die nächstgelegene Wahrscheinlichkeitsfunk-tion P*, die auf Z diese neuen Werte annimmt. Die Idee ist eine klassi-sche Idee aus dem Repertoire der Verfahren zur Überzeugungsänderung.Man nehme nur so viele Abänderungen vor, wie tatsächlich durch dieneuen Informationen erzwungen werden, aber nicht mehr. Im Übrigenbleiben wir konservativ und so nahe wie möglich an den bisherigenÜberzeugungen. Das scheint zumindest aus praktischen Erwägungenheraus eine sinnvolle Vorgehensweise zu sein. Wir müssen nicht einekomplette Neubewertung vornehmen und haben auch nicht dauernderadikale Neubewertungen zu gegenwärtigen. Ob sich das Vorgehenselbst erkenntnistheoretisch rechtfertigen lässt, ist schon nicht ganz soeinfach zu entscheiden. Aber davon gehe ich hier einmal aus.

Dann bleibt allerdings zumindest noch die Frage übrig, wie wir denAbstand zwischen den Verteilungsfunktionen bestimmen wollen. Diaco-

Page 357: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

345 Thomas Bartelborth: Induktives Schließen

nis und Zabell (1982) zeigen, dass Jeffreys Regel mit mehren Abstands-maßen verträglich ist und insbesondere den Kullback-Leibler-AbstandI(P*,P) (auch genannt: relative Entropie von P* bzgl. P) minimiert. Die-ses Abstandsmaß ist zwar nicht symmetrisch, hat aber eine ganze Reihewünschenswerter Eigenschaften für ein Abstandsmaß. So ist es z.B. posi-tiv definit (vgl. Kullback, 1968). Es wird daher in vielen Kontexten ein-gesetzt. Bei Weisberg (2010) wird es innerhalb der Regel Infomin ver-wendet, die eine sehr allgemeine Regel zum Updaten von Wahrschein-lichkeiten darstellt und für die Jeffreys Regel eindeutige Ergebnisse dortliefert, wo wir die Regel von Jeffrey einsetzen können.

Infomin: Wenn unsere Ausgangswahrscheinlichkeit durch P gegebenist und wir nun die Zusatzinformation erhalten, dass nur noch Wahr-scheinlichkeitsverteilungen P* aus einer bestimmten Menge S vonVerteilungen zugelassen sind, dann wähle die Funktion P*S, für diedie folgende Größe minimal wird auf der Menge Ai aller Aussagenaus L.

I(P*,P) = i P(Ai) log[P(Ai)/P*(Ai)]

Man sagt auch: Die Funktion I liefert den Erwartungswert der relativenInformation von P zu P*, da der Informationsgehalt eines Ergebnisses Ai

gerade log(1/P(Ai)) ist. Eine Minimierung von I(P*,P) durch eine Wahlvon P* bedeutet demnach, dass wir die Verteilung P* in unserer MengeS suchen, die aus Sicht von P am wenigstens Informationen aufzuweisenhat. Das ist eine ähnliche Idee wie im schon erwähnten Maximum-En-tropie-Prinzip. Man könnte auch hier sagen, dass die Idee des Prinzipsvom zureichenden Grunde dahinter steht. Wähle nur die Abweichungenvom bisherigen Überzeugungssystem P, die tatsächlich durch unsere neu-en Informationen erzwungen werden und keine darüber hinaus gehen-den Abweichungen. Dann hängt natürlich Vieles davon ab, dass unserAbstandsmaß intuitiv das leistet, was wir uns von ihm versprechen.

Doch für die Jeffrey-Regel sind wir nicht allein auf Infomin angewie-sen, denn auch für die simple Abstandsfunktion:

d(P,P*) = i |P(Ai)–P*(Ai)|

liefert die Jeffrey-Regel ein minimales Ergebnis; allerdings muss diesesnicht unbedingt eindeutig bestimmt sein. Diaconis & Zabell (1982) ge-ben noch andere Abstandsmaße an, für die das ebenfalls gilt. Die Jeffrey-Regel bietet also eine gut begründete Ergänzung des bayesianischen An-satzes, die bestimmte Idealisierungen des Ansatzes aufhebt und damitneue Einsichten ermöglichen kann. Sie ist noch dynamischer als die ein-

Page 358: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 346

fache Update-Regel, weil sie es gestattet, auch die Datenaussagen wiederzu revidieren. Howson & Franklin (1992) schlagen für Fälle unsichererDaten vor, eine weitere Aussage einzuführen, die über die etwa die Zu-verlässigkeit eines Zeugen oder Messgerätes behauptet und selbst miteiner gewissen Wahrscheinlichkeit versehen wird, die unsere Unsicher-heit wiedergibt; so wie wir das in Kapitel 5.6.8 kennenlernen werden.

5.5.7 Bayesianische BestätigungstheorieBisher haben wir vor allem das bayesianische Updaten unseres Überzeu-gungssystems dargestellt und dabei darauf geachtet, bestimmte Regelnzu formulieren, die vernünftige Glaubensgrade kennzeichnen. Damit ha-ben wir mehr implizit als explizit gewisse Zusammenhänge zur Erkennt-nistheorie hergestellt. Die wollen wir nun explizit machen und präzisie-ren. Wann bestätigen danach bestimmte Daten D eine Hypothese H?Dazu müssen wir als elementaren Zusammenhang, der wohl von allenBayesianern geteilt wird, die folgenden Regeln ansehen. Ein Bayesianersollte diesen Regeln jedenfalls zustimmen, weil seine Glaubensgradesonst für die Erkenntnistheorie nutzlos wären:

Bestätigung und Glaubensgrade(1) P(H|E) > P(H) gdw. E bestätigt H(2) P(H|E) = P(H) gdw. E ist neutral bzgl. H(3) P(H|E) < P(H) gdw. E schwächt H (bzw. E bestätigt ~H)

Damit hätten wir einen ersten noch recht allgemeinen Zusammenhangzwischen Glaubensgraden und einer epistemischen Bestätigung. Doch,was besagt der, wenn wir einmal nur davon ausgehen, dass es sich umbeliebige Glaubensgrade einer Person s mit der Glaubensgradfunktion Ps

handelt? Da Ps einfach der Ersatz für unseren kategorialen Glauben dar-stellt, sagt „Ps(H|E)>Ps(H)“ eigentlich nur, dass der bedingte Glaubens-grad von H gegeben E der Person s höher ist als ihr einfacher Glaubens-grad an H. Das müssten wir dann eigentlich so übersetzen: „Subjekt shält E für eine Bestätigung von H.“ Das sagt uns jedoch noch nichts übereine objektive Bestätigungsbeziehung. Es ist nur eine Beschreibung derÜberzeugungen von s und nicht mehr. Solange noch nicht sichergestelltist, dass Ps weitere objektive Anforderungen erfüllt, liefert die Unglei-chung keine weiteren Informationen über den Zusammenhang zwischenE und H.

Das heißt andererseits, dass jede zusätzliche Anforderung an Ps unseinen Schritt näher an eine erkenntnistheoretische Position heranführt.Deshalb sind die Zusatzregeln so besonders wichtig für den Bayesianis-

Page 359: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

347 Thomas Bartelborth: Induktives Schließen

mus. Der klassische Bayesianer kennt praktisch nur die Wahrscheinlich-keitsaxiome und die Konditionalisierungsregel, doch das sind nur einfa-che Konsistenzforderungen. Man kann als Bayesianer also weiter ziem-lich verrückte Werte für P(H|E) und P(H) aufweisen. Erst wenn es unsgelingt, diese sinnvoll zu beschränken, haben wir eine erkenntnistheore-tische These aufgestellt. Man könnte das so formulieren: Jeder Schritt inRichtung einer induktiven Logik verhilft dem Bayesianismus erst zueinem erkenntnistheoretischen Gehalt. Ob es sich dabei schließlich umeinen fortschrittlichen Ansatz in der Erkenntnistheorie handelt, müssenwir aber trotzdem noch anhand seiner Anwendungen ermitteln.

Einen solchen Schritt fanden wir im statistischen Syllogismus, aberleider hilft er uns in der bayesianischen Beurteilung wissenschaftlicherTheorien nicht weiter, wie ich bereits angemerkt habe. Das wichtigsteInstrument zur Objektivierung bayesianischer Überlegungen ist daherdie Likelihoodanbindung. Objektive Likelihoods sind die Wahrschein-lichkeiten, die Theorien dem Auftreten bestimmter Daten geben. Siesind Teil des Gehalts der Theorien. Hier kommen objektive Bayesianerwieder mit der klassischen Statistik zusammen, die ebenfalls auf dieLikelihoods setzt. Der Bayesianer kann so auf den Vorwurf der rein sub-jektiven Auskunft reagieren: Die Ausgangswahrscheinlichkeiten bleibensubjektive Einschätzungen (von möglicherweise objektiven Wahrschein-lichkeiten), aber der Prozess des Updatens wird vor allem durch dieLikelihoods dominiert und erhält so seinen objektiven Charakter −jedenfalls, wenn wir die Likelihoodanbindung unterschreiben. Damitmögen die Startwahrscheinlichkeiten unterschiedlicher Bayesianer zwarstark variieren, bei den Likelihoods sollte dann aber wieder Einigkeitherrschen. Das reicht aus, um letztlich Einigkeit bei den Nachher-Wahr-scheinlichkeiten zu erzielen, wenn genügend Daten eingehen. Das solljedenfalls die Aussage der bayesianischen Konvergenztheoreme sein. Lei-der weist uns Hawthorne (2005) darauf hin, dass diese schöne Ideenicht so einfach funktioniert. Doch dazu später mehr.

Überhaupt bleibt immer die Frage zu beantworten, ob (1) geeignetist, um damit möglichst viele unserer Redeweisen von Bestätigung abde-cken oder sogar erklären zu können. In (1) sagen wir, dass es eine positi-ve statistische Korrelation zwischen E und H gibt. Das ist u.a. eine sym-metrische Relation, weshalb dann auch E durch H gestützt wird. Dasmuss nicht als problematisch betrachtet werden, erscheint aber nicht je-dem als plausibel. Christensen (1999) sieht das schon als Abweichungvon unserer üblichen Sicht der Bestätigungsbeziehung. Schwerwiegendersind wohl die Einwände von Peter Achinstein, die wir später diskutieren

Page 360: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 348

werden. Außerdem bleibt natürlich die Frage zu beantworten, wie wir zuStartwahrscheinlichkeiten für wissenschaftliche Theorien kommen sol-len. Vorteilhaft an der bayesianischen Konzeption scheint andererseits zusein, dass wir es nun in der Hand haben, das Ausmaß der Bestätigungvon Theorien durch Daten genauer angeben zu können. Beim deduktiv-hypothetischen Verfahren war das Unterbestimmtheitsproblem offen ge-blieben. So kann ein Datum aus verschiedenen Kombinationen vonTheorien und Daten abgeleitet werden (T,H⊨E und T’,H’⊨E). Welcheder Theorien wird dann durch die Daten bevorzugt? Ein Maß für dieBestätigungsstärke könnte hier eine erste Antwort bieten.

5.5.8 Maße der BestätigungDie Bestätigung einer Theorie durch bestimmte Daten kann offensicht-lich recht unterschiedlich ausfallen. Rein qualitative Bestätigungstheo-rien können das nicht richtig nachzeichnen. Die Glaubensgrade solltenfür uns das geeignete Mittel darstellen, nun ein solches Maß anzugeben.Ein sehr naheliegendes Maß für die Bestätigungsstärke ist das einfacheDifferenzmaß:

(1) Differenzmaß: d(H,E) = P(H|E)–P(H)

Doch Fitelson (1999) konnte zeigen, dass sich für dieses Maß bestimmteParadoxien ergeben. So ist die Paradoxie von Popper und Miller (1983)auf eine bestimmte Additivitätseigenschaft angewiesen, die unser Maß daufweist, andere Maße wie das Ratio-Maß aber nicht zeigen. Daher wur-den inzwischen zahlreiche andere Maße vorgeschlagen und es gibt einelebhafte Debatte um das richtige Maß. Typische Beispiele sind:

(2) Ratio-Maß: r(H,E) = log[P(H|E)/P(H)](3) Likelihood-Ratio-Maß: l(H,E) = log[P(E|H)/P(E|~H)](4) Zweites-Differenz-Maß: s(H,E) = P(H|E)–P(H|~E)

Rosenkrantz (1994) stützt sich dagegen speziell auf das Maß d, um eineAntwort auf das Problem der irrelevanten Konjunktionen zu finden. Fi-telson (1999 und 2001) stellt die jeweils relevanten Eigenschaften sogarin Form einer Tabelle zusammen, wobei er sich in (1999) aber als viertesMaß auf ein von Carnap vorgeschlagenes etwas komplizierteres Maß be-zieht. Man sieht schnell die unterschiedlichen Einschätzungen der Bestä-tigungsstärke: Steigt die Wahrscheinlichkeit von H von 0,0001 auf 0,01,so ergibt das im Differenzmaß nur eine Steigerung von ca. 0,01, was unseher als kleinerer Betrag erscheint, während das Ratio-Maß schon denWert 100 liefert, was uns recht groß erscheint. Doch genau genommen

Page 361: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

349 Thomas Bartelborth: Induktives Schließen

sind die jeweiligen Werte nur schwer miteinander vergleichbar und letzt-lich wird es darum gehen, welches der Maße unsere intuitiven Einschät-zungen in konkreten Anwendungsfällen und natürlich in den Paradoxie-Beispielen besser rekonstruieren kann.

Insbesondere sind die Maße untereinander nicht äquivalent, in demSinne, dass für alle Paare (H,E) und (H’,E’) die Maße M und M* zumin-dest in der Reihenfolge übereinstimmen: M(H,E) M(H’,E’) gdw.M*(H,E) M*(H’,E’). Selbst diese ordinale Äquivalenz ist für unsereMaße nicht gegeben. Wir können sie also keineswegs als im Grundedoch gleichwertige Maße betrachten.

Ein Argument in der Debatte um das richtige Maß ist z.B. die man-gelnde Sensibilität von r gegenüber deduktiver Irrelevanz, die etwa vonRosenkrantz (1981) und Gillies (1986) bemängelt wurde:

Wenn H ⊨ E, dann gilt r(H,E) = r(H&X,E), für alle Aussagen X.

Es wirkt eher unplausibel, dass die stärkere Hypothese H&X genausogut durch die Daten gestützt wird (wohlgemerkt für ein beliebiges X)wie die schwächere Teilhypothese H selbst. Das spricht intuitiv deutlichgegen das Ratio-Maß.

Fitelson (2001) diskutiert und expliziert eine ganze Reihe von Anfor-derungen an solche Bestätigungsmaße, wobei das Likelihood-Ratio-Maßl am besten abschneidet. Die bisherige Debatte zeigt aber wohl, dass esdabei keinen eindeutigen klaren Sieger gibt. Fitelsons Favorit ist wie ge-sagt das Likelihood-Ratio-Maß, da es auch in der Paradoxienbekämp-fung am besten abschneidet. Christensen (1999) ist eher pessimistisch,dass es gelingt, ein Maß für alle Anwendungsfälle zu finden. Alle Maßewerden auf jeden Fall von dem „old-evidence“-Problem geplagt, auf daswir noch gesondert eingehen werden.

Tentori et al. (2007) untersuchten die unterschiedlichen Maße empi-risch, indem sie ermittelten, in welchen Fällen von positiven Maßenauch die Versuchspersonen von einer bestimmten Bestätigung ausgingen.Hier schnitt zumindest das Likelihood-Ratio-Maß l neben anderen Ma-ßen, die wir hier nicht betrachten, wieder recht gut ab.

Das überrascht mich einerseits nicht, denn dieses Maß beschreibt ambesten, was die beteiligten Theorien über die Daten sagen, andererseitsist es kein rein bayesianisches Maß mehr, wenn wir die Likelihoodanbin-dung akzeptieren. Jedenfalls kann für die objektiven Fälle von Likeli-hoods auch der klassische Statistiker diese Größen verwenden. Aller-dings hatten wir bereits gesehen, dass es im Falle disjunktiver Hypothe-sen keine eindeutigen objektiven Likelihoods gibt, sondern dass wir hier

Page 362: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 350

auf bestimmte subjektive Wahrscheinlichkeiten angewiesen sind, um dieLikelihoods zu berechnen. Überraschend ist aber doch, dass die eigentli-chen epistemischen Wahrscheinlichkeiten der Hypothesen selbst nichtim Zentrum des ausgewählten Maßes stehen.

Eine neue Klasse von Maßen auf der Grundlage des Z-Maßes habenCrupi et al. (2007) vorgeschlagen. Das Z-Maß hat noch mehr wün-schenswerte logische Symmetrieeigenschaften und kommt unseren intui-tiven Urteilen in Tentori et al. (2007) noch weiter entgegen. Das zeigt,dass hier noch Raum für weitere Forschungen besteht und ich möchtedas Maß Z zumindest noch erwähnen:

Wir können diese Maße nun einfach einmal auf unser erstes Beispielsys-tem aus Kapitel 5.3 anwenden. Einmal für das erste Updaten mit E unddann für das folgende zweite Updaten mit D (also für die Wahrschein-lichkeitsfunktion P+). Dann erhalten wir (mit dem Logarithmus zur Ba-sis 10):

d(H,E) = 0,7 – 0,5 = 0,2d(H,D) = 0,833 – 0,7 = 0,133

r(H,E) = log(0,7/0,5) = log(1,4) = 0,146r(H,D) = log(0,833/0,7) = log(1,19) = 0,076

l(H,E) = log(0,7/0,3) = log(2,333) = 0,368l(H,D) = log(0,714/0,333) = log(2,144) = 0,331

s(H,E) = 0,7 – 0,3 = 0,4s(H,D) = 0,833 – 0,5 = 0,333

Z(H,E) = 0,4Z(H,D) = 0,443

Hieran sieht man zunächst, dass alle Maße bis auf Z darin übereinstim-men, dass in unserem Beispiel E eine stärkere Bestätigung für H bietetals D, wobei aber die Zahlenverhältnisse für die Bestätigungswertedurchaus recht unterschiedlich ausfallen. Für Z sieht es aber überra-schenderweise sogar umgekehrt aus, dass D die stärkere Bestätigung dar-stellt. Daran erkennt man schon, dass die Maße nicht stabil sind, was die

Page 363: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

351 Thomas Bartelborth: Induktives Schließen

Reihenfolge der Bestätigungsstärke angeht (nicht ordinal äquivalentsind). Betrachten wir die entsprechenden Werte noch für das entspre-chende Beispiel aus Kapitel 5.3.10 mit der dort verlangten stabilen Like-lihoodanbindung:

d(H,E) = 0,7 – 0,5 = 0,2d(H,D) = 0,845 – 0,7 = 0,145

r(H,E) = log(0,7/0,5) = log(1,4) = 0,146r(H,D) = log(0,845/0,7) = log(1,207) = 0,081

l(H,E) = log(0,7/0,3) = log(2,333) = 0,368l(H,D) = log(0,7/0,3) = log(2,333) = 0,368

s(H,E) = 0,7 – 0,3 = 0,4s(H,D) = 0,845 – 0,5 = 0,345

Z(H,E) = 0,4Z(H,D) = 0,483

Hier fällt vor allem auf, dass nun das Likelihoodmaß l für beide Datendieselbe Bestätigungswirkung liefert, was auch nicht anders zu erwartenwar. Aber für die anderen Maße gilt weiterhin, dass E unsere HypotheseH stärker bestätigt als das Datum D. Daran ändert auch die Likelihood-anbindung nichts. Wenn Bayesianer das gerade wünschen, weil sie etwaerwarten, dass das wiederholte Datum Kopf unsere Hypothese H beimzweiten Mal nicht so stark bestätigt wie beim ersten Mal, dann wird dasfür die meisten Maße weiterhin gewährleistet. Man sieht allerdings sehrgut, wie stark solche Aussagen von der jeweiligen Wahl eines Maßes ab-hängen. Beim Maß Z ist die Bestätigung durch D nun sogar noch einmalgrößer geworden.

5.5.9 Bayesianische KonvergenzKlassische Statistiker werden gegen den Bayesianismus vor allem vor-bringen, dass er zu subjektiv gefärbt sei, denn die verwendeten Glau-bensgrade sind jeweils spezifisch für bestimmte epistemische Subjekte −und können also von Wissenschaftler zu Wissenschaftler stark variieren.Was haben solche Größen in der wissenschaftlichen Beurteilung einerTheorie zu suchen? Seine persönlichen Einschätzungen mag jeder Wis-senschaftler haben, aber warum sollten die irgendeine Rolle in der Be-wertung unserer Theorien spielen? Vielmehr sollten dort lieber alleindas (allgemein anerkannte) Hintergrundwissen und vor allem unsere em-pirischen Daten im Hinblick auf die Theorie ausgewertet werden.

Page 364: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 352

Argumente für oder gegen eine Theorie sollten dann z.B. die Formhaben: Unser Hintergrundwissen über die vier wirksamen Grundkräftesagt uns, dass es Einflussmechanismen wie die in der Astrologie postu-lierten nicht geben kann, und die Daten sprechen damit gegen die Vor-hersagekraft astrologischer Berechnungen: Deshalb ist die Astrologie alsunplausibel abzulehnen. Ein Bayesianer müsste dagegen ansetzen: Meinpersönlicher Glaubensgrad an die Astrologie ist von Beginn an schonsehr klein und durch die Updates mit den Daten noch kleiner geworden.Der Einwand ist natürlich, dass der erste Teilsatz nur eine nette autobio-graphische Auskunft ist, die aber für die weitere Beurteilung der Astrolo-gie nicht weiter ins Gewicht fallen sollte. Einstein hätte das Entspre-chende vielleicht sogar von der Quantenmechanik gesagt, aber selbst indem Fall hätten wir doch darauf bestanden, dass letztlich nur die Fakten– also die Erklärungserfolge und Vorhersageleistungen der Quantenme-chanik – zählen und nicht die persönlichen Einschätzungen eines Wis-senschaftler – ganz gleich wie berühmt er sein mag.

Es gibt eine Standardantwort, die Bayesianer immer auf den Vorwurfder Subjektivität ihrer Glaubensgrade anbringen, und das ist die derKonvergenz. Die Glaubensgrade mögen zu Beginn divergieren, aberwenn wir nur genügend Daten sammeln, werden sie sich beim Updatenmit diesen Daten schnell einander annähern. Das kann man zunächst inBeispielen gut beobachten, wenn wir mit normalen Startwahrscheinlich-keiten beginnen und einige plausible Annahmen (wie die Likelihoodan-bindung) unterschreiben. Das illustrierten schon unsere früheren Bei-spiele. Alexander Bird (1998, 208 f.) bringt ein weiteres Zahlenbeispiel.

Leider ist es beim bayesianischen Updaten besonders mühselig, die je-weiligen Nenner P(E) zu bestimmen. Das geschieht normalerweise mitHilfe des Theorems der totalen Wahrscheinlichkeit, wenn wir schonüber eine erschöpfende Menge an einander ausschließenden Hypothesen{H1,...,Hn} verfügen. Wir können hier das bayessche Theorem dann sobeschreiben, dass wir ansetzen:

P+(Hi) = P(Hi|E) P(Hi)P(E|Hi)

Dabei steht „“ für „ist proportional zu“. Die neue Wahrscheinlichkeitfür eine Hypothese Hi ist daher proportional dem Produkt aus der altenWahrscheinlichkeit von Hi und der Likelihood von E gegeben Hi. DerProportionalitätsfaktor x zwischen P+(Hi) und P(Hi)P(E|Hi) bestimmtsich dann daraus, dass die neue Wahrscheinlichkeitsverteilung für dieHypothesen wieder zusammen 1 ergeben muss:

Page 365: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

353 Thomas Bartelborth: Induktives Schließen

1 = i P+(Hi) = i xP(Hi)P(E|Hi) = xi P(Hi)P(E|Hi),also ist x = 1/[i P(Hi)P(E|Hi)] = 1/P(E)

Diese Form des bayesschen Theorems lässt sich im Rahmen der bayes-schen Statistik oft gut einsetzen, um die Nachher-Wahrscheinlichkeitenzu finden oder abzuschätzen.

Einfacher werden Berechnungen der upgedateten Wahrscheinlich-keitsfunktionen gleichfalls, wenn wir die Quotientenform des bayesiani-schen Theorems verwenden (dabei fällt der Proportionalitätsfaktorweg), womit wir uns zugleich ein wenig den Likelihoodisten annähern.James Hawthorne hat dieses Verfahren für viele Zwecke immer wiedererfolgreich eingesetzt. Nehmen wir zunächst an, wir hätten nur zwei ein-ander ausschließende Hypothesen H1 und H2 und eine davon wärewahr. Aus dem bayesschen Theorem wird dann:

Bayessches Theorem in Quotientenform (BTQ)

Hier besteht der rechte Term aus den Vorher-Wahrscheinlichkeiten derHypothesen und den Likelihoods der jeweiligen Daten E. Wir könnennun recht leicht den hier Quotienten-Update-Faktor (QUF) genanntenFaktor Q(E) = P(E|H1)/P(E|H2) für verschiedene Daten E betrachten.Geht dieser Faktor gegen 0, so geht auch P+(H2) gegen 0 und damitmuss P+(H1) gegen 1 gehen. Das können wir dann auf den Fall von nHypothesen ausdehnen. Bleiben wir aber zunächst bei zwei Hypothesen.Nehmen wir z.B. eine Münze, die entweder eine Wahrscheinlichkeit von0,6 für Kopf hat (H1 besagt P(Kopf|H1)=0,6) oder nur 0,3 (H2 besagtP(Kopf|H2)=0,3). Dann können wir den Faktor Q(E) für verschiedeneErgebnisse E ausrechnen (unter Einsatz der Likelihoodanbindung), diehier immer aus konkreten Folgen von Kopf und Zahl besteht. Nehmenwir außerdem an, dass der wahre Wert gerade 0,3 ist und deshalb dieAnzahl der Köpfe auf lange Sicht mit einer relativen Häufigkeit von un-gefähr 0,3 auftritt. So könnten etwa die für eine einzelne Folge vonMünzwürfen die Ergebnisse auftreten:

Ein konkretes Zahlenbeispiel:E1 = 4 Köpfe von 10; E2= 33 Köpfe von 100;E3 = 290 Köpfe von 1000, dann ist:Q(E1) = 0,640,46 / 0,340,76 = 5,5710-1 = 0,557

Page 366: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 354

Q(E2) = 0,6330,467 / 0,3330,767 = 4,4710-7= 0,000000447Q(E3) = 0,62900,4710 / 0,32900,7710 = 5,5210-86

Jetzt können wir für verschiedene Startwahrscheinlichkeiten von H1 undH2 die neuen Endwahrscheinlichkeiten ausrechnen, denn P+(H1) = 1–P+(H2).

Formel für die Endwahrscheinlichkeiten:Setze: h:=P(H1)/P(H2) und Q(E):=P(E|H1)/P(E|H2),dann erhalten wir:P+(H1) = 1/[1+hQ(E)] undP+(H2) = hQ(E)/[1+hQ(E)]

Man erkennt hieran sehr schnell, was passiert, wenn der Quotienten-Up-date-Faktor Q(E) gegen Null oder gegen Unendlich geht. Im ersten Fallgeht P+(H1) für festes h gegen Eins und P+(H2) gegen Null. Im zweitenFall sieht es offensichtlich andersherum aus. Wenn wir etwa davon aus-gehen, dass H1 und H2 zu Beginn ungefähr dieselbe Wahrscheinlichkeitvon 0,5 haben, so wird h=1 und damit sieht man für sehr kleine Wertevon Q(E), dass P+(H1) nahe 1 liegt und P+(H2) ungefähr bei Q(E).

In unserem konkreten Beispiel sieht man, wie schnell die Q(E) mitgrößeren Zahlen an Würfen gegen Null gehen. Damit haben wir schondie Grundidee einer Variante der bayesianischen Konvergenztheoremekennengelernt. Weil die allermeisten Daten, die bei einer so gestaltetenMünze (mit P(Kopf)=0,3) auftreten werden, in Bezug auf die relativeHäufigkeit von Kopf nahe bei unseren Daten liegen, erwarten wir auchin den allermeisten Fällen ähnliche Werte für Q(E). Damit geht in denallermeisten Fällen P+(H1) gegen Null und P+(H2) gegen 1. Nun müssenwir nur noch „allermeisten“ durch „mit hoher Wahrscheinlichkeit“ er-setzen und finden für unser Beispiel und ähnliche Fälle die gesuchteKonvergenz (s.u.).

Für den Fall von n Hypothesen ist die Berechnung nur etwas kom-plexer. Aber wenn genügend andere Hypothesen praktisch falsifiziertwurden, indem ihre Wahrscheinlichkeiten sich der Null angenähert ha-ben, so verteilt sich die Wahrscheinlichkeit auf die verbliebenen Hypo-thesen, also im günstigen Fall auf die eine zurückbleibende Hypothese(vgl. Hawthorne 2008, 2005, 2010).

Zu den Voraussetzungen dieser Konvergenz gehört wieder (wie imFalle des abduktiven Schließens), dass wir eine Liste von Hypothesen ha-ben, die die wahre Hypothese enthält. Eine weitere Voraussetzung, diewir in den weiteren Konvergenztheoremen explizit wiederfinden wer-

Page 367: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

355 Thomas Bartelborth: Induktives Schließen

den, ist, dass die Konkurrenten zur wahren Hypothese einen gewissenAbstand aufweisen müssen.

Tatsächlich finden sich eine ganze Reihe leicht unterschiedlicherKonvergenztheoreme, von denen ich einige kurz skizzieren möchte. Zu-nächst ein Theorem in einer recht allgemeinen Form mit möglicherweiseunendlich vielen Konkurrenzhypothesen und einem größeren Wertebe-reich für die Daten. So finden wir bei Leonhard Held (2008, 172) in et-wa (leicht angepasst an unsere Notation und Redeweisen) das folgendeTheorem:

Theorem: Es sei H={h1, h2,...} eine abzählbare Menge von Hypothe-sen mit P(hi)>0 für alle it und es sei die wahre Hypothese ht in Hund xn sei der Vektor der Daten als Ergebnisse einer Zufallstichprobevon n Zufallsvariablen X1,...,Xn. Mit f(xn|hi) sei die Wahrscheinlich-keitsdichte der Hypothese hi gemeint. Außerdem sei der Kullback-Leibler-Abstand von ht und hi größer 0:

I(ht,hi) = f(xn|ht) log[f(xn|ht)/f(xn|hi)] dxn > 0 für alle it,dann gilt:

(*) limn P(xn|ht) =1 und limn P(xn|hi) =0 für alle it.

Als Voraussetzung haben wir somit die Bedingung, dass die wahre Hypo-these in unserer Menge zu finden ist und dass alle anderen Hypothesenandere Behauptungen über die Beobachtungsdaten aufstellen. Beobach-tungsäquivalente Hypothesen sind natürlich durch das bloße Updatenmit neuen Daten nicht voneinander zu unterscheiden. Um das sicherzu-stellen, wird hier wieder der Kullback-Leibler-Abstand I eingesetzt, denwir oben schon kennengelernt haben, nur dass er hier in einer Versionfür Dichten auftritt und die Beobachtungsdaten xn nun einen kontinuier-lichen Bereich von Werten annehmen können, über den wir im Integralin I zu integrieren haben. Außerdem wird verlangt, dass alle Hypothesennoch nicht endgültig falsifiziert sind, sondern eine Wahrscheinlichkeitgrößer Null erhalten. Wir hatten bereits gesehen, dass dieses Dogmatis-musverbot nicht ganz so harmlos ist, wie man auf den ersten Blick den-ken könnte. Etwas besser angepasst an einen probabilistischen Ansatz,der sich auf Aussagen bezieht, ist das Theorem von Gaifman und Snir(1982), das etwa bei Earman (1992, Kap. &.5) diskutiert wird.

Besonders spannend erscheint mir aber das Likelihood-Quotienten-Konvergenztheorem, das vor allem von Hawthorne (2008, 2005, 2010)in verschiedenen Varianten vorgestellt und propagiert wird. Es stelltpraktisch die entsprechende Variante des Konvergenztheorems zu unse-rem obigen Zahlenbeispiel dar. Es kommt mit recht wenigen Annahmen

Page 368: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 356

aus. So wird u.a. noch nicht einmal verlangt, dass die Wahrscheinlichkei-ten -additiv sind, wie das für die obigen Theoreme verlangt werdenmuss, und es kommen auch keine Wahrscheinlichkeiten 2. Ordnung (al-so Wahrscheinlichkeiten über Wahrscheinlichkeiten) zum Einsatz. Dar-über hinaus kann auch der klassische Statistiker oder zumindest einLikelihoodist etwas damit anfangen, jedenfalls dann, wenn die vorkom-menden Likelihoods alle objektiver Natur sind. Wir hatten jedoch obenschon gesehen, dass das zumindest für disjunktive-Hypothesen nicht im-mer gegeben ist.

5.5.10 Das Likelihood-Quotienten-Konvergenztheorem von Hawthorneund die moderne induktive Logik

Hawthorne (2011c, 2005, 2010) bezieht sich auf das bayessche Theo-rem in Quotientenform, führt aber noch einige der zusätzlichen Bestand-teile des bayesianischen Updatens explizit mit auf, was ich nun ebenfallstun möchte. Die Ausdrücke werden dadurch zwar etwas komplizierter,aber wir sind im Prinzip in der Lage, die Einflüsse von Hilfsannahmengenauer anzugeben und mit dem bayesianischen Apparat nachzuzeich-nen. Diese Möglichkeiten sollen nicht unterdrückt werden, da sonst derbayesianische Ansatz hier schon gegenüber dem deduktiv-hypotheti-schen als weniger detailliert erscheinen könnte. Solche Komplikationenhabe ich bisher nur der besseren Übersichtlichkeit halber weggelassenbzw. die Hilfsannahmen schlicht als Bestandteile des Hintergrundwis-sens betrachtet. Hawthorne hat dazu eine recht übersichtliche Notationeingesetzt, die ich mit kleinen Abänderungen kurz erläutern werde, umzumindest eine relativ einfache Version seines Konvergenztheorems vor-zustellen (vgl. Hawthorne 2005). Es handelt sich dabei um eine Anwen-dung des schwachen Gesetzes der großen Zahlen.

Hawthorne betrachtet die Likelihoods P(e|h&b&c), wobei e wiederunser Datum darstellt, h unsere in Frage stehende Hypothese, b unserHintergrundwissen (für „background knowledge“) und c unsere Annah-men über die spezielle Situation, in der das Datum e erhoben wurde.Das könnte bei einer Beobachtung etwa die speziellen Lichtverhältnissebetreffen, die dabei geherrscht haben. Dazu kommen einfache Abkür-zungen (wir haben schon ähnliche verwendet), um mehrere Daten dar-zustellen. Mit P(en|h&b&cn) ist der Fall gemeint, dass wir n Daten kon-junktiv zusammenfügen und die dazu jeweils passenden n (möglicher-weise unterschiedlichen) Randbedingungen cn annehmen. Weiterhin ha-ben wir eine abzählbare Liste von Hypothesen {h1, h2, ...} über ein Ge-biet, die einander ausschließen und zusammen erschöpfend sind, und

Page 369: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

357 Thomas Bartelborth: Induktives Schließen

zur Not eben eine „catch-all“-Hypothese enthalten, um im endlichenFalle eine vollständige Liste zu ergeben. Darin sei hi wahr. Dann wirdaus dem bayesschen Theorem in Quotientenform:

Bayessches Theorem in Quotientenform (BTQ)

Das gilt zumindest, wenn wir annehmen, dass P(cn|hj&b)=P(cn|hi&b)gilt, dass also unsere Beobachtungsbedingungen nicht von unseren jewei-ligen Hypothesen abhängen, was zumindest auf den ersten Blick rechtplausibel erscheint. Dann erhalten wir ein übersichtliches Theorem, des-sen Termen wir wieder Namen geben können. Es sagt uns, wie dieWahrscheinlichkeit der wahren Hypothese hi gegen 1 konvergiert imVergleich mit einer beliebigen Hypothese hj. Wir haben zunächst erneutunseren wichtigen Quotienten-Update-Faktor (QUF) Qi,j(en), der einfachwie gehabt der Quotient der entsprechenden Likelihoods ist:

Qi,j(en) := P(en|hi&b&cn) / P(en|hj&b&cn)

Die können wachsen oder gegen Null gehen im Vergleich der Hypothe-sen. Ebenso haben wir wiederum die Quotienten von Vorher- und Nach-her-Wahrscheinlichkeiten wie schon im oberen Fall. Bedeutsam ist natür-lich vor allem, was mit dem QUF geschieht. Dazu betrachtet Hawthornedie Menge all der Daten en, die zu einem bestimmten Hypothesenpaarzu einem kleinen QUF führt.

Qi,j() := {en; Qi,j(en)< } mit >0

Daraus wird nun ein Satz Ai,j() gebildet als eine lange Disjunktion, dieeinfach nur besagt, dass ein Satz von Daten en aus dieser Menge auftritt.Damit besagt Ai,j(), dass ein Satz von Daten auftritt, für den der Quo-tienten-Update-Faktor kleiner wird als das gewählte , bei Vorliegen derBedingung hi&b&cn. So erhalten wir das:

Likelihood-Quotienten-Konvergenz-Theorem (LQKT)>0 qi,j >0 mit: P(Ai,j()|hi&b&cn) 1–(qi,j/n)

Dabei hängt der genaue Wert von qi,j ab vom empirischen Abstand derbeiden Hypothesen hi und hj. Dabei werden ähnlich wie beim Kullback-Leibler Abstand alle möglichen empirischen Ergebnisse in Betracht gezo-gen und etwa anhand bestimmter Unabhängigkeitsannahmen weiter ver-einfacht. So lässt sich dann qi,j berechnen (vgl. Hawthorne 2008, Kap. 5;

Page 370: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 358

2011a/c). Aber das Theorem lässt sich bereits in der Form (LQKT) ver-stehen und interpretieren. Zunächst ist klar, dass mit wachsender Anzahln an Daten die in (LQKT) betrachtete Wahrscheinlichkeit gegen 1wächst. Damit besagt das Theorem: Zu beliebig klein gewähltem gilt:Wenn hi die wahre Hypothese ist und unser Hintergrundwissen b wahrist sowie auch unsere Annahmen cn über die Situation der Datenerhe-bung, dann werden für jede andere Hypothese hj mit hoher Wahrschein-lichkeit (gegen 1 wachsend bei weiterer Datensammlung) unsere Datenen in einem Bereich liegen, für den der Quotienten-Update-Faktor klei-ner wird als . Wie in unserem Beispiel oben bedeutet ein kleiner QUF,dass die Daten gegen hj sprechen. Nur dass die Formel jetzt etwas kom-plexer geworden ist, weil wir mehr Hypothesen berücksichtigen müssen,als in unserer Beispielrechnung. Damit ist (LQKT) so zu verstehen, dasswir mit zunehmender Anzahl an Daten einen QUF kleiner mit einerhohen Wahrscheinlichkeit erwarten dürfen, wobei die Wahrscheinlich-keit immer größer wird bei wachsendem n. Die anderen Hypothesenwerden hingegen dabei letztlich probabilistisch falsifiziert.

Die Abhängigkeit der Endwahrscheinlichkeiten von den Quotienten-Update-Faktoren lässt sich wieder erkennen, indem wir die Gleichungenetwas umschreiben und zu den Quoten unserer Hypothesen übergehen.Dabei ist die Quote von A gegeben B gerade: Ω(~A|B) = P(~A|B) /P(A|B). Dann erhalten wir:

Bayessches Theorem in QuotenformΩ(~hi|en&b&cn) = ji Qj,i(en) [P(hj|b) / P(hi|b)]

Das verlangt natürlich, dass die P(hi)>0 sind, damit die hinteren Brücheexistieren. Damit können wir dann auch die Endwahrscheinlichkeit vonhi bestimmen:

Bayessches Theorem anhand von QuotenP(hi|en&b&cn) = 1/[1+Ω(~hi|en&b&cn)]

Wir können obendrein erkennen, was mit den verschiedenen Hypothe-sen beim Updaten geschieht. Gehen die Qj,i(en) gegen Null für alle ji,dann geht auch deren Summe gegen Null (zumindest für endliche Men-gen von Hypothesen) und damit wächst die Endwahrscheinlichkeit derwahren Hypothese hi gegen 1 und damit auch die Wahrscheinlichkeitunserer Hypothese hi für eine wachsende Datenmenge.

Dieses Grenzwertverhalten des QUF ist natürlich ebenfalls für andereAnsätze von Bedeutung, die die Likelihoods als wesentliche Faktoren fürdie Theorienbewertung erachten, wie etwa das abduktive Schließen und

Page 371: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

359 Thomas Bartelborth: Induktives Schließen

entsprechende Kohärenzansätze. In diesen Ansätzen standen Vergleicheder Hypothesen im Hinblick auf ihre Erklärungsleistung für die Datenganz im Vordergrund und die Erklärungsleistung war wiederum an dieauftretenden Likelihoods gekoppelt. Das Likelihood-Quotienten-Kon-vergenz-Theorem besagt dafür gerade, dass die Likelihood-Quotientenim Durchschnitt für falsche Hypothesen im Vergleich zu wahren gegenNull gehen, was also zumindest im Durchschnitt sicherstellt, dass wirmit diesem Verfahren die wahren Hypothesen ermitteln werden. Voraus-setzung ist allerdings, dass wir die wahren Hypothesen überhaupt mit imBlick haben und die Daten konstant durch dieselben Mechanismen (wiesie in Hypothese hi beschrieben werden) erzeugt werden.

Hawthorne (2005, 2008, 2010) verweist außerdem darauf, dass wiretwa als induktive Logiker mit einer ganzen Menge P, Pb,... von Aus-gangswahrscheinlichkeiten starten können, die unsere anfängliche Vag-heit in den Glaubensgraden ausdrücken; dann sorgt die Konvergenz da-für, dass diese Menge immer kleiner wird und gegen bestimmte End-wahrscheinlichkeiten konvergiert (s. Kap. 5.5.9). Selbst wenn also dasIndifferenzprinzip oder das MaxEnt-Prinzip keine eindeutigen Ergebnis-se liefert, mag es immer noch hilfreich sein, mit einer Menge von Aus-gangswahrscheinlichkeiten unser Updaten zu beginnen, die alle zumin-dest eine gewisse Begründung haben und nicht völlig willkürlich gewähltwurden. Der nächste Absatz wird das noch einmal unterstreichen. Erzeigt aber zugleich die Gefahren einer völlig subjektiven Wahl der Aus-gangswahrscheinlichkeiten auf. Jedenfalls können diese Ausgangswahr-scheinlichkeiten bei unterschiedlichen epistemischen Subjekten anderen-falls stark variieren, aber wenigstens bei den Likelihoods sollte es einenKonsens unter den Bayesianern geben, dass wir die mit Hilfe der Likeli-hoodanbindung entsprechend den Aussagen der Theorie selbst wählen.Dann wären sie zumindest für alle Bayesianer dieselben und ihre Kon-vergenz wird durch das Likelihood-Konvergenz-Theorem sichergestellt.

Wie das Konvergenzverhalten dabei vom empirischen Abstand derHypothesen (davon wie unterschiedlich ihre Vorhersagen für bestimmteDaten sind) abhängt, sehen wir, wenn wir unser obiges Zahlenbeispielmit anderen Hypothesen durchrechnen. Es dürfte aber auch intuitiv klarsein, dass benachbarte Hypothesen schwieriger durch Daten zu unter-scheiden sind. Es sei weiterhin die Hypothese H2 wahr und H1 ihr fal-scher Konkurrent. Im Falle (a) mit P(Kopf|H1) = 0,4 und P(Kopf|H2) =0,3 und (b) P(Kopf|H1) = 0,31 und P(Kopf|H2) = 0,3 erhalten wir fürden QUF die folgenden Werte:

Page 372: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 360

Ein konkretes Zahlenbeispiel (Fortsetzung):E1= 4 Köpfe von 10; E2= 33 Köpfe von 100;E3= 290 Köpfe von 1000

Resultat QUF

(a) (b)

E1 1,05 1,25

E2 0,43 1,13

E3 510-12 0,49

Tabelle 5.8: Probleme durch benachbarte Hypothesen

Im Falle (a) sehen wir also zumindest bei 1000 Würfen noch ein deutli-ches Resultat (eine probabilistische Falsifikation von H2, wenn H1 undH2 nicht zu extreme Ausgangswerte haben), aber im Falle (b) findet auchbei 1000 Würfen mit nur 290-mal Kopf kaum noch eine Verschiebungstatt. Erst wenn wir 10000-mal werfen und genau 3000 Köpfe erhalten,sinkt der QUF auf ca. 0,1. Damit ließen sich jetzt die jeweiligen End-wahrscheinlichkeiten berechnen, wenn wir für H1 und H2 bestimmteStartwahrscheinlichkeiten wählen würden. Es sollte in jedem Fall deut-lich geworden sein, wie stark der QUF vom Abstand der Hypothesen ab-hängt. Trotzdem bleibt natürlich das Konvergenzresultat bestehen, dasssich die wahre Hypothese letztlich mit hoher Wahrscheinlichkeit durch-setzt, solange sie noch empirische Unterschiede zu ihren Konkurrentenaufweist. Die Frage ist dann nur, was das Konvergenzresultat in der Pra-xis, in der wir es immer nur mit einer begrenzten Anzahl von Daten zutun haben, tatsächlich aussagt. Das soll der nächste Abschnitt ein wenigbeleuchten.

5.5.11 Zur Bedeutung der Konvergenztheoreme: Eine GlosseDie Konvergenzresultate sind zunächst nur theoretische Ergebnisse, dieauf lange Sicht gelten, die aber womöglich sehr lang sein kann. Was be-sagen sie für die Praxis? Dafür ist das Likelihood-Konvergenz-Theoremhilfreich, weil sich hier die Konvergenz besser abschätzen lässt. Zunächstist klar, dass wir bei hinreichend getrennten Hypothesen und doch eini-germaßen vielen Experimenten zwischen H1 und H2 etwa in unseremBasisfall recht gut unterscheiden können, sollten H1 und H2 nicht allzuextreme Ausgangswahrscheinlichkeiten aufweisen. Das ruft geradezu dieinduktiven Logiker auf den Plan, die sich von den subjektiven Bayesia-nern vor allem dadurch unterscheiden, dass sie für die Ausgangswahr-scheinlichkeiten mit dem Indifferenzprinzip und seinen Abkömmlingen

Page 373: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

361 Thomas Bartelborth: Induktives Schließen

ein rationales Verfahren vorschlagen, wie man zu sinnvollen Startwahr-scheinlichkeiten gelangen sollte. Das dient dazu, ausgefallene Startwahr-scheinlichkeiten als irrational auszuschließen. Sollte ein subjektiverBayesianer da nicht mitziehen, helfen ihm schließlich auch die Konver-genzresultate nicht mehr. Das möchte ich mit einer kurzen Glosse ver-deutlichen:

Die Mobilfunkfirma Handyflat beauftragt den Wissenschaftler Pro-fessor Wichtig, einen bekannten Bayesianisten, eine Studie zu möglichenGefahren des uneingeschränkten Handy-Konsums durchzuführen. Wis-senschaftler Wichtig hält überhaupt nichts von der Theorie T (T besagt:10 Jahre Handykonsum von mindestens einer Stunde verursacht zwin-gend Hirnerweichung.), die die Umweltaktivisten in den Raum stellen.Als Bayesianist muss er für T zunächst eine Vorher-Wahrscheinlichkeitfestlegen. Er überlegt sich, dass die nicht so hoch sein sollte, da er T fürvöllig falsch hält. Da kommen verschiedene in Frage: 1/1000,1/1000000, 10–10, 10–1000, 10–1000000, 10–(10^100), 10–(10^100000), und vieleweitere. Dabei soll 10–(10^100) bedeuten, dass hier die Eins geteilt wirddurch die recht große Zahl bestehend aus einer Eins mit 10100=10^100Nullen. (Diese großen Zahlen haben sogar Namen, denn 10100 wirdGoogol mit englischer Aussprache genannt und 10Googol=10(10^100) wirdals Googolplex bezeichnet. Manchmal erhalten selbst weitere Zahlen wie10Googolplex noch weitere Namen etc.) Allerdings lassen sich auf diesemWege schnell noch größere Anzahlen und damit kleinere Wahrschein-lichkeiten entwerfen.

Da Professor Wichtig ein eher bescheidener Mensch mit bescheide-nen Mathematikkenntnissen ist, entscheidet er sich für die moderateEinschätzung P(T)= 10–(10^1000), die T noch eine Chance lassen soll, ob-wohl er sie eigentlich für völlig falsch hält. Diese Grundeinschätzungmag irgendwie auch mit seinem Auftraggeber „Handyflat“ zusammen-hängen, der seinen Kunden den exzessiven Mobilfunkkonsum anrät.Doch als guter (subjektiver) Bayesianist weiß er, dass er völlig frei in sei-ner Wahl einer Ausgangswahrscheinlichkeit ist. Allerdings hält er sichstrikt an das Dogmatismusverbot, denn wir wollen jeder Hypothese −und sei sie noch so absurd wie die Theorie T − eine Chance geben, sichdoch noch zu beweisen. Schließlich besagen die Konvergenztheoreme,dass sich die wahre Theorie dann schon durchsetzen wird.

Er kann seine Meinung später natürlich noch ändern und mit eineranderen Vorher-Wahrscheinlichkeit starten, die noch sehr viel ungünsti-ger für T ausfällt, sollte sich das als hilfreich erweisen. Ein Mathemati-ker könnte ihn beraten, wie man besonders große Zahlen für den Nen-

Page 374: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 362

ner finden kann. Da müsste sich doch noch etwa machen lassen. SeinAuftraggeber bietet sogar an, ihm solche großen Zahlen zu besorgen,doch Professor Wichtig als unabhängiger und objektiver Wissenschaftlerlehnt das Angebot natürlich dankend ab.

Doch nun frisch ans Werk: Professor Wichtig stellt erste Experimentean. Nehmen wir zunächst an, T sei deterministisch gemeint. Für jedenfleißigen Handynutzer di erwarten wir also zwingend eine Hirnerwei-chung nach 10 Jahren. Da die sonst nicht so häufig auftritt, gibt er ihrjeweils die Startwahrscheinlichkeit 1/1000. (Als subjektiver Bayesianisthätte er ihr natürlich auch die Wahrscheinlichkeit 0,9 geben können,was seine Aversionen gegen T besser abgesichert hätte, aber er möchteeben eine ganz seriöse Auswertung seiner Studie durchführen.) Er ver-folgt nun über 10 Jahre die Geschicke von 1000 Handynutzern. Leiderenden die alle mit Hirnerweichung (E). Was bedeutet das für T? Dazukönnen wir den bayesianischen Update-Faktor großzügig abschätzen.Wir arbeiten einfach weiterhin mit dem Wert P(di)=1/1000 für jedenweiteren Handynutzer, obwohl diese Wahrscheinlichkeiten eigentlichsteigen sollten. Aber Profesor Wichtig möchte der Theorie T wie gesagtnoch eine Chance geben. Damit gilt:

P(E|T)/P(E) 10001000 = (103)1000 = 103000

Was wird damit aus der Wahrscheinlichkeit unserer Theorie T? Auchdie lässt sich nun abschätzen. Dazu betrachten wir den Nenner vonP+(T) bei einem Zähler von 1:

Nenner = 10(10^1000)–3000 10(10^999),denn 101000–3000 10999

Damit ist P+(T)10–(10^999), d.h., die Theorie ist weiterhin extrem un-wahrscheinlich und wir sollten nach Ansicht der Bayesianer praktisch je-de Wette dagegen annehmen, obwohl die experimentellen Daten so ein-deutig waren und wir ihre Startwahrscheinlichkeit bereits mit einer un-vorstellbar großen Zahl multipliziert haben. 100-mal sechs Richtige imLotto zu erzielen ist jedenfalls wesentlich wahrscheinlicher, als dass dieTheorie T nun wahr sein könnte. Es gibt also praktisch kein Risiko füreine Hirnerweichung selbst bei extremem Handykonsum nach den An-gaben von Professor Wichtig. Das kann er gleich so der Presse melden.Die Details des Experiments müssen natürlich nicht unbedingt veröffent-licht werden, denn ein weniger guter Wissenschaftler als Professor Wich-tig (etwa ein klassischer Statistiker) könnte daraus sonst schnell „fal-sche“ Schlüsse ziehen.

Page 375: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

363 Thomas Bartelborth: Induktives Schließen

Der Auftraggeber Handyflat ist mit dem Ergebnis zufrieden und ge-nehmigt gleich noch eine weitere Studie. Schließlich möchte man ja aufNummer sicher gehen. Allerdings weisen sie gleich darauf hin (ganzbayesianistisch gedacht), dass man auch die Wahrscheinlichkeiten füreine Hirnerweichung P(di) langsam deutlich nach oben anpassen sollteaufgrund der vielen neuen Erfahrungen. Trotzdem rechnet ProfessorWichtig weiterhin mit 1/1000, schließlich will er sich keine Beeinflus-sung durch die Industrie nachsagen lassen. Wichtig stellt sogar weitere1000 Studien mit insgesamt 1000 000 Teilnehmern an. Alle versterbenleider an Hirnerweichung (E*). Handyflat ist ein wenig besorgt, ob dasauf den Handykonsum ein schlechtes Licht werfen könnte, doch die ge-nauen Berechnungen des Professors zeigen, dass es überhaupt keinenGrund zur Sorge gibt. Es gilt zwar zunächst:

P(E*/T)/P(E*) 10001000000 = (103)1000000 = 103000000,

der Update-Faktor wird inzwischen nur noch durch eine 1 mit 3 Millio-nen Nullen dahinter abgeschätzt, aber es gilt natürlich trotzdem:

Nenner = 10(10^1000)–3000000 10(10^999),denn 101000–3000000 10999

Das heißt, es gilt weiterhin P+(T)10–(10^999) und auch weitere Studienmit realen Personen können daran nichts ändern. Also hat sich an derGrundaussage von Professor Wichtig, Hirnerweichung aufgrund vonHandys sei extrem unwahrscheinlich, ja sogar praktisch ausgeschlossen,nichts geändert. Jetzt ist auch der verantwortliche Politiker A überzeugt,dass Mobiltelefonieren ungefährlich ist, denn das Ergebnis der gründli-chen und riesigen Studie war ja schließlich die extrem kleine Wahr-scheinlichkeit für die Befürchtung T. Das hatte er sowieso schon vermu-tet, schließlich hatte ihm die Firma Handyflat das längst versichert. Dawaren die Wahlkampfspenden von der Firma Handyflat eigentlich ganzunnötig, aber natürlich trotzdem willkommen.

So beruhigend die Auskünfte unseres bayesianischen WissenschaftlersProfessor Wichtig auch sind, so gibt es doch immer Miesmacher aus an-deren Lagern (etwa der klassischen Statistik), die Wichtig seine Aufträgenicht gönnen. Sie kommen mit folgendem miesmacherischen Argument:Alle harten Daten, die auf dem Tisch liegen, geben keinen Grund zur Be-unruhigung. Schließlich sind eine Million Versuchspersonen alle anHirnerweichung erkrankt. Das allein sollte doch für uns zählen. Einzigdie bayesianistische Einschätzung von T durch Professor Wichtig hättedie beruhigende Note ins Spiel gebracht. Die sei aber nur seine persönli-

Page 376: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 364

che Sache und hätte nichts mit den objektiven Daten und ihrer wissen-schaftlichen Auswertung zu tun. Die Daten gäben viel mehr Anlass zugrößter Sorge. Wir sollten hier die Daten im Hinblick auf die Theoriebewerten, und Professor Wichtig sollte seine persönlichen Einschätzun-gen dazu für sich behalten.

Auch Politiker B zeigt sich beunruhigt. Er geht ganz naiv an die Sacheheran, weil er eben nichts vom Bayesianismus versteht. Er sagt: „Lassensie uns auf die Daten schauen. 1 Million Handy-Telefonierer wurdenuntersucht und alle erlitten eine Hirnerweichung. Gibt das nicht dochGrund zur Sorge? Außerdem gebe ich zu bedenken, dass auch PolitikerA ein langjähriger Vieltelefonierer ist.“ Nun müssen wir B wohl in dieFeinheiten der bayesianischen Datenauswertung einweihen, um ihn wie-der zu beruhigen. Die Firma Handyflat bezahlt ihm und seiner Frau eineAusbildung im bayesianischen Updaten auf den Bahamas, damit er nunauch die Ungefährlichkeit des Handykonsums einsehen kann. Das isteben alles nur eine Frage der richtigen Einstellung bzw. Startwahrschein-lichkeiten.

Auch schreckliche Umweltfreaks zeigen sich trotz der eindeutigenwissenschaftlichen Belege störrisch. Sie verweisen darauf, dass dieselbeAbschätzung gelten würde, wenn wir 10 Milliarden Menschen getestethätten (also mehr als momentan auf der Erde vorhanden sind) und allean Gehirnerweichung gestorben wären. Sollte uns das nicht zu denkengeben?

So langsam könnten uns Zweifel beschleichen, ob die bayesianischeHerangehensweise in diesem Fall so ganz adäquat ist. Die schlichte Be-trachtung der Daten hat auch so ihre Vorzüge. Leider scheinen wir alsodiese Überlegung der Miesmacher nicht so ganz beiseite wischen zu kön-nen, wenn wir nicht schon strenggläubige Bayesianer sind. Sobald wirim Glauben zweifeln, denken wir immer wieder in ganz naiver Weise:Der Bayesianismus scheint uns keine so große Hilfe in diesem Fall gewe-sen zu sein. Der klassische Statistiker sagt jedenfalls, dass wir nur auf dieLikelihoods etwa im Vergleich zu denen anderer Hypothesen schauensollten. Hätten wir als Konkurrenzhypothese die Theorie T*, dass dochzumindest 1% aller Handynutzer keine Hirnerweichung nach ausgiebi-gem Handykonsum haben würden, so wäre der Likelihood-QuotientP(E*|T)/P(E*|T*) = 1,6104365. Damit sprechen die Daten in giganti-scher Weise für T in Relation zu T*, obwohl T* auch schon relativ hoheQuoten von Hirnerweichung prognostiziert. Das ist vielleicht die besse-re Art und Weise die Daten auszuwerten. Startwahrscheinlichkeiten sind

Page 377: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

365 Thomas Bartelborth: Induktives Schließen

hier nicht mehr vonnöten. So denken jedenfalls die Likelihoodisten, dienun bald zu Wort kommen sollen.

Oder wir müssen die objektiven Bayesianer zu Wort kommen lassen,die hier einwenden, dass die Startwahrscheinlichkeiten zu willkürlichund in unserem Fall sehr einseitig gewählt wurden. Sobald wir miteinem Indifferenzprinzip an die Sache herangehen, kann das nicht mehrpassieren. Selbst wenn so ein Indifferenzprinzip keine eindeutigen Er-gebnisse liefert und wir hinterher mit einer ganzen Menge von Start-wahrscheinlichkeiten arbeiten müssten, würden keine so einseitigen Er-gebnisse auftreten. Die Startwahrscheinlichkeiten wären nicht so ex-trem. Im günstigsten Fall wäre die Wahrscheinlichkeit von T zu Beginneinfach ½ und damit wäre sie nach dem Updaten praktisch 1. In jedemFall sollte klar werden, dass die Daten unsere Hypothese T stark bestäti-gen.

Dazu müssen wir uns wieder dem Thema der Bestätigung im bayesia-nischen Rahmen zuwenden. Die bereits angegebenen Maße der Bestäti-gung sind allerdings auch nicht ganz leicht zu interpretieren. Die Wertedes Differenzmaßes d bleiben hier klein, während die für das Ratio-Maßr und das Likelihoodmaß l groß werden. Genau genommen würde unsbereits ein Vergleich der Bestätigung für die Hypothese T im Vergleichzur Gegenhypothese, wonach Handykonsum nicht zur Hirnerweichungführt, genügen. Womöglich sind hier unterschiedliche Vorstellungen vonBestätigung im Spiel, die es zunächst zu unterscheiden gilt. Dem widmenwir uns im nächsten Abschnitt und in Kapitel 5.5.17.

5.5.12 Formen der BestätigungNachdem wir inzwischen einige Ansätze kennengelernt haben, könnenwir wieder auf die Frage zurückkommen, was mit einer Bestätigung vonTheorien etwa durch Daten oder anderes Hintergrundwissen gemeintist. Das entspricht den Hypothesentests in der klassischen Statistik. Da-bei lassen sich verschiedene Grundideen unterscheiden und auf unter-schiedliche Weise durch Wahrscheinlichkeiten modellieren.

Zunächst haben wir die relationale Form der Bestätigung B(H,E),nach der bestimmte Daten D eine Hypothese H (lokal) ein Stück weitbestätigen. Unser Hintergrundwissen K wird dabei normalerweise auchbereits eine Rolle spielen, so dass wir eigentlich eine entsprechende drei-stellige Relation vor uns haben: B(H,E;K). Damit ist aber noch nicht ge-sagt, ob es nicht in unserem Hintergrundwissen viele andere Belege gibt,die gegen H sprechen. Es soll nur die relationale Beziehung zwischen Eund H ausgedrückt werden, die allerdings selbst auch von weiterem

Page 378: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 366

Hintergrundwissen abhängen kann. Die Fingerabdrücke des Verdächti-gen auf der Tatwaffe sprechen dafür, dass er auch der Täter ist (H), aberes mag daneben andere Indizien oder sogar ein Alibi geben, die stark da-gegen sprechen. Dass die Fingerabdrücke gegen eine Person sprechen,hängt wiederum von unserem Hintergrundwissen K ab, das besagt, dassFingerabdrücke nahezu einzigartig für eine bestimmte Person sind. Baye-sianer haben oft diese relationale Form der Bestätigung im Auge, wennsie von inkrementeller Bestätigung sprechen und damit meinen, dassP(H|E&K)>P(H|K) ist. Das Hinzufügen von E zu unserem Hinter-grundwissen erhöht die Wahrscheinlichkeit von H. Das ist oft die grund-legende Bestätigungsbeziehung, mit der Bayesianer arbeiten. Und auchbeim deduktiv-hypothetischen Bestätigungsbegriff scheint es sich vor-nehmlich um die relationale Bestätigung zu handeln.

Eine andere Form von Bestätigung finden wir in der absoluten Bestä-tigung. Dabei geht es darum, ob eine Hypothese H insgesamt durchunser Hintergrundwissen bestätigt wird, so dass wir sie akzeptieren dür-fen: A(H,K). Auch hierbei geht es wieder um eine Art von relationalerBestätigung, aber diesmal ist der Relationspartner gleich das gesamteHintergrundwissen. Dabei kann man wiederum fragen, was alles zu Kgehört. Handelt es sich tatsächlich nur um unser richtiges Wissen imstrikten Sinne oder meinen wir damit bloß die Überzeugungen, die vonuns zurzeit akzeptiert werden? Diese Debatte möchte ich aber hier nichtweiter verfolgen. Jedenfalls setzt die absolute Bestätigung bereits voraus,dass wir eine Abwägung unterschiedlicher Daten oder anderer Theorien,die für oder gegen eine Hypothese sprechen, in Form einer holistischenGesamtbewertung durchführen können.

Der Bayesianer wird diese absolute Bestätigung am ehesten durcheine Schwellenwertkonzeption wiedergeben, die er aber nicht so gerneakzeptieren möchte, wie wir oben gesehen haben. Demnach gibt eseinen Schwellenwert w>½, ab dem wir H akzeptieren: P(H|K)w. Eskann natürlich auch sein, dass der Bayesianer sagt, er benötige eine sol-che absolute Bestätigungsbeziehung überhaupt nicht. Dann wird er sieganz durch die Glaubensgrade ersetzen, die eine neue Gesamtbewertungabgeben sollen. Bereits die eliminative Induktion ging einen wichtigenSchritt in Richtung dieser Gesamtbewertung und natürlich vor allem derKohärenzansatz.

Zu den genannten Beziehungen kann man noch die Frage aufwerfen,ob es eine besondere Relevanzbeziehung etwa kausaler Art oder andererNatur zwischen H und E geben sollte. Wir hatten gesehen, dass die reinlogische Ableitbarkeit oder auch die reine Wahrscheinlichkeitserhöhung

Page 379: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

367 Thomas Bartelborth: Induktives Schließen

noch wenig über einen inhaltlichen Zusammenhang aussagen können.Das abduktive Schließen erforderte gegenüber der deduktiv-hypotheti-schen Bestätigung, dass eine Erklärungsbeziehung vorliegt. Genau dasverlangt auch Peter Achinstein (2001) als zusätzliche Bedingung, da wirseiner Meinung nach sonst antiintuitive Ergebnisse zu gegenwärtigen ha-ben, auf die ich im nächsten Abschnitt eingehen werde. Hier sind alsoZusatzbedingungen denkbar, die u.a. auch darin bestehen könnten, dassdie objektive Likelihood P(E|H) einen bestimmten Wert überschreitet.

Des weiteren finden wir eine Reihe komparativer bzw. relativer Bestä-tigungsbegriffe, die etwa besagen, dass E eine bessere Bestätigung für H1

gegenüber H2 darstellt: B(H1,H2,E;K). Echte Likelihoodisten wie Royall(1997) oder Edwards (1992) argumentieren dafür, dass wir nur solchevergleichenden Aussagen machen dürfen, da die anderen Formen vonBestätigung nicht objektiv explizierbar sind, sondern etwa auf der An-nahme von subjektiven Vorher-Wahrscheinlichkeiten beruhen. Kohärenz-theoretiker würden allerdings sagen, dass wir dann zumindest noch eineGesamtbewertung anschließen müssen, die doch wieder zu etwas Ähnli-chem wie einem absoluten Bestätigungsbegriff führt. Jedenfalls hattenwir das abduktive Schließen (und auch die eliminative Induktion) eben-falls wesentlich auf solche komparativen Bestätigungen gestützt. Likeli-hoodisten würden also B(H1,H2;E;K) dadurch ausdrücken wollen, dassder entsprechende Likelihoodquotient P(E|H1)/P(E|H2) größer als 1 ist.Bayesianer würden dagegen eher die Nachher-Wahrscheinlichkeiten mit-einander vergleichen und vor allem verlangen, dass P(H1|E)/P(H2|E)>1ist. Das bewertet allerdings nur, welche Veränderungen beim jetzigenGlaubensgrad von H1 und H2 durch E noch auftreten und unterliegt so-mit wieder dem Problem der alten Evidenz (s.u.). Vertreter der Abduk-tion würden verlangen, dass H1 E besser erklärt als H2, und bei der Be-urteilung dieser Beziehung kann sehr wohl auch der Likelihoodquotienteine wichtige Rolle spielen (vgl. aber Kap. 5.5.18).

Außerdem kann man noch eine andere Form von Vergleich heranzie-hen, der auch für eine Verrechnung verschiedener Daten hilfreich ist.Wir könnten explizieren, wann ein Datum E1 eine bessere Bestätigungfür H liefert als ein Datum E2: B(H;E1,E2;K). Das können Bayesianerz.B. durch ihre allerdings kontroversen und recht unterschiedlichen Ma-ße für die Bestätigungsbeziehung explizieren. Der Likelihoodist wird da-gegen wieder nur auf die objektiven Likelihoods setzen und den Quo-tienten P(E1|H)/P(E2|H) betrachten und fragen, ob der größer als 1 ist.

Man erkennt die unterschiedlichen Formen der Bestätigung, wennman auf Hempels (1945) Forderungen für Bestätigungsbeziehungen

Page 380: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 368

schaut, die wir schon in ausführlicherer Form in Kap. 3.4 im Zusam-menhang mit dem deduktiv-hypothetischen Schließen erörtert haben.Hempel trennt hier nicht sauber, welche Art der Bestätigungsbeziehunger explizieren möchte und erhält daher eine „ungesunde“ Mischung vonForderungen:

Hempels Prinzipien(1) A generalization of the form “All F are G” is confirmed by the

evidence that there is an individual that is both F and G.(2) A generalization of that form is also confirmed by the evidence

that there is an individual that is neither F nor G.(3) The hypotheses confirmed by a piece of evidence are consistent

with one another.(4) If E confirms H then E confirms every logical consequence of H.

Auf welche Bestätigungsbeziehung beziehen sich die Forderungen je-weils? Für Forderung (1) ist offensichtlich, dass nicht die absolute, son-dern nur eine relationale und damit eher eine inkrementelle Bestätigungder Hypothesen gemeint sein kann. Dasselbe gilt für (2), wenn wir über-haupt akzeptieren wollen, dass in diesem Fall eine Bestätigung vorliegt.Hempel biss in diesen sauren Apfel, um seine Bestätigungskonzeptionmit der Rabenparadoxie zu versöhnen, aber mir scheint diese Lösungnicht wirklich akzeptabel (s.u.). Die Forderung (3) ist dagegen nur sinn-voll für die absolute Bestätigung. Zwei Hypothesen, die im absolutenSinne (Wahrscheinlichkeit>½) durch ein E bestätigt wurden, könnennicht mehr direkt miteinander inkonsistent sein, für eine inkrementelleBestätigung ist das dagegen kein Problem. Nehmen wir folgendes einfa-che Beispiel dafür: Wir haben vier Karten gezogen und entwickeln dazuzwei Hypothesen. H1: Es handelt sich um vier Asse. H2: Es handelt sichum viermal Kreuz. Dann schaue ich mir eine Karte davon an und es han-delt sich um ein Kreuzass (E). Dann spricht E für beide inkompatiblenHypothesen im Sinne der Forderung (1).

Auch die Konsequenzbedingung (4) ist nur für absolute Rechtferti-gungen sinnvoll. Es sei H H1&H2 mit unseren Hypothesen H1 und H2

aus dem letzten Beispiel. Dann bestätigt das Herzass (E) zwar die Hypo-these H im Sinne der Forderung (1), aber die Konsequenz H2 aus Hwird keineswegs durch E bestätigt. Anders ist das für die absolute Bestä-tigung. Wenn P(H)>w ist, so gilt das auch für jede logische Konsequenzvon H.

Wir erkennen hier leider, dass wir mit „Bestätigung“ Unterschiedli-ches meinen können und das anscheinend auch in wissenschaftstheoreti-

Page 381: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

369 Thomas Bartelborth: Induktives Schließen

schen Überlegungen wiederfinden, ohne dass die Verwendungsweisengetrennt würden. Es ist schwer zu sagen, ob einer der Begriffe basaler istals der andere. Die relationale Bestätigung ist eine stärker lokale Bezie-hung, auf die wir die absolute Bestätigung vielleicht zurückführen könn-ten, wenn wir denn wüssten, wie sich die vielen relationalen Bestätigun-gen (bzw. Abschwächungen) miteinander verrechnen ließen. Der Baye-sianer verlangt einfach, dass wir eine gemeinsame Wahrscheinlichkeits-verteilung für alle Hypothesen und alle potentiellen Daten aufweisen,und sagt aber nicht, wie wir die lokalen Beziehungen unabhängig davonbetrachten können. Der Holismus wird sozusagen von Anfang an in dieGlaubensgrade mit eingebaut, die immer eine Gesamtschau der Wahr-scheinlichkeiten für alle in Frage kommenden Aussagen darstellen. Da-her passt die relationale Sichtweise der Bestätigung eigentlich nicht sobesonders gut in den Bayesianismus hinein. Das zeigte sich bereits imProblem der alten Evidenz. Vielleicht sollte der Bayesianer sich dochstärker mit der absoluten Bestätigung auseinandersetzen, wo dieses Pro-blem nicht so auftritt. Das hieße allerdings, dass fast alle Bayesianer indieser Frage bisher einer Selbsttäuschung unterlägen.

Jedenfalls hatte ich bereits dafür argumentiert, dass wir die absoluteBestätigung benötigen und auch die Bayesianer ein entsprechendes Kon-zept entwickeln sollten. Die Schwierigkeiten, zu ermitteln, was wir mit„Bestätigung“ meinen und wie sich das mit Wahrscheinlichkeiten in Ver-bindung bringen lässt, finden sich auch in den Einwänden von PeterAchinstein wieder, der daraus u.a. den Schluss zieht, dass wir mehr Ge-wicht auf eine Relevanzbeziehung legen müssen. Das hatten wir schonim Falle der deduktiv-hypothetischen Schlussfolgerungen gesehen undBayesianer halten sich viel darauf zugute, dass sie diese Schlüsse mitihrem Apparat reproduzieren. Dann erben sie leider auch dessen Proble-me und sollten vielleicht ebenfalls zusätzlich eine stärkere Relevanzbe-ziehung in ihre Bestätigungstheorie einbauen.

5.5.13 Carnaps induktive LogikInsbesondere Rudolf Carnap (u.a. in 1950) hat versucht, eine relationaleForm der Bestätigungsbeziehung durch eine Induktionslogik zu explizie-ren. Es ging ihm darum, durch c(H,E) das Ausmaß anzugeben, in demdie Aussage H durch die Aussage E objektiv gestützt wird. Das Projektwird von vielen inzwischen als gescheitert angesehen, aber von anderenAutoren wie Patrick Maher (2010) doch mit einigen guten Argumentenweiter verfolgt. Da wir auf möglichst weitgehende Objektivierungen imBayesianismus angewiesen sind, weil wir sonst den Problemen des Baye-

Page 382: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 370

sianismus zum Opfer fallen können, denen schon Prof. Wichtig unterlag,sollten wir noch einmal nachsehen, wo die Probleme der induktiven Lo-gik liegen, um zumindest das zu retten, was davon zu retten ist.

Carnap wollte das Maß c (für „confirmation“) möglichst a priori be-stimmen und die Regeln – ähnlich wie die Regeln der deduktiven Logik– aus einfachen Überlegungen ableiten. Dazu setzte er vor allem auf dasIndifferenzprinzip, dessen Problematik wir bereits in (Kap. 5.3.14) ken-nengelernt haben. Er relativierte es auf eine bestimmte prädikatenlogi-sche Sprache L mit Prädikaten F1,...,Fn und Individuenkonstantena1,...,ar und entwarf dazu seine induktive Logik. Die Grundidee ist da-bei, dass die Sprache uns die Menge aller möglichen Weltzustände lie-fert, die sich in diesem Ansatz aus der Menge aller möglichen Kombina-tionen der Prädikate angewandt auf die Individuen zusammensetzt. Füreinstellige Prädikate Fi stellt jede der folgenden komplexen Aussagen(Vollkonjunktionen) einen der 2n·r möglichen Weltzustand dar:

±F1(a1) &...& ±F1(ar) & ±F2(a1) &...& ±Fn(ar)

Dann bestimmen wir für c(H,E), wie hoch der Anteil der Weltzuständeist, in denen H&E gilt, innerhalb der Menge der E-Weltzustände. Dasheißt, wir betrachten nur noch die E-Zustände und fragen uns, wie vieledavon auch H-Zustände sind, und notieren das als Quotienten:

c(H,E) := m(H&E) / m(E)

Dabei soll m(E) die Anzahl der Elemente in E bezeichnen bzw. im allge-meineren Fall ein Maß für den Inhalt der Menge E angeben. Wenn alsodie Beschränkung auf E-Zustände die Quote für H-Zustände erhöht,dann bestätigt E die Hypothese H. Dies lässt sich vermutlich am ein-fachsten an einem simplen Beispiel verstehen. Meine Hypothese H sei,dass der Würfelwurf eine 5 ergibt. Wenn ich dann erfahre (E), dass eineungerade Zahl gewürfelt wird, so erhöht sich für einen fairen Würfel dieWahrscheinlichkeit für H von 1/6 auf 1/3, weil unser Datum E nur nochdie drei Möglichkeiten übrig lässt, von denen eine gerade H darstellt.

Für eine recht einfache Sprache können wir das Projekt beispielhaftdurchführen. Wählen wir eine einfache Welt mit nur einem Prädikat Fund drei Objekten a, b, c, dann gibt es 8 verschiedene Zustände, diedurch die 8 möglichen Vollkonjunktionen unserer atomaren Aussagengegeben sind:

Page 383: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

371 Thomas Bartelborth: Induktives Schließen

Weltzustände1. Fa & Fb & Fc 2. ~Fa & Fb & Fc3. Fa & ~Fb & Fc 4. Fa & Fb & ~Fc5. ~Fa & ~Fb & Fc 6. ~Fa & Fb & ~Fc7. Fa & ~Fb & ~Fc 8. ~Fa & ~Fb & ~Fc

Auf den Weltzuständen wird als Erstes eine Gleichverteilung angenom-men, so dass jedem Zustand das Gewicht 1/8 gegeben wird. Damit kön-nen wir alle Wahrscheinlichkeiten, die uns in diesem Rahmen interessie-ren, ausrechnen. Zunächst ist klar, dass c(Fa)=1/2, denn das entsprichtder Wahrscheinlichkeit, dass Fa bei einer leeren Information bzw. Tauto-logie t wie etwa Fb~Fb auftritt. Für c(Fa)=c(Fa|t) ist Fa in 4 von 8Zuständen wahr. Unsere Hypothese h sei nun: h=Alle Objekte sind F.Da h nur im Zustand 1 gilt, ist c(h)=1/8 und c(h|Fa)=1/4, da bei denverbliebenen 4 Zuständen (1,3,4,7) nur einer ein h-Zustand ist. Entspre-chend ist c(h|Fa&Fb)=1/2. Das sieht alles recht intuitiv aus, wenn wirdas dabei eingesetzte Indifferenzprinzip einmal akzeptiert haben.

Leider erweist sich diese einfache Konstruktion als nicht wirklich ge-eignet, um induktiv zu schließen oder Hypothesen induktiv zu rechtfer-tigen. So gilt in jedem Fall c(Fa|Fb)=c(Fa), d.h., die induktive Logikweist nicht die Induktionseigenschaft auf, über die wir in Kapitel 5.3.9bereits gesprochen haben, die sich dort für bestimmte Hypothesen alsKonsequenz aus dem Dogmatismusverbot zu leicht ableiten ließ. Wennwir bestimmte Instanzen unserer Hypothese h bestätigen, wird diese da-durch immer nur deduktiv ein Stück weit bestätigt; und zwar wird nurder Teil der Hypothese, der über genau diese Instanzen spricht, deduktivbestätigt, die Hypothese erscheint aber im Übrigen nicht plausibler alsvorher. Selbst wenn sich also bereits mehrere Objekte als F erwiesen ha-ben (oder auch gerade nicht erwiesen haben), bleibt die Wahrscheinlich-keit für ein noch nicht getestetes Objekt dafür F zu sein gerade 1/2. In-duktives Lernen aus der Erfahrung wäre dann nicht möglich.

Carnap (1950) musste die Induktionseigenschaft also durch weitereÜberlegungen sicherstellen. Er nahm als basal nun nicht mehr die einzel-nen Weltzustände an, sondern bestimmte Strukturbeschreibungen, diesich daraus ergeben, dass diejenigen Zustände identifiziert werden, diedurch Permutation der Basisobjekte auseinander hervorgehen. SolcheZustände stimmen dann in ihrer Struktur überein, nur dass diese durchandere Objekte ausgefüllt wird bzw. dass wir den Objekten andere Na-men gegeben haben. In gewisser Weise stellen also diese Zustände diesel-be Welt dar und sollen daher nicht mehr unterschieden werden. Daspasste auch zu seinen Annahmen im Logischen Aufbau der Welt von

Page 384: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 372

1928, wonach nur Wissen über Strukturen wissenschaftliche Objektivi-tät besitzt, weil es weniger subjektiv gefärbt ist als das materiale Wissen,das wir auf den unteren Ebenen unserer Erkenntnis finden. Dieser er-kenntnistheoretischen Idee kann ich hier nicht nachgehen. Sie stellt eineinteressante Überlegung dar, die auch die Grundlage für moderne Ansät-ze wie den Strukturenrealismus bildet. Jedenfalls finden sich bei anderenAutoren immer wieder Ansätze, die auf ähnlichen Ideen beruhen. DerSchritt zu Strukturbeschreibungen war also nicht nur eine Ad-hoc-An-passung, um die Induktionseigenschaft zu erhalten, sondern hatte einedarüber hinaus gehende Basis in der Erkenntnistheorie. Allerdings ver-lässt sie die einfache Anwendung des Indifferenzprinzips schon deutlich.Hier wäre also durchaus Raum für weitere Debatten, wenn wir das Pro-gramm in dieser Form fortführen wollten.

Angewandt auf unser Beispiel ergibt sich nun:

Es gibt vier Strukturbeschreibungen:{1}, „Alles ist F.“{2, 3, 4}, „Zwei Fs, ein ~F.“{5, 6, 7}, „Ein F, zwei ~Fs.“ und{8}, „Alles ist ~F.“

Diese 4 Strukturbeschreibungen erhalten nun jeweils das Gewicht 1/4,das sich dann weiter gleichmäßig auf die dazugehörigen Unterzuständeverteilt. Es wird durch das Maß m* ausgedrückt.

Zustands-beschreibung

Struktur-beschreibung

Gewich-tung

m*

1. Fa&Fb&Fc I. Alles ist F 1/4 1/4

2. ~Fa&Fb&Fc 1/12

3. Fa&~Fb&Fc II. Zwei Fs, ein ~F 1/4 1/12

4. Fa&Fb&~Fc 1/12

5. ~Fa&~Fb&Fc 1/12

6. ~Fa&Fb&~Fc III. Ein F, zwei ~Fs 1/4 1/12

7. Fa&~Fb&~Fc 1/12

8. ~Fa&~Fb&~Fc IV. Alles ist ~F 1/4 1/4

Tabelle 5.9: Das Maß m* für Strukturbeschreibungen

Page 385: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

373 Thomas Bartelborth: Induktives Schließen

Unser neues Maß für die induktive Bestätigung ergibt sich dann zu:

c*(H,E) := m*(H&E)/m*(E)

Tatsächlich weist dieses Maß wieder die gewünschte Induktionseigen-schaft auf. So können wir ausrechnen, dass c*(Fa|Fc)=2/3 ist, währendc*(Fa)=1/2 ist. Das liegt daran, dass c*(Fa|Fc) = m*(Fa&Fc)/m*(Fc) =(1/4+1/12)/(1/4+1/12+1/12+1/12)=2/3 ist. Der Weltzustand 1 nimmthier eine Sonderstellung ein und erhält so ein besonderes Gewicht, daszu der Induktionseigenschaft führt.

Das Grundproblem des Indifferenzprinzips ist allerdings nicht wirk-lich gelöst. Die Gleichverteilung der Gewichte auf bestimmte Zuständebzw. Strukturen ist relativ zu einer ganz bestimmten Sprache bzw. eineganz bestimmte Beschreibung der Situation und würde etwas anderes er-geben, wenn wir mit anderen Grundprädikaten (und eventuell sogar an-deren Namen) arbeiten würden. Das wird in diesem ersten Ansatz zurinduktiven Logik recht deutlich und bleibt weiterhin ein gravierendesProblem für jede entsprechende induktive Logik.

5.5.14 Mahers Explikation von Carnaps induktiver LogikCarnap hat neben diesem konstruktiven Weg vor allem einen axiomati-schen Ansatz anzubieten, den Maher (2010, 2006) ausführlich undwohlwollend diskutiert. Maher unterscheidet zwischen induktiver undphysikalischer Wahrscheinlichkeit. Für die Erstere scheint nach Mahernur eine induktive Logik die angemessene Explikation zu bieten. Diesubjektiveren Lesarten als vernünftige Glaubensgrade scheitern dagegenaus den oben bereits angeführten Gründen. Insbesondere betont Mahervon Beginn an, dass nicht für jede Aussage eine zahlenmäßig angebbareWahrscheinlichkeit existiert. Dort, wo sie existiert, möchten wir einezweistellige Funktion p(A|B&K) definieren, die uns angibt, wie stark Adurch B induktiv gestützt wird bei einem gewissen HintergrundwissenK, auf dessen explizite Angabe im weiteren aber verzichtet wird, da essich dabei um eine Konstante für die folgenden Überlegungen handelt.Dazu werden nun eine Reihe von Axiomen formuliert, die die klassi-schen Wahrscheinlichkeitsaxiome enthalten, aber auch deutlich darüberhinausgehen. Maher bezieht sich dabei vor allem auf die späteren Arbei-ten Carnaps (vgl. Carnap 1971, 1980), die seiner Meinung nach die bes-seren Axiomatisierungen bieten.

Axiome der induktiven LogikFür alle Aussagen A, B, C und D gilt:Axiom 1: p(A|B) 0.

Page 386: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 374

Axiom 2: p(A|A) = 1.Axiom 3: p(A|B) + p(~A|B) = 1, wenn B&K konsistent ist.Axiom 4: p(A&B|C) = p(A|C) p(B|A&C).Axiom 5: Wenn gilt: A&K C&K und B&K D&K

dann ist: p(A|B) = p(C|D).Für alle Aussagen über Stichproben E gilt:Axiom 6: (Regularität) p(E)>0.Axiom 7: (Symmetrie) p(E) bleibt konstant bei einer Permutation

der Individuen.Axiom 8: (Instanzenrelevanz) p(Fian|E&Fiam) > p(Fian|E),

wenn E weder am noch an enthält.Axiom 9: (-Bedingung) Wenn a ein Individuum ist, das nicht in E

vorkommt, dann hängt p(Fia|E) nur davon ab, über wieviele Individuen E spricht und wie viele davon nach E Fi

aufweisen.

Dazu müssen wir nun einige Erläuterungen abgeben. Die Basisaxiome 1-5 entsprechen ungefähr den Standardaxiomen der Wahrscheinlichkeits-rechnung. Dazu gibt es eine abzählbare Menge von Individuen a1, a2,...und für jede Familie von Eigenschaften F1, F2,...,Fn die alle Eigenschaf-ten eines Typs darstellen (etwa Farben) eine Menge von Grundprädika-ten, aus denen sich die Basisaussagen Fiam bilden lassen. Aus endlichenKonjunktionen solcher Basisaussagen bestehen dann unsere Stichproben-aussagen E.

Das Regularitätsaxiom 6 gibt einen unproblematischeren Teil desDogmatismusverbots wieder. Es ist hier beschränkt auf endliche Daten-aussagen und verlangt nur, dass keine Daten durch unser Hintergrund-wissen bereits ganz ausgeschlossen werden. Die Symmetrieforderung 7verlangt, dass nicht bereits bei unserer Bezugnahme auf die Gegenständeschon Annahmen über die Eigenschaften dieser Gegenstände involviertsind. Wir lernen über die Objekte erst anhand unserer Beobachtungenund nehmen vorher noch keine Favorisierungen vor. Das wird auch alsAustauschbarkeit der Individuen bezeichnet. Man könnte das so ausdrü-cken, dass wir keine Vorannahmen über die Eigenschaften der Objektein unserem Hintergrundwissen gestatten, sondern erst durch induktivesLernen zu ersten Annahmen dieser Art gelangen.

Das Axiom 8 fordert die Induktionseigenschaft, wonach wir aus demVorliegen von mehr Instanzen eines Prädikats F sofort und immer daraufschließen dürfen, dass die Wahrscheinlichkeit ansteigt, dass weitereGegenstände ebenfalls F sind. Das ist natürlich schon eine recht starkeForderung. Man könnte sie z.B. sinnvollerweise auf gesetzesartige Prädi-

Page 387: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

375 Thomas Bartelborth: Induktives Schließen

kate beschränken, um bestimmte antiintuitive Konsequenzen mit seltsa-men Prädikaten zu vermeiden. Hier können wir etwa an Prädikate den-ken, die zwar nicht in unserer Sprache enthalten sind, aber durchaus ineiner anderen vorhanden sein könnten, wie das goodmansche „grue“(aus green und blue gebildet). Dabei ist grue etwa ein Prädikat, das aufSmaragde zutrifft und besagt, dass sie grün sind, wenn sie schon unter-sucht wurden und dass sie Blau sind, wenn sie noch nicht untersuchtwurden. Das neue seltsame Prädikat tritt in Konkurrenz zum alten Prädi-kat grün. Wir würden etwa schließen, dass alle Smaragde grün sind, weilalle bisher untersuchten Smaragde sich als grün herausstellten. Aber miteinem ebensolchen Schluss könnten wir dann schließen, dass alle Sma-ragde grue sind. Beide Schlüsse geraten aber in einen Konflikt und wirsind außerdem der Meinung, dass unser erster Schluss der sinnvollereist. Über Prädikate wie grue, die nicht zu gesetzesartigen Mustern füh-ren, sollten wir keine Extrapolationen vornehmen. Doch es ist schwer,genau zu sagen, was die guten vor den schlechten Prädikaten auszeich-net. Nichtsdestotrotz sollten wir es versuchen, und in Axiomen wie demAxiom 8 sollten wir nicht für die schlechten Prädikate eine Induktions-eigenschaft verlangen.

Ähnliches gilt schon für andere seltsame Prädikate. Besagt F etwa„Gegenstände, die in den Werken von Conan Doyle erwähnt werden“,so möchten wir keineswegs, dass wir mit ihrer Hilfe entsprechend in-duktiv schließen können. Haben wir etwa gerade mehrere Gegenständebeobachtet, die in den Werken von Conan Doyle erwähnt wurden, wirddas im Normalfall nicht die Wahrscheinlichkeit für alle anderen Objekteerhöhen, dass sie auch dort Erwähnung finden werden. Welche Prädika-te aber projizierbar sind und welche nicht, ist eine schwierige Frage anunser Hintergrundwissen, bei der es u.a. darum geht, welche Prädikatesich in bestimmten Theorien bewähren bzw. welche Prädikate zu geset-zesartigen Aussagen führen und für welche das nicht der Fall ist. DieseFrage ist jeweils im Umfeld der konkreten Theorienbildung zu beurtei-len, wobei uns die Frage leiten kann, ob sie in einem nomischen Musterin relevanter Form auftreten oder nicht.

Axiom 9 (die -Bedingung) besagt letztlich, dass wir es nur mit einereinfachen Art von aufzählender Induktion zu tun haben. Was für den Be-stätigungsgrad an empirischer Information zählt, ist nur die bisherige re-lative Häufigkeit der F-Objekte. Damit kann ein Vertreter des abdukti-ven Schließens sich natürlich nicht anfreunden. Diese Konsequenz wirdauch in dem sogenannten -Theorem deutlich, das aus den Axiomen ab-geleitet werden kann (vgl. Maher 2010).

Page 388: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 376

-Theorem: Für n>2 existiert ein >0 und k1,...,kn(0,1) so dassgilt: Wenn E eine Stichprobe von s Individuen ist, von denen si dieEigenschaft Fi aufweisen und a nicht in E enthalten ist, dann gilt:

(*) p(Fia|E) = (si+ki)/(s+)

Zunächst lässt sich die Funktion der ki verstehen, indem wir den Falls=0 betrachten, also den Fall ohne weitere Daten. Dafür gilt p(Fia)=ki,d.h., die ki drücken unsere Vorher-Wahrscheinlichkeit dafür aus, dass agerade die Eigenschaft Fi aus unserer Familie von Eigenschaften auf-weist. Es handelt sich, wie bereits erwähnt, alles um Eigenschaften einesTyps oder einer Modalität wie Carnap sich ausdrückte, die sozusageneinen bestimmten Bereich unter sich aufteilen. Nehmen wir an, wir hät-ten etwa die drei Farbprädikate rot, blau und grün als Familie vonEigenschaften und betrachten dazu ein einfaches Beispiel. Nehmen wiretwa =2 und als Vorher-Wahrscheinlichkeiten jeweils 1/3. Dann ergibtsich für E = rot(a1) & rot(a2) & grün(a3) & blau(a4):

p(rot(a5)|E) = (2+2/3)/(4+2) = 4/9

In unserem Beispiel ist also die Wahrscheinlichkeit dafür, dass das nächs-te Objekt wieder rot ist, fast 1/2, weil die Hälfte der bisher beobachtetenObjekte rot war. Allerdings geht auch die Vorher-Wahrscheinlichkeit mitein, so dass eben doch nicht ganz 1/2 erreicht wird. Wie stark sie miteingeht, wird durch den Parameter bestimmt. Dessen genaue Rollewird durch ein Umschreiben von (*) noch deutlicher (vgl. Maher 2010):

(**) p(Fia|E) = (si/s)[s/(s+)] + ki [/(s+)]

Das belegt, dass p(Fia|E) ein gewichtetes Mittel der relativen Häufigkeitder Fi (also von si/s) und der Vorher-Wahrscheinlichkeit ki ist. Man er-kennt hieran, dass sich p(Fia|E) eher an der Vorher-Wahrscheinlichkeitorientiert, wenn sehr groß ist. Im Grenzfall =∞ bleiben wir bei derVorher-Wahrscheinlichkeit und lernen nichts mehr aus der Erfahrung.Wird dagegen sehr klein, orientieren wir uns mehr an den aufgetrete-nen relativen Häufigkeiten. Im Grenzfall =0 bestimmt sie allein unsereEinschätzung, ob das nächste Objekt wieder ein Fi ist.

Maher (2010) argumentiert dafür, =2 zu wählen, doch das ist kei-neswegs zwingend. Man könnte sich auch stärker an der jeweiligen Fa-milie von Prädikaten orientieren und etwa anhand von empirischenErgebnissen kalibrieren. Für homogenere Bereiche von Eigenschaftensollten wir kleiner wählen, während in inhomogeneren Gegenstands-bereichen größer gewählt werden sollte. Das entspricht den Bemer-

Page 389: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

377 Thomas Bartelborth: Induktives Schließen

kungen für das einfache konservative Extrapolieren. Hier bleibt jeden-falls noch Spielraum für weitere Ideen dieser Art. Insgesamt ergibt sichhier das sogenannte Carnapsche -Kontinuum c(H,E) von Bestätigungs-funktionen, in denen die vorherige logische Wahrscheinlichkeit mit denDaten auf unterschiedliche Weise verrechnet wird, je nachdem wie wir wählen.

Einen interessanten Zusammenhang möchte ich noch erwähnen.Wenn wir =2 wählen und ki=1/2, so erhalten wir gerade die Laplace-sche Nachfolgerregel für den Fall, dass sich bisher alle Objekte als Fi er-wiesen haben, also si=s ist.

Laplacesche Nachfolger-Regel: p(Fia|E) = (s+1)/(s+2)

Diese Regel scheint nicht schlecht gewählt zu sein und gibt für kleineStichproben eine erste sinnvolle Verrechnung von Vorher-Einschätzun-gen mit unseren Daten an. Für größere Zahlen nähert sich der Wertdann einfach der beobachteten relativen Häufigkeit, also in unserem Fallder 1. Wir werden uns langsam immer sicherer, dass das nächste Objektauch die Eigenschaft Fi hat.

Maher (2010) diskutiert noch eine Reihe von Kritikpunkten an derinduktiven Logik, die etwa bei Hajek (2009, Kap. 3.2) zusammengestelltwerden. Der erste ist, dass die Wahl von willkürlich sei. Das stimmtnicht ganz, da wir für die Wahl von schon bestimmte Gesichtspunktenennen können, aber sich schlicht auf =2 festzulegen, ist auch keines-wegs unbestreitbar. Insbesondere bleibt die Offenheit bei der Wahl derGrundprädikate und der logischen Startwahrscheinlichkeiten bestehen.

Auch an Carnaps Idee, dass die Axiome wie das Symmetrieaxiom tat-sächlich einen analytischen Charakter haben, wurde Kritik geübt. Maherzieht sich einfach darauf zurück, dass es sich um Teile der Definition vonp handelt und damit um analytische Aussagen. Doch wir suchen schließ-lich nach einer Explikation von induktiver Wahrscheinlichkeit, die unse-re epistemischen Ziele optimal umsetzt und das bleibt natürlich eine z.T.empirische Frage. Wir können also fragen, welche Axiome zu einem pführen, das dann zu möglichst intuitiven Einschätzungen von Bestäti-gungsbeziehungen führt und das lässt sich nicht a priori bestimmen.Jedenfalls genügen die eher vagen intuitiven Begründungen der Axiome,die wir bisher haben, alleine dafür noch nicht.

Maher gibt hingegen zu, dass wir für E möglichst unsere gesamten(empirischen) Belege zu berücksichtigen haben (etwa in unserem Hinter-grundwissen K), und es bleibt z.T. vage, was damit genau gemeint ist.Doch diese Vagheit muss uns nicht davon abhalten, mit einem etwas un-

Page 390: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 378

bestimmten Hintergrundwissen K an unserer Konstruktion festzuhalten.Wir stoßen an vielen Stellen in unserer Erkenntnistheorie auf Vagheiten,ohne die betreffenden Begriffe deswegen gleich als unbrauchbar zu ver-werfen. Dem kann ich mich durchaus anschließen.

Problematischer ist da schon, dass wir bestimmte Aussagen K und Eals felsenfest und irrtumssicher gegeben ansehen, aus denen dann allunsere Einschätzungen ableitbar sind, und wir damit einer fundamenta-listischen Erkenntnistheorie folgen. Maher (2010) versucht das als kon-textuelle Position zu beschreiben, wonach wir einfach in einem bestimm-ten Kontext auf K und E vertrauen, aber damit nicht ausschließen, dasswir in anderen Kontexten dieses Hintergrundwissen auch in Frage stel-len können. Das sollte natürlich weiter ausgeführt werden und führt ineinige der durchaus ernstzunehmenden Probleme des Kontextualismus,die wir aber nun nicht weiter verfolgen werden. Man könnte es so dar-stellen, dass wir eben nur eine eingeschränkte Fragestellung behandeln:Wenn wir einmal annehmen, dass wir E und K sicher wissen, was solltedann unsere induktive Wahrscheinlichkeit dafür sein, dass Fa zutrifft? Esist sicher legitim, zunächst einmal mit etwas vereinfachenden Fragen zubeginnen, wenn ein Gebiet so komplex und umstritten ist, wie das derInduktion.

Weitere Probleme sind darin zu sehen, dass Allhypothesen normaler-weise immer die Wahrscheinlichkeit 0 bei jeder realistischen DatenlageE haben. Außerdem ist der ganze Ansatz auf ein recht einfaches Modellfestgelegt und daher nicht leicht auf komplexere praktische Beispiele an-wendbar. Trotzdem mag er natürlich für diese eingeschränkte Fragestel-lung hilfreiche Einsichten zur induktiven Wahrscheinlichkeit anbieten.

5.5.15 Hawthornes induktive LogikJames Hawthorne (2011) hat in verschiedenen Aufsätzen eine moderneinduktive Logik vorgestellt, die nicht mehr davon ausgeht, dass es ein-deutige Vorher-Wahrscheinlichkeiten gibt. Wir können durchaus Vaghei-ten und Mehrdeutigkeiten in der Verteilung von Startwahrscheinlichkei-ten zulassen und unseren epistemischen Zustand dann durch eine Mengevon Wahrscheinlichkeitsfunktionen wiedergeben. Wichtig ist vor allem,dass die Likelihoodanbindung angenommen wird, und durch die ent-sprechenden Konvergenztheoreme für die Likelihoods (s.o.) findetschließlich eine Angleichung der Startwahrscheinlichkeiten statt, wie wirdas oben bereits erörtert haben, solange die Ausgangsmengen jedenfallsnicht zu heterogen sind.

Page 391: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

379 Thomas Bartelborth: Induktives Schließen

Die Wahrscheinlichkeiten werden dabei im Sinne eines objektivenBayesianismus nicht einfach nur als beliebige Glaubensgrade interpre-tiert. Vielmehr lassen sie sich verstehen als BestätigungsfunktionenP(A|B), die darüber Auskunft geben, in welchem Ausmaß A durch B ge-stützt wird. Man könnte auch sagen: P(A|B) beschreibt den Anteil derA-Welten innerhalb der B-Welten, also den Anteil der Welten, in denen Awahr ist innerhalb der Menge der Welten, in denen B wahr ist. Diese Be-stätigungsfunktionen funktionieren daher ähnlich wie Wahrheitswertbe-legungen in der Logik und können in analoger Weise verstanden wer-den.

Hawthorne formuliert für derartige Bestätigungsfunktionen P dieminimalen grundlegenden Axiome, die jede solcher Funktionen erfüllensollte. Das ist dabei ein Parameter, der für die jeweilige Person miteinem bestimmten Hintergrundwissen steht oder eben für eine bestimm-te solcher Bestätigungsfunktionen in einer größeren Menge. Wir nutzenselbstverständlich wieder das bayessche Theorem, aber damit muss ebenkeineswegs gleich ein subjektives Verständnis der Bestätigungsfunktio-nen oder Wahrscheinlichkeiten einhergehen. Aus den oben bereits ge-nannten Gründen (insbesondere dem, dass bestimmte konditionaleWahrscheinlichkeiten P(A|B) durchaus sinnvoll sein können, auch wennP(B)=0 ist) richten sich die grundlegenden Axiome direkt auf bedingteWahrscheinlichkeiten. Dann erhalten wir:

Axiome von Hawthorne (2009)(1) P(D|E) < 1 für einige Sätze D und EFür alle Sätze A, B, C, und D gilt:(2) Wenn gilt B⊨A, dann ist P(A|B) = 1(3) Wenn gilt ⊨(BC), dann ist P(A|B) = P(A|C)(4) Wenn gilt C⊨~(B&A), dann ist entweder P((AB)|C) =

P(A|C) + P(B|C) oder für jeden Satz D: P(D|C) = 1(5) P(A&B|C) = P(A|B&C) P(B|C)(6) Wenn A ein Axiom der Mengenlehre oder reinen Mathematik

ist bzw. wenn A eine analytische Wahrheit ist, dann sei für alleAussagen C: P(A|C) = 1

(7) Wenn für alle C gilt: P(A|C) = 1, dann ist A ein Axiom derMengenlehre oder reinen Mathematik oder ist analytisch wahrim Sinne von P.

Das Axiom (1) ist eine Form von Nichttrivialitätsforderung. Zumindesteinige Sätze bestätigen einige andere Sätze auf nichttriviale Weise. Diemaximale Bestätigung wird bei logischen Folgebeziehungen erreicht

Page 392: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 380

(Axiom 2). Dabei geben logisch äquivalente Aussagen jedem Satz diesel-be Stützung (Axiom 3) und diese Bestätigung ist in der bekannten Weiseadditiv (Axiom 4). In Axiom (5) finden wir die allgemeine Multiplika-tionsregel bzw. Kettenregel für zweistellige Wahrscheinlichkeitsfunktio-nen. Damit haben wir die Axiome, aus denen alle üblichen Theoremeder Wahrscheinlichkeitsrechnung wieder folgen. Da es sich um Bestäti-gungsfunktionen für empirische bzw. kontingente Sätze handeln soll, er-halten die analytischen Wahrheiten in Axiom 6 und speziell 7 eine Son-derstellung als die einzigen Aussagen, die immer den Bestätigungsgrad 1durch alle anderen Aussagen erhalten. Diese Regularitätsannahme gehtüber die Standardaxiome hinaus und entspricht dem Dogmatismusver-bot im klassischen Bayesianismus.

Außerdem wird vor allem eine strikte Likelihoodanbindung sehrernst genommen, wodurch auch die „old evidence“ Probleme gelöstwerden sollen, die wir im nächsten Abschnitt behandeln werden. Haw-thorne stützt sich außerdem ganz auf die oben angeführten Likelihood-Konvergenzsätze, um zu zeigen, dass die ursprüngliche Vagheit undMehrdeutigkeit der Menge von Bestätigungsfunktionen, die unsere epis-temischen Zustände ausdrücken, durch wiederholtes Updaten schnell re-duziert wird (s.o.). Damit haben wir einen Ansatz innerhalb der indukti-ven Logik vor uns, der nicht auf syntaktische Überlegungen zur Bestim-mung von Startwahrscheinlichkeiten setzt, wie das noch bei Carnap derFall war. Hawthorne hält die Probleme durch Prädikate vom „grue“ Typfür überzeugende Einwände gegen die syntaktisch orientierten indukti-ven Logiken. Das geht in dieselbe Richtung wie meine Auffassung, dassinsbesondere Generalisierungen, die einen nomischen Charakter haben,induktiv stützbar sind, wir in anderen Fällen aber viel zurückhaltendersein sollten. Dieser Unterschied wird auf einer bloß syntaktischen Ebeneaber noch nicht sichtbar.

5.5.16 Das Versagen der LikelihoodanbindungEin Problem des klassischen subjektiven Bayesianismus (auch in Bezugauf die Likelihoods) ist das der „alten Evidenz“ („old evidence“) bzw.der bekannten Daten. Wenn E erst einmal zu unserem Hintergrundwis-sen B gehört, erhält es die Wahrscheinlichkeit 1 (und eigentlich meintder Bayesianer mit P(E) immer P(E|B)), dann ist klar, dass P(E) bereitsden Wert 1 erhalten muss. Überhaupt erhält E beim Updaten mit E denWert 1: P(E|E)=1. Aus P(E)=1, folgt aber sogleich auch, dass P(E|H) =1 sein muss für beliebige Hypothesen H. Darauf kommen wir unten wie-der zurück. Zunächst möchte ich aber noch auf ein weitergehendes Pro-

Page 393: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

381 Thomas Bartelborth: Induktives Schließen

blem hinweisen, nämlich dass die Likelihoods nicht nur durch alteDaten mit P(E)=1 verändert werden, sondern ebenso durch andere In-formationen, die etwas über E aussagen, bereits deutlich verändert wer-den können.

Andere Erkenntnisse als E selbst können bereits die Likelihoods ver-ändern, so dass der Bayesianer jedenfalls nicht mehr mit den ursprüngli-chen Likelihoods arbeiten kann. Mit P(E|H)=r ist dann eben nichtmehr gemeint, was die Theorie H über E aussagt, sondern vielmehr, wasdie upgedatete Glaubensfunktion mit Hintergrundwissen B inzwischenalles über E zu sagen hat. Also genau genommen gilt eben: P(E|H) =P(E|H&B). Dabei können sogar schon kleinste Informationen in unse-rem Hintergrundwissen, die E nur peripher betreffen, unsere Likeli-hoods verfälschen und wir können schließlich nicht mehr die Likeli-hoodanbindung einhalten, wenn wir bayesianisch updaten. Nehmen wirdazu ein schönes Beispiel von Hawthorne (2011b).

Ein Arzt möchte mit einem Patienten einen Laufbandtest durchfüh-ren, um herauszufinden, ob der Patient eine Herzkrankheit aufweist (h).Der Arzt weiß aus zahlreichen medizinischen Studien, dass die Wahr-scheinlichkeit 10% dafür ist, dass der Test ein negatives Resultat (e) lie-fert (also keinen Hinweis auf eine Herzkrankheit), wenn der Patient eineHerzkrankheit aufweist: P(e|h)=0,1. (Die Sensitivität P(~e|h) für dasAuftreten einer Herzkrankheit ist bei dem Test also nur 0,9.) Das solltedann im Sinne der Likelihoodanbindung unsere entsprechende Likeli-hood für das Updaten von h mit e sein. Außerdem wissen wir noch, dassdie routinierte Krankenschwester des Arztes sich durch ein positivesTestergebnis nur selten aus der Ruhe bringen lässt (d), nämlich nur in5% aller Fälle: P(d|~e)=0,05. Außerdem sei noch erwähnt, dass die Er-schütterung der Krankenschwester unabhängig davon ist, ob die Herz-krankheit tatsächlich auftritt, denn das weiß sie normalerweise nicht:P(d|~e&h) = P(d|~e). Das ist etwa die Beschreibung eines kleinenbayesschen Netzes HED, mit Variable H mit jeweils zwei Werten{h, ~h} und den entsprechenden Variablen E und D. Das Vorliegeneiner Herzkrankheit (H) beeinflusst das Testergebnis (E) und das wieder-um die Befindlichkeit der Krankenschwester (D).

In dem Netz können wir nun fragen, wie sich die Information e aufunsere Vermutungen bzgl. der Herzkrankheit auswirkt und uns dazu aufdie Likelihood P(e|h)=0,1 stützen. Doch bevor der Arzt etwa die Infor-mation e oder ~e erhält, erhält er noch die neue Information j ~ed ed, wonach ein positives Testergebnis definitiv die Krankenschwestererschüttern würde, falls es denn aufträte. Dann muss der Arzt als guter

Page 394: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 382

Bayesianer zunächst mit j updaten. Dabei erhält er aber leider die neueLikelihoodfunktion: P+(e|h)=P(e|j&h)=0,69. Das zeigt die folgendeBerechnung:

Voraussetzungen im Beispiel:h: Herzkrankheit liegt vor; e: negatives Testresultat; d: Erschütte-rung der Krankenschwester.P(e|h) = 0,1; P(d|~e)=0,05; P(d|~e&h) = P(d|~e) undP(j|~e&h) = P(ed|~e&h) = P(d|~e&h) = P(d|~e) = 0,05 undP(j|e&h) = P(ed|e&h) = 1,dann erhalten wir in Kurzschreibweise:P(e|jh) = P(ejh) / P(jh) = P(ejh) / [P(ejh) + P(jh~e)] =P( j|eh)P(e|h) / [P( j|eh)P(e|h) + P( j|h~e)P(~e|h)] =0,1 / [0,1+0,050,9] = 0,69

Dabei wurde die Kettenregel angewandt und mit dem Satz der totalenWahrscheinlichkeit der Nenner bestimmt, wobei durch P(h) gekürzt wer-den konnte. Das Resultat sollte uns jedenfalls ein wenig erschüttern,denn damit ist die ursprüngliche Likelihoodanbindung verlorengegan-gen. Wenn wir nun mit e updaten würden, müssten wir die neue Likeli-hood P+(e|h)=0,69 anwenden. Die Likelihoodanbindung ist ähnlichwie im Falle des Hauptprinzips, das auch nicht einzuhalten ist, wenn wirbayesianisch updaten, ebenso wenig aufrechtzuerhalten, wenn wir zwi-schendurch mit recht harmlosen aussehenden Informationen wie ~edupdaten. Damit geht für solche Fälle schon der Aspekt der Konvergenz-idee verloren, dass zwar die Startwahrscheinlichkeiten subjektiv sind,aber wir doch die fest vorgegebenen Likelihoods haben, die intersubjek-tiv bestehen bleiben.

Allerdings sollte uns das Resultat auch nicht allzu sehr überraschen.Denken wir dazu an unser obiges Netz. Die Herzkrankheit beeinflusstdas Testergebnis und dieses seinerseits die Erschütterung der Kranken-schwester. Erhalten wir nun die spezielle Information j, dass das Test-ergebnis negativ war (e) oder die Krankenschwester erschüttert (d), sokönnen wir zwei Fälle unterscheiden. Zum einen könnte j wahr sein,weil e vorliegt, dann ist P+(e)=1 und damit P+(e|h)=1. Zum anderenkönnte j wahr sein, weil d der Fall ist. Dann sagt uns aber unser kleinesNetz, dass das selbst bei Vorliegen von ~e kaum vorkommt:P(d|~e)=0,05. Also ist wohl zu erwarten, dass vermutlich doch e vor-liegt. Damit steigt die Wahrscheinlichkeit von e und damit die vonP+(e|h)>P(e|h). Doch das ist eben höchst unerwünscht, wenn wir

Page 395: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

383 Thomas Bartelborth: Induktives Schließen

eigentlich doch ermitteln wollen, inwieweit das Auftreten von unsereHypothese h stützt oder schwächt.

Nehmen wir etwa den Fall von zwei Ärzten. Der erste ist unser bishe-riger Arzt, der die doch relativ irrelevante Information erhält, dass dieKrankenschwester erschüttert ist, wenn sie von einem positiven Testre-sultat erfährt, während der andere Arzt diese Information nicht erhält.Dann werden sie die Wahrscheinlichkeit für eine Herzkrankheit des Pa-tienten unterschiedlich beurteilen, wenn e auftritt, obwohl die Informa-tion j darüber inhaltlich eigentlich nicht viel aussagt. Wenn dieLikelihoodanbindung nicht mehr gilt, geht auch die wissenschaftlicheObjektivität oder zumindest die intersubjektive wissenschaftliche Über-einstimmung verloren. Daher plädiert Hawthorne in (2011c) überzeu-gend dafür, nur solche Wahrscheinlichkeitsfunktionen als Bestätigungs-funktionen zuzulassen, für die die Likelihoodanbindung (bei ihm „directinference likelihoods“) gilt. Sie wählen als Likelihoods nur das, was unsdie Theorien und ihre Hilfshypothesen darüber sagen, wie wahrschein-lich bestimmte Daten zu erwarten sind. Stimmen diese Werte nicht mehrüberein, verfolgen und testen die Wissenschaftler genau genommen be-reits verschiedene Theorien, obwohl sie weiterhin dieselben Sätze ver-wenden, um sie auszudrücken (vgl. Hawthorne 2011c).

Das Problem des Bayesianismus liegt darin begründet, dass allgemeinP(E|H) eigentlich der Wahrscheinlichkeit P(E|H&B) mit dem Hinter-grundwissen B entspricht. Betrachten wir etwa den Abstand d(H,E) =P(H|E)–P(H) als mögliches Bestätigungsmaß, dann betrifft der nicht dieAussagekraft, die E bzgl. H hat, sondern gibt vielmehr an, was E nun re-lativ zum bisherigen Hintergrundwissen zur Stützung von H beizutragenhat. Gehört E etwa schon zum Hintergrundwissen, dann liefert die In-formation E keinen zusätzlichen Schub für H mehr und scheint damitnach der bayesianischen Bestätigungstheorie ebenfalls keine Bestätigungfür H zu liefern. Doch das entspricht keineswegs unserem normalen Ver-ständnis von Bestätigung. Überhaupt gilt: Wenn z.B. H⊨E gilt, so hängtder Update-Faktor nur noch an P(E). Je besser E bereits in unseremÜberzeugungssystem verankert ist, desto weniger Stützung bietet E fürH. Doch das hat nicht mehr viel mit unserem üblichen Verständnis vonBestätigung zu tun. Unser Hintergrundwissen soll zwar Einfluss auf dieBestätigungsbeziehung haben, aber dabei soll es hauptsächlich um denEinfluss unserer theoretischen Annahmen gehen und nicht so sehr umhistorische Zufälligkeiten, wie die, ob wir E schon wissen, bevor wir Hentwickelt haben, oder erst danach.

Page 396: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 384

Wenn etwa jemand behauptet, eine Münze habe eine physikalischeWahrscheinlichkeit von 0,6 bei einer bestimmten Wurfanordnung aufKopf zu fallen (H), dann wird diese Hypothese H und unsere Annahmenüber die Randbedingungen des Werfens zusammen unser Modell M bil-den, das somit die Wahrscheinlichkeit für bestimmte Daten D bestimmt.Dieser Zusammenhang ist zeitlos und unabhängig von unserem Informa-tionsstand und wird daher durch unsere Glaubensgradfunktionen nichtrichtig wiedergeben. Hawthorne (2005) schlägt deshalb vor, dass wirneben den Glaubensgraden noch eine reine Bestätigungsfunktion benöti-gen, die diesen Zusammenhang darstellt. Doch wie ist dann der Zusam-menhang zu unseren Glaubensfunktionen? Hawthorne plädiert dafür,dass hier die Bestätigungsfunktion P den Ton angibt und die Glaubens-funktion Bel sich daran orientieren sollte:

Bel(hi) = P(hi|b&cn&en)

Dabei handelt es sich um das Hintergrundwissen b und die Bedingungencn unter denen die Daten en gewonnen wurden. Das lässt sich auch aufden Fall von unsicherem Wissen anwenden:

Bel(hi) = b,c,e P(hi|b&cn&en) Bel(b&cn&en)

Hierbei wird über das Hintergrundwissen b und die c und die e aufsum-miert. Auch Patrick Maher (2006) analysiert sorgfältig, welche Interpre-tation für das Konzept der induktiven Wahrscheinlichkeit angemessen istund hält die rationalen Glaubensgrade der Bayesianer dafür für ungeeig-net. Wenn es uns mehr um die Frage der möglichst objektiv zu bestim-menden Theorienbestätigung in der Wissenschaft geht, sollten wir unsmehr darum bemühen uns den hawthorneschen Bestätigungsfunktionenzu nähern und die Likelihoodanbindung als Forderung möglichst weitge-hend in unsere probabilistischen Überzeugungssysteme einzubauen. Wieweitgehend das gelingen kann und welche Art von Informationen wirvielleicht sogar als irrelevant ausschließen müssen (wie im oberen Bei-spiel die Information j), das wird die weitere Forschung zeigen müssen.

5.5.17 Das Problem der alten Evidenz und die Intransparenz derBestätigungsbeziehung

Das Problem der alten Evidenz tritt überall dort in Erscheinung, wo wirdas Ausmaß der Bestätigung einer Theorie H durch Daten D bestimmenmöchten. Das war schließlich eine klassische Frage der Erkenntnis- undder Wissenschaftstheorie, mit der wir in diesem Buch gestartet sind. Be-trachten wir etwa das klassische Differenzmaß d(H,E)=P(H|E)–P(H). Es

Page 397: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

385 Thomas Bartelborth: Induktives Schließen

scheint dazu zu dienen, die relationale Bestätigung von H durch dasDatum E anzugeben (und wird wohl auch von den meisten Bayesianernso eingesetzt), aber das Problem ist, dass sich P durch mehrfaches Up-daten langsam verändert und eigentlich d(H,E) = P(H|E&B)–P(H|B)damit gemeint ist. P(H) gibt uns also immer den momentanen Plausibili-tätsgrad bzw. rationalen Glaubensgrad von H an, bei einem bestimmtenvorgegebenen Hintergrundwissen B. Gehört dann E bereits zu diesemHintergrundwissen, ist seine Wahrscheinlichkeit 1 und d(H,E)=0. Dasliegt schon daran, dass bei P(E)=1 der bayesianische Update-FaktorP(E|H)/P(E) auch gleich 1 wird. Doch das sagt wenig darüber aus, ob Eeinen Grund für die Annahme von H darstellt. Das Differenzmaß ändertsich mit der Entwicklung unseres Hintergrundwissens und ist dahernicht in der Weise relational zu verstehen, wie Bayesianer das gerne se-hen würden. Das Ratiomaß hilft hier offensichtlich nicht weiter undselbst das Likelihoodmaß hilft uns nur dann, wenn die Likelihoods gera-de die objektiven Likelihoods sind, die durch die Hypothesen selbst ge-geben sind, und nicht die bloß upgedateten Wahrscheinlichkeiten, dieder Bayesianer verwendet.

Tatsächlich stellt P(H|E)=P(H|E&B) eher schon die absolute Bestä-tigung dar, die H durch unser ganzes Hintergrundwissen B einschließ-lich E erfährt. Es hat sich so entwickelt, indem wir mit einer bestimmtengemeinsamen Vorherverteilung P1 bei einem Hintergrundwissen B1 fürall unsere Überzeugungen gestartet sind, und hat sich dann nur durchUpdaten zu unserer heutigen Verteilung Pn mit dem neuen Hintergrund-wissen Bn entwickelt. Dabei entstand jede neue Verteilung Pi+1 aus Pi

durch das Updaten mit einem Datum Ei, das wir zu diesem Zeitpunktbeobachtet haben. Genauso mechanisch ging (jedenfalls für den Bayesia-ner) Bi+1 aus Bi hervor, indem wir Ei zu Bi hinzugefügt haben. Das ist einwirklich einfaches mechanisches Modell, das allerdings durch seine Ein-fachheit schon gewisse Schwierigkeiten mit sich bringt. Führen wir etwazu einem bestimmten Zeitpunkt neue Theorien ein, müssen wir wiedervon vorne mit dem Updaten beginnen.

Da es sich um eine ausschließlich dynamische Auffassung von P han-delt, die jeweils die neu auftretenden Daten mit einbezieht, stelltP(H)=Pt,S(H) jeweils die Gesamtbeurteilung einer Person S zum Zeit-punkt t dar. Das passt eher zur Konzeption einer absoluten Bestätigung,die allerdings keinen Hinweis mehr darauf gibt, inwiefern nun E dazubeiträgt, H zu stützen. Man könnte das die Intransparenz der bayesiani-schen Bestätigungstheorie nennen. Alle Bestätigungen sind bereits inPt,S(H) in irgendeiner Form enthalten und sind dann nicht mehr im Ein-

Page 398: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 386

zelnen aufzuschlüsseln. Alle Bestätigungen durch Daten und möglicher-weise anderes Hintergrundwissen ist in Pt,S „versteckt“ und damit in in-transparenter Weise enthalten. Das zeigen auch die eher kläglichen Ver-suche der Bayesianer, diese relationalen Bestätigungsbeziehungen wiederaus Pt,S herauszulesen. Die schauen wir uns gleich kurz an.

Doch zunächst betrachten wir ein historisches Beispiel, das an dieserStelle gern genannt wird. Die Perihelbewegung des Merkurs beschreibtdie Bewegung des sonnennächsten Punktes auf der Ellipsenbahn desMerkurs um die Sonne herum (das Aphel bezeichnet den sonnenfernstenPunkt dieser Bahn). Leider verhält sich das Perihel des Merkurs nicht so,wie es von der newtonschen Gravitationstheorie vorausgesagt wurde.Daher spricht man von der Perihelanomalie des Merkurs. Die sprachgegen die newtonsche Gravitationstheorie und war ein Grund für dieEntwicklung der allgemeinen Relativitätstheorie, denn dieser gelang es,diese Bewegung korrekt zu erklären. Als Einstein die allgemeine Relati-vitätstheorie entwickelte, war die Perihelanomalie des Merkurs aberschon bekannt. Dann hätte nach unserem Differenzmaß diese Anomaliekeinen Bestätigungseffekt mehr für die einsteinsche Theorie gehabt.Doch das entspricht überhaupt nicht unserer üblichen Auffassung dieserZusammenhänge. Die Physiker gingen natürlich davon aus, dass die An-omalie einen besonders gewichtigen Grund für eine Annahme der allge-meinen Relativitätstheorie darstellt. Über deren genaue Stärke könnenwir weiter diskutieren, aber sicher nicht über das Faktum einer Bestäti-gung selbst. Das kann der Bayesianer nicht richtig rekonstruieren. Er hatdazu einige Vorschläge entwickelt (Epizyklen des Bayesianismus?), mitdenen er unsere Intuitionen zur Bestätigung doch noch einfangen möch-te.

Eine erste Idee findet sich in der obengenannten Beschreibung derEntwicklung unserer Wahrscheinlichkeitsfunktion P und unseres Hinter-grundwissens B. Gehen wir zunächst davon aus, dass die Theorie H vordem Auftreten des Datums E bekannt war. Dann gab es einen Entwick-lungsschritt in der Vergangenheit unseres Hintergrundwissens von Bi zuBi+1, bei dem gerade E zu Bi hinzugefügt wurde. Dann könnten wir alsMaß für die relationale Bestätigung gerade das historische Maß anneh-men:

Bhist(H,E) = Pi+1(H)–Pi(H) = Pi(H|E)–Pi(H)

Doch auch das trifft unsere Wünsche nicht wirklich. Es könnte vielleichtdazu dienen, festzustellen, welche Bestätigung E für H zum damaligenZeitpunkt lieferte, aber das sagt nicht unbedingt etwas darüber aus, wie

Page 399: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

387 Thomas Bartelborth: Induktives Schließen

die heutige Bestätigung von H durch E aussieht mit unserem heutigenanderen theoretischen Hintergrundwissen. Überhaupt müssen wir unsdazu nur den Update-Faktor noch einmal ansehen und überlegen, wiedarin Pi(E) jeweils bestimmt wird. Normalerweise gehen wir davon aus,dass wir über eine vollständige Menge sich ausschließender Hypothesen{H1,...,Hn} verfügen, mit deren Hilfe sich P(E) berechnen lässt: P(E) =i P(E|Hi)∙P(Hi). Dabei gehen die Wahrscheinlichkeiten P(Hi) ein, diesich durch jedes Updaten langsam verändern werden. Welchen Wert derUpdate-Faktor annimmt, hängt also von unserer jeweiligen Wahrschein-lichkeitsverteilung auf die Hypothesen ab. Damit ist Bhist(H,E) nicht nurein bloß historischer Wert, sondern auch noch dort relativ zu dem Zeit-punkt, an dem man auf E gestoßen ist. Finden wir zunächst viele Daten,die für die Hypothesen sprechen, die E einen hohen Wert geben, so dassderen Wahrscheinlichkeiten hoch sind, dann stellt demnach E keine sostarke Bestätigung für H mehr dar, als wenn die Reihenfolge andersher-um wäre.

Der Bayesianer mag das rechtfertigen und eben davon ausgehen, dassBestätigung ein derart historisch relatives Konzept darstellt. Für dasHintergrundwissen, das die Hypothesen wie H schon gut bestätigt hat,ist dann eben kein Platz mehr für eine weitere gute Bestätigung von Hdurch E. Doch das widerspricht deutlich unserer üblichen Auffassungvon Bestätigung. Die Bestätigung von H durch E mag durch ganz neuentwickelte Theorien anders ausgehen, weil diese alternative Erklärun-gen von E anbieten können, sie sollte sich aber nicht durch bloß neueDaten entscheidend verändern. Die Daten mögen unser Vertrauen in dieTheorie stärken, sie entwerten aber dadurch doch nicht andere Informa-tionen − vor allem nicht vollständig, wie das im Falle des Problems deralten Daten der Fall zu sein scheint. Jedenfalls bietet Bhist(H,E) nicht dasgewünschte relationale Maß, weil es sich auf altes Hintergrundwissenbezieht, und womöglich ist es schon deshalb nicht so gut geeignet, weiles die Bestätigung zu stark auf die jeweils vorliegenden Daten relativiert.

Einige Bayesianer gehen daher einen anderen Weg und sagen, wirmüssten zu unserem Hintergrundwissen B, das E enthält, ein andereskontrafaktisches Hintergrundwissen B* entwickeln, das gerade E nichtmehr enthält (das um E kontrahiert wurde). Dann könnten wir das neuekontrafaktische Maß für unsere Bestätigung entwickeln:

Bkontraf(H,E) = P(H|E&B)–P(H|B*)

Allerdings zeigte schon das Hawthorne-Beispiel (und die Debatte um dieGlaubensdynamiken), dass wir weitere Aussagen neben E aus B heraus-

Page 400: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 388

nehmen müssen, um zu B* zu gelangen. Wir müssen geradezu alle Spu-ren von E in B tilgen, also z.B. auch alle konditionalen Aussagen mit Ebeseitigen, sonst erhalten wir die Probleme wie in Hawthornes Diagno-se-Beispiel. Dann ist aber auch keineswegs mehr klar, wie wir die Wahr-scheinlichkeiten für alle unsere Überzeugungen, also insbesondere fürunsere Hypothesen {H1,...,Hn} neu vergeben sollen. Das müssen wiraber wissen, um Bkontraf(H,E) berechnen zu können.

Das Ganze ist sicher eine kreative Idee, die unseren Intuitionen vonBestätigung entgegenkommt, aber wir fallen nun endgültig aus dembayesianischen Verfahren heraus, denn der Schritt von B zu B* ist keinSchritt, der im klassischen Bayesianismus angelegt wird. Wir müssen nunganz neue Erwägungen unternehmen, für die uns der bayesianische Ap-parat nicht weiterhilft. Viele Wissenschaftstheoretiker sehen auch dieSchwierigkeiten als zu groß an, zunächst B* zu entwickeln und dann völ-lig aus der Luft auch noch P(H|B*) festzulegen. Für P(H|B*) müsstenwir einen Neustart mit neuen Vorher-Wahrscheinlichkeiten beginnen,und der klassische Statistiker würde zu Recht einwenden, dass diese wie-derum subjektiv seien und noch nicht einmal durch wiederholtes Up-daten geadelt und objektiviert wurden. Es gibt zwar noch andere Lö-sungsideen, aber letztlich bleibt das Problem der alten Evidenz für denklassischen Bayesianismus bestehen und besitzt keine überzeugende Lö-sung. Das hieße im Endeffekt, dass der Bayesianismus keine intuitiveKonzeption eines relationalen Bestätigungsbegriffs anzubieten hat. Daswäre für ein erkenntnistheoretisches und wissenschaftstheoretischesGrundprogramm schon ein arges Manko. Außerdem wirft es erneut diealte Frage auf, was wir mit den bayesianischen Glaubensfunktionen in-nerhalb der Erkenntnistheorie in der Hand haben? Im Kapitel 5.5.23wird Peter Achinstein diese Problematik verstärken und dann eine Kon-zeption von absoluter Bestätigung vorschlagen, die den Bayesianismusallerdings ein Stück weit verlässt und damit eher an einen objektivenBayesianismus anknüpft.

5.5.18 Die Asymmetrie von Vorhersage und RetrodiktionEin Thema kam schon weiter oben kurz zur Sprache und lauert ebensoim letzten Kapitel im Hintergrund, nämlich das der Reihenfolge vonTheorien und Daten. Spielt die für die Bestätigung eine Rolle? Das wirdmanchmal behauptet und könnte dem Bayesianer ein Stück weit helfen,in seiner Bewältigung des Problems der alten Daten. So wird manchmalbehauptet, dass Daten, die eine Theorie vorhersagt, diese deutlich besserstützen, als solche Daten, die sie nur nachträglich ableiten oder reprodu-

Page 401: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

389 Thomas Bartelborth: Induktives Schließen

zieren kann, die aber zum Zeitpunkt ihrer Aufstellung schon bekanntwaren. So wird etwa angenommen, dass wir eine neue Theorie natürlichimmer so „hinbasteln“ können, dass sie zu den bekannten Daten passt.Man kann hier von der These der Bestätigungsasymmetrie von Prognoseund Retrodiktion sprechen.

Betrachten wir dazu ein besonders unschönes Beispiel: Unsere Theo-rie T besagt, dass alle Gegenstände zur Erde fallen, sobald wir loslassenund sie nicht durch eine der bekannten Kräfte gehalten werden, bis aufden Fall, als Thomas am 13.2.1995 einen Ball losgelassen hat. Der eineFall wird schlicht ausgenommen, weil wir schon wissen, dass sich dieserBall nicht an die Fallregeln in unserer Theorie gehalten hat. UnsereTheorie T ist offensichtlich sehr hässlich und ließ sich nur an die Datenanpassen, weil wir zum Zeitpunkt ihrer Aufstellung schon von diesemBall-Ereignis E am 13.2.1995 wussten. Wir möchten kaum sagen, dassdurch dieses Ball-Ereignis unsere Theorie bestätigt wird, obwohl sie zudem Datum passt. Das sähe schon etwas anders aus, wenn wir unsereTheorie bereits 1990 aufgestellt hätten und dabei das Ball-Ereignis pro-gnostiziert hätten. Unsere Theorie würde sicher mehr Aufmerksamkeiterfahren und man würde fragen, wie uns diese korrekte Prognose gelin-gen konnte.

Allerdings bliebe das Problem, dass unsere Theorie T das Ball-Ereig-nis nicht erklären kann. Daher würde auch ein Vertreter des abduktivenSchließens davon ausgehen, dass T nicht wirklich bestätigt würde durchE. Ein Teil der Aussage von T erweist sich durch E zwar als wahr, aberder Rest von T wird durch E nicht gestärkt − auch intuitiv nicht. Esbleibt aber zumindest ein psychologischer Effekt zurück, dass geradeüberraschende Vorhersagen einer Theorie diese besonders stützen, wennsie denn eintreffen. Ein Beispiel dafür hatten wir oben schon erwähnt,nämlich die Lichtablenkung im Schwerefeld der Sonne, die die allgemei-ne Relativitätstheorie korrekt vorhergesagt hatte. Sollten wir also dieAsymmetriethese unterschreiben?

Ich bin nicht dieser Meinung. Das hieße nämlich, dass der Zeitpunkt,zu dem wir Daten finden bzw. Theorien entwickeln zu entscheidendererkenntnistheoretischer Bedeutung erhoben würde. Nehmen wir zweiZeitpunkte 1 und 2, die nacheinander liegen und betrachten Wissen-schaftler A und B. Wissenschaftler A beobachtet zunächst E zu 1 undentwickelt dann T zum Zeitpunkt 2. Für Wissenschaftler ist die zeitlicheReihenfolge genau andersherum. Intuitiv soll E eine starke Stützung fürH darstellen. Außerdem gleichen sich beide Wissenschaftler in all ihremweiteren Hintergrundwissen völlig. Dann wären sie zum Zeitpunkt 2

Page 402: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 390

eigentlich auf genau demselben Kenntnisstand, aber durch die unter-schiedliche Reihenfolge wäre etwa T für B gut bestätigt und für A nichtso gut bestätigt. Da es für A und B keine weiteren Unterschiede im Hin-tergrundwissen zu 2 mehr gibt, sehe ich nicht, wie wir diese Asymmetriesinnvoll verteidigen könnten.

Die obigen Beispiele sind also eher irreführend oder nicht wirklichrelevant, weil es sich nicht um eine intuitive Rechtfertigung unserer abs-trusen Falltheorie handelt. Dazu müssten wir schon bessere Beispieleund Überlegungen finden, die mir aber nicht bekannt sind. Sicher bietetder Überraschungseffekt einer erfolgreichen Prognose intuitiv eine be-sondere Bestätigung, aber eine nüchterne Analyse sollte das mehr alseinen psychologischen Effekt betrachten und nicht unsere Bestätigungs-theorien daran orientieren. Hier bleibt jedoch sicher Raum für weitereDebatten, die sogar im Rahmen der klassischen Statistik zu finden sind.

5.5.19 Neue Theorien und InnovationsfeindlichkeitEin weiteres Thema im Umfeld des Problems der alten Daten ist die Auf-stellung neuer Theorien im Laufe des Forschungsprozesses. Gerade da-durch werden oft besondere Fortschritte in der Wissenschaft erzielt. Daszeigte sich auch in den letzten Beispielen wie der speziellen und der all-gemeinen Relativitätstheorie. Doch im Bayesianismus ist in mehrfacherHinsicht kein Platz für neue Theorien. Der ganze Prozess des Updatensist so gestaltet, dass die Menge der Aussagen, deren Wahrscheinlichkei-ten sich dabei ändern, insgesamt konstant bleiben. Insbesondere bezie-hen wir uns immer wieder auf eine vollständige Menge von Hypothesen{H1,...,Hn}, um mit ihrer Hilfe etwa P(E) zu bestimmen, aber auch umjeweils den Bereich der relevanten Hypothesen für einen bestimmten Be-reich im Blick zu haben, für den sich die Wahrscheinlichkeiten jeweils zu1 aufsummieren. Darin ist kein Platz für ganz neue Hypothesen.

Als Notlösung könnten wir vielleicht zunächst daran denken, dasseine Catch-all-Hypothese C in unserer Liste von Hypothesen ist, die wirwiederum aufspalten können, in die neue Hypothese und eine neueCatch-all-Hypothese C*. Doch auch dieses Verfahren stößt irgendwannan seine Grenzen und ist eigentlich nicht unbedingt sinnvoll. Die neueHypothese mag uns gerade im Lichte der bisherigen Daten besondersplausibel erscheinen und sollte dann vielleicht schon eine höhere Wahr-scheinlichkeit erhalten als C. Dafür ist aber kein Platz mehr. Außerdemverlässt man mit dieser Idee natürlich längst den klassischen Bayesianis-mus. Eigentlich bleibt bei Einführung einer neuen Hypothese nur eine

Page 403: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

391 Thomas Bartelborth: Induktives Schließen

vollständige Neubewertung übrig, und erst danach können wir wiedermit dem bayesianischen Updaten einsetzen.

Das deckt sich mit Kuhns Ideen darüber, wie das Auftreten eines neu-en Paradigmas unsere bisherigen Bewertungen über den Haufen werfenkann. Wir kennen das ebenfalls aus dem abduktiven Schließen und ausdem Vorgehen der Kohärenztheoretiker. Dahinter stand der Gedanke,dass die Daten nur im Lichte unseres Hintergrundwissens für bestimmteTheorien sprechen und dazu gehört vor allem, über welche alternativenTheorien wir verfügen. Die Fingerabdrücke des Herrn X auf der Mord-waffe sprechen zunächst sehr stark gegen Herrn X. Sollte allerdings dieTheorie an Plausibilität gewinnen, dass Herr Y am Vortag ganz bewusstdie Mordwaffe Herrn X in die Hand gedrückt hat (wobei er überra-schenderweise Handschuhe trug, was mehreren Beobachtern aufgefallenist), so richten sie sich plötzlich stärker gegen Y und nicht mehr so starkgegen X. Neue Theorien können solche epistemischen Beziehungen alsoverschieben. Das kann auch mit einer Uminterpretation der Beobachtun-gen einhergehen. Während für den Phlogistontheoretiker die Zunahmedes Gewichts bei einer Verbrennung dafür spricht, dass Phlogiston einnegatives Gewicht hat, eröffnete die Sauerstofftheorie eine ganz neueMöglichkeit, nämlich dass eine Verbrennung die Vereinigung mit demSauerstoff darstellt, der seinerseits natürlich ein normales positives Ge-wicht aufweist. Neue Theorien eröffnen neue Möglichkeiten, die Datenbestimmten Hintergrundphänomenen zuzuordnen, wodurch sich dieGewichte der Daten anders auf die Hypothesen verteilen. Dafür kenntder Bayesianismus allerdings kein Verfahren. Man kann sagen, er ist indiesem Punkt stark konservativ und eher innovationsfeindlich. DenPunkt, dass Daten nur im Lichte der Konkurrenzhypothesen mehr oderweniger für bestimmte Hypothesen sprechen, greifen z.B. die Likeli-hoodisten wieder auf und behaupten, wir könnten immer nur eine kom-parative Theorienbewertung durchführen, wonach ein Datum E imLichte unseres Hintergrundwissens H1 gegenüber H2 in einem bestimm-ten Maße plausibler macht, ohne dass wir damit etwas über die Bestäti-gung von H1 sagen könnten, was sich nicht auf H2 bezieht. Darauf kom-men wir im nächsten Abschnitt zurück.

Vorher möchte ich noch eine Bemerkung zu einem verwandten The-ma machen, nämlich der Theorienfeindlichkeit des Bayesianismus. Diehaben schon verschiedene Autoren wie Popper und Glymour betont.Eine Frage, die Bayesianer meist nicht so sehr beschäftigt, ist, was wis-senschaftliche Theorien als solche kennzeichnet und wofür wir sie benö-tigen. Meine Antwort auf die zweite Frage war bereits, dass Theorien

Page 404: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 392

vor allem zur Erklärung und auch zu Prognosen dienen sollten, die wirihrerseits benötigen, um gezielt in die Welt eingreifen zu können. Außer-dem sollten akzeptierte Theorien natürlich wissenschaftliches Wissendarstellen bzw. dem so nahe wie möglich kommen. Auf die erste Fragebiete ich hier keine ausführliche Antwort an. Jedenfalls sollten Naturge-setze bzw. nomische Muster im Zentrum der wissenschaftlichen Theo-rien stehen. Aber diese haben noch andere Komponenten (vgl. Bartel-borth 1996, Balzer & Moulines & Sneed 1987). Popper (1984) wiesschon darauf hin, dass wir Theorien vor allem für ihren empirischen Ge-halt schätzen sollten und daher nach möglichst „tiefen“ Theorien su-chen. Das hat vor allem mit ihrer Erklärungskraft zu tun. Da Popper al-lerdings jede Form von induktiver Bestätigung von Theorien für unmög-lich hielt, hat er unter den noch nicht falsifizierten Theorien den empiri-schen Gehalt als alleiniges Kriterium für die Theorienwahl angenom-men. Das ist sicherlich zu kurz gegriffen. Die induktive Bestätigung vonTheorien darf natürlich nicht außen vor bleiben. Die ist für einen Baye-sianer vor allem in der Wahrscheinlichkeit P(H) der Theorie zu sehen.Doch das steht in einem Konflikt mit dem Gehalt und der Tiefe derTheorie. Auch das hatte Popper schon klar gesehen. Bayesianer scheinennun den zu Popper entgegengesetzten Fehler zu machen. Sie setzen aus-schließlich auf die induktive Stützung der Theorien und beziehen ihre je-weilige Erklärungsstärke nicht in die Theorienwahl mit ein. Man gehteinfach davon aus, dass man schon über eine geeignete Liste von kon-kurrierenden Theorien verfügt und nur noch auf deren Plausibilität zuachten hat.

Doch wenn die Wahrscheinlichkeit der Theorien unser einziges Kri-terium bleiben sollte, dann setzen sich immer die weniger gehaltvollenTheorien gegenüber den substantiellen, tiefen Theorien durch. Nehmenwir an, wir hätten eine tiefe Theorie T, aus der zahlreiche Beobachtun-gen oder sogar Phänomene (als Typen von Beobachtungen) E1,...,En lo-gisch folgen. Dann gilt zunächst: P(T)P(E1&...&En). Sind die Phänome-ne statistische und bisher unabhängig voneinander (in unserer Glaubens-funktion P), so wird dieser Wert vermutlich recht klein sein, da die rech-te Seite sich in ein entsprechendes Produkt aufspaltet. In jedem Fall soll-ten wir erwarten, dass die Theorie T einen Überschussgehalt gegenüberder bloßen Konjunktion der Daten hat. Das hieße aber, dass die „Theo-rie“ T* E1&...&En nach dem Updaten mit den Daten E1,...,En dieWahrscheinlichkeit 1 hat und damit der Theorie T überlegen wäre. T*ist allerdings nur eine Konjunktion der Daten und keine substantielleTheorie. Insbesondere folgen zwar die vorliegenden Daten aus T*, aber

Page 405: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

393 Thomas Bartelborth: Induktives Schließen

T* hat überhaupt keine Erklärungskraft oder Prognosefähigkeit. Dazufehlt ihr die Angabe eines nomischen Musters, das das Auftreten derDaten erklären könnte und womöglich die kausalen Mechanismen an-gibt, die zu den Daten E1,...,En geführt haben. Es gilt alsoP(T)<P(T*)=1. Allgemein müssen die oberflächlichen Theorien, dievielmehr Zusammenfassungen von Daten darstellen als tieferliegendeMechanismen zu benennen, vom Bayesianer die höhere Wahrscheinlich-keit erhalten. Schauen wir dann nur auf die Wahrscheinlichkeit undnicht mehr auf die Erklärungskraft der Theorien, werden wir nur die„billigen“ und flachen Theorien auswählen und selbst simple Konjunk-tionen wie T* stehen dann blendend dar. Darin zeigt sich die Theorien-feindlichkeit des Bayesianismus, die nicht die tatsächliche Praxis derTheorienwahl in der Wissenschaft widerspiegelt.

Ein Bayesianer könnte etwa antworten, dass in puncto Wahrschein-lichkeit nur noch die Theorien miteinander verglichen werden sollten,die dieselbe Erklärungskraft haben. Das wäre allerdings ein völlig neuesElement im Bayesianismus. Wir müssten zunächst feststellen, welcheTheorien dieselbe Erklärungskraft haben, und danach erst unsere Listeausrichten. Doch die Erklärungskraft von Theorien ist oft nicht so ein-fach vergleichbar und außerdem wollen wir natürlich weiterhin Theo-rien mit unterschiedlicher Erklärungskraft weiterhin miteinander ver-gleichen. Das ist nicht einfach, aber der Kohärenztheoretiker hat dafürbereits Ansätze entwickelt, wie das geschehen kann. Hier muss der Baye-sianismus jedenfalls dringend ergänzt werden, um seine Theorienfeind-lichkeit abzulegen und das zweite Ziel der Theorienwahl (informativeTheorien) in irgendeiner Form berücksichtigen (vgl. Bartelborth 2005).Einen neuen Weg werden wir später in Achinsteins Zwei-KomponentenKonzeption von Bestätigung finden, die Erklärungszusammenhänge undWahrscheinlichkeiten miteinander kombiniert.

5.5.20 Der Likelihoodismus und das Favorisieren von HypothesenDie Likelihoodisten bieten einen Ansatz, der bestimmte Einsichten desBayesianismus erhält, aber gerade die subjektiven Elemente ausschließenmöchte und ebenso wenig anfällig ist, für das Problem der alten Evidenzoder das der Theorienfeindlichkeit. Er argumentiert wie folgt: Start-wahrscheinlichkeiten mag jemand zu seinem persönlichen Vergnügeneinsetzen, aber wieso sollten die in die wissenschaftliche Theorienbewer-tung eingehen? Sollten wir dafür die Meinung eines bestimmten Exper-ten hernehmen oder soll jeder seine eigene wählen? Dann verhelfen unsdie Daten jedenfalls nicht zu einer wissenschaftlichen Übereinstimmung

Page 406: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 394

oder einem wissenschaftlichen Fortschritt. Die Gegenseite der Umwelt-schützer in unserer obigen Glosse wird etwa die StartwahrscheinlichkeitP(T)=1-10-(10^10000) für korrekt halten, und es wird so nie eine Annähe-rung zwischen beiden Seiten stattfinden, obwohl man sich über die rea-len Likelihoods eigentlich einig ist, die sich aus den Theorien ergeben,und man diese im Sinne der Likelihoodanbindung ebenso für wissen-schaftlich relevant hält. Der Bayesianer wird durchaus zugestehen, dassdie Likelihoods uns darüber Auskunft geben sollen, in welchem Ausmaßspezielle Daten bestimmte Theorien stützen. Vor allem die Likelihoodssind daher das Objektive an der probabilistischen Herangehensweise.Darin stimmen uns ebenfalls die klassischen Statistiker zu. Der Likeli-hoodist stellt sich daher auf den Standpunkt, wir dürften nur die Likeli-hoods heranziehen, um Theorien epistemisch zu bewerten. Das äußertsich zunächst in einigen Prinzipien, mit deren Hilfe wir den Likeli-hoodismus charakterisieren können. Da ist zunächst das Likelihoodge-setz:

Das LikelihoodgesetzFür zwei einander ausschließende Hypothesen h1 und h2 und Daten egilt:(a) e favorisiert h1 gegenüber h2 gdw P(e|h1&b) > P(e|h2&b) und(b) der Likelihoodquotient P(e|h1&b)/P(e|h2&b) misst, in welchem

Maße e bei gegebenem Hintergrundwissen b h1 gegenüber h2 fa-vorisiert.

Manchmal wird auch nur die Behauptung (a) als Likelihoodgesetz be-zeichnet. Als Likelihoodprinzip wird dann die tendenziell stärkere Be-hauptung bezeichnet, dass alles, was wir über die Begründung von Theo-rien sagen können, in den Likelihoods enthalten ist (vgl. MacKay 2005,32). Jedenfalls sind an dieser Stelle für einen echten Likelihoodisten(wie etwa Edwards 1992 und Royall 1997) nur objektive Likelihoodszugelassen, die sich nicht in irgendeiner Weise auf subjektive Wahr-scheinlichkeiten stützen müssen. Wir werten im Wesentlichen nur aus,was uns die Theorien über die Daten sagen und ziehen noch weiteresobjektives Hintergrundwissen mit dazu heran.

Für disjunktive Hypothesen erhalten wir normalerweise so keineLikelihoods mehr und können uns etwa nur durch Abschätzungen fürdie möglichen Likelihoods behelfen, um damit noch bestimmte Aussa-gen treffen zu können. Die Idee ist aber klar, dass der objektive Anteilbeim bayesianischen Updaten von den objektiven Likelihoods herrührtund man sich eben auf diesen Anteil in der Theorienbewertung be-

Page 407: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

395 Thomas Bartelborth: Induktives Schließen

schränken möchte. Oftmals geht man noch zum natürlichen Logarith-mus des Likelihoodquotienten über, um eine symmetrische Skala um dieNull herum zu erhalten. Außerdem können unabhängige Log-Likeli-hoods dadurch aufaddiert werden. Doch das sind nur noch technischeFeinheiten, die ich nur erwähne, damit sich der Leser schon darauf ein-stellen kann, wenn er in der Literatur darauf stößt.

Die erste substantielle Konsequenz aus dem Likelihoodgesetz ist, dassdie Theorienbewertung nur noch einen komparativen Charakter hat.Wir können jeweils zwei Hypothesen daraufhin vergleichen, wie gut siezu den Daten passen, aber nicht mehr bestimmen, wie gut sie absolut ge-rechtfertigt sind. Das harmoniert wieder mit der Kohärenzauffassungund dem abduktiven Schließen, denn auch dort liegt das Schwergewichtder Auswertung von Hypothesen in dem Vergleich, wie gut die Daten zuden Theorien passen.

Da keine subjektiven Wahrscheinlichkeiten für den Likelihoodistenzugelassen sind, tritt nun das Problem der alten Evidenz nicht mehr inErscheinung. Ist ein Datum e im Lichte der Theorie h1 wahrscheinlicherals aus Sicht der Theorie h2, dann spricht das Auftreten dieses Datumsmehr für h1 als für h2, ganz gleich, wann uns das Datum bekannt wurde.Hier wird sozusagen eine perfekte Likelihoodanbindung umgesetzt undman verzichtet auf die weiteren subjektiven Bestandteile, die uns imBayesianismus begegnen. Allerdings bleiben dann z.B. auch die theoreti-schen Zusammenhänge außen vor. Wie können wir unsere Theorie T et-wa bewerten, wenn wir z.B. andere Theorien akzeptieren, die nicht mitT zusammenpassen? Über diese holistischeren Aspekte der Theorienbe-wertung weiß uns der Likelihoodist nichts zu sagen.

Außerdem wurden auch hier Gegenbeispiele vorgeschlagen (vgl. Fi-telson 2007), von denen wir eines genauer betrachten wollen. Es wirdeine Spielkarte aus einem gewöhnlichen Kartenspiel (etwa mit 52 Kar-ten) nach guter Durchmischung gezogen. Dann erfahren wir etwas überdie Spielkarte und haben zwei Hypothesen:

Gegenbeispiel zum Likelihoodismus (Fitelson 2007)h1 = die Karte ist Kreuzass; h2=die Karte ist schwarz;e = die Karte ist ein Kreuz;Dann gilt: P(e|h1) = 1 > P(e|h2)=½

Favorisiert nun unsere Information e, dass es sich bei der Karte um einKreuz handelt, tatsächlich die Hypothese h1, dass es ein Kreuzass ist,gegenüber der Hypothese h2, dass die Karte schwarz ist? Das scheintnicht der Fall zu sein, denn aus e folgt schließlich deduktiv h2, aber nicht

Page 408: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 396

h1. Fitelsons Beispiel scheint demzufolge das Likelihoodgesetz sogar inbeide Richtungen in Frage zu stellen. Wir werden das Gesetz wohl durchzusätzliche Forderungen abschwächen müssen. Von einer komparativenBestätigung kann man danach nur dann sprechen, wenn weitere Anfor-derungen erfüllt sind.

Als Verfechter der Abduktion liegt es natürlich nahe zu verlangen,dass die Hypothesen die Daten auch erklären müssen, um durch dieDaten bestätigt zu werden. Für wissenschaftliche Beispiele, die ebenfallsder Likelihoodist im Blick hat, scheint das eine recht plausible Forde-rung zu sein. Fitelson sucht dagegen eher nach einer reinen Wahrschein-lichkeitskeitsbedingung etwa aus dem bayesianischen Lager, um zumin-dest ein schwaches Likelihoodgesetz formulieren zu können.

Er betrachtet daher zunächst, was der Bayesianer über das Favorisie-ren sagen kann. Dabei eignet sich die folgende simple Regel leider nicht:

SR: e favorisiert h1 gegenüber h2 gdw P(h1|e) > P(h2|e)

Die Regel SR hat den offensichtlichen Nachteil, dass sie nicht verlangt,dass e überhaupt eine besondere Relevanz für h1 oder h2 besitzen muss.Es könnte sogar der Fall sein, dass die Wahrscheinlichkeit von h1 durchUpdaten mit e sinkt und die von h2 steigt, nur dass hinterher immernoch die Wahrscheinlichkeit von h1 höher ist als die von h2, weil sie vor-her schon deutlich höher war. Der Bayesianer wird also für die kompa-rative Bestätigung wieder ganz auf die Maße der Bestätigung setzen müs-sen, die wir in Kapitel 5.5.8 bereits diskutiert haben. Nehmen wir an,wir haben einen Bestätigungsbegriff B(h,e), wonach h durch e in einembestimmten Maße B(h,e) bestätigt wird, dann lässt sich daraus auch dasFavorisieren ableiten:

Bayesianisches Favorisierene favorisiert h1 gegenüber h2 gdw B(h1,e) > B(h2,e)

Das wirft allerdings wieder das Problem auf, mit welchem Maß wirarbeiten sollen. Setzen wir für B z.B. das Ratio-Maß ein, erhalten wir ge-nau den Teil (a) des Likelihoodgesetzes. Fitelson knüpft dagegen an seinLikelihood-Maß an und erhält so das folgende schwache Likelihoodge-setz:

Schwaches Likelihoodgesetze favorisiert h1 gegenüber h2 gdwP(e|h1) > P(e|h2) und P(e|~h1) P(e|~h2)

Page 409: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

397 Thomas Bartelborth: Induktives Schließen

Damit wird sich der strikte Likelihoodist allerdings nicht wirklich an-freunden können, weil er die „Catch-all-Likelihoods“ (P(e|~h1) undP(e|~h2) in der zweiten Ungleichung nicht für objektiv hält. Doch wennwir nicht so strikt sind, haben wir zunächst eine Konzeption des Favori-sierens gefunden, die die bekannten Gegenbeispiele zurückweist. Inunserem obigen Gegenbeispiel ist sie offensichtlich nicht erfüllt, denn esgilt dort: P(e|~h1)=13/52 und P(e|~h2)=0. Das schwache Likelihood-gesetz stellt so einen Kompromiss dar. Fitelson betont, dass wir für diezweite Ungleichung oft nur eine Plausibilitätsabschätzung benötigen undnicht unbedingt genaue Werte. Außerdem benötigen wir dann keine Vor-her-Wahrscheinlichkeiten vom Typ P(h). Das macht diese Explikationdes Favorisierens selbst für Nicht-Bayesianer annehmbar. Es soll jeden-falls im Folgenden immer wieder einmal als Richtschnur für die kompa-rative Theorienbestätigung dienen.

Man kann geradezu sagen, dass die Grundidee der Likelihoodisten inallen Ansätzen zum induktiven Schließen in der einen oder anderenForm wiederzufinden ist. Danach bestätigt ein Datum e eine Hypotheseh ceteris paribus umso mehr, je stärker die Hypothese h dieses Datumvorhersagt, je größer also die objektive Wahrscheinlichkeit P(e|h) ist.Den Grenzfall kennen wir aus der deduktiv-hypothetischen Theorienbe-stätigung, aber wir finden diesen Gedanken auch im abduktiven Schlie-ßen wieder und sogar im Bayesianismus. Sogar die klassische Statistiksetzt ganz auf diese objektiven Likelihoods. Es verwundert also nicht,dass die Likelihoodisten das dann zum alleinigen Maßstab erheben wol-len. Allerdings hatte die Debatte um das abduktive Schließen schondeutlich herausgestellt, dass es gute Gründe gibt, noch weitere Aspektebei der Theorienwahl zu berücksichtigen. Das wird noch einmal bestä-tigt durch das Gegenbeispiel von Fitelson.

Halpern & Pucella (2006) haben sogar eine Logik für die Auswer-tung von Daten e für eine Liste L={h1,...,hn} von Hypothesen angege-ben, bei der man sich zunächst nicht auf zwei Hypothesen beschränkenmuss und außerdem die Likelihoods normiert werden, damit die Datenwieder ein Gewicht zwischen 0 und 1 für die Hypothesen aufweisen.Dabei wählen sie als naheliegendes Maß w(e,hi) für das Gewicht derDaten e etwa für hi:

Normiertes Gewicht der Daten:

Page 410: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 398

Dieses Maß wäre natürlich auch geeignet, um die Kohärenzwerte ineinem größeren Rahmen mit mehr als zwei Szenarien zu bestimmen undkönnte so meinen Ansatz aus Kapitel 4.4 verallgemeinern.

5.5.21 Bayesianismus für unendlich viele HypothesenIn der bayesianischen Statistik arbeitet man typischerweise mit einerParametrisierung von Hypothesen (vgl. etwa Held 2008). Nehmen wiretwa eine Münze, die wir werfen, und gehen davon aus, dass sie einefeste, aber unbekannte Wahrscheinlichkeit dafür aufweist, dass Kopfkommt. Dann können wir die Menge der möglichen Hypothesen h

als die Hypothesen betrachten, für die P(Kopf|h)= ist und =[0,1].Wir haben damit ein Kontinuum von Hypothesen, die wir normalerwei-se direkt durch den Parameter kennzeichnen können, ohne jeweils h

zu schreiben. Für die Hypothesen benötigen wir eine Wahrscheinlich-keitsdichte f(), die die Wahrscheinlichkeit bestimmt, dass eine derHypothesen aus einem Intervall I=[a,b] die richtige Hypothese ist:

P(I) := I f() d mit f() d = 1

Auch hier können wir wieder mit Daten x updaten. Dazu benötigen wirdie entsprechenden Likelihoods f(x|) und erhalten zunächst wieder diebayessche Formel in der Proportionalschreibweise, die es uns oft ermög-licht, die Art der resultierenden Nacher-Verteilungen zu bestimmen, oh-ne uns um die meist schwer zu berechnenden Proportionalitätskonstan-ten Gedanken machen zu müssen:

Bayessches Theorem für Dichten 1f+() := f(|x) f()f(x|)

Auch hier muss die neue Dichte f+ wieder eine Wahrscheinlichkeitsdich-te sein und somit finden wir den entsprechenden Proportionalitätsfaktorund erhalten dann das klassische bayessche Theorem:

Bayessches Theorem für Dichten 2

Die bayesianische Statistik versucht i.A., einen möglichst objektivenBayesianismus zu vertreten, und zu diesem Zweck die Ausgangswahr-scheinlichkeiten möglichst objektiv zu gestalten. Wissen wir etwa nurwenig über den gesuchten Parameter , so sollte die Vorher-Dichte mög-lichst uninformativ sein. Es sollen letztlich nur die Daten sprechen. Da-

Page 411: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

399 Thomas Bartelborth: Induktives Schließen

zu werden wieder Überlegungen und Hilfsmittel aus der Informations-theorie eingesetzt (vgl. Bernardo 2009 zur „reference analysis“). In ein-fachen Fällen kommt etwa das Maximum-Entropie-Prinzip zur Anwen-dung, das wir bereits geschildert haben. Allerdings haben wir schon aufdas Problem der Anwendung von Indifferenzprinzipien verwiesen, dassich immer auf eine ganz bestimmte Beschreibung der Situation bezieht.In der Statistik spricht man von dem statistischen Modell, mit dem maneine Situation repräsentiert. Dazu gehören etwa die grundlegenden Kon-zepte, mit denen wir die Situation beschreiben und zumindest eine Like-lihoodverteilung für die Daten. Wie schwierig es ist, eine Situation zu-nächst gut zu modellieren, hat sich beim berühmten Ziegenparadox ge-zeigt, das wir in Kapitel 5.6.1 kurz besprechen werden. Das belegt zu-gleich, wie viel bereits auf einer sehr basalen Ebene von einer angemes-senen Beschreibung abhängen kann. In diesem Fall sind sogar namhafteStatistiker in die Irre gegangen.

Andererseits wissen wir etwa in dem Münzenbeispiel schon, dass dieWahrscheinlichkeit dafür, dass die Münze extreme Wahrscheinlichkeitenfür Kopf aufweist, eher gering sein muss. Wie sollte denn eine Münzekonstruiert sein, die in einer normalen Wurfumgebung praktisch immerKopf ergibt? Das heißt, wir werden normalerweise in einer Vorher-Ver-teilung schon eine gewisse Bevorzugung der mittleren Werte einbauen,da sie unserem Hintergrundwissen über diesen Vorgang am besten ent-spricht.

Das lässt sich am besten erkennen, indem wir uns ersten Beispielenzuwenden. Ein Beispiel findet sich in Bernardo (2009). Nehmen wir an,unsere Daten wären n Beobachtungen eines Bernoulli-Experiments mitdem unbekannten Parameter und r positiven Ergebnissen. Es könntesich also um n Würfe einer Münze handeln mit r-mal Kopf und der un-bekannten Wahrscheinlichkeit für Kopf. Nehmen wir außerdem an,dass unser Wissen über durch eine Betaverteilung Be(,) gegeben sie,so dass also gilt:

P(|,) -1(1–)-1

Dann ist die Nachher-Verteilung leicht zu bestimmen mit Hilfe des bay-esschen Satzes in Proportionalform. Wir müssen dazu nämlich nur mitder Likelihood multiplizieren, dass bei Vorliegen von r-mal ein positi-ves und (n-r)-mal ein negatives Resultat auftritt und das ist gerade: r(1-)n-r. Also entsteht eine neue Betaverteilung mit:

P(|n,r,,) r+-1(1–)n-r+-1

Page 412: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 400

Schwierig zu berechnen sind allerdings die genauen Normierungfakto-ren. Man kann zumindest schon erahnen, was mit der ursprünglichenGlockenkurve dabei passiert. Sie wird im Normalfall deutlich steiler undkonzentriert damit ihre Hauptmasse auf ein kleineres Gebiet.

Im konkreten Beispiel sei der Anteil der positiven Stimmen ineinem Referendum und unsere Daten D bestehen in einer Umfrage (vgl.Bernardo 2009). Hier muss man allerdings schon erste Idealisierungenakzeptieren, um das als ein Beispiel für ein Bernoulli-Experiment zu be-trachten. Ausgangspunkt sei eine Betaverteilung Be(50,50), bei der dieWahrscheinlichkeit für einen Sieg des Referendums bei 0,5 liegt. Nunwerden 1500 Personen befragt, von denen 720 sich für das Referendumaussprechen und 780 dagegen sind. Damit hat die Nachher-Wahrschein-lichkeit eine Be(770,830) Verteilung und es wird:

P(<0,5|D) = 0,933

Das heißt, dass nun die Wahrscheinlichkeit für einen Misserfolg des Re-ferendums bereits auf 93% angewachsen ist.

Auf diese Art setzt der Bayesianer die Nachher-Verteilungen ein, umdie induktiven Auswirkungen der Daten zu beschreiben. Viele Aussagensind nun möglich, die einem klassischen Statistiker verwehrt bleiben.Sehr deutlich wird das für die Kredibilitätsintervalle, die das bayesiani-sche Gegenstück zu den Konfidenzintervallen des klassischen Statistikerssind. Wenn wir für den Parameter wissen möchten, ob er in ein be-stimmtes Intervall I fällt, und wir verfügen über eine Vorher-Verteilung fund besitzen bereits Daten x darüber, dann gilt:

P(I|x) = I f(|x) d

So können wir auch für bestimmte (1–)-Kredibilitätsintervalle I kons-truieren, indem wir verlangen, dass P(I|x)=1– gilt. Für die drücktunsere Gleichung direkt aus, dass der gesuchte Parameter mit derWahrscheinlichkeit 1– in I liegt. Allerdings gibt es in aller Regel natür-lich viele entsprechende (1–)-Intervalle. Dazu können wir weitere An-forderungen formulieren, um das weiter einzugrenzen. Naheliegend wä-re etwa, dass das Intervall möglichst kurz sein sollte, denn dort konzen-triert sich dann die Hauptmasse der Verteilung. Ähnliche Probleme fin-den sich aber ebenso für Konfidenzintervalle.

Der große Vorteil der Kredibilitätsintervalle ist die einfachere Inter-pretation. Wir werden in Kapitel 6.5 sehen, dass der klassische Statisti-ker nicht sagen darf, dass das Konfidenzintervall zum Niveau 95% miteiner Wahrscheinlichkeit von 95% den wahren Wert enthält. Zumindest

Page 413: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

401 Thomas Bartelborth: Induktives Schließen

wird dafür der statistische Syllogismus benötigt, der selbst eher einGrundprinzip der induktiven Logik darstellt und dem klassischen Statis-tiker eigentlich nicht zur Verfügung steht. Ohne den statistischen Syllo-gismus können wir dann aus Sicht der klassischen Statistik (bzw. derNicht-Probabilisten) eigentlich keine speziellen Aussagen über einzelneKonfidenzintervalle mehr treffen. Für den Bayesianer sieht das mit denKredibilitätsintervallen anders aus. Er behauptet ganz direkt, dass gege-ben bestimmte Daten und ein bestimmtes Wahrscheinlichkeitsmodell das95%-Kredibilitätsintervall den gesuchten Parameter mit einer Wahr-scheinlichkeit von 95% enthält.

Es bleibt natürlich das Problem der Vorher-Verteilungen. Bayesianersind sogar bereit, um zu möglichst uninformativen Verteilungen zu kom-men, auch uneigentliche Dichtefunktionen zuzulassen. Das sind Dichten,deren Integrale über den gesamten Raum unendlich werden. EineGleichverteilung etwa auf den positiven reellen Zahlen liefert keineDichte mehr. Allerdings sollte zumindest nach dem Updaten mit denDaten wieder eine echte Dichtefunktion entstehen, damit wir damit et-was anfangen können, und daher sind auch für die uneigentlichen Dich-ten weitere Restriktionen zu beachten. Dazu diskutieren Bayesianerunterschiedliche Ansätze, aber das geht dann stark in technische Gefilde,die wir hier nicht weiter verfolgen können.

Dazu gehört auch, dass man mit sogenannten Nuisance-Parameternoder störenden Parametern im Bayesianismus im Prinzip einfach umge-hen kann, weil man über die entsprechenden Wahrscheinlichkeitsvertei-lungen verfügt, um sie „wegzuintegrieren“. Nehmen wir als einfachesBeispiel an, wir hätten für jede Körpergröße y eines amerikanischenManns eine Wahrscheinlichkeitsverteilung für sein Gewicht x. Aber lei-der wissen wir nicht, wie viele Amerikaner jeweils eine bestimmte Größey aufweisen. Wenn wir nun etwa abschätzen wollen, wie schwer ameri-kanische Männer im Durchschnitt sind, erweist sich der Parameter Kör-pergröße y als störender Parameter. Ich könnte etwa sagen, dass die1,85m großen Amerikaner im Durchschnitt 88 kg wiegen, aber wennauch noch die Wahrscheinlichkeiten für bestimmte Körpergrößen unbe-kannt ist, hilft mir das nicht recht weiter. Wie werden wir den Parame-ter y nun los? Bayesianer starten einfach mit einer Vorherdichte f(x,y),die uns eine gemeinsame Verteilung für Größe und Gewicht liefert. Eineentsprechende Wahrscheinlichkeitsverteilung für das Gewicht x erhaltenwir dann durch Integration über y:

f*(x) = ∫ f(x,y) dy

Page 414: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 402

Entsprechend erhalten wir dann für weitere vorliegende Daten D auchnoch eine Nachherdichte f(x,y|D). Jedenfalls können wir nun durchAufsummieren über die verschiedenen Größen gewichtet mit ihren je-weiligen Auftretenshäufigkeiten zu einer reinen Dichte für die Gewichtegelangen:

f*(x|D) = ∫ f(x,y|D) dy

Damit haben wir eine neue Dichte ausschließlich für das Gewicht gefun-den, die auch noch Daten D mit einbeziehen kann. Was ist nun die zuerwartende mittlere Größe? Hierfür können wir als Punktschätzung ein-fach den Erwartungswert für f* bestimmen:

E(f*(x|D)) = ∫ x f*(x|D) dx

So hat der Bayesianer ein Problem im Prinzip schnell und einfach gelöst,das den klassischen Statistiker immer wieder plagt und zu allerlei Tricksgreifen lässt.

Betrachten wir ein einfaches Zahlenbeispiel dazu mit nur wenigendiskreten Werten für die Größe (1,65 m und 1,85 m) und das Gewicht(70 kg und 80 kg und 90 kg). Andere Werte werden in unserem Beispieleinfach nicht angenommen. Nehmen wir weiter an, dass wir die Propen-sitäten kennen, mit denen jemand, der etwa 1,65 m groß ist, die jeweili-gen Gewichtsstufen einnimmt: zu 50%: 70 kg, zu 33%: 80kg und zu17%: noch 90 kg. Entsprechendes wissen wir auch für die 1,85 m gro-ßen Männer: zu 7% 70 kg, zu 57% 80 kg und zu 36% 90 kg. Wenn wirnun aber nicht wissen, wie viele Männer 1,65 m groß sind und wie vieledie Größe von 1,85 m erreichen, dann wissen wir z.B. nicht, was dasdurchschnittliche Gewicht der amerikanischen Männer ist. Diese Werteergänzt der Bayesianer nun durch subjektive Wahrscheinlichkeiten. Ergeht etwa davon aus, dass 30% der Männer 1,65 m und 70% dann 1,85m groß sind. Um das Ganze übersichtlich zu gestalten, nehmen wir an,wir hätten eine idealisierte Stichprobe von 1000 Männern, die sich ex-akt nach den objektiven und den subjektiven Wahrscheinlichkeiten rich-tet, so dass unsere gemeinsame Verteilung in Häufigkeiten wie folgt aus-sieht:

Page 415: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

403 Thomas Bartelborth: Induktives Schließen

1,65 m 1,85 m

70 kg 150 (50%) 50 (7%) 200

80 kg 100 (33%) 400 (57%) 500

90kg 50 (17%) 250 (36%) 300

300 700 1000

Tabelle 5.10: Beispiel für Randwahrscheinlichkeiten

Daran können wir nun direkt erkennen, welche Anteile den unterschied-lichen Gewichtsklassen zukommen: 20% der Männer sind 70 kg schwer,50% 80 kg schwer und 30% wiegen sogar 90 kg. Das ist die Randvertei-lung (bzw. marginale Wahrscheinlichkeit) für unser Gewichtsproblemund wir können auch ausrechnen, was das Durchschnittsgewicht derMänner ist: 0,270+0,580+0,390=81. Im Durchschnitt ist der ameri-kanische Mann demnach 81 kg schwer. Man sieht auch leicht, dass die-ses Ergebnis erheblich von der Verteilung auf die beiden Größen 1,65 mund 1,85 m abhängt. Die Verteilung in der rechten Spalte ist dann jeden-falls die Verteilung ohne den störenden Parameter Größe. Die oben an-gegebenen Integrale stellen die Aufsummierung für den Fall einer feine-ren Aufteilung auf die beiden Parameter dar. Wir haben dieses Verfahrenbereits im Umgang mit den bayesianischen Netzen kennengelernt.

Der klassische Statistiker wird dieses Verfahren allerdings trotz derschönen Berechnung kaum als genuinen Vorteil des Bayesianismus ak-zeptieren, denn der einfache Weg, die störenden Parameter loszuwer-den, kommt hier nur dadurch zustande, dass die fehlenden Daten ein-fach subjektiv geschätzt werden. Dazu kann er entgegnen, dass er dasnatürlich auch könnte, aber so eine skrupellose Ersetzung fehlenderDaten durch subjektive Größen für die Wissenschaft nicht akzeptierenkann.

Trotzdem punktet der Bayesianismus in all den genannten Fällen zu-nächst einmal. Auf den Einwand der zu subjektiven Schätzungen antwor-tet er mit der erwähnten Konvergenz und damit, dass auch der klassi-sche Statistiker an manchen Stellen auf subjektive Einschätzungen ange-wiesen ist. Trifft man diese aber wie es der Bayesianer vorgibt, dann lö-sen sich viele unserer Interpretations- und Verständnisprobleme aufrecht einfache Weise. Einfach jedenfalls im Prinzip, da die konkreten Be-rechnungen oft nur numerisch durchzuführen sind und schon erheblicheKalkulationsprobleme bieten können. Wir werden später sehen, wieschwierig es an entsprechender Stelle die klassischen Statistiker haben,

Page 416: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 404

ihre Methoden zu rechtfertigen und ihre Resultate zu interpretieren. Al-lerdings kommen vorher auch noch einige Fragen auf den Bayesianer zu.

Welche Hypothesen werden übrigens durch den Bayesianer in diesemVerfahren ausgewählt? Typischerweise werden nun nicht mehr einzelneHypothesen ausgewählt, sondern im Sinne der Kredibilitätsintervalleganze Mengen von benachbarten Hypothesen, über die wir nur sagenkönnen, dass die wahre Hypothese nach unserer Überzeugung (unseremP bzw. der Dichte f) mit hoher Wahrscheinlichkeit in dieser Menge zufinden sein wird. Dabei erwarten wir normalerweise eine immer stärkereKonzentration der Wahrscheinlichkeitsmasse auf einen immer kleinerenBereich, der die richtige Theorie also immer genauer spezifiziert. Daswirft wieder neue Fragen auf, wie wir das in unseren Entscheidungenumsetzen können und wie der Zusammenhang zu unseren klassischenÜberzeugungssystemen aussieht. Die bayesianische Statistik ist aber tech-nisch zu anspruchsvoll, um diesen Zweig des Bayesianismus hier in sei-nen Details weiter zu verfolgen. Wir können aber zumindest noch einigekonkrete Beispiele ansehen und noch darauf aufmerksam machen, dassdie bayesianische Statistik zugleich ein altes Problem induktiven Schlie-ßens lösen kann.

5.5.22 Das Gewicht der DatenEs gab schon frühzeitig den Einwand, dass unsere Wahrscheinlichkeitennicht alle Formen der Unsicherheit, die wir über bestimmte Größen ha-ben, richtig zum Ausdruck bringen. Betrachten wir dazu zunächst dreiSituationen: In S1 haben wir für eine bestimmte Münze keinen speziellenGrund für die Annahme, dass sie verfälscht sei. Also vermuten wir, dassdie Wahrscheinlichkeit für Kopf gerade ½ ist. In S2 haben wir dazu nochbestimmte Daten für unsere Münze, nämlich 10 Würfe mit 5-mal Kopf.Auch hier würden wir vermuten, dass P(Kopf)=½ ist. In S3 verfügen wirüber sehr viel stärkere Daten, nämlich 10000 Würfe mit 5000-mal Kopfals Resultat. Schlussfolgerung wiederum: P(Kopf)=½. In unseren Wahr-scheinlichkeiten spiegelt sich hier nicht unsere gesamte Unsicherheitwieder, die sich von Situation zu Situation schließlich stark verändert.Man könnte sagen, dass das Gewicht der Daten hier nicht repräsentiertwird. In S1 ist das noch sehr gering, da wir bestenfalls einen symmetri-schen Eindruck der Münzen haben oder sogar über überhaupt keineDaten verfügen, während es dann bis hin zu S3 zunimmt. Doch wo fin-det sich das in unserer Darstellung der Unsicherheiten wieder? Hieraufhat der bayesianische Statistiker eine gute Antwort: Wenn wir mit einerrelativ uninformativen Dichte starten, dann zeigt sich das Gewicht der

Page 417: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

405 Thomas Bartelborth: Induktives Schließen

Daten in der zunehmenden Konzentration der upgedateten Dichten.Man könnte sagen, die kleiner werdende Streuung der neuen Dichtenwäre ein Maß für das Gewicht oder die Stärke der Daten.

Das lässt sich in einem konkreten Beispiel gut erkennen, das zugleichetwas über das Konvergenzverhalten in solchen Beispielen sagt. Nehmenwir wieder an, wir suchten nach der Wahrscheinlichkeit für eine MünzeKopf zu ergeben. Nun starten wir mit drei unterschiedlichen Vorher-dichten, die auf verschiedene Weise unsere Anfangsunsicherheit ausdrü-cken sollen (vgl. dazu Büchter & Henn 2006 465 ff.):

f1(x) := 2 – |4x – 2|f2(x) := 140 (1–x)3 x3

f3(x) := 1 für alle x[0;1] sonst 0.

Das sind drei Arten unsere Vorher-Unsicherheit zum Ausdruck zu brin-gen. Die erste Funktion bildet ein symmetrisches Dreieck über dem Ein-heitsintervall, die zweite einen entsprechenden Hügel und die dritte ein-fach eine Gleichverteilung. Die ersten beiden Vorherdichten tragen derTatsache Rechnung, dass es recht unplausibel erscheint, dass die Münze(bei unseren normalen Arten zu werfen) so konstruiert ist, dass nur nochKopf oder nur noch Zahl erscheint. Im dritten Modell gehen wir einfacheinmal davon aus, dass wir nichts konkretes über unsere Vorherdichteaussagen können und setzen nach dem reinen Indifferenzprinzip aufeine völlige Gleichverteilung. Nun wird mit dem Datum D upgedatet:D Bei 100 Würfen ist 58-mal Kopf gekommen. Damit erhalten wir alsNachherdichten in allen drei Fällen relativ spitz verlaufende Berge:

f1(x|D) ≈ [(2 – |4x – 2|)100!/0,016658!42!] x58 (1–x)42

f2(x|D) ≈ (1033/4,95) (1–x)45 x61

f3(x|D) ≈ (1031/3,5) (1–x)42 x58.

Das zeigt schon eine deutliche Annäherung der Dichten bei nur wenigenDaten. Wie stark sich die Daten nun auf einen bestimmten Bereich kon-zentrieren, erkennen wir, in dem wir ein bestimmtes Intervall I =[0,52;0,64] betrachten und die Dichten darüber integrieren: Pi(xI|D)= ∫I fi(x|D) dx. Dabei zeigt sich das Gewicht der Daten, denn die Datenhaben diese Konzentration bewirkt. Dazu betrachten wir die jeweiligenVorher- und Nachher-Wahrscheinlichkeiten:

P1(xI)≈0,20 P1(xI|D)≈0,78P2(xI)≈0,24 P2(xI|D)≈0,79P3(xI)=0,12 P3(xI|D)≈0,78

Page 418: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 406

Die Werte zeigen wiederum, dass die genauen Vorher-Wahrscheinlichkei-ten nicht so bedeutsam sind, wenn wir erst genügend Daten gesammelthaben. Wir sehen eine Konzentration der Dichtefunktionen auf dasselbeIntervall, wobei das Ausmaß der Konzentration zugleich ein gutes Maßfür das Gewicht der Daten abgibt. Diese Repräsentation des Gewichtsder Daten ist allerdings auf die bayesianische Darstellung mit Dichte-funktionen angewiesen. Der klassische Bayesianer kann das nachbilden,indem er mit Wahrscheinlichkeitsintervallen statt Punktwahrscheinlich-keiten arbeitet. Bei nur wenigen Daten oder uneinheitlichen Daten kön-nen größere Intervalle das schwächere Gewicht dieser Daten zum Aus-druck bringen − ähnlich wie im Falle der Dichten die größere Streuung.Dieser Ansatz wird von Bayesianern immer wieder einmal erwogen undein Stück weit ausgeführt, doch er stellt eher eine Minderheitenpositiondar und soll hier nicht weiter verfolgt werden. Für den einfachen Baye-sianismus bleibt aber die Darstellung des Gewichts der Daten weiterhinein Problem.

5.5.23 Achinsteins EinwändePeter Achinstein (2001, Kap. 4) entwickelt eine Reihe von Argumentenhauptsächlich in Form von Gegenbeispielen gegen eine zu einfacheGleichsetzung von relationaler oder absoluter Bestätigung und ihren Ex-plikationen mit Hilfe von Wahrscheinlichkeiten. Das betrifft nicht nurdie subjektiven Bayesianer, sondern eigentlich alle Probabilisten. DieserPunkt wird von Probabilisten gern vernachlässigt. Man unterstellt gera-dezu, dass diese Zusammenhänge zwischen epistemischer Rechtfertigungund Wahrscheinlichkeit offensichtlich sind und keiner längeren Debattebedürfen. Haben wir erst einmal Glaubensgrade erhalten, ist danneigentlich klar, dass sie erkenntnistheoretisch relevant sind, und wir da-mit einfach bessere, weil feinere Unterscheidungen zur Verfügung habenals der klassische Erkenntnistheoretiker. Gegen diese Nachlässigkeit sindAchinsteins Beispiele eine gute Medizin.

Kommen wir zunächst zur inkrementellen Bestätigung. Die ersten bei-den Beispiele sollen zeigen, dass eine Wahrscheinlichkeitserhöhung nichthinreichend für eine Bestätigung einer Theorie ist. Achinstein spricht oftvon Evidenz und denkt dabei daran, dass uns e einen guten Grund dafürliefern sollte, an H zu glauben, damit wir sagen können, dass e h bestä-tigt. Mit b wird unser Hintergrundwissen beschrieben.

Lotteriebeispiel 1b = Am Montag werden 1000 Lotterielose verkauft und John kauftdavon 100 Lose und Bill kauft 1 Los.

Page 419: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

407 Thomas Bartelborth: Induktives Schließen

Und es gewinnt bei der Lotterie am Mittwoch genau ein Los.e = Am Dienstag werden alle Lose bis auf diejenigen von Bill undJohn zerstört.h = Bill gewinnt

In solchen Beispielen dürfen wir unser Hintergrundwissen natürlichnicht ausblenden. In dieser Situation wird die Wahrscheinlichkeit dafür,dass Bill gewinnt, zwar von P(h|b)=1/1000 durch die Information e aufp(h|e&b)=1/101 angehoben, aber nach Achinstein können wir trotz-dem nicht sagen, dass h durch e bestätigt wird. Dem stehen seiner Mei-nung nach mehrere Gründe entgegen:

1. Ist die Gewinnwahrscheinlichkeit von 1/101 immer noch sehr ge-ring. Wir sagen schließlich auch nicht, wenn jemand einen normalenFahrstuhl besteigt, das sei ein Grund für die Annahme, dass er jetzt baldsterben würde, obwohl eine leichte Wahrscheinlichkeitserhöhung dafürgegeben ist. Doch die ist zu gering, als dass wir sie bereits einen Grundfür seinen Tod nennen würden. So ist das auch im Falle von Bill. Wirverfügen bisher über keine guten Gründe dafür, dass Bill gewinnt. DasArgument finde ich recht überzeugend. Wir bezeichnen winzige Verän-derungen der Wahrscheinlichkeit nicht unbedingt schon als Gründe da-für, etwas anzunehmen. Aber vielleicht könnte der Probabilist entgeg-nen, dass man diese Fälle als Grenzfälle einer gewöhnlichen Praxis be-trachten darf, die echte Wahrscheinlichkeitserhöhungen als hinreichendfür Bestätigung ansieht.

2. Nach Achinstein würde e zwei konkurrierende Hypothesen zu-gleich bestätigen. Johns Wahrscheinlichkeit für einen Gewinn (h*) steigtnämlich von 1/10 auf 100/101. Das scheint mir für die relationale Bestä-tigung aber keineswegs so überraschend zu sein, wie das Kartenbeispielim letzten Abschnitt zeigen sollte. Allerdings kommt hier ins Spiel, dassh* vor allem gestützt und gut begründet wird und die Steigerung bei hnur ein minimaler Nebeneffekt ist. Aber es scheint auch nicht zwingenderforderlich zu sein, dass damit eine gewisse Bestätigung von h ausge-schlossen würde.

Das Beispiel ist also noch nicht sehr überzeugend, zeigt aber schongewisse Problemstellen der inkrementellen Bestätigung auf. Achinsteins2. Beispiel betrifft einen Profi-Schwimmer, der ins Wasser geht. Ist dasein Grund für die Annahme, dass er ertrinken wird? Achinstein setztwieder darauf, dass winzige Wahrscheinlichkeitserhöhungen keinen ech-ten Grund liefern. Da ist zwar etwas dran, aber es wird den Probabilis-ten nicht gleich umhauen.

Page 420: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 408

In weiteren Beispielen versucht er zu zeigen, dass die Wahrscheinlich-keitserhöhung auch nicht erforderlich ist für eine Bestätigung. Das ge-lingt ihm m.E. schon etwas besser.

Lotteriebeispiel 2e1 = Die New York Times (NYT) berichtet, dass Bill Clinton 999 von1000 Lotterielosen besitzt.e2 = Die Washington Post (WP) berichtet, dass Bill Clinton 999 von1000 Lotterielosen besitzt.b = Die Lotterie ist fair und es wird ein Los wahllos gezogen, das ge-winnt. NYT und WP berichten beide zu 100% zuverlässig.h = Bill Clinton gewinnt die Lotterie.

Die Situation ist etwas unrealistisch, was auch von Roush (2004) bemän-gelt wurde, aber nicht unmöglich. Man sollte vielleicht ein etwas besse-res Beispiel suchen. Jedenfalls gilt hier:

P(h|e1&b) = P(h|e2&e1&b) = 999/1000

Das heißt, dass e2 die Wahrscheinlichkeit für h nicht weiter erhöht.Trotzdem stellt bei unserem Hintergrundwissen e2 natürlich einen sehrguten Grund dar, an h zu glauben. Man könnte sagen, unsere Gründeseien überdeterminiert. Trotzdem entwertet e1 damit nicht die Qualitätvon e2. Sollten wir e1 bereits kennen, benötigen wir e2 nicht mehr, undes trägt nichts Neues zu unserem Wissen mehr bei. Trotzdem bleibt dieTatsache bestehen, dass aus e2 und unserem Hintergrundwissen h logischfolgt. Natürlich ist also e2 eine Bestätigung von h.

Man könnte sagen, dass es sich dabei um einen Verwandten des Pro-blems der alten Evidenz handelt. Wenn wir schon wissen, dass Bill Clin-tons Gewinnwahrscheinlichkeit 999/1000 ist, so werden weitere Belegedafür vom inkrementellen Ansatz einfach nicht mehr gezählt. Er berich-tet uns eben nicht darüber, wie stark e2 für h spricht, sondern nur dar-über, was e2 bei unserem bisherigen Wissen über h noch dazu beisteuernkann. Die Bestätigungswirkung von e2 geht dabei leider völlig verloren.In unserem Beispiel würde e1 als bestätigend betrachtet, aber e2 nichtmehr. So sollte das Hintergrundwissen nicht in die Bestätigungsbezie-hung eingehen. Der Bayesianer beschreibt hier nicht die objektiven Be-ziehungen zwischen Daten und Hypothesen, sondern nur welchen zufäl-ligen Beitrag bestimmte Daten jeweils noch für unseren Kenntnisstandhaben.

Geben wir die unrealistische Annahme, dass beide Zeitungen völligirrtumssicher berichten, zugunsten der Annahme auf, dass sie sehr zuver-

Page 421: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

409 Thomas Bartelborth: Induktives Schließen

lässig berichten (Quote 99%), so könnte das Beispiel immer noch eineunerwünschte Asymmetrie nach sich ziehen: e1 würde unsere Wahr-scheinlichkeit für h stark erhöhen und e2 dann nur noch wenig.

Achinstein hat aber auch noch ein Beispiel mit einer Wahrscheinlich-keitsverringerung, das trotzdem einen Fall von guten Gründen darstellt.

Medikamentenbeispiele1 = Am Montag nimmt David am Vormittag um 10:00 Uhr ein Me-dikament M ein, welches Davids Symptom S beseitigen soll.e2 = Am Montag um 11:00 Uhr am Vormittag nimmt David Medika-ment M’, um S zu beseitigen.b = Medikament M hat 95% Effektivität Symptom S innerhalb von2 Stunden zu beseitigen; Medikament M’ ist zu 90% effektiv S inner-halb von 2 Stunden zu beseitigen. M’ hat die Nebenwirkung, dass M’die Wirkung von M vollständig blockiert, ohne in der eigenen Wir-kung beeinträchtigt zu sein.

h = Davids Symptom S ist um 13:00 Uhr weg.

Beide Medikamente M und M’ sind also recht effektiv und M’ hebt dieWirkung von M auf. M ist zwar effektiver (95%) als M’, aber M’ (90%)hat vielleicht weniger Nebenwirkungen. Daher nimmt David dann dochnoch M’, als er es erhält. Zu dem Zeitpunkt gehören zu unserem Hinter-grundwissen bereits b und e1. Die Wahrscheinlichkeit für eine Genesungwar also 95%. Durch e2 sinkt die Wahrscheinlichkeit für eine Genesungauf 90%. Trotzdem bildet e2 natürlich einen sehr guten Grund für dieAnnahme, dass David genesen wird, denn es hat ja selbst auch eine Hei-lungsquote von 90%. Hier senkt e2 also die Wahrscheinlichkeit für hund stellt trotzdem eine Bestätigung für h dar. Das stellt für einen Proba-bilisten sicherlich ein größeres Problem dar. Er kann sich allerdings aufdas Likelihoodmaß l beziehen. Die Betrachtung von P(e2|h)/P(e2|~h)kann uns noch darüber Auskunft geben, dass e2 Relevanz für die Bestäti-gung von h besitzt.

Achinstein wendet sich dann der absoluten Bestätigung zu und ver-sucht sie allerdings so zu verstehen, dass auch hier ein einzelnes Datum edie Bestätigung für h erbringen soll: P(h|e&b)>½. Doch Achinstein ver-weist zu Recht darauf, dass in dieser Form die Bestätigungsfunktionnicht selektiv ist und wir daher keine wirklich relationale Bestätigung(meine Redeweise) erhalten. Sollte also bereits unser Hintergrundwissenzu hohen Wahrscheinlichkeiten für h führen, können wir anhand von(*)P(h|e&b)>½ nicht sagen, dass e nun h bestätigen würde. Gehört et-wa zu unserem Hintergrundwissen, dass Michael Jordan ein männlicher

Page 422: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 410

Basketballspieler ist, so mag für die Information (e) „Michael Jordanhatte Cornflakes zum Frühstück“ und für die Hypothese (h) „MichaelJordan wird nicht schwanger“, zwar die Gleichung (*) gelten, aber e isttrotzdem irrelevant für h. Das zeigt allerdings vor allem, dass man mitder absoluten Bestätigungsbeziehung keine relationalen Bestätigungenauszeichnen kann, sondern dass es eher wie oben schon beschrieben eineBeziehung zwischen einer Hypothese und unserem gesamten Hinter-grundwissen ist. Es wird dabei keine Aussage E speziell hervorgehobenaus unserem Hintergrundwissen.

Tatsächlich gibt es also unterschiedliche Verwendungsweisen unsererKonzepte von Bestätigung und Begründung und die Frage bleibt weiterzu diskutieren, inwiefern diese Verwendungsweisen durch bestimmteWahrscheinlichkeitsungleichungen rekonstruiert werden können.

Peter Achinstein (2001) plädiert selbst dafür, objektive epistemischeWahrscheinlichkeiten zu verwenden − ähnlich wie die objektiven Baye-sianer. Allerdings bleibt eher unklar, welcher Art diese Wahrscheinlich-keit genau sein soll. Darauf aufbauend gehören für Achinstein zu einerBestätigung von H durch E zwei Dinge: Erstens muss im Sinne derSchwellenwertkonzeption die Wahrscheinlichkeit P(H|E)>0,5 sein undzweitens muss es als eine Relevanzbeziehung zwischen E und H eine Er-klärungsbeziehung geben, die allerdings verschiedene Formen annehmenkann, wonach etwa H nun E erklärt oder H und E beide durch eine wei-tere Theorie T erklärt werden.

Achinsteins hybride BestätigungskonzeptionE bestätigt H gdw.1) P(H|E) > 0,52) Es besteht eine direkte oder indirekte Erklärungsbeziehung

zwischen H und E.

Die Grundideen dieser Konzeption sind sicherlich richtig, dass wir zumeinen versuchen müssen, mit objektiven Wahrscheinlichkeiten zu arbei-ten, dass wir eine Art von Schwellenwertkonzeption benötigen und dasswir für eine Relevanzbeziehung andererseits noch auf eine weitere Ver-bindung zwischen den Daten und den Hypothesen angewiesen sind, diein einer Erklärungsbeziehung zu suchen ist. Das unterstützt die entspre-chende Forderung des Erklärungskohärenzansatzes.

Page 423: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

411 Thomas Bartelborth: Induktives Schließen

5.6 Weitere spezielle Probleme und Anwendungen desBayesianismus

Es sollen im Folgenden einige weitere Anwendungen des Bayesianismusdiskutiert werden, die uns dabei helfen, den Bayesianismus besser zuverstehen. Dabei wird es u.a. um schwierige Probleme der Bestätigungs-problematik gehen.

5.6.1 Bayesianische EntscheidungstheorieBayesianer verweisen gerne darauf, dass ihre Konzeption über die baye-sianische Entscheidungstheorie auf vielfältige Art mit unserer Hand-lungspraxis verknüpft ist. Das gilt natürlich ebenfalls für die klassischeErkenntnistheorie und wir haben das bereits in Kapitel (5.3.2) angespro-chen. Tatsächlich sind die Beziehungen aber für den bayesianischen An-satz besonders eng und gut ausgearbeitet. Leider können wir in diesemRahmen diese Verbindung nicht ausführlich analysieren, sondern nurkurz die Anbindung schildern. Zunächst sind wir gezwungen eine Nut-zenfunktion einzuführen, die nicht epistemisch zu interpretieren ist. DieWerte, um die es dabei jeweils geht, können einen sehr praktischen Cha-rakter haben, der über unsere erkenntnistheoretische Fragestellung weithinausführt. Dann wird der erwartete Nutzen für die verschiedenenHandlungsmöglichkeiten bestimmt. Dazu benötigen wir zusätzlich diesubjektiven Wahrscheinlichkeiten, die angeben, mit welcher Stärke wirerwarten, dass bestimmte Umweltsituationen Si eintreffen (s. Kap.5.3.2), und die Handlungsanweisung der bayesianischen Entscheidungs-theorie besagt dann, dass es rational ist, die Handlung auszuwählen, fürdie der erwartete Nutzen maximal ist.

Diese Anbindung des Bayesianismus an eine Theorie rationalen Ent-scheidens ist sicher ein Pluspunkt für den Bayesianismus. Allerdings gibtes auch zahllose praktische und theoretische Probleme, die damit ver-knüpft sind und die Entscheidungstheorie ist sicher nicht auf den Einsatzsubjektiver Wahrscheinlichkeiten festgelegt. Natürlich würden wir dortobjektive bevorzugen, nur dass wir die oft nicht zur Verfügung haben. Inden kritischeren Darstellungen zur Entscheidungstheorie werden dieseFragen umfangreich diskutiert, worauf ich hier nicht entsprechend aus-führlich eingehen kann. Doch an drei Problemen möchte ich ein wenigbeleuchten, welcher Art die Probleme dabei sein können. Das ist dasBriefumschlagsparadox, das Ziegenproblem und das St. Petersburg Para-dox. Der Leser findet dazu eine Fülle von Material z.B. im Internet.

Das Briefumschlagsparadox ist schnell erzählt. Sie befinden sich ineiner Gameshow und dürfen einen von zwei Briefumschlägen auswählen

Page 424: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 412

und dann aufmachen. In beiden Umschlägen ist Geld enthalten, aber indem einen doppelt so viel, wie in dem anderen. Sie wissen eben nurnicht, in welchem sich die höhere Summe befindet. Sie wählen zunächsteinen aus und schauen hinein. Es sind 100 Euro enthalten. Nun dürfenSie aber noch wechseln und könnten statt des ersten Umschlags auchden anderen wählen. Wie sollten Sie sich rationalerweise verhalten?

Es scheint klar zu sein, dass Ihre neuen Informationen über die Sum-me in dem Umschlag hier nicht weiter führen. Es ist völlig gleichgültig,welchen der Umschläge Sie wählen, denn Sie haben keine Ahnung, inwelchem die größere Summe enthalten ist. Sind Sie für ein wichtigesProjekt auf zusätzliche 200 Euro zwingend angewiesen, sollten Sie na-türlich den anderen Umschlag wählen, um die Chance auf die 200 Eurobeizubehalten. Aber wir gehen davon aus, dass es solche speziellen Wün-sche nicht gibt, und es Ihnen schlicht darum geht, möglichst viel Geldmitzunehmen.

Nun kommt die bayesianische Entscheidungstheorie ins Spiel, umuns doch noch zu helfen. Sie legt uns folgende Überlegung nahe: Es gibtzwei gleichberechtigte Möglichkeiten. Erstens könnten im anderen Brief50 Euro sein und zweitens 200 Euro. Was würde uns dann bei einemWechsel statt der erhaltenen 100 Euro erwarten? Lassen Sie uns den so-genannten Erwartungswert bestimmen:

Erwartungswert(anderer Umschlag) = ½50+½200 = 125

Also wäre danach ein durchschnittlicher Gewinn von 25 Euro durcheinen Wechsel zu erwarten. Wir sollten demnach wechseln. Und das Er-gebnis wäre für jeden positiven Eurobetrag entsprechend ausgefallen.Doch das erscheint uns ganz unplausibel angesichts der völligen Symme-trie der beiden Umschläge. Irgendetwas ist schiefgegangen. Was das ist,dazu gibt es unterschiedliche Vorschläge, die ich nicht diskutieren wer-de. Dagegen möchte ich für folgende Einsicht argumentieren: Nicht im-mer bietet eine solche entscheidungstheoretische Analyse Vorteile gegen-über der simplen intuitiven Betrachtung. Sie kann uns sogar auf komi-sche Abwege führen. Damit wir eine vernünftige Entscheidung treffenkönnen, müssen wir zunächst ein sinnvolles probabilistisches Modellaufstellen, und das ist uns in diesem Fall wohl nicht gelungen, obwohlunsere Modellierung hier keineswegs subjektiv erscheint. Vielmehr ha-ben wir uns auf ein Indifferenzprinzip für die Vorher-Wahrscheinlichkei-ten gestützt und damit selbst einem objektiven Bayesianismus Genügegetan.

Page 425: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

413 Thomas Bartelborth: Induktives Schließen

Ähnliche Probleme, zunächst ein sinnvolles Wahrscheinlichkeitsmo-dell zu finden, kennen wir aus dem berühmten Ziegenproblem (und sei-nen Varianten), das ich bereits im ersten Kapitel dargestellt habe undnun wenigstens noch einmal kurz erwähnen möchte: Sie sind Kandidatin einer Gameshow und sehen sich drei Türen gegenüber. Hinter einerist ein Ferrari, hinter den anderen beiden eine Ziege. Sie möchten denFerrari. Nun dürfen Sie sich zunächst völlig frei für eine Tür entschei-den. Nehmen wir etwa einmal Tür 1. Der Moderator weiß, wo der Fer-rari steht und muss Ihnen nun einen Tipp geben, indem er von den ver-bleibenden zwei Türen (2 und 3) eine öffnet, hinter der jedenfalls eineZiege steht. Nehmen wir an, es sei Tür 2. Dann haben Sie noch einmaldie Möglichkeit zu wechseln und statt Tür 1 nun auf Tür 3 umzu-schwenken. Sollten Sie das tun? Selbst gestandene Statistiker waren sichdarin unsicher und schrieben z.T. wütende Briefe gegen die erste Auflö-sung des Problems. Ja, Sie sollten wechseln. Die Gewinnwahrscheinlich-keit von Tür 1 ist 1/3, während die von Tür 3 doppelt so hoch ist und2/3 beträgt. Der Moderator verweist mit seinem Hinweis, dass hinterTür 2 eine Ziege steht, indirekt darauf, dass dann ein Ferrari, der nichthinter Tür 1 zu finden ist, in jedem Fall nur noch hinter Tür 3 stehenkann. Es gibt unterschiedliche Wege, sich das zu verdeutlichen und mankann es sogar experimentell überprüfen, indem man das Spiel mehrfachwiederholt und die Gewinnraten bestimmt.

Ein kurzer Hinweis dazu: Wenn wir das Spiel etwa 99-mal wiederho-len und uns dabei strikt an die Strategie halten, immer an unserer erstenWahl festzuhalten, wie viele Ferraris werden wir wohl mitnehmen? Dasswir sogleich richtig liegen hat eine Wahrscheinlichkeit von 1/3 also wer-den es ca. 33 Ferraris sein. Das bedeutet aber, dass jemand mit derGegenstrategie (oder ein zweiter Spieler), der also immer die verbliebe-ne andere Tür wählt, die restlichen 66 Ferraris gewinnen würde, da derModerator schließlich immer nur Ziegentüren öffnet und immer einFerrari im Spiel ist. Wenn Ihnen das immer noch nicht einleuchtet, istdas für meinen Punkt umso besser. Es zeigt, dass die größten Problemeoft in der Wahl eines geeigneten Modells liegen und nicht unbedingtdurch den Rechenapparat gelöst werden. Außerdem zeigen unsere intui-tiven Probleme mit der Lösung, dass wir in unseren tatsächlichen Über-legungen keineswegs Bayesianer zu sein scheinen.

Allerdings kann auch der Mix von Wahrscheinlichkeit und Nutzen-werten zu speziellen Problemen führen. Das zeigt sich im St. PetersburgParadox. Dabei wird jemand gefragt, welchen Einsatz er für das folgendeSpiel zahlen würde, um daran teilnehmen zu dürfen: Es wird jeweils

Page 426: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 414

eine faire Münze geworfen. Im ersten Schritt erhält man 2 Euro, wennKopf fällt, und das Spiel ist dann zu Ende. Fällt dagegen Zahl, geht esweiter zum zweiten Schritt. Im zweiten Schritt erhält man 4 Euro, wennKopf fällt und es stoppt dann. Fällt dagegen Zahl, gehen wir zum drittenSchritt, bei dem der Einsatz wieder verdoppelt wird (also auf 8 Euro)usf. Hält man längere Zeit durch (fällt also häufiger Zahl) kann man hö-here Gewinne erzielen. Doch wie wahrscheinlich sind solche Gewinne?Jedenfalls ist kaum jemand bereit, mehr als 20 Euro für die Teilnahmean diesem Spiel zu bezahlen. Ist das rational oder sind wir etwa alledumm? Der Bayesianer scheint uns das nahezulegen, denn er rechnetwie folgt:

Erwartungswert(Spiel) = 1/22+1/44+1/88+... = 1+1+1+... = ∞

Danach dürfen wir unendlich hohe Gewinne in diesem Spiel erwartenund sollten also auf jeden Fall unser ganzes Vermögen dafür hergeben,daran teilnehmen zu dürfen. Doch trotz dieser Rechnung wirkt daskaum überzeugend. Die hohen Gewinne treten nur bei langen Serienvon Zahl auf. Warum sollte ich die so stark berücksichtigen? Der Trickist natürlich, dass die Auszahlungen gerade so stark ansteigen, dass siedas Abfallen der Wahrscheinlichkeit genau ausgleichen. Auch hierfürwurden viele Lösungen vorgeschlagen, die aber auch nicht ganz unpro-blematisch sind.

Ein erster naheliegender Schritt der Bernoulli-Brüder war es, einespezielle Nutzenfunktion einzuführen. Wir dürfen nicht einfach anneh-men, dass zwei Milliarden Euro tatsächlich für uns doppelt so viel Wertbesitzen wie eine Milliarde Euro. Der Nutzengewinn nimmt mit höhe-ren Beträgen langsam ab. Die Ökonomen sprechen vom abnehmendenGrenznutzen. Wir benötigen daher eine Nutzenfunktion U, die einemGeldbetrag einen Nutzen zuordnet. Ein Vorschlag ist etwa, den Log-arithmus zur Basis 2 zu wählen. Dann ergibt sich für unseren Erwar-tungswert:

Erwartungswert(Spiel) = n 1/2nlog2(2n) = n n/2n

Das ist zumindest ein endlicher Wert und wir können neue Hoffnungschöpfen, dass wir durch derartige Nutzenfunktionen auch solche Spielewieder besser repräsentieren können. Allerdings bleibt das Problem be-stehen, dass jede Nutzenfunktion U eine feste Größe für eine bestimmtePerson darstellt, die für sie ebenso in anderen Spielen gilt. Normalerwei-se wird darüber hinaus angenommen, dass jeder Zuwachs an Geld zu-mindest noch einen bestimmten wenn auch kleinen Nutzenzuwachs bie-

Page 427: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

415 Thomas Bartelborth: Induktives Schließen

tet und die Nutzenfunktion daher monoton wächst. Dann lässt sich wie-der ein ähnliches Spiel mit etwas höheren Auszahlungen finden, das unsgenauso wenig unendlich wertvoll erscheint, für das wir aber wieder un-endliche Erwartungsnutzenwerte erhalten. Zu einer monoton wachsen-den Nutzenfunktion U müssen wir nur die Umkehrfunktion U–1 heran-ziehen und die Auszahlungen auf U–1(2n) erhöhen. Dann erhalten wir:

Erwartungswert(Spiel) = n 1/2nU(U–1(2n)) = n 2n/2n = ∞

In unserem Beispiel müssten wir auf jeder Stufe nicht die Auszahlung 2n

vornehmen, sondern 2(2^n). Trotzdem würde niemand (mit einem gewis-sen Vermögen) sein ganzes Geld dafür hergeben, an diesem Spiel teilzu-nehmen.

Es bleibt dann nur noch der (ad-hoc?) Ausweg, Zuwächse an Geld abeinem bestimmten Niveau überhaupt nicht mehr als Nutzenzuwachs zubetrachten (vgl. Büchter & Henn 2007). Dadurch bleibt natürlich derErwartungswert im endlichen Bereich. Ob sich dadurch sinnvolle Nut-zenwerte ergeben, ist allerdings eine andere Frage, die wir der weiterenDebatte in der Entscheidungstheorie überlassen.

Das Beispiel sollte nur noch einmal zeigen, dass die bayesianischenKalkulationen im Rahmen der Entscheidungstheorie keineswegs nur er-folgreiche und intuitive Anwendungen des Bayesianismus darstellenmüssen. Hier lauern viele Fallstricke, für deren Lösung wir an unter-schiedlichen Stellen unserer Modellierung eingreifen und Anpassungenvornehmen müssen (hier an der Nutzenfunktion), um ein brauchbaresResultat zu erhalten. Trotzdem ist klar, dass wir unsere epistemischenResultate letztlich u.a. in den Dienst praktischer Entscheidungen stellenmüssen und dazu hat der Bayesianismus zumindest ein konkretes Ange-bot vorgestellt. Das können wir als Pluspunkt für ihn betrachten, selbstwenn es eine ganze Reihe von Wermutstropfen gibt. Ob er dabei abertatsächlich besser abschneidet als die klassische Erkenntnistheorie,möchte ich dagegen offen lassen.

5.6.2 Das Duhem-Quine-ProblemDas Duhem-Quine-Problem kennen wir bereits aus dem deduktiv-hypo-thetischen Ansatz. Wenn Quine mit seinem nicht weiter qualifizierten er-kenntnistheoretischen Holismus Recht hätte, dann könnten wir nur dasganze Netz unserer Überzeugungen mit unseren Beobachtungen verglei-chen und hätten bei Konflikten zwischen unseren Überzeugungen undunseren Beobachtungen die Wahl, irgendwo im Netz (sogar bei den logi-schen Regeln) eine Änderung vorzunehmen, um diesen Konflikt zu be-

Page 428: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 416

seitigen. Wir würden dabei aus praktischen Gründen vor allem in derPeripherie nach Änderungsmöglichkeiten suchen, da das vermutlich denkleinsten Umbau unseres Überzeugungssystems mit sich bringen würde,aber erkenntnistheoretische Gründe hätte das keine. Zumindest könntenwir nicht aus objektiven Gründen auf spezielle Hypothesen als Übeltäterzeigen und diese dann als falsifiziert betrachten. Ebenso wenig könnenwir dann bestimmten Hypothesen den Verdienst zuschreiben, wenn einbeobachtetes Datum (probabilistisch) aus unseren Hypothesen abgeleitetwerden kann. Das Verdienst kommt immer nur dem ganzen Überzeu-gungssystem zu und kann eben nicht isoliert verteilt werden.

Doch die Praxis der Wissenschaften sieht ganz anders aus. Mir sindjedenfalls keine Fälle aus der Wissenschaft bekannt, in denen man zurLösung eines Konflikts zwischen Theorien und Daten die Regeln der Lo-gik verändert hätte. Natürlich kann man durch Aufgabe des Modus Tol-lens und das Akzeptieren von Inkonsistenzen solche Probleme formalaus der Welt schaffen, aber die Frage ist eigentlich, ob das auch ein me-thodologisch sinnvolles Vorgehen für die Wissenschaft wäre. Es gibtzwar schon Fälle, in denen wir scheinbar inkonsistente Theorien akzep-tieren. Lakatos (1974) hatte ein solches Beispiel im bohrschen Atommo-dell gesehen, aber hier liegen eigentlich andere Interpretationen nahe,nach denen wir schlicht den Anwendungsbereich der klassischen Elek-trodynamik einschränken und gebundene Elektronen davon ausnehmen(vgl. Bartelborth 1989). Quine (1979) erwähnt noch den Einsatz einerdreiwertigen Logik in der Quantenmechanik. Dabei ging es jedoch nichtdarum, die Theorien mit den Daten zu versöhnen, sondern vielmehrdarum, ein verständliches Interpretationsmodell für die Quantenmecha-nik zu entwickeln. Doch selbst dazu konnte die dreiwertige Logik nichtsehr viel beisteuern, weil der dritte Wahrheitswert in diesem Anwen-dungsfall nicht wirklich verständlicher ist, als das zugrunde liegendeProblem der Quantenmechnik, wonach bestimmte Größen nicht zu-gleich eindeutig bestimmte Werte aufweisen können. Also scheint Quinedie Konsequenzen für die Wissenschaft zu übertreiben.

Es stimmt aber, dass wir normalerweise nicht allein aus einer entwi-ckelten wissenschaftlichen Theorie T bereits bestimmte Daten ableitenkönnen, sondern, dass wir weitere Hilfsannahmen A dazu benötigen. Imeinfachen Fall sagt etwa T in einer bestimmten Anwendung einen Wert rfür eine theoretische Größe g vorher, und wir akzeptieren die Hilfsan-nahme A, dass ein bestimmtes Messgerät oder Verfahren diese Größekorrekt misst. Oder A beinhaltet, dass bestimmte Anfangswerte oderentsprechende Annahmen gegeben sind. Nehmen wir also z.B. an, dass

Page 429: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

417 Thomas Bartelborth: Induktives Schließen

eine Aussage E* (etwa g=r in unserer Anwendung) oder einfach ~E ausT und A deduktiv folgt, wir aber tatsächlich E beobachten, das mit E*logisch unverträglich ist. Unsere Frage ist dann typischerweise: Wentrifft hier die Schuld, T oder A? Klar ist, dass T&A falsifiziert ist, aberwelche der beiden Teilaussagen sollten wir in so einem Fall als falsifiziertbetrachten? Dazu müssen wir nachsehen, inwiefern T und A unter-schiedlich behandelt werden können. Doch wo können in der bayesiani-schen Betrachtung die Asymmetrien zu finden sein, die uns hier weiter-helfen?

Sie könnten z.B. in unterschiedlichen Likelihoods bestehen. In unse-rer Situation gilt jedenfalls: P(E|T&A)=0. Nun betrachten wir das Up-daten von T und A jeweils für sich:

(1) P+(T) = P(T|E) = P(T&~A|E)+P(T&A|E) =P(E|T&~A)P(T&~A) / P(E)

Das erste Problem dürfte sein, dass P(E|T&~A) nicht objektiv bestimmtist. Aus T&A folgt zwar E*, aber für T&~A wissen wir nicht viel. Wennunsere Theorie zwar stimmt, aber unser Messverfahren nicht mehr, wiegroß soll dann unser Messwert für g sein? Das können wir wohl zu-nächst nur als subjektive Wahrscheinlichkeit konzipieren. Die Likeli-hoodanbindung versagt hier, da die entsprechende objektive Likelihoodim Normalfall nicht bestimmt ist.

Das ist auch ein Problem der klassischen Statistik, die ganz auf objek-tive Likelihoods vertraut. Um etwa einen Signifikanztest anwenden zukönnen (der auch eine Form von statistischer Falsifikation darstellt),müssen daher die Hypothesen typischerweise ganz einfach sein, so dassdie Messung der betreffenden Größen keine zusätzlichen Risiken mitsich bringt und wir einfach davon ausgehen dürfen, dass die erforderli-chen Hilfsannahmen wie A in jedem Falle wahr sind. Dann trifft die Fal-sifikation eindeutig die betrachteten Hypothesen und die Likelihoodslassen sich eher bestimmen.

In unserem Beispiel können wir (ähnlich wie das Howson & Urbach1993 machen) einfach davon ausgehen, dass g endlich viele, unter-schiedliche diskrete Werte annehmen kann und wir auf denen eineGleichverteilung vornehmen dürfen. Dann wird P(E|T&~A) relativklein werden. Sollten wir darauf allerdings eine Lösung des Duhem-Qui-ne-Problems aufbauen wollen, wäre die ganz auf unsere subjektive Vor-gabe von Vorher-Wahrscheinlichkeiten angewiesen und damit eigentlichkeine Lösung, die durch den bayesianischen Apparat nahegelegt würde.Wir erhalten ganz symmetrisch die Gleichung für A:

Page 430: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 418

(2) P+(A) = P(E|~T&A)P(~T&A) / P(E)

Für die Likelihood P(E|~T&A) gilt aber dasselbe, was wir oben fürP(E|T&~A) gesagt haben und somit kämen wir vermutlich am ehestenzu denselben subjektiven Werten. Dann können wir die Likelihoods spä-ter rauskürzen. Wir kommen nun ein Stück weiter, indem wir wiederden Quotienten der beiden Wahrscheinlichkeiten betrachten und zusätz-lich noch annehmen, dass T und A statistisch unabhängig sind, so dasszumindest P(T&A)=P(T)P(A) ist. Diese Annahme ist oft nicht ganz un-plausibel, denn die Wahrheit der Theorie und die korrekte Arbeit desMessinstruments hängen nur dann zusammen, wenn das Messinstru-ment sich bereits auf die Theorie stützen muss. Das kann allerdings auchpassieren, aber wird zunächst einmal ausgeklammert, um überhaupt zuweiteren Einsichten für diesen Fall zu gelangen. Damit ergibt sich:

(3) P+(T) / P+(A) =[P(E|T&~A)P(~A)P(T)] / [P(E|~T&A)P(~T)P(A)]

Darin können wir den Faktor

(4) Q(T/A) = [P(E|T&~A)P(~A)] / [P(E|~T&A)P(~T)]

als Quotientenupdatefaktor betrachten, der darüber entscheidet, wiesich das Verhältnis der Wahrscheinlichkeiten von T und A durch das Up-daten ändert. Dazu können wir nun zwei Fälle betrachten. Erstens neh-men wir an, dass die beiden Likelihoods, die wir nun schätzen müssen,schlicht gleich sind, da wir eigentlich nicht viel über sie wissen (s.o.), al-so:

P(E|T&~A) = P(E|~T&A)

Dann entscheiden nur noch die Vorher-Wahrscheinlichkeiten von T undA über den Quotientenupdatefaktor.

(5) Q(T/A) = [1–P(A)] / [1–P(T)]

Das bedeutet, dass bei gleichen Wahrscheinlichkeiten für T und A, alsoP(T)=P(A), der Faktor 1 ist. Dann sind also auch die Nachher-Wahr-scheinlichkeiten von A und T gleich. Oder wir müssen wieder auf dieGleichung (4) zurückgehen und doch noch Gründe für einen Unter-schied in den Likelihoods finden. Die könnten dann den Fall entschei-den.

Ist aber P(T)>P(A), so wird der Updatefaktor größer als 1 und damitverändert sich zumindest das Verhältnis der Wahrscheinlichkeiten von Aund T weiter zugunsten von T.

Page 431: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

419 Thomas Bartelborth: Induktives Schließen

Beispiel dazu: P(T)=0,9 und P(A)=0,7, dann ist P(T)/P(A)≈1,3 undQ(T/A)=3, d.h., dann ist P+(T)/P+(A)≈3,9

Das Verhältnis der Wahrscheinlichkeiten für T relativ zu A ändert sichalso von 1,3 auf 3,9. Das heißt, dass die weniger plausible Aussage hierweiter abgewertet wird gegenüber der plausibleren Aussage. Da in unse-rem Beispiel die Theorie T ursprünglich plausibler ist, trifft die Falsifika-tion von T&A vor allem A. Als Konsequenz könnte man sagen, dass Adurch E falsifiziert wird und T nicht so betroffen ist.

Mit Hilfe einiger Zusatzannahmen ist es uns gelungen, einen relativallgemeinen Zusammenhang zu finden, der die bayesianische Varianteder Regel des schwächsten Gliedes darstellt. Diejenige Aussage, die un-wahrscheinlicher ist, sollte aufgegeben werden, wenn eine Konjunktionfalsifiziert wurde.

Das wird von Bayesianern als großer Erfolg des bayesianischen Pro-gramms gesehen (vgl. Earman 1992, Kap. 3.7). Doch genau genommenberuht der ganze Erfolg vor allem auf der Einschätzung der Startwahr-scheinlichkeiten und für die liefert der subjektive Bayesianismus keineHilfestellung. Auch die Quantifizierung der jeweiligen Abwertungenhängt wesentlich an bloß subjektiven Größen (da uns die Likelihoodan-bindung hier normalerweise nicht weiterhilft) und stellt daher keine be-sondere Leistung des Bayesianismus dar. Er sagt uns das, was auch alssinnvolle Regel für den deduktiv-hypothetischen Ansatz gilt: Wenn T&Azu einem Widerspruch mit den Daten führt, dann gib die Aussage vonbeiden auf, die uns schon vorher als unwahrscheinlicher erschien bzw.,die schon vorher schlechter begründet war.

Dazu gibt es aber auch ganz andere Antworten, die etwa auf die inne-re Struktur von Theorien und ihre Erklärungskraft Bezug nehmen. In-nerhalb der sogenannten strukturalistischen Theorienauffassung (vgl.Bartelborth 1996) werden entwickelte Theorien als komplexe Theorien-netze dargestellt, die verschiedene Theorieelemente Ti mit unterschiedli-chem Spezialisierungsgrad und verschiedenen Komponenten aufweisen.Kommt es nun zu Konflikten mit der Erfahrung, wird normalerweise zu-nächst versucht, Änderungen in den entfernten Spezialisierungen unddort in den weniger zentralen Komponenten vorzunehmen und damitdie Konflikte aufzulösen. Erst wenn das nicht mehr gelingt, geht man zuAbänderungen an zentraleren Bestandteilen über (vgl. Gähde & Steg-müller 1988 für eine entsprechende Fallstudie). Das hat u.a. etwas mitder Erklärungsstärke der abgeänderten Theorie zu tun. Die Erklärungs-stärke nimmt am wenigsten ab, wenn wir nur in der Peripherie derTheorie Abschwächungen vornehmen und die meisten Erklärungen der

Page 432: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 420

Theorie weiter aufrechterhalten werden können, denn diese Vereinheit-lichungsleistung ist ein wichtiger Aspekt der Erklärungsstärke.

Derartige Überlegungen können tatsächlich Einblick in unsere Me-thodologie der Theorienänderung geben und könnten dann auch −wenn sie erfolgreich sind − eine gehaltvolle Antwort auf das Duhem-Quine-Problem bieten, doch die bayesianische Rekonstruktion der Regelvom schwächsten Glied kann keine derartigen Einsichten vermitteln, sodass ich hier keine spezielle bayesianische Auflösung des Problems er-kennen kann. Der Bayesianismus geht nicht wesentlich über das deduk-tiv-hypothetische Schließen kombiniert mit dieser Regel hinaus, zumaler auf weitere Zusatzannahmen über die Likelihoods und statistischeUnabhängigkeit angewiesen ist.

Wir können den Effekt auch an einem explizit und vollständig be-stimmten probabilistischen Überzeugungssystem vorführen. Daran kön-nen wir auch relativ einfach den Effekt bestimmter Wahlen subjektiverLikelihoods nachzeichnen. Gehen wir also davon aus, dass wir es mitden drei Aussagen T, A und E zu tun haben und dass T und A unabhän-gig sind: P(T&A)=P(T)P(A). Dann haben wir es mit einem kleinen bay-esschen Netz zu tun: AET, für das wir nur bestimmte Wahrschein-lichkeiten bestimmen müssen, um damit alle Wahrscheinlichkeiten unse-res Überzeugungssystems festzulegen. Nehmen wir dazu etwa die folgen-den und stellen die Negationen wieder durch kleine Buchstaben dar:

P(T) = 0,9 P(t) = 0,1P(A) = 0,6 P(a) = 0,4P(E|TA) = 0 P(e|TA) = 1P(E|Ta) = x = 0,1 P(e|Ta) = 1–x = 0,9P(E|tA) = y = 0,2 P(e|tA) = 1–y = 0,8P(E|ta) = z = 0,3 P(e|ta) = 1–z = 0,7

Wir müssen also insgesamt 6 Wahrscheinlichkeiten festlegen, währendsich alle anderen daraus ergeben. Dabei bin ich davon ausgegangen, dassdie Wahrscheinlichkeit E klein bleibt, wenn etwa nur unsere HilfstheorieA falsch sein sollte und erst dann größer wird, wenn auch T falsch ist,aber hier könnte man natürlich ebenso gut x, y und z variieren undnachsehen, was dann jeweils passiert. Entsprechend der Formel für bay-essche Netze können wir dann leicht die weiteren gemeinsamen Vertei-lungen angeben, so gilt z.B. P(EtA) = P(t)∙P(A)∙P(E|tA) = 0,0012. Ent-sprechend erhalten wir:

Page 433: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

421 Thomas Bartelborth: Induktives Schließen

P(ETA) = 0 P(eTA) = 0,54P(ETa) = 0,036 P(eTa) = 0,324P(EtA) = 0,012 P(etA) = 0,048P(Eta) = 0,012 P(eta) = 0,028

Jetzt können wir mit E updaten (wodurch T&A falsifiziert wird) und se-hen, was sich für die Annahmen T und A jeweils einzeln dabei ergibt:

P(E) = 0,036 + 0,012 + 0,012 = 0,06P(ET) = 0,036P(EA) = 0,012P+(T) = P(ET)/P(E) = 0,036/0,06 = 0,6P+(A) = P(EA)/P(E) = 0,012/0,06 = 0,2

Man sieht sehr deutlich, dass beide Aussagen A und T abgewertet wur-den, aber dass die Abwertung von A viel deutlicher ist als die von T. Wirkönnen nun schnell auch noch den Fall betrachten, in dem wir mit ~Eupdaten und damit unsere Theorie T und die Hilfsannahmen A einStück weit bestätigen. Man könnte sagen, dass es sich dabei um das um-gekehrte Duhem-Quine-Problem handelt. Wir möchten nun nicht wis-sen, wer der Hauptschuldige für die Falsifikation ist, sondern vielmehr,wer am meisten von einer Bestätigung profitiert:

P(e) = 0,54 + 0,324 + 0,048 + 0,028 = 0,94P(eT) = 0,54 + 0,324 = 0,864P(eA) = 0,54 + 0,048 = 0,588P*(T) = P(eT)/P(e) = 0,864/0,94 = 0,92P*(A) = P(eA)/P(e) = 0,588/0,94 = 0,626

Auch hier kann der Bayesianer genauer beschreiben, wie sich die Bestäti-gungswirkung durch ~E auf die beiden Annahmen verteilt. Auffällig isthier etwa, dass selbst T noch sehr deutlich von der Bestätigung profi-tiert, obwohl T bereits eine hohe Wahrscheinlichkeit aufwies.

Deutlicher lässt sich das noch für andere Ausgangswerte erkennen.Wählen wir etwa für unsere Theorie nun noch geringere Ausgangswerteund schauen, was dann passiert:

P(T) = 0,6 P(t) = 0,4P(A) = 0,3 P(a) = 0,7P(E|TA) = 0 P(e|TA) = 1P(E|Ta) = x = 0,1 P(e|Ta) = 1–x = 0,9P(E|tA) = y = 0,2 P(e|tA) = 1–y = 0,8P(E|ta) = z = 0,3 P(e|ta) = 1–z = 0,7

Page 434: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 422

Nun müssen wir die grundlegende Verteilung neu bestimmen:

P(ETA) = 0 P(eTA) = 0,18P(ETa) = 0,042 P(eTa) = 0,378P(EtA) = 0,024 P(etA) = 0,096P(Eta) = 0,084 P(eta) = 0,196

Dann können wir wieder mit ~E updaten und erhalten diesmal:

P(e) = 0,85P(eT) = 0,18+0,378 = 0,558P(eA) = 0,378 + 0,096 = 0,474P*(T) = P(eT)/P(e) = 0,558/0,85 = 0,656P*(A) = P(eA)/P(e) = 0,474/0,85 = 0,558

Hier wird deutlich, dass vor allem die schwächere Hypothese durch diebestätigenden Daten bestätigt wird. Das zeigt ein allgemeines Phäno-men, das aber natürlich auch von den Werten von x, y und z abhängt.Der Leser möge nun selbst mit entsprechenden Werten weiter experi-mentieren.

5.6.3 Ad-hoc-HypothesenDurch eine Abänderung von Hilfsannahmen können wir unsere Theo-rien praktisch immer vor einer Falsifikation retten. Wenn also T&A zueinem Widerspruch mit der Erfahrung führt, suchen wir nach einerHypothese A*, so dass T&A* wieder mit unseren Beobachtungen ver-träglich ist. Eine Hypothese vom Typ A*, die nur dazu entwickelt wur-de, um eine Theorie zu retten, die aber selbst keine oder nur geringeStützung durch andere Aussagen erfährt, nennen wir eine Ad-hoc-Hypo-these. Da sie verhindert, dass wir unsere Theorie T falsifizieren können,hat insbesondere Popper Ad-hoc-Hypothesen als epistemisch minder-wertig betrachtet und wollte ihren Einsatz ganz verbieten.

In der Wissenschaft war man aber nicht daran interessiert, bei Pro-blemen mit den Daten sogleich seine besten Theorien aufzugeben undsuchte daher immer wieder nach passenden Ad-hoc-Hypothesen. Alsman im Rahmen der Phlogistontheorie, wonach eine Verbrennung dasEntweichen des Feuerstoffs Phlogiston darstellt, die bei einer Verbren-nung übrig bleibenden Stoffe gewogen hat, und diese schwerer waren alsvor der Verbrennung, hat man kurzerhand vermutet, dass Phlogiston ne-gatives Gewicht haben müsste. Oder als der Planet Merkur sich nicht soverhielt, wie es die newtonsche Gravitationstheorie vorhersagte, nahmman einfach an, es müssen noch einen sonnennäheren noch nicht ent-

Page 435: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

423 Thomas Bartelborth: Induktives Schließen

deckten Planeten Vulkan geben, der für die Abweichungen verantwort-lich sei. Oder als Michelson und Morley den Ätherwind beim Durch-gang der Erde durch den Äther mit Hilfe eines Interferometers messenwollten, aber dabei immer nur Nullergebnisse bekamen, hat man nichtgleich die Äthertheorie aufgegeben, sondern Lorenz hat behauptet, dasssich das Messgerät beim Durchfliegen des Äthers genau so weit verkürzt,dass dadurch der Effekt nicht mehr messbar wird. Sind das dann keineFälle von sauberer Wissenschaft mehr?

Der Bayesianer könnte sagen, dass Ad-hoc-Hypothesen solche sind,die eine geringe Vorher-Wahrscheinlichkeit aufweisen, da sie ja nichtdurch andere Erkenntnisse gestützt werden. Das spräche ebenfalls dafür,sie eher zu verbieten. Doch schon der Kohärenztheoretiker sieht das an-ders. Sie sind dadurch gerechtfertigt, dass sie zur Gesamtkohärenz eineMenge beisteuern können, weil sie schließlich eine im Übrigen erklä-rungsstarke Theorie retten helfen. Die kann aber eindeutig kohärenzstif-tend sein. Ob die Ad-hoc-Hypothesen sich schließlich als Fortschritt er-weisen werden oder doch nur als Sackgasse kann man nicht von vorne-herein wissen. Hinterher sind wir natürlich immer schlauer und könnenvielleicht über bestimmte Irrwege der Phlogistontheoretiker lachen,doch viele, die zu ihrer Zeit verlacht wurden, hatten fortschrittlicheIdeen zu bieten. Die Bahnstörungen des Uranus ließen ebenfalls im 19.Jh. vermuten, dass es noch einen weiteren Planeten (den Neptun) gebenmüsste, und der wurde dann tatsächlich an der vermuteten Stelle ent-deckt. Die Annahme des Uranus war also erfolgreich, die des Vulkansbekanntlich nicht. Beide Annahmen erfolgten durch den AstronomenLeverrier.

Keiner kann von vornherein sagen, welche Ad-hoc-Hypothesen sichals progressiv und welche sich als Sackgasse entpuppen werden. Ad-hoc-Hypothesen, die darüber hinaus praktisch empirisch kaum testbar sind,stellen sicherlich ein Problem dar, aber das muss keineswegs mit demAd-hoc-Charakter der Hypothesen zu tun haben. Wir müssten also zwi-schen guten und schlechten Ad-hoc-Hypothesen unterscheiden können,wenn wir Popper überhaupt folgen möchten. Da bisher keineswegs klarist, wie das geschehen sollte, sollten wir lieber davon Abstand nehmen.Dann hat aber auch der Bayesianismus nicht viel dazu zu sagen. Der Ko-härenztheoretiker wird hingegen eine Antwort geben: Akzeptiere dieAd-hoc-Hypothesen, solange sie weniger Inkohärenzen aufweisen, als sievermeiden helfen. Beim negativen Gewicht des Phlogistons kann manschon sagen, dass wir eine geradezu analytische Inkonsistenz heraufbe-schwören, wenn wir von einem Gewicht annehmen, dass es negativ sein

Page 436: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 424

könnte. Dem mussten also schon gute Gründe gegenüberstehen, um dasnoch wenigstens zu einem bestimmten Zeitpunkt zu akzeptieren. Ob dashistorisch der Fall war, scheint mir eher zweifelhaft, aber das könnenwir hier nicht verfolgen. Jedenfalls ist die Wissenschaft voll von solchenBeispielen von Ad-hoc-Hypothesen und der Bayesianismus gibt unsnicht unbedingt hilfreiche Einblicke in die erkenntnistheoretischen Pro-bleme dieser Annahmen. Das scheint vor allem daran zu liegen, dass hierbestimmte holistische Effekte im Spiel sind. Die Ad-hoc-Hypothesensind nicht für sich genommen epistemisch wertvoll und werden insbe-sondere nicht direkt durch die Daten gestützt, aber sie sind epistemischwertvoll über den Umweg der Theorie, die sie retten. Das kann eine Ko-härenzkonzeption der Rechtfertigung besser erfassen als der Bayesianis-mus.

5.6.4 Die RabenparadoxieWir haben bereits als Problem für das deduktiv-hypothetische Schließendie Rabenparadoxie kennengelernt. Da der Bayesianismus deduktive Be-ziehungen reproduziert, ist er ebenso mit diesem Paradox belastet. Aller-dings schrieben sich Bayesianer auf die Fahnen, dass sie eine Lösung an-zubieten haben. Zur Erinnerung: Das Paradox besteht darin, dass dieHypothese H x(RxSx) (Alle Raben sind schwarz) intuitiv durcheine Instanz der Art A Ra&Sa bestätigt wird und dann die zu H äqui-valente Kontraposition Hk x(~Sx~Rx) dementsprechend durchdie „Gegeninstanz“ E ~Sa&~Ra bestätigt würde, was natürlich auchzugleich H mitbestätigen sollte. Doch wie kann ein Gegenstand, der we-der schwarz noch ein Rabe ist, unsere ursprüngliche Hypothese H bestä-tigen? Das kommt uns recht unplausibel vor. Wie sieht das im Bayesia-nismus aus? Die Lösungsidee der Bayesianer ist simpel. Sie akzeptieren,dass A unsere Hypothese H normalerweise bestätigt und ebenso, dassdie Gegeninstanz H bestätigt, aber sie versuchen zu zeigen, dass die In-stanzen die Hypothese zumindest deutlich besser bestätigen als dieGegeninstanzen. Gegeninstanzen sollten bei geeigneten Hintergrundan-nahmen die Hypothese überhaupt nur minimal bestätigen.

Um diese Ergebnisse zu erhalten, werden normalerweise bestimmteAnnahmen akzeptiert (vgl. Vranas 2004, Fitelson & Hawthorne 2010mit ausführlichen Literaturhinweisen zur Rabenparadoxie).

Annahmen zum Rabenparadox(1) P(~Sa) > P(Ra)(2) P(Ra|H) = P(Ra)(3) P(~Sa|H) = P(~Sa)

Page 437: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

425 Thomas Bartelborth: Induktives Schließen

Dabei steht S für schwarz und R für Rabe und die Gleichungen sind je-weils immer auf ein bestimmtes normales Hintergrundwissen K zu relati-vieren, das ich aber hier und im Folgenden der Übersichtlichkeit halberweglasse. Das Beispiel von Good (s. Kap. 3.8) hat schon bewiesen, dasswir die Bestätigung durch eine Instanz nicht für jedes Hintergrundwis-sen erwarten dürfen, weshalb wir hier von einem gewöhnlichen Hinter-grundwissen ausgehen.

Dann besagt die Annahme (1), dass es viel mehr nicht-schwarze Din-ge als Raben gibt. Das ist in der Regel eine unbestrittene Annahme, dieder entscheidende Hintergrund dafür ist, dass die Gegeninstanzen weni-ger bestätigend sind als die Instanzen, weil es davon eben viel mehr gibtals von den Instanzen. Kontroverser sind da schon die Annahmen (2)und (3), nach denen die Beobachtungen Ra und ~Sa jeweils statistischunabhängig von H sind. Vranas (2004) bemängelt, dass es dafür keineRechtfertigungsversuche gibt. Man geht schlicht von diesen Annahmenaus, um das gewünschte Resultat zu erzielen. In Fitelson & Hawthorne(2010, Kap. 7) leiten die Autoren eine der Lösungen ohne entsprechendstarke Annahmen ab.

Zunächst einmal untersuchen sie unterschiedliche Bestätigungsmaßec und zeigen, dass das erwünschte Ergebnis äquivalent zu einer einfa-chen Ungleichung in den Wahrscheinlichkeiten ist. Es gilt:

(4’) c(H,A) > c(H,E)ist für die Maße 1-3 (s. Kap. 5.5.8) äquivalent zu

(4) P(H|A) > P(H|E)

Nur das zweite Differenzmaß fällt hier aus dem Rahmen. Da es ebenfallsaus anderen Gründen nicht sehr plausibel wirkt, ist das aber kein Bein-bruch. Es genügt demnach, (4) zu zeigen. Dazu nehmen die Autoren be-stimmte „Nichttrivialitätsannahmen“ (NT) an:

0 < P(H|Ra&Sa) < 1 und 0 < P(H|~Ra&~Sa) < 1 undP(~Sa&Ra) > 0 (immer relativ zu einem Hintergrundwissen K)

Dann leiten sie u.a. (durch das Betrachten bestimmter Likelihoodquo-tienten) das folgende Theorem ab:

Theorem (Fitelson/Hawthorne): Es gelte (NT) und außerdem(a) P(H|~Sa) P(H|Ra) und(b) Entweder P(~Sa) > P(Ra) oder P(~Sa|H) > P(Ra|H) oder

P(~Sa|~H) > P(Ra|~H)dann gilt:(c) P(H|A) > P(H|E)

Page 438: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 426

Das heißt, (a) wenn wir von einem zufällig ausgewählten Gegenstand aerfahren, dass er nicht-schwarz ist, sollte das unsere Hypothese jeden-falls nicht mehr stützen als die Information, dass es sich um einen Rabenhandelt. Außerdem wird in (b) verlangt, dass es mehr nicht-schwarzeDinge als Raben gibt, wenigstens in einer der drei Situationen. Dannlässt sich das gewünschte Ergebnis ableiten.

Außerdem erhalten wir entsprechende Abschätzungen für die Grö-ßenordnung des Unterschieds in der Bestätigung durch die Instanzenund die Gegeninstanzen. Dazu wird allerdings doch wieder eine appro-ximative Variante von Annahme (3) benötigt. Außerdem erweisen sichdie Unterschiede nicht gerade als beeindruckend.

Damit ist klar, wie die Bayesianer die Paradoxie zu lösen gedenken.Aber ist das schon eine überzeugende Lösung? Die Annahmen scheinennun tatsächlich akzeptabel, doch die Frage bleibt, ob Gegeninstanzenüberhaupt als bestätigende Instanzen für die Hypothese H zu betrachtensind. Siebel (2004) verneint das mit guten Gründen. Denken wir anunseren Biologen aus Kapitel 3.8. Er hofft auf ein Forschungsprojekt, indem er die Hypothese H bestätigen möchte, indem er lauter Gegenin-stanzen sammelt, wobei er die schwächere Bestätigung durch eine größe-re Zahl von Objekten wettmachen möchte. Selbst wenn wir es wissen-schaftlich für wertvoll hielten, H zu begründen, wird uns das kaumüberzeugen können. Der Biologe sammelt also weiße Schuhe, roteSportwagen, grüne Blätter, braune Äste, gelbe Bücher, etc. Er könnte aufdiese Weise sicher eine bedeutende Sammlung von Objekten aufstellen,die alle nicht-schwarz und Nicht-Raben sind. Sagt uns das schon irgend-etwas Interessantes über die Farbe von Raben? Angesichts der Mengenvon Objekten, die er hier sammeln könnte und angesichts dessen, dasser sich nie den Raben zuwendet, scheint uns das Projekt ziemlich sinnloszu sein. Wir sollten hier nicht davon sprechen, dass die Gegeninstanzenunsere Hypothese überhaupt stützen – noch nicht einmal schwach. Da-mit haben wir womöglich wieder einen ähnlichen Punkt erreicht wie inden Kritiken von Achinstein (s. Kap. 5.5.23), in dem wir auch festge-stellt haben, dass nicht jede Wahrscheinlichkeitserhöhung schon als Be-stätigung zu deuten ist. Man muss also wohl resümieren, dass die Über-legungen der Bayesianer das Paradox zwar etwas abschwächen, aberdoch nicht wirklich lösen.

5.6.5 Irrelevante KonjunktionenAus dem deduktiv-hypothetischen Ansatz haben wir außerdem noch dasProblem der irrelevanten Konjunktionen bzw. das Tacking-Paradox ge-

Page 439: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

427 Thomas Bartelborth: Induktives Schließen

erbt. Plagt es tatsächlich ebenso den Bayesianismus? Das scheint zumin-dest für den Fall zu gelten, in dem ein Datum E deduktiv aus einerHypothese H und unserem Hintergrundwissen K folgt. Dann scheintdas Problem der deduktive-hypothetischen Bestätigung sich zu wieder-holen, dass wir eine irrelevante Hypothese X zu unserer Theorie H hin-zufügen können, so dass sie gleich mitbestätigt wird:

(IK) Bdh(H|E;K) Bdh(H&X|E;K)

Das ist zumindest sehr unschön, da E überhaupt keine Verbindung zu Hund E haben muss und trotzdem mitbestätigt wird. Außerdem ist es auchfür andere Probleme wünschenswert, wenn wir genauer bestimmenkönnten, welche Teile einer Theorie T durch E bestätigt werden undgegenüber welchen Teilen von T E neutral ist oder welche es sogarschwächt.

Die Beziehung (IK) finden wir ebenso im bayesianischen Fall wieder,gegeben, dass E noch nicht logisch aus unserem Hintergrundwissen Kfolgt (und tatsächlich P(E|K)<1 ist), aber aus H deduzierbar ist (vgl. Fi-telson 2002 und Hawthorne & Fitelson 2004). Die erste Frage istschon, was wir überhaupt von einer Lösung in diesem Fall erwarten.Selbstverständlich gilt:

(1) P(H&X|E&K) P(H|E&K)

Dabei gilt die Gleichheit normalerweise nur in den Fällen, in denen Xkeine substantiellen Behauptungen zu H&E&K hinzufügt. Aber das istnur eine triviale Weisheit über Wahrscheinlichkeiten. Wir haben nichtden Eindruck, dass damit schon unser Problem gelöst sein dürfte. Statt-dessen müssen wir den Fall wieder mit Hilfe der geeigneten Bestäti-gungsmaße untersuchen. Und tatsächlich beweist Fitelson (2002), dassunter den Annahmen, dass X durch E bestätigt wird und X bestätigungs-irrelevant für H, E und H&E ist, gilt:

(2) c(H,E|K) > c(H&X,E|K)

im Falle, dass c das Differenzmaß d oder das Likelihood-Quotienten-Maß l darstellt. Also gilt auch für entsprechende Bestätigungsmaße, dassdie Hypothese H allein stärker durch E bestätigt wird als die Kombina-tion H&X. Dabei bedeutet aber Bestätigungsirrelevanz, dass probabilis-tische Irrelevanz vorliegt. Eigentlich geht man damit aber nur mit Hilfeder Unabhängigkeitsannahme über (1) hinaus. Erst Hawthorne/Fitelson(2004) verstärken das Resultat etwas, in dem sie die ursprüngliche Ir-relevanzannahme von X etwas anders deuten, und erhalten die Aussage:

Page 440: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 428

Theorem (Hawthorne/Fitelson): Wenn E H bestätigt undP(E|X&H&K) = P(E|H&K) und es gilt P(X|H&K) < 1, dann gilt:(2*) c(H,E|K) > c(H&X,E|K) (für die Maße c=d und c=l)

Dabei wird also nur noch verlangt, dass X keinen Beitrag mehr zur Ab-leitung von E leistet, der nicht schon in H und K enthalten wäre. Klar,dass die Bedingung erfüllt ist, sollte E ableitbar sein aus H&K. Das ent-spricht besser der ursprünglichen Idee der Irrelevanz im deduktiven Fallund liefert ein recht allgemeines Ergebnis, das wir als Lösung für das Ir-relevanzproblem ansehen können. Viel mehr können wir wohl nicht er-warten. Hinter der Einsicht steckt allerdings vor allem der simple Zu-sammenhang aus (1). Aber immerhin wird also durch die Quantifizie-rung der Bestätigung damit deutlich, dass die Kombination H&Xschlechter abschneidet (weniger gut bestätigt wird) als H alleine, so dassdie Mitbestätigung zumindest die Gesamtbestätigung abschwächt. Dasließ sich im Falle der deduktiv-hypothetischen Theorienbestätigung na-türlich noch nicht ableiten, da sie keine unterschiedlichen Grade der Be-stätigung kennt.

5.6.6 Variation der DatenNehmen wir an, jemand möchte die Hypothese H bestätigen, dass Was-ser bei 100°C kocht. Dabei betrachten wir zwei Vorgehensweisen:

V1. Jemand kocht 1000-mal immer wieder im selben Topf mit dem-selben Verfahren, an derselben Stelle das Wasser und erhält immerdas gewünschte Ergebnis.

V2. Jemand kocht ebenfalls 1000-mal Wasser, variiert dabei aber allemöglicherweise einflussreichen Umstände, wie die Art des Gefäßes(insbesondere seine Geometrie), die Schnelligkeit des Erhitzens, denOrt des Experiments u.v.m.

Auch er erhalte immer das gewünschte Ergebnis. Dann werden wir dieBestätigung durch V2 im Normalfall für deutlich besser und damit stär-ker erachten als die durch V1. Es scheint also so zu sein, dass eine Varia-tion der Umstände die Daten gewichtiger macht. Doch warum ist das sound wie können wir das im Bayesianismus verdeutlichen?

Wir erwarten beim Verfahren V2 viel eher, dass die Hypothese falsifi-ziert wird, sollte sie (zumindest in dieser Allgemeinheit) falsch sein. Da-her bietet V2 einen viel strengeren Test für H, als es für V1 der Fall ist.Sollte die Theorie diesen strengeren Test bestehen, spricht das stärkerfür sie als ein bloß schwacher Test. Man könnte hier im Sinne von Debo-

Page 441: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

429 Thomas Bartelborth: Induktives Schließen

rah Mayo (1996) sagen, dass ein Test T umso strenger für eine Hypothe-se H ist, umso größer die Wahrscheinlichkeit dafür ist, dass der Test ne-gativ für die Hypothese ausgeht, wenn sie falsch ist. Wir werden sehen,dass das auch die Grundidee der statistischen Signifikanztests ist. Inunserem Beispiel sollte es klar sein, dass es bei V2 sehr unwahrscheinlichwar, dass alle Daten unsere Hypothese bestätigen und es schon ein ziem-licher Zufall war, dass wir gerade die Variationen des Ortes nicht er-wischt haben, die H aufgrund unterschiedlichen Luftdrucks widerlegthätten.

Wie kann aber ein Bayesianer diese Idee umsetzen? Dazu betrachtetetwa Earman (1992, Kap. 3.5) die Korrelationen der Daten untereinan-der und nimmt an, dass die größer sind, wenn es sich um gleichartigeDaten handelt, während sie kleiner sind, wenn die Umstände der Daten-erhebung stärker variieren. Er definiert die Variation gerade über dieKorrelation der Daten untereinander. Haben wir etwa zwei DatenE E1&E2, so betrachten wir P(E|K)=P(E2|E1&K)P(E1|K), was mitent-scheidet über den Update-Faktor beim Updaten mit E. Je stärker E1 undE2 korreliert sind, umso größer ist P(E2|E1&K) und damit wird der Up-date-Faktor P(E|H&K)/P(E|K) umso kleiner und die Bestätigung durchE dann kleiner. Das wird besonders deutlich, wenn wir davon ausgehen,dass E aus H&K logisch ableitbar ist. Dann gilt:

P(H|E&K) = P(H|K) / P(E|K) = P(H|K) / [P(E2|E1&K)P(E1|K)]

Allgemeiner gilt für E E1&...&En mit H&K⊨E:

P(H|E&K) =P(H|K) / [P(En|En-1&...&E1&K)...P(E2|E1&K)P(E1|K)]

Dann definiert Earman (1992, 78f) die Variation der Daten durch dieRate, mit der die Werte P(En|En-1&...&E1&K) für wachendes n anwach-sen. Je schneller sie anwachsen, umso schneller nimmt die Bestätigungunserer Hypothese durch neue Daten Ei ab.

Dieser Korrelationsansatz sieht zunächst plausibel aus, denn intuitivist es wahrscheinlicher, dass unser Wasser wieder bei 100° C kochenwird, wenn wir den Versuch genauso wie beim letzten Mal gestalten,statt die Umstände stärker zu variieren. Das Problem bei dieser Lösungist aber, dass die Korrelationen zwischen den Daten nur durch subjektiveWahrscheinlichkeiten bestimmt werden, statt durch eine objektive Ähn-lichkeitsbeziehung zwischen den Daten. Das heißt, die Ähnlichkeitenmüssen durch das epistemische Subjekt geschätzt werden. Die Lösungberuht also mehr auf den Einschätzungsfähigkeiten des Subjekts statt auf

Page 442: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 430

dem bayesianischen Apparat. Der bietet allerdings immerhin die Mög-lichkeit, diese Zusammenhänge entsprechend zu repräsentieren, was imdeduktiv-hypothetischen Ansatz so noch nicht gegeben war.

Wie reagieren übrigens Vertreter der Abduktion auf das Problem derDiversität der Daten? Fehlt diese Diversität, bieten sich eingeschränkteHypothesen als möglicherweise beste Erklärungen der Daten an. Sokönnten die Daten aus V1 etwa dadurch erklärt werden, dass unsereHypothese H nur für Töpfe eines bestimmten Typs und das Erhitzen aufeine ganz bestimmte Weise gilt. Verfügen wir nur über die Daten aus V1,bietet diese alternative lokale Hypothese dieselbe Vereinheitlichungsleis-tung für die tatsächlich vorliegenden Daten wie unsere ursprünglicheHypothese. Erst die variierten Daten aus V2 werden weniger gut erklärt,wenn wir eine Reihe solch lokaler Hypothesen formulieren, statt einerglobalen und damit invarianteren Hypothese, die für alle Fälle postu-liert, dass Wasser bei 100°C kocht. Jedenfalls scheint diese globaleHypothese die besseren Erklärungen zu liefern, solange wir noch nichtfestgestellt haben, dass sie eigentlich falsch ist. Dann sind wir natürlichdoch gezwungen auf lokalere Varianten umzusteigen oder nach ganzneuen Ansätzen zu suchen, die wieder eine umfassendere Vereinheitli-chung etwa über Siedepunkte unterschiedlicher Stoffe bieten.

5.6.7 Ein bayesianischer GottesbeweisRichard Swinburne hat in (1987) versucht, einen ausführlicheren Got-tesbeweis zu führen, der nicht mehr auf metaphysischen Prinzipien be-ruht wie etwa einem entsprechenden Kausalprinzip, nach dem jedeskontingente Ereignis eine Ursache haben muss (und dann bleibt als letzteUrsache eben nur Gott übrig), sondern der sich stattdessen auf Einfach-heitsüberlegungen stützt, die zu bestimmten Wahrscheinlichkeitsein-schätzungen führen. Winfried Löffler (2002 und 2006) hat SwinburnesArgument in komprimierter Form rekonstruiert und mit konkreten Zah-len versehen, die ein überraschendes Ergebnis brachten. In gewisser Wei-se zeigen sich an diesem Beispiel die Stärken und die Schwächen derbayesianischen Konzeption. Außerdem ermöglicht das Argument vonSwinburne auch einen Vergleich mit dem abduktiven Schließen, zumaler selbst viel von Erklärungen und der Einfachheit spricht, die für denSchluss von Bedeutung sei.

Die informellen Schritte des Arguments sind die Folgenden: Zu-nächst akzeptieren wir ein erkenntnistheoretisches Prinzip, nach demwir bestimmten Erfahrungen und Berichten darüber solange Vertrauenschenken, wie sie nicht aus konkreten Gründen als wahrscheinlich irre-

Page 443: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

431 Thomas Bartelborth: Induktives Schließen

führend einzustufen sind. Ein ähnliches Prinzip konservativen Vorgehenswird auch in Bartelborth (1996) diskutiert. Dann kommt das Prinzipzum Einsatz, indem es auf religiöse Erfahrungen und Berichte darüberangewandt wird, die die Existenz Gottes zur Folge haben, sollten wir ih-nen vertrauen. Des weiteren wird dann geklärt, dass die Existenz Gottesnicht aus anderen Gründen unwahrscheinlich ist. Sie ist nicht wider-sprüchlich und selbst die Existenz des Übels in der Welt macht sie nichtunwahrscheinlich. Dafür argumentiert Swinburne ausführlicher, was wirhier aber nicht verfolgen können. Des weiteren gibt es 6 weitere Belegefür die Existenz Gottes (Rekonstruktion nach Löffler):

(1) die Existenz eines komplexen physikalischen Universums(2) die erkennbare Ordnung im Universum(3) die Existenz bewusstseinsbegabter Wesen(4) die Übereinstimmung zwischen menschlichen und tierischen

Bedürfnissen einerseits und Umweltgegebenheiten andererseits(5) das möglicherweise Vorkommen von Wundern(6) die Feinabstimmung grundlegender Naturkonstanten (erst in

der zweiten Auflage enthalten)

Diese insgesamt 7 Belege (6 + die religiösen Erfahrungen) für die Exis-tenz Gottes versucht Swinburne dann in Form bayesianischer Überlegun-gen auszuwerten.

Bevor ich darauf eingehe, möchte ich schon in etwas ketzerischerWeise darauf hinweisen, dass der Bayesianismus eben typischerweise Dä-monentheorien unterstützt. Nehmen wir an, wir hätten eine Dämonen-theorie d, die besagt, ein Dämon existiert, der e möchte und e herbei-führen kann und es dann auch tut. Dabei ist e ein beliebiges Ereignis,das wir beobachten können. Es könnte sich z.B. um einen Unfall han-deln, den wir erleiden. Nehmen wir an, der Unfall geschah gemäß unse-rem Hintergrundwissen nicht zwangsläufig: P(e)<1. Außerdem ist ge-mäß unserer Annahme der Dämon sehr effektiv: de. Dann bestätigtder Unfall ein Stück weit unsere Dämonenhypothese d, weil der Update-Faktor P(e|d)/P(e)=1/P(e) größer als eins wird. Man sieht hier wieder,dass es sich um eine einfache Rekonstruktion eines deduktiv-hypotheti-schen Bestätigungszusammenhangs handelt. Außerdem genügen im Prin-zip komparative Wahrscheinlichkeitsüberlegungen, um diesen Begrün-dungszusammenhang zu erkennen. Auf solche komparativen Überlegun-gen stützt sich auch Swinburne. Außerdem scheint es auch nichts anunseren Prämissen zu kritisieren zu geben. Unsere Dämonenhypothesedürfen wir ja zunächst einmal so gestalten, wie es uns sinnvoll erscheint.

Page 444: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 432

Das Einzige, was wir so noch nicht erreicht haben, ist, dass die Dämo-nenhypothese auch eine Wahrscheinlichkeit >0,5 erzielen muss. Dazuwären wir auf weitere Überlegungen in dieser Richtung angewiesen.Weitere Unfälle und Abschätzungen der Startwahrscheinlichkeiten fürDämonenhypothesen könnten uns dabei behilflich sein. Doch das willich nicht weiter treiben. Es bleibt zumindest die Tatsache bestehen, dasses im Bayesianismus sehr leicht ist, Hypothesen so zu konstruieren, dasssie durch beliebige Ereignisse bestätigt werden. Man könnte das die An-fälligkeit des Bayesianismus für Dämonenhypothesen nennen.

Lässt sich das so ohne Weiteres auf das abduktive Schließen übertra-gen? Das glaube ich nicht, aber es hängt davon ab, ob wir der Dämonen-hypothese auch genuine Erklärungskraft für das Auftreten bestimmterUnfälle zubilligen und ob wir keine anderen Erklärungshypothesen (wiemeine Unachtsamkeit bzw. mein Schlafdefizit etc.) finden können, diebessere Erklärungen dieser Unfälle darstellen würden. Das können wirgleich noch einmal in Swinburnes Beispiel erörtern.

Löffler (2002) vergibt nun die entsprechenden Wahrscheinlichkeitenfür die Variante des Bayeschen Theorems, auf die sich Swinburne stützt(das Hintergrundwissen k habe ich aus Gründen der Vereinfachung wie-der weggelassen), h ist die Hypothese, dass ein allmächtiger, allgütigerGott existiert und e ist die Konjunktion unserer 7 Belege:

P(h|e) = [P(e|h)P(h)] / [(P(e|h)P(h))+P(e&~h)] =Y / [Y+P(e&~h)], mit Y = P(e|h)P(h)

Hierbei kommt dem Term P(e&~h) eine besondere Bedeutung zu undSwinburne argumentiert dafür, dass er sehr klein wird, denn es sei un-wahrscheinlich, dass all die obengenannten Dinge auftreten, wenn eskeinen entsprechenden Gott gäbe. Geht der Term P(e&~h) aber gegenNull, so wächst die Nachher-Wahrscheinlichkeit unserer Gotteshypothe-se schnell gegen 1. Das ist auch das Überraschende, das uns Löffler anvielen Zahlenbeispielen verdeutlich: Swinburne zeigt sogar mehr als erselbst behauptet. Swinburne gibt sich damit zufrieden, dass die Gottes-hypothese eine Wahrscheinlichkeit >0,5 aufweist, aber wenn wir ihmfolgen, hat er eigentlich schon einen richtigen Gottesbeweis vorgetragen.Wenn wir etwa P(e)=P(e|h)=0,01 wählen, aber das Auftreten vone&~h noch für unwahrscheinlicher halten (etwa P(e&~h) =0,00000001), dann ist die Wahrscheinlichkeit für h bereits bei 99,9%.

Doch das wirkt selbst auf einen theistisch gesinnten Philosophen wieLöffler als eine zu leichte Art und Weise, um Gott zu beweisen. LöfflersKritik wendet sich gegen die Wahrscheinlichkeitsabschätzungen, die

Page 445: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

433 Thomas Bartelborth: Induktives Schließen

Swinburne uns vorgibt, die u.a. Abschätzungen dafür sind, wie wahr-scheinlich es ist, dass dieses Universum entstanden ist, statt eines ande-ren (mit und ohne Gott). Er ist auch der Überzeugung, dass die dabei re-sultierenden Wahrscheinlichkeiten keineswegs objektiv sind (wie Swin-burne es gerne betrachtet), sondern bereits durch bestimmte theistischeEinstellungen und unsere metaphysischen Annahmen (wieder etwa einesKausalprinzips) gefärbt sind. Sie sind nicht wirklich frei von Voreinstel-lungen und allein anhand von Einfachheitsüberlegungen zu gewinnen.Löffler nimmt daher an, dass wir eben weiterhin in unseren Argumentenfür die Existenz Gottes auf diese metaphysischen Annahmen angewiesensind. Das wird durch die bayesianische Argumentation nur verschleiert.

Das ist auch mein Punkt zum Bayesianismus. Er erlaubt es, selbstÜberlegungen zur Existenz Gottes in eine einfache Berechnung zu gie-ßen. Ein subjektiver Bayesianer hätte damit schnell einen Gottesbeweis alá Swinburne beisammen. Allerdings gäbe es genauso schnell viele Indizi-en für Dämonen, wenn er unsere Dämonentheorie einmal erwägen wür-de. Man sieht dabei, dass die ganze epistemische Arbeit eigentlich in derWahl der entsprechenden Ausgangswahrscheinlichkeiten steckt und da-hinter letztlich metaphysische Annahmen stehen, die wir m.E. nur an-hand sorgfältiger Kohärenzerwägungen vornehmen können. Gehen wirdagegen schnell von unserem Hintergrundwissen ohne eine genaue Be-gründung anhand weiterer Argumente über die inneren Zusammenhän-ge unserer Annahmen zu subjektiven Wahrscheinlichkeiten über, lassensich schnell die Vorurteile reproduzieren, die wir eben gerne pflegenmöchten. Der Bayesianismus hindert uns nicht daran und liefert nichtviel Hilfestellung, wie wir in solchen Fällen vorgehen sollten. Die Got-teshypothese oder auch Dämonenhypothesen werden so schnell und da-mit zu leicht bestätigt.

Kann das abduktive Schließen hier aber tatsächlich helfen? Das glau-be ich schon, aber wir müssen ein wenig tiefer in die Argumentationeneindringen. Swinburne spricht viel von Erklärungen durch einfacheHypothesen und seiner Meinung nach ist das Gotteskonzept eines sol-chen unendlichen (allmächtig, allgütig etc.) Gottes ein besonders einfa-ches Konzept. Doch selbst wenn das so ist, ist damit nicht gesagt, dassdie entsprechenden Erklärungen eine große Vereinheitlichung bietenoder überhaupt wissenschaftliche Erklärungen darstellen.

Nehmen wir etwa den Fall der Wunder. Wir gehen von n Wundernw1,...,wn aus und untersuchen die entsprechenden Gotteserklärungen da-zu. Die sehen kurz gesagt so aus:

Page 446: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 434

Ein allmächtiger Gott existiert. Gott möchte w1 in Situation s1. Alsogeschieht w1 in s1.Ein allmächtiger Gott existiert. Gott möchte w2 in Situation s2. Alsogeschieht w2 in s2....Ein allmächtiger Gott existiert. Gott möchte wn in Situation sn. Alsogeschieht wn in sn.

Doch schon dabei fällt auf, dass wir auf eine ganze Reihe wesentlicherZusatzannahmen angewiesen sind, deren epistemischer Status selbstrecht fragwürdig ist. Woher wissen wir, was Gott sich für bestimmte Si-tuationen jeweils wünscht? Selbst wenn wir den Gottesbegriff also fürbesonders einfach halten, werden die dadurch generierten Erklärungendas noch nicht unbedingt.

Die einfache Gotteshypothese selbst stellt außerdem kein nomischesMuster dar, das von sich aus schon eine Generalisierung liefert, was Gottsich jeweils in bestimmten Situationen wünscht. Eine solche Art von in-varianter Generalisierung müsste zumindest vorliegen, damit die Gottes-hypothese so ausgestaltet ist, dass sie auch tatsächlich Erklärungskraftund Vereinheitlichungskraft besitzt. Das Problem wird deutlich, wennwir nach der Vorhersageleistung des obigen Schemas fragen. Die istnämlich praktisch gleich Null, das sollte auch der Theist zugeben, dennso einfach lässt sich Gott nicht in die Karten sehen und ebenso wenigkönnen wir entsprechende Wunder durch gezielte Interventionen gezieltherbeiführen.

Dazu kommt, dass wir nach alternativen Erklärungen Ausschau hal-ten müssen. Wir können uns nie sicher sein, dass es sich tatsächlich umWunder handelt, die also ein Eingreifen Gottes darstellen, sondern müs-sen immer wieder fragen, ob es nicht doch andere natürliche Erklärun-gen dafür gibt. Dieser komparative Aspekt und wie er genau einzubrin-gen ist, wird ebenfalls besonders deutlich im abduktiven Ansatz.

Ganz ähnlich wie für Wunder können wir genauso für die oben ange-führten sechs Phänomene und ihre vielen Einzelinstanzen detailliertnachfragen, ob die Gotteshypothese hier tatsächlich eine genuine undvereinheitlichende Erklärung anbieten kann, die zumindest deutlich bes-ser ist als alternative Ansätze. Zudem müssen wir für das abduktiveSchließen holistisch vorgehen und uns immer wieder fragen, ob die sichso ergebenden Überzeugungssysteme insgesamt kohärenter sind als ähn-liche Überzeugungssysteme ohne Gottesannahme. Was dabei heraus-kommt, können wir an dieser Stelle sicher nicht endgültig klären, dafürist die Debatte zu komplex, aber der Schluss auf die beste Erklärung

Page 447: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

435 Thomas Bartelborth: Induktives Schließen

führt uns zumindest vor Augen, wie umfassend die dabei auftretendenAbwägungen zu sein haben. Im Bayesianismus können wir dagegen zuleicht zu einem „Gottesbeweis“ gelangen. Die wirklichen Problemfelderbleiben dabei links liegen und werden in der Wahl entsprechender Aus-gangswahrscheinlichkeiten versteckt.

5.6.8 Zeugenaussagen und unabhängige DatenDie Beurteilung der Aussagen anderer Menschen (im englischen kurzunter dem Stichwort „testimony“ zusammengefasst) ist ein kompliziertesGebiet der Erkenntnistheorie. Dem werden wir hier nicht in umfassen-der Weise gerecht werden können, aber wir können doch einige Aspektebetrachten. Es ist deshalb so wichtig, weil wir wohl das meiste, das wirüber die Welt wissen, durch Berichte anderer Menschen erfahren haben.Woher wissen wir z.B. etwas über die Daten und Experimente, die unse-ren wissenschaftlichen Theorien zugrunde liegen? Woher wissen wir et-was über die Politik und alle möglichen anderen Ereignisse in der Weltwie Erdbeben etc.? In den wenigsten Fällen waren wir selbst dabei undhaben uns davon direkt überzeugen können, dass etwa Angela Merkelzur Kanzlerin gewählt wurde. Wir verlassen uns stattdessen auf Zeit-schriftenberichte, Bücher, Fernsehreportagen etc. Das kennen wir schonaus unserer Schulzeit. Aber andererseits wissen wir ebenfalls, dass dieseBerichte keineswegs immer zuverlässig sind. Wir sollten sie nicht gleichfür bare Münze nehmen, sondern uns eigentlich erst einmal fragen, obwir ihnen vertrauen dürfen. In den meisten Fällen neigen wir allerdingsdazu, solchen Berichten blind zu vertrauen, aber viele Experimente überdie Verlässlichkeit von Zeugenaussagen zeigen, dass wir das in wichtigenFällen lieber nicht tun sollten.

In den erkenntnistheoretischen Debatten geht es noch um die Frage,ob diese Erkenntnisform einen besonderen eigenständigen Charakter hatoder eher auf die normalen Formen reduzierbar ist (vgl. Adler 2006).Das soll hier nicht weiter diskutiert werden, d.h., wir nehmen schlichtden Reduktionismus als gegeben an. Es soll uns also nur darum gehen,wie der Bayesianismus und das abduktive Schließen auf Zeugenaussagenanwendbar sind. Nehmen wir etwa an, in einer Zeugenaussage E wirdbehauptet, ein Ereignis H (etwa, dass X bei einer Tat beobachtet wurde)wäre beobachtet worden. Dann wird das normale Updaten bei festemHintergrundwissen K betrachtet, das wir allerdings in unseren Formelnweglassen:

P(H|E) = P(H)P(E|H)] / [P(E|H)P(H)+P(E|~H)P(~H)]

Page 448: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 436

Dabei muss der Bayesianer wieder einige Vorher-Wahrscheinlichkeiteneinschätzen. Nehmen wir z.B. an, dass P(H)=0,4 ist. Bisher war X alsonur mäßig verdächtig. Dann müssen wir weiterhin wissen, wie hoch dieWahrscheinlichkeit P(E|H) dafür ist, dass unser Zeuge H behauptet,wenn H wahr ist. Vielleicht ist es dafür einfacher, P(~E|H) zu bestim-men. Im Prinzip sind es zwei Möglichkeiten (plus ihre Überlappung), diehier zu beachten sind. Die erste besteht darin, dass der Zeuge sich irrt,und die zweite darin, dass der Zeuge lügt. Man kann vereinfachend an-nehmen, dass sich diese beiden Möglichkeiten insgesamt addieren. Set-zen wir also beispielsweise an, dass beides zusammen in 10% der Fällevorliegt: P(~E|H)=0,1. Somit wird der Zeuge in ca. 10 von 100 Situa-tionen, in denen das Ereignis tatsächlich vorliegt, dennoch behaupten,dass es nicht stattgefunden hat. Diese Wahrscheinlichkeit dürfte sehrstark von den genauen Einzelheiten des jeweiligen Falles abhängen. Wiewaren die Lichtverhältnisse, wie aufmerksam der Zeuge bzw. abgelenktbei der Beobachtung, wie lang hat er zugeschaut u.v.m. Hatte der ZeugeGründe für eine Lüge? Wenn ja, wie hoch ist dann die Wahrscheinlich-keit, dass er das auch tut? Mit allgemeinen Annahmen über die Zuver-lässigkeit von Zeugen, oder eines bestimmten Zeugen, werden wir hierkaum weiterkommen, und die Einschätzung wird in der Praxis sichersubjektiv bleiben. Ob uns eine bayesianische Berechnung dabei tatsäch-lich helfen kann, diese Überlegungen zusammenzunehmen, wird weiterzu diskutieren sein.

Spannend ist auch die andere Wahrscheinlichkeit, die wir nicht ver-gessen dürfen, dass ein Zeuge H behauptet, obwohl es gar nicht stattge-funden hat: P(E|~H). Nehmen wir dafür einmal 15% an, dann könnenwir unsere Berechnung durchführen. (Wiederum addieren sich hier in et-wa die 2 Möglichkeiten des Irrtums und der Lüge zu den 15%, und wirkönnten das entsprechend weiter aufschlüsseln.)

Beispiel: Vorher: P(H)=0,4, dann ergibt sich:P(H|E) = (0,90,4) / (0,90,4 + 0,150,6) = 0,8

Das heißt, die Wahrscheinlichkeit dafür, dass H vorliegt, hat sich durchdie Zeugenaussage verdoppelt, obwohl wir diverse Irrtumsmöglichkei-ten des Zeugen berücksichtigt haben. Ob diese Einschätzungen einiger-maßen realistisch sind, ließe sich empirisch weiter testen, aber es bleibenimmer die Unsicherheiten des Einzelfalls bestehen, die wir kaum sicherabschätzen können.

Ein naheliegender Vorschlag aus der Praxis ist es, nicht nur eine Aus-sage bzw. einen Bericht herzunehmen, sondern lieber auf mehrere Be-

Page 449: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

437 Thomas Bartelborth: Induktives Schließen

richte zu setzen, die möglichst unabhängig voneinander entstanden sind.Nehmen wir an, in der FAZ findet sich ein Artikel (E1), der meldet, dassdie Kanzlerin ihren baldigen Rücktritt angekündigt hat (H). Das kommtuns trotz des Berichtes noch recht unwahrscheinlich vor und wir suchendaher nach weiteren Bestätigungen. Wittgenstein schildert einen Mann,der dann einfach ein weiteres Exemplar der FAZ kauft und anhand desentsprechenden Artikels das noch einmal überprüft. Das würden wir imNormalfall kaum als weitere Bestätigung betrachten. Allerdings gibt esselbst dafür Ausnahmen. Wenn etwa ein Spion glaubt, man habe ihm nureine getürkte Ausgabe der FAZ untergeschoben, damit er falsche Nach-richten weitergibt und sich damit unglaubwürdig macht, kann es durch-aus sinnvoll sein, noch ein weiteres Exemplar der FAZ zu kaufen. Dochbleiben wir beim Normalfall. Der Mann, der hier zu einer zweiten FAZgreift, käme uns dann ziemlich dumm vor. Wir sollten lieber eine andereZeitung kaufen (etwa die Zeit). Finden wir dort dieselbe Nachricht Hwieder, hat sie sich ein Stück weit bestätigt. Allerdings haben vielleichtbeide Zeitungen nur eine dpa-Meldung abgedruckt. Dann haben wir im-mer noch keine wirklich unabhängige Bestätigung erlangt und steheneigentlich genauso da wie Wittgensteins Mann mit den zwei Exemplarender FAZ.

Damit der zweite Bericht (E2) eine weitergehende Bestätigung desersten sein kann, muss er auf einem unabhängigen kausalen Weg vordem ersten Bericht entstanden sein. Es sollten also zwei Reporter vorOrt gewesen sein, auf deren Augenzeugenberichte nun die beiden Arti-kel zurückzuführen sind. Das sollten wir allerdings nicht so beschreiben,dass E1 und E2 statistisch unabhängig sind (wie das etwa Howson undUrbach in 2003 annehmen), sondern sie sollten statistisch unabhängigsein gegeben H und gegeben ~H. Selbst diese statistische Unabhängig-keit kann nicht immer die geforderte kausale Unabhängigkeit genau dar-stellen (s. Kap. 7). Doch sie gibt uns noch das beste probabilistische In-diz dafür, dass die angestrebte Unabhängigkeit vorliegt. Um das abschät-zen zu können, nehmen wir etwa die folgende Umrechnung des bayes-schen Theorems:

(*) P(H|E1&E2) = P(H) / [P(H) + P(~H) q], wobei q der folgendeQuotient ist: q = P(E1&E2|~H) / P(E1&E2|H)

Nun hängt alles an q und wir können uns überlegen, was passiert, wenndie Reporter ihre Meldungen z.B. von dpa bzw. einer gemeinsamen ähn-lichen Quelle beziehen oder die Zeugen sich absprechen. Betrachten wirdafür die folgenden beiden Fälle:

Page 450: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 438

1. Der zweite Zeuge übernimmt einfach das Urteil des erstenZeugen:P(E1&E2|H) = P(E1|H) und P(E1&E2|~H) = P(E1|~H).Das ist praktisch genauso, als ob wir nur einen Zeugen hätten.

2. Beide Zeugen urteilen unabhängig voneinander, so dass gilt:P(E1&E2|~H) = P(E1|~H)P(E2|~H) undP(E1&E2|H) = P(E1|H)P(E2|H)

Dann wird schnell klar, was aus unserem Quotienten q in den beidenFällen wird. Im ersten Fall ergibt sich q1=P(E1|~H)/P(E1|H) und imzweiten Fall wird das noch mit Faktor f multipliziert:f=P(E2|~H)/P(E2|H), also q2=q1f. Wenn wir nun wieder (*) anschau-en, wird deutlich, dass die Aussage des zweiten Zeugen genau dann einebessere Bestätigung von H bietet, wenn q durch ihn kleiner wird, alsoseine Urteilskraft der folgenden Bedingung genügt:

(**) Bedingung für zweiten Zeugen: P(E2|~H) < P(E2|H)

Der Bayesianismus liefert hier das gewünschte Ergebnis: Ein zweiter un-abhängiger Zeuge bringt nur dann eine bessere Bestätigung für unsereAnnahme H, wenn die Wahrscheinlichkeit dafür, dass er H aussagt, injedem Fall kleiner ist, wenn H nicht der Fall ist, als wenn H der Fall ist.Gilt hier die Gleichheit ist er irrelevant und gilt sogar die umgekehrteUngleichung ist seine Aussage eher schädlich.

Man könnte sagen, solange Bedingung (**) erfüllt ist, besitzt der 2.Zeuge zumindest eine gewisse positive Zuverlässigkeit in seinen Aussa-gen über H. Ist selbst diese Minimalbedingung nicht mehr gegeben, wä-re es besser, er schließt sich einfach der Meinung des 1. Zeugen an. Istder ebenfalls unzuverlässig, stehen wir zwar schlecht da, aber es wirdnur noch schlechter, wenn wir dann noch den 2. Zeugen hören. Dassieht mir nach einem kleinen Erfolg für den bayesianischen Apparat aus,zumal sich die genannten Wahrscheinlichkeitszusammenhänge auf diemeisten der Bestätigungsmaße übertragen (s.o.). Allerdings müssen wirweiterhin die subjektive Einschätzung vornehmen, dass die Bedingung(**) gilt, und erraten, ob eher der 1. Fall oder der 2. Fall vorliegt, unddafür bietet uns der Bayesianismus keine besondere Hilfestellung.

Man kann nun noch versuchen, die Zuverlässigkeit der Zeugen an-hand ihrer Übereinstimmung bayesianisch zu beurteilen (vgl. Bovens &Hartmann 2006). Stimmen viele Zeugen in ihren Urteilen überein,spricht das eher dafür, dass sie alle richtig liegen, als dass sie alle falschliegen. Das bringen die Autoren auch noch mit probabilistischen Kohä-renzüberlegungen in Verbindung (vgl. Kap. 4.4). Allerdings ist dabei

Page 451: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

439 Thomas Bartelborth: Induktives Schließen

Vorsicht geboten, denn eine zu große Übereinstimmung von Zeugenaus-sagen kann auch wieder Hinweise darauf geben, dass sie durch Abspra-chen oder andere gegenseitige Beeinflussungen entstanden ist, wodurchihr epistemischer Wert wieder geschmälert würde. Eine ganz so einfacheRegel für die Bewertung von Zeugenaussagen werden wir wohl nicht er-halten.

Bovens und Hartmann modellieren jedenfalls unterschiedliche Situa-tionen anhand bayesscher Netze, in die unsere Unabhängigkeitsannah-men eingespeist werden. Dabei kann die jeweilige Zuverlässigkeit (Rel)der Berichte (Rep), dass ein bestimmter Sachverhalt vorliegt (Hyp), fürjeden Zeugen als z.B. unabhängiger Faktor (Rel) angenommen werden,so dass wir z.B. für drei Zeugen das folgende Bild erhalten und natürlichentsprechende Graphen für n Zeugen:

Bayessches Netz 4: Drei Zeugenaussagen

In diesem Netz können wir entsprechende Berechnungen anderer Wahr-scheinlichkeiten vornehmen, wenn uns bestimmte Dinge bekannt sind,wie etwa, dass alle Zeugen übereinstimmende Berichte abgeliefert ha-ben. Die Zuverlässigkeit kann gewissermaßen von außen vorgegebenwerden, oder wir können auch versuchen, sie innerhalb des Netzes (en-dogen) zu bestimmen.

Bovens und Hartmann (2006, Kap. 3) nutzen das so beschriebeneNetz in der folgenden Weise. Sie wählen als Faktoren zweiwertige Aussa-genvariablen und führen damit gewisse intuitive Größen ein:

(1) P(Reli) = sei der Zuverlässigkeitsparameter bzw. die Anfangs-wahrscheinlichkeit dafür, dass der betreffende Zeuge zuverläs-sig ist, wobei zur Vereinfachung alle Zeugen hier gleich behan-delt werden.

Page 452: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 440

(2) P(Hyp) = h sei die Startwahrscheinlichkeit der Behauptung,dass ein bestimmter Sachverhalt vorliegt.

(3) P(Repi|Hyp & Reli) = 1 und P(Repi|~Hyp & Reli) = 0 für zu-verlässige Zeugen und

(4) P(Repi|Hyp & ~Reli) = P(Repi|~Hyp & ~Reli) = a für unzu-verlässige Zeugen mit einem Randomisierungsparameter a.

Dabei sollen alle Parameter echt zwischen 0 und 1 liegen: 0<,h,a<1.Zuverlässige Zeugen berichten jeweils korrekt darüber, ob Hyp vorliegtoder nicht (3), während unzuverlässige Zeugen eher zufällig mit einergewissen Wahrscheinlichkeit a über das Vorliegen von Hyp berichten,die aber unabhängig davon ist, ob die in Frage stehende Behauptung(oder Hypothese) wahr ist oder nicht (4). Weiterhin können wir einigeUnabhängigkeitsannahmen aus dem Graphen ablesen. Die Zuverlässig-keit Reli der Zeugen und die Hypothese Hyp werden als Wurzelfaktorenunseres Netzes alle als voneinander statistisch unabhängig betrachtet.Das modelliert unsere Annahme, dass es sich um unabhängige Zeugen-berichte von unzuverlässigen Zeugen handelt und die Zuverlässigkeitauch nicht von dem speziellen Sachverhalt abhängt, um den es geht:

Reli ⊥ Relj, Hyp für alle ij

Außerdem folgt in dieser Modellierung, dass die Berichte voneinanderunabhängig sind gegeben Hyp:

(Repi ⊥ Repj | Hyp) für alle ij

Wenn wir nun die Information erhalten, dass n Zeugen übereinstim-mend berichten, dass Hyp vorliegt, so können wir uns fragen und dasdann ausrechnen, wie sich das auf die Wahrscheinlichkeiten für die an-deren Faktoren auswirkt. Definieren wir etwa die entsprechende n-facheUpdatefunktion P+(n) für eine Variable X so:

P+(n)(X) := P(X|Rep1 &...& Repn),

dann liefern uns Bovens & Hartmann die folgenden Resultate:

mit dem Likelihoodquotienten 0<x<1 für einen einzelnen Bericht:

Page 453: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

441 Thomas Bartelborth: Induktives Schließen

Im Grenzfall, in dem die Anzahl der Zeugen immer weiter wächst, er-halten wir so das Resultat:

(1*) limn P+(n)(Reli) = 1–x = / [+a·(1–)]

Unsere Annahmen über die Zuverlässigkeit der Zeugen konvergieren al-so gegen eine obere Schranke, die echt kleiner als 1 ist und vor allemvom Randomisierungsparameter a abhängt. Dieses Ergebnis wird vonBovens und Hartmann noch ausführlicher diskutiert. Aber das wichtige-re Resultat ist wohl, dass zumindest die Wahrscheinlichkeit für dieHypothese Hyp im Grenzfall gegen 1 konvergiert:

Damit ist klar, dass gilt:

(2*) limn P+(n)(Hyp) = 1

Das illustriert wiederum, wie wir den Bayesianismus durch geeigneteModellierungen, bei denen unsere kausalen Annahmen über die betref-fende Situation eingehen, einsetzen können. Der Graph unseres bayes-schen Netzes beschreibt dazu in sehr anschaulicher Weise die grundle-genden kausalen Zusammenhänge, die wir voraussetzen. Bovens undHartmann (2006, Kap. 4) untersuchen in ähnlicher Weise, was passiert,wenn wir mehrere unzuverlässige Messungen erhalten, die alle für eineTheorie sprechen.

Insbesondere modellieren sie aber noch in ähnlicher Weise eine Si-tuation, in der wir eine Konsequenz (Con) aus einer Hypothese ziehenund Rep die bestätigende Messung bezeichnet, während mit Aux eineHilfshypothese beschrieben wird, die gerade besagt, dass unser Messge-rät zuverlässig arbeitet. Anhand von dieser Modellierung untersuchensie dann auch das Duhem-Quine-Problem.

Page 454: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 442

Bayessches Netz 5: Messung mit Hilfshypothesen

Dieses bayessche Netz soll zugleich zwei Situationen darstellen, die sichdarin unterscheiden, ob die Hypothese Hyp und die Hilfshypothese Auxunabhängig sind oder nicht. Das wird in der Grafik durch den gestri-chelten Pfeil wiedergegeben. Das Besondere ist dabei vor allem, dassüberhaupt der Fall betrachtet wird, dass Hyp und Aux probabilistischabhängig sind. Denken wir etwa an das Beispiel, dass wir eine Stromstär-ke durch ein Amperemeter messen, dessen Funktionieren selbst z.T.durch die Maxwellsche Elektrodynamik beschrieben wird, die wir dabeiaber letztlich erst noch testen wollen.

Als Ergebnis werden genauere Bereiche für die Startwahrscheinlich-keiten benannt, für die eine Messung im unabhängigen Fall eine bessereBestätigung der Hypothese liefert und wann sie im abhängigen Fall einebessere Stützung liefert. Doch die möchte ich hier nicht weiter verfol-gen, sondern noch ein wenig auf die Problematik der Modellierung sol-cher Situationen eingehen. Die obigen Modellierungen zeichnen sichdurch relativ viele Faktoren auf, die hier zunächst unterschieden wer-den, doch die werden im Prinzip danach wieder gleich reduziert, indemetwa angenommen wird, dass das Messgerät genau dann zuverlässig ist,wenn die Hilfshypothese stimmt und die Konsequenz genau dann wahrist, wenn die Hypothese wahr ist:

P(Rel|Aux) = 1 P(Con|Hyp) = 1P(Rel|~Aux) = 0 P(Con|~Hyp) = 0

Dadurch wird die Anzahl der Faktoren implizit wieder reduziert und wirsehen, wie schwierig es oft ist, die angenommenen Zusammenhängeüberhaupt in ein bayesianisches Modell zu übersetzen. Das verlangt zu-mindest eine gewisse Expertise für das betreffende Gebiet, und mankann keineswegs behaupten, dass uns der Bayesianismus hier automa-tisch zu bestimmten Modellierungen und Berechnungen hin führt. Dazukommt noch die Schätzung der Wahrscheinlichkeiten, die ebenfalls alles

Page 455: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

443 Thomas Bartelborth: Induktives Schließen

andere als unproblematisch ist. In den konkreten Anwendungen offen-baren sich so die Probleme, aber natürlich auch etliche Stärken des Baye-sianismus.

Wie würde der Abduktionsvertreter an die Frage herangehen, wannwir bestimmten Zeugenaussagen Glauben schenken sollten? Er fragt da-nach, wie die Berichte wohl entstanden sind, was also als beste Erklä-rung dieser Aussagen dienen kann. Ist die beste Erklärung für die zweiZeugenaussagen, dass sie beide H beobachtet haben, oder ist eine besse-re Erklärung, dass der erste lügt und der andere sich hat vom erstenZeugen beeinflussen lassen oder ist eine andere Erklärung die beste? Da-zu kann er gezielt nach weiteren Fakten suchen, die zwischen den beidenErklärungsansätzen zu entscheiden helfen. Dabei erhält der Abduktions-vertreter allerdings noch keine quantitative Abschätzung der Bestätigungvon H. Dazu müsste er versuchen, die jeweiligen Erklärungsstärken mit-einander zu vergleichen, wozu man u.a. wieder die betreffenden Likeli-hoods mit heranziehen würde. Der Faktor q bestimmt dabei gerade dieErklärungsstärke, die die Annahme ~H im Vergleich zur Erklärungdurch H für das Auftreten der beiden Zeugenaussagen E1 und E2 bietet.Auf diesem Wege reproduziert der Abduktionsvertreter auf etwas andereWeise mit etwas anderen Werten hier bestimmte Ergebnisse der Bayesia-ner. Wenn q größer wird, spricht das für ~H, und wenn q kleiner wird,spricht das für H. Hierbei werden die Likelihoods allerdings möglichstobjektiv gedeutet, was aber nicht verhindert, dass auch der Abduktions-vertreter sie schätzen muss und sie nicht einfach messen kann.

5.6.9 Der Trugschluss des AnklägersIm Bereich der Verwertung von Indizien bei Gericht sind viele Anwen-dungen für das induktive Schließen zu finden und gerade bei Wahr-scheinlichkeitsschlüssen kann man dort erstaunliche Fehlschlüsse entde-cken. Einige haben sogar einen Namen erhalten und sollen kurz vorge-stellt werden. Beginnen möchte ich mit einer kurzen Schilderung einesBeispiels aus dem Buch von Gigerenzer (2002, 209ff.), das viele weitereBeispiele für die Anwendung bayesianischer Überlegungen in der Praxisbietet und insbesondere darauf verweist, dass wir viele Fehler in unse-rem intuitiven Umgang mit Wahrscheinlichkeiten vermeiden könnten,wenn wir zu entsprechenden Häufigkeitsüberlegungen übergehen, wasich des öfteren in diesem Buch zu beherzigen versucht habe.

In Los Angeles kam es 1964 zu einem Raubüberfall und Zeugen sa-hen die Täterin enteilen. Sie beschrieben sie als Blondine mit Pferde-schwanz. Sie stieg in ein gelbes Auto, an dessen Steuer ein Schwarzer mit

Page 456: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 444

Backenbart und Schnurrbart saß. Die Polizei verhaftete daraufhin dasEhepaar Collins, auf das die genannten Merkmale alle zutrafen. Da einesichere Identifizierung nicht gelang, musste die Staatsanwaltschaft dieAnklage ganz auf diese Merkmale stützen. Daraufhin trat ein Mathema-tiker als Sachverständiger auf, der das Ehepaar Collins „überführte“. Ergab Wahrscheinlichkeiten für die einzelnen Merkmale an und multipli-zierte sie dann:

P(Mädchen mit blondem Haar) = 1/3P(Mädchen mit Pferdeschwanz) = 1/10P(teilweise gelbes Auto) = 1/10P(Mann mit Schnurrbart) = 1/4P(Schwarzer mit Bart) = 1/10P(Pärchen beiderlei Hautfarbe) = 1/1000Also: P(Paar mit allen Merkmalen) = 1/12 000 000

Er schloss also, dass es nur eine Chance von 1 zu 12 Millionen gäbe,dass ein Paar alle diese Merkmale aufwiese. Und das wäre noch vorsich-tig gerechnet. Daher wäre die Wahrscheinlichkeit, dass jemand Anderesdie Tat begangen hätte (statt des Ehepaar Collins) also nur 1/12 000000. Klar, dass die Geschworenen das Ehepaar Collins bei so viel Sach-verstand verurteilten.

Erst der oberste Gerichtshof von Kalifornien hob das Urteil auf undverwies darauf, dass hier wohl alle Fehler gemacht wurden, die man insolchen Fällen überhaupt nur machen kann. 1. Die Wahrscheinlichkeitenwaren nur Schätzungen und entbehrten einer empirischen Grundlage.Gerichte geben sich in der Regel nicht mit rein subjektiven Wahrschein-lichkeiten zufrieden, sondern verlangen eine Likelihoodanbindung odereine Herleitung der Startwahrscheinlichkeiten mit Hilfe des statistischenSyllogismus. Die Schätzungen wirken dagegen eher willkürlich. 2. DieWahrscheinlichkeiten wären nur dann zu multiplizieren, wenn für dieseMerkmale eine statistische Unabhängigkeit vorliegen würde. Das ist kei-neswegs plausibel, denn z.B. einen Bart zu haben ist sicher damit korre-liert, auch einen Schnurrbart zu haben. Das müsste letztlich empirischgenauer untersucht werden. 3. Die Unsicherheiten, die in den Aussagenenthalten waren und darin, dass die Merkmale veränderlich sind, warenin den Abschätzungen nicht enthalten. Es könnte sich auch um eine rela-tiv hellhäutige Farbige mit blond gefärbten Haaren handeln. Das alleszeigt schon, mit welcher Vorsicht die Werte zu behandeln sind, aber derschwerwiegendste Fehler ist der sogenannte Trugschluss des Anklägers: 4.Es findet eine Verwechslung statt zwischen der Wahrscheinlichkeit dafür,

Page 457: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

445 Thomas Bartelborth: Induktives Schließen

dass alle gesuchten Merkmale in einer Person übereinstimmen P(Über-einstimmung) und der Wahrscheinlichkeit, dass eine solche Person un-schuldig ist: P(unschuldig|Übereinstimmung).

Trugschluss des Anklägers: Verwechslung vonP(Merkmale treffen auf eine bestimmte Person zu) P(Person ist unschuldig|Merkmale treffen auf diese Person zu)

Betrachten wir das obige Beispiel, um die Verwechslung deutlich zu ma-chen. Nehmen wir an, dass eine Korrektur der genannten Wahrschein-lichkeiten zu dem Ergebnis komme, dass die Wahrscheinlichkeit für eineÜbereinstimmung nur 1/1000 wäre. Ist dann die Wahrscheinlichkeit fürdie Unschuld gegeben eine Übereinstimmung auch nur noch 1/1000 unddamit die Gegenwahrscheinlichkeit, also die Wahrscheinlichkeit für dieSchuld 999/1000? Das würde schließlich immer noch massiv gegen dieCollins sprechen − oder nicht? Nein, das ist keineswegs so einfach.Nehmen wir an, es gab ca. 2,5 Millionen Einwohner in Los Angeles inden 60er Jahren. Nehmen wir weiter an, dass wir keine weiteren Ein-schränkungen vornehmen können, als die bereits genannten und jederBürger von LA als potentieller Verdächtiger in Frage kommt, dann wür-den auf jeden 1000-ten Bürger von LA alle Merkmale zutreffen. Damithätten wir in LA ca. 2500 Bürger (lassen wir die Komplikation einfacheinmal weg, dass es sich um zwei Personen dabei handelt), auf die dieMerkmale alle zutreffen. Nur eine davon wäre die Täterin, d.h., wir hät-ten eine Auswahl von 1 aus 2500 und damit wäre P(schuldig|Überein-stimmung) = 1/2500 und damit P(unschuldig|Übereinstimmung) =2499/2500. Das würde jedenfalls nicht ausreichen, um von der Schuldder Collins überzeugt zu sein. Man erkennt daran sehr gut, dass es sichbei dem Schluss des Sachverständigen und des Anklägers um einen Trug-schluss handelt. Wir müssen typischerweise genau hinschauen, von wel-chen Wahrscheinlichkeiten jeweils die Rede ist. Leider kommen solcheTrugschlüsse häufig bei Laien und sogar bei Sachverständigen vor (vgl.Schweizer 2006).

Ähnliche probabilistische Trugschlüsse versuchen natürlich auch dieVerteidiger für sich zu nutzen (ob bewusst oder unbewusst sei dahinge-stellt). Im Prozess gegen O.J. Simpson wurde gegen ihn u.a. vorgebracht,dass er seine Frau geschlagen hatte. Doch spricht das für ihn als Täter?Intuitiv und psychologisch gesehen scheint das klar gegen ihn zu spre-chen, selbst wenn es noch kein zwingender Hinweis auf seine Täter-schaft sein kann. Alan Dershowitz (einer der Verteidiger von O.J.) ver-suchte statistisch aber sogar positives Kapital aus den Prügelattacken zu

Page 458: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 446

ziehen. Er wies darauf hin, dass nur etwa einer von 1000 der Männer,die ihre Frauen schlagen, diese auch umbringen. Spricht das nicht fürdie Unschuld seines Mandanten? Leider hat die Anklage diesen Punktnicht entkräftet. Man hätte auf folgenden Unterschied hinweisen kön-nen: P(Ehemann ist schuldig|hat Frau geschlagen) ist eine ganz andereals P(Ehemann ist schuldig|hat Frau geschlagen & Frau wurde ermor-det) (vgl. dazu Beck-Bornholdt & Dubben 2003, 95 ff). Es geht unsdoch um die Frage, wie viele von den ermordeten Frauen wurden vonihrem Ehemann ermordet. Gibt in diesen Fällen nicht doch das Prügel-verhalten einen Hinweis auf die Täterschaft. Tatsächlich ergaben Ab-schätzungen, dass von den ermordeten Frauen mindestens jede zweitevon ihrem prügelnden Ehemann ermordet wurde (vgl. Schweizer 2006)oder sogar 4 von 5 (vgl. dazu Beck-Bornholdt & Dubben 2003, 95 ff).Bei Schweizer (2006) finden sich dazu weitere Literaturhinweise auf diekontrovers geführte Diskussion, ob solche bayesianischen Überlegungenüberhaupt in Gerichtsverfahren eingesetzt werden sollten. Doch für eini-ge Zusammenhänge kommt man wohl um bestimmte probabilistischeÜberlegungen nicht herum. Das zeigt sich z.B. dort, wo wir uns fragen,wie sehr wir typischen Indizien wie Fingerabdrücken oder DNA-Spurenvertrauen dürfen. Das ist keineswegs so einfach zu beantworten, wie esleider des öfteren vor Gericht angenommen wird.

5.6.10 Die Bayessche Analyse von DNA-BeweisenDNA-Beweise im kriminologischen Bereich (auch als genetischer Finger-abdruck bezeichnet) lassen sich mit dem üblichen bayesianischen Sche-ma bewerten. Allerdings benötigen wir dazu eine ganze Reihe von Datenund daran krankt es. Bei der DNA-Analyse handelt es sich um ein kom-plexes Geschäft mit schwierigen Interpretationsproblemen. Auf die in-haltlichen Details werde ich hier nicht eingehen, sondern nur speziellauf einige Ergebnisse zur Fehlerhäufigkeit solcher Analysen. Gigerenzer(2002, 227 ff.) weist auf einige Irrtumsquellen in entsprechenden Ge-richtsverfahren hin und führt dazu bestimmte Begriffe ein. Nehmen wirder Einfachheit halber an, dass es praktisch auszuschließen ist (sehr klei-ne Wahrscheinlichkeit), dass zwei Personen dasselbe DNA-Profil haben.Das stimmt zwar insbesondere für enge Verwandte nicht (und schon garnicht für eineiige Zwillinge), aber mit diesen Spezialfällen werden wiruns nicht weiter beschäftigen. Dann müssen wir jedoch trotzdem die La-borfehler oder Möglichkeiten der Verunreinigung berücksichtigen, umdie Urheberwahrscheinlichkeit zu bestimmen, d.h. die Wahrscheinlich-keit, mit der eine bestimmte Person tatsächlich der Urheber der DNA-

Page 459: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

447 Thomas Bartelborth: Induktives Schließen

Spuren ist. Des weiteren muss auch eine Person, deren DNA sich amTatort findet, keineswegs gleich der Täter sein. Hier gibt es viele weitereFehlermöglichkeiten, die allerdings stark vom Einzelfall abhängen dürf-ten.

Mir geht es hier vor allem um die genannte Urheberwahrscheinlich-keit und die Wahrscheinlichkeit falsch positiver Laborergebnisse:P(L+|~H) (Wahrscheinlichkeit dafür, dass Laborergebnis positiv ausfällt(L+), obwohl der Verdächtige nicht der Täter ist (~H)). Diese Wahr-scheinlichkeit sollte doch zumindest sehr niedrig sein. Doch welche Hin-weise haben wir darauf? Leider versuchen staatliche Stellen wie das FBIalle Daten darüber geheim zu halten (vgl. Gigerenzer 2002, 229ff.), wasuns natürlich stutzig machen muss. Trotzdem leugnen viele Sachverstän-dige bereits die Möglichkeit einer fehlerhaften Ermittlung der Urheber-schaft überhaupt. Im Prozess gegen O.J. Simpson musste das Labor da-gegen eine Falsch-positiv-Rate von 1 zu 200 einräumen. Im Rahmeneiner größeren Untersuchung kam Jonathan Koehler (1995) sogar aufeine Falsch-positiv-Rate von 1 zu 100. Das können wir für unsereLikelihoodanbindung nutzen.

Was bedeutet das aber in konkreten Fällen? Solche DNA-Tests wer-den gerne bei Massenuntersuchungen eingesetzt, mit vielen Verdächti-gen und kaum weiteren Hinweisen auf den Täter. Gigerenzer (2002,221) schildert einen Fall aus Oldenburg aus dem Jahre 1998, in dem15000 Männer zwischen 18 und 30 getestet wurden. Nehmen wir alsoan, wir wüssten schon, dass einer der Männer der Täter ist. Fritz isteiner von ihnen und hat daher eine Ausgangswahrscheinlichkeit von1/15000 dafür der Täter zu sein. Nehmen wir einfach an, die Wahr-scheinlichkeit für ein positives Laborergebnis bei tatsächlicher Urheber-schaft sei sogar P(L+|H)=1 und die Falsch-positiv-Rate (zugunsten desTäters) P(L+|~H)=1/100. Dann erhalten wir beim Updaten:

P(H|L+) ≈ 1/151 ≈ 0,0067 oder 2/3%

Damit bliebe die Wahrscheinlichkeit für die Urheberschaft von Fritzselbst bei einem positiven Ergebnis deutlich unter einem Prozent. Hätteder Verdächtige nicht gestanden, wäre ihm eigentlich noch nicht vielnachgewiesen worden. Doch hätten die Ermittler oder die Geschwore-nen das auch erkannt? Leider steht zu befürchten, dass wir hier wiederdem Basisratenfehlschluss begegnet wären. Natürlich hätte man den Testwiederholen können, und es ist nicht leicht zu sagen, zu welchen neuenWahrscheinlichkeiten das geführt hätte. Das hängt vor allem davon ab,wie es genau zu dem ersten Fehler gekommen sein könnte.

Page 460: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 448

Mit einem Geständnis könnten wir natürlich wiederum fragen, wiehoch die Wahrscheinlichkeit für ein falsches Geständnis ist, wenn dieVerdächtigen massiv unter Druck gesetzt werden, wie das in diesem Fallsicherlich gegeben war. Um das weiter zu verfolgen, müssten wir jedochzunächst möglichst genaue empirische Daten darüber haben, wie hierdie Falsch-positiv-Rate unter verschiedenen Bedingungen aussieht. Dannkönnten wir wieder normal updaten. Das dürfte aber kaum zu ermittelnsein und welchen Wert sollte man dafür schätzen? Ein ganz anderer As-pekt ist noch die Unschuldsvermutung in unserem Strafrecht. Soll die et-wa bedeuten, dass wir nur dann von der Täterschaft ausgehen dürfen,wenn die Täterwahrscheinlichkeit über 90% oder sogar über 99% liegt?Dann gäbe es vermutlich nur noch sehr wenige Verurteilungen. Dochdas ist kein überwiegend erkenntnistheoretisches Problem mehr.

5.6.11 Fazit 1: Möglichst objektiver Bayesianismus und TheorienwahlDie Glosse über Prof. Wichtig (Kap. 5.5.11) sollte belegen, wie wichtigfür den Bayesianismus vernünftige Wahrscheinlichkeitseinschätzungensind. Wir können das auch so formulieren, dass wir die Kritik am Baye-sianismus, er sei zu subjektiv, sehr ernst nehmen müssen. Wir sollten alsoalle Gelegenheiten für Objektivierungen beim Schopf ergreifen. Über-haupt hat sich an einigen Beispielen gezeigt, wie schwierig es ist, ein gu-ter Bayesianer zu sein, weil es nicht leicht ist, konsistente Wahrschein-lichkeiten für mehrere Aussagen zu vergeben. Das alles spricht dafür,dass wir dort, wo es irgendwie möglich erscheint, unsere subjektivenWahrscheinlichkeiten an objektiven Wahrscheinlichkeiten bzw. an relati-ven Häufigkeiten orientieren sollten – und das gilt vor allem für dieStartwahrscheinlichkeiten.

Dazu können in erster Linie die Wahrscheinlichkeitskoordinierungs-prinzipien dienen wie der statistische Syllogismus, das Hauptprinzip unddie Likelihoodanbindung. Daneben sollten wir Überlegungen aus der in-duktiven Logik ernst nehmen und mit Hilfe von Indifferenzprinzipiennach vernünftigen Startwahrscheinlichkeiten zu suchen, um nicht demFehler von Prof. Wichtig anheimzufallen, dass ein Vorurteil all unsereBeobachtungen aus dem Felde schlägt. Wenn es nicht gelingt, mit Hilfesolcher Prinzipien zu eindeutigen Wahrscheinlichkeiten zu gelangen ste-hen uns die Wege offen, die Hawthorne und Maher nennen, dass wirmit mehreren Wahrscheinlichkeiten arbeiten können oder uns im Zwei-felsfall auch einmal einer Wahrscheinlichkeitsvergabe enthalten. Für dieweitere Ausgestaltung unseres Überzeugungssystems sind wir dann aufweiteres Hintergrundwissen angewiesen, wie z.B. unser Wissen um

Page 461: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

449 Thomas Bartelborth: Induktives Schließen

grundlegende kausale Zusammenhänge. Die können im Bayesianismusetwa in Form bayesscher Netze eingebracht werden und führen erst zueinigermaßen realistischen probabilistischen Überzeugungssystemen.

Überhaupt sollten wir uns im Normalfall auf kleinere Mengen vonAussagen bzw. lokale Überzeugungssysteme beschränken, die für unsnoch einigermaßen überschaubar bleiben. So können wir uns etwa derAufgabe widmen aus einer vorgegebenen Liste von Hypothesen anhandbestimmter Daten einen Sieger zu küren. Weiteres Hintergrundwissenkann dann etwa über die Startwahrscheinlichkeiten einfließen. Das Ver-fahren der Theorienwahl könnte dann etwa wie folgt aussehen:

Vorschlag: Bayesianisches Verfahren der Theorienwahl

1. Schritt: Man stelle eine Liste L={H1,...,Hn} von Hypothesen auf,die einander ausschließen, die man aber auch für erschöpfend hält.Dazu lasse man nur Hypothesen zu, die alle bereits über eine erhebli-che Erklärungskraft verfügen, um dem zweiten epistemischen Ziel zugenügen.

2. Schritt: Man vergebe Startwahrscheinlichkeiten für die Hypothe-sen und unsere Daten E1,...,Em nach möglichst objektiven Gesichts-punkten. Für die Daten sollten wir uns vor allem auf die Likelihood-anbindung stützen (soweit objektive Likelihoods vorhanden sind) fürdie Hypothesen auf den statistischen Syllogismus (wenn entsprechen-de Daten vorliegen) und ansonsten auf ein Indifferenzprinzip (IP),das allen Hypothesen dieselbe Wahrscheinlichkeit einräumt. Zusätz-lich kann weiteres Hintergrundwissen (HW) einfließen, das die Start-wahrscheinlichkeit der Hypothesen in moderater Weise verändernkann: P(Hi) = PIP+HW(Hi). Auch spezielles kausales Hintergrundwis-sen kann durch die Aufstellung bayesscher Netze eingebracht wer-den, die es uns erleichtern, die Startwahrscheinlichkeiten zu verge-ben.

3. Schritt: Updaten der Hypothesen Hi mit den auftretenden DatenE1,...,Em möglichst anhand einer stabilen Likelihoodanbindung (d.h.P(E|Hi) = PHi(Ej)) ganz im Sinne reiner Bestätigungsfunktionen:

4. Schritt: Auswahl der besten Theorie relativ zu den anderen. Dabeiwird man vor allem darauf setzen, ob es einer Theorie gelingt, sich

Page 462: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 450

durch das Updaten von den anderen abzusetzen und einen deutlichenWahrscheinlichkeitsvorsprung gegenüber allen anderen zu erzielen.Die sollten wir dann als unseren besten Tipp betrachten und entspre-chend (mit den nötigen Vorbehalten für induktives Schließen) als ak-zeptiert auswählen. Hier können wir eventuell noch bestimmte unte-re Grenzen für ihre Wahrscheinlichkeit fordern (etwa >0,5), dochdas könnte in der Praxis durchaus zu Problemen führen, wenn dieStartwahrscheinlichkeiten der Hypothesen schon recht klein sind.Daher würde ich darauf verzichten.

Das so beschriebene Verfahren entspricht mehr unserem tatsächlichenVorgehen auch in Beispielfällen. Es ist sicher realistischer, als anzuneh-men, wir verfügten über ein gesamtes probabilistisches Überzeugungssys-tem mit seiner riesigen Anzahl an erforderlichen Startwahrscheinlichkei-ten. Das weitere Hintergrundwissen sollten wir uns vermutlich eher alszweiwertig (bzw. dreiwertig) im klassischen Sinne einsortiert vorstellen.So wird der Bayesianismus handhabbar und entspricht dann in der kon-kreten Anwendung weitgehend den Bestätigungsfunktionen im Sinnevon Hawthorne.

Außerdem sollten wir natürlich immer über den Tellerrand schauenund Vergleiche mit anderen Ansätzen der Datenauswertung ernst neh-men. Die Likelihoodisten und die klassischen Statistiker setzen ganz aufdie objektiven Likelihoods und versuchen so, gerade die möglicherweisesubjektiven Anteile am Bayesianismus zu vermeiden. Allerdings überse-hen sie damit möglicherweise wichtiges Hintergrundwissen, das wir be-reits besitzen etwa über Basisraten oder kausale Zusammenhänge.Außerdem steht der Bayesianismus ganz in der Tradition des Empirismusund übersieht daher in seiner klassischen Konzeption ein wesentlichesepistemisches Ziel unserer Theoriensuche, nämlich die Suche nach erklä-rungsstarken Theorien. Dem möchte ich hier aber noch einmal besonde-re Aufmerksamkeit und somit einen eigenständigen Abschnitt widmen.

5.6.12 Fazit 2: Bayesianismus und abduktives SchließenSind der Schluss auf die beste Erklärung und das bayesianische SchließenKonkurrenten um das beste Induktionsverfahren? Davon muss man z.T.wohl ausgehen, denn beide stellen unterschiedliche Aspekte in den Vor-dergrund und sollten daher in geeigneten Fällen zu unterschiedlichenRatschlägen führen. Trotzdem gibt es natürlich auch eine ganze Reihevon Gemeinsamkeiten, von denen einige bereits zur Sprache gekommensind und die in dem oben beschriebenen Verfahren der bayesianischenTheorienwahl deutlich werden. Die Schwerpunkte und Zielsetzungen

Page 463: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

451 Thomas Bartelborth: Induktives Schließen

der beiden Ansätze sind aber zunächst andere. Der Bayesianismus istnicht in erster Linie ein Verfahren zur Theorienwahl, denn es werden je-der Theorie und ihren Konkurrenten jeweils immer von Null verschiede-ne subjektive Wahrscheinlichkeiten bzw. Plausibilitäts- oder Glaubens-grade zugewiesen. Dabei mag eine Theorie vorne liegen, aber es ist imklassischen Bayesianismus nichts darüber gesagt, ob wir sie und unterwelchen genauen Umständen wir sie akzeptieren sollten. In Abschnitt5.3.2 hatte ich dafür argumentiert, dass wir durchaus Kriterien für dasAkzeptieren von Theorien benötigen und dazu am ehesten eine Schwel-lenwertkonzeption passt (die man noch im Sinne von Hawthornes Glau-benslogik modifizieren kann s.o.), wonach wir A akzeptieren sollten, so-bald etwa P(A)>0,5 gilt. Im letzen Abschnitt habe ich aber für eine libe-ralere Regelung plädiert. Mit diesen beiden Vorschlägen möchte ich hierder Einfachheit halber arbeiten, obwohl Bayesianer sich oft weigern,über das Akzeptieren von Theorien zu sprechen. Sie sollten jedenfallszumindest zustimmen, dass eine höhere Wahrscheinlichkeit für eineTheorie eine epistemisch positive Auszeichnung der Theorie darstellt,denn sonst verlieren sie jede Anbindung an die klassische Erkenntnis-theorie.

Der Schluss auf die beste Erklärung ist dagegen typischerweise einVerfahren der Theorienwahl, das aber natürlich nicht in jedem Fall zueiner Auswahl einer Theorie führen muss. Eventuell gibt es nahezugleich gute Erklärungskandidaten oder die beste Erklärung stellt immernoch eine sehr schlechte Erklärung dar und erfüllt noch nicht einmal mi-nimale Anforderungen, dann wird auch der Abduktivist keinen Siegerim Sinne der Theorienwahl küren. Doch gehen wir zunächst einmal voneinfachen und klaren Fällen aus. Wählen dann beide Verfahren jeweilsdieselben Theorien?

Das ist nicht zu erwarten. Während der Bayesianismus eher auf derLinie der logischen Empiristen liegt und vor allem darauf setzt, dass dieausgewählte Theorie als sehr wahrscheinlich im Lichte unsere Daten da-steht, setzt der Abduktivismus vor allem auf die Erklärungskraft derTheorie und natürlich darauf, dass die vorliegenden Daten gut durch dieTheorie erklärt werden. Beide Ansätze verlangen also, dass die Daten inbestimmter Weise aus der zu wählenden Theorie folgen. Für den Baye-sianer sollten sie im Lichte der Theorie eine möglichst hohe Wahrschein-lichkeit aufweisen und der Idealfall ist der, in dem sie deduktiv aus unse-rer Theorie herleitbar sind. Das ist für eine Abduktion nicht nötig. Sieverlangt vielmehr vor allem, dass die Theorie nomische Muster enthält,die aufzeigen, wie die zu erklärenden Daten sich kausal aus früheren Zu-

Page 464: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 452

ständen entwickelt haben. Auch hier bleibt die deduktive Herleitung derDaten ein Grenzfall, doch die deduktive Ableitung ist für sich genom-men noch alles andere als ideal, denn oft stellt sie keine Erklärung derDaten dar. Den einfachsten Fall finden wir in der reinen „Beobachtungs-theorie“ t d1&...&dn, die nur aus einer Konjunktion der Beobach-tungsdaten d1 bis dn besteht. Sie deckt zugleich wichtige Unterschiedezwischen den Ansätzen auf.

Die Theorie t ist für einen Bayesianer eigentlich eine ideale Theorie,denn sie folgt deduktiv aus den Daten und muss daher die Wahrschein-lichkeit 1 erhalten. Das scheint noch nicht problematisch zu sein, dennnatürlich sollten wir t vertrauen, wenn wir den Daten vertrauen. DasProblem tritt allerdings auf, wenn wir t mit irgendeiner anderen vollwer-tigen Theorie T vergleichen, die die Daten erklärt, indem sie sie auf zu-grundeliegende Gesetze zurückführt. Eine richtige Theorie T sollte da-bei einen Überschussgehalt gegenüber den Daten haben und wird daherim Normalfall auch nach dem Updaten nicht die Wahrscheinlichkeit 1aufweisen. Dann müsste ein Bayesianer aber t immer gegenüber T vor-ziehen, doch das entspricht überhaupt nicht dem Verfahren der Theo-rienwahl in der Wissenschaft und noch nicht einmal der im Alltag. DieTheorie t gestattet es zwar, unsere Daten abzuleiten, aber sie besitztüberhaupt keine Erklärungskraft; sie sollte daher kein Konkurrent für Tsein. Hier kommt leider die Theoriefeindlichkeit des Bayesianismus zumVorschein. Auch der Abduktivist wird natürlich die deduktiven Zusam-menhänge respektieren (im Rahmen der Kohärenztheorie), aber für ihnverlangt eine Theorienwahl vor allem nach Erklärungen, die t nicht lie-fern kann. Denken wir an das Beispiel der Choleratheorie von Snow.Diese Theorie schätzen wir für ihre große Erklärungskraft undVereinheitlichungsleistung, zählt dagegen aber nur ihre Wahrscheinlich-keit, hätte sie keine Chance gegen eine Theorie vom Typ t.

Wir sind dazu in unserem Vorschlag für die bayesianische Theorien-wahl dafür eingetreten, dass man im Hinblick auf die Wahrscheinlich-keit nur solche Theorien miteinander vergleichen sollte, die dieselbe Er-klärungskraft aufweisen. Das ist sicher ein wesentlicher Schritt in dierichtige Richtung. Allerdings führt er plötzlich ganz neue Gesichtspunk-te in die bayesianische Erkenntnistheorie ein. Darüber sollten wir uns imKlaren sein. Wir müssen nun doch die Erklärungsstärke der beteiligtenTheorien kennen. Dafür hat der Bayesianer bisher keine eigenen Res-sourcen. Es ist auch nicht zu erwarten, dass sich die auf die Wahrschein-lichkeiten zurückführen lässt, die dem Bayesianer vertraut sind. Die Er-klärungsdebatte hat gezeigt, dass es keine einfache Explikation von Er-

Page 465: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

453 Thomas Bartelborth: Induktives Schließen

klärung durch Wahrscheinlichkeitszusammenhänge gibt und dass insbe-sondere die epistemischen Wahrscheinlichkeiten dazu ungeeignet sind;zumindest würden wir physikalische (bzw. ontische) Wahrscheinlichkei-ten benötigen, um mit ihrer Hilfe eine Erklärung eines Ereignisses abge-ben zu können. Das ist ebenso das Problem, wenn Bayesianer versuchen,mit rein probabilistischen Mitteln Kohärenz zu explizieren. Dann kön-nen sie jedenfalls nicht die Erklärungskohärenz damit erfassen, und mei-nen somit etwas anderes als das, was sich in der Rekonstruktion von his-torischen Fallstudien als hilfreicher Leitfaden der Theorienbeurteilungdurch den Kohärenztheoretiker herausgestellt hat (vgl. etwa Thagard2000).

Außerdem ergeben sich Probleme, wenn die Theorien nicht alle überdie exakt gleiche Erklärungsstärke verfügen. Dann werden Verrechnun-gen zwischen Wahrscheinlichkeit und Erklärungsstärke bzw. dem Gehaltder Theorien erforderlich, wie wir sie auch im Rahmen unserer Konzep-tion von Erklärungskohärenz benötigen. Man könnte also sagen, dasswir hier wieder auf Poppers Idee zurückgreifen, dass wir bei Theorien-wahl nach Theorien suchen, die einen hohen Gehalt haben. Für Popperbleibt das das einzige Kriterium, um unter den nichtfalsifizierten Theo-rien nach der besten Ausschau zu halten. Das sieht der Abduktivist an-ders. Er sucht nach einer Theorie, die möglichst viele der vorliegendenDaten auch tatsächlich erklären kann, also diese Daten etwa ableitenkann, dabei aber zugleich einen besonders hohen Gehalt aufweist. Unterhohem Gehalt ist wiederum die Erklärungsstärke gemeint, die auch Pop-per manchmal im Sinn zu haben scheint, wenn er etwa davon spricht,dass wir nach tiefen Theorien suchen. Der Vorschlag zur bayesianischenTheorienwahl aus dem letzten Abschnitt versucht bereits, diesen Ge-sichtspunkt zumindest mit einzubeziehen.

Während die logischen Empiristen also einen Pol der Debatte beset-zen, an dem man nur auf die hohe Wahrscheinlichkeit der Theoriensetzt, und Popper einen anderen Pol, an dem man nur auf den Gehaltder (nichtfalsifizierten) Theorien vertraut (was eher kleinen Wahrschein-lichkeiten entspricht), sucht der Abduktivist und Kohärenzvertreter nacheinem mittleren Weg. Einerseits zählt, dass eine Theorie möglichst vieleDaten erklärt und dabei natürlich epistemisch durch diese Daten ge-stützt und bzw. begründet wird, andererseits zählt dabei die Erklärungs-stärke und damit der Gehalt, den die Theorie zu bieten hat, der sich u.a.in möglichst invarianten nomischen Mustern manifestiert. Damit zählenetwa auch mögliche Daten, denn es geht darum, zugleich für neue mög-

Page 466: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 454

liche Daten bereits eine Theorie zur Verfügung zu stellen, deren nomi-sche Muster darauf anwendbar sind.

Es gibt einige wenige Bayesianer, die zumindest sehen, dass der (em-pirische) Gehalt ein wichtiges Kriterium der Theorienwahl darstellensollte. Doch die Explikation des gesuchten Gehalts von Theorien bleibtdabei ein Problem, denn der ist m.E. nicht schlicht über die Wahrschein-lichkeit bzw. Plausibilitätsgrade einer Theorie explizierbar. Diese ändernsich, ohne dass sich deswegen schon die Erklärungskraft der Theorieverändert. Hier gibt es also Bedarf für eine wichtige Ergänzung desBayesianismus, wobei noch unklar ist, wie die genau aussehen könnte.Gerade wenn der Bayesianismus etwas zur Theorienwahl in der Wissen-schaft beisteuern möchte, muss er den Aspekt des Gehalts von Theorienim Blick behalten. Intuitiv werden wir oft vergleichbar starke Theoriengegeneinander antreten lassen, aber dieser Aspekt muss dann im bayesia-nischen Ansatz explizit genannt und möglichst weiter präzisiert werden.

Wir finden diesen Aspekt bereits in der allgemeinen Erkenntnistheo-rie. Es wird vermutlich unter dem Einfluss der logischen Empiristen unddurch Betonung der Auseinandersetzung mit dem Skeptiker gerne über-sehen, dass wir genau genommen zwei Ziele in der Erkenntnistheorieverfolgen. Vielleicht wird das zweite Ziel auch immer implizit vorausge-setzt, so dass wir nur vergessen, es explizit zu formulieren:

Die zwei grundlegenden Ziele der Erkenntnistheorie1. Vermeide es, falsche Aussagen zu akzeptieren.2. Akzeptiere möglichst viele wahre und informative Aussagen.

Im zweiten Ziel werden mit den „informativen“ Aussagen gerade solchegesucht, die es uns ermöglichen zu verstehen, was in der Welt um unsherum passiert, die also dafür Erklärungen liefern, und die es möglichstgestatten, in die Welt in unserem Sinne einzugreifen. Dabei handelt essich also primär um erklärungsrelevantes Wissen, das gerade die Kon-zeption der Erklärungskohärenz in den Mittelpunkt stellt.

Besonders die Empiristen haben immer das erste Ziel in den Vorder-grund gestellt und große Teile der Debatte in der Erkenntnistheorie, wiedie Bekämpfung des Skeptikers, sind diesem Ziel gewidmet. Auch in dernormalen Wissensdebatte geht es nur darum, Forderungen in puncto Si-cherheit unserer Erkenntnis und Abwesenheit von relevanten Untermi-nierern aufzustellen und man fragt sich eigentlich nie, wofür man diesenAufwand treibt. Ginge es wirklich nur um das erste Ziel, könnten wiruns schlicht den Skeptikern anschließen, die uns raten, dass wir uns ein-fach aller Mutmaßungen über unsere Welt enthalten sollen oder nur auf

Page 467: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

455 Thomas Bartelborth: Induktives Schließen

analytische Aussagen zurückzugreifen oder es bei den einfachen „Beob-achtungstheorien“ t zu belassen.

Das erste Ziel ist also für sich genommen auf recht triviale Weise zuerfüllen. Ebenso natürlich das zweite. Dazu müssten wir nur alle Aussa-gen unserer Sprache akzeptieren. Erst im Zusammenspiel der beidenForderungen liegt die Brisanz unserer Erkenntnis. (In Niiniluoto 1999werden daher beide Aspekte auch in seiner Konzeption von Wahrheits-ähnlichkeit berücksichtigt.)

In der Wissenschaft wird das besonders deutlich, aber ebenso im All-tag: Um zu erklärungsrelevantem Wissen (also insbesondere zu Hypo-thesen mit Erklärungskraft) zu gelangen, sind wir gezwungen, ein gewis-ses epistemisches Risiko einzugehen (vgl. Bartelborth 2005). Sonst könn-ten wir bei mathematischem Wissen stehenbleiben oder noch die reinenBeobachtungsüberzeugungen hinzunehmen. Schon für die Auswahl derBeobachtungsüberzeugungen, die auch tatsächlich relativ sicher über dieWelt Auskunft geben, sind wir allerdings auf allgemeines Wissen dar-über, wie die Welt funktioniert angewiesen. Wir müssen etwa typischeIrrtumsquellen kennen und dafür plädieren, dass die im konkreten Be-obachtungsfall nicht vorliegen.

Angesichts der zwei Ziele wird der Unterschied zwischen den Baye-sianern und den Abduktivisten und Kohärenzvertretern deutlicher. Letz-tere versuchen beide Ziele explizit zu berücksichtigen und sehen deshalbauch so gut aus, wenn es darum geht, Episoden der Wissenschaft zu re-konstruieren. Im Bayesianismus wird das zweite Ziel bestenfalls ver-steckt vorkommen und höchstens implizit von den Bayesianern in ihreVorher-Wahrscheinlichkeiten einfließen. Der Bayesianismus sollte an die-ser Stelle ergänzt werden. Das gilt zumindest für einige Anwendungen.Im Falle der diagnostischen Schlüsse etwa und manch anderen Situatio-nen mit vorgegeben Konkurrenzhypothesen kommt das Problem nichtso zum Tragen, da die Theorien wie die reine Beobachtungstheorie tnicht zur Debatte stehen. Man kann also auch dafür argumentieren, dassdie verschiedenen Verfahren eher bereichsspezifisch mehr oder wenigergut geeignet sind. Für die diagnostischen Schlüsse liefert der Bayesianis-mus die überzeugendste Verrechnung all unserer Erkenntnisse, für dieallgemeine Theorienwahl ist das nicht der Fall. Um dem Rechnung zutragen, muss dieses Ziel bereits in die Auswahl einer Liste von Hypothe-sen, die dann bayesianisch miteinander verglichen werden eingebautwerden.

Es gibt aber natürlich zugleich engere Zusammenhänge zwischendem Bayesianismus und dem Schluss auf die beste Erklärung. Die er-

Page 468: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 456

kennt man am besten, wenn wir das bayessche Theorem in der schon inKapitel 5.1 angeführten ausführlicheren Form betrachten und zunächstetwa annehmen, dass es nur zwei einander ausschließende HypothesenH1 und H2 gibt (oben waren das H und ~H) und dazu Daten Ek E1&...&Ek. Damit erhalten wir:

(1) P(H1|Ek) = P(H1) / [P(H1) + P(H2) q1,2(Ek)], wobei q1,2 derfolgende Quotient ist: q1,2(Ek) = P(Ek|H2) / P(Ek|H1)

Hieran kann man erkennen, dass H1 durch die Daten ceteris paribus um-so besser bestätigt wird, je kleiner q1,2(Ek) ist, d.h., umso besser H2 durchdie Daten Ek relativ zu H1 bestätigt wird. Doch der Quotient q1,2(Ek)stellt zugleich eine wichtige Dimension des Vergleichs der Erklärungs-kraft unserer beiden Hypothesen dar. Neben q1,2(Ek) gehen für denBayesianer noch die Vorher-Wahrscheinlichkeiten in die Betrachtung ein.

Für eine vollständige Liste einander ausschließender HypothesenH1,...,Hn erhalten wir dann einen etwas komplexeren Ausdruck:

(2) P(H1|Ek) = P(H1) / [P(H1) + i>1P(Hi) q1,i(Ek)], wobei q1,i derfolgende Quotient ist: q1,i(Ek) = P(Ek|Hi) / P(Ek|H1) und wirden Ausdruck Q = i>1P(Hi) q1,i(Ek) definieren.

Hierbei ist klar, dass Q klein werden muss, damit H1 durch die Datengut bestätigt wird. Das ist ceteris paribus wiederum der Fall, wenn dieq1,i(Ek) jeweils alle klein werden (was dafür spricht, dass H1 bessere Er-klärungen liefert als die anderen Hypothesen), aber in Q finden wirauch noch die Vorher-Wahrscheinlichkeiten der anderen Hypothesen, sodass der Abduktionsvertreter diesen Ausdruck nicht ohne weiteres über-nehmen kann.

Weitere Gemeinsamkeiten finden sich in den möglichen Untermi-nierern für beide Ansätze. Wir haben schon die engen Zusammenhängebeider Ansätze zur Grundidee der eliminativen Induktion analysiert. Ty-pische Unterminierer sind hierfür übersehene relevante Hypothesen.Das ist auch für das abduktive Schließen und ebenfalls für den Bayesia-nismus eine Todsünde. Für das abduktive Schließen ist das wohl offen-sichtlich, aber auch im Bayesianismus erkennt man das Problem leichtwieder (vgl. a. Hawthorne 1993). Wir bestimmen die Wahrscheinlichkei-ten der einzelnen Hypothesen in der Regel als Liste einander ausschlie-ßender aber insgesamt vollständiger Hypothesen, und insbesondere müs-sen wir P(E) anhand dieser Liste bestimmen, um überhaupt einen Wertzu erhalten und um die Likelihoodanbindung einbringen zu können. Andieser Stelle lauert also eine ähnliche Fehlerquelle für beide Ansätze, die

Page 469: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

457 Thomas Bartelborth: Induktives Schließen

uns schnell den Aufstieg zu wissenschaftlichem Wissen verstellen kann.Der Fachwissenschaftler (und auch der Detektiv) muss in möglichstkreativer Weise immer nach neuen Konkurrenzhypothesen zu seinereigenen Ausschau halten. Doch wir wissen wohl alle, dass diese Suchenicht gerade unsere Stärke ist, wo es uns doch eigentlich darum geht, al-le Daten als positive Bestätigungen unserer Hypothesen zu betrachten.Diese Unterminierer sind spezifisch für ganz bestimmte Induktionsver-fahren. Im (konservativen) Extrapolieren, der deduktiv-hypothetischenTheorienbestätigung, den Signifikanztests und vielen anderen sind voll-ständige Listen von Hypothesen nicht vorgesehen und können daher imRahmen dieser Verfahren scheinbar nicht zu Fehlschlüssen führen. Dochdas zeigt nur, dass diesen Verfahren der wichtige komparative Aspektder Bestätigung fehlt.

Fehlerhafte Daten oder Messgeräte sind natürlich Unterminierer fürpraktisch alle Induktionsverfahren, aber allgemeinere Hilfshypothesensind wieder etwas spezifischere Unterminierer für alle absteigenden Be-stätigungskonzeptionen. Hier finden sich klare Gemeinsamkeiten zwi-schen unseren Ansätzen zum induktiven Schließen.

5.6.13 Andere PlausibilitätsmaßeProbabilistische Positionen liefern sicher die prominentesten und amweitesten ausgearbeiteten Plausibilitätsmaße, aber wir sollten zur Kennt-nis nehmen, dass sie keineswegs die einzigen Kandidaten dafür darstel-len. Es gibt gerade unter Informatikern einige Versuche, den wahr-scheinlichkeitstheoretischen Ansatz zu verallgemeinern etwa im Rahmendes Dempster-Shafer-Ansatzes (Shafer 1976, Huber 2011) und eine all-gemeinere Theorie von Plausibilitätsmaßen zu konstruieren, die bereitseinige Anwendungsbereiche befruchten kann wie etwa das Default-Schließen, bei dem wir z.B. schließen, dass aus p typischerweise odernormalerweise q folgt. Wenn Tweety ein Vogel ist, so kann er normaler-weise fliegen, aber das gilt nicht in jedem Fall, so z.B. nicht für Pinguine.Ähnlich werden manchmal auch Ceteris-paribus-Gesetze verstanden. Siebehaupten demnach, dass Rauchen im Normalfall Lungenkrebs hervor-ruft, aber gestatten eben auch Ausnahmefälle wie Helmut Schmidt, ohnedass dadurch das CP-Gesetz falsifiziert würde.

Auf ein erstes Problem stoßen wir in der Beschreibung dieser Ansät-ze, wenn wir die Objekte des Glaubens bzw. für bestimmte Plausibilitäts-maße genauer bestimmen möchten. Diese Frage haben wir hier bishereinfach ausgeklammert bzw. ich habe schlicht von Aussagen als den Ob-jekten des Glaubens bzw. den Objekten unserer epistemischen Bewertun-

Page 470: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 458

gen gesprochen. Wir können das auch als Frage nach der geeigneten In-dividuierungen von Glaubensinhalten bzw. Aussagen verstehen. EinenZugang dazu bietet die mögliche Welten Semantik bzw. eine entspre-chende Semantik von Möglichkeiten, die etwa durch eine Menge W dar-gestellt werden. Man sagt dann, dass eine Proposition p mit einer Teil-menge A von W identifiziert wird; also etwa mit der Menge A der mög-lichen Welten, in denen p wahr ist. Das hat allerdings gewisse problema-tische Konsequenzen wie z.B. die folgende: Die beiden AussagenA1 „2+2=4“ und A2 „Junggesellen sind unverheiratet“ sind beidein allen Welten wahr und bestimmen damit dieselbe Proposition, näm-lich die Menge aller Welten W. Intuitiv scheinen sie uns aber unter-schiedliche Aussagen zu machen. Wir können die Aussagen aber auchnicht anhand der Sätze, mit denen wir sie aussagen, festlegen, denn diebeiden Aussagen „Aprikosen sind schmackhaft“ und „Marillen schme-cken gut“ stellen zwar recht unterschiedliche Sätze dar, während sie imWesentlichen dieselbe Aussage machen. Während Propositionen im Sin-ne der möglichen Welten unsere Aussagen also wohl zu grob individuie-ren, stellen Sätze offensichtlich eine zu feine Individuierung dar. Wie wirdann eine geeignete Semantik und Individuierung von Aussagen be-schreiben können, soll jedoch hier nicht weiter verfolgt werden (vgl. et-wa Huber 2011 und King 2011).

Die im Folgenden zu betrachtenden Ansätze verwenden zumindestmeist die mögliche Welten Semantik und beziehen sich daher auf dieentsprechenden Propositionen, was ich hier übernehme. Man kann sichdie grundlegenden Möglichkeiten wW auch durch die Vollkonjunktio-nen von gewissen Basisaussagen gegeben denken und erhält damit einenZusammenhang zu unseren früheren Darstellungen. Oft wird jedenfallseine Mengenalgebra APot(W) als Menge der Propositionen angenom-men, die als stabil unter Vereinigungen, Durchschnitts- und Komple-mentbildung konstruiert wird. Außerdem benötigen wir eine zumindestpartiell geordnete Menge D für die Plausibilitätsmaße: Pl:AD (vgl.Halpern 2001/a und 2003). Ich vereinfache das etwas und wähle für Ddas reelle Intervall D=[0;1]. Für das Plausibilitätsmaß Pl werden zu-nächst drei einfache Axiome für Pl angenommen:

1) Pl(W) = 12) Pl() = 03) Für U V gilt: Pl(U) Pl(V)

Als Nächstes zeigt Halpern, dass viele Plausibilitätsmaße diese rechtschwachen Bedingungen erfüllen – zumindest, wenn wir eine recht allge-

Page 471: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

459 Thomas Bartelborth: Induktives Schließen

meine Menge D annehmen. Der Clou liegt dann aber vor allem darin,dass nun konditionale Plausibilitätsmaße betrachtet werden, mit denenwir analog zum bayesianischen Updaten neue Informationen einbezie-hen und unser Plausibilitätsmaß updaten können. Für die konditionalenPlausibilitätsmaße wird etwa für beliebige U, U* sowie V und V* aus Averlangt:

Pl:AAD ist ein konditionales Plausibilitätsmaß, wenn gilt:K1) Pl(W|V) = 1K2) Pl(|V) = 0K3) Für U U* gilt: Pl(U|V) Pl(U*|V)K4) Pl(U|V) = Pl(UV|V)

Die ersten drei Axiome entsprechen denen der unbedingten Plausibili-tätsmaße, während das vierte sicherstellen soll, dass die bedingte Plausi-bilität von U tatsächlich nur von dem Bereich der Übereinstimmung vonU und V abhängt, also tatsächlich eine Relativierung auf V vorliegt. Hal-pern schlägt auch noch ein mögliches stärkeres Ersatzaxiom für (K4)vor:

K5) Pl(U|VV*) Pl(U*|VV*) gdw. Pl(UV|V*) Pl(U*V|V*)

Aus (K5) ist (K4) ableitbar, und (K5) sieht zwar ebenfalls einleuchtendaus, wird von einigen Ansätzen jedoch schon nicht mehr erfüllt.

Das sieht alles nach einigermaßen einfachen Verallgemeinerungendes probabilistischen Ansatzes aus. Um unsere Phantasie etwas weiteranzuregen, möchte ich zumindest einen Ansatz kurz vorstellen, der sichbei Philosophen einer gewissen Beliebtheit erfreut, aber doch ganz an-ders aussieht als die Wahrscheinlichkeitsansätze, nämlich die sogenannteRangtheorie von Wolfgang Spohn (vgl. etwa Spohn 2009, Huber 2011).Es werden dabei Propositionen in Stufen eingeteilt, wobei die plausible-ren den Wert 0 zugewiesen bekommen, während die unplausibleren Pro-positionen natürliche Zahlen bis einschließlich unendlich erhalten.Spohn spricht von negativen Rangfunktionen, da sie mit höheren Wer-ten höhere Grade von Unplausibilität ausdrücken. Dazu kommen wiederdie typischen Anforderungen an Plausibilitätsmaße. Zugrunde liegt derganzen Konstruktion eigentlich schon eine punktweise Funktion:Wℕ{}, die einer Möglichkeit oder möglichen Welt wW (diewie erwähnt durch die Vollkonjunktionen von Basisaussagen gegebensein könnten) einen Grad von Unplausibilität (w) zuweist. Dabei wirdgefordert, dass wir nicht alle Möglichkeiten als unplausibel ablehnen,d.h. für mindestens ein w aus W sollte gelten: (w)=0. Für Mengen

Page 472: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 5: Probabilistische Ansätze 460

AA, sei dann (A)=min{w; wA} definiert. Das heißt, eine Proposi-tion ist nur so unplausibel, wie die plausibelste Welt, in der sie gilt. Mankann dazu auch direkt Rangfunktionen axiomatisch einführen:

:Aℕ{} ist eine negative Rangfunktion, wenn für alle A, B Agilt:(1) () = (2) (W) = 0(3) (AB) = min {(A), (B)}

Dabei erkennt man wieder die Anforderungen an Plausibilitätsmaße,und es lässt sich u.a. ableiten, dass (A)=0 oder (~A)=0 gilt, wobeiwir mit ~A nun das Komplement von A in W meinen, denn die Rang-funktion liefert für die Vereinigung beider Mengen die 0, also muss eineder beiden Mengen auf 0 abgebildet werden. Außerdem ergibt sich fürAB, dass (B)(A) ist (man denke daran, dass es sich um eine negativeRangfunktion handelt), denn B=AB\A und daher (B)=min{(A),(B\A)}(A).

Wenn man die Rangfunktion im Sinne von Glaubensgraden deutenmöchte, dann besteht die Menge -1(0), die auf die 0 abgebildet wird,aus den Aussagen, die wir akzeptieren und denen, denen gegenüber wirneutral sind. Unsere Überzeugungsmenge G ist dann dadurch gekenn-zeichnet, dass (~A)>0 ist: G={AA; (~A)>0}, während für die neu-tralen Überzeugungen N gilt: (N)=0 und (~N)=0.

Hier lässt sich eine konditionale Rangfunktion auf besonders einfa-che Weise definieren:

Für eine negative Rangfunktion und (A)< lässt sich eine kondi-tionale negative Rangfunktion durch (B|A) := (AB) – (A) defi-nieren, die im ersten Argument wiederum eine negative Rangfunk-tion darstellt.

Die konditionalen Rangfunktionen gestatten es dann wiederum, ein Up-daten zu beschreiben, wobei sich sogar ein Analogon zum Update-Ver-fahren von Jeffreys angeben lässt. Außerdem lassen sich einige interes-sante Konsequenzen ableiten, und die Rangfunktionen können sogar da-zu dienen, bestimmte Konzeptionen kontrafaktischer Kausalität zu be-stimmen. Allerdings bleibt das Problem virulent, wie sich die Rangwertezunächst in sinnvoller Weise bestimmen lassen. Es existiert leider keineAnbindung an relative Häufigkeiten, die wir wie im Falle der Wahr-scheinlichkeiten nutzen könnten.

Page 473: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

461 Thomas Bartelborth: Induktives Schließen

Andere Ansätze, wie etwa die Fuzzy-Logik, bieten gegenüber demWahrscheinlichkeitsansatz den Vorteil, dass sich einfache Kombinations-regeln festlegen lassen – also Regeln dafür, welche Plausibilität A&B zu-kommt, wenn wir die Plausibilität von A und die von B bereits kennen.Für Wahrscheinlichkeiten können wir nur sagen, dass P(A&B) [0;max{P(A), P(B)}] gilt. Daher benötigten wir extrem viele Einzelwahr-scheinlichkeiten. In der Fuzzy-Logik werden für die Fuzzy-Wahrheits-werte üblicherweise sogenannte t-Normen als Kombinationsregelnuntersucht (vgl. Gottwald 1993, 2010).

Eine Funktion t:[0;1]2[0;1] heißt t-Norm, wenn sie die folgendenBedingungen für alle a, b, c [0;1] erfüllt:(T1) t(a,1) = a (neutrales Element)(T2) ab t( a,c) t(b,c) (Monotonie)(T3) t ist kommutativ und assoziativ

Um die Möglichkeiten für solche t-Normen weiter einzuschränken undüberschaubarer zu gestalten, wird oft zusätzlich verlangt, dass t auchnoch stetig ist. Einen typischen Vertreter finden wir z.B. in t(a,b) :=min{a,b}, einen anderen in t(a,b) := a·b. Ist also erst einmal eine Ent-scheidung für eine ganz bestimmte t-Norm gefallen, lassen sich die Fuz-zy-Wahrheitswerte für eine Konjunktion aus denen der einzelnen Kon-junkte ableiten. Leider ist zunächst nicht so klar, welche t-Norm dierichtige/beste ist und außerdem muss das Ergebnis nicht immer zu unse-ren relativen Häufigkeiten passen.

Diese Ansätze bieten also sicher alle interessante theoretische Kons-truktionen, aber in der Wissenschaftspraxis sind sie nicht sehr gut veran-kert, wenn es um das induktive Schließen geht, und es bleibt immer dieFrage, wie wir zu konkreten Rängen für Propositionen oder zu Fuzzy-Wahrheitswerten oder zu anderen Plausibilitätsmaßen kommen bzw.,wie wir sie mit unseren Daten in Verbindung bringen. Für die Wahr-scheinlichkeiten haben wir zu diesem Zweck einige Wahrscheinlichkeits-koordinierungsprinzipien wie den statistischen Syllogismus oder dieLikelihoodanbindung etc. kennengelernt, die uns hier weiterhelfen. So-lange diese Fragen für die anderen Plausibilitätsansätze nicht beantwor-tet sind, werden diese Ansätze vermutlich weiter eine Nebenrolle für dasinduktive Schließen spielen, wie das auch in diesem Buch der Fall ist.

Page 474: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

6 Schlüsse der klassischen Statistik

Die klassische Statistik ist das Instrument, das überwiegend in der Wis-senschaft zum Einsatz kommt, wenn man sich dort explizit auf bestimm-te Methoden des induktiven Schließens stützt. Man könnte etwas bos-haft sagen, dass die klassische Statistik entsteht, wenn wir im Bayesianis-mus bis auf die Likelihoodanbindung alles andere weglassen. Doch dieklassische Statistik hat natürlich eigenständige Methoden entwickelt, diein zahllosen Büchern und Artikeln vorgestellt und diskutiert werden.Mir geht es hier – wie auch schon im Falle des Bayesianismus – nichtdarum, diese Methoden in allen Einzelheiten vorzustellen und zu veran-schaulichen, sondern vielmehr darum, die zugrundeliegende Logik desinduktiven Schließens bzw. Rechtfertigens in der klassischen Statistik of-fenzulegen, und auf dieser Grundlage bestimmte Problem in ihrer An-wendung aufzuzeigen. Die führen u.a. zu der Einsicht, dass die klassi-schen Hypothesentests keineswegs das leisten können, was wir uns vonihnen in der Praxis der Wissenschaften oft erwarten. Außerdem könnenwir erkennen, dass es sich wieder um Spezialfälle des Schlusses auf diebeste Erklärung handelt. Tatsächlich sind ganz ähnliche Abwägungspro-zesse für ihre Ergebnisse in der Anwendung erforderlich.

Da es so viele gute Einführungen in die Statistik gibt und etliche da-von sogar im Internet zu finden sind, verzichte ich darauf, alle Begriffeder Statistik, die ich verwende, ausführlich zu erläutern. Das würde denRahmen dieses Buches sprengen, und ich muss daher den Leser, der da-mit nicht vertraut ist, bitten, dafür ein Standardwerk der Statistik zu Ra-te zu ziehen. Für das Verstehen der Methoden der klassischen Statistikwird sich immer wieder der Vergleich mit dem bayesianischen Ansatz alshilfreich erweisen. Insbesondere werden sich – so vermute ich jedenfalls– doch einige neue Sichtweisen auf die klassische Statistik ergeben unddamit Stoff für eine weitere Debatte liefern. Für eine Ausgestaltung derklassischen Statistik gibt es hingegen an dieser Stelle keinen Bedarf auf-grund der vielen guten Lehrbücher in diesem Bereich. Zur Sprache kom-men sollen hier Signifikanztests und Schätzverfahren sowie die Regres-sionsrechnung, die im Kapitel 7 mit behandelt wird.

Page 475: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

463 Thomas Bartelborth: Induktives Schließen

6.1 Klassische HypothesentestsIn der klassischen Statistik wird den untersuchten Hypothesen niemalseine Wahrscheinlichkeit zugewiesen, denn die hier eingesetzten Wahr-scheinlichkeiten werden immer objektiv verstanden und meist als fre-quentistisch interpretierbar gedacht. Nach den kritischen Anmerkungenzu frequentistischen Interpretationen von Wahrscheinlichkeit würde icheher für ein Propensitätenverständnis dieser Wahrscheinlichkeiten plä-dieren, aber das wird nur gelegentlich zur Sprache kommen. Jedenfallskönnen Hypothesen nicht wie im Bayesianismus anhand ihrer Wahr-scheinlichkeit oder Plausibilität bewertet werden, denn die haben sie inder klassischen Statistik nicht. Sie sind entweder wahr oder falsch undweitere epistemische graduelle Auszeichnungen, wie gut sie bestätigtsind oder wie plausibel sie uns erscheinen, kommen in der klassischenStatistik nicht vor. Letztlich geht es wie in der klassischen Erkenntnis-theorie um eine Entscheidung, wann wir bestimmte Hypothesen akzep-tieren dürfen. Das muss man sich immer wieder vor Augen führen, dennmanche Redeweisen der klassischen Statistiker sind in dieser Hinsicht ir-reführend, und es scheint uns auch zu verlockend, von mehr oder weni-ger gut gestützten Hypothesen zu sprechen, als ob man das genauerquantifizieren könnte. Doch die klassische Statistik ist ganz im Rahmender klassischen Erkenntnistheorie angesiedelt, nach der wir Hypothesennur akzeptieren oder ablehnen können oder uns im Notfall eines Urteilseinfach enthalten dürfen. Leider werden die Regeln, wann wir bestimm-te Theorien akzeptieren sollten, nicht klar zu explizieren sein. Genügtetwa ein signifikantes Testergebnis, um eine Hypothese als akzeptierbarauszuzeichnen? Oder benötigen wir dazu mehrere Testergebnisse undwie viele sollten es denn sein? Das wird z.T. offenbleiben, wie es auchim Rahmen der klassischen Statistik nicht wirklich geklärt ist.

Statt also die Wahrscheinlichkeiten der Hypothesen „upzudaten“kommen Hypothesentests in der klassischen Statistik dadurch zustande,dass die Likelihoods der Hypothesen H im Lichte der Daten E betrach-tet werden, oder intuitiver ausgedrückt: Wir ziehen nur die Wahrschein-lichkeit bzw. Likelihood P(D|H) der Daten D gegeben eine HypotheseH heran, wobei nur solche Likelihoods zugelassen werden, die wir alsobjektiv ansehen können, die sich also aus der oben so bezeichnetenLikelihoodanbindung ergeben. (Die Redeweise von den Likelihoods istleider nicht einheitlich und stellt manchmal die Hypothesen als Trägerder Likelihoods dar, was ich aber nicht übernehmen möchte.) Das heißtzusammengefasst: Zugelassen sind nur objektive physikalische Wahr-scheinlichkeiten und objektive Likelihoods, in denen uns eine Theorie

Page 476: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 6: Schlüsse der klassischen Statistik 464

sagt, welche Wahrscheinlichkeiten bestimmte Ereignisse hätten, wenndie Theorie wahr wäre. Damit kommen allerdings bereits gewisse moda-le Elemente in die klassische Statistik, weshalb sie genau genommennicht ganz so empiristisch akzeptabel ist, wie ihre Väter sich das ge-wünscht haben.

Die Grundidee ist wiederum simpel und passt auch zum bayesiani-schen Vorgehen oder dem deduktiv-hypothetischen Ansatz:

Sollte P(D|H) relativ groß sein und D dann auftreten, so stützt das dieHypothese H, sollte P(D|H) dagegen relativ klein sein und D tritt auf,dann spricht das gegen unsere Hypothese.

Das klingt noch ein wenig nach Bayesianismus oder zumindest Likeli-hoodismus, aber dabei stellen sich sehr schnell Probleme ein, die nur mitgrößerem Aufwand zu überwinden sind. Betrachten wir dazu zunächstein einfaches Beispiel.

Unsere Hypothese H laute zunächst, dass eine bestimmte Münze fairsei, d.h., es gilt: P(Kopf|H) = 1/2.

Spannende Daten für diese Münze ergeben sich aber erst bei größerenAnzahlen von Münzwürfen, nehmen wir an, wir werfen 100-mal undunser Datum D sei die Folge Kopf, Zahl, Zahl, Kopf, ..., die sich dabeiergibt. Das erste Problem ist, dass alle einzelnen Folgen f gleichwahr-scheinlich sind, nämlich P(Folge f|H)=(1/2)100. Das heißt zugleich, dassjedes konkrete Einzelergebnis D (als konkrete Folge von 100 Würfen)eine sehr kleine Wahrscheinlichkeit aufweist: P(D|H) ist sehr klein.

Um an dieser Stelle weiterzukommen, müssen wir bestimmte Ergeb-nisse zu Gruppen oder Typen von Ereignissen zusammenfassen. Bestimm-te Gruppen von Ereignissen passen besser zu unserer Hypothese – ande-re weniger gut. Dazu führen wir eine Testgröße oder Prüfgröße E (auchTeststatistik genannt) ein, für die wir dann anhand unserer Hypotheseihre Verteilungsfunktion bestimmen. In unserem Fall werden wir alsTestgröße etwa die Anzahl der Köpfe E in unserer Folge hernehmen. Da-bei ist E also eine Zufallsvariable (vgl. Kap. 7.3.6), die jeder Folge f ihreAnzahl k an enthaltenen Köpfen zuordnet. Diese Zufallsvariable ist inunserem Beispiel binomialverteilt, wenn wir davon ausgehen, dass es beijedem Münzwurf eine feste Wahrscheinlichkeit p dafür gibt, dass Kopfkommt und die Würfe alle (kausal) unabhängig voneinander erfolgen.Sind die Würfe nach allem, was wir wissen, kausal unabhängig, könnenwir auch annehmen, sie seien statistisch unabhängig und dürfen die ent-sprechenden Wahrscheinlichkeiten für die Würfe multiplizieren.

Page 477: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

465 Thomas Bartelborth: Induktives Schließen

Binomialverteilung zum Parameter p:

Dabei gibt „n über k“ die Anzahl der Folgen in unserer Gruppe an undpk·(1-p)n-k gibt die Wahrscheinlichkeit einer einzelnen Folge aus der je-weiligen Gruppe an. Bei einer angenommenen Binomialverteilung (etwadem Ziehen aus einer Urne mit zwei Sorten Kugeln mit Zurücklegen) er-gibt sich somit eine Wahrscheinlichkeit von Bin(n,k,p) dafür, dass wirbei n Wiederholungen des Zufallsexperiments ein Resultat erzielen mit kKugeln der einen Sorte, wenn die Wahrscheinlichkeit in jedem Einzelfallfür das Ziehen dieser Sorte Kugel gerade p ist. Dann ergibt sich für unse-re Ergebnisse im Beispiel als Wahrscheinlichkeit:

P(E=k|H) = Bin(100,k,1/2)

Wir nehmen in unserem statistischen Modell der Situation also an, dassdieselbe Propensität p in all unseren Münzwürfen immer wieder amWerk ist. Diese Konstanz von p bzw. die Annahme, dass wir den Münz-wurf immer wieder so wiederholen können, dass die relevanten Fakto-ren, die p beeinflussen können, i.w. konstant bleiben, die setzen wir imSinne einer transzendentalen Annahme voraus, denn wenn uns das zu-mindest im Prinzip nicht mehr gelingen sollte, könnten wir Experimentenicht wiederholen und verlören damit unseren Zugang zu wesentlichenGrößen der Natur.

Nach unserer neuen Gruppierung mit Hilfe unserer Testgröße ichfrage nun nicht mehr nach der Wahrscheinlichkeit, eine ganz bestimmteFolge f zu erhalten, sondern nur noch nach der Wahrscheinlichkeit eineFolge mit einer ganz bestimmten Anzahl k an Köpfen zu erhalten. Damitteile ich den Raum aller Folgen in Gruppen oder Klassen von Folgen,die jeweils gleich viele Köpfe aufweisen. Es zählt nun nicht mehr dieWahrscheinlichkeit der konkreten Ergebnisfolge, sondern die Wahr-scheinlichkeit der Gruppe, in der mein Ergebnis liegt. Dabei ist es offen-sichtlich, dass die Gruppen mit annähernd p% der Resultate Kopf deut-lich größer sind und daher eine viel größere Wahrscheinlichkeit aufwei-sen als die Folgen mit ganz wenigen Köpfen.

Fällt mein Ergebnis in einer der größeren Klassen, und das sind alsogerade diejenigen, bei denen k in der Umgebung von n·p liegt (in unse-rem Beispiel also diejenigen Klassen von Folgen mit etwa 50-mal Kopf),so spricht das für die Hypothese, während ein Ergebnis weit weg vondiesen noch relativ wahrscheinlichen Klassen als Datum gegen H be-

Page 478: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 6: Schlüsse der klassischen Statistik 466

trachtet wird. Das kann man so beschreiben, dass unterschiedliche Er-gebnisse möglich sind:

Neue intuitive InduktionsregelZerlege den Ergebnisraum auf sinnvolle Weise (etwa anhand einergeeigneten Teststatistik T) in Gruppen und unterscheide dann diezwei Fälle für ein beobachtetes Ergebnis x:1. Ergebnis fällt in wahrscheinlichere Gruppe (P(T=x|H) ist

relativ groß), dann wird H bestätigt.2. Ergebnis fällt in unwahrscheinlichere Gruppe (P(T=x|H) ist

relativ klein), dann wird H geschwächt.

Das ist so zu interpretieren, dass ein Münzwurfergebnis, das in einengrößeren Bereich von konkreten Ergebnisfolgen fällt, auch intuitiv bes-ser zu der Hypothese passt, als eines, das aus einem der Randbereichestammt. Haben wir etwa bei 100 Münzwürfen nur 3-mal Kopf, dannpasst das kaum zu unserer Hypothese, nach der es sich um eine faireMünze bzw. einen fairen Münzwurf handelt. Dazu kurz zwei Werte:P(E=52|H)7,4% und P(E=32|H)0,01%. Die Begründung für dasVerfahren können wir also zunächst darin sehen, dass es unseren Intui-tionen über die Bestätigung statistischer Hypothesen gut entspricht. Wirerwarten, bei Wahrheit von H eines der Ergebnisse mit ca. 50 Köpfen zusehen, da die deutlich häufiger auftreten, als die aus den Randbereichen.Das sollte sich dann in unserer Bestätigungskonzeption möglichst wie-derfinden. Das Beispiel belegt, wie die Zahlenverhältnisse für entspre-chende Gruppen aussehen und warum oben nur von relativ großenWahrscheinlichkeiten die Rede ist. Auch die größten Wahrscheinlichkei-ten, die hier für eine Gruppe im Spiel sind, liegen noch unter 8%. Siesind allerdings recht groß im Vergleich zu den Wahrscheinlichkeiten derGruppen aus den Randbereichen, die nach außen hin winzig klein wer-den. So ist etwa P(E=2|H)3,9·10–27. Diese intuitiven Einschätzungendecken sich des Weiteren auch wieder mit der Likelihood-Intuition, diewir bereits erläutert haben. Allerdings gibt es einen entscheidendenUnterschied, den man kritisch sehen kann, nämlich, dass wir nicht ein-fach die tatsächlichen Ergebnisse bewerten, sondern dazu die Gruppenheranziehen, die wir gebildet haben.

Ein Problem dabei ist – wie Kritiker wie Howson & Urbach (1993)einwenden –, dass die Wahl der Teststatistik nicht einfach vorgegebenist, obwohl die hier gewählte zugegebenermaßen sehr natürlich wirkt,doch das muss in anderen Beispielen nicht ganz so einfach sein. Wirkönnten jedenfalls andere Gruppen und die dazugehörigen Testgrößen

Page 479: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

467 Thomas Bartelborth: Induktives Schließen

bilden, indem wir die Ergebnisse in einer Gruppe vereinigen, die 32-malKopf und die, die 52-mal Kopf aufweisen. Diese Gruppe hat dann eineWahrscheinlichkeit von ca. 7,41%. Ein Wurfresultat mit 32-mal Kopfgehört somit zu dieser Gruppe und würde zu einer relativ hohen Wahr-scheinlichkeit führen, doch unsere Hypothese würde intuitiv durch dasErgebnis nicht wirklich gestützt. So erhalten wir also keine geeigneteTestgröße, doch was sind dann unsere genauen Kriterien für zulässigeTestgrößen? Letztlich muss auch die klassische Statistik hier mit Grund-intuitionen zur Bestätigung von Theorien starten und dann versuchen,diese möglichst überzeugend in statistische Modelle umzusetzen.

Ein anderes Problem ist, inwieweit H tatsächlich durch passende Er-gebnisse bestätigt wird. Intuitiv bestätigen 52 Köpfe zwar unsere Hypo-these H, aber ebenso gut werden viele andere Hypothesen bestätigt, dieetwa besagen, dass die Wahrscheinlichkeit für Kopf 54% beträgt oderähnliche Behauptungen aufstellen. Wenn bestimmte Daten jedoch sehrviele konkurrierende Hypothesen gleichzeitig bestätigen, kann die Bestä-tigung der einzelnen Hypothesen nicht besonders stark sein. Für eineechte Bestätigung sind die Daten letztlich zu unspezifisch. Deshalb gehtman für das Hypothesentesten hier einen anderen Weg und setzt eigent-lich nur auf Falsifikationen bzw. die eliminative Induktion in einer pro-babilistischen Variante.

Erhalte ich z.B. nur 2-mal Kopf, so spricht das stark gegen unsereHypothese. Es spricht natürlich auch stark gegen viele andere Hypothe-sen wie etwa, dass die Wahrscheinlichkeit für Kopf 88% sei, aber dasmindert in diesem Fall nicht die schwächende Wirkung für unsere ur-sprüngliche Hypothese H. Sollte sich also ein Ergebnis E einstellen, dasbei Vorliegen von H als sehr unwahrscheinlich anzusehen ist, so betrach-ten wir ab einem bestimmten Punkt H als probabilistisch falsifiziert.Unser Datum kann dabei ohne weiteres eine Vielzahl von Hypothesenzugleich in überzeugender Weise falsifizieren. Doch ab wann genau be-trachten wir H als probabilistisch falsifiziert? Dazu wird ein Ableh-nungs- oder Zurückweisungsbereich Z und ein Akzeptanzbereich A fürunsere Hypothese H und die Folge von 100 Münzwürfen festgelegt. Inden Ablehnungsbereich Z sollten nur wenige Gruppen aus dem Randbe-reich aufgenommen werden. Dazu legen wir eine Wahrscheinlichkeits-schwelle fest, die wir noch akzeptieren wollen, bevor wir von einer Fal-sifikation sprechen. Meist wird hier 5% als sogenanntes Signifikanz-niveau gewählt, was bedeutet, dass jedes Ergebnis, das in eine Gruppe Gfällt, deren Wahrscheinlichkeit insgesamt kleiner ist als 5% und für dasauch die Summe aller Gruppen, die noch kleiner sind als die Wahr-

Page 480: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 6: Schlüsse der klassischen Statistik 468

scheinlichkeit von G noch immer unter 5% liegt, als Falsifikationsin-stanz für H betrachtet wird. Wir wählen also A so, dass gerade noch gilt:P(EZ|H)5%.

In unserem Beispiel wird man den Ablehnungsbereich zweiseitig undrelativ symmetrisch aus den beiden Randbereichen zusammensetzen. Sowählen wir etwa Z={0,1,...,39,40}{61,62,...,100} und A={41,...,60}.Erhalten wir nun eine Kopfanzahl in dem Bereich Z, betrachten wir Hals probabilistisch falsifiziert, da die Wahrscheinlichkeit für ein Ergebnisaus diesem Bereich insgesamt unter 5% liegt, wenn die Hypothese Hwahr sein sollte.

Modifizieren wir das Beispiel etwas und wählen als Hypothese nun,dass unsere Münze höchstens eine Wahrscheinlichkeit von 0,5 für Kopfaufweist, so erhalten wir eine einseitige Ablehnungsmenge.

Unsere Hypothese H* laute nun, dass eine bestimmte Münze eineWahrscheinlichkeit von höchstens 0,5 für Kopf aufweise:P(Kopf|H*)1/2.

Nun führen ganz kleine Anzahlen von Kopf nicht mehr zur Falsifikationunserer Hypothese H*, sondern nur noch recht große Werte. Damitkonzentriert sich der Ablehnungsbereich ganz auf die größeren Werte,wird aber tendenziell dort auch etwas größer, da nun für diesen Bereichdie gesamte Irrtumswahrscheinlichkeit von 5% zur Verfügung steht,während sie sich im zweiseitigen Fall auf beide Enden mit je etwa 2,5%aufgeteilt hat. Sehr groß sind die Unterschiede allerdings nicht. Es ergibtsich als Zurückweisungsbereich Z={59,60,...,100} für unsere Hypothe-se H*. Die allgemeine Falsifikationsregel lautet dann jeweils:

Probabilistische FalsifikationFalls EZ, dann ist H probabilistisch falsifiziert.Falls EA, dann ist H (sehr) schwach bestätigt.

Die Wahl von 5% ist natürlich mit einer gewissen Willkür behaftet undein anderer Wert wäre ebenso geeignet. Früher hat man kleinere Werteversucht, aber dann zu wenige Falsifikationen in der wissenschaftlichenPraxis erhalten, weshalb man meist bei 5% bleibt. Diese Zahl von 5%wird auch als Signifikanzniveau bezeichnet und gibt uns so etwas wie dieWahrscheinlichkeit an, mit der wir fälschlicherweise H verwerfen könn-ten, obwohl H wahr ist. Das wäre allerdings eine epistemische Wahr-scheinlichkeit, die sich so ergibt: Selbst wenn H wahr ist, kann sich na-türlich (durch Zufall) ein Ergebnis aus dem Ablehnungsbereich Z ein-stellen, und wird das auch immer wieder einmal tun, und zwar in unge-

Page 481: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

469 Thomas Bartelborth: Induktives Schließen

fähr 5% aller Fälle. Das heißt aber: Wenn wir 1000 wahre Hypothesendiesem Testverfahren unterwerfen, werden dabei ca. 50 probabilistischfalsifiziert. Das ist schon ein wesentlicher Unterschied zu echten deter-ministischen Falsifikationen, bei denen das nicht vorkommen dürfte, deruns noch beschäftigen wird. Noch einmal: Wenn ich 100 wahre Hypo-thesen diesem Testverfahren unterwerfen werde, werden dabei ca. 5fälschlicherweise falsifiziert. Meine Irrtumswahrscheinlichkeit für dieprobabilistische Falsifikation wird daher gerade durch die 5% oder aucheine andere Zahl etwa 1%, die wir ansonsten als Signifikanzniveau wäh-len können, angegeben.

Über die falschen Hypothesen, deren Ergebnisse trotzdem im Annah-mebereich liegen – und das können durchaus recht viele sein – machenwir uns übrigens an dieser Stelle keine großen Sorgen, denn wir wollendiese Art von Bestätigung einer Theorie nicht weiter ernst nehmen, son-dern setzen ganz auf die Falsifikationen. Nur wenn die fehlerhaft sind,begehen wir hier also einen ernstzunehmenden Fehler, den wir deshalbgenauer beziffern und nach oben hin durch die 5% begrenzen.

Doch selbst bei fester Irrtumswahrscheinlichkeit scheint die Wahlvon Z bzw. A mit weiteren Willkürlichkeiten behaftet zu sein. Wir hät-ten im zweiseitigen Fall etwa den einen Randbereich in Z etwas größerund den anderen etwas kleiner machen können. Wir hätten sogar ganzandere Bereiche zusammenstellen können, die z.B. den Wert 43 enthal-ten, denn es ist P(E=43|H)=3%, so dass wir auch ein Z inklusive der43 bilden könnten. Max Albert (1992) hat dazu ein Argument entwi-ckelt, warum wir uns zumindest auf die Randbereiche beschränken soll-ten, denn er plädiert dafür, den Ablehnungsbereich ganz im Sinne vonPopper möglichst groß zu gestalten. Wenn wir H so auffassen, dass wirZ aus möglichst vielen Werten aus den Randbereichen bilden, erhaltenwir so mehr potentielle Falsifikatoren für H, als wenn wir einen zentra-leren Bereich gewählt hätten, und H hat somit einen größeren Gehalt,weil sie mehr Werte verbietet als eine Hypothese mit Ablehnungsberei-chen im mittleren Bereich, die nur durch bestimmte Tricks zustande ge-kommen sind. Wir verstehen unsere Hypothesen danach am besten so,dass sie solche „Randergebnisse“ verbieten, weil sie dann im Sinne Pop-pers den größten empirischen Gehalt aufweisen.

Popper tritt zumindest für solche Hypothesen mit größtmöglichemGehalt ein und der Schluss auf die beste Erklärung geht in dieselbe Rich-tung. Dadurch würden die Spielräume für die Wahl von Z zumindestdeutlich verkleinert und wären in unserem Beispiel eher unbedeutend.Die 43 wäre damit jedenfalls ausgeschlossen, denn für sie können wir

Page 482: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 6: Schlüsse der klassischen Statistik 470

viele andere Werte aus den Randbereichen in Z aufnehmen, also deut-lich mehr Falsifikatoren erhalten.

Um zu Signifikanztests zu gelangen, müssen wir aber nun noch einenweiteren Schritt gehen, denn wir hatten schon in der Diskussion des Fal-sifikationismus darauf hingewiesen, dass Falsifikationen allein uns nochnicht viel weiter bringen. Erst mit eliminativen Induktionen gewinnenwir zugleich positive Aussagen über bestimmte Hypothesen. Das ist ge-nau der Weg, den auch die klassische Statistik einschlägt. Es geht unsüberhaupt nicht darum, unsere eigentlichen Hypothesen zu falsifizierenoder durch gescheiterte Falsifikationsversuche als bewährt zu betrach-ten. Da lag Popper falsch. Sondern es geht vielmehr darum, möglicheKonkurrenten unserer eigentlichen Hypothesen durch Falsifikationenauszuschalten, ganz im Sinne der eliminativen Induktion. Unsere eigent-liche Hypothese, die wir gerne stützen möchten, wäre in unserem Bei-spiel dann etwa:

H*: Die Münze ist gefälscht (d.h. P(Kopf)1/2).

Zu der Hypothese H* wählen wir dann als Gegenhypothese unsereHypothese H, die Münze sei fair. Indem wir sie falsifizieren, haben wirdamit H* bestätigt. Das ist die Vorgehensweise bei Hypothesentests imSinne von klassischen Signifikanztests. Es handelt sich also um ein Ver-fahren der eliminativen Induktion mit einer probabilistischen Falsifika-tion. Die Hypothese H wird nur als „Dummy-Hypothese“ aufgestellt,um sie anhand der Daten zu verwerfen. Man nennt solche HypothesenH dabei Nullhypothesen (und bezeichnet sie meist mit H0), denn sie be-haupten in der Regel, dass kein wirklicher Effekt vorliegt, sondern unse-re Ergebnisse noch kompatibel mit der Nullhypothese sind, dass es sichdoch um eine faire Münze handelt.

Wenn wir also z.B. 35-mal Kopf erhalten, dann schauen wir nach, obdie Hypothese H, nach der kein wirklicher Effekt (etwa einer verboge-nen Münze) vorliegt, sondern die Münze fair ist (das ist unsere Null-hypothese) und wir es tatsächlich nur mit einer Zufallsschwankung zutun haben, die dieses Ergebnis noch erklären kann. Dazu müssen wir al-lerdings eine Grenze ziehen, bis wohin wir noch davon sprechen kön-nen, dass die Nullhypothese das Ergebnis erklären kann oder bis wohinsie jedenfalls noch kompatibel mit dem Ergebnis ist. Die hatten wir an-hand der Irrtumswahrscheinlichkeit von 5% und dem zweiseitigen sym-metrischen Ablehnungsbereich gesetzt. In unserem Beispiel müssten wiralso konstatieren, dass eine Anzahl von 35-mal Kopf nicht mehr durch

Page 483: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

471 Thomas Bartelborth: Induktives Schließen

unsere Nullhypothese H abgedeckt würde und wir daher H verwerfenmüssen. Damit wurde dann H* bestätigt.

6.2 Die Logik experimenteller HypothesentestsEin Problem ist bei dem bisherigen Verfahren allerdings, ob wir wirklichschon alle möglichen Konkurrenten von H* ausgeschaltet haben, wennwir H verworfen haben. Das ist in unserem Beispiel nicht so klar. ZumBeispiel haben wir noch nicht die Dämonenhypothese ausgeschlossen,dass ein böswilliger Dämon (oder irgendein anderer Effekt unseres Ex-perimentierens) genau in dem Moment unser Experimentalergebnis ver-fälscht hat, in dem wir unsere Münze testen wollten, eigentlich aber Hwahr ist. Solche Hypothesen sollten wir als zu unwahrscheinlich von An-fang an verwerfen, sagen Sie? Das ist wohl richtig, aber damit sind wirauch wieder auf unsere erste Liste von möglichen Hypothesen im Sinneder eliminativen Induktion angewiesen und auf subjektive Einschätzun-gen, welche Effekte überhaupt wahrscheinlich sind.

Das zeigt sich sogleich in etwas realistischeren Beispielen, in denenwir mehrere realistische Hypothesen als Antworten zu der Frage ken-nen, wie ein bestimmtes auffälliges Ergebnis zustande gekommen seinkann. Nehmen wir als Hypothese H etwa an, dass die regelmäßige Ein-nahme eines Pausenbrots zu besseren Schulleistungen führt. Dazu unter-suchen wir dann zwei Gruppen von Schülern (A) 50 Schüler, die einPausenbrot essen und (B) 50 Schüler, die kein Pausenbrot essen und er-halten als Datum (E), dass die Schulleistungen der Schüler aus der Grup-pe (A) tatsächlich besser waren. Das Datum E könnte etwa lauten: Wäh-rend die Schüler aus Gruppe (A) in einem entsprechenden Test imDurchschnitt 65 Punkte (von 100 möglichen) erhielten, haben die Schü-ler aus Gruppe (B) nur 60 Punkte im Durchschnitt erzielt.

Die Frage ist nun, was die beste Erklärung für unser Datum E ist.Eine Möglichkeit finden wir in unserer Hypothese H; eine andere findetsich in der Nullhypothese H0, wonach die Leistungsfähigkeit der Kinderaus beiden Gruppen eigentlich gleich ist, aber heute eben durch Zufalldie Schüler aus der Gruppe (A) etwas besser abgeschnitten haben. Umdiese Nullhypothese zu widerlegen, müssen wir ein probabilistischesModell der Situation entwerfen und anhand des Modells zeigen, dass imLichte von H0 das Resultat sehr unwahrscheinlich ist, so dass wir H0 da-mit als probabilistisch falsifiziert betrachten dürfen. H0 besagt hier etwa,dass die Mittelwerte µA und µB der Leistungen aus beiden Grundgesamt-heiten gleich sind, bzw. ihre Differenz gleich 0 ist. Dabei denken wir unsdie großen Gruppen aller Schüler mit Pausenbrot und aller ohne Pausen-

Page 484: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 6: Schlüsse der klassischen Statistik 472

brot und eine große Anzahl (fiktiver) entsprechender Tests, für die µA

und µB die jeweiligen Mittelwerte sind. Statt einer solchen Häufigkeits-interpretation könnten wir die Mittelwerte µA und µB natürlich auch alsdie tatsächlich durchschnittliche Leistungsfähigkeit der Schüler in denbeiden Gruppen denken, ganz im Sinne einer Propensitäteninterpretati-on dieser Größen. Unser statistisches Modell kann also unterschiedlicheInterpretationen besitzen. Jedenfalls müssen wir erläutern, welche Wertewir in unserem kleinen Experiment nun schätzen oder anderweitig er-mitteln wollen. Auf die Bildung der statistischen Modelle gehen wirgleich noch einmal ein.

Doch die statistische Beurteilung ist nicht die ganze Geschichte, dennes gibt natürlich eine Vielzahl weiterer Hypothesen, die wir ebenfallsausschließen müssen, ehe wir H als begründet ansehen dürfen. Insbeson-dere wollen wir mit H nicht einfach nur behaupten, dass die Schüler mitPausenbrot aus unerfindlichen Gründen signifikant bessere Schulleistun-gen aufweisen, sondern, dass gerade das Pausenbrot dafür die Ursacheist. Das ist für uns die spannende Aussage, denn nur sie gestattet es, ver-bessernd in die Schulleistungen der Schüler einzugreifen (vgl. auch Kap.7). Dann gibt es aber viele Konkurrenzhypothesen, die wir ebenfalls zu-rückweisen müssen; etwa T1, wonach die Schüler mit Pausenbrot aus rei-cheren Elternhäusern stammen (das Brot wird vielleicht sogar von derHaushaltshilfe geschmiert) und in diesen Elternhäusern ebenfalls mehrGeld für Nachhilfe ausgegeben wird. Diese Nachhilfe ist dann aber wo-möglich die eigentliche Ursache der besseren Leistungen.

So lassen sich weitere Hypothesen T2,...,Tn finden, die andere Fakto-ren benennen, die aus irgendwelchen Gründen mit dem Verzehr einesPausenbrots korreliert sind und einen positiven kausalen Einfluss auf dieSchulleistung haben könnten. Die müssen wir alle ausschließen, dochdas geht nicht mit Hilfe der Statistik, sondern nur, indem wir ein kon-trolliertes Experiment durchführen, in dem wir alle möglichen Störfakto-ren kontrollieren und ihre Wirkung ausschalten können. Sie kommendann als Erklärung der besseren Leistungen der Gruppe (A) nicht mehrin Frage, d.h., die betreffenden Hypothesen werden eliminiert. Zu die-sem Zweck sind statistische Hypothesentests mit bestimmten Ideen fürdas kontrollierte Experimentieren zu kombinieren, wie sie insbesondereschon von Fisher (1951) formuliert wurden.

Ein typischer Vorschlag wäre etwa, mit einer Gruppe von 60 Schü-lern zu beginnen, die alle bisher kein Pausenbrot essen und daraus perZufallsauswahl die Gruppen (A) und (B) von je 30 Schülern auszuwäh-len und den Schülern in (A) nun ein Pausenbrot zu verordnen (Stich-

Page 485: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

473 Thomas Bartelborth: Induktives Schließen

wort: Randomisierung), um zu sehen, ob das auf längere Sicht einen Ein-fluss auf die Schulleistungen hat. Mit dieser Art von Randomisierunghofft man, die alternativen Hypothesen T1,...,Tn ausschalten zu können,denn die in den Theorien genannten Faktoren sollten sich durch dieRandomisierung einigermaßen gleichmäßig auf die beiden Gruppen ver-teilt haben, so dass ein Unterschied zwischen den Gruppen nicht aufeinen dieser Faktoren zurückzuführen ist. Wir vertrauen an dieser Stelleauf die Methode der Differenz von Mill, nach der ein Unterschied (in denWirkungen) in den beiden Gruppen nur durch einen Faktor verursachtwerden kann, in dem sich die beiden Gruppen außerdem noch unter-scheiden (vgl. Kap 7.2.3). Wie man solche Methoden zur Ermittlungvon Ursachen ausbauen und systematisieren kann, wird genauer imnächsten Kapitel zu untersuchen sein.

Um sicherzustellen, dass die beiden Gruppen sich nicht bereits zu Be-ginn des Experiments in puncto Leistungsfähigkeit unterscheiden, könn-te man natürlich auch zu Beginn und am Ende des Experiments Leis-tungstests in beiden Gruppen durchführen, um die jeweilige Entwick-lung genauer zu beobachten. Doch das würde unser Experiment weiterverkomplizieren (und verteuern?) und wir verzichten daher darauf.Oder wir könnten weitere Informationen über die Verteilung der ande-ren möglicherweise relevanten Faktoren für den Schulerfolg in unserenbeiden Stichproben einholen, um sicherzustellen, dass sich die Gruppen(A) und (B) darin tatsächlich nicht wesentlich unterscheiden, sondernhomogen sind bis auf die Gabe des Pausenbrots.

Es handelt sich dabei nach meiner Ansicht immer um Maßnahmen,die genau dazu dienen, andere Erklärungen als recht unwahrscheinlicherscheinen zu lassen, so dass zum Schluss nur eine Erklärung übrigbleibt,nämlich die durch Hypothese H. Die Erklärung durch unsere Nullhypo-these H0 besagt, dass die zu beobachtenden Unterschiede nur Zufall wa-ren. Das ist eine Erklärung, die man natürlich für probabilistische Phä-nomene immer in Betracht ziehen muss. Sie soll durch den statistischenTest selbst widerlegt werden, der aufzeigt, dass bei eigentlich gleicherLeistungsfähigkeit eine solche Abweichung doch sehr unwahrscheinlichgewesen wäre, und wir die Ergebnisse daher als Indiz dafür deuten dür-fen, dass ein echter Effekt vorliegt, der dann durch H erklärt wird, weilwir die anderen potentiell erklärenden Faktoren für die beobachtete Dif-ferenz alle durch das Experimentaldesign ausschließen konnten. Wir ha-ben es hier also mit einer typischen eliminativen Induktion zu tun, beider allerdings eine ganze Reihe von Hypothesen auf einen Schlag (durchdas Experiment) widerlegt werden soll.

Page 486: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 6: Schlüsse der klassischen Statistik 474

Die Logik von Signifikanztests mit Experiment: Zu einem Datum Egibt es eine Liste von möglichen erklärenden Hypothesen H, H0,T1,...,Tn, wobei durch ein spezielles (randomisiertes) Experiment, indem E als Ergebnis auftritt, die Hypothesen T1,...,Tn als mögliche Er-klärungen ausgeschieden werden sollen. Dann wird die HypotheseH0 durch einen statistischen Test zum Signifikanzniveau 5% wider-legt, weil gilt: EZ und P(Z|H0)5%, wobei Z den Zurückweisungs-bereich zu H0 darstellt. Gemäß der eliminativen Induktion haben wirsomit H bestätigt, weil alle anderen Hypothesen eliminiert wurden.

Dabei bietet das Niveau von 5% zugleich unsere Irrtumswahrscheinlich-keit dafür an, dass wir eine an sich wahre Nullhypothese H0 trotzdemverwerfen. Dann ist natürlich unsere Bestätigung von H irreführend. Eswird also mit 5% Wahrscheinlichkeit eine falsche Hypothese H beieinem solchen Signifikanztest bestätigt. Dazu kommen allerdings nochdie möglichen Fehler, die aus den irrtümlichen Zurückweisungen derHypothesen T1,...,Tn als Erklärungen von E resultieren. Leider könnenwir auch von einer Randomisierung keine Wunder erwarten (vgl. Kap.7). Das Ausmaß dieser Fehler können wir aber nicht so leicht beziffern.

6.3 Die statistische ModellbildungWie wird in unserem Beispiel nun im positiven Fall die ZufallshypotheseH0 widerlegt? Kommen wir kurz auf das statistische Modell zu sprechen,das dabei benutzt wird. Es geht hier um eine Erklärung für die Differenzzwischen zwei Gruppen. Das ist die Besonderheit unseres Experiments,aber ansonsten ist die Vorgehensweise wieder wie oben im einfachen Si-gnifikanztest. Als Testgröße T können wir hier z.B. die Differenz derMittelwerte in unseren Stichproben wählen. Die Nullhypothese besagtin unserem Beispiel, dass die Mittelwerte der Grundgesamtheiten gleichsind und daher unsere Testgröße T=dA–dB mit den Stichprobenmittel-werten dA und dB eigentlich einen Mittelwert von 0 hat und wir nur eineZufallsabweichung in unserem Experiment beobachten. Erst wenn dieZufallsvariable T also zu stark von der Null abweicht, gilt die Nullhypo-these als widerlegt. Dabei wird die Mittelwertdifferenz der Stichprobennoch normiert, indem man sie durch den Standardfehler der Mittelwert-differenz teilt. Für die so resultierende Größe lässt sich dann zeigen,dass sie t-verteilt ist (mit einem bestimmten Freiheitsgrad). Mit Hilfe dert-Verteilung können wir dann einen Schwellenwert w bestimmen, deruns den Zurückweisungsbereich Z (hier einseitig) liefert: Z={x; x>w}.Wird T also größer als w, lehnen wir die Nullhypothese ab.

Page 487: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

475 Thomas Bartelborth: Induktives Schließen

Das klingt alles recht einfach und naheliegend, aber wir müssen eineganze Reihe von Annahmen unterschreiben, um diesen Weg so beschrei-ten zu können und u.a. zu einer konkreten Verteilungsfunktion für T zugelangen. Einige der typischen Annahmen für eine solche Modellbildungwollen wir uns nun kurz ansehen. Eine Grundidee ist dabei, dass wireine Grundgesamtheit G haben, aus der wir eine Stichprobe S ziehen,die für diese Grundgesamtheit repräsentativ sein soll, d.h., sie soll derGrundgesamtheit möglichst ähnlich sein. Zumindest sollte sie derGrundgesamtheit bzgl. aller relevanten Merkmale möglichst ähnlich sein.In unserem Beispiel, in dem es darum geht, herauszufinden, ob bestimm-te Faktoren einen Einfluss auf die Schulleistung haben, sollte die Stich-probe eine möglichst ähnliche Verteilung der Faktoren aufweisen, dietatsächlich oder möglicherweise über die Schulleistung mitbestimmen.Ist etwa der Anteil der Kinder mit IQ zwischen 120 und 130 in G ca.7%, so sollte er das auch in der Stichprobe sein etc.

Wie kann man das erreichen? Wenn wir bereits die meisten der Fak-toren und ihre Verteilung in G kennen würden, könnten wir eine Stich-probe S entsprechend der Grundgesamtheit konstruieren. Da das meis-tens nicht der Fall ist, müssen wir uns normalerweise auf das Verfahreneiner Zufallsauswahl aus der Stichprobe stützen. Dabei hat idealer Weisejedes Element aus G dieselbe Wahrscheinlichkeit ausgewählt zu werden.Mit dieser Randomisierung verbinden wir dann die Hoffnung, dass zu-mindest die meisten unserer Stichproben ziemlich repräsentativ für dieGrundgesamtheit sind, denn die Merkmale, die häufiger in G auftreten,haben so auch eine größere Chance für S ausgewählt zu werden und um-gekehrt. Im Idealfall erhalten wir so eine repräsentative Stichprobe. Daes sich allerdings um einen Zufallsprozess handelt und eventuell vieleMerkmale und entsprechende Merkmalskombinationen bei bestimmtenSchülern im Spiel sind, dürfen wir das keineswegs als sicheren Weg zurepräsentativen Stichproben betrachten. Je größer die Zufallsstichpro-ben sind, umso eher dürfen wir ceteris paribus natürlich hoffen, eine re-präsentative Stichprobe zu erhalten. Sollten wir uns einer Vollerhebungnähern, sollte das deutlich sein. In unserem Beispiel sind wir von sol-chen Anzahlen aber weit entfernt.

Dazu kommt das Problem, dass einige der zufällig ausgewähltenSchüler sich vielleicht weigern, an der Studie teilzunehmen. Tatsächlichsind etwa die Antwortquoten bei entsprechend ausgewählten Interview-partnern in ähnlichen Studien oft nicht sehr hoch und liegen manchmalsogar unter 50%. Dann müssen Ersatzkandidaten ausgewählt werdenund wir wissen nicht, ob die Verweigerer nicht eine spezielle Untergrup-

Page 488: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 6: Schlüsse der klassischen Statistik 476

pe mit besonderen relevanten Merkmalen darstellen, die dann in unse-rer Stichprobe eben nicht mehr angemessen repräsentiert werden.

Letztlich geht es uns in unserem Beispiel sogar darum, zwei Stichpro-ben aus zwei Grundgesamtheiten G und G* auszuwählen, deren Schülerähnliche Schulleistungen aufweisen. Dabei ist G unsere eigentlicheGrundgesamtheit der Schüler, die bisher kein Pausenbrot zu sich nah-men und das beibehalten und G* ist die neu gebildete bzw. und damitnoch teilweise fiktive Grundgesamtheit der Schüler, die bisher kein Pau-senbrot zu sich nahmen, aber nun dazu gebracht werden, es zu tun. Sowollen wir testen, welchen Einfluss in der Grundgesamtheit G die Ein-nahme eines Pausenbrots hätte. Das Ergebnis könnte dann eine Hilfestel-lung für die Schulpolitik bieten und etwa dafür sprechen, dass die Be-reitstellung eines solchen Pausenbrots von Seiten der Schule etwa dortgeschehen sollte, wo die Eltern das nicht leisten.

Damit zeigen sich aber sogleich praktische Probleme. Damit das Ex-periment sinnvoll funktionieren kann, müssen wir es über einen länge-ren Zeitraum – möglichst einige Jahre – laufen lassen. Wer stellt dabeijedoch sicher, dass nicht einige der Schüler (bzw. ihre Eltern) aus Grup-pe (A) wieder in die Gewohnheiten der früheren Jahre zurückfallen undsich klammheimlich wieder in Gruppe (B) einreihen? Hier lauern vielepraktische Probleme bei der Umsetzung solcher Experimente.

Die nächste Frage ist natürlich, wer gehört genau zur Grundgesamt-heit G (die auch unsere Gesamtheit G* festlegt) und haben wir einenÜberblick über G, der eine solide Zufallsauswahl ermöglicht? Ein Pro-blem ist, dass ebenso zukünftige Schüler mit vielleicht neuen Ernäh-rungsgewohnheiten und neuen Anforderungen in der Schule zu berück-sichtigen wären, doch die können wir offensichtlich noch nicht einbezie-hen. Für sie führen wir aber das Experiment gerade durch. Da könnenwir nur hoffen, dass sie unseren heutigen Schülern hinreichend ähneln.Außerdem können wir vielleicht speziell dafür sorgen, dass bestimmteSchultypen angemessen vertreten sind. Das betrifft auch Typen wie etwadas Gymnasium, das in einer „reicheren Gegend“ liegt etc.

Unser statistisches Modell trifft aber meist noch weitergehende in-haltlich Annahmen. Woher rührt etwa die Unsicherheit in unserer Be-stimmung der durchschnittlichen Schulleistung in unserer Grundgesamt-heit, die wir statistisch zu behandeln gedenken? Eine erste Unsicherheitfinden wir in der Zufallsauswahl. Wir könnten einen besseren odereinen der schlechteren Schüler auswählen. Das tatsächlich zu beobach-tende Schulleistungsergebnis der n einzelnen, gewählten Schüler wirdnun jeweils durch eine Zufallsvariable X1,..,Xn beschrieben. Wie bestim-

Page 489: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

477 Thomas Bartelborth: Induktives Schließen

men wir dann die Schulleistung? Dafür könnten wir einfach die aktuel-len Schulnoten der Schüler hernehmen oder aber wir entwerfen einenallgemeinen Schulleistungstest, in dem die Schüler zwischen 0 und 100Punkten erhalten können. Davon wollen wir hier ausgehen. Die Zufalls-variablen Xi liefern also alle einen Wert zwischen 0 und 100. Da jederSchüler dieselbe Chance hat, gewählt zu werden, nehmen wir einfachan, dass die Verteilung auf die 100 Punkte für alle Zufallsvariablen die-selbe ist, d.h., insbesondere sind auch ihre Erwartungswerte µ und ihreVarianzen 2 innerhalb einer Gruppe dieselben, nur dass wir sie nochnicht kennen. Außerdem gehen wir davon aus, dass die ZufallsvariablenXi stochastisch unabhängig voneinander sind. Bei einer Zufallswahl be-einflusst demnach die Wahl eines Schülers nicht die der anderen. Einewesentliche idealisierende Annahme für unsere Stichproben ist jeden-falls, dass ein grundlegendes Merkmal X gemessen werden soll und allunsere Variablen X1,..,Xn identisch zu X verteilt sind.

Das stimmt in unserem Beispiel nicht ganz, da wir hier praktisch„Ziehen ohne zurückzulegen“. Wenn wir einen besonders guten Schülerausgewählt haben, sinken die Chancen bei der nächsten Auswahl etwas,wieder einen besonders guten Schüler zu wählen. Doch bei sehr großenGrundgesamtheiten gehen wir davon aus, dass dieser Effekt vernachläs-sigbar klein ist.

Durch die Wahrscheinlichkeitsverteilungen sind auch noch weitereUnsicherheiten abgedeckt, wie etwa die Tagesform der Schüler bei unse-rem Schulleistungstest und ebenfalls die Messfehler bei der Testauswer-tung (wir wissen ja, dass auch Lehrer keineswegs einheitliche Noten fürdieselben Leistungen verteilen). Für die zweite Gruppe erwarten wirEntsprechendes für die Variablen Y1,...,Ym. Unser durchschnittliches Test-ergebnis ist dann: dX=1/n Xi und dY=1/m Xj. Das reicht aber oftnoch nicht, um nun eine Verteilung für die Testgröße T=dX–dY zu be-stimmen. Deshalb nehmen wir etwa an, dass die Verteilungen auf diePunkte im Wesentlichen einer Normalverteilung folgen, d.h., die Xi sindalle nach N(µA,(A)2) verteilt und die Yi nach N(µB,(B)2) verteilt. Oftsind natürliche Größen tatsächlich zumindest annähernd normalverteiltund der zentrale Grenzwertsatz erläutert dazu, warum das so ist. Außer-dem können wir unsere Arbeit noch weiter vereinfachen, indem wir da-von ausgehen, dass die zwei Varianzen gleich groß sind: (A)2=(B)2, wasvermutlich annähernd der Fall sein wird, da beide Gruppen aus derGruppe G hervorgehen. Unsere Nullhypothese lautet damit also H0:µA=µB. Für dieses Modell können wir dann unsere Testgröße T einfüh-ren (wie oben schon beschrieben), in der die Mittelwerte der Stichpro-

Page 490: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 6: Schlüsse der klassischen Statistik 478

ben dX und dY miteinander verglichen werden und wir die Stichproben-streuungen sY und sX zur Normierung mit heranziehen müssen:

Dieses T ist nun approximativ t-verteilt mit n+m–2 Freiheitsgraden (vgl.Genschel & Becker 2005, 247 ff.). Unsere Entscheidungsregel lautet da-mit:

Verwerfe H0, wenn T>tn+m–2;1–

Dabei ist tn+m–2;1– das sogenannte 1–-Quantil der t-Verteilung mitn+m–2 Freiheitsgraden. In unserem Fall ist 1– gerade 95%. (Dabei las-sen wir hier die Möglichkeit einfach einmal außer Acht, dass das Pausen-brot die Schulleistungen verringert, sonst müssten wir einen entspre-chenden zweiseitigen Test entwickeln, in dem T auch negative Werte an-nehmen könnte und wenn sie zu negativ (also zu klein) würden, wäreeine entsprechende Nullhypothese auch widerlegt.) Dabei sieht die t-Verteilung ähnlich wie die Standardnormalverteilung aus und liegt alsosymmetrisch um die Null herum. Für größere Freiheitsgrade nähert siesich der Standardnormalverteilung, die sogar schon ab Freiheitsgradenvon 30 als gute Näherung betrachtet wird.

Um für unser Beispiel ausrechnen zu können, ob eine signifikanteAbweichung der Testgröße T nach oben hin vorliegt, müssen wir also zu-nächst die Stichprobenstreuung s bzw. die Varianz s2 der Stichproben er-mitteln. Da wir keine echten Stichproben haben, dürfen wir sie hier eini-germaßen plausibel zu unseren Durchschnitten dX=65 und dY=60 pas-send wählen. Nehmen wir etwa an, dass beide gleich sind: sX=sY=10,dann erhalten wir: T1,9. Dazu sehen wir in Tabellen der t-Verteilungnach und finden t58;95%1,67 und t58;99%2,39 (zur Standardnormalvertei-lung gibt es schon noch kleine, aber erkennbare Abweichungen). Damitzeigt sich, dass unser Ergebnis bei einer Irrtumswahrscheinlichkeit von5% bereits signifikant wäre, unsere Pausenbrothypothese wäre also aufdiesem Niveau bestätigt worden, aber nicht mehr bei der kleineren Irr-tumswahrscheinlichkeit von 1%. Der sogenannte p-Wert, also die Irr-tumswahrscheinlichkeit, bei der unsere Nullhypothese noch gerade sofalsifiziert würde, liegt ungefähr bei 3%. Wir sehen aber auch, wie dasErgebnis von der Streuung abhängt. Bei größerer Streuung müssen auch

Page 491: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

479 Thomas Bartelborth: Induktives Schließen

die Abweichungen größer werden, ehe wir ein signifikantes Ergebnis er-halten, und das klingt wiederum recht plausibel.

Doch was kann diese kurze Debatte eines Beispiels aus der Statistikuns lehren? Denken wir an die Abgrenzung der klassischen Statistikgegenüber den Bayesianern. Einer der Haupteinwände gegen den Baye-sianismus ist, dass wir dort insbesondere für die Angabe plausibler Start-wahrscheinlichkeiten ganz auf die Kunst und Expertise der jeweiligenWissenschaftler angewiesen sind und das sei ein zu subjektives und unzu-verlässiges Element in der wissenschaftlichen Bewertung von Hypothe-sen. Die klassische Statistik liefere dagegen ein quasi-automatisches Test-verfahren. Das erscheint uns jedenfalls so, weil wir uns an die Anwen-dung der klassischen Statistik bereits gewöhnt haben. Doch der Schrittvon einer empirischen Situation, die wir beschreiben wollen, hin zueinem vollen statistischen Modell, mit dem wir dann rechnen können,geht keineswegs automatisch vonstatten, sondern bedarf ebenso der Ex-pertise und Kunstfertigkeit des klassischen Statistikers. Dafür sollte diekurze Beispieldarstellung schon erste Anhaltspunkte aufzeigen.

Wir bestimmen zunächst Zufallsvariablen als Repräsentationen vonMerkmalen der Situation. Dabei legen wir bereits eine Liste von Merk-malen fest, die wir für relevant für unser Ergebnis halten. Insbesonderemüssen wir dann eine sinnvolle Testgröße konstruieren. Um für sie eineVerteilung zu erhalten, mit der wir erfolgreich weiterrechnen können,müssen wir darüber hinaus etliche Annahmen bzw. Idealisierungen überdie Verteilungen unserer grundlegenden Zufallsvariablen vornehmen.Implizit beziehen wir uns dabei auf meist nicht scharf abgegrenzte odersogar fiktive Grundgesamtheiten. Auch die Wahl einer Irrtumswahr-scheinlichkeit und die Wahl eines dazugehörigen Ablehnungsbereichsunterliegen jeweils einer gewissen Willkür. Die Bayesianer können alsozu Recht darauf verweisen, dass auch die Anwendung der klassischenStatistik nicht so trivial und frei von problematisierbaren Entscheidun-gen ist, wie es manchmal dargestellt wird.

Allgemeiner würde ich sagen, dass alles induktive Schließen letztlicheine Kunst darstellt, die man in der Praxis erlernen muss und die allesandere als automatisiert abläuft. Dazu muss man sich immer wieder dereingesetzten (idealisierenden) Annahmen vergewissern und vielleicht so-gar unterschiedliche Ansätze nebeneinander anwenden. Natürlich kanndie klassische Statistik darauf verweisen, dass wir auf einige der Annah-men in unserem Beispiel letztlich wieder verzichten können und etwamit nichtparametrischen Verfahren arbeiten könnten. Doch einigegrundlegende Annahmen und Idealisierungen müssen wir in jedem Fall

Page 492: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 6: Schlüsse der klassischen Statistik 480

vornehmen, um zu einem statistischen Modell zu gelangen, mit dem wirdann konkrete Schlussfolgerungen ziehen können. Vereinfacht ausge-drückt könnten wir das Verfahren so beschreiben: Zu einer Situation mitbestimmten Merkmalen, die sie unserer Meinung nach i.w. charakterisie-ren, suchen wir nach einem Urnenmodell, dass die probabilistischen An-teile der Situationsbeschreibung unserer Meinung nach am besten wie-dergibt. Mit Hilfe dieses Modells legen wir dann den Zurückweisungs-bereich für bestimmte Hypothesen fest.

6.4 Filteranalogie und Anwendungsprobleme derklassischen Statistik

Neben eigenständigen Problemen finden sich auch einige Probleme, diebeide Ansätze betreffen, den Bayesianismus wie die klassische Statistik.Wir hatten im vorigen Kapitel schon Fälle kennengelernt, in denen unse-re Hypothesen keine definitiven Likelihoods mehr vorgeben. Die Hypo-these, dass unsere Münze unfair ist, wäre ein solches Beispiel. Sie liefertdefinitiv keine Likelihoods für irgendwelche Ergebnisse mehr und er-laubt daher auch keine probabilistische Falsifizierung. Sie wäre somit alsNullhypothese ungeeignet. In der bayesianischen Statistik können wirmit einer Vorher-Dichte an die Sache herangehen und erhalten immer-hin aufgrund von neuen Daten dann Nachher-Wahrscheinlichkeiten fürbeliebige Intervalle, in denen die Wahrscheinlichkeit für Kopf demnachliegen sollte.

Für einige Fälle solcher disjunktiven Hypothesen bietet natürlichauch die klassische Statistik Lösungen an (vgl. a. Sober 1991). Nehmenwir etwa die Hypothese H, dass die Wahrscheinlichkeit p für Kopf größerals 0,6 ist. Wie hoch ist dann die Wahrscheinlichkeit für höchstens 40-mal Kopf bei 100 Würfen? Wir können zumindest sagen, dass dieseWahrscheinlichkeit im Lichte unserer Hypothese gerade für den Grenz-fall, dass p=0,6 ist, am größten wird. Wenn unsere Ergebnisvariable Ewieder die Anzahl der Köpfe angibt, können wir so die Wahrscheinlich-keit berechnen:

P(E40|p=0,6) 0,00004

Also ist jedenfalls klar, dass bei jeder Wahrscheinlichkeit für p, die ober-halb von 0,6 liegt, ein Ergebnis von nur 40-mal Kopf zu einer probabilis-tischen Falsifikation führen sollte. Der klassische Statistiker kann soeinen sinnvollen einseitigen Ablehnungsbereich berechnen:

Page 493: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

481 Thomas Bartelborth: Induktives Schließen

Ablehnungsbereich: Bei 51-mal Kopf oder weniger ist die HypotheseH (p>0,6) abzulehnen.

Dieses Verfahren lässt sich aber nicht so ohne weiteres auf alle Fälle dis-junktiver Hypothesen anwenden und kann dem klassischen StatistikerGrenzen aufzeigen, die er nur mit Tricks aus dem Bereich des Bayesianis-mus überwinden kann.

Ein weiteres Rätsel für die Anwendung von Hypothesentests im Rah-men der klassischen Statistik ist das Vorliegen mehrerer Testergebnisse.Kommen wiederholt neue Daten herein, wird der Bayesianer die Hypo-thesen damit einfach immer wieder updaten und auch die Reihenfolgedes Dateneingangs spielt dabei bekanntlich keine Rolle. Doch für dieklassische Statistik gibt es leider keine einfachen Verfahren, um die Er-gebnisse mehrerer Signifikanztests miteinander zu verrechnen. Am ehes-ten kann man noch sagen, dass zwei signifikante Ergebnisse einanderverstärken, aber es ist auch unklar, in welchem Ausmaß das der Fall ist.Wir können die Daten zweier unabhängiger Experimente in der Regelnnicht einfach zusammenwerfen und als neuen Test betrachten, da die ge-nauen Experimentbedingungen jeweils für unsere Testverfahren relevantsind und wir mit einem Zusammenwerfen der Daten kein entsprechen-des neues Gesamtexperiment mehr erhalten. Gibt es also z.B. ein signifi-kantes und ein insignifikantes Ergebnis, besagt das nicht sehr viel, da dasinsignifikante Ergebnis normalerweise auch keine wirkliche Stärkungder Nullhypothese bedeutet. Das führt sogar dazu, dass mehrere insigni-fikante Ergebnisse keineswegs besonders stark gegen unsere eigentlichHypothese H sprechen müssen. Die wird also letztlich nie richtig falsifi-ziert, sondern eher aufgegeben im Sinne Kuhns, weil sich mit ihrer Hilfeeben bestimmte Probleme nicht lösen lassen bzw. de facto keine signifi-kanten Resultate erzielt werden.

Das Zusammenrechnen insignifikanter Ergebnisse bietet sogar nochspezielle Schwierigkeiten: Nehmen wir wieder unsere einfache Hypothe-se H, eine bestimmte Münze sei unfair, und die entsprechende Null-hypothese H0, wonach die Münze fair ist (p=0,5). Betrachten wir dazu10 einfache Experimente mit unserer Münze mit jeweils 10 Würfen. AlsAblehnungsbereich zum 5% Niveau erhalten wir etwa Z = {0,1} {9,10}. Nun werfen wir in allen 10 Versuchen gerade 7-mal Kopf. Dannsind alle Einzelergebnisse insignifikant, aber ihre Summe ist bereits signi-fikant, wenn wir die Experimente vereinigen, denn wir hatten als Ableh-nungsbereich für 100 Würfe oben schon den Bereich Z = {0,1,...,39} {60,61,...,100} festgelegt. Statt unsere eigentliche Hypothese zu schwä-chen, haben diese vielen insignifikanten Ergebnisse unsere Hypothese

Page 494: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 6: Schlüsse der klassischen Statistik 482

sogar bestätigt, weil sie zusammen klar gegen die Nullhypothese aussa-gen. Es bleibt uns bei mehreren Resultaten daher nur die sogenannteMetaanalyse im Sinne einer informellen Abwägung, die auch die Quali-tät der einzelnen Studien berücksichtigen wird, zumal diese in der Praxisoft nicht sehr hoch ist (vgl. Beck-Bornholdt & Dubben 1998). Man darfdabei außerdem nicht vergessen, dass die substantiellen Konkurrenz-hypothesen in spannenderen Fällen durch die spezielle Gestaltung desExperiments ausgeschlossen werden müssen. Ob das etwa durch das Ver-fahren der Randomisierung immer zuverlässig gelingt, ist auch nichtganz so eindeutig, wie wir es gern hätten (vgl. Kap 7).

Schwieriger ist allerdings noch die Frage zu beantworten, was wirmit einer probabilistischen Falsifikation genau gewonnen haben. Beieiner strikten Falsifikation ist jedenfalls geklärt, dass die falsifizierteHypothese definitiv falsch sein muss (auch wenn sich das in der Praxisnicht so leicht nachweisen lässt, weil es eben noch das Duhem-Quine-Problem der Hilfshypothesen gibt). Für eine probabilistische Falsifika-tion lässt sich aber nicht behaupten, dass die so falsifizierte Nullhypothe-se tatsächlich falsch ist. Ein Signifikanztest (zum Niveau 95%) wirkteher wie ein Filter für Theorien. Von 100 wahren Nullhypothesen, diein den Filter hineingehen, passieren ihn ca. 95, während 5 wahre Null-hypothesen im Filter hängen bleiben, d.h. probabilistisch falsifiziert wer-den. Das heißt für die Hypothesen, die wir tatsächlich untersuchen undmöglichst begründen wollen, dass von 100 falschen Hypothesen, die ichin den Filter des Signifikanztests gebe, ca. 5 Hypothesen als signifikantbestätigt durchschlüpfen. Das klingt erst einmal nach einer guten Quote.Darf ich das so deuten, dass etwa 95% aller Hypothesen, die den Filterpassieren (d.h. als signifikant bestätigt werden), dann auch wahr sind?Genau das darf ich natürlich nicht tun und hier setzt insbesondere dieKritik der Bayesianer an. Wenn eine Hypothese eine geringe Vorher-Wahrscheinlichkeit hat, wird sie durch bestätigende Daten zwar in ihrerWahrscheinlichkeit steigen, aber möglicherweise immer noch einen sehrniedrigen Wert aufweisen. Diese allgemeine Plausibilität einer Hypothe-se wird im Signifikanztest aber nicht weiter berücksichtigt. Wir könnenihn eigentlich nur im Sinne der eliminativen Induktion in der klassischenErkenntnistheorie deuten und sollten daher die als signifikant bestätigteTheorie schlicht akzeptieren. Dagegen wird der Bayesianer einwenden,dass sie eventuell noch immer eine sehr geringe Wahrscheinlichkeit auf-weist und wir sie dann nicht akzeptieren sollten. Leider beantworten unsSignifikanztests nicht die Frage, ob die Theorie nun insgesamt plausibeloder zumindest plausibler als ihre Negation ist.

Page 495: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

483 Thomas Bartelborth: Induktives Schließen

Die Filteranalogie kann das Problem gut verdeutlichen. Nehmen wiran, unsere Wissenschaftler haben Pech und schicken 1000 falsche Theo-rien in den Filter, dann werden trotzdem 50 als signifikant bestätigt wie-der herauskommen, aber alle als signifikant bestätigten Hypothesen sindfalsch. Die Wahrscheinlichkeit für solche Hypothesen wäre also genaugenommen Null trotz ihrer signifikanten Bestätigung. Solange wir nichtsüber die Quote wissen, mit der wahre und falsche Theorien in den Filtergeschickt werden (Bayesianer würden das die Vorher-Wahrscheinlichkeitder Hypothesen nennen), können wir nur wenig über die epistemischeQualität der Theorien sagen, die den Filter passiert haben. Und das istleider nicht nur ein theoretisches Problem. Die technischen Möglichkei-ten der Datenauswertung werden in der Medizin und ebenso in den So-zialwissenschaften dazu genutzt, großflächig nach Korrelationen zu su-chen, die sich als signifikant erweisen. Dann wird etwa für eine größereZahl an Faktoren (Ernährungsgewohnheiten, Umwelteinflüsse etc.)untersucht, ob sie einen Einfluss auf das Entstehen verschiedener Krank-heiten zeigen. Dabei werden also ziemlich viele Hypothesen (vom Typ Xhat Einfluss auf Y) gebildet, von denen die meisten vermutlich falschsein werden. Doch trotzdem passieren von den vielen falschen Hypothe-sen ca. 5% unseren Filter. Sie verderben den Brei an Hypothesen, diewir damit übrig behalten. Er setzt sich in unbekannter Weise aus wahrenund falschen Hypothesen zusammen und wir verfügen über keine Ab-schätzungen, wie hoch der Anteil falscher Hypothesen in dieser Mengevon signifikant bestätigten Hypothesen zum Schluss ist. Genau für dieseHerangehensweise mit Massentests ist der Signifikanztest also besondersungeeignet. Er dient vielmehr nur dazu, für an sich schon plausibleHypothesen zu zeigen, dass man die dazu alternative Nullhypothese zu-rückweisen kann, wonach die Daten genauso gut als bloßes Zufallsresul-tat gelten dürfen, obwohl kein richtiger Effekt vorliegt.

Natürlich ließen sich die Ergebnisse wieder verbessern, indem wirdas Signifikanzniveau senken, wenn wir schon viele Hypothesen ineinem Test beurteilen (s. Bortz & Döring 2006). Aber wann ein Test undwann mehrere vorliegen, ist sicher eine rein konventionelle Angelegen-heit und ein Forscher muss uns noch nicht einmal mitteilen, bei welcherGelegenheit er denn auf eine bestimmte signifikante Korrelation gesto-ßen ist. Seine anderen vielen Fehlschläge muss er uns nicht unbedingtnennen. Die Schlussfolgerung kann nur sein: Wenn wir Signifikanztest-ergebnisse ernst nehmen wollen, muss vorher schon belegt werden, dassdie so getesteten Theorien bereits eine gewisse Plausibilität für sich ha-ben, so dass zu vermuten ist, dass die Quote der dann im Signifikanztest

Page 496: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 6: Schlüsse der klassischen Statistik 484

untersuchten wahren Theorien hoch ist. Also ist auch der klassische Sta-tistiker auf eine intuitive Beurteilung der Anfangsplausibilität seinerTheorien angewiesen genau wie der Bayesianer. Er ist nur nicht gezwun-gen, sie zu quantifizieren.

Schauen wir uns ein weiteres Beispiel an: Es werden nun z.B. 1000falsche und 100 wahre Theorien in den Filter geschickt. Je enger unserFilter gestellt wird (umso niedriger also das Signifikanzniveau ange-setzt wird), umso mehr wahre Theorien werden ebenso ausgeschieden.Das können schon gut 20% der wahren Theorien sein. Das nennt manden Fehler 2. Art: Hier passieren wahre Theorien den Filter nicht, bzw.es gelingt uns nicht, die an sich falschen Nullhypothesen zu unserenwahren Theorien probabilistisch zu falsifizieren. Dann passieren also 50falsche und 80 wahre Theorien den Filter. Das sieht immer noch nichtsehr gut aus, wenn es sich um Theorien handelt, auf die wir uns etwa inder Behandlung schwerer Krankheiten verlassen wollen. Immerhin istdann noch mehr als jede dritte Theorie falsch, die unseren Filter passierthat. Das verdeutlicht, was neben einem Signifikanztest auf jeden Fall zugeschehen hat. Die Theorien, die den Filter passieren, sind ohne weite-res keineswegs als vertrauenswürdig geschweige denn als Wissen anzuse-hen. Sie müssen dringend auf andere Weise weiter bestätigt werden.Hierfür bietet der Bayesianismus ein Buchhaltungssystem an, das zumin-dest eine Verrechnung aller Daten erlaubt und auch die Einschätzungder Anfangsplausibilität explizit macht, auf die der klassische Statistikereinfach verzichtet, auf die er aber genauso angewiesen ist.

Wie irreführend hier die Rede von der Irrtumswahrscheinlichkeit ist,wird in dem Buch von Beck-Bornholdt & Dubben (2003, 177 ff.) ineine amüsante Geschichte gepackt und gleich noch das Motto des Bu-ches wiederholt, das in einem Zitat besteht, das zwei Väter des Hypo-thesentesten Jerzy Neyman und Egon Pearson bereits 1933 formulier-ten:

No test based upon a theory of probability can by itself provide anyvaluable evidence of the truth or falsehood of a hypothesis.

Die Filteranalogie sollte jedenfalls belegen, dass ein Hypothesentest al-lein keine große Aussagekraft hat und die Irrtumswahrscheinlichkeit von5% durchaus damit kompatibel ist, dass sogar 100% der Hypothesen,die ihn passieren, falsch sein können. Es kommt eben immer darauf an,wie viele wahre und falsche Hypothesen wir in den Filter hineingeben.

Wir haben schon die Fehler der 2. Art erwähnt, die bei klassischenHypothesentest noch auftreten können. Fehler 1. Art liegen vor, wenn

Page 497: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

485 Thomas Bartelborth: Induktives Schließen

wir eine falsche Theorie nach einem signifikanten Ergebnis akzeptieren.Diesen Fehlertyp versuchen wir mit dem Signifikanzniveau klein zu hal-ten. (Hier wurde dann eine wahre Nullhypothese falsifiziert.) Fehler der2. Art liegen vor, wenn wir eine wahre Theorie nicht akzeptieren (odersagen wir etwas drastischer verwerfen). Hier wurde eine falsche Null-hypothese einfach nicht falsifiziert. Die Nullhypothese wurde dann in-tuitiv sehr schwach bestätigt. Eigentlich können wir nur sagen, dass indem Fall noch keine substantiellen Ergebnisse für unsere eigentlicheHypothese vorliegen. Aber oft wird das gleich so gedeutet, dass wir dieHypothese damit ad acta legen können. Wer möchte schon eine Hypo-these, die sich nicht signifikant bestätigen ließ, immer wieder erneut tes-ten? Kuhn könnte das besser beschreiben. Kein Wissenschaftler hättegroße Lust, weiterhin so erfolglos zu agieren und würde sich daher ein-fach anderen Hypothesen zuwenden und die ursprünglichen Hypothe-sen schlicht beiseitelegen, obwohl wir keine definitive Falsifizierung vor-nehmen konnten. Wir hatten sogar bereits gesehen, dass im Extremfallsogar viele insignifikante Ergebnisse zusammen für eine Hypothese spre-chen können.

Außerdem gilt schließlich: Sogar wenn die Hypothese falsch wäre,würden wir bei ca. 20 Tests doch zumindest ein signifikantes Ergebniserwarten dürfen. Man sieht hier, dass sich Beharrlichkeit in der For-schung für den Forscher doch auszahlt. Nur eben nicht für die Wissen-schaft, denn so wird schließlich eine falsche Theorie bestätigt. Das führtuns wieder auf das Problem zurück, wie wir wiederholte experimentelleResultate zusammenrechnen sollen. Wenn unsere Wissenschaftler ihreFehlschläge dann nicht publizieren, bleibt vielleicht zum Schluss nur eineHypothese mit einem bestätigenden Experiment übrig und vielen Fehl-schlägen, die wir aber nicht kennen. Da zeigen sich wieder die Gefahrendes Signifikanztestens.

Der mögliche Fehler 2. Art wird meist etwas stiefmütterlich behan-delt. Man ist aber natürlich durchaus daran interessiert, den Fehler 2.Art genauer abzuschätzen und ebenfalls möglichst klein zu halten, ob-wohl der Fehler 1. Art als schlimmer erscheint, da wir dort eine falscheTheorie akzeptieren, während wir beim Fehler 2. Art uns nur eine wah-re Theorie durch die Lappen gehenlassen. Doch wie können wir dieWahrscheinlichkeit für einen Fehler 2. Art überhaupt bestimmen? Das istoft nicht so einfach. In unserem Münzwurfbeispiel war die Nullhypothe-se H0 gerade, dass die Münze fair ist (p=0,5) und unsere Hypothese Hgerade, dass die Münze unfair ist (p0,5). Mit den üblichen Buchstaben

Page 498: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 6: Schlüsse der klassischen Statistik 486

für die Daten E und die Zurückweisungsmenge Z und die Akzeptanz-menge A erhalten wir:

Fehler 1. und 2. ArtWahrscheinlichkeit für Fehler 1. Art: P(EZ|H0)Wahrscheinlichkeit für Fehler 2. Art: P(EA|H).

Man beachte hier, dass mit Z der Zurückweisungsbereich für die Null-hypothese und mit A einfach der Gegenbereich, also der Akzeptanzbe-reich für die Nullhypothese gemeint ist. Das Problem ist nun P(EA|H)zu bestimmen. Da unsere Hypothese H keine definitiven Aussagen überbestimmte Likelihoods trifft, ist das so in unserem Fall überhaupt nichtmöglich. Wir hatten allerdings oben schon gesehen, dass auch disjunkti-ve Hypothesen manchmal entsprechende Abschätzungen erlauben, nureben leider nicht in unserem Fall.

Manchmal sind wir allerdings in der komfortableren Situation, dasswir schon wissen, dass die Münze, wenn sie nicht fair ist, gleich so starkgefälscht wurde, dass gilt p=0,7 (H*). Wir verfügen dann schon übereine konkrete und substantielle Alternativhypothese H* zu H0, bzw. ver-fügen schon über eine substantiellere Ausgangshypothese, mit deren Hil-fe wir den Fehler 2. Art bestimmen können: P(EA|H)=P(EA|H*).

Eigentlich ändern wir hier unsere Liste von möglichen Hypothesen.Statt mit H arbeiten wir nun mit H* und testen nur noch die HypotheseH* (p=0,7) gegen die alte Nullhypothese H0 (p=0,5). Für Tests dieserArt bietet sich der sogenannte Likelihoodismus an, den wir bereits ken-nengelernt haben. Der Fehler 2. Art lässt sich nun definitiv bestimmenund hängt von unserem speziellen Experiment, also vor allem von derAnzahl der Münzwürfe ab.

Bleiben wir wieder bei 100 Würfen und unserem obigen Zurückwei-sungsbereich Z={0,1,...,39}{60,61,...,100} für die Nullhypothese.Dann können wir nun ausrechnen, mit welcher Wahrscheinlichkeit einResultat im Annahmebereich A={40,...,59} der Nullhypothese liegenwird, obwohl eigentlich H* wahr ist: P(EA|H*)=1%. Der Fehler 2.Art betrüge dabei also nur 1%. Wenn unsere eigentliche Vermutung H*wahr ist, so bleibt nur eine Wahrscheinlichkeit von 1% übrig, dass wirtrotzdem die Nullhypothese akzeptieren. Das sieht recht gut aus, resul-tiert aber daraus, dass p=0,7 recht weit von p=0,5 entfernt liegt. Fürp=0,6 erhalten wir schon eine Irrtumswahrscheinlichkeit vonP(EA|p=0,6) = 45% und für p=0,65 immerhin noch P(EA|p=0,65)= 12%. Für p=0,6 sollten wir also versuchen, unsere Anzahl an Münz-würfen zu erhöhen. Für 200 Würfe erhielten wir etwa einen Ableh-

Page 499: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

487 Thomas Bartelborth: Induktives Schließen

nungsbereich Z={0,1,...,86}{114,...,200} und es würde P(EA|p=0,6) = 17% gelten. Das wäre schon ein deutlicher Fortschritt. Sokönnen wir für verschiedene Fragestellungen etwa auch ermitteln, wel-chen Umfang die Experimente haben sollten, damit unsere Fehler 1. und2. Art nicht zu groß werden.

Einige witzige Beispiele für die Problematik des Hypothesentestensmit Hilfe der probabilistischen Falsifikation finden wir bei Beck-Born-holdt & Dubben (1998, 210 ff.). Das erste hatte schon zu einer Kontro-verse in Nature geführt (Beck-Bornholdt & Dubben 1996). Die Beispielezeigen deutliche Unterschiede zwischen einer echten Falsifikation undeiner bloß probabilistischen. Nehmen wir als Nullhypothese etwa an,dass Johannes Paul II ein Mensch ist. Weiterhin wissen wir, dass es füreinen Menschen sehr unwahrscheinlich ist, der Papst zu sein, alsoP(Papst sein|Mensch sein) ist etwa 1 zu 6 Milliarden. Als Datum habenwir aber, dass Johannes Paul II der Papst ist. (Das Beispiel ist schon et-was älter.) Damit wäre jedoch unsere Nullhypothese widerlegt, dass essich dabei um einen Menschen handelt, denn aufgrund der Nullhypothe-se hat unser Datum nur eine sehr kleine Wahrscheinlichkeit, was wir alsprobabilistische Falsifikation betrachten, die aber natürlich in diesemFall unsinnig ist.

Vielleicht noch deutlicher wird das Problem im Lotto-Beispiel dersel-ben Autoren. Nehmen wir als Nullhypothese H0 etwa die Vermutung:Franz hat Lotto gespielt. Als Datum nehmen wir, dass Franz einen Lotto-hauptgewinn erhalten hat. Das sei der Gewinn, der normalerweise fürsechs Richtige gezahlt wird. Nun gilt aber: P(Franz gewinnt im Lot-to|H0)=1/14-Millionen. Also ist unsere Nullhypothese probabilistischfalsifiziert. Obwohl wir intuitiv einen Lottogewinn als gutes Indiz dafürwerten würden, dass der Gewinner auch Lotto gespielt hat, sieht die Lo-gik der probabilistischen Falsifikation das anders. Der Lottogewinn wirdsogar als Indiz gewertet, dass er nicht am Spiel teilgenommen hat.

Was steckt dahinter? Nun wir haben einfach ein sehr seltenes Ereig-nis E beobachten können (einen Lottogewinn), aber wir kennen nureinen normalen Weg zu einem Lottogewinn, selbst wenn dieser nur sehrselten stattfindet. Trotz der Seltenheit des Ereignisses dürfen wir es indiesem Fall nicht als Falsifikationsinstanz betrachten. Dass der GewinnerLotto gespielt hat, ist zwar nur eine recht schwache Erklärung für seinenGewinn, aber die richtige Frage wäre nun: Gibt es denn eine bessere Er-klärung für den Lottogewinn, als dass der Gewinner gespielt hat? Danndürften wir so schließen wie die klassische Statistik. Doch die Alternati-ve besteht darin, dass jemand nicht gespielt hat und ihm irrtümlich der

Page 500: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 6: Schlüsse der klassischen Statistik 488

Hauptgewinn zugesprochen wurde. Mir sind keine definitiven Zahlendazu bekannt, aber ich vermute, dass das noch viel unwahrscheinlicherist als die 1 zu 14 000 000. Vermutlich hat noch nie jemand von den vie-len Millionen Nicht-Lottospielen einen Hauptgewinn erhalten, die Quo-te ist also in jedem Fall extrem klein. Wir sollten daher hier lieber denfolgenden Likelihoodquotienten betrachten:

P(Franz gewinnt im Lotto|H0) / P(Franz gewinnt im Lotto|~H0)

Der sollte sehr groß sein. Daher ist unsere beste Erklärung für den Lot-togewinn immer noch, dass Franz gespielt hat, gegenüber der, dass ernicht gespielt hat. Das ist die Überlegung, mit der Likelihoodisten denFall lösen würden. Hier kommt der komparative Aspekt der Theorienbe-stätigung sehr gut zum Ausdruck. Wir haben keine „tolle“ Erklärung fürden Lottogewinn von Franz, denn wir können nicht sagen, warumFranz’ Lottoschein gewonnen hat und nicht eine andere Zahlenkombi-nation. Das war eben nur Zufall. Doch unsere anderen Hypothesen da-zu liefern noch deutlich schlechtere Erklärungen, weshalb das Datumklar für unsere Hypothese H0 spricht. Wir können hier wieder einmalnur einen Vergleich zwischen der Bestätigungskraft, die ein Datum füreine Hypothese relativ zu einer anderen angibt, durchführen. DieserVergleich spielt im klassischen Hypothesentest allerdings deswegen kei-ne Rolle, weil die anderen substantiellen Hypothesen typischerweise in-nerhalb des Experiments durch dessen Design (etwa mit Hilfe einer Zu-fallsstichprobe) ausgeschaltet werden.

Hypothesentests sind also letztlich komplexe Vorgänge, die mit Hilfevon Experimenten oder anderen Verfahren und Überlegungen versu-chen, substantielle Konkurrenzhypothesen einer Hypothese H auszu-schalten und in einer probabilistischen Falsifikation einer Nullhypothesegipfeln. Die Nullhypothese behauptet typischerweise, dass ein bestimm-tes Ergebnis, das wir beobachten konnten, keiner Erklärung durch unse-re Hypothese H bedarf, sondern durchaus noch als bloße Zufalls-schwankung erklärbar ist, wenn wir annehmen, dass nur ein „normaler“Zusammenhang vorliegt – eine Art von Normalfall mit einem „Nullef-fekt“. Gerechtfertigt wird dieses Bestätigungsverfahren dadurch, dass essich als eliminative Induktion darstellt, aber das Problem liegt u.a. darin,dass die probabilistischen Falsifikationen keine echten Falsifikationensind. Daher benötigen wir zusätzliche Hinweise für die Wahrheit unsererHypothese H. Die sollten wieder darin bestehen, dass wir die Erklä-rungskraft von H für bestimmte Phänomene aufzeigen und begründen,warum die größer ist als die der Konkurrenz. Erst mit solchen weiterge-

Page 501: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

489 Thomas Bartelborth: Induktives Schließen

henden Indizien erfährt H eine wirkliche Bestätigung. Doch das wird inder Praxis gerne vergessen, und wir vertrauen schon auf signifikante Er-gebnisse allein und fragen nicht mehr danach, wie gut H relativ zur Kon-kurrenz unsere Daten erklärt.

Es soll aber auch noch eine intuitive Verteidigung von Signifikanz-tests zu Worte kommen. Wir hatten uns im Falle der Popperschen Falsifi-kationen überlegt, dass Deborah Mayo (1996) eine gute Explikation vonernsthaften oder strengen Theorientests anzubieten hat. Danach ist einTestverfahren V dann ein strenges Testverfahren bzw. ein ernsthafterTheorientest, wenn die Wahrscheinlichkeit klein ist, dass es positiv aus-fällt (V+), wenn die Theorie T falsch ist, also wenn gilt: P(V+|non-T) istklein. Diese Wahrscheinlichkeit entspricht in Signifikanztests aber gera-de unserer Wahrscheinlichkeit für einen Irrtum 1. Art und wird daher et-wa mit 5% relativ klein gehalten. Wir können somit sagen, dass dierecht intutive Forderung von Popper, dass wir eine Theorie möglichststrengen Tests unterwerfen sollten, im Falle probabilistischer Theorien-tests gut umgesetzt wird.

Deborah Mayo oder andere Vertreter der klassischen Statistik argu-mentieren, dass wir natürlich gerne noch mehr über unsere Theorien er-fahren würden, z.B. ob sie mit einer bestimmten Wahrscheinlichkeitwahr sind, doch das ist eben leider nicht zu haben. Wir sehen nur, dassunsere besten Theorien bestimmte strenge Tests bestehen, was natürlichfür sie spricht und eine weitere Verrechnung damit, wie plausibel sie an-sonsten sind, ist kaum möglich. Jeder Bayesianer fügt dem höchstensnoch seine persönliche Einschätzung der Theorie hinzu, die aber eigent-lich nicht Bestandteil einer allgemeinen wissenschaftlichen Beurteilungder Theorie sein sollte. Dafür haben wir nur unseren Filter.

6.5 SchätzenNeben den Hypothesentests stellen Schätzungen ein wesentliches induk-tives Verfahren der klassischen Statistik dar. Gehen wir etwa wieder vonunserer Münze aus und fragen uns, welches die Wahrscheinlichkeit fürKopf tatsächlich ist: P(Kopf)=. Damit ist einfach ein unbekannter ge-suchter Parameter. Leider dürfen wir in der klassischen Statistik nichteinfach – wie im Bayesianismus – eine Wahrscheinlichkeitsverteilung fürdie unterschiedlichen möglichen Werte aus dem Bereich [0,1] für an-setzen und damit weiterrechnen, denn wir erinnern uns, dass die Wahr-scheinlichkeiten in der klassischen Statistik für relative Häufigkeitenbzw. objektive physikalische Wahrscheinlichkeiten reserviert sind. Sie ge-ben also keinesfalls unseren Wissensstand bzw. unsere Unwissenheit über

Page 502: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 6: Schlüsse der klassischen Statistik 490

den wahren Wert von wieder. Wir können bestenfalls wieder unter-schiedliche konkrete Hypothesen betrachten wie =r, und für solcheHypothesen bestimmte Likelihoods errechnen: P=r(E)=P(E|=r). Daswerden wir verkürzt P(E) schreiben, indem wir einfach jedes stellver-tretend für die Hypothese H schreiben, die besagt, dass ein speziellerWert aus unserem Parameterraum der wahre Wert ist: P(E)=P(E|H).In unserem Beispiel ist der Parameterraum gerade das Intervall [0,1].Unser statistisches Modell enthält somit eine parametrisierte Familie vonWahrscheinlichkeitsverteilungen (P(E))[0,1], wobei wir davon ausgehen,dass eine davon die richtige Wahrscheinlichkeitsfunktion für den be-trachteten Fall darstellt. Außerdem gehen wir wieder davon aus, dassunsere Daten E typischerweise wieder durch die Werte einer Menge vonZufallsvariablen X1,...,Xn angegeben werden können, die zumindest alleidentisch verteilt und stochastisch unabhängig sind.

Nehmen wir nun an, wir hätten 53-mal Kopf bei 100 Würfen gewor-fen (E). Was sollte dann unser bester Tipp für sein? Es ist naheliegenddarauf mit 53/100 zu antworten, wie es auch die klassische Statistik tut.Aber was ist unsere Rechtfertigung für diese Vorgehensweise? Eine Be-gründung finden wir in dem Maximum-Likelihood-Verfahren. Wir be-trachten die sich ergebenden Likelihoods für unterschiedliche Hypothe-sen und fragen uns, bei welchem Wert von wir die höchste Likeli-hood erhalten. Dazu bestimmen wir das Maximum der Likelihoodfunk-tion:

Likelihoodfunktion: L() = P(E) = x (=Bin(100;53;))

Hier kommen endlich einmal unsere Schulkenntnisse der Kurvendiskus-sion zum Tragen, um das Maximum auszurechnen. Tatsächlich ist für=53/100 das Maximum gegeben. Wir können das auch so beschreiben,dass die Hypothese =53/100 ceteris paribus die beste Erklärung fürunser Resultat von 53-mal Kopf bietet und daher gewählt werden sollte.Allerdings muss man natürlich zugeben, dass eng benachbarte Werte wie52/100 fast genau so gute Erklärungen abliefern. Trotzdem, der Maxi-malwert liegt gerade bei 53/100 und sollte daher gewählt werden, wennsonst keine weiteren Hinweise vorliegen.

Es gibt aber noch eine andere Art von Rechtfertigung für ganz be-stimmte Schätzverfahren, nämlich dass sie erwartungstreu bzw. unver-fälscht sind. Damit ist gemeint, dass der Erwartungswert zu einem be-stimmten Wert , den ein Schätzverfahren T(E) zu bestimmten Daten Eaufweist, gerade den gesuchten Wert ergibt, also in jedem einzelnen Fall,

Page 503: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

491 Thomas Bartelborth: Induktives Schließen

in dem wir von als dem wahren Wert ausgehen, sollte der Erwartungs-wert gerade dieser Wert sein.

E(T(E)) =

Das heißt, wenn wir davon ausgehen, dass die Wahrscheinlichkeit fürKopf ist und unser Schätzverfahren T (als Zufallsvariable) für bestimmteDaten E immer einen bestimmten Wert T(E) liefert, dann sollte dieserWert im Durchschnitt wieder sein. Und das sollte für jeden Wert[0,1] der Fall sein. Dann nennt man das Schätzverfahren erwartungs-treu, weil es zumindest im Erwartungswert auf den richtigen Wert hin-weist. Dabei bezeichnen wir mit E(T(E)) den bedingten Erwartungswertvon T(E) gegeben unsere Annahme, dass H gilt. In unserem Beispielnimmt E die Werte von 0 bis 100 an und T ist nur die Operation durch100 zu teilen. Damit erhalten wir eine Summe von i=0 bis i=100:

E(T(E)) = 1/100 i·P(E=i) = 1/100 i·Bin(100;i;) = r

Das ist in unserem Beispiel für alle nachzuweisen und sollte sich durchgeschicktes Ausklammern letztlich zeigen lassen. In einer ähnlichenRichtung geht die Konsistenzforderung, die verlangt, dass die Werte vonT(E) für jedes im Falle wachsender Stichprobengrößen n stochastischgegen den Grenzwert konvergieren.

Allerdings müssen diese Anforderungen nicht immer genau überein-stimmen. Schon für die Schätzung der Varianz gibt es kleine Unterschie-de zwischen dem Maximum-Likelihood-Schätzer und einem erwartungs-treuen Schätzer. Das ganze Verfahren ist wieder mit den Problemen derstochastischen Modellbildung konfrontiert und natürlich nur auf be-stimmte einfache Fälle von Theorienbildung anwendbar. Spannend wirdes aber vor allem, wenn wir nicht nur wie in den bisherigen Fällen einePunktschätzung vornehmen möchten, sondern stattdessen ein Intervallbestimmen möchten, in dem sich der gesuchte Parameter mit einer be-stimmten Wahrscheinlichkeit befinden wird. Dadurch können wir zu-gleich etwas über die Genauigkeit der Schätzung aussagen. Im Falle derklassischen Statistik sind da vor allem die Konfidenzintervalle zu nennen,die allerdings anders konstruiert werden als die Vertrauensintervalle imBayesianismus und auch nicht dieselbe Aussagekraft aufweisen wie diese.

Dabei suchen wir nach einer Funktion C, die zu jedem Datum E einInterval C(E) liefert, in dem der gesuchte wahre Parameter mit derWahrscheinlichkeit 1– enthalten ist (wobei wir die Wahrscheinlichkei-ten berechnen, indem wir von der Hypothese H ausgehen). Das nennenwir dann ein Konfidenzintervall für zum Niveau 1–. Wir bleiben wie-

Page 504: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 6: Schlüsse der klassischen Statistik 492

der bei unserem Niveau von 95% bzw. einer Irrtumswahrscheinlichkeit von 5%. Wir suchen also nach einer Funktion C, die von beliebigenDaten x (als Variable für die Anzahl der Köpfe) in die Potenzmenge vonunserem Parameterraum geht (C(x) soll somit das gesuchte Konfidenz-intervall zu x darstellen), so dass gilt:

P(C(x)) ≥ 1– für alle

Dann nennen wir C(x) ein Konfidenzinterval zum Datum x und demNiveau 1–. Dabei möchten wir in der Regel zugleich, dass das Konfi-denzintervall möglichst klein ist, sonst könnten wir gleich ganz alsKonfidenzintervall wählen. Klassische Statistiker schreiben das manch-mal noch etwas komplizierter auf, weil die obige Schreibweise nahelegenkönnte, dass der Modellparameter hier als eine Zufallsvariable be-trachtet wird, was er in der klassischen Statistik aber nicht ist. Das Kon-fidenzintervall ist unsere Zufallsvariable, denn der Parameter selbststeht nur für die verschiedenen stochastischen Modelle oder Hypothe-sen, die wir betrachten und der wahre Wert von liegt entweder in C(x)oder nicht. Zufallsergebnisse sind nur unsere Konfidenzintervalle C, dievon den Zufallsdaten x abhängen und den Parameter mit einer gewis-sen Wahrscheinlichkeit überdecken oder auch nicht.

Im Kapitel 5 haben wir bereits darüber diskutiert, dass es somit ge-wisse Interpretationsprobleme für die Ergebnisse gibt. Der klassischeStatistiker kann nicht einfach sagen, dass der gesuchte Parameter miteiner Wahrscheinlichkeit von 95% in dem Konfidenzintervall C enthal-ten ist, wie es der Bayesianer für die Vertrauensintervalle behauptenkonnte. Er kann stattdessen nur sagen, dass sein Verfahren für Konfi-denzintervalle zum Niveau 95% im Durchschnitt in 95% aller Fälle dengesuchten Parameter überdecken wird. Erst wenn er dann noch dasGrundprinzip der induktiven Logik, nämlich den statistischen Syllogis-mus, mit heranzieht, gelangen wir zu der erwünschten Interpretation,dass der gesuchte Parameter mit einer Wahrscheinlichkeit von 95% vomKonfidenzintervall überdeckt wird.

Ohne die Hilfe der induktiven Logik können wir keine sinnvollenAussagen über den Einzelfall treffen. Der klassische Statistiker muss sichhier also entscheiden, ob er doch ein Stück der induktiven Logik über-nehmen möchte, um seine Konfidenzintervalle überhaupt sinnvoll inter-pretieren zu können. Er schreckt davor meist deshalb zurück, weil er(fälschlicherweise) glaubt, seine Interpretation der Wahrscheinlichkeitensei empiristisch sauber und sein ganzes Verfahren hätte keine subjektivenwillkürlichen Bestandteile, während jeder Schritt in Richtung des Baye-

Page 505: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

493 Thomas Bartelborth: Induktives Schließen

sianismus oder der induktiven Logik zu einer entsprechenden Verunrei-nigung führen würde. Doch die einzig sinnvolle Interpretation der ob-jektiven Wahrscheinlichkeit als Propensitäten ist aus Sicht eines Empiris-ten bereits hochgradig metaphysisch und das Verfahren enthält mit demSchritt von einem realen System zu einem stochastischen Modell bereitssubjektive Entscheidungen, wobei diese natürlich durchaus rational seinkönnen, wie die der Bayesianer eben auch. Daher werde ich ab hier zu-sätzlich noch den statistischen Syllogismus heranziehen und die Konfi-denzintervalle entsprechend inhaltlich interpretieren.

Die Idee der Konfidenzintervalle und wie sich solche Konfidenzinter-valle überhaupt konstruieren lassen, können wir vielleicht an unseremMünzbeispiel verdeutlichen. Es dürfte allerdings schon klar sein, dass eswiederum einen größeren Spielraum in dieser Konstruktion gibt. Ge-sucht wird im einfachen Beispiel der Parameter p[0,1], der die tatsäch-liche Wahrscheinlichkeit von Kopf angibt. Als Datum haben wir nun120-mal Kopf von 200 Würfen und suchen nun nach einem passendenIntervall C(x)=[ku(x),ko(x)] dazu (wobei x die verschiedenen Werte derZufallsvariablen X darstellt, die uns die Anzahl der Köpfe angibt), mitden folgenden Eigenschaften:

(*) Pp(ku(x)pko(x)) 1– = 95% für alle p(0,1)

Dabei werden wir den Maximum-Likelihood-Schätzer mit einbeziehen,und das Intervall also in unserem Beispiel um den Mittelwert der Stich-probe m=120/200=3/5 konstruieren. Die Idee ist dabei eigentlich sim-pel: Sollte unser Parameter p einen großen Abstand von m aufweisen, istes sehr unwahrscheinlich, dass ein solches Ergebnis m auftreten würde.Daher werden Parameter, die zu weit von m entfernt liegen, durch unserKonfidenzintervall mit einer recht kleinen Irrtumswahrscheinlichkeitausgeschlossen. Das Besondere ist hierbei der Perspektivenwechsel: Beiextremen Werten von p (relativ zu m), also „p-Werten“ weit weg vonm=3/5, wird nur selten unser m=3/5 auftreten. Also wird z.B. nur sel-ten p=1/5 und dann m=3/5 zusammen auftreten. Das heißt, es gibt nurwenige Fälle, in denen m=3/5 auftritt und der Parameter p ist sehr weitweg von m. Das bedeutet aber, dass nur in wenigen Fällen, in denen mvorliegt, ein extremer Parameter gegeben ist, bzw. die Wahrscheinlich-keit für extreme Parameter ist klein. Und sie ist umso kleiner, je kleinerdie Wahrscheinlichkeit für m aus der Sicht der Hypothese Hp ist. Manbeachte, dass Hp die Hypothese ist, nach der das Auftreten von Kopf dieWahrscheinlichkeit p besitzt.

Page 506: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 6: Schlüsse der klassischen Statistik 494

Daher ist unser erster einfacher Weg zu Konfidenzintervallen derüber die Akzeptanzintervalle A(H) der Hypothese H zur Irrtumswahr-scheinlichkeit 5%. Wenn eine relative Häufigkeit m von Köpfen gegebenist, so nehmen wir in unser Konfidenzinterval C(m) nur die p auf, fürdie m noch in den Akzeptanzbereich der Hypothese Hp fällt. Sonst wirdder Abstand zwischen p und m zu groß und wir subsumieren das unterdie wenigen Irrtumsfälle, die unter 5% der Fälle betragen.

C(m) = {p; mA(Hp)}

Dann kann man nachweisen, dass es sich dabei auch um ein Konfidenz-intervall handelt (vgl. Irle 2001, 364ff.).

Wir können so ein Konfidenzintervall aber auch relativ direkt be-rechnen, indem wir unsere Ungleichung (*) aus zwei Ungleichungen (1)und (2) ableiten (vgl. Büchter & Henn 2007, 422ff.), für die wir die Irr-tumswahrscheinlichkeit in zwei gleiche Bereiche aufteilen. Das ist unserzweiter Weg zu einem Konfidenzintervall:

(1) Pp(p<ku) < 2,5% für alle p(0,1) und(2) Pp(ko<p) < 2,5% für alle p(0,1)

Für diese Ungleichungen suchen wir dann nach einem möglichst großenWert für ku(x) und nach einem möglichst kleinen für ko(x), so dass dieUngleichungen noch erfüllt sind. Dabei verlangt (1), dass die Wahr-scheinlichkeit für den Irrtum klein bleibt, der sich ergibt, wenn p unter-halb des Konfidenzintervalls liegt. Da unser Datum m aufgetreten ist,müssen wir hier also mit m oder noch entfernteren Daten als möglichenIrrtümern rechnen. Entsprechendes gilt für (2) nur in der anderen Rich-tung. Daher suchen wir jeweils nach entsprechenden Parametern p mit:

Wenn wir zwei Stellen hinter dem Komma zulassen, ergibt sich als größ-ter unterer Wert 0,53 (in 1*) und als kleinster oberer Wert 0,67 (in 2*).Dabei wurde jeweils ein wenig verschenkt, d.h. die tatsächliche Irrtums-wahrscheinlichkeit dieses Intervalls C=[0,53;0,67] ist etwas kleiner alsdie zugestandenen 5%.

Page 507: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

495 Thomas Bartelborth: Induktives Schließen

In der Praxis werden solche Konfidenzintervalle oft auf etwas einfa-chere Weise konstruiert. Da das instruktiv ist, möchte ich das noch aneinem realen Beispiel vorführen, das aus Büchter & Henn (2001, 417ff.) stammt. Dabei wurden aus 260 000 Neuntklässlern in Nordrhein-westfalen 1120 als Zufallsstichprobe gezogen und auf ihre Mathematik-leistungen hin getestet. Dabei ergab sich in der Stichprobe ein arithmeti-scher Mittelwert m der Testleistungen von 79 Punkten und eine Stan-dardabweichung s=22 Punkte. Dann lässt sich daraus die Standardab-weichung des Mittelwertes (auch als Standardfehler bezeichnet) schät-zen, als ca. 0,7. (Dazu müssen wir die 22 durch die Wurzel aus 1120 tei-len.) Die Mittelwerte der Stichproben betrachten wir nun als normalver-teilt (das wird meist mit Hilfe des zentralen Grenzwertsatzes begründet)und können daher für die Mittelwerte auf recht einfache Regeln fürNormalverteilungen zurückgreifen.

Für Abschätzungen werden dann gerne die sogenannten -Regeln fürNormalverteilungen herangezogen. Sie besagen, dass bei einer normal-verteilten Größe Z im Durchschnitt 68% der Werte im Abstand umden Mittelwert verteilt sind, 95,5% im Abstand 2 und 99,7% im Ab-stand 3.

Die -Regeln für die NormalverteilungP(|Z–|) 0,68P(|Z–|1,96·) 0,95P(|Z–|2) 0,955P(|Z–|3) 0,997

Damit erhalten wir sehr schnell ein Konfidenzintervall für den Mittel-wert der mathematischen Schulleistungen der Neuntklässler, denn es giltfür den Mittelwert der Grundgesamtheit in 95% aller Fälle:

–1,96·0,7 m +1,96·0,7

Diese Ungleichungen besagen, dass und m in 95% aller Fälle nur denAbstand 1,96·0,7 haben. Das heißt natürlich auch, dass in 95% der Fällegilt:

m–1,96·0,7 m+1,96·0,7

Damit haben wir eine entsprechende Abschätzung für auf dem Konfi-denzniveau von 95% gefunden: C=[77,6;80,4]. Das Verfahren beleuch-tet noch einmal sehr schön, wie man (sehr schnell) aus einer Abschät-zung der deskriptiven Statistik für die Mittelwerte m der Stichproben

Page 508: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 6: Schlüsse der klassischen Statistik 496

eine Schlussfolgerung für das arithmetische Mittel in der Grundgesamt-heit bekommt.

Auf diesem Weg können wir auch bestimmte Hypothesen testen.Möchten wir etwa entscheiden, ob sich zwei Erwartungswerte signifi-kant unterscheiden, wie etwa der für die Mathematikleistung der Gym-nasiasten von der der Hauptschüler, dann können wir für beide Mittel-werte jeweils ein Konfidenzintervall etwa zum Niveau 95% bilden.Überschneiden die sich dann nicht, haben wir damit gezeigt, dass dieNullhypothese, wonach die Mittelwerte in den Grundgesamtheiten dochgleich sind, durch unsere Daten signifikant (zum Niveau 95%) widerlegtwerden kann.

Somit haben wir wieder ein induktives Schlussverfahren kennenge-lernt, das zumindest auf den Fall angewandt werden kann, in dem mannoch einige Parameter bestimmen muss, aber ansonsten schon über eintheoretisches Modell für eine Situation verfügt. Dazu hatten wir gese-hen, dass eine Interpretation, die auch etwas über den einzelnen Falleines konkreten Konfidenzintervalls aussagen kann, bereits auf epistemi-sche Wahrscheinlichkeiten angewiesen ist, die der klassische Statistikereigentlich ablehnt. Die Frage bleibt also, ob dann nicht doch der Baye-sianismus bzw. die bayesianische Statistik gleich die bessere Wahl dar-stellt, doch das müssen wir der weiteren Debatte überlassen.

Page 509: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

7 Kausalschlüsse

7.1 Einleitung: Zur Bedeutung kausalen Schließens

Ein zentrales Ziel der wissenschaftlichen Arbeit ist es, bestimmte Phäno-mene erklären oder vorhersagen zu können. Dazu sind die empirischenDisziplinen vor allem auf Wissen über kausale Zusammenhänge ange-wiesen. Nur kausales Wissen ist letztlich geeignet, Phänomene erklärenzu können, Ereignisse vorherzusagen oder in das Geschehen eingreifenzu können. Es nützt dagegen noch nicht viel zu wissen, dass gelbe Fingerund langjähriges Rauchen eng mit dem Lungenkrebs korreliert sind. Er-klären kann ich einen auftretenden Lungenkrebs jedenfalls nur anhanddes Rauchens und nicht anhand der gelben Finger. Die Information überdie Korrelation ist nicht die für uns entscheidende Information, auchwenn sie manchmal einfach so behandelt wird. Dabei schließen wirmeist vorschnell von einer Korreliertheit auf eine Kausalbeziehung. Inden Medien finden wir immer wieder Berichte vom Typ: „Mediziner ha-ben festgestellt, dass Gummibärchenesser bessere Mathematikleistungenaufweisen, als ihre Kommilitonen, die keine Gummibärchen essen.“ Dassuggeriert uns, wir könnten unsere Mathematikleistung durch Gummi-bärchen-Verzehr steigern, aber der berichtete Zusammenhang ist bloßeine Korrelation, die das keineswegs hergibt. Noch naheliegender er-scheint uns der Schluss bei ernsthafteren Meldungen wie: „Übergewich-tige erkranken dreimal häufiger an Lungenkrebs als Normalgewichtige.“Wiederum wird schon durch die Wortwahl eine kausale Lesart sugge-riert, sonst wäre die Meldung wohl auch relativ uninteressant. Sie würdezwar eine seltsame Korrelation aufzeigen, aber ohne eine Idee dafür an-zubieten, wie diese Korrelation zustande kommt, können wir damitnicht viel anfangen.

Selbst Vorhersagen aufgrund der gelben Finger sind nur dann zuläs-sig, wenn die gelben Finger ihrerseits durch das Rauchen hervorgerufenwurden und nicht etwa durch das direkte Einfärben der Finger. Damitsetzen wir selbst für einfache Prognosen schon bestimmte kausale An-nahmen voraus, ohne die keine Vorhersage begründet erscheint. Dasvergessen wir nur allzu leicht, weil wir solche kausalen Zusammenhängeschnell implizit voraussetzen. Sollten diese Annahmen aber bekannter-

Page 510: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 498

maßen nicht erfüllt sein, so würden die entsprechenden Vorhersagen da-durch unterminiert. Insbesondere Vorhersagen, die die Effekte unseresEingreifens betreffen, und die daher besonders interessant für uns sind,zeigen diese Abhängigkeiten von kausalen Annahmen. Wenn ich etwaszur Vorbeugung gegen den Lungenkrebs unternehmen möchte, ist es völ-lig sinnlos, die Verfärbung der Finger auf direktem Wege zu beseitigen.Nur die Variable Rauchen ist dafür entscheidend. Diese müssen wir ver-ändern, um damit den Faktor Lungenkrebs zu verändern. Ansonstenkönnen wir nur vorhersagen, dass sich vermutlich deshalb nichts ändernwird, weil die gelben Finger eben keine Ursache des Lungenkrebses sind.

Das zeigt noch einmal den wesentlichen Unterschied zwischen blo-ßen Korrelationen und genuinen Kausalbeziehungen. Die Letzteren giltes letztlich zu ermitteln, selbst wenn für manche induktive Schlüsse aufden ersten Blick einfache Korrelationen genügen mögen. So können wirnormalerweise durchaus von den gelben Fingern auf eine Lungenkrebs-gefährdung schließen, aber nur, wenn wir annehmen dürfen, dass dieseGelbfärbung eben auf die ganz bestimmte Weise durch das Rauchen (wiees normalerweise der Fall sein dürfte) verursacht wurde. Normalerweisekönnen wir uns bereits auf ein bestimmtes kausales Hintergrundwissenstützen, das unsere induktiven Schlüsse leitet. Insbesondere müssen wirzunächst explizieren, was wir unter einer Kausalbeziehung verstehenwollen, bevor wir auf das kausale Schließen eingehen können, das sichdarauf beziehen wird.

Wir haben bereits erkannt, dass das induktive Schließen im Allgemei-nen sich zumindest indirekt auf kausale Annahmen stützen muss. Es istschon aus diesem Grund nur natürlich, sich den Kausalschlüssen direktzuzuwenden. Damit sind überwiegend direkte Schlüsse von Daten aufeinfache kausale Hypothesen gemeint. Diese Hypothesen müssen nichtsogleich hochabstrakte Theorien sein, sondern sind oft relativ nahe anbestimmten empirischen Zusammenhängen liegende Hypothesen, diemeist keine theoretischen Terme enthalten werden. Dazu gibt es einengroßen Bereich an eigenständiger Literatur, den wir hier nicht umfas-send zur Kenntnis nehmen können. Daher möchte ich vor allem aufzwei grundlegende und typische Verfahren und insbesondere ihreGrundideen und Rechtfertigungen eingehen. Das erste Verfahren dientder Ermittlung von Kausalbeziehungen in einem deterministischen Rah-men und wurde u.a. von John Stuart Mill, John Leslie Mackie, MichaelBaumgartner und Gerd Grasshoff entwickelt bzw. weiterentwickelt. Esschließt aus bestimmten Mustern von Koinzidenzen und auftretendenRegularitäten anhand der verbesserten INUS-Bedingung auf Ursache-

Page 511: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

499 Thomas Bartelborth: Induktives Schließen

Wirkungs-Zusammenhänge. Das Verfahren für deterministische Kausali-tät wird oft unterschätzt, weil man etwa annimmt, es würde implizieren,dass, wenn eine bestimmte Ursache auftritt, immer auch die entspre-chende Wirkung eintreten müsste. Dann wäre es kaum anwendbar, weilwir solche strikten Regularitäten nur in wenigen Bereichen finden kön-nen. Doch das ist ein grundlegender Irrtum. Wir werden etwa sehen,dass auch im deterministischen Rahmen auf das Auftreten einer UrsacheA hin vielleicht nur in 5% aller Fälle die Wirkung W auftritt. Das liegtdann vor allem daran, dass die erforderlichen Kofaktoren zu A etwa nurin 5% aller Fälle vorliegen.

Der zweite Typ von Verfahren nutzt dagegen sogleich probabilisti-sche Hilfsmittel und ist u.a. von Judea Pearl, Richard Scheines, ClarkGlymour und vielen anderen entwickelt worden. Damit schließt manvon bestimmten statistischen Zusammenhängen wie Korrelationen vonZufallsvariablen, die jeweils kausale Faktoren repräsentieren, auf kausaleAbhängigkeiten, und versucht so einen Kausalgraphen der betreffendenZusammenhänge zu erstellen. Wir werden dabei sehen, dass beide An-sätze auf weiteres kausales Hintergrundwissen angewiesen sind, womitsie das Diktum von Nancy Cartwright bestätigen: „No causes in, no cau-ses out.“ Judea Pearl beschreibt das – gerichtet gegen zu hohe Erwartun-gen in der klassischen Statistik in (2009, 100) – so: „This would haveviolated our golden rule: behind any causal conclusion there must besome causal assumption, untested in observational studies.“ In meinemRahmen werde ich zu zeigen versuchen, dass es sich jeweils um Spezial-fälle des Schlusses auf die beste Erklärung handelt, die allerdings so weitausgearbeitet sind, dass sie schon eine Sonderstellung mit speziellen Re-geln einnehmen.

7.2 Die minimale Theorie:eine Regularitätstheorie der Kausalität

7.2.1 Die Grundlagen der minimalen Theorie

Zunächst zum ersten Ansatz. Es handelt sich um einen Regularitätenan-satz, bei dem eine geeignete Regularität darüber entscheidet, ob A Ursa-che von W ist oder nicht. Insbesondere erwarten wir, dass A normaler-weise zu W führt und die Abwesenheit von A zumindest in bestimmtenSituationen dann auch W vermissen lässt. Bekannt wurde dieser Ansatzvor allem durch die sogenannte INUS-Theorie von John Leslie Mackie(1974).

Page 512: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 500

INUS-Bedingung: Danach ist A eine Ursache von W genau dann,wenn A ein allein nicht hinreichender, aber notwendiger Teil einerBedingung ist, die selbst hinreichend aber nicht notwendig für W ist.(INUS von „insufficient but non-redundant part of an unnecessarybut sufficient condition“)

Das klingt viel komplizierter als es ist. Denken wir an ein brennendesStreichholz (A), das in eine Scheune mit Heu geworfen wird, woraufhindiese abbrennt (W). Das geworfene, brennende Streichholz, ist alleinnoch nicht hinreichend dafür, dass die Scheune abbrennt. Es muss z.B.Sauerstoff in der Scheune sein (B) und das Heu muss trocken sein (C).Allerdings sind auch (B) und (C) zusammen noch nicht ausreichend da-für, dass die Scheune abbrennt (W). Also ist (A) notwendiger Teil derkomplexen Bedingung (ABC), wobei diese dann hinreichend dafür ist,dass die Scheune abbrennt. Allerdings ist die komplexe Bedingung(ABC) selbst nicht notwendig für den Brand der Scheune, denn es könn-te noch andere Ursachen dafür geben. Ein glühendes Stück Metall, dasin die Scheune geworfen würde (D), würde ebenfalls für einen Brandausreichen, allerdings wieder zusammen mit (B) und (C). Damit würde(DBC) eine ebenfalls hinreichende, aber nicht notwendige Bedingungsein, von der in diesem Fall D ein solch notwendiger Teil wäre. Dadurchwürde auch das glühende Stück Metall korrekt als Ursache identifiziertwerden. Insgesamt sind also sowohl das geworfene Streichholz (A) wiedas geworfene glühende Metall (D) jeweils notwendige Teile einer hin-reichenden Bedingung (ABC oder DBC), die jeweils selbst nicht als not-wendig für (W) ansehen.

Allerdings zeigt sich hier schon ein kleines Problem, denn (B) und(C) würden ebenso als Ursachen des Brandes eingestuft werden. Dasklingt zumindest umgangssprachlich seltsam, weil wir typischerweise an-hand von Ursachen auch Erklärungen abgeben wollen. Natürlich kön-nen wir auf die Frage, warum die Scheune abgebrannt ist, antworten,dass das deshalb passiert sei, weil jemand ein brennendes Streichholz da-hinein geworfen hat. Komisch klingt es aber, wenn wir antworten: „WeilSauerstoff in der Scheune war.“ Das hat sicher etwas damit zu tun, dassdiese Bedingung (B) typischerweise als selbstverständlich bzw. als Nor-malbedingung oder Standardbedingung vorausgesetzt werden kann. Für(C) ist das schon nicht so klar, und daher wäre eine Antwort, die nun(C) in den Mittelpunkt stellt, auch nicht ganz so seltsam. Trotzdem wer-den wir uns an dieser Stelle nicht lange mit solchen vielleicht eher prag-matischen Aspekten von Kausalaussagen und Erklärungen aufhalten.Das gehört vielmehr in die Debatten darüber, was genau die Ursachen

Page 513: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

501 Thomas Bartelborth: Induktives Schließen

mit Erklärungskraft sind, während hier schließlich die Frage im Vorder-grund stehen soll, wann wir überhaupt auf bestimmte Kausalbehauptun-gen schließen dürfen. Dazu werde ich an dieser Stelle nur kurz auf diediffizileren Fragen nach dem richtigen Verständnis vom Wesen der Kau-salität eingehen, sondern halte mich meist einfach an die klaren Beispie-le von Kausalzusammenhängen. Aber auch für die ist die Frage nurschwer zu beantworten, wann uns die Daten dazu berechtigen, von einerKausalbeziehung auszugehen.

Zunächst möchte ich aber kurz auf die in unseren Überlegungen zuKausalbeziehungen immer schon mitgedachte Metaphysik eingehen. Wirgehen in unseren Vorstellungen von Kausalität davon aus, dass bestimm-te Ereignisse andere hervorbringen. Das können sie, weil sie bestimmteEigenschaften instantiieren bzw. exemplifizieren, die wir allgemein alskausale Faktoren bezeichnen werden. Diese Eigenschaften haben dispo-sitionalen Charakter bzw. stellen Kräfte oder Vermögen dar, andereEigenschaften zu erzeugen, wenn die richtigen Rahmenbedingungen vor-liegen (vgl. Esfeld 2007, 2008). Demgegenüber geht ein Empirist im Sin-ne von Lewis (1994) von der Annahme der Humeschen Supervenienzaus. Danach gibt es nur eine Struktur in unserer Welt und das ist dieRaum-Zeit-Struktur. An den einzelnen Raum-Zeit-Punkten finden sichdann Instanzen kategorischer Eigenschaften, die aber untereinander kei-ne weiteren Verbindungen aufweisen. Sie sind kausal inaktiv. Es gibteben nur zufällige Regularitäten in der Welt, die uns helfen, die Erschei-nungen in der Welt zu systematisieren. Die grundlegendsten davon nen-nen wir Naturgesetze, aber diese geben eigentlich keinen Anlass zu derVermutung, dass wir mit ihrer Hilfe gezielt in die Welt eingreifen und et-was verändern könnten, denn es handelt sich bei Naturgesetzen wie ge-sagt nicht um die Beschreibung bestimmter Vermögen der Natur, son-dern nur um eine Beschreibung zufälliger Zusammentreffen bestimmterEigenschaften. Es fällt uns im empiristischen Weltbild schon schwer zuverstehen, wie wir diese Eigenschaften überhaupt wahrnehmen können,denn das verlangt eigentlich bereits, dass sie gewisse Wirkungen auf unsbzw. unseren Wahrnehmungsapparat ausüben. Unsere normale Annah-me, dass wir gezielt in die Kausalstruktur eingreifen können, bleibt dannerst recht ein Rätsel (vgl. dazu Esfeld 2007, 2008).

Es lässt sich genau genommen noch nicht einmal sinnvoll begründen,dass wir einem an Lungenentzündung Erkrankten Antibiotika geben,weil wir annehmen, dass sie ihm helfen werden. Die Eigenschaften derTabletten sind nicht mit anderen Eigenschaften wie der Heilung ver-knüpft. Selbst wenn also in der Vergangenheit auf die Gabe von Antibio-

Page 514: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 502

tika regelmäßig eine Heilung erfolgte, dann war das nur ein zufälligesZusammentreffen und gibt uns keinen Grund anzunehmen, dass dasauch in der Zukunft so sein wird. Ob es sich dabei um ein Naturgesetzhandelt im Sinne von Lewis wissen wir nicht und können wir nicht ent-scheiden, denn darüber entscheidet erst die gesamte Weltgeschichte.Sollte diese zufällige Regularität auch in der Zukunft weiter vorliegen,dann wäre es vermutlich ein Gesetz im Sinne von Lewis (jedenfalls dann,wenn es zu der besten Systematisierung aller Ereignisse der Welt gehö-ren würde), und dann könnte man es vielleicht rückblickend als hilfreichansehen, Antibiotika eingenommen zu haben, aber eigentlich gibt es kei-nen inneren Zusammenhang zwischen der Antibiotikaeinnahme und derHeilung. Kausale Beziehungen sind auch nur zufällige Zusammenhänge,denen aber in Form gesetzesartiger Beziehungen (im Sinne von Lewis)ein besonderer Stellenwert in der möglichst einfachen Systematisierungder Ereignisse unserer Welt zukommt.

Diese Konzeption von Kausalität und Gesetzesartigkeit lässt eigent-lich auch kein induktives Schließen zu. Wir können genaugenommennichts aus der Vergangenheit lernen, weil jede zukünftige Entwicklungder Welt zu jeder vergangenen in gleicher Weise passt. Im Weltbild desEmpiristen ist kein Platz für eine substantiellere Vorstellung von Kausali-tät. Für mich steht eine solche aber immer im Hintergrund, weil es sonstauch sinnlos erschiene, sich so für Kausalbeziehungen zu interessieren.Die empiristische Kausalvorstellung gestattet weder begründete Vorher-sagen noch ein gezieltes praktisches Eingreifen in die Welt anhand vonkausalem Wissen.

Leider haben diese empiristischen Ideen und speziell ihre Ablehnungder Kausalbeziehung als zu metaphysisch über einen langen Zeitraumauch die klassische Statistik beeinflusst, die sich statt mit Kausalbezie-hungen dann nur noch mit Korrelationen beschäftigt hat. Die empiristi-sche Metaphysik ist jedenfalls dringend ergänzungsbedürftig und ich ge-he hier davon aus, dass wir es mit einer reichhaltigeren Ontologie zu tunhaben, in der vor allem die Beziehungen zwischen Eigenschaften einekausale Struktur für unsere Welt liefern. Davon müssen letztlich alle An-sätze in diesem Bereich ausgehen und tun es mehr oder weniger explizitauch. Der Regularitätenansatz ist aber sicher ein Ansatz, der zumindestfür das Aufspüren von Kausalbeziehungen einen wichtigen Weg weist,der noch mit möglichst wenigen metaphysischen Annahmen belastet ist.Auf den ersten Blick muss der Ansatz sich nur auf die klassische Logikund einige idealisierende Annahmen stützen. Zu diesem Zweck wurdevon John Leslie Mackie die INUS-Konzeption entwickelt. Außerdem

Page 515: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

503 Thomas Bartelborth: Induktives Schließen

können wir natürlich auch diesen Ansatz mit einer gehaltvolleren Vor-stellung der zugrundeliegenden Kausalbeziehung denken.

Die INUS-Bedingung selbst scheitert aber leider an bestimmtenGegenbeispielen, die ich weiter unten erläutern werde. Daher musste sieweiterentwickelt werden zur sogenannten minimalen Theorie (MT), de-ren Faktoren dann die Ursachen von W darstellen. Zu diesem Zweckehaben die Autoren Baumgartner und Grasshoff (2004) ihr sogenanntesDoppelkonditional „“ eingeführt, das ich zunächst benutzen und an-schließend erläutern möchte. Es sei z.B. die folgende Konstellation eineminimale Theorie für W:

(MT1 für W) AX1 BX2 Y W,

dann ist mit dem Doppelkonditional gemeint, dass A, B und W einzelnekausale Faktoren seien und AX1 eine Konjunktion der Faktoren A undX1 (ein Faktorbündel), wobei X1 und X2 spezielle Variablen sind, die je-weils für eine Konjunktion weiterer Faktoren – also ein Faktorbündel –stehen (etwa X=CDE) und Y eine Variable ist, die für weitere Disjunk-tionen von weiteren Faktorbündeln steht, also: Y = X3 X4 ... Xn.

Mit „Faktoren“ sind hier Typen von Ereignissen gemeint, die mansich am anschaulichsten als Eigenschaften vorstellen kann, die Ereignis-sen zukommen und sie in Klassen einteilen. So werden die Ereignissesolcher Typen von Ereignissen durch „etwas in Brand setzen“ oder „et-was einem Feuer aussetzen“ zu beschreiben sein, und das würde danneinen derartigen Faktor darstellen. Oder auch die Einnahme einer be-stimmten Medizin könnte mehrere Ereignisse zu einem Typ von Ereignisbzw. einem Faktor zusammenfassen.

Die auftretenden Faktorbündel sind so zu verstehen, dass sie als Gan-zes jeweils eine komplette Ursache von W abgeben. Tritt also eine In-stanz von AX1 auf, so wird auch eine Instanz von W auftreten, sagt unse-re minimale Theorie. AX1 ist logisch gesehen eine hinreichende Bedin-gung für W, bzw., wenn eine Instanz der Faktoren AX1 auftritt, so ist dashinreichend dafür, dass auch eine Instanz von W auftritt. Dann nennenwir A eine Ursache von W, da sie als Teil eines solchen Bündels auftritt.Dabei werden im Folgenden „hinreichend“ und „notwendig“ (ganz em-piristisch) im rein extensionalen Sinne verstanden und nicht etwa mo-dal. „A ist notwendig für B“ heißt demnach, dass de facto zu jeder In-stanz von B eine entsprechende Instanz von A vorliegt. Ob sich dieserein extensionale Redeweise tatsächlich durchhalten lässt, werden wir al-lerdings weiter zu prüfen haben.

Page 516: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 504

Immerhin besagt schon die INUS-Bedingung, dass wir nur die not-wendigen Teile solcher Faktorenbündel als Ursachen ansehen dürfen.Wir könnten AX1 natürlich um weitere (an sich redundante) Faktoren Cergänzen zu ACX1 und das wäre immer noch hinreichend für W, ohnedass C einen Beitrag für W liefern müsste. Das soll vermieden werden.Also verlangt man, dass alle Faktoren des Bündels tatsächlich dafür not-wendig sind, damit das ganze Bündel hinreichend ist für W. Das ist dererste Minimalisierungsschritt, in dem die Bündel jeweils minimalisiertwerden (vgl. auch Baumgartner 2008b). Dabei kann ein Bündel z.B.auch in mehrere minimale Bündel zerfallen. Alle Faktoren eines solchenminimalen, aber für W hinreichenden Bündels stellen dann Ursachenvon W dar. Die Idee ist ähnlich wie in der Relevanzlogik. Es sollen nursolche Teile des Bündels gezählt werden, die in dem Sinne tatsächlich re-levant sind, dass das Bündel seine Arbeit ohne sie nicht mehr erfüllenwürde, nämlich zu einer Instanz von W zu führen. Ein Faktor C ist dem-nach nicht notwendig im Bündel ACX für W, wenn es Vorkommnissevon A~CX gibt, bei denen trotzdem eine Instanz von W auftritt, ob-wohl C nicht vorliegt und auch keine der alternativen Ursachen von Wgegeben ist.

In unserem Fall (MT1) muss ein A-Ereignis damit aber nicht in jedemFall zu einem W-Ereignis führen. Denken wir wieder an unser Beispieloben: A könnte ein brennendes Streichholz sein und W der Brand einerScheune. Sollte aber aus irgendwelchen Gründen kein Sauerstoff in derScheune sein, führt A nicht zu W. Wir müssen in unserer Darstellung da-für Vorsorge treffen, dass zu A weitere Randbedingungen X1 hinzutretenkönnen, damit W eintritt. Da wir oft jedoch nicht alle erforderlichenRandbedingungen kennen, unter denen A zu W führt, wird zu diesemZweck eine Variable X1 eingeführt, die für diese Randbedingungen (ichnenne sie auch die Kofaktoren von A) stehen soll. Es spricht natürlichnichts dagegen, mehrere Faktoren explizit anzugeben, wenn sie denn be-kannt sind, wie etwa: AX1=ADEFX1*. Dann stellen die Faktoren DEF(wenn sie wiederum notwendig sind, damit das ganze Bündel hinrei-chend bleibt) weitere Ursachen von W dar, die ihrerseits auf den Kofak-tor A angewiesen sind, um wirken zu können. Außerdem können mögli-cherweise weitere Kofaktoren X1* hinzukommen, die uns noch nicht be-kannt sind. Die Anforderung der Notwendigkeit innerhalb eines Bündelsist also die erste Minimalisierung von MT1. Sie besagt, dass immer nureine minimale Anzahl von Kofaktoren in diese Faktorenbündel aufge-nommen werden darf.

Page 517: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

505 Thomas Bartelborth: Induktives Schließen

Die weiteren Bündel in der MT1 (für W) wie BX2 stehen für alterna-tive Ursachen von W. BX2 ist ein weiteres minimales Bündel, das eben-falls für das Auftreten einer Instanz von W hinreichend ist. Demnachwäre auch B eine Ursache von W. Da wir jedoch oft nicht alle alternati-ven Ursachen explizit angeben können, wird die Variable Y stellvertre-tend für weitere alternative Ursachen eingeführt. Sie ist durchaus so ge-meint, dass nun alle alternativen Ursachen darunter subsumiert werden,und besteht somit in einer Disjunktion weiterer Faktorbündel. D.h. dasVorliegen zumindest eines der Faktorbündel AX1 oder BX2 oder einesder Bündel aus Y ist notwendig dafür, dass W auftritt, bzw. das Auftretenvon W ist hinreichend dafür, dass eine Instanz zumindest von einem derdrei Bündel vorliegt. Wie gesagt wird hier eine deterministische Kausal-struktur vorausgesetzt, bei der kein Ereignis ohne Ursache auftritt, d.h.,wenn W auftritt, dann muss auch eine der Ursachen vorgelegen haben,deshalb dürfen wir aus einer Instanz von W darauf schließen, dass eineInstanz von AX1 oder von BX2 oder von einem der Bündel in Y vorliegt.Die gesamte Disjunktion ist somit notwendig für W.

Da es leider noch einige problematische Fälle geben kann, auf die ichunten kurz eingehen werde, ist an dieser Stelle noch eine zweite Mini-malisierungsanforderung zu stellen (vgl. zum Folgenden: Baumgartner2008a-c, Baumgartner & Graßhoff 2004). Es sollen nämlich so wenigeDisjunkte wie möglich aufgenommen werden. Eine notwendige Bedin-gung bleibt natürlich notwendig, wenn ich sie durch weitere (eigentlichredundante) Disjunkte abschwäche, (anders ausgedrückt: wenn AX1 BX2 aus W folgt, d.h notwendig ist für W, so folgt auch AX1 BX2 CX3 aus W), aber wir wollen hier nur eine minimale Anzahl an Disjunk-ten für eine minimale Theorie zulassen, weil sonst zu viele Bündel als al-ternative Ursachen betrachtet würden. Angewandt auf unsere minimaleTheorie MT1 heißt das: Wäre AX1 Y allein bereits notwendig für W,hätten wir auf das Bündel BX2 in der minimalen Theorie verzichtet, weilwir sonst überflüssigerweise auch B zu einer Ursache von W erklärt hät-ten. Unsere neue minimale Theorie hätte dann die Gestalt: AX1 Y W. Da das in unserem Beispiel nicht der Fall ist, und es sich bei (MT1)um eine minimale Theorie handeln soll, ist BX2 demnach ein unverzicht-barer Bestandteil für die Notwendigkeit für W und B damit eine Ursachevon W. Das ist die zweite Minimalisierung innerhalb der minimalenTheorie, die dafür sorgen soll, dass nur die alternativen Ursachen, dietatsächlich in einer bestimmten Situation allein für das Auftreten von Wsorgen, in unserer minimalen Theorie aufgelistet werden. Bevor ich kurzdarauf eingehe, warum diese zusätzliche Minimalisierung erforderlich

Page 518: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 506

ist, die eine Verbesserung der INUS-Bedingung darstellt, möchte ich dielogische Struktur der minimalen Theorie noch etwas ausführlicher be-schreiben.

Die hier genannten Faktoren A, B,..., W kennzeichnen Typen von Er-eignissen. Es handelt sich so um Eigenschaften von Ereignissen, die vonbestimmten Ereignissen instantiiert werden können, und es ist deshalbsinnvoll von Ax zu sprechen. Dabei wird von bestimmten Ereignissen xausgesagt, dass sie die Eigenschaft A aufweisen, bzw. zur EreignisklasseA gehören. Das Doppelkonditional von MT1 stellt dann eine Abkürzungfür den folgenden komplexeren Sachverhalt dar:

(MT1) (1) x (Ax & X1x Bx & X2x Yx) y (Wy & xy & Kxy) &

(2) y (Wy) x ((Ax & X1x Bx & X2x Yx) & xy & Kxy)

Hier wird über Ereignisse x und y quantifiziert und im ersten Teil (1)verlangt, dass es zu jedem Ereignis x, das zumindest eines der Faktor-bündel AX1 oder BX2 oder eines der Bündel aus Y erfüllt, ein Ereignis yexistiert, das W instantiiert (kurz: ein W-Ereignis). Da es sich bei Ursa-che und Wirkung um verschiedene Ereignisse handeln soll, wird das aus-drücklich noch verlangt (xy). Andererseits sollen die Ereignisse aberauch in einem bestimmten Sinne raumzeitlich zusammengehören. Daherwird zusätzlich gefordert Kxy, was bedeuten soll, das x und y koinzidie-rende Ereignisse sein sollen. Darunter verstehen wir, dass sie räumlichund zeitlich benachbart stattfinden und nach Möglichkeit an ein unddemselben System auftreten. Das ist sicherlich eine etwas vage Bezie-hung, aber in der Praxis dürfte meistens klar sein, was damit gemeint ist.

Der erste Teil von (MT) besagt damit, dass jedes der Faktorbündelhinreichend für Wy ist, und für eine minimale Theorie wird zusätzlichnoch gefordert, dass die Bündel alle minimal hinreichend sind. Im zwei-ten Teil wird die Notwendigkeit ausgedrückt, wobei auch hier zusätzlichgefordert werden muss, dass nur die minimal notwendigen Disjunkteaufgeführt werden. Wenn also ein W-Ereignis y vorliegt, dann muss auchein Ereignis x vorliegen, das zumindest eines der möglichen Ursachen-bündel instantiiert. Die zweite Minimalisierung ist erforderlich, weil essonst irrelevante Disjunkte geben kann, die durch die minimale Theoriefälschlicherweise als Ursachen gezählt werden könnten (s.u.).

Eine kleine mögliche Komplikation möchte ich noch kurz erwähnen,ohne sie im Folgenden explizit umzusetzen. Ein Bündel AD muss inunserer minimalen Theorie zwar koinzidierend realisiert sein, aber das

Page 519: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

507 Thomas Bartelborth: Induktives Schließen

verlangt nicht zwingend, dass die beiden Kofaktoren Eigenschaften einund desselben Ereignisses sein müssen. Es könnte durchaus sein, dass essich um zwei Ereignisse x1 und x2 handelt und dann Ax1&Dx2 vorliegt.Allerdings wird man dafür vermutlich wieder fordern müssen, dass dieEreignisse x1 und x2 koinzidieren. Jedenfalls könnten in (MT1) so weite-re Variablen xi für weitere Ereignisse erforderlich werden. Für alle Ereig-nisse müsste dann jeweils gelten, dass sie koinzidieren und alle xi solltennatürlich von y verschieden sein. Da das die Darstellung hier weiter ver-komplizieren würde, verzichte ich aber darauf, noch weitere Variableneinzuführen (zumal wir für jede Variable X jeweils eine unbekannte aberendliche Zahl von zusätzlichen Variablen einführen müssten) und spre-che einfach davon, dass wir ein komplexeres Ereignis x haben, das alleEigenschaften eines Faktorbündels aufweist. Es dürfte auch einigerma-ßen klar sein, wie sich die allgemeinere Formulierung umsetzen ließe(vgl. dazu Baumgartner 2008a-c). Hilfreich könnte auch die Redeweisevon Systemen sein, so dass alle Ereignisse als Teile eines komplexen Sys-tems aufgefasst werden können. In der Praxis gehen an dieser Stelle typi-scherweise allgemeine Rahmenannahmen über Kausalzusammenhängeein, auf die kein Ansatz kausalen Schließens ganz verzichten kann. Wel-che Ereignisse dann überhaupt als Ursachen welcher anderen in Fragekommen und wann wir von koinzidierenden Ereignissen sprechen wol-len, fällt in den Bereich dieser Rahmenannahmen.

7.2.2 Empirische Vollständigkeit als ErsatzmodalitätBevor ich im nächsten Kapitel die minimale Theorie an einem problema-tischeren Beispiel erläutere, möchte ich noch auf eine wichtige zusätzli-che Forderung der Autoren der minimalen Theorie eingehen. Diese For-derung können wir als empirisches Vollständigkeitsprinzip bezeichnen.Das verlangt intuitiv, dass alle Konstellationen, die von der kausalenStruktur her möglich sind, auch tatsächlich realisiert sind. In Baumgart-ner und Grasshoff (2004) wird noch das etwas schwächer erscheinendeRelevanzprinzip genannt:

Empirisches Relevanzprinzip: Ein kausaler relevanter Faktor ist min-destens in einer Situation unverzichtbar für das Entstehen einer Wir-kung.

In Baumgartner (2008) wird das aber noch deutlicher formuliert zueinem richtigen Prinzip der empirischen Vollständigkeit und das scheintauch erforderlich, wollen wir zwischen akzidentellen Regularitäten undtatsächlich kausalen Zusammenhängen unterscheiden:

Page 520: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 508

Principle of Empirical Exhaustiveness (PEX): The collection of em-pirical data to be processed by CNA faces no practical limitationswhatsoever. All coincidences of the analyzed factors that are compat-ible with the causal structure regulating the behavior of these factorsare in fact observed.

Also kommen alle kausal möglichen Konstellationen der Faktoren, diezu einer Wirkung führen, in unserer Welt gemäß diesem Prinzip tatsäch-lich vor und werden auch von uns beobachtet. Das ersetzt praktisch diemodale Komponente, die wir in vielen anderen Kausalkonzeptionen vor-finden. Wenn etwa ein Faktor K z.B. als möglicher Kofaktor eigentlichverzichtbar ist, d.h., wir sagen würden, er ist nicht notwendig für dieWirkung W, dann wird hier gefordert, dass es tatsächlich zumindest einereale Situation gibt, in der die Wirkung W allein aufgrund der Kofakto-ren von K auftritt, ohne dass K instantiiert wurde. Wir müssen natürlichzugleich definitiv wissen, dass keine der alternativen Ursachen von Wvorliegen, sonst hilft uns das nicht weiter. Also sind zu jeder Wirkung Wz.B. alle minimalen Faktorbündel F für W tatsächlich zumindest einmalallein (ohne alternative Ursachen) realisiert – und wir wissen das. Auchfür die Begründung solcher Behauptungen sind wir normalerweise wie-der auf kausale Rahmenannahmen angewiesen.

Damit wird zugleich deutlich, welche Faktoren tatsächlich für dasAuftreten der Wirkung im modalen Sinn des Wortes notwendig sind.Wenn wir in modaler Redeweise sagen möchten, K wäre nicht notwen-dig für W, obwohl es zufälligerweise immer kurz vor W auftritt, dannwürden wir das wie folgt erklären: Es wäre durchaus möglich, dass Wauch ohne K realisiert würde, etwa in einem etwas anderen Weltverlaufoder in einer benachbarten möglichen Welt. Im Rahmen der minimalenTheorie wird schlicht verlangt, dass alle solchen möglichen Situationenbereits in der aktualen Welt realisiert sind und uns bekannt sind. Wirmüssen dann nicht mehr auf andere mögliche Welten ausweichen, weilalle physikalisch möglichen Situationen in unserer Welt schon realisiertsind und wir daher in unserer Welt schon erkennen können, welche Si-tuationen überhaupt physikalisch möglich sind. Damit entgehen wirzwar dem Problem, auf genuin modale Ausdrücke in unserer Theorie zu-rückgreifen zu müssen, haben aber den Preis zu bezahlen, dass wir diegenannte Idealisierung vornehmen müssen. Man könnte behaupten, derAnsatz würde dadurch zu einer implizit modalen Konzeption, denn diestarke Idealisierung ersetzt gerade die modale Komponente, auf die wirin Kausalkonzeptionen sonst immer angewiesen sind.

Page 521: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

509 Thomas Bartelborth: Induktives Schließen

So treten z.B. immer wieder die gelben Finger vor dem Lungenkrebsauf, aber das Vollständigkeitsprinzip verlangt, dass es zumindest eine Si-tuation gibt und diese uns auch bekannt ist, in der der Lungenkrebs oh-ne die gelben Finger vorkommt. Die liefert uns dann den entscheiden-den Hinweis darauf, dass die gelben Finger nicht kausal relevant für denLungenkrebs sind. Wir sind somit nicht auf mehr die modale Redeweiseangewiesen: Würden wir die gelben Finger verhindern, würde sich dieWahrscheinlichkeit für einen Lungenkrebs trotzdem nicht ändern. Stattalso zu verlangen, dass die Regularität, die (MT1) ausdrückt, in allenmöglichen Situationen (Welten) Bestand hat (bzw. einen notwendigenCharakter hat), wird hier einfach verlangt, dass die kausal möglichen Si-tuationen tatsächlich alle in unserer Welt realisiert sind und damit(MT1) in allen kausal möglichen Situationen gilt. Natürlich müssen wirzusätzlich noch um den einen Fall desjenigen ohne gelbe Finger, derdann einen Lungenkrebs entwickelte, Bescheid wissen und müssen nochwissen, dass keine der alternativen Ursachen vorlag, sondern dass es al-lein das vorgängige Rauchverhalten war, dass hier als mögliche Ursachein Frage kommt.

Das ist eine sehr starke Anforderung, um ohne weitere modale An-nahmen auskommen zu können. Wenn die Vertreter der minimalenTheorie z.B. darauf hinweisen, dass der Zugang zu Kausalbeziehungenüber Bayessche Netze auf solche idealisierenden Annahmen wie die Gra-phentreue der Kausalbeziehungen angewiesen ist, sollten sie zugleich zu-geben, dass sie mit der Annahme des Determinismus, der Annahme, dierelevanten Größen alle zu kennen und über alle ihre möglichen Konstel-lationen und deren Auswirkungen bereits Daten zu besitzen, ebenfallsstarke Idealisierungen voraussetzen.

Wenn wir ohne (PEX) auskommen wollten, müssten wir die Kondi-tionale verstärken und zumindest mit kontrafaktischen Konditionalenarbeiten. Statt der minimalen Theorie AX Y W könnten wir dannetwa verlangen, dass zwei kontrafaktische Konditionale gelten sollten:

(1) Für alle Ereignisse x gilt: Wenn x die Eigenschaft AX Y aufwie-se, dann gäbe es ein von x verschiedenes Ereignis y, das mit x koinzi-dieren würde und die Eigenschaft W besäße.(2) Gäbe es kein Ereignis x, das die Eigenschaft AX Y aufwiese,dann gäbe es auch kein von x verschiedenes Ereignis y, das mit xkoinzidieren würde und die Eigenschaft W besäße.

Man müsste sich überlegen, wie wir das mit Hilfe von möglichen Weltenbeschreiben könnten. Eine Formulierung könnte etwa sein:

Page 522: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 510

(W1) In allen nächstgelegenen (und gleichweit von unserer Welt ent-fernten) Welten, in denen ein Ereignis x auftritt, das die Eigenschaf-ten AX Y aufweist, gibt es ein Ereignis y, das mit x koinzidiert unddie Eigenschaft W besitzt.(W2) In allen nächstgelegenen (und gleichweit von unserer Welt ent-fernten) Welten, in denen kein Ereignis x auftritt, das die Eigenschaf-ten AX Y aufweist, gibt es kein Ereignis y, das mit x koinzidiertund die Eigenschaft W besitzt.

So ließen sich vielleicht kontrafaktische Anforderungen für Kausalbezie-hungen auf der Ebene der Typen von Ereignissen formulieren. Kehrenwir aber nun zur klassischen Darstellung im Rahmen unserer Idealisie-rung (PEX) zurück und überprüfen, welche Probleme dafür weiterhinauftreten können.

Schauen wir uns dazu weitere Beispiele an. Nehmen wir an, jemandstellt die Hypothese H auf, dass das Aufessen von Korken aus einerWeinflasche zu einem Verkehrsunfall in der Nähe führt. Nehmen wiraußerdem an, dass nur zwei Leute bisher einen Korken verspeist haben(etwa aufgrund einer verlorenen Wette) und dass sich in beiden Fällentatsächlich ein Verkehrsunfall in der Nähe ereignete. Ähnliche Regulari-täten finden wir leicht zwischen Eigenschaften mit sehr wenigen Instan-zen und solchen mit recht vielen Instanzen. Was benötigt ein Regulari-tätstheoretiker dann an Daten, um zu erkennen, dass der Unfall nichtdurch den Korken verursacht wurde? Es würde noch nicht einmal genü-gen, wenn viele andere Leute nun Korken äßen und dabei würden keineUnfälle auftreten (D). In Baumgartner (2008) wird das etwa für dieHypothese suggeriert, dass das Rauchen einer Havanna durch einen See-mann zum Untergang der Titanic geführt hat. Doch die Vertreter unse-rer Hypothese H könnten behaupten, dass das Korkenessen nur in Ver-bindung mit bestimmten Kofaktoren zu Verkehrsunfällen führt. Die wa-ren in diesen anderen Fällen eben nicht gegeben. Ohne weitere kausaleRahmenannahmen käme nun eine unüberschaubar große Anzahl anmöglichen Faktoren als Kofaktoren in Frage, und wir hätten nur wenigeMöglichkeiten, sie empirisch zu testen, weil es nur so wenige Korkenes-ser gibt. Das Datum D hilft uns allein also noch nicht weiter.

Wir müssten zugleich darüber Bescheid wissen, welche Faktoren alsKofaktoren in Frage kämen (also ebenfalls als kausal relevante Faktorenfür Unfälle) und müssten dann noch wissen, dass die in bestimmten Fäl-len des Korkenessens alle instantiiert waren und trotzdem das Korkenes-sen keinen Unfall nach sich zog. Damit benötigen wir also bereits eineganze Menge an kausalem Wissen, um solche Schlüsse ziehen zu kön-

Page 523: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

511 Thomas Bartelborth: Induktives Schließen

nen. Haben wir ein derartiges Wissen über mögliche Ursachen von Ver-kehrsunfällen, sagt es uns aber auch sogleich, dass das Korkenessen an-sonsten unbeteiligter Personen keinen Einfluss auf den Unfall hat. DieRegularitätsanalyse ist in solchen Fällen daher kaum von großem Nut-zen, zumal es viele solcher zufälligen Regularitäten geben kann, die wirnormalerweise nur links liegenlassen, weil wir natürlich schon guteGründe für unsere Annahme haben, dass es sich nicht um Kausalbezie-hungen handelt. Auf dieses kausale Hintergrundwissen sind wir immerangewiesen, wenn wir nach weiteren genauer bestimmten Kausalbezie-hungen suchen. Nancy Cartwright fasst das sehr schön in dem Sloganzusammen: „No causes in, no causes out.“

Einen anderen Typ von Regularität, der keine Kausalbehauptungnach sich ziehen sollte, finden wir in den Fällen von gemeinsamen Ursa-chen zweier Eigenschaften. Dazu ein Beispiel: Die Vertreter der soge-nannten konstitutionellen Hypothese behaupteten, dass es wohl be-stimmte Gene g wären, die zum einen für unsere Suchtanfälligkeitgegenüber Nikotin verantwortlich wären und somit das entsprechendeRauchen auslösen, aber zugleich unsere Anfälligkeit für Lungenkrebs be-fördern. Hätten sie Recht, wäre es natürlich unsinnig, sich das Rauchenzu versagen, denn das wäre nicht die Ursache für unseren Lungenkrebs.Nehmen wir das einmal an und nehmen weiterhin an, es wäre eine klareRegularität zu beobachten, nach der auf das Rauchen (zumindest am sel-ben System, wenn auch nicht in raumzeitlicher Nähe) dann später Lun-genkrebs auftritt. Regularitätsvertreter würden also vorschnell undfälschlicherweise dazu neigen, das Rauchen als Ursache des Lungenkreb-ses zu identifizieren (unsere falsche Hypothese T).

Welche Daten benötigen sie, um den Fehler zu vermeiden? Dass auchNichtraucher Krebs bekommen, ist natürlich kein Problem für T, dennes gibt immer alternative Ursachen. Das nehmen Baumgartner undGrasshoff allgemein an, um mit Hilfe dieser Annahme die Asymmetrieder Kausalbeziehung zu erhalten. Wenn hingegen einige Raucher keinenKrebs bekommen, so könnte das wieder an den fehlenden Kofaktorenliegen. Also benötigen wir wiederum eine Liste aller möglichen Faktorenund müssen spezielle Instanzen finden, in denen die Gene g vorliegenund zu Lungenkrebs führen, aber nicht zum Rauchen führen, weil dafürbestimmte Kofaktoren fehlen. In diesem Fall müssten wir also wohl auchnoch alle genetischen Ausstattungen vieler Menschen kennen und umihre potentielle Gefährlichkeit für Lungenkrebs wissen, um T widerle-gen zu können. Das klingt recht utopisch. In jedem Fall müssen wir zu-nächst einmal Einiges an Hintergrundwissen einbringen, ehe wir sinn-

Page 524: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 512

voll eine Regularitätsanalyse anwenden können. Wir müssen schon wis-sen, dass unsere Daten vollständig sind. Wir benötigen eine Liste allerrelevanten Faktoren und müssen Koinzidenztabellen von Daten haben,von denen wir wissen, dass alle kausal möglichen Konstellationen darinauch vorkommen und keine solche Konstellation nur zufälligerweise bis-her noch nicht aufgetreten ist.

Neben der Gefahr der vorschnellen Annahme von Kausalbeziehun-gen gibt es natürlich auch das Risiko, solche zu übersehen. Nehmen wiran, A sei kausal relevant für W, aber die dafür erforderlichen KofaktorenBCD lägen jeweils nur in wenigen Fällen vor. Ohne eine Vorauswahl zutreffen, stehen wir dann vor einer großen Zahl von Faktoren und Koin-zidenzen und der Zusammenhang zwischen A und W kann nur auffal-len, wenn wir tatsächlich für alle kausal relevanten Faktoren alle Kombi-nationen kennen. Insbesondere sind es nur wenige Fälle, in denen A undW koinzidieren. Sollten wir realistischerweise davon ausgehen, bestimm-te Faktoren nicht zu kennen bzw., dass uns bestimmte mögliche Kombi-nationen nicht bekannt sind, werden wir unter den möglicherweise vie-len Fällen, in denen A ohne W und in denen W ohne A auftritt, den we-nigen Fällen kaum Beachtung schenken, in denen A und W gemeinsamauftreten. Für riesige Koinzidenztabellen fehlen uns sowieso die Datenund die Möglichkeiten, sie auszuwerten. Für n Faktoren sind bis zu 2n

Kombinationen möglich. Ohne eine Vorauswahl der vermutlich relevan-ten Faktoren und der vermutlichen Wirkungen zu treffen, ist das alsokaum ein realistisches Verfahren. Doch im Normalfall können wir diesesHintergrundwissen einsetzen und haben dann nur bestimmte Kombina-tionen zu überprüfen. Nur rein theoretisch bietet die recht idealisierteForderung (PEX) den Hintergrund für unser kausales Schließen. In derPraxis geht es nicht, ohne die entsprechenden kausalen Rahmenannah-men. Immerhin können wir wenigstens in manchen Fällen anhand ge-zielter Experimente herauszufinden versuchen, ob bestimmte Faktoren-kombinationen auftreten können oder nicht.

Man könnte für das Prinzip (PEX) auch so argumentieren, dass es fürjedes Verfahren kausalen Schließens unmöglich wird, die korrekten Kau-salzusammenhänge zu ermitteln, wenn die Natur sie systematisch voruns verbirgt oder unsere Daten systematisch unvollständig sind. Aller-dings ist das zumindest noch eine Frage für die Praxis, wie unvollständigdie Daten sein dürfen, so dass wir immer noch bestimmte kausaleSchlüsse ziehen können. (PEX) stellt dagegen schon eine recht maximaleAnforderung für das kausale Schließen dar (vgl. auch Kelle 2003).

Page 525: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

513 Thomas Bartelborth: Induktives Schließen

Durch (PEX) lassen sich also die naheliegenden Einwände zurück-weisen, die darauf beruhen, es könnten in (MT1) vielleicht nur akziden-telle Regularitäten (zufällige Zusammentreffen) beschrieben werden, diewomöglich nur aus wenigen Einzelfällen bestehen und andere Koinzi-denzen sind bisher zufälligerweise eben noch nicht aufgetreten. Dannkönnte eine Regularität im Sinne von (MT1) schon für kurzzeitig auftre-tende Muster vorliegen, und uns zu vorschnellen Kausalschlüssen verlei-ten, die durch neue Daten schnell widerlegt werden könnten. Das wirddurch das empirische Vollständigkeitsprinzip ausgeschlossen. Da wiraber in der Praxis tatsächlich nie sicher wissen, ob alle kausal möglichenSituationen schon realisiert und von uns registriert wurden, sind wirdort immer auf bestimmte modale bzw. kausale Vermutungen darüberangewiesen, was sonst noch möglich oder unmöglich ist.

Das ist auch nicht verwunderlich, ist doch Kausalität auch auf derEbene der Typen ein modaler Begriff. Das findet sich in unserem Ver-ständnis entsprechender Kausalaussagen wieder: Man will mit einerKausalbehauptung wie „Schokolade verursacht Kopfschmerzen“ zumAusdruck bringen, bzw. etwas darüber aussagen, was in den Fällen pas-sieren würde, in denen jemand Schokolade essen würde oder in denen ersie weglassen würde. Damit sage ich normalerweise nicht nur, dass defacto immer nach dem Schokoladengenuss ein Kopfschmerz aufgetretenist, sondern dass der Schmerz auch aufgetreten wäre, hätte jemand beieiner anderen Gelegenheit ebenfalls Schokolade gegessen. So behaupteich also gleich etwas für kontrafaktische Situationen. Das gilt auch inder anderen Richtung. Hätte ich bei einer bestimmten Gelegenheit dieSchokolade weggelassen, so wären die Kopfschmerzen nicht aufgetreten.Ganz im Sinne unserer kontrafaktischen Deutung der minimalen Theo-rie. Es muss vor allem bestimmte Situationen geben, in denen der Scho-koladengenuss einen Unterschied bezüglich der Kopfschmerzen machenwürde.

Das war schon die eine von Humes Intuition zur Kausalität. Dahintersteht bei uns heute die Idee, dass bestimmte natürliche Eigenschaftender Ereignisse diesen Unterschied mit sich bringen und somit diese Wir-kungen auch in kontrafaktischen Situationen hervorbringen würden(vgl. Esfeld 2008 und 2008a). Im Ansatz der minimalen Theorien wirddiese modale Intuition also nur in dem Vollständigkeitsprinzip „ver-steckt“, das praktisch dafür sorgt, dass unsere Regularitäten statt nur ei-nige wenige zufällig aufgetretene Situationen schon alle kausal mögli-chen Welten abdecken und so alle möglichen Wirkungen einer Eigen-schaft tatsächlich zu beobachten sind. So findet sich die Modalität in

Page 526: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 514

den aktuellen Situationen wieder. Das ist wiederum ein Fall von kausa-lem Hintergrundwissen, das wir voraussetzen müssen, um kausal schlie-ßen zu können. In der Praxis werden wir überlegen müssen, welche Er-klärung jeweils die bessere ist. Einerseits können wir schließen, dass Awohl eine Ursache für W sein muss, weil A bisher immer vor W aufge-treten ist, andererseits mag auch unsere beste Erklärung für diese Regu-larität die sein, dass es sich nur um einen Zufall handelt, dass wir alsobisher noch nicht genügend Situationen beobachtet haben, um solche zufinden, in denen A auch ohne W vorkommt. Wir müssen uns wiederumzwischen konkurrierenden Erklärungen entscheiden. Damit wird zu-gleich deutlich, dass solche Unvollständigkeiten typische Unterminiererfür unser kausales Schließen anhand der minimalen Theorie kennzeich-nen.

Schließlich wirkt der Regularitätsansatz somit nicht mehr ganz so re-duktiv, wie er auf den ersten Blick erschien. Nehmen wir die Minimali-sierungsbedingungen und die Vollständigkeitsbedingung zusammen,können wir das auch so ausdrücken: Ein Faktor A ist dann Ursache vonW, wenn A ein kausal notwendiger Teil einer kausal hinreichenden Be-dingung für W ist, die kausal nicht redundant ist in einer Disjunktionvon kausal notwendigen Bedingungen für W. Durch die Vollständigkeits-bedingung kommt diese Art von kausaler Modalität ins Spiel und wirdin meiner Formulierung nur etwas expliziter gemacht. Wie gesagt, dasist nicht verwunderlich und auch kein anderer Ansatz kann die Kausal-beziehung auf kausal unverdächtige Begriffe reduzieren. Die minimaleTheorie gibt uns schon wesentliche Einsichten in die Bedingungsstrukturvon deterministischen Kausalbeziehungen und die sind wiederum dasVorbild auch für die probabilistischen Kausalvorstellungen. Sie leitenweiterhin unsere Ermittlung von Kausalbeziehung etwa durch Experi-mente an, aber sie ist nicht wirklich reduktiv in einem starken Sinne.

Außerdem ist die minimale Theorie auch nicht reduktiv in dem Sin-ne, dass sie uns nicht erklärt, was die Kausalbeziehung ist bzw., was dazuführt, dass eben ganz bestimmte Kombinationen von Faktoren auftretenkönnen und andere nicht. Es wird einfach eine bestehende Kausalstruk-tur vorausgesetzt und die Forderung, ein notwendiger Bestandteil einerhinreichenden Bedingung zu sein, gibt uns nun nur an, wie wir diesekausalen Zusammenhänge aufspüren können. Sie erklärt aber nicht wei-ter, welche Elemente in unserer Welt wie beschaffen sein müssen, umsolche Strukturen zu generieren. Dabei denke ich an Überlegungen, wiewir sie z.B. bei Esfeld (2007, 2008, 2008a oder 2010) finden. Dort wirderläutert, inwiefern bestimmte grundlegende Dispositionen für das Auf-

Page 527: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

515 Thomas Bartelborth: Induktives Schließen

treten einer zugrundeliegenden Kausalstruktur in unserer Welt verant-wortlich sein können; doch das ist nicht das Thema der Vertreter derminimalen Theorie und muss es natürlich auch nicht sein. Man solltedann nur nicht davon sprechen, dass man Kausalität auf logische Bezie-hungen reduziert hätte, denn die entscheidende Voraussetzung der mini-malen Theorie ist schon, dass die kausale Struktur unserer Welt bereitsgegeben ist und sich dann in all ihren Möglichkeiten in unseren Datenmanifestiert. In solch einer stark idealisierten Welt können wir sie durchdie logischen Zusammenhänge in den Daten womöglich wieder erschlie-ßen, erklären dabei aber natürlich nicht, was die Grundlage für dieseKausalstruktur ist. Es handelt sich also um eine epistemische Theoriekausalen Schließens und nicht um eine ontologische oder naturphiloso-phische Theorie der Kausalität. Weitere grundlegende Probleme für die-sen Ansatz werden sich vor allem für den Übergang zu singulären Kau-salbeziehungen zeigen.

7.2.3 Ein Problem für die INUS-Theorie

Betrachten wir nun einen Problemfall für jede Regularitätstheorie undauch für probabilistische Ansätze, nämlich den Fall von Common-Cause-Strukturen, bei denen wir Regularitäten bzw. Korrelationen finden, diejedoch keine kausalen Beziehungen darstellen. Die stellen ein besonde-res Problem für die INUS-Theorie dar, weshalb die INUS-Theorie auchnicht mehr weiter verfolgt wurde. Nehmen wir an, dass Rauchen (R) de-terministisch zu Lungenkrebs (L) und gelben Fingern (G) führt (Kausal-struktur: GRL) und lassen alternative Ursachen für den Lungen-krebs einmal außen vor. Weiterhin können die gelben Finger auch durchAnmalen (A) entstehen (also ist die ausführlichere Kausalstruktur:AGRL), dann könnte man auf die Idee kommen, dass die folgen-de Theorie minimal sei:

(T1) (non-A)G R L,

denn sowohl R, als auch (non-A)G sind minimal hinreichend für L. Daskönnen wir uns in einer Tabelle ansehen:

Page 528: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 516

A G ~AG R L Schlussfolgerungen

S1 1 1 0 1 1 zeigt, dass R allein hinreichend für L ist

S2 1 1 0 0 0 zeigt, dass R notwendig ist für L (mit S4)

S3 0 1 1 1 1 zeigt, dass (~A)G hinreichend ist für L

S4 0 0 0 0 0 (~A) ist notwendiger Teil von (~A)G für L

Tabelle 6.1: Ein Problemfall für die INUS-Bedingung

Liegt kein Anmalen vor und treten trotzdem gelbe Finger auf, so folgtnämlich aus unserer Kausalstruktur, dass in jedem Fall R gilt und dannfolgt aus dem angenommenen Determinismus, dass auch L instantiiertsein muss. Also dürfen wir aus (non-A)G auf das Vorliegen von L schlie-ßen, denn in allen kausal möglichen Situationen wird mit einer Instanzvon (non-A)G auch eine Instanz von L vorliegen. Damit liefert (T1) zu-mindest eine INUS-Bedingung für L und im Rahmen der INUS-Konzep-tion müssten wir also non-A fälschlicherweise als kausal relevant für Lbetrachten.

Aber (non-A)G und R sind in einer Disjunktion nicht zusammen mi-nimal notwendig für L, d.h., (T1) ist keine minimale Theorie. Das er-kennt man so: Wenn (non-A)G instantiiert ist, so muss in jedem Fallauch R instantiiert sein. Oder anders ausgedrückt: Wenn L instantiiertist, so muss auf jeden Fall R vorliegen, d.h., R ist in jedem Fall notwen-dig für L und gehört daher in eine minimal notwendige Bedingung für Lhinein. In unserem Beispiel muss jemand geraucht haben, um Lungen-krebs bekommen zu können. Das Rauchen ist also in jedem Fall notwen-dig für den Krebs. Ob aber A oder (non-A) vorliegen, ist keineswegs aus-gemacht, wenn L der Fall ist, und damit muss auch nicht zwangsläufig(non-A)G vorliegen. Lungenkrebspatienten müssen nicht in jedem kausalmöglichen Fall auf das Gelb-Anmalen ihrer Finger verzichtet haben. Diekorrekte minimale Theorie wäre also:

(T2) R L,

Es zeigt sich so eine gewisse Asymmetrie zwischen (non-A)G und R. Esmuss in jeder Situation, in der L auftritt, auch R gegeben sein, aber nichtunbedingt (non-A)G. Das Vollständigkeitsprinzip sorgt dafür, dass sichtatsächlich solche Situationen finden lassen, in denen zwar eine Instanzvon R auftritt, aber keine von (non-A)G. Es findet hier zusätzlich einAnmalen der Finger statt. Die Finger werden dann in überdeterminierterWeise gelb. Damit können wir auf den Faktor (non-A)G verzichten. Ermuss nicht vorliegen, wenn L auftritt. Es bleibt als minimale Theorie nur

Page 529: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

517 Thomas Bartelborth: Induktives Schließen

(T2) übrig, die die Ursachen von L in der Tat korrekt benennt. Das istder entscheidende Vorteil des zweiten Minimalisierungsschrittes, der esgestattet, Scheinursachen von L wie (non-A)G auszuschalten.

In unserer Tabelle fehlt eine Zeile, in der (non-A)G vorliegt, aber Rnicht und trotzdem L auftritt. Das Vollständigkeitsprinzip besagt dann,dass diese Zeile nicht auftreten kann. Das zeigt für uns an, dass (non-A)G allein keine alternative Ursache von L ist und entsprechend auchnicht zu den minimal notwendigen Bedingungen für L gehört.

Das entsprechende etwas komplexere „Manchester Hooters“ Beispielwird bei Mackie (1974) vorgestellt und bei Baumgartner & Grasshoff(2004) ausführlich diskutiert. Es hat dazu geführt, dass die INUS-Theo-rie nicht mehr weiter verfolgt wurde. Außerdem verlangen die Autorennoch, dass jede minimale Theorie alternative Ursachen aufweisen muss.Dann müssten wir (T2) noch um weitere Ursachen für L erweitern. Dashat vor allem die Aufgabe, eine Asymmetrie zwischen den beiden Seitendes Doppelkonditionals aufzuzeigen. Wir verzichten hier darauf zuguns-ten der besseren Übersichtlichkeit.

Allerdings könnte es passieren, dass es keine eindeutig bestimmte mi-nimale Theorie mehr gibt. Nehmen wir an, dass das Rauchen R zwin-gend das Anmalen der Finger verhindern würde. Das ist in unserem Falletwas unrealistisch, aber solche Kausalstrukturen sind natürlich möglich.Unsere Raucher haben die ökonomische Disposition sich in jedem Falldas Gelb-Anmalen der Finger zu ersparen, da sie schließlich schon durchdas Rauchen gelb gefärbt werden. R verursacht also zusätzlich (non-A).Dann verschwindet die obige Asymmetrie zwischen R und (non-A)Gund wir erhalten eine zweite minimale Theorie:

(T3) (non-A)G L,

denn sobald jetzt L instantiiert wurde, so muss auch (non-A)G vorhan-den sein. Damit liefert die Konzeption der minimalen Theorie für diesenFall keine eindeutigen Ergebnisse mehr oder schlimmer noch, die mini-male Theorie (T3) stellt eine Scheinursache als Ursache dar. Allgemeinkönnen solche Zyklen in der Kausalstruktur wie in unserem Beispielzwischen A, G und R gefährlich werden für die Analyse von Kausalbe-ziehungen. Vielleicht muss man hier weitere Anforderungen an die zuanalysierenden Kausalbeziehungen stellen, um zu eindeutigen Ergebnis-sen zu kommen.

In dem Beispiel könnte man auch sagen, dass es ein intuitives Pro-blem von (T3) ist, dass hier ein negativer Faktor (non-A) – also die Ab-wesenheit einer Instanz von A – als Ursache zugelassen wird. Das ist si-cher nicht unproblematisch, aber manchmal reden wir so. Wir sagen et-

Page 530: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 518

wa, meine Blumen im Vorgarten sind vertrocknet, weil meine Nachba-rin, die sich für meine Urlaubszeit verpflichtet hatte, sie zu gießen, esdann leider nicht getan hat. Die Abwesenheit des Gießens durch meineNachbarin war also die Ursache für das Vertrocknen. Andererseits hätteauch Angela Merkel meine Blumen im Vorgarten gießen können. Trotz-dem würden wir kaum sagen wollen, dass das Nichtgießen durch AngelaMerkel die Ursache für das Eingehen meiner Blumen sei, selbst wenn dieebenfalls in meiner Nachbarschaft gewohnt hätte. Wenn ich ihr deshalbeine Rechnung über meine eingegangenen Blumen präsentieren würde,wäre sie vermutlich sehr irritiert. Meine Nachbarin steht da schon mehrin der Pflicht, die Sache wiedergutzumachen. Hier scheinen plötzlichrecht seltsame und eher pragmatische Aspekte in die Frage nach einerKausalbeziehung durch negative Faktoren hineinzuspielen, wie die be-sondere moralische Verpflichtung der Nachbarin. Den Debatten um ne-gative Faktoren kann ich hier nicht nachgehen, da sie zu einer weiterge-henden umfangreichen Diskussion gehören, was man unter Kausalität zuverstehen hat (vgl. die Diskussion negativer Faktoren in Baumgartner2007, Kap. 3.6.4).

Die Konstrukteure der minimalen Theorie versuchen aus der rechtintuitiven Konzeption, die Ursachen und ihre Kofaktoren so übersicht-lich zusammenstellt, nun eine Theorie kausalen Schließens zu gewinnen.Aber auch hier sind wir wieder auf weiteres kausales Hintergrundwissenangewiesen. Bevor wir uns den Schlüssen auf Kausalbeziehungen auf derEbene der Typen zuwenden, möchte ich zunächst auf die wichtige Pro-blematik der Schlüsse auf singuläre Kausalbeziehungen eingehen.

7.2.4 Singuläre Verursachung

Ein erster kausaler Schluss, den wir nun untersuchen, geht von der gene-rischen Ebene der Kausalität zur singulären. Wir möchten bestimmte Er-eignisfolgen als kausale Instanzen unserer bekannten Kausalgesetzeinterpretieren und hoffen dabei, das aus der minimalen Theorie Gelern-te hilfreich einsetzen zu können. Nehmen wir an, wir kennen schon diekausalen Beziehungen auf der Ebene der Typen von Ereignissen und ihreminimalen Theorien und möchten nun ermitteln, welche singulärenkonkreten Ereignisse jeweils in der Ursache-Wirkungs-Beziehung stehen.Das ist für jede Kausaltheorie ein entscheidender Schritt, denn dabeigeht es um wichtige Anwendungen der Theorie. Letztlich möchten wirwissen, ob es sich für Fritz lohnt, das Rauchen aufzugeben, ob Franz derVerursacher eines konkreten Unfalls war etc.

Page 531: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

519 Thomas Bartelborth: Induktives Schließen

Die Frage nach der singulären Kausalität scheint auf den ersten Blickmit den bisherigen Erkenntnissen leicht zu beantworten zu sein, erweistsich aber dann doch als durchaus problematischer, als die Vertreter desAnsatzes sich das denken. Sie hoffen, sie könnten die kausale Relevanzauf der generischen Ebene relativ elementar auf die Instanzen der jewei-ligen Faktoren mit Hilfe des folgenden Schemas übertragen:

Singuläre Verursachung (SV)Ein Ereignis a ist Ursache eines Ereignisses b gdw.(1) a ist Instanz von A und b ist Instanz von B,(2) A ist Ursache von B im Sinne der minimalen Theorie und die

Kofaktoren von A für B werden ebenfalls von a instantiiert,(3) a ist ungleich b und(4) a und b koinzidieren, d.h., sie treten raumzeitlich benachbart

auf.

Dabei stehen Kleinbuchstaben immer für konkrete (singuläre) Ereignisseund Großbuchstaben für Ereignistypen. Dann soll (SV) zusammen mitdem angenommen Determinismus dafür sorgen, dass a Ursache von bsein muss, aber so leicht gelingt der Schritt auf die Ebene der konkretenEreignisse leider nicht. Nehmen wir einmal an, dass wir in unmittelbarerNachbarschaft zwei Stellen im Gras entzünden. Das seien die Ereignissea und a*, die im übrigen dieselben Faktoren insbesondere A (Gras nebenBusch entzünden) instantiieren sowie die erforderlichen Kofaktoren.Das Feuer von a entzündet dann Busch 1 und das von a* Busch 2, die di-rekt benachbart liegen. Diese Ereignisse nennen wir b und b* und auchsie sollen dieselben Faktoren insbesondere B (Busch brennt) instantiie-ren. Also verursacht a nun b und a* verursacht b*. Da alle Ereignisseraumzeitlich benachbart sind, müsste nach (SV) aber ebenfalls gelten: averursacht b* und a* verursacht b, was jedoch tatsächlich nicht der Fallist. (SV) liefert also falsche singuläre kausale Zusammenhänge für diesenFall.

Die korrekten Zusammenhänge würden hier vermutlich besser durchdie Prozesstheorie der Kausalität oder einen kontrafaktischen Ansatz be-schrieben. Die Prozesstheorie würde den Prozess nachzeichnen, der je-weils von a nach b und von a* nach b* geführt hat, und könnte so dierichtigen Ursachen für die beiden Ereignisse b und b* finden. Im kontra-faktischen Ansatz könnte man darauf hinweisen, dass wenn a nicht statt-gefunden hätte auch b so nicht stattgefunden hätte. Der Busch wäre viel-leicht später durch die Nähe zu dem anderen Busch abgebrannt, aberdas wäre nicht das Ereignis b gewesen, da das früher stattgefunden hät-

Page 532: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 520

te. In der nächsten Welt, in der a nicht vorkommt, wäre also auch bnicht aufgetreten. Aber trotzdem hätte weiterhin b* stattgefunden, da b*schließlich durch a* verursacht wurde, das weiterhin stattgefunden hät-te. Auch eine Interventionstheorie der Kausalität, die ich weiter untenpräsentieren werde, könnte das entsprechend auflösen.

Um mit Hilfe der minimalen Theorie zu singulären Kausalbeziehun-gen zu gelangen, sind jedenfalls weitere Annahmen nötig. Wir müssenetwa ausschließen, dass es entsprechende kausale Paare in der Nachbar-schaft gibt, mit denen ein solcher Partnertausch möglich ist. Das ist eintypisches Merkmal der eliminativen Induktion. (SV) ist nur anwendbar,wenn wir solche benachbarten Ereignispaare als typische Unterminierervon (SV) bzw. die entsprechenden Kausalhypothesen ausschließen kön-nen.

Übrigens finden wir an dieser Stelle auch die sogenannten „Preempti-on“-Probleme wieder. Das sind Fälle, in denen eine tatsächliche UrsacheU nicht unbedingt notwendig für das Auftreten der Wirkung W ist, weileine Ersatzursache E zur Stelle ist, die einspringt, falls U ausfällt unddann ihrerseits W hervorruft. Nehmen wir dafür ein einfaches Beispielher: Schütze 1 schießt auf den Diktator (U) und wird ihn dadurch töten(W). Kurz danach schießt aber ebenfalls Schütze 2 mit derselben Präzi-sion (E) und würde den Diktator töten, wenn er nicht schon tot wäre.Dann haben wir das Problem für alle Ansätze zur Kausalität, die behaup-ten, dass Ursachen vor allem ein Unterschiedsmacher für das Auftretender Wirkung sind, dass U eigentlich für den Tod des Diktators keinenUnterschied bedeutet, denn schließlich sorgt auch E zuverlässig für W.Was ein solcher Unterschiedsmacher ist, wird dabei in den verschiede-nen Ansätzen zur Kausalität unterschiedlich beantwortet. Die kontrafak-tischen Ansätze behaupten, dass U einen Unterschied für W macht,wenn in der nächsten möglichen Welt, in der U nicht vorliegt, dannauch W nicht vorliegt. In der minimalen Theorie wird dagegen für einenUnterschied verlangt, dass U ein notwendiger Teil einer hinreichendenBedingung ist, d.h., dass wir aus der Bedingung nicht mehr auf das Vor-liegen der Wirkung schließen dürfen, wenn dieser Teil nicht vorliegt.

Das „Preemption“-Problem überträgt sich letztlich auf alle Ansätzeder Differenzmethode zur Ermittlung von Ursachen. Die „Ersatzursa-chen“, die in diesen Beispielen auftreten, sind typische Unterminiererfür das Schließen auf Ursachen anhand der Differenzmethode, weil siedafür sorgen, dass die Wirkung W auftritt, ganz gleich, ob U vorliegtoder nicht. Ist U aber kein Unterschiedsmacher für W mehr, gilt er imRahmen der Differenzmethode nicht mehr als Ursache von W. Im Be-

Page 533: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

521 Thomas Bartelborth: Induktives Schließen

reich der Ereignistypen ist das für die minimale Theorie nicht so bedeut-sam, weil sie nur verlangt, dass U zumindest in bestimmten Fällen alsUnterschiedsmacher für W erkennbar ist. Sind die kausal möglich, sosagt das Vollständigkeitsprinzip, dass die auch tatsächlich realisiert sindund uns bekannt sind. Es verbietet sozusagen, dass die Unterminiererimmer vorliegen. Da die minimale Theorie für die Ebene der Ereignisty-pen geschaffen wurde, genügt das, um dem Preemption-Problem zu ent-kommen. Nur bei der Übertragung auf den Einzelfall kommen sie unswieder in die Quere – genau wie in den kontrafaktischen Ansätzen, dieoft direkt für den Einzelfall konzipiert sind.

Nehmen wir an, Uwe hätte ein Pfund Arsen zu sich genommen undwürde daran sicher sterben. Aber bevor die Wirkung des Arsens eintritt,wird er vom Bus überfahren. Ursache seines Todes ist dann der Busunfallund nicht die Arseneinnahme. Doch natürlich wollen wir der Arsenein-nahme nicht ihre kausale Relevanz für das Ableben von Menschen ab-sprechen und da sie im Beispiel instantiiert wurde (mit allen relevantenKofaktoren) ist sie nach (SV) dann eine Ursache des Ablebens von Uwe.Doch das stimmt in unserem Beispiel nicht, denn sie ist hier nur eine Er-satzursache, die nicht wirklich zum Zuge kommt.

Die Beispiele können noch komplizierter werden, wie Strevens(2007) aufzeigt. Nehmen wir an, Sabine wirft eine Kanonenkugel aufeinen Krug (S), und würde ihn auch perfekt treffen, wenn nicht Tom zu-gleich eine Kugel auf den Krug geworfen hätte (T), die allerdings deut-lich daneben gezielt war. Die Kugeln treffen sich allerdings in der Luftund Sabines Kugel wird nun vom Krug abgelenkt, während Toms Kugeldanach direkt auf den Krug fliegt und ihn zerstört (K). Toms „Daneben-werfen“ (T) ist also nur im Verein mit Sabines Wurf (W) eine hinreichen-de Bedingung für das Auftreten von K. Das heißt, die Bedingung TS isthinreichend, aber nicht die Bedingung T. Das Problem ist nur, dass auchS allein hinreichend ist. T verliert damit seine Notwendigkeit für dasAuftreten von K und S ist allein die minimal hinreichende Bedingung.Damit wird aber Toms Danebenwerfen nach der minimalen Theorie alsUrsache ausgeschlossen, obwohl es in unserer Geschichte eindeutig eineUrsache des Krugzerbrechens darstellt. Das ist wiederum ein Spezialfallvon „Preemption“, der der minimalen Theorie direkt Schwierigkeitenbereitet und natürlich besondere Probleme verursacht, wenn wir auf diesinguläre Ebene übergehen.

Eine generelle Problematik ist dabei, dass die minimale Theorie aufder Ebene der Typen von Ereignissen und der kausalen Relevanz solcherTypen untereinander recht liberal ist (wie die meisten Ansätze auf dieser

Page 534: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 522

Ebene). Ist etwa das Husten einer Person relevant für das Entflammendes danebenstehenden Hauses? Ja, natürlich, denn es ist folgende Kon-stellation kausal möglich und sollte daher gemäß dem Vollständigkeits-prinzip auch realisiert sein: Klaus ist so disponiert, dass er das Haus inBrand steckt, sobald Ute unter bestimmten Randbedingungen hustet.Dann ist das Husten in diesem speziellen Fall tatsächlich eine Ursachefür das Entflammen des Hauses und damit liegt eine kausale Relevanzfür die entsprechenden Ereignistypen bzw. Eigenschaften vor. Ist Klausnur einmal in dieser unguten Stimmung, so handelt es sich dabei umeine deterministische Regularität, wie sie von der minimalen Theorie ge-fordert wird. Zum Husten müssen hier noch bestimmte Kofaktoren hin-zukommen, die etwa nur einmal realisiert sind. Wenn die entsprechen-den Bereiche deterministisch sind, so sollte es klar sein, dass für jedesEigenschaftsvorkommnis von A, das einmal zu einem Vorkommnis vonB geführt hat, sogleich gilt, dass A kausal relevant für B ist. Auf der Ebe-ne der Ereignistypen finden sich also sehr viele mögliche kausale Beein-flussungen. Spannend wird es dann oftmals erst, wenn wir uns auf derEbene der konkreten Ereignisse fragen, ob eine dieser Beziehungen dortinstantiiert ist. Der Schritt zur singulären Kausalbeziehung ist deshalbvon besonderer Bedeutung und keineswegs trivial. Im Prinzip wird hierwieder ein Schluss auf die beste Erklärung bzw. eine eliminative Induk-tion erforderlich. Unter den vielen möglichen Kausalbeziehungen müs-sen wir etwa durch Ausschließen der Konkurrenten diejenigen ausson-dern, die tatsächlich instantiiert sind.

Die Vertreter der minimalen Theorie weisen selbst noch auf weitereProbleme mit negativen Faktoren hin, die wir auch schon angesprochenhaben. Während sich die Instanzen positiver Faktoren entsprechend kau-sal deuten lassen, kann die Zugehörigkeit zu einem abwesenden Faktorgerade auf der singulären Ebene kaum als Ursache gedeutet werden.Auch die Einbettung eines singulären Ereignisses in einen Ereignistypselbst ist ein induktiver Schluss, der wieder auf die Regeln normalen in-duktiven Schließens angewiesen ist. Insgesamt können wir einen indukti-ven Schluss erkennen, der danach fragt, wie die Abfolge zweier Ereignis-se am besten zu erklären ist. Entweder als zufällige Koinzidenz oder alsInstanz bestimmter Kausalgesetze, die wir schon kennen. Dazu müssenwir alle bekannten Umstände der jeweiligen Situation auswerten und(SV) ist dabei sicherlich ein wichtiges Schema, aber ebenso sicher keines,das automatisch oder deduktiv zu den richtigen Ergebnissen führt. DieAutoren (Baumgartner & Grasshoff 2004) sind in diesem Punkt deutlichzu optimistisch.

Page 535: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

523 Thomas Bartelborth: Induktives Schließen

7.2.5 Kausales Schließen und Homogenisierung

Beim kausalen Schließen können wir vier unterschiedliche Typen vonSchlüssen unterscheiden. Zum einen können wir aus bekannten Kausal-strukturen auf der Ebene der Typen von Ereignissen auf Zusammenhän-ge auf der singulären Ebene schließen. Das haben wir im letzten Kapitelbesprochen und gesehen, dass diese Schlüsse keinesfalls so einfach sind,wie sie manchmal dargestellt werden. Zum anderen können wir bei be-kannter Kausalstruktur und vorliegenden Wirkungen oft in Form dia-gnostischer Schlüsse auf die vermutlichen Ursachen schließen. Das hat-ten wir im Rahmen der bayesschen Netze schon kennengelernt undebenfalls als typische Fälle von Faktenabduktionen besprochen. Des wei-teren können wir aus dem Vorliegen von Ursachen und der Kenntnis derKausalstruktur auf die wahrscheinlichen oder sogar sicheren Ursachenschließen im Sinne prognostischer Schlüsse. Der für uns wichtigste Fallkausalen Schließens besteht aber in der theoretischen Abduktion bzw.dem Schluss auf die vermutliche Kausalstruktur, die zu bestimmten Kor-relationen von Typen von Ereignissen geführt hat. Auf den letzten Fallwerden wir uns hier konzentrieren.

Um kausal im Rahmen der minimalen Theorie auf die zugrundelie-gende Kausalstruktur schließen zu können, benötigen wir als kausaleHintergrundannahmen die des Determinismus, die der empirischen Voll-ständigkeit und Annahmen darüber, welche singulären Ereignisse tat-sächlich koinzidieren und für welche das nicht gilt, obwohl sie raumzeit-lich benachbart auftreten.

Für die theoretischen Kausalschlüsse sind wir vor allem auf das Voll-ständigkeitsprinzip angewiesen. Mit seiner Hilfe wird angenommen,dass unsere Koinzidenztabellen vollständig sind, wonach alle kausalmöglichen Koinzidenzen auch tatsächlich auftreten; daher lässt sich ausihnen die dahinterliegende Kausalstruktur effektiv ermitteln. Zunächstbeginnen wir wie die Autoren der minimalen Theorie mit sehr einfachenFragestellungen: Wir wollen etwa wissen, ob ein Faktor A für eine mögli-che Wirkung W kausal relevant ist. Die Grundidee der dazu passendenDifferenzmethode findet sich schon bei John Stuart Mill und ist rechteinfach:

Mills Differenzmethode: Wir wählen zwei Testsituationen T1 und T2

so, dass in T1 gerade A und W instantiiert ist und in T2 beide nichtvorliegen. Stimmen T1 und T2 ansonsten in allen Umständen überein,so muss A für das Auftreten von W verantwortlich sein.

Page 536: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 524

Im Rahmen der Differenzmethode wird gezeigt, dass A der alleinige„Unterschiedsmacher“ für das Auftreten von W ist. Da die Testsituatio-nen in allen anderen Bedingungen übereinstimmen, können wir nur Afür das Vorliegen von W verantwortlich machen. Unsere Grundannah-men über die kausale Struktur in unserer Welt lassen uns dann daraufschließen, dass A eine Ursache von W sein muss, wenn es z.B. ausge-schlossen ist, dass W Ursache von A ist. Diese Suche der Differenztestsnach einem verantwortlichen Unterschiedsmacher ist hier unsere sehrplausible Leitidee, mit der wir uns immer wieder die Daten ansehenkönnen. Sie ist auch die Grundidee moderner kontrollierter Experimen-te, in denen wir durch Kontrolle der relevanten Faktoren genau so eineDifferenz herbeiführen möchten. Allerdings hat das Ergebnis nur dannAussagekraft, wenn die genannten Randbedingungen tatsächlich erfülltsind. Doch natürlich finden wir keine so umfassend gleichartigen Bedin-gungen, wie von Mill gefordert in der Praxis vor. Es genügt aber schon,wenn T1 und T2 in allen für das Auftreten von W relevanten Bedingun-gen übereinstimmen. Insbesondere müssen wir alle möglichen Störfakto-ren (oder Konfundierer) für das Verhältnis (A,W) ausschalten, bzw. dafürsorgen, dass die Situationen kausal homogen im Hinblick auf W sind bisauf A, also nur A ein kausaler Unterschiedsmacher ist.

Welche Faktoren bzw. welche potentiellen Störfaktoren müssen wirfür einen Differenztest homogenisieren? Als Störfaktor wollen wir sol-che Faktoren ansehen, die uns zu Fehlschlüssen beim Differenztest ver-leiten können, wenn wir sie nicht homogenisieren für unsere beidenTestsituationen. Ein solcher Störfaktor F für die Frage, ob A W verur-sacht, ist ein Faktor, der das Auftreten von W beeinflusst, dies aber kau-sal unabhängig von A tut. Das bedeutet also, dass F entweder eine direk-te Ursache von W ist, die nicht von A verursacht wird, oder auch einegemeinsame Ursache von A und W darstellt und natürlich wiederumnicht von A verursacht wird. Nehmen wir an, wir hätten unsere Test-ergebnisse (T1: A und W und in T2: non-A und non-W). Dabei könnte Anur dann unwirksam bzgl. W sein, wenn es einen solchen Störfaktor Fgäbe, der in T2 vorliegt, aber nicht in T1 (oder umgekehrt), denn derhätte den Unterschied zwischen T1 und T2 herbeiführen können, wenner eine Ursache von W wäre. A wäre in diesem Fall nicht mehr der (al-leinige) Unterschiedsmacher zwischen unseren beiden Testsituationen.So könnte z.B. das Auftreten von W in T1 auf einen Faktor F zurückzu-führen sein, der eine Ursache von W darstellt, der aber in T2 fehlt. Dannmuss eben nicht mehr A der verantwortliche Unterschiedsmacher für dasAuftreten von W sein. Oder F liegt nur in T2 vor und verhindert dort

Page 537: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

525 Thomas Bartelborth: Induktives Schließen

das Auftreten von W, während andere Faktoren ohne das Vorliegen vonF wiederum zu W geführt hätten. Also müsste auch in diesem Fall Anicht mehr der entscheidende Unterschiedsmacher sein. Es sind viel-leicht andere Faktoren B, die W hervorrufen und A ist kausal irrelevantfür W. Damit das Ergebnis unseres Tests also kausal interpretierbar ist,muss jeder potentielle Störfaktor, der in T1 auftritt, auch in T2 vorliegenund umgekehrt. Wir sagen, dass die beiden Situationen dann homogenbzgl. des Paars (A, W) sind. Dann ist A nachgewiesenermaßen der Unter-schiedsmacher zwischen unseren beiden Testsituationen und lässt sich soals Ursache von W erkennen.

Welche Faktoren können demnach Störfaktoren darstellen? Ein Fak-tor F ist nach unserer Definition ein typischer Störfaktor, wenn er einenUnterminierer der Differenzregel darstellt. F ist dagegen kein Störfaktor,wenn er zwar kausal relevant für W ist, aber auf einem kausalen Pfadliegt, der über A nach W führt. Insbesondere Zwischenfaktoren, über dieA seine Wirkung auf W ausübt (und auch Vorfahren von A, die ihre Wir-kung auf W nur über A entfalten), dürfen natürlich nicht homogenisiertwerden, da sonst der erhoffte Unterschied, den A in T1 und T2 bedeutet,nicht zum Tragen käme. Alle anderen Faktoren, die Ursachen von Wsind, sind zu homogenisieren. Hier hilft uns wieder die Redeweise dergerichteten Graphen, um diese Unterscheidung zu treffen. Sind die kau-salen Wege durch gerichtete Pfade in einem solchen Graphen charakteri-siert, so sind die Faktoren F, die auf einem gerichteten Pfad über A nachW liegen, keine Störfaktoren, wenn sie dort zwischen A und W liegen,oder auf dem Pfad vor A liegen, aber kein anderer Pfad von F nach Wführt, der nicht über A läuft. Die anderen kausal relevanten Faktoren fürW sind Störfaktoren. Die Anwendung der Differenzregel verlangt hieralso schon gewisse Kenntnisse von Kausalzusammenhängen.

Besonders störend ist ein „Common Cause“ von A und W, aber eben-so problematisch ist ein von A ganz unabhängiger Faktor, der zu Wführt. Ist F ein Störfaktor müssen die beiden Prüfsituationen im Hin-blick auf diesen Faktor also homogenisiert werden. Genau genommenkönnen wir diese Bedingung im Hinblick auf MT noch etwas abschwä-chen (vgl. Baumgartner & Graßhoff 2004). Für jeden Störfaktor F gibtes ein Faktorbündel , das ihn enthält und eine minimal hinreichendeBedingung für W ist. Die Homogenisierung bzgl. F verlangt nur, dassmindestens ein Faktor aus genau dann in T1 fehlt, wenn mindestensein (möglicherweise anderer) Faktor aus in T2 fehlt, weil dann dasBündel für W in beiden Situationen nicht wirksam wird oder, solltekein Faktor in beiden Fällen fehlen, in beiden Fällen wirksam ist. Die

Page 538: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 526

Anwendung der abgeschwächten Anforderung verlangt allerdings nochviel genauere Kenntnisse der kausalen Zusammenhänge (hier sogar derjeweiligen Kofaktoren) und ist daher in der Praxis wohl nur in besonde-ren Fällen einsetzbar.

Für die Kofaktoren von A (als möglicher Ursache von W) gilt dabei,dass sie in beiden Situationen alle vorliegen müssen, wenn wir A alsUrsache von W identifizieren wollen. Fehlen bestimmte Kofaktoren vonA in T1, werden wir A normalerweise durch unseren Test nicht als Ursa-che von W identifizieren können. Negative Aussagen der Art, dass A kei-ne Ursache von W ist, sind mit dem Differenztest jedoch nicht erzielbar.Das Fehlen von Kofaktoren führt also lediglich zu dem Fehlen von kau-sal interpretierbaren Daten und noch nicht gleich zu kausalen Fehl-schlüssen. Trotzdem werden wir sie der Einfachheit weiter als Störfakto-ren betrachten, weil sie unter unsere einfache Definition von Störfakto-ren fallen:

Ein Störfaktor für den Differenztest, ob A eine Ursache von W ist, istjeder Faktor F, der eine Ursache von W darstellt, die auf einem kaus-lalen Pfad liegt, der nicht über A zu W führt.

Die Bestimmung von Störfaktoren lässt sich übertragen auf den komple-xeren Fall des Tests, welche der n Faktoren A1,...,An Ursachen von Wsind. Ein Faktor F ist dafür ein Störfaktor, wenn er nicht auf einem kau-salen Pfad liegt, der über eines der Ai zu W führt, aber trotzdem eineUrsache von W darstellt. Für den einfachen Fall müssen wir nun nurnoch ermitteln, welche der folgenden Situationen tatsächlich auftretenund können daraus unsere Schlüsse ziehen:

A S1 S2 S3 S4

1 1 1 0 0

0 1 0 1 0

Schluss ? AW ~AW ?

Tabelle 7.1: Mögliche Koinzidenzen von A und W in einem homogenenTest. Jede Spalte entspricht einer Situation (bzw. möglichen Welt).

Unter den Situationen ist jeweils vermerkt, ob W auftritt (1) oder nicht(0). Nur wenn wir die Situationen S2 und S3 beobachten können, kön-nen wir auch Schlüsse daraus ziehen, die anderen sagen nichts über dieFrage, ob A Ursache von W ist. In S1 und S4 ist A kein Unterschiedsma-cher für W, was jedoch keine Schlüsse auf seine kausale Wirksamkeit zu-lässt, denn in S1 könnte es andere homogenisierte Faktoren B geben, die

Page 539: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

527 Thomas Bartelborth: Induktives Schließen

neben A ebenfalls zu W führen, und in S4 könnte einfach ein für A er-forderlicher Kofaktor fehlen, weshalb A (obwohl eigentlich wirksam) indieser speziellen Situation eben nicht zu W geführt hat.

Gehen wir nun einen Schritt weiter und nehmen an, wir möchteneben A noch einen zweiten Faktor B mit heranziehen, um das Zusam-menspiel zweier möglicher Ursachen zu ermitteln. Dabei gehen wir hierdavon aus, dass A jedenfalls kausal relevant für W ist (das hat der einfa-che Differenztest ergeben) und möchten nur noch ermitteln, ob B dasebenfalls ist, und in welchem Verhältnis B zu A steht, ob es etwa zuInteraktionen zwischen A und B kommt bzw. ob B ein Kofaktor von Aist oder ob B etwa eine von A unabhängige Ursache von W darstellt.Außerdem nehmen wir an, dass in unseren Situationen weder die A-In-stanzen Ursache von B-Instanzen noch umgekehrt die B-Instanzen Ursa-chen der A-Instanzen sind. Auf diese spezielle Annahme der kausalenUnabhängigkeit der Testfaktoren sind wir offensichtlich angewiesen. Siesetzt allerdings wiederum darauf, dass wir bereits über ein gewisses kau-sales Vorwissen verfügen. Erst dann können wir den „Vierertest“ im Sin-ne der Autoren Baumgartner & Graßhoff (2004) auswerten. Im Rahmendieses Tests betrachten wir alle Konstellationen von A und B, die auftre-ten können, und nehmen an, alle Situation seien jeweils für W homoge-nisiert bis auf A und B. Dann erhalten wir etwa die folgenden möglichenSituationen:

A B S1

S2

S3

S4

S5

S6

S7

S8

S9

S10

S11

S12

S13

S14

S15

S16

1 1 1 0 0 0 1 1 1 0 0 0 1 1 1 0 1 0

1 0 0 1 0 0 1 0 0 1 1 0 1 1 0 1 1 0

0 1 0 0 1 0 0 1 0 1 0 1 1 0 1 1 1 0

0 0 0 0 0 1 0 0 1 0 1 1 0 1 1 1 1 0

Tabelle 7.2: Alle möglichen Koinzidenzen der Faktoren A, B und W in einemhomogenisierten Test. Jede Spalte entspricht einer Situation (bzw. möglichen Welt).

In dieser Tabelle stehen vorne die Kombinationen der Faktoren A und Bund dann die 16 unterschiedlichen Situationen, in denen jeweils die Wir-kung W mehr oder weniger häufiger auftritt. Eine Spalte entspricht soeiner Versuchsserie mit identischen relevanten Faktoren, wobei nur diePrüffaktoren A und B und die Wirkung W variieren können. Einige derSituationen lassen bestimmte kausale Schlüsse zu. So tritt in S1 z.B. Wnur dann auf, wenn A und B gemeinsam vorliegen. In derselben Situa-tion (zumindest gleich bzgl. aller möglichen Störfaktoren), in der B ohne

Page 540: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 528

A vorliegt, tritt kein W mehr auf. Das spricht dafür, dass in einer sol-chen Welt B ein Kofaktor von A bei der Hervorbringung von W ist,jedenfalls in einer ganz bestimmten Konstellation anderer relevanterFaktoren. Man könnte auch sagen, dass hier A&B der Unterschiedsma-cher ist.

Einige Situationen wie S15 oder S16 lassen keine weiteren Schlüssezu und andere sind sogar mehrdeutig wie etwa S13 und S14 (vgl. Baum-gartner & Graßhoff 2004). Die minimalen Theorien, die aus den Situa-tionen jeweils folgen, stellen wir wiederum in einer Tabelle zusammen:

S1 ABX Y W S9 AX1 (~B)X2 Y W

S2 A(~B)X Y W S10 B ist kein Kofaktor von (~)A

S3 AX1 (~A)BX2 Y W S11 AX1 BX2 Y W

S4 AX1 (~A)(~B)X2 Y W S12 AX1 (~B)X2 Y W

S5 B ist kein Kofaktor von A S13 ABX1 (~A)X2 Y W ?

S6 AX1 BX2 Y W S14 A(~B)X1 (~A)X2 Y W ?

S7 ABX1 (~A)(~B)X2 Y W S15 kein Schluss möglich

S8 A(~B)X1 (~A)BX2 Y W S16 kein Schluss möglich

Tabelle 7.3: Schlussfolgerungen auf bestimmteminimale Theorien in den einzelnen Situationen.

Der Faktor AX1 stammt jeweils aus unserem Vorwissen. In den Situatio-nen S13 und S14 könnte B bzw. (~B) ein Kofaktor von A sein, wie dashier notiert wurde, aber B bzw. (~B) könnte auch ein eigenständigerFaktor für W sein und dann hätten wir in S13 etwa die minimale Theo-rie ABX1 (~A)X2 BX3 Y W.

Problematisch und nicht definitiv überprüfbar ist in diesem Testver-fahren zunächst wieder die Homogenitätsanforderung, aber noch pro-blematischer ist die Forderung, dass wir auch tatsächlich alle relevantenund möglichen Kombinationen von Faktoren bereits beobachten konn-ten. Es könnte z.B. sein, dass in unseren Experimenten bestimmte we-sentliche Kofaktoren von B nie vorlagen und daher die Wirksamkeit vonB für W nie beobachtet wurde. Jedenfalls können wir nur induktiv dar-auf schließen, dass wir schon die möglichen Fälle alle beobachtet habenund das ganze Verfahren hat damit eindeutig einen induktiven Charak-ter und nicht, wie Baumgartner & Graßhoff (2004) annehmen, dieForm eines deduktiven Schlusses. Wir erhalten jedenfalls immer nur eini-ge Spalten aus dem Raum der möglichen Situationen und wissen nicht

Page 541: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

529 Thomas Bartelborth: Induktives Schließen

sicher, ob es noch andere Fälle von Randbedingungen gibt, die zu ande-ren Spalten führen würden, die wir bisher noch nicht beobachtet haben.Sind wir uns dessen sicher, dann können wir allerdings in manchen Fäl-len im Sinne der eliminativen Induktion durch unsere Beobachtungenviele kausale Zusammenhänge ausschließen und bleiben vielleicht nurnoch mit einer Hypothese zurück, die dadurch sehr gut gestützt wird.Verletzungen der Homogenitätsforderung sind in unserem Testverfahrenübrigens wieder typische Unterminierer, die den Schluss untergrabenund so Wissensansprüche verhindern.

Einige Fälle sehen zudem recht seltsam aus. In S3 z.B. finden wireinen eigentümlichen Zusammenhang. Wir wissen schon, dass A kausalrelevant für W ist, nur dass hier einer der Kofaktoren nicht vorlag. Abergleichzeitig ist demnach auch non-A kausal relevant für W, wobei non-Beiner der Kofaktoren ist. Daher schließen wir auf AX1 (non-A) (non-B)X2 Y W. Das ist zwar rein theoretisch möglich, wäre allerdingsschon seltsam, da non-A gerade bedeutet, dass keine Instanz von A vor-liegt. Wenn nun eine Instanz zu W führen kann, aber auch das Fehleneiner Instanz von A, würden wir uns vermutlich stärker auf die anderenFaktoren beziehen und die jeweils als Ursachen von W betrachten undnicht so sehr das Auftreten oder Fehlen von A. Das hat auch etwas mitder Problematik zu tun, negative Faktoren (also die bloße Abwesenheiteines Faktors) als Ursachen begreifen zu können. Ähnlich seltsame Kon-stellationen finden wir daneben in anderen Fällen, die wohl mehr dertheoretischen Vollständigkeit halber zu diskutieren sind, als dass man er-warten darf, in der Praxis auf solche Fälle zu stoßen.

Noch einmal zurück zur Homogenitätsforderung: Für bekannte Stör-faktoren können wir in bestimmten Experimenten vielleicht dafür sor-gen, dass sie in allen Situationen abwesend sind, denn das ist die ergie-bigste Konstellation für einen Kausaltest. Doch gerade in den Sozialwis-senschaften kennen wir viele Faktoren nicht oder können keine beliebi-gen Experimente durchführen, in denen wir bestimmte Faktoren einfachverändern können (vgl. Kelle 2003). Möchten wir z.B. herausfinden,warum Kinder aus der sozialen Oberschicht erfolgreicher in der Schulesind als Kinder unterer Schichten (W) und vermuten, dass es (A) derAusbildungsstand der Eltern sein könnte, die dann ihren Kindern schonin der vorschulischen Erziehung bessere sprachliche Fertigkeiten und einbestimmtes Wissen mitgeben, oder (B) einfach doch nur die bessere fi-nanzielle Ausstattung dieser Kinder, die es gestattet, mehr Bücher undandere Hilfsmittel zu kaufen oder auf anderen Wegen zu mehr Selbstver-trauen und einem höheren sozialen Ansehen in der Schule führt, so wer-

Page 542: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 530

den wir den zweiten Faktor B als möglichen Störfaktor für unseren ers-ten Test trotzdem nicht einfach ausschalten können. Weder die Kindernoch die Eltern aus der Oberschicht werden zustimmen, dass sie für alleSchuljahre komplett auf ihr Geld verzichten. (Die Kinder aus den unte-ren Schichten finanziell viel besser auszustatten, würde andererseits ver-mutlich die finanziellen Möglichkeiten des Experimentierens sprengen.)Noch problematischer sind aber die Fälle, in denen unbekannte Störfak-toren vorliegen, die wir nie ganz ausschließen können. Speziell Fälle vonunbekannten gemeinsamen Ursachen von A und W sind besonders pro-blematisch. Sie können den Eindruck einer scheinbaren Wirkung von Aauf W hervorrufen, der keine tatsächliche Kausalbeziehung entspricht.Dafür ist die Homogenitätsbedingung eine zentrale Annahme für daskausale Schließen.

Doch wie soll man diese Bedingung für unbekannte Störfaktoren er-füllen oder zumindest feststellen? Da es sich um nicht bekannte Fakto-ren aus einer Art von Ceteris-Paribus-Bedingung handelt, wird man sienicht definitiv überprüfen können. Baumgartner & Graßhoff (2004,Kap. X) geben dazu an, wir könnten den Test einfach mehrfach wieder-holen, und es wäre dann unwahrscheinlich, dass Prüffaktor und Störfak-tor immer in derselben Weise variieren würden. Sie betrachten einenFall, in dem bei 100 Wiederholungen nur eine Abweichung vom norma-len Schema auftritt. So hat man einen Grund, das als Störfaktorszenarioanzusehen und die anderen 99 Fälle als homogen zu betrachten und da-mit als korrektes Indiz für eine bestimmte Kausalbeziehung. Doch ers-tens ist es recht unrealistisch, dass wir in der Praxis ein Experiment sooft wiederholen können. Vor allem müssen die Autoren voraussetzen,dass es gelingt, genau dasselbe Experiment mit denselben Faktorkonstel-lationen selbst der unbekannten Faktoren hundertmal zu wiederholen.Zweitens ist es unrealistisch, dass wir so einseitige Ergebnisse erhalten,insbesondere dann, wenn wir an den Fall von gemeinsamen Ursachendenken. Solange wir sie nicht kennen, können wir sie nicht definitiv aus-schalten und vielleicht ist gerade das, was die Autoren als genuine Prüf-faktor Ursache von A bezeichnen (mit der wir etwa in der Versuchsgrup-pe gerade A herbeiführen) ebenso eine versteckte zusätzliche Ursachevon W. In jedem Fall sind wir hier wieder in klassischen Induktionsver-fahren gelandet. Wir versuchen anhand der Häufigkeit, mit der etwasauftritt, zu schließen, dass vermutlich eine Homogenisierung vorliegt.Die Idee der Autoren, eine Art von deduktivem Schlussverfahren etablie-ren zu können, stößt damit eindeutig an ihre Grenzen (vgl. Baumgartner& Graßhoff 2004, Kap. VIII und IX). Für die wichtigste Voraussetzung

Page 543: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

531 Thomas Bartelborth: Induktives Schließen

des kausalen Schließens sind wir wieder auf einfache induktive Schlüsseangewiesen. Letztlich müssen wir eine Abwägung im Sinne des abdukti-ven Schließens bzw. von Kohärenzüberlegungen vornehmen. Wenn einUnterschied zwischen Versuchs- und Kontrollgruppe vorliegt, welcheder beiden Hypothesen erklärt den dann am besten: 1. Der Unterschiedgeht auf den Unterschied im Vorliegen von A zurück oder 2. der Unter-schied wird von einem Störfaktor hervorgerufen, der in der einen Grup-pe vorliegt und in der anderen nicht. Der Differenztest weist uns alsozwar den richtigen Weg zur Ursachenermittlung, aber er ist immer aufweitere kausale Annahmen und Abwägungen angewiesen und keines-wegs so etwas wie ein automatisiertes Verfahren zur Ermittlung vonKausalbeziehungen.

Kelle (2003) kritisiert die Idealisierungen des Verfahrens anhand vonBeispielen aus den Sozialwissenschaften, in denen die Vollständigkeitsbe-dingung offensichtlich nicht erfüllt ist. Dort wird das Verfahren etwa imVergleich verschiedener Länder eingesetzt, um damit herauszufinden,welche besonderen Bedingungen jeweils vorliegen müssen, damit ineinem Land bestimmte Institutionen entstehen oder stabil bleiben. DieseKritik wendet sich u.a. gegen Arbeiten von Charles Ragin (1987 und2000), der sich im Rahmen der qualitativen komparativen Analyse(QCA) auf ein ganz ähnliches Verfahren stützte, um Kausalzusammen-hänge zu ermitteln. Oft hilft hier schon unser weiteres Hintergrundwis-sen zu erkennen, dass die Vollständigkeitsbedingung nicht erfüllt ist. Wirkönnen das Verfahren dann etwa als Heuristik nutzen, um herauszufin-den, nach welchen Daten, wir gezielt Ausschau halten sollten. Nebenden Übereinstimmungen sind das gerade die Fälle von Differenzen, indenen ein bestimmter Faktor als Unterschiedsmacher auftreten könnte.Können wir solche Daten nicht gewinnen oder müssen annehmen, dassunsere Daten unvollständig bleiben werden, so hilft uns die minimaleTheorie natürlich nicht mehr weiter.

Kelle (2003, 242) meint, dass dann ein quantitativer statistischer An-satz oft hilfreicher ist. Führt etwa A&F kausal zu W, aber die Hinter-grundbedingung F ist uns nicht bekannt und sie ist in unserer Gesamt-population nur selten vertreten, so bliebe uns immer noch die Unglei-chung P(W|A)>P(W) als Indikator für die Wirksamkeit von A für W.Doch das ist nicht so klar, denn erstens ist die Ungleichung vielleicht nurauf eine gemeinsame Ursache von A und W zurückzuführen und zwei-tens kann es hier ebenfalls andere Konstellationen geben, die die Unglei-chung verhindern, obwohl A im Prinzip wirksam für W ist.

Page 544: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 532

Kelle (2003, 243) diskutiert selbst ein mögliches Beispiel dafür. Eszeigte sich, dass der Faktor (A) Erfolg in Ausbildung und Beruf in vielenFällen negativ korreliert ist mit dem Faktor (W) Delinquenz. Das heißt,Personen, die ihre Ausbildung nicht beenden und dann arbeitslos blei-ben, zeigen eine größere Neigung zu kriminellen Verhaltensweisen alserfolgreichere Personen. So weit, so gut. Aber zugleich zeigte sich aucheine überraschende Neigung zu kriminellem Verhalten bei bestimmtenJugendlichen mit besonders erfolgreichen Berufsbiographien. Damitführt zum einen non-A zusammen mit bestimmten Hintergrundbedin-gungen zu Delinquenz, aber ebenso führt A mit anderen Hintergrundbe-dingungen zu Delinquenz. Nehmen wir an, der erste Effekt wäre derstärkere, dann gilt: P(W|A)<P(W), aber dennoch ist zugleich A positivkausal relevant für W, was in unserer Ungleichung nicht aufscheint. Dasheißt, der eine der beiden Kausalzusammenhänge würde durch unsereUngleichung systematisch unterschlagen. Der statistische Ansatz kann al-so weiterhelfen, muss es aber keineswegs, solange uns die weiteren rele-vanten Hintergrundbedingungen verborgen bleiben. Häufiger sind dabeivermutlich die Probleme durch gemeinsame Ursachen zu erwarten, aufdie wir im nächsten Kapitel wieder zurückkommen werden.

Das kausale Schlussverfahren der minimalen Theorien lässt sichschließlich verallgemeinern auf den Fall von n Prüffaktoren und dannausdehnen auf die Ermittlung ganzer Kausalketten (vgl. Baumgartner2008a & 2008b). Für kausale Ketten werden mehrere minimale Theo-rien konjunktiv zu einer größeren Theorie zusammengesetzt. Jede mini-male Theorie selbst betrifft dagegen nur den Zusammenhang zweierEbenen eines kausalen Netzes. Wie in den anderen Ansätzen finden wiraber auch hier wieder Fälle von beobachtungsäquivalenten Strukturen,d.h. Koinzidenzstrukturen, die durch unterschiedliche kausale Struktu-ren hervorgebracht werden können. Einige kausale Strukturen sindgrundsätzlich so beschaffen, dass sie generell zu denselben Koinzidenzta-bellen führen. Baumgartner & Graßhoff (2004) sprechen hier von ver-schränkten Kausalfaktoren. In diesen Fällen hat wieder unser Hinter-grundwissen mit zu entscheiden, welches vermutlich die richtige Kausal-struktur hinter den Daten ist.

Für den Fall, dass wir schon die Wirkung W kennen und endlicheviele potentielle direkte Ursachen (also ohne kausale Ketten) A, B, C, ...vorliegen, die untereinander kausal unabhängig sind (wie die Wurzelfak-toren eines kausalen Netzes), wird gerne der Algorithmus von Quine-McCluskey eingesetzt, um die genaue Kausalstruktur zu ermitteln. Eineentsprechende Vorgehensweise wollen wir uns an einem einfachen Bei-

Page 545: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

533 Thomas Bartelborth: Induktives Schließen

spiel ansehen. Zunächst haben wir etwa eine Datentabelle wie die fol-gende, in der alle Kombinationen aller Wurzelfaktoren enthalten sind:

A B C W

1 1 1 1 1

2 1 1 0 1

3 1 0 1 1

4 0 1 1 1

5 1 0 0 0

6 0 1 0 0

7 0 0 1 1

8 0 0 0 0

Tabelle 7.4: Beispieldaten mit 8 Situationen

Im ersten Schritt wählt man nun alle Zeilen mit W=1 und bestimmt sodie hinreichenden Bedingungen für W, die wir hier gerade in den Zeilen1–4 und 7 finden. (Dabei dürfen natürlich keine weiteren identischenZeilen vorliegen, in denen nur W=0 vorkommt, aber alle anderen Fak-toren ebenfalls vorliegen, denn dann wären die Bedingungen nicht wirk-lich hinreichend.) Wenn wir die Negationen der Faktoren mit kleinenBuchstaben bezeichnen, sind das also die Faktorbündel: ABC, ABc, AbC,aBC und abC. Dann können wir durch Zusammenziehen bestimmter Be-dingungen nun die minimal hinreichenden Bedingungen ermitteln. Derentscheidende Schritt ist, dass wir zwei Zeilen finden vom Typ:

ABCDEAbcDE } zusammen ergibt sich: AB(c/C)DE

Dadurch ist klar, dass der Faktor C bzw. c einen redundanten Teil derbeiden Faktorbündel darstellt und damit letztlich weggelassen werdenkann. Er stellt in unseren Situationen jedenfalls keinen Unterschiedsma-cher dar. Dieses Verfahren ist zu wiederholen, bis man die tatsächlichminimalen Faktoren gefunden hat. In unserem Beispiel ergibt sich ausden Zeilen 1 und 2: AB(c/C), aber keine weitere Reduktion diesesTerms. Aus aBC und abC erhalten wir a(b/B)C und zusammen mit AbCergibt sich, dass auch der erste Faktor irrelevant ist: (a/A)(b/B)C. Also er-gibt die Minimierung zwei minimal hinreichende Faktorbündel: AB undC für W.

Dann geht es noch darum, welche der Faktorbündel X, Y, Z etc. nuntatsächlich für W minimal notwendig sind. Das heißt, es muss gelten:

Page 546: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 534

WXYZ (und wir können kein Disjunkt dabei weglassen), bzw. äqui-valent dazu: ~X&~Y&~Z~W (und wir können keinen der negati-ven Faktoren dabei weglassen). X, Y und Z sind also alle möglichenUrsachenbündel von W und wir dürfen erst dann auf ~W schließen,wenn sie alle nicht vorliegen. Um das zu ermitteln, müssen wir heraus-finden, welche Kombinationen aus ~X, ~Y und ~Z minimal hinrei-chend für ~W sind.

Hierfür können wir eine neue Tabelle aufschreiben mit den zusätzli-chen Spalten für ~X und ~Y und ~Z sowie ~W und können dort dasMinimierungsverfahren von oben wieder anwenden auf den Fall vonW=0 bzw. ~W=1. Aus unserer Tabelle wird dann, wenn wir nur dieZeilen mit W=0 betrachten:

A B C ~C ~(AB) ~W

5 1 0 0 1 1 1

6 0 1 0 1 1 1

8 0 0 0 1 1 1

Tab. 7.5: Notwendige Bedingungen ermitteln

Dabei zeigt sich in unserem Beispiel, dass keine weiteren Minimierungenmöglich sind und wir erhalten die minimale Theorie: ABCW.

Für den zweiten Minimierungsschritt können wir natürlich auch di-rekter nachprüfen, welche Faktorbündel X, Y, Z etc. tatsächlich mindes-tens realisiert sein müssen, wenn W der Fall ist. Finden wir eine Zeile, inder W=1 ist und von unseren Bündeln nur eines (etwa Y=1) ebenfallsrealisiert ist, während die anderen alle nicht realisiert sind, so gehört es(in unserem Beispiel also Y) auf jeden Fall in unsere minimale Liste. Gibtes aber eine Zeile mit Y=0 und Z=0 und das genügt bereits dafür, dassW=0 ist, so ist X in unserem Faktorbündel redundant und gehört nichtzu den minimal notwendigen Faktoren für W.

Wenn wir etwas komplexere Fälle zulassen, und wir es etwa mit derfolgenden kausalen Struktur K1 zu tun haben: ACBD, in der zweiWirkungen C und D auftreten, müssen wir etwas anders schließen.Baumgartner (2008b) gibt ein komplexeres Verfahren an, dass für solcheFälle ebenfalls anwendbar ist. Das Problem ist hierbei, dass B immergleich D zur Folge hat und daher nach dem oben geschilderten Minimie-rungsverfahren B und D gemeinsam minimal für C zu sein scheinen.Wenn wir also D nicht als mögliche Ursache von C von vornherein aus-schließen können, stellt sich die Frage, ob D nicht ein Kofaktor von Bbei der Erzeugung von C ist. Dann erhielten wir die alternative kausale

Page 547: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

535 Thomas Bartelborth: Induktives Schließen

Struktur K2 (ACBD), bei der A allein und BD als Kofaktoren Ursa-chen von C wären. In der Struktur K2 erhalten wir in der Kontingenzta-belle dann aber die folgende Zeile: aBcd. Obwohl B vorliegt, wird Cnicht realisiert, weil der Kofaktor D nicht realisiert wurde. Diese Zeilekann aber nicht in der Kontingenztabelle für K1 stehen, denn dort wirdimmer sogleich C auftreten, wenn B vorliegt. Weil also in der Kontin-genztabelle von K1 die Zeile aBcd fehlt, können wir darauf schließen,dass B bereits allein für C hinreichend ist. Damit können wir das Faktor-bündel BD weiter zu B minimieren. Wir müssen nun also auch das Feh-len bestimmter Tabellenzeilen mit heranziehen und schauen, ob wir Fäl-le finden, in denen die Wirkung nicht auftritt, wenn wir bestimmte Fak-toren weglassen, was für ihre Redundanz sprechen würde. Baumgartner(2008b) liefert uns dafür die folgende Minimierungsregel:

Verstärkte MinimierungsregelSind ABD hinreichend für C, so ist A nur dann erforderlich in diesemFaktorbündel, wenn es eine Zeile aBDc in der Kontingenztabellegibt, die aufzeigt, dass bei Fehlen von A auch C nicht mehr auftritt.

Fehlt dagegen die Zeile aBDc in unserer Kontingenztabelle, so ist al-so A redundant und wir können den Minimierungsschritt von ABDzu BD vollziehen.

Durch wiederholte Minimierung erhalten wir so schließlich wieder dieminimal hinreichenden Faktoren in diesen komplexeren Fällen. Aller-dings wird dabei deutlich, dass wir mit dieser stärkeren Regel besondersauf eine Vollständigkeit der Kontingenztabellen angewiesen sind, dennwir schließen aus dem Nichtvorhandensein bestimmter Zeilen darauf,dass ein Faktor redundant ist. Die obige Vorgehensweise schließt da-gegen nur aus vorhandenen Zeilen auf die Redundanz bestimmter Fakto-ren. Sollte die Kontingenztabelle also an dieser Stelle einfach nur unvoll-ständig sein, ergäbe sich daraus im zweiten Verfahren sofort ein Fehl-schluss, der uns nicht so schnell auffallen dürfte. Wir hätten fälschlicher-weise damit einen relevanten Kofaktor übersehen. Das dürfte in denmeisten Fällen ein unangenehmerer Fehler sein, als fälschlicherweise Afür einen relevanten Kofaktor zu halten. Das belegt die besonderen Ge-fahren der komplexeren Minimierungsregel. Außerdem verbleiben auchhier Mehrdeutigkeiten für noch komplexere Strukturen, was Baumgart-ner (2008b) an einem Beispiel aufdeckt.

Das kausale Schließen im deterministischen Fall zeigt schon wesentli-che Grundprobleme des kausalen Schließens auf. So ist manchmal nureine bestimmte Kombination von Faktoren kausal aktiv bzw. wir müssen

Page 548: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 536

kausale Interaktionen zwischen unseren Faktoren berücksichtigen. DieseStruktur von Kofaktoren wird in manchen Ansätzen übersehen bzw. aus-geklammert oder zumindest nicht in ihrer vollen Bedeutung berücksich-tigt. Der große Vorteil der minimalen Theorie besteht m.E. gerade dar-in, dass sie die Hilfsmittel bietet, die logische Struktur dieser komplexe-ren Kausalzusammenhänge übersichtlich aufzuschreiben, wodurch sieuns genau erklärt, welche Art von Regularität wir im Falle bestimmterKausalzusammenhänge erwarten dürfen bzw. wann wir auf das Vorlie-gen von Kausalbeziehungen aus einer Regularität schließen dürfen. Inanderen Kausaltheorien liegt das Augenmerk oft auf anderen Problemenwie dem, dass die Kausalbeziehung selbst nur probabilistisch ist, und et-wa die Kofaktorenbeziehung bleibt dann meist unbeachtet, weshalb diezugrundeliegenden Kausalstrukturen dann nicht immer zuverlässig auf-gedeckt werden.

Um kausal schließen zu können, sind wir aber in jedem Fall auf voll-ständige und zuverlässige Daten bzw. hier Kontingenztabellen angewie-sen. Doch selbst wenn die vorliegen, deuten sie nicht immer in eindeuti-ger Weise auf eine ganz bestimmte kausale Struktur. Man kann nicht oftgenug betonen, an wie vielen Stellen wir daher auf kausales Vorwissenangewiesen sind, um weitere Kausalstrukturen aufzudecken. Wir müssenzunächst potentielle Ursachen ausmachen und eine Liste aller potentiel-len Ursachen dafür aufstellen. Dann benötigen wir vollständige Kontin-genztabellen und müssen bei dem Schließen selbst eventuell auf weitereskausales Hintergrundwissen vertrauen, mit dem sich bestimmte mögli-che kausale Hintergrundstrukturen ausschließen lassen. Diese Suchenach einer Kausalstruktur, die unsere Daten am besten erklärt, zeigt wie-der alle Merkmale eines Abduktionsschlusses und ist keinesfalls von de-duktiver Natur, wie uns Baumgartner & Grasshoff (2004) noch optimis-tischerweise suggerieren möchten.

Eine weitere Komplikation kommt noch dadurch ins Spiel, dass eini-ge Faktoren quantitativ sind. So kann ein Medikament in bestimmtenDosierungen hilfreich sein und zur Heilung beitragen, und in noch hö-heren Dosierungen bereits schädlich wirken. Zum Teil können wir dasauf die bisherigen Erörterungen zurückführen, indem wir unterschiedli-che Dosierungen als unterschiedliche Faktoren betrachten, aber es erge-ben sich auch einige neue Phänomene, auf die wir weiter unten eingehenwerden.

Page 549: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

537 Thomas Bartelborth: Induktives Schließen

7.2.6 Randomisierung als Allheilmittel?

Inwiefern verhilft uns die Randomisierung zu homogenen Testsituatio-nen? Die wird in der modernen Wissenschaft oft als Allheilmittel geprie-sen, das all unsere Probleme sicher löst. Nach den klassischen Regelndes Experimentierens versuchen wir zwei homogene Gruppen (Experi-mentalgruppe oder Versuchsgruppe E und Kontrollgruppe K) so herbei-zuführen, dass alle relevanten Faktoren bzw. alle Störfaktoren (auch undvor allem die unbekannten) zumindest gleich auf die beiden Gruppenverteilt sind und daher ein Vergleich der beiden Gruppen kausal auf-schlussreiche Ergebnisse liefert. Dann wird etwa der Faktor A nur in derGruppe E realisiert und nicht in K. Damit hätten wir zumindest auf derEbene ganzer Gruppen eine Form der Homogenisierung erzielt, da sie inBezug auf die Häufigkeit der Faktoren in beiden Gruppen ähnlich sind.Man beachte aber auch, dass damit die Forderung der Homogenisierungeine neue Gestalt erhalten hat. Wir nennen dann zwei Gruppen von Ob-jekten oder Systemen homogen für W, wenn sich alle möglichen Störfak-toren für die Beziehung (A,W) in gleicher Anzahl auf die beiden Grup-pen verteilen. Damit muss noch nicht einmal sichergestellt sein, dass eszwei Objekte in den beiden Gruppen gibt, die genau dieselben Störfak-toren aufweisen. Trotzdem erhoffen wir uns von einer derartigen Homo-genisierung natürlich schon Hinweise auf Unterschiedsmacher. Ist Akausal relevant für W nehmen wir an, dass sich in den meisten Fällenein Unterschied in den relativen Häufigkeiten zeigen wird, mit denen Win den beiden Gruppen auftritt. Aber es könnten sich in E sogar be-stimmte positive Wirkungen von A unter bestimmten Bedingungen mitnegativen Wirkungen von A unter anderen Bedingungen gerade aufhe-ben. Für den Normalfall nehmen wir aber an, dass das nicht passiert undsich daher die Wirksamkeit von A in entsprechenden Unterschieden derGruppen manifestieren wird.

Doch selbst diese Form der Homogenisierung muss keinesfalls immergelingen, denn die Zufallsauswahl zweier Stichproben ist nur ein statisti-sches Verfahren, das nur mit einer bestimmten Wahrscheinlichkeit diegewünschten Ergebnisse liefert. Als Beispiel möchten wir wieder einmalherausfinden, ob A eine Ursache von W ist. Nehmen wir dazu an, wirhätten eine große Gesamtpopulation G in einer deterministischen Welt,in der ein Faktor A tatsächlich eine Ursache von W darstellt. Allerdingsist dazu ein uns nicht bekannter Kofaktor N notwendig, der nur in 5%aller Elemente aus G vorliegt. Außerdem gebe es einen Störfaktor F, derebenfalls und unabhängig von A zu W führt. F liege in 40% aller Fällevor und sei statistisch unabhängig von A und N. Wenn es keine anderen

Page 550: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 538

Ursachen von W gibt, dann finden wir folgende Situation in G: Für 43%der Elemente in G tritt W auf, wobei in 38% aller Fälle F allein die Wir-kung W verursacht, in 2% der Fälle verursachen sowohl A wie auch F ineiner Form der Überdetermination W und in 3% der Fälle wird W alleindurch A (und seinen Kofaktor N) hervorgebracht.

Nun ziehen wir per Zufallsauswahl zwei Stichproben E und K zu je100 Elementen aus G. In E sorgen wir dafür, dass A für alle Elementevorliegt (etwa ein Medikament genommen wird) und in K dafür, dassnon-A vorliegt. Nehmen wir außerdem an, dass die Stichprobenwahl fürden Kofaktor N perfekt funktioniert hat und somit in genau 5% derStichprobenelemente N vorliegt (also jeweils in 5 Fällen). Dann folgt,dass in 5% der Fälle von E A tatsächlich wirksam wird. Für E gehen wiralso einfach von dem Idealfall aus, dass W in 43 Fällen auftritt. Solltedie Zufallsauswahl für K genauso exakt funktionieren, hätten wir dortnur 40-mal W zu erwarten und hätten immerhin noch einen Unterschiedvon 3 Fällen aufzuweisen, der einen Hinweis auf die Wirksamkeit von Ageben würde.

Nun berücksichtigen wir aber noch, dass es sich nur um ein statisti-sches Verfahren handelt. Es ist nicht sichergestellt, dass F in genau 40Fällen von K vorliegt. Was bedeutet das für unseren Unterschied? Dazuwollen wir die Frage beantworten: Wie oft müssen wir im Durchschnittdamit rechnen, dass auch in K 43-mal oder sogar häufiger W auftritt,wodurch die Wirksamkeit von A vollkommen unsichtbar würde? DerStörfaktor F ist in K binomialverteilt mit dem Parameter p=0,4. Davondürfen wir ausgehen, da die Population G sehr groß sein sollte, ansons-ten müssten wir mit der hypergeometrischen Verteilung arbeiten. Manbeachte, dass unsere vorgestellte Welt hier im Wesentlichen determinis-tisch ist, bis auf die Zufallsauswahl der Elemente von E und K. Tatsäch-lich würden in ca. 24 von 100 Fällen mindestens 43 W-Elemente zu fin-den sein. Das statistische Rauschen kann also schnell bestimmte Unter-schiede verwischen, zumal wenn diese klein sind. Dass sie klein sind,heißt aber nicht, dass A nur schwach wirksam wäre. In den Fällen, indenen der Kofaktor N vorliegt, wirkt A sogar einhundertprozentig.

Wir könnten noch zusätzlich berücksichtigen, dass auch für E eineZufallsauswahl stattfindet, aber das würde uns z.T. begünstigen (der Ef-fekt von A schiene deutlicher) und z.T. gegen uns arbeiten (es würde zurVerwischung beitragen). Jedenfalls würden wir in ca. 24% der Fälle beieiner Randomisierung den Effekt von A nicht mehr erkennen können.Zusätzlich müssten wir eigentlich noch berücksichtigen, dass ein Unter-schied schon eine bestimmte Größe annehmen muss, um überhaupt als

Page 551: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

539 Thomas Bartelborth: Induktives Schließen

signifikant gelten zu können, sonst gewinnt die Nullhypothese die Ober-hand. Damit vergrößert sich der Bereich, in dem die Wirksamkeit von Anicht erkannt würde. Das mag als Beispiel ausreichen, um zu zeigen,dass die Randomisierung kein Allheilmittel für alle Fälle ist. Weitere Pro-bleme werden später noch genannt. Trotzdem bleibt sie natürlich einwichtiges Hilfsmittel dort, wo sie überhaupt einsetzbar ist.

Hilfreich sind für das Experimentieren auch die Kombinationen vonaktiver Homogenisierung und Randomisierung. Kennen wir bereits be-stimmte relevante Kausalfaktoren B für W, können wir Experiment- undKontrollgruppe bewusst bzgl. dieser Faktoren homogenisieren und zu-sätzlich randomisieren, d.h., wir sorgen dafür, dass genauso viele Ele-mente mit B in E wie in K sind, in dem wir die B-Elemente heraussu-chen und dann per Zufallsauswahl auf beide Gruppen verteilen.

Um die Anzahl der verzerrten Experiment- und Kontrollgruppen zureduzieren, können wir in manchen Fällen die Stichprobengrößen erhö-hen, aber es können immer noch weitere Störfaktoren auftreten, die invielfältiger Weise interagieren können. Also dürfen wir uns keineswegsblindlings auf die Randomisierung verlassen. Außerdem können wir siein der Praxis oft nicht einsetzen, sondern sind schlicht auf die vorliegen-den beobachtbaren Daten angewiesen, um auf Kausalität zu schließen.Das Beste, was wir dann haben, ist die Abduktion auf die Hypothesen,die unsere Daten am besten erklären können.

7.2.7 Ist minimales Schließen abduktiv?

Die Fragestellungen im Rahmen des Schließens anhand der minimalenTheorien entsprechen denen des abduktiven Schließens. Die Liste derHypothesen wird durch die ins Auge gefassten Faktoren und die darausmöglichen minimalen Theorien vorgegeben. Dann suchen wir nach spe-ziellen Daten, die einen Unterschied zwischen solchen minimalen Theo-rien ausmachen, um bestimmte Theorien eliminieren zu können. Dazuvergleichen wir homogenisierte Situationen miteinander, die sich nur imPrüffaktor A unterscheiden. Wenn W dann nur auftritt, wenn ebenfallsA vorlag und ohne A abwesend bleibt, dann können die minimalenTheorien, in denen A keine Ursache von W ist, nicht mehr erklären undwerden im Sinne einer eliminativen Abduktion ausgeschieden. Diesespeziellen abduktiven Schlüsse sind allerdings nur anhand spezieller kau-saler Hintergrundannahmen möglich, das ist ganz analog zu den Schlüs-sen auf die beste Erklärung. Die Annahmen bestehen etwa in der Vermu-tung, dass eine Homogenisierung vorliegt und dass empirische Vollstän-digkeit gegeben ist. Außerdem ist die kausale Theorie selbst als Vermu-

Page 552: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 540

tung zu nennen, nach der eine Ursache genau ein Faktor einer minima-len Theorie ist. Dafür gibt es zwar gute Gründe, aber letztlich handelt essich auch hierbei um eine empirische Vermutung und wohl nicht nur umeine analytische Behauptung. Jedenfalls hilft sie uns, in bestimmten Si-tuationen abduktiv zu erschließen, dass eine Ursache-Wirkungs-Bezie-hung vorliegt.

7.3 Probabilistische Kausalität und bayessche Netze

7.3.1 Probabilistische Ursachen und Reichenbachs Schlussregel

Einen anderen Zugang zur Kausalität, der zumindest nicht auf den De-terminismus angewiesen ist, sondern mit der Vorstellung verträglich ist,dass Ursachen einen probabilistischen Charakter haben können, bietendie probabilistischen Kausalkonzeptionen. Sie gehen vor allem davonaus, dass das Auftreten einer Ursache A die Wahrscheinlichkeit dafür er-höht, dass auch die Wirkung W auftritt. Wir bleiben dafür zunächst beidichotomen Zufallsvariablen bzw. qualitativen kausalen Faktoren A, B,...etc, die die Merkmale einer Situation beschreiben, die als Ursachen oderWirkungen in Frage kommen. Wir bleiben zunächst auf der Ebene dergenerellen Kausalität:

A ist Ursache von W gdw.(1) P(W|A) > P(W) oder äquivalent dazu(2) P(W|A) > P(W|~A)

Demnach muss eine Ursache vor allem die Wahrscheinlichkeit dafür er-höhen, dass die Wirkung auftritt, was wir hier durch die bedingtenWahrscheinlichkeiten ausdrücken. Man sagt auch, dass A und W nunkorreliert sind. Das ist allerdings zunächst eine symmetrische Beziehungzwischen A und W, aus der sich nicht erschließen lässt, was Ursache undwas die Wirkung ist.

Normalerweise werden wir dabei an objektive physikalische Wahr-scheinlichkeiten denken und natürlich nicht an die subjektiven Wahr-scheinlichkeiten des Bayesianers. Es geht uns darum, dass das Auftretenvon A die objektive Wahrscheinlichkeit von W erhöht und nicht nur dar-um, dass A einen Grund dafür bietet, anzunehmen, dass nun auch Wvorliegen wird. Insbesondere erscheinen dafür Propensitäten geeignet,die sich allerdings selbst schon recht nahe an bestimmten Kausalkonzep-ten orientieren, so dass jedenfalls die Gefahr besteht, mit (1) und (2) kei-ne reduktive Erläuterung von Kausalität zu erhalten (vgl. Kap. 7.3.4).Wir sollten daher zumindest immer im Blick behalten, dass es eine enge

Page 553: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

541 Thomas Bartelborth: Induktives Schließen

Verbindung auch der Propensitätenkonzeption zu relativen Häufigkeitengibt. Das beschreibt dann einen Weg, auf dem Kausalität mit beobacht-baren Größen zusammenhängt.

Eine Variante zu (1) und (2) bietet Humphreys (1989) an, wonachwir die Erhöhung der Wahrscheinlichkeit auf einen neutralen Zustand Nbeziehen sollten. Ob und welchen Beitrag ein Medikament tatsächlichzur Heilung liefert, wird dann besser dadurch beschrieben, dass wir for-dern, das Medikament müsse besser abschneiden als ein Placebo, unddie Gabe eines Placebos könnte z.B. als solch ein neutraler Zustand gel-ten.

(3) P(W|A) > P(W|N)

Es ist nicht immer klar, ob ein solcher Zustand existiert und ob er von(~A) verschieden ist, aber in vielen Fällen existieren naheliegende neu-trale Zustände und stellen eine interessante Alternative dar. Doch ichwerde dieser Komplikation hier nicht weiter nachgehen, sondern micheinfach auf ~A oder den allgemeinen Zustand ohne weitere Angabenüber A beziehen, wie das in (2) und (1) oben der Fall ist.

Jedenfalls finden wir die Idee, dass wir von solchen Korrelationenaus auf Kausalzusammenhänge schließen dürfen, oft in der Praxis wiederund schließen häufig sogar vorschnell aus Korrelationen auf kausale Be-ziehungen. Vielleicht können wir etwa beobachten, dass die Personen,die viel Zucker zu sich nehmen (Z) auch häufiger eine bestimmte Krebs-art entwickeln (K) als andere. Es gilt also:

(4) P(K|Z) > P(K)

Aber deutet das bereits auf einen kausalen Zusammenhang hin, nachdem Zucker Krebs verursacht? Von einer derartigen Schlussfolgerungsind wir natürlich noch weit entfernt. Zunächst einmal ist eine Korrela-tion wie schon gesagt symmetrisch. Die Bedingung (4) ist daher äquiva-lent zu:

(5) P(Z|K) > P(Z)

Es könnte also auch umgekehrt sein, dass der beginnende Krebs ein Ver-langen nach Zucker auslöst. Die Kausalbeziehung ist hingegen asymme-trisch und lässt sich schon deshalb aus probabilistischen Korrelationennicht einfach herauslesen. Aber es gibt auch noch ganz andere Möglich-keiten. Es kann überdies zu Korrelationen kommen, ohne dass sie voneiner Kausalbeziehung erzeugt werden, die die Faktoren miteinanderverbindet. So war über viele Jahre der Brotpreis in England mit dem

Page 554: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 542

Wasserspiegel in Venedig korreliert (vgl. Sober 2001, Arntzenius 2010),einfach weil beide kontinuierlich ansteigen, aber wir vermuten dahinternatürlich keinen kausalen Zusammenhang zwischen diesen beiden Grö-ßen.

Einen weiteren einfachen Zusammenhang finden wir in gemeinsamenUrsachen („common causes“). So treten etwa gelbe Finger und Lungen-krebs korreliert auf, ohne dass die gelben Finger krebsverursachend wä-ren. Man nennt das manchmal etwas verwirrend Scheinkorrelation, dochdie Korrelation ist echt, nur lässt sie sich nicht als Kausalbeziehung deu-ten. Wir sollten lieber von Scheinkausalität sprechen, denn die liegt nurscheinbar vor. Keiner der beiden Faktoren ist Ursache des anderen. Viel-mehr steht im Hintergrund eine gemeinsame Ursache von beiden Phäno-menen, die zu dieser Korrelation geführt hat, nämlich das vorhergehen-de Rauchverhalten der betreffenden Personen. Diese Einsicht hat zu Rei-chenbachs methodologischer Regel geführt, die man ungefähr wie folgtformulieren kann:

(RR) Reichenbachs Regel: Wenn zwei Faktoren A und B miteinanderkorreliert sind, so liegt einer der drei folgenden Fälle vor:1) A verursacht B oder2) B verursacht A oder3) Es gibt eine gemeinsame Ursache (einen „Common Cause“) C

für beide Faktoren.

Das ist sicher eine naheliegende anleitende Regel für die wissenschaftli-che Forschung. Im Normalfall werden wir bei vorliegenden Korrelatio-nen davon ausgehen, dass es dafür eine Ursache und damit auch eine Er-klärung gibt. Das könnte zugleich als typische methodologische Regelabduktiven Schließens betrachtet werden: Sobald eine Korrelation auf-tritt, muss es dafür eine (kausale) Erklärung geben. Dann beschreibendie drei Fälle unsere typischen Optionen. Wir könnten natürlich als wei-tere Hypothese noch eine Nullhypothese hinzunehmen, die schlicht be-sagt, dass die Korrelation ein reines Zufallsprodukt ist.

Oft können wir anhand weiteren Hintergrundwissens schon entschei-den, welche der Fälle plausibel sind und welche nicht. Allerdings stelltdie Regel selbst kein einfaches Schlussverfahren zur Verfügung, mit demwir definitiv entscheiden könnten, welcher der drei Fälle nun vorliegt.Insbesondere wissen wir oft nicht, welche mögliche gemeinsame Ursa-che hier verantwortlich für die Korrelation sein soll. Die stellt eventuelleine unbekannte und unerwünschte Störvariable für unsere Untersu-chung des Zusammenhangs von A und B dar.

Page 555: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

543 Thomas Bartelborth: Induktives Schließen

Auf vergleichbare Weise schließen wir dann in konkreten Einzelfäl-len, in denen uns besondere Ähnlichkeiten auffallen. Erhalten wir vonzwei Studenten a und b genau wortgleiche Klausuren, so werden wir et-wa annehmen, dass entweder a von b abgeschrieben hat oder umgekehrtoder dass es eine gemeinsame Quelle c für beide Texte gibt. Wir nehmenwiederum an, dass es eine Erklärung für diese Übereinstimmung gibt. Al-les andere wie ein reiner Zufall würde uns (zumindest in diesem Fall)doch sehr überraschen.

Ein Problem der oben genannten Regel ist, dass sie zunächst dieMöglichkeit vernachlässigt, dass die Gemeinsamkeiten bzw. die Korrela-tion durch Zufall entstanden sein kann. Selbst im Falle der Klausuren istdas nicht logisch ausgeschlossen, es erscheint uns hier nur sehr unwahr-scheinlich. Wir müssen also die Zufallshypothese möglichst ausschlie-ßen, indem wir etwa zeigen, dass das Resultat sehr unwahrscheinlich wä-re, wenn kein kausaler Zusammenhang vorgelegen hätte. Wir möchtendie Zufallshypothese durch die entstehende Erklärungsanomalie ganz imSinne der eliminativen Induktion bzw. des Schlusses auf die beste Erklä-rung eliminieren.

Typischerweise wird die Zufallshypothese daher unsere Nullhypothe-se in einem Signifikanztest sein. Dann werden wir erst wieder der rei-chenbachschen Regel folgen, wenn wir diese Nullhypothese signifikantwiderlegt haben, d.h., wenn sich die Korrelation schon als signifikant er-wiesen hat. Die Nullhypothese würde also etwa besagen, dass in derGrundgesamtheit keine Korrelation zwischen A und B vorliegt, sondernnur durch Zufall in unserer Stichprobe eine Korrelation zu beobachtenist. Ist die vorliegende Korrelation zu stark und damit signifikant, kön-nen wir diese „Erklärung“ für unsere beobachtete Korrelation als nichtstichhaltig im Sinne eines probabilistischen Schlusses zurückweisen. Da-bei sind allerdings wiederum die oben schon genannten Einschränkun-gen für derartige Hypothesentests zu berücksichtigen. Im Falle der bei-den Schüler werden wir die Zufallshypothese umso eher zurückweisen,umso identischer und länger die beiden Texte sind. Bereits das Alltags-wissen sagt uns, dass es sehr unwahrscheinlich ist, dass zwei Menscheneinen längeren in großen Teilen wortgleichen Text (womöglich noch mitdenselben Rechtschreibfehlern) unabhängig voneinander verfassen, auchwenn das natürlich nicht definitiv ausgeschlossen werden kann.

Allerdings zeigt schon das obige Venedigbeispiel, dass dieses Verfah-ren nicht immer zu korrekten Schlüssen führen wird. Auch in der Quan-tenmechanik finden wir systematische Verstöße der Natur gegen die rei-chenbachsche Regel. In EPR-artigen Situationen (mit verschränkten

Page 556: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 544

Quantenobjekten) stoßen wir auf strikte Korrelationen, die aber keinenCommon Cause aufweisen. Das sagt jedenfalls die Quantenmechanik,und das wird gestützt durch entsprechende Experimente, in denen dieBellsche Ungleichung getestet wurde, die dafür sprechen, dass es keineverborgenen Parameter gibt, die für die entsprechenden quantenmecha-nischen Vorgänge die Rolle einer gemeinsamen Ursache übernehmenkönnten. Das gilt jedenfalls unter der Annahme, dass keine echten Fern-wirkungen existieren, sondern Ursachen ihre Wirkungen nur mit endli-chen Geschwindigkeiten ganz im Sinne der Relativitätstheorie verbrei-ten. Man kann so letztlich zeigen, dass für genuin indeterministischeSysteme die reichenbachsche Regel nicht mehr gilt. Trotzdem scheint sieder beste Weg zur Ermittlung und Auszeichnung von Kausalbeziehungenfür viele makroskopische Bereiche der Wissenschaften zu sein. Sie dientuns daher normalerweise als Richtschnur in empirischen Untersuchun-gen.

Man könnte anhand der Reichenbachschen Regel schließen, A seiUrsache von B, wenn eine Korrelation zwischen A und B vorliegt, fürdie es keinen Common Cause gibt und wir anhand unseres Hintergrund-wissens ausschließen können, dass B A verursacht. Dazu müssen wirnoch genauer bestimmen, was wir unter einem Common Cause C verste-hen wollen bzw. wie wir feststellen können, dass etwas einen CommonCause darstellt:

(CC) Common Cause:C ist ein Common Cause für zwei Faktoren A und B gdw:(1) P(B|A) > P(B) und(2) P(B|A&C) = P(B|C) und(3) P(B|A&~C) = P(B|~C)

Das heißt, wenn wir schon wissen, dass der Common Cause C vorliegt,gibt uns A keine zusätzliche Information mehr über das Auftreten von B(und umgekehrt). Die Bedingung (3) wird oft weggelassen, aber erst siebesagt, dass die Zufallsvariablen A und B unabhängig sind für alle Werteder Zufallsvariablen C.

Sonst könnten wir zu seltsamen Schlussfolgerungen gelangen, wo-nach eine gewöhnliche Ursache in den Verdacht gerät, ein CommonCause zu sein. Nehmen wir z.B. an, A und C verursachen jeder für sichB. Klassisches Beispiel sind die zwei Todesschützen, die beide erfolgreichund damit tödlich auf ihr Opfer schießen (Schüsse: A und C), dass dabeizu Tode kommt (B). Nehmen wir dabei an, wir hätten einen klassischen

Page 557: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

545 Thomas Bartelborth: Induktives Schließen

Fall von echter Überdetermination vor uns, d.h., beide Ursachen reichenfür sich genommen aus, um B herbeizuführen.

Dann scheint es klar zu sein, dass wir intuitiv sowohl A wie auch Cals Ursachen von B betrachten müssen; obwohl selbst das manchmal an-gezweifelt wird. So behaupten Vertreter des kontrafaktischen Ansatzesmanchmal, die Fälle von Überdetermination wären unklar, weil ihr An-satz damit Probleme hat. Genau genommen müssen wir zunächst auf dieEbene der konkreten Instanzen unserer Faktoren gehen, denn nur dortfinden wir die Überdetermination. Ein Argument für ein Vorliegen einerechten kausalen Überdetermination sieht dann ungefähr so aus: Wirkönnen wohl zunächst sagen, dass unser B-Ereignis nicht unverursachtstattfand. Unser B-Ereignis ist nicht eines ohne kausale Vorgeschichte(wie das etwa für sogenannte Vakuumfluktuationen der Fall sein könn-te), sondern wird ganz offensichtlich durch die vorausgehenden Ereig-nisse beeinflusst. Weiterhin stehen das entsprechende A-Ereignis und dasentsprechende C-Ereignis in einer symmetrischen Situation zueinander,weshalb wir entweder beide oder keines als Ursache betrachten sollten.Kommen wir nun nicht auf die Idee, seltsame disjunktive Ereignisse wieein AC-Ereignis einzuführen, bleibt uns eigentlich keine andere Wahl,als beide als gewöhnliche Ursachen von B zu betrachten, sonst bliebe Bschließlich doch unverursacht.

In so einem Fall können (1) und (2) von (CC) erfüllt sein. Das Auf-treten von A-Ereignissen wird im Normalfall das Auftreten von B-Ereig-nissen wahrscheinlicher machen. Aber, wenn schon C-Ereignisse vorlie-gen, trägt A nichts Neues mehr zu unserem Wissen über das dann siche-re Auftreten von B-Ereignissen bei. Also würde C fälschlicherweise alsein Common Cause im Sinne der obigen Definition (CC) eingestuft,wenn wir nicht noch Bedingung (3) hätten (vgl. Baumgartner & Graß-hoff 2004). Tatsächlich trägt unsere Information, dass ein A-Ereignisstattfand, dazu bei, dass wir nun auf ein B-Ereignis schließen dürfen,wenn wir schon wissen, dass kein C-Ereignis stattfand. Es ist also geradeBedingung (3), die dafür sorgt, dass C hier nicht fälschlicherweise füreinen Common-Cause gehalten wird, was dazu führen würde, dass danndie Kausalbeziehung von A nach B nicht mehr erkannt würde.

Leider ist die Regel (CC) nicht immer so erfolgreich. Typischerweisewerden durch sie z.B. Zwischenursachen fälschlicherweise als gemeinsa-me Ursachen eingestuft. Nehmen wir an, eine Meldung über die angebli-che Zahlungsunfähigkeit des Bankhauses Superschlau (A) führe zu einerAngst der Anleger, dass diese Bank in Insolvenz gehen könnte (C) unddas verursache wiederum, dass die Kunden massiv Gelder bei Super-

Page 558: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 546

schlau abheben (B). Dann ist A eine Ursache von C und C eine von B,aber C erfüllt offensichtlich die Gleichungen (2) und (3). Das Wissen umdie negative Meldung über das Bankhaus Superschlau hilft uns nicht, Azu prognostizieren, wenn wir C schon kennen oder wissen, dass C nichtvorliegt, also schon wissen, dass die Meldung keine negativen Auswir-kungen auf die Gemüter der Kunden gehabt hat.

Das Entsprechende gilt auch in der anderen Richtung. Trotzdem istC keine gemeinsame Ursache von A und B, sondern nur eine Zwischen-ursache zwischen A und B. Hier stoßen wir auf das Problem, dass eszwei unterschiedliche Kausalstrukturen gibt: (a) ACB und (b)ACB, die probabilistisch beobachtungsäquivalent sind, d.h., die zu-mindest dasselbe Muster von Korrelationen bzw. statistischen Unabhän-gigkeiten zwischen den Zufallsvariablen A, B und C erzeugen. Allerdingskann es u.U. gelingen, die Äquivalenz wieder aufzuheben, indem manweitere Zufallsvariablen ins Spiel bringt. Gelingt das nicht, müssen wirweiteres Hintergrundwissen auch über das zeitliche Auftreten der In-stanzen unserer Faktoren ins Spiel bringen, um zu klären, ob Fall (a)oder (b) vorliegt.

7.3.2 Simpsons Paradox und probabilistische Verursachung

Ein weiteres Problem für das probabilistische kausale Schließen mitpraktischen Auswirkungen finden wir im sogenannten Simpson Paradox.Hierbei überlagern sich zwei (oder mehr) Ursachen so, dass sie zu über-raschenden Ergebnissen führen. Nehmen wir dazu ein einfaches fiktivesBeispiel: Bei der Beobachtung von 100 regelmäßigen Alkoholtrinkern(A) (etwa als Zufallsstichprobe unter allen Alkoholtrinkern auszuwäh-len) stellen wir fest, dass nur 10 von ihnen im Laufe von drei Jahreneinen Krebs (K stehe für eine kleine Krebsrate) entwickeln, während beider Beobachtung von 100 Abstinenzlern 20 in demselben Zeitraumeinen Krebs entwickeln.

Also scheint das Alkoholtrinken überraschenderweise eine starkeSchutzfunktion gegen Krebs aufzuweisen, halbiert es doch die Krebsrate.Jedenfalls gilt: P(K|A)>P(K|~A). Aber so schön ist das Leben meistensnicht. Dahinter verbergen sich vielleicht ganz andere Zusammenhänge.Nehmen wir z.B. an, unter den 100 Alkoholtrinkern wären 80 Jugendli-che, weil das Alkoholtrinken bei denen gerade besonders in Mode ist,während nur noch 20 ältere Menschen dabei sind, weil bei denen dasAlkoholtrinken viel seltener vorkommt. Bei den Abstinenzlern sei dasVerhältnis dann genau anders herum (80 Ältere und 20 Jüngere). Dannkönnte folgendes passiert sein: Die hohen Krebsraten bei den Abstinenz-

Page 559: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

547 Thomas Bartelborth: Induktives Schließen

lern könnten eine Folge davon sein, dass unter ihnen viel mehr ältereMenschen zu finden sind und diese eben deutlich häufiger Krebs bekom-men als jüngere Menschen. Die Zahlenverhältnisse könnten so wie inunserer Tabelle aussehen:

Alkoholtrinker Abstinenzler

Krebsfälle

jung alt jung alt80 20 20 805

(6,25%)5

(25%)1

(5%)19

(24%)zusammen 10 20

Tabelle 7.6: Ein Beispiel für das Simpson-Paradox

Schauen wir uns nun noch einmal diese Tabelle genauer an. Tatsächlichist in jeder der beiden Gruppen für sich genommen (sowohl bei den Jun-gen und wie bei den Alten) die Krebsrate der Alkoholtrinker leicht er-höht gegenüber der von den Abstinenzlern. Die Tabelle gibt also bei ge-nauerer Betrachtung keinen Anhaltspunkt mehr dafür, dass Alkoholgegen Krebs (K) helfen könnte, denn die Wahrscheinlichkeiten (bzw. re-lativen Häufigkeiten) für Krebs sind in den beiden Untergruppen jeweilsfür die Alkoholtrinker ganz leicht erhöht. Im Gegenteil scheint er alsoeher (ein wenig) schädlich zu sein. Das deutet wieder darauf hin, dasswir unsere einfache Gleichung für UrsachenverhältnisseP(K|A)>P(K|~A) in unserem Fall ergänzen müssen. Wir müssen anderefür die Krebsrate relevante Faktoren berücksichtigen, vor allem, wennsie eine Korrelation mit unserem Prüffaktor A (dem Alkoholtrin-ken/Nicht-trinken) aufweisen, was in unserem Fall vorliegt, da geradedas Alter (B) ein solcher Faktor ist, weil in unserem Beispiel de factomehr Junge als Alte Alkohol trinken und sie mit ihren niedrigen Krebs-raten die Krebsrate der Trinker deutlich verbessern. Hier sind zwei kau-sale Faktoren miteinander korreliert und sorgen so für eine möglicheKonfusion. Als neue Anforderung für die Wirksamkeit von non-A füreine hohe Krebsrate K sollte daher stehen:

(6) P(K|A&B) > P(K|~A&B) und P(K|A&~B) > P(K|~A&~B),

d.h. bei Vorliegen und bei Abwesenheit des zweiten Faktors B sollte je-weils A seine Wirksamkeit in einer erhöhten Wahrscheinlichkeit für Kzeigen. Erst dann dürfen wir ihn als Ursache von K einstufen. Faktor Bkönnte hierbei sogar ein Common Cause von A und K sein, was wieder-um deutlich macht, dass es sich um einen potentiellen Störfaktor han-delt. Bedingung (6) stellt somit wieder eine Form der Homogenisierungbzgl. K dar, die wir benötigen, um die Wirkung von A relativ zu non-A

Page 560: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 548

jeweils in einer ansonsten bzgl. K homogenen Umgebung zu ermitteln.Statistiker sprechen hier davon, dass A nicht unbedingt in der Gesamt-population eine niedrige Krebsrate nach sich ziehen muss, aber doch inden relevanten Subpopulationen, die hier durch B und non-B gegebensind. Nur dann könnten wir A als eine Ursache von K betrachten. Dadas in unserem Beispiel nicht gegeben ist, spricht das dagegen, dass Ahier gegen K hilft. Außerdem wäre es schon ein Hinweis auf eine kausa-le Wirkung von A auf K, wenn nur eine der beiden Ungleichungen Be-stand hätte, denn dann hätte A zumindest noch eine wahrscheinlich-keitserhöhende Wirkung in einer bestimmten Umgebung, wobei auchwieder zwei homogene Situationen miteinander verglichen würden.Dann wäre A zumindest wohl unter diesen Bedingungen eine Ursachevon K.

Allerdings könnte es noch weitere Störfaktoren F1,...,Fn geben, dieunser Ergebnis immer noch irreführend gestalten könnten. Die müsstenwir dann ebenfalls berücksichtigen. Wir suchen schließlich nach dergrößten gerade noch homogenen Subpopulation, um die Wirkung von Aauf K zu ermitteln. Erst wenn A seine Wirkung auf K jeweils in all die-sen Subpopulationen entfaltet, dürfen wir A als Ursache von K anneh-men. Hierbei gehen wir wiederum (wie im Falle der Propensitätendebat-te) davon aus, dass sich die Menge aller für K kausal relevanten Fakto-ren Fi als endliche Menge erweist, die zumindest im Prinzip in unsererUngleichung angebbar sind.

Wählen wir noch ein weiteres konkretes Beispiel, in dem wir schonwissen, dass tatsächlich eine Kausalbeziehung vorliegt. Rauchen (R) ver-ursacht Lungenkrebs (L). Damit das nachgewiesen werden kann undwiederum nicht nur eine Simpson-Paradox-Situation vorliegt, müssenwir im Prinzip für alle Faktoren Fi und ihre Kombinationen (hier gege-ben etwa durch die Vollkonjunktionen der Aussagen Fi), die für das Auf-treten von L möglicherweise relevant sind, verlangen, dass eine entspre-chende Ungleichung vorliegt, d.h., wir müssen wie im deterministischenFall eine weitergehende Homogenisierung der Bedingung vornehmen, fürdie dann zwei Situationen miteinander verglichen werden, nämlich ein-mal mit R und einmal ohne R:

(7) R ist Ursache von L gdw.Fi in allen möglichen -Konstellationen gilt:P(L|R&F1&...&Fn) > P(L|~R&F1&...&Fn)

In dieser Richtung geht auch Humphreys (1989). Damit würden wir dasAuftreten von gemeinsamen Ursachen bereits mitberücksichtigen, denn

Page 561: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

549 Thomas Bartelborth: Induktives Schließen

die wären schließlich ebenfalls bestimmte Faktoren Fi für die (7) nichtmehr gelten würde. Wir würden somit Fehlschlüsse aufgrund vonScheinkausalität vermeiden.

Leider müssen wir (7) sogleich wieder einschränken. Zwischenfakto-ren, die in der Kausalkette zwischen R und L liegen, dürfen natürlichnicht homogenisiert werden, weil sonst die Wirkung von R an dieserStelle wieder gestoppt würde. Geht es z.B. darum, ob Aspirin eineschmerzstillende Wirkung besitzt, dürfen wir nicht über den Faktor derASS-Konzentration im Blut homogenisieren. Halten wir die nämlichkonstant, wird sich kein Unterschied zeigen zwischen der Situation, inder wir Aspirin nehmen, und der, in der wir das nicht tun. Die Bedin-gung (7) verlangt aber, dass wir tatsächlich alle anderen für L kausal re-levanten Bedingungen Fi im Blick haben, weshalb diese Vorgehensweisenoft explizit auf eine vorgegebene Menge von Faktoren relativiert wer-den.

Wir können dann wieder allgemeiner formulieren: Welche Bedingun-gen müssen erfüllt sein, damit wir sagen können, dass A eine (probabilis-tische) Ursache von W ist? Nehmen wir zunächst an, wir hätten schoneine Menge von Faktoren, die vermutlich alle für L kausal relevantenFaktoren zumindest mit enthält (außer den Zwischenfaktoren zwischenA und W), und wir möchten nun nur noch untersuchen, welche davontatsächlich wirksam sind. Von dieser Grundannahme geht praktisch je-der Ansatz zum kausalen Schließen mehr oder weniger aus, denn wenngänzlich unbekannte Faktoren im Spiel sind, wird es sehr schwierig, kor-rekte kausale Schlüsse zu ziehen. Haben wir nicht einmal eine Vorstel-lung von dieser Menge der in Frage kommenden Faktoren, bleibt alsunser einziger Trick dann nur noch die Randomisierung, die aber leidernicht zuverlässig das leistet, was wir wünschen (s. Kap. 7.3.13). Es seinun also ={A,F1,...,Fn}, dann können wir etwa festlegen:

(KR) Kausale Relevanz: Ein Faktor A ist kausal relevant für einen an-deren Faktor W, wenn Folgendes gilt:

(i) = {A,F1,...,Fn} ist eine Menge von Faktoren, die (unter ande-rem) alle für W direkt kausal relevanten Faktoren enthält(außer den Zwischenfaktoren zwischen A und W).

(ii) Es gibt zumindest eine Konstellation S F1&...&Fn von Fak-toren, für die gilt: P(W|A&S) > P(W|S).

Man könnte sagen, dass diese Definition von kausaler Relevanz diese aufdie Menge relativiert, aber wir möchten uns schließlich wieder mög-lichst von solchen Relativierungen befreien. Deshalb habe ich gleich eine

Page 562: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 550

recht große Menge gewählt, für die nur noch verlangt wird, dass allerelevanten Faktoren tatsächlich dort enthalten sind. In vielen Fällen ver-fügen wir zumindest über eine begründete Vermutung, welche Faktorenüberhaupt relevant für eine Wirkung W sein könnten und können diedann einbringen. Dadurch, dass wir sehr groß wählen, dürfte die Re-lativierung auf nicht mehr ganz so gravierend ausfallen, da wir nichtgenau wissen müssen, welche Faktoren tatsächlich kausal wirksam sind(das wollen wir schließlich erst herausfinden), sondern nur noch, welcheüberhaupt als mögliche Ursachen in Frage kommen, und dabei könnenwir großzügig vorgehen.

Ein weiterer wichtiger Schritt ist hier die Abschwächung der früherenAnforderungen an Kausalbeziehungen in (7). Wir verlangen in dieserDefinition nicht mehr, dass A unter allen Umständen, bzw. in allen Sub-populationen kausal relevant ist, sondern nur noch, dass es zumindesteine solche Subpopulation gibt, in der A seine Wirksamkeit zeigt. Damitkönnen wir zum einen der Tatsache Rechnung tragen, dass einige derFaktoren Kofaktoren oder Zwischenursachen sein könnten. Zum ande-ren könnte es der Fall sein, dass ein Faktor zwar unter bestimmten Um-ständen zur Wirkung kommt, aber nicht unter allen. Unter einigen Um-ständen könnte er sogar kontraproduktiv sein. Dann würden wir ihntrotzdem weiterhin als kausal relevant ansehen. Die Forderung vonHumphreys (1989) nach einer Wirksamkeit unter allen Bedingungenstellt unnötig starke und unrealistische Anforderung an eine kausale Re-levanzbeziehung. Die schwächere Forderung wird manchmal so be-schrieben, dass kausale Relevanz kontextuell sein kann, d.h., je nach spe-zieller Situation zum Tragen kommt oder in anderen Situationen ebennicht zum Tragen kommt. Wir dürfen jedenfalls nicht bereits in einerAnalyse von Kausalität voraussetzen, dass kausale Faktoren in jedemKontext ihre Wirksamkeit entfalten, wenn sie überhaupt jemals wirksamsind.

Haben wir z.B. ein Medikament M, das für bestimmte Personengrup-pen P Grippe heilen kann, aber für andere nicht oder sogar die Krank-heit im Extremfall für andere Personengruppen P* sogar verschlimmert,so werden wir trotzdem sagen, dass M kausal relevant für die Grippe ist.Auch an einem solchen Medikament wären wir natürlich sehr interes-siert. Allerdings kann es leicht zu epistemischen Problemen kommen,denn wenn wir normalerweise in unseren Populationen immer einenMix von Personen aus den Gruppen P und P* vorfinden, könnte diepositive Wirkung von M dadurch völlig überdeckt werden. Die mit Mbehandelten Personen genesen dann vielleicht im Durchschnitt genauso

Page 563: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

551 Thomas Bartelborth: Induktives Schließen

langsam oder sogar noch langsamer als die Personen, die nur einen Pla-cebo erhalten haben. Sollten wir also die unterscheidenden Merkmalefür Personen vom Typ P und solche vom P* nicht kennen und daher kei-ne entsprechenden Experimente nur für diese Gruppen durchführenkönnen, droht unser Medikament schnell wieder verworfen zu werden.Hier hilft natürlich auch keine Randomisierung. Und das tut der Tatsa-che keinen Abbruch, dass wir M als wirksames Medikament betrachtenwürden, wären uns die tatsächlichen Fakten bekannt. Mehr verlangenwir von kausal relevanten Faktoren nicht. Sie müssen zumindest in be-stimmten Situationen eine bestimmte Wirkung haben. Also sind auchkontextuell kausal relevante Faktoren kausal relevante Faktoren.

Die Menge sollte so gewählt sein, dass zunächst zumindest allekausal relevanten Faktoren für die Wirkung W mit enthalten sind. AlsApproximation würde es aber schon genügen, wenn die gewichtigerenFaktoren enthalten sind. Typischerweise nehmen wir in der Wissenschafterfolgreich an, dass für einen bestimmten Effekt nur wenige Faktoreneinen gewichtigen Einfluss haben. Das ist ist praktisch eine transzenden-tale Annahme für unsere Forschungstätigkeit (s. Kap. 5.4.7). Doch dasProblem der approximativ vollständig gewählten Menge möchte ichhier nicht weiter verfolgen. Denken wir uns lieber gleich als vollstän-dig. Wir können die Menge dann wieder verkleinern.

Nehmen wir etwa an, die gesamte kausale Struktur sei durch eineReihe von Kausalketten organisiert, die sich zwar kreuzen dürfen, aberkeine Zirkel enthalten. Dann benötigen wir in genau genommen nurdie direkten Ursachen von W (seine kausalen Eltern) und können die in-direkten (die kausalen Vorfahren der Eltern von W) außen vor lassen,denn wir denken uns Kausalität im Regelfall so, dass vorhergehendeUrsachen nur über die Zwischenursachen auf spätere Ereignisse wirken,so dass nicht noch zusätzlich die vorhergehenden Ursachen das Ergebnisbeeinflussen. Das ist die Idee der kausalen Markov-Bedingung, die wirspäter noch kennenlernen werden. Nur die direkt wirkenden Faktorensind zu berücksichtigen. Das werden wir später weiterverfolgen, um wie-der etwas mehr Übersicht in unsere Überlegungen zu bringen. Wir müs-sen dann in (KR) nur für die direkten kausalen Ursachen von W die ent-sprechenden Homogenisierungen betrachten.

Es läuft also darauf hinaus, dass wir in (KR) möglichst große, aberbzgl. W noch homogene Subpopulationen Sj F1&...&Fn betrachten,wobei wir nur die kausalen Eltern von W berücksichtigen müssen, denneine weitere Unterteilung dieser Populationen würde keine Veränderungder Wahrscheinlichkeit von W bewirken. So würden wir als Elementar-

Page 564: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 552

zellen unserer Zerlegung die größten relativ zu W objektiv homoge-nen Zellen aus der Gesamtpopulation auswählen. Das setzt natürlich einweiteres Hintergrundwissen voraus, über das wir manchmal nicht verfü-gen und deshalb würde es schon genügen, wenn zumindest alle für Wrelevanten Faktoren enthält und eventuell noch einige mehr, die genaugenommen überflüssig sind.

7.3.3 Die Stärke der probabilistischen VerursachungFür solche probabilistischen Konzeptionen wird verständlicherweisehäufig nach einem probabilistischen Maß für die Stärke der Ursachen inBezug auf die Wirkung gefragt. Leider ist die Antwort nicht ganz so ein-fach, und es wurden etliche unterschiedliche Maße vorgeschlagen, vondenen einige etwa bei Fitelson (2011) aufgeführt und verglichen wer-den. In unserem Fall, in dem A kausal relevant für W ist und in dem eseine Situation S F1&...&Fn geprägt durch die Faktoren Fi gibt, fürdie wir dann P(W|A&S)>P(W|S) finden, liegt es nahe, zunächst diespezielle Wahrscheinlichkeitserhöhung für W durch A vorzuschlagen:

Stärke(A,W) = P(W|A&S)–P(W|S)

Dieser Wert ist natürlich zu relativieren auf die spezielle Situation S. In Shat A eine bestimmte wahrscheinlichkeitserhöhende Wirkung für dasAuftreten von W. Man kann das Ganze natürlich auch für eine Popula-tion Q angeben, in der unterschiedliche Situationen Sj mit unterschiedli-chen relativen Häufigkeiten auftreten und erhalten dann den entspre-chenden gewichteten Durchschnittswert der unterschiedlichen Wirkun-gen von A:

Stärke(A,W;Q) = j (P(W|A&S)–P(W|S)) P(Sj)

Leider haben die so gewonnenen Maße einen kleinen Schönheitsfehler.Sie geben nicht unbedingt die Stärke an, mit der A W hervorruft, dennes hängt davon ab, in welchem Ausmaß W bereits durch S hervorgerufenwird. Je eher S dazu neigt, W hervorzurufen, umso kleiner wird die Stär-ke(A,W) ausfallen. Das könnte man einen Basiseffekt nennen, der ver-hindert, dass wir den unverfälschten Einfluss von A auf W bestimmen.Patricia Cheng (1997) hat das Maß etwa noch durch den WertP(~W|~A) geteilt, wodurch der Basiseffekt umgangen werden könnte.Allerdings hat das ursprüngliche Maß schöne Eigenschaften, die ChengsMaß nicht mehr aufweist, wie z.B. dass es sich für kausal unabhängigeUrsachen additiv verhält (vgl. Fitelson 2011).

Page 565: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

553 Thomas Bartelborth: Induktives Schließen

Wir bleiben daher hier bei dem Maß: Stärke(A,W), da es zumindestfür eine konkrete Situation den zusätzlichen Beitrag von A für die Erzeu-gung von W beschreibt. Es weist auch einen gewissen Zusammenhangzu unserer Konzeption abduktiven Schließens auf, bei der uns die Likeli-hoods P(W|H) für eine Hypothese H einen Aspekt der Erklärungsstärkeliefern sollen. Damit hängen nun die kausale Stärke von A und die Er-klärungskraft einer Erklärung mit Hilfe von A in enger Weise zusam-men, was wiederum für dieses spezielle Maß spricht.

7.3.4 Wahrscheinlichkeiten und relative Häufigkeiten

Wichtig ist allerdings noch die Frage, von welcher Art von Wahrschein-lichkeit wir hier jeweils mit „P“ sprechen. Idealerweise sollte es sich umeine objektive Wahrscheinlichkeit im Sinne von Propensitäten handeln.Doch die sind uns nur sehr indirekt zugänglich. Zunächst einmal habenwir es bei unseren Daten mit realen relativen Häufigkeiten in einer rea-len Grundgesamtheit G zu tun, die allerdings selbst wieder die kausalenVerhältnisse verzerrt wiedergeben kann. So könnten zufälligerweise in Gbestimmte Kofaktoren fast völlig fehlen oder es könnten Korrelationenvorliegen, die entweder bloß zufällig sind oder auf irgendwelche Fakto-ren zurückzuführen sind, die außerhalb unseres Blickfeldes liegen. Dannhaben wir kaum eine Chance, die entsprechenden Kausalverhältnisse inG aufzudecken. Oder Krankheit K mag in Wahrheit etwa mit einer Ten-denz von 80% tödlich sein, aber in der Grundgesamtheit G gibt es viel-leicht nicht viele Fälle von K und die sind zufälligerweise de facto nur in20% der Fälle tödlich. Für genuin probabilistische Kausalzusammenhän-ge kann so etwas schließlich passieren. Doch uns geht es nicht um die20% in G, sondern um die 80% Tendenz, die eigentlich für K besteht.Sie wäre auch der richtige Wert für Vorhersagen und nicht die de factovorfindbare 20%-Quote von Todesfällen bei K. Sie bietet auch den rich-tigen Wert für die Stärke der Kausalbeziehung, die uns interessiert.

Um uns hier (ähnlich wie im deterministischen Fall) schlicht auf eineGrundgesamtheit G beziehen zu können, müssten wir wieder eine Artvon empirischer Vollständigkeitsannahme ins Spiel bringen, wonach Gdie tatsächlichen kausalen Tendenzen korrekt widerspiegelt. Alle kausalmöglichen Konstellationen müssten verwirklicht sein, und sie müssen zu-sätzlich mit den richtigen relativen Häufigkeiten verwirklicht sein. Wirkönnten das als die kausale Repräsentativitätsannahme für G bezeich-nen. Unsere Grundgesamtheit muss kausal repräsentativ sein, dann kön-nen wir mit „P“ hier die relativen Häufigkeiten in der GrundgesamtheitG bezeichnen, und nur dann können wir auch erwarten, allein anhand

Page 566: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 554

der relativen Häufigkeiten in G anhand von (KR) auf die kausalen Bezie-hungen der Faktoren schließen zu können.

Viele Grundgesamtheiten sind recht groß, weshalb wir dann viel-leicht erwarten dürfen, dass G approximativ kausal repräsentativ ist. Injedem Fall kann uns kein Verfahren mehr als das garantieren. Sollte dieNatur uns „systematisch hinters Licht führen“, indem eigentlich zu 80%tödliche Krankheiten tatsächlich nur in 20% der Fälle tödlich enden, sohaben wir kaum Chancen, das mit irgendeinem kausalen Schlussverfah-ren zu korrigieren.

Wir können uns das so vorstellen, dass unsere Grundgesamtheit Geine Art von großer „Stichprobe“ aus einer imaginären und unendlichHypergesamtheit H darstellt, in der alle kausalen Beziehungen mit denrichtigen Zahlenverhältnissen repräsentiert sind. Bei großen Anzahlensollte unsere „Stichprobe“ G einigermaßen repräsentativ für H sein.

Jedenfalls beobachten wir nur die relativen Häufigkeiten in der rea-len Grundgesamtheit G und müssen die zugrundeliegenden Wahrschein-lichkeiten P in Form der zugrundeliegenden Propensitäten daraus erstnoch erschließen. Außerdem müssen wir uns normalerweise selbst für Gwieder auf eine deutlich kleinere Zufallsstichprobe S stützen, und habenvon S auf die Verhältnisse in G (bzw. auf die basalen Propensitäten) zuschließen. Das zeigt noch einmal die unterschiedlichen Fehlerquellenauf, die beim Schließen aus den Daten auf die sie erzeugenden Kausalzu-sammenhänge zu berücksichtigen sind.

Dazu sind jeweils Mittel der schließenden Statistik vonnöten. Umeine Ungleichung wie P(W|F*&S)>P(W|S) zu überprüfen, werden wiretwa die Nullhypothese P(W|F*&S)=P(W|S) mit unseren Daten ver-gleichen, und nur wenn wir sie statistisch falsifizieren können, die Un-gleichung als gegeben akzeptieren. Oder wir arbeiten mit entsprechen-den Konfidenzintervallen.

Mit (KR) ist also eine erste Definition für die kausale Relevanz eineseinzelnen Prüffaktors gelungen. Aber verfügen wir damit bereits überein Schlussverfahren? In Analogie zum Differenztest des deterministi-schen Falls können wir auch hier schließen. Wenn es uns gelingt, zweibzgl. der Ursachen von W homogene Situationen S1 und S2 herzustel-len, die sich nur in A unterscheiden, können wir wie im Falle des Diffe-renztests vorgehen. Allerdings müssen wir hier Differenzen von Wahr-scheinlichkeiten feststellen und das gelingt letztlich nur durch zahlreicheWiederholungen. Während wir im deterministischen Fall die Wiederho-lungen nur als Hinweise benötigten, dass die Homogenitätsbedingungerfüllt ist, benötigen wir die Wiederholungen beider Situationen hier,

Page 567: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

555 Thomas Bartelborth: Induktives Schließen

um auf die zugrundeliegenden Wahrscheinlichkeiten zurück zu schlie-ßen, die zu den relativen Häufigkeiten in unseren Stichprobenergebnis-sen geführt haben.

Dazu können wir etwa auf die schon erwähnten Signifikanztests zu-rückgreifen. Oder wir arbeiten mit Konfidenzintervallen zum Niveau 1– und gehen dann davon aus, dass (KR) erfüllt ist, wenn das Konfidenz-intervall zur wiederholten Situation S1 (mit A) oberhalb des Konfidenz-intervalls von S2 liegt und sich die Intervalle somit nicht überschneiden.Dadurch kommen also neue Komplikationen gegenüber dem determinis-tischen Fall ins Spiel, die vor allem in der schließenden Statistik behan-delt werden, aber die Grundidee bleibt hier noch dieselbe: Wir verglei-chen zwei bzgl. W ansonsten homogenisierte Situationen, die sich nur inA unterscheiden, daraufhin, ob sie sich auch in W (bzw. der Wahrschein-lichkeit für W) unterscheiden. Ist das in den (signifikant) meisten Instan-zen der beiden Situationen der Fall, so halten wir die kausale Relevanzvon A für W für gegeben.

7.3.5 Probabilistische singuläre Verursachung

Das Schließen auf singuläre Kausalbeziehungen wird allerdings noch ein-mal deutlich erschwert durch die Aufgabe des Determinismus. Im Falledes Determinismus konnten wir schließen: Wenn A kausal relevant fürW ist und eine Instanz a von A vorliegt, für die auch alle Kofaktorenvon A instantiiert sind, dann verursacht diese Instanz von A definitiv dasAuftreten einer Instanz w von W. Gibt es nur ein solches W-Ereignis win dem entsprechenden Raum-Zeit-Gebiet, so ist a eine Ursache von w.Es könnte sich zusätzlich noch um einen Fall von Überdeterminationhandeln, wonach zusätzlich eine andere Ursache b von e vorliegt, aberwir wissen trotzdem definitiv, dass a eine Ursache von e ist.

Das ist im probabilistischen Fall viel schwieriger. Gibt es mehrerepotentielle probabilistische Ursachen, werden wir oft nicht ermittelnkönnen, welche davon tatsächlich wirksam war. Dass das durchaus prak-tische Bedeutung haben kann, offenbart das folgende Beispiel: Im Jahre1999 wurde das Schmerzmedikament Vioxx in den Markt eingeführt,generierte schon bald Milliardenumsätze und wurde 2004 wieder vomMarkt genommen, weil sich gezeigt hatte, dass es u.a. die Wahrschein-lichkeit von Herzinfarkten erhöht. Die Angehörigen derjenigen Patien-ten, die nach längerer Einnahme von Vioxx am Herzinfarkt gestorbenwaren, klagten gegen den Hersteller Merck auf Schadenersatz. In denUSA bekamen sie Millionensummen zugesprochen, nicht aber inDeutschland. Das Problem war jedes Mal der Nachweis im Einzelfall,

Page 568: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 556

dass die Einnahme von Vioxx die tatsächliche Ursache des jeweiligenHerzinfarktes war. Es gibt neben Vioxx viele andere Risikofaktoren fürHerzinfarkt, und wir wissen, dass selbst junge Menschen manchmalüberraschend daran versterben. Bei älteren Personen sind mehrere Risi-kofaktoren meist schon deutlicher erkennbar, wie etwa erhöhte Choles-terinwerte, so dass es im Einzelfall kaum noch zwingend nachweisbarist, dass der eine oder der andere Faktor einen konkreten Herzinfarktausgelöst hat, denn beide kennen wir nur als probabilistische Faktoren,die einen Herzinfarkt begünstigen, aber nicht unbedingt jedes Mal her-beiführen. Ob sie also tatsächlich an der Erzeugung eines Herzinfarktesbeteiligt waren, wissen wir daher oft nicht. Diese Unsicherheit ist denKlägern in Deutschland regelmäßig zum Verhängnis geworden.

Am besten kann in solchen Fällen vermutlich der Prozessansatz derKausalität die singulären Zusammenhänge beschreiben. Wir müssten imPrinzip aufzeigen, welcher genaue Prozess stattgefunden hat, der von anach w führte. Haben wir darüber aber keine speziellen Informationen,und es gibt mehrere mögliche probabilistische Ursachen, können wirnicht mehr definitiv entscheiden, welche davon tatsächlich wirksamwurde und welche nur potentiell blieb.

Machen wir uns das noch einmal an einem einfachen Beispiel klar.Nehmen wir an, wir hätten einen gezinkten Würfel mit einem kleineneingebauten Bleiplättchen auf Seite der Eins, so dass die Wahrscheinlich-keit eine Sechs zu würfen 1/5-tel wäre. Nun würfeln wir tatsächlich eineSechs. Ist in diesem konkreten Fall das eingebaute Bleiplättchen eine(Mit-) Ursache für diese Sechs? Auch ohne das Plättchen würden wir hinund wieder eine Sechs werfen, woher wissen wir also, dass diese Eigen-schaft des Würfels bzw. des Wurfes für unser Ergebnis kausal wirksamwurde? Ohne exaktere Informationen über den Vorgang dieses speziel-len Würfels lässt sich das nicht entscheiden. Haben wir die, könnte esdeshalb entscheidbar sein, weil wir das Beispiel eigentlich als einen de-terministischen Vorgang deuten.

Stellen wir ihn uns aber genuin indeterministisch vor, scheint die Fra-ge nicht mehr sinnvoll beantwortbar zu sein. Wir könnten eigentlich nursagen, dass wir dann die Verfälschung des Würfels in jedem Fall als eineTeilursache betrachten sollten, wenn keine speziellen Informationen da-gegen sprechen. Nur in der komfortablen Situation, dass wir alle ande-ren potentiellen Ursachen ausschließen können, können wir ein Ereignisbzw. einen Faktor dann definitiv als Ursache bezeichnen, obwohl er nurprobabilistisch wirkt. Es bleibt für diese Entscheidung schließlich wiedernur eine Abwägung im Sinne eines Schlusses auf die beste Erklärung üb-

Page 569: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

557 Thomas Bartelborth: Induktives Schließen

rig, wonach unser bester Tipp für eine Verursachung das Ereignis primärnennt, dass die Wirkung am besten erklärt, das also kausal deutlich amstärksten dazu beiträgt.

Aber selbst in diesem Fall wird man die anderen potentiellen Ursa-chen vermutlich als beitragende Ursachen für den Einzelfall ansehenmüssen, wenn es nicht spezielle Hinweise darauf gibt, dass sie dort nichtzum Tragen kamen. Es scheint in solchen Fällen also noch nicht einmalTatsachen zu geben, die die Frage entscheiden würden, welche der genu-in probabilistischen Ursachen zum Zuge kam. Wir müssen hier schließ-lich festlegen, was wir eigentlich unter singulärer probabilistischer Kau-salität verstehen wollen. Denken wir uns diese probabilistischen Ursa-chen zumindest als irgendwie beitragend, wäre es jedenfalls nur konse-quent und passend zum deterministischen Fall sie schlicht als Ursacheneinzustufen, wie wir das auch im deterministischen Fall für die Kofakto-ren taten. Die Kläger im Vioxx-Fall sind dann womöglich u.a. an einemungeeigneten Verständnis von singulärer probabilistischer Verursachunggescheitert. Es wurde von ihnen etwas Unmögliches verlangt. Man kannin diesen Fällen höchstens noch fragen, in welchem Maße die Teilursa-chen jeweils zum Herzinfarkt beigetragen haben und sich dafür auf dieStärke der verschiedenen Kausalfaktoren beziehen.

Gerade für den Bereich der singulären Kausalität scheinen klassischekontrafaktischen Ansätze zur Kausalität (vgl. Lewis 1973 oder Kvart2001) besser geeignet zu sein, zu explizieren, was wir mit der direktenVerursachung eines Ereignisses meinen. Schwieriger ist dann allerdingsdie Frage zu beantworten, wie wir diese konkreten kontrafaktischen Zu-sammenhänge ermitteln sollen. Eine hilfreiche Idee ist jedenfalls, dass e1

Ursache von e2 ist, wenn gilt, dass e2 nicht so stattgefunden hätte, wenne1 nicht der Fall gewesen wäre. Allerdings bleiben die sogenanntenPreemption-Probleme, die Überdetermination und andere Fragen weiterzu diskutieren, wozu ich an anderer Stelle schon einiges gesagt habe(vgl. Bartelborth 2007). Außerdem handelt es sich wie gesagt zu einemTeil schon um ein Problem der Definition der Kausalbeziehung in sol-chen Fällen und nicht nur um eines des kausalen Schließens.

Schon im Falle der Überdetermination zeigen sich die Grenzen deskontrafaktischen Ansatzes. Verursachen etwa zwei weggeworfene Ziga-retten (z1 und z2) einen Waldbrand (w), wobei jede der Zigaretten fürsich bereits den Waldbrand ausgelöst hätte (vgl. Woodward 2003), dannwird die kontrafaktische Abhängigkeit des Ereignisses w von z1 und z2

nicht sichtbar, weil, auch wenn eines der beiden Ereignisse nicht stattge-funden hätte, trotzdem der Waldbrand ausgebrochen wäre, da schließ-

Page 570: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 558

lich die andere Zigarette dafür genügte. Um die hier versteckte kontra-faktische Abhängigkeit doch wieder sichtbar werden zu lassen, müssenwir schon einige Verrenkungen anstellen.

Woodward (2003) diskutiert einen Vorschlag, wie man sie dadurchsichtbar werden lässt, dass man kontrafaktische Situationen betrachtet,die gegenüber der aktuellen Situation nur Veränderungen in ganz be-stimmten Variablen und in bestimmten Bereichen erlauben. In unseremBeispiel wird die kontrafaktische Abhängigkeit natürlich dann erkenn-bar, wenn wir uns fragen, welche Auswirkungen z1 versus non-z1 hätte,sobald wir vergleichbare Situationen nur eben ohne z2 betrachten. Aberdas ist ein komplizierter Ansatz zur Analyse von Kausalität, den ich hiernicht weiterverfolgen möchte.

In unseren Beispielen haben wir uns intuitiv automatisch auf die zeit-lichen Relationen der Ereignisse gestützt, ohne das explizit zu machen.Auf die sind wir beim kausalen Schließen in jedem Fall angewiesen,wenn wir uns auch für das Geschäft des Definierens der Kausalbezie-hung typischerweise die kausale Struktur als grundlegender und konsti-tutiv für die Zeitstruktur ansehen. Die sollte daher nach Möglichkeitnicht schon für die Definition von Verursachung vorausgesetzt werden.

Wir könnten schließlich für das probabilistische kausale Schließenauch noch das Analogon zum Vierertest des deterministischen Schlie-ßens entwickeln und so versuchen, etwas komplexere Kausalstrukturenaufzudecken. Doch zu diesem Zweck werden wir später noch einen an-deren Ansatz kennenlernen, der dazu dienen wird, kausale Strukturenanhand bayesscher Netze zu entdecken.

Einen direkteren singulären Zugang zur probabilistischen Kausalitätfinden wir etwa in Kvart 2001, der insbesondere noch weitere Kompli-kationen durch Zwischenfaktoren erörtert. Allerdings eignet er sichnoch weniger als die hier diskutierten Ansätze für das kausale Schließen,da er auf singulären Wahrscheinlichkeiten beruht, die epistemisch nichtbesonders gut zugänglich sind.

7.3.6 Quantitative Zufallsvariablen

Wir können schließlich noch quantitative Zufallsvariablen für bestimmteFaktoren einführen, um der Tatsache Rechnung zu tragen, dass unsereFaktoren oft viele unterschiedliche Ausprägungen mit unterschiedlichenWirkungen annehmen können. Diese Zufallsvariablen sind FunktionenX:R eines Grundraumes von Ereignissen in einen Zahlenraum Retwa die Menge der reellen Zahlen. Sie dienen u.a. dazu, bestimmte Er-gebnisse etwa von Zufallsprozessen zu beschreiben, woher der Name

Page 571: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

559 Thomas Bartelborth: Induktives Schließen

rührt. So kann einem Wurf mit drei Würfeln z.B. die Summe der Augender Würfel zugeordnet werden. Dann erhalten wir eine Wahrscheinlich-keitsverteilung für X als Verteilung auf der Menge der Ergebnisse vonX. Dafür schreiben wir etwa (X=3) für das Urbild der 3 unter X, alsofür die Menge aller Würfe mit insgesamt drei Augen: {; X()=3}.Da es dafür nur ein Elementarereignis gibt, gilt P(X=3)=1/216, wenn essich um faire Würfel handelt.

Oft wird der Grundraum überhaupt nicht mehr angegeben, son-dern wir wenden uns direkt den Wahrscheinlichkeiten für die Zufallsva-riable X zu. Die Variable X gibt einfach ein bestimmtes Merkmal unse-rer Situation wieder, indem sie eine bestimmte Zahl annimmt. Für dieverschiedenen Ausprägungen dieses Merkmals müssen wir dann nurnoch wissen, wie groß die Wahrscheinlichkeiten dafür sind, dass X dieseWerte annimmt, um mit diesen Zufallsvariablen rechnen zu können. Soersparen wir uns gerne die Konstruktion eines ursprünglichen Grund-raums , der oft nicht leicht zu konstruieren ist. Wir haben vielleicht an-dere Gründe für die Annahme, dass die Werte z.B. normalverteilt sindund können die speziellen Parameter ( und ) der Verteilung anhandeiner Stichprobe schätzen oder kennen sie bereits aus anderen Untersu-chungen. Die Zufallsvariablen stehen im Folgenden meist für kausaleFaktoren, die bestimmte Ausprägungen annehmen können. So könnte Xfür die Stärke oder Häufigkeit der Nebenwirkungen stehen oder für dieAnzahl der eingenommenen Tabletten etc.

Unsere bisherigen dichotomen Faktoren F sind eine Art von Sonder-fall davon und lassen sich durch eine Zufallsvariable mit den Werten 0und 1 charakterisieren. Das Vorliegen von F wird dann etwa durch X=1und die Abwesenheit von F durch X=0 wiedergegeben. Außerdem wer-den bestimmte Konstellationen von Zufallsvariablen X1,...,Xn auf einfa-che Weise dargestellt, so schreiben wir vereinfachend:

P(x1,...,xn) = P(X1=x1&...&Xn=xn)

für die gemeinsame Verteilung der Zufallsvariablen X1,...,Xn. Insbeson-dere müssen wir nun nicht mehr nur einfache Korrelationen von Zufalls-variablen berücksichtigen, sondern haben auch eine komplexere Defini-tion der statistischen Unabhängigkeit anzuwenden:

Danach sind zwei Zufallsvariablen X und Y statistisch unabhängig,wenn für alle Werte x und y aus ihren jeweiligen Wertebereichen gilt:P(x|y) = P(x) bzw. äquivalent dazu: P(x,y) = P(x)·P(y)

Page 572: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 560

Entsprechend sagen wir von n Zufallsvariablen X1,...,Xn, dass sie statis-tisch unabhängig sind, wenn gilt: P(x1,x2...,xn)=P(x1)·...·P(xn) für alleWerte x1,...,xn, die unsere Zufallsvariablen X1,...,Xn annehmen können.

Wenn wir nun über eine Liste von Zufallsvariablen X1,...,Xn verfü-gen, die alle Faktoren darstellen, die potentiell auf W wirken, dann kön-nen wir unsere Definition für kausalen Einfluss im Prinzip übertragenauf den Fall quantitativer Zufallsvariablen:

(KRQ) X1 ist kausal relevant für W gdw.: Es gibt reelle Zahlen w,x1, x1*, x2,...,xn mit: P(w|x1,x2,...,xn) > P(w|x1*,x2,...,xn)

Das soll bedeuten, dass es zwei Werte x1 und x1* für den Faktor X1 gibt,die zu unterschiedlichen Wahrscheinlichkeiten für das Auftreten desWertes w für den Faktor W führen, wenn alle anderen für W kausal rele-vanten Faktoren konstant bleiben. Normalerweise würden wir das beikontinuierlichen Größen Xi auch nicht nur für isolierte Werte verlangen,sondern eher schon davon ausgehen, dass die Wirkungen zumindest inkleinen Intervallen von entsprechenden Werten auftreten, doch wir er-sparen uns hier die daraus resultierenden technischen Probleme. DieIdee dürfte genügend klar sein.

Das Ermitteln solcher Beziehungen ist natürlich wieder mit den obengenannten Schwierigkeiten behaftet. Erstens meinen wir mit „P“ genaugenommen die tatsächlichen objektiven Wahrscheinlichkeiten, habenstattdessen aber nur bestimmte relative Häufigkeiten zur Verfügung, undzweitens ist es sehr schwer, die geforderte Homogenisierung zu findenoder herbeizuführen. Trotzdem bietet (KRQ) zumindest einen prinzipiel-len Weg zum Schließen auf kausale Beziehungen.

Das möchte ich noch aus einer etwas anderen Perspektive beleuch-ten, nämlich mit Hilfe des sogenannten interventionalistischen Ansatzes,der auf den ersten Blick einen anderen Zugang zur Kausalität bietet,nämlich über die Veränderung bestimmter Variablen, aber schließlichdoch einen ähnlichen Grundgedanken verfolgt. Er beschreibt auf etwasandere Weise, wie wir die Änderung an der Variable X1 in der Gleichung(KRQ) so herbeiführen können, dass alle anderen Faktoren konstant ge-halten werden, um damit die isolierte Wirkung von X1 auf W bestim-men zu können.

7.3.7 Interventionalistischer Ansatz zur Kausalität

Der interventionalistische Ansatz der Kausalität stellt in den Vorder-grund, dass ich mit einem Eingreifen in die Welt (einer Intervention),wenn dieses lokal erfolgt und nur ganz bestimmte Faktoren (nämlich die

Page 573: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

561 Thomas Bartelborth: Induktives Schließen

in Frage stehenden potentiellen Ursachen) ändert, andere Faktoren (dieWirkungen) damit beeinflussen und somit ebenfalls ändern kann. Das istdie wichtigste Eigenschaft der Kausalbeziehung, die sie für uns so be-deutsam macht und sie insbesondere von bloßen Korrelationen unter-scheidet. Gelbe Finger mögen mit dem Auftreten von Lungenkrebs posi-tiv korreliert sein, aber das gibt uns keinen Hinweis darauf, was wirgegen Lungenkrebs unternehmen können. Das Verändern der Gelbheitder Finger ändert nicht die Wahrscheinlichkeit für einen Lungenkrebs.Das Rauchen ist hingegen Ursache des Lungenkrebses und diese Infor-mation sagt zugleich, was wir gegen diese Krankheit tun können, näm-lich mit dem Rauchen aufzuhören. Diese Änderung würde auch meineWahrscheinlichkeit für einen Lungenkrebs verändern. Diese Übertra-gung von (kontrafaktischen) Änderungen von der Wirkung auf die Ursa-che ist nun das charakteristische Merkmal kausaler Beziehungen gemäßdem interventionalistischen Ansatz.

Die Idee des interventionalistischen Ansatzes: X ist Ursache von Y,wenn ich durch eine geeignete Änderung (Intervention) von X eineÄnderung von Y herbeiführen kann.

Diese geeigneten Änderungen sollen Interventionen sein, die nur denWert von X verändern, ohne dabei die Werte der anderen direkten Ursa-chen von Y zu verändern. Dazu gibt Woodward uns zunächst die Idee:

(TC) X is a total cause of Y if and only if there is a possible interven-tion on X that will change Y or the probability distribution of Y.(Woodward 2003, 51)

Wesentlich ist es nun zunächst, den Begriff der Intervention genauer zuklären. Woodward (2003: Kap. III) führt zu diesem Zweck sogenannteInterventionsvariablen I ein (bei Pearl (2000) finden wir stattdessen dendo-Operator, der schlicht und einfach per do(X=x) eine Variable X aufeinen Wert x setzt). Die Interventionsvariablen I müssen bestimmteEigenschaften aufweisen. Eine Intervention ist einem idealen Experi-ment nachgebildet. So wie in einem idealen Experiment der genaue Ein-fluss der Variable X auf Y bestimmt werden soll, indem eine Vermen-gung mit anderen Einflüssen verhindert wird, indem die anderen Ein-flussfaktoren konstant gehalten werden, so ist das auch hier sicherzustel-len. Dazu definiert Woodward, wann eine Größe I eine Interventionsva-riable für X bezüglich Y ist. Hierzu gehört zunächst, dass I wie ein Schal-ter X auf einen bestimmten Wert bringen kann und X dabei von ande-ren Einflüssen abschneidet. Außerdem darf I die Größe Y nur auf dem

Page 574: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 562

Weg über X beeinflussen und nicht direkt oder auf anderen Wegen(Nebengleisen) ohne X. Außerdem sollte I nicht schon mit anderen Grö-ßen Z korreliert sein, die ihrerseits Y beeinflussen. Mit Hilfe von I kön-nen wir dann unsere gewünschten Interventionen an X im Hinblick aufY vornehmen. Woodward (2000, 98) beschreibt das so:

(IV)I1. I causes X.I2. I acts as a switch for all the other variables that cause X. That is,

certain values of I are such that when I attains those values, Xceases to depend on the values of other variables that cause Xand instead depends only on the value taken by I.

I3. Any directed path from I to Y goes through X. That is, I does notdirectly cause Y and is not a cause of any causes of Y that are dis-tinct from X except, of course, for those causes of Y, if any, thatare built into the I-X-Y connection itself; that is, except for (a)any causes of Y that are effects of X (i.e., variables that are cau-sally between X and Y) and (b) any causes of Y that are between7 and X and have no effect on Y independently of X.

I4. I is (statistically) independent of any variable Z that causes Y andthat is on a directed path that does not go through X.(„Cause“ in this characterization always means „contributingcause“ rather than „total cause.“)

Mit Hilfe dieser Definition von Interventionsvariablen lässt sich dannauch festlegen, was eine Intervention ist:

(IN) I's assuming some value I=zi, is an intervention on X with re-spect to Y if and only if I is an intervention variable for X withrespect to Y and I=zi is an actual cause of the value taken by X.

Woodward unterscheidet hier noch zwischen dem „total cause“ unddem „contributing cause“. Falls X auf mehreren Wegen Y beeinflusst,soll der „total cause“ die Gesamtbeeinflussung beschreiben, während die„beitragenden Ursachen“ die Einflüsse der einzelnen Wege beschreiben.Hier werden die Größen auf den anderen Wegen von X nach Y auchnoch konstant gehalten. Das ist besonders für den recht speziellen Fallgedacht, dass sie sich gegenseitig aufheben. In derartigen Fällen, Wood-ward (2003: 49 u. 64) spricht von einem „failure of faithfulness“ (dasKonzept erläutere ich später in Kap. 7.3.9), kann sich die Gesamtwir-kung der zwei Wege aufheben. X wirkt direkt positiv auf Y, aber auchpositiv auf Z, was seinerseits einen negativen Einfluss auf Y hat. Um die

Page 575: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

563 Thomas Bartelborth: Induktives Schließen

direkte Wirkung von X auf Y sichtbar zu machen, müssen wir in einemExperiment zusätzlich Z kontrollieren (festhalten auf einem bestimmtenWert), während wir X verändern.

Ein einfaches Beispiel von Woodward kann die allgemeine Idee ver-deutlichen. Wir möchten wissen, ob ein Medikament M eine KrankheitK heilt. X besagt, ob jemand M bekommt (1) oder nicht (0), und Y be-schreibt, ob der Betreffende geheilt wird (1) oder nicht (0). (Unsere Va-riablen nehmen also nur zwei konkrete Werte an.) Wir experimentierennun im Prinzip mit einer Versuchsperson (bzw. zwei Personen oder sogarzwei Gruppen von Versuchspersonen, der Behandlungs- und der Kon-trollgruppe, weil das Experiment praktisch nur so durchführbar ist), in-dem wir ihr einmal das Medikament bei Krankheit verabreichen (I) undschauen, was passiert, und einmal in derselben Situation das Medika-ment nicht verabreichen. So möchten wir den Einfluss des Medikaments(also den der Variable X) kennen lernen und zum Beispiel von störendenFaktoren unterscheiden, wie dass das Verabreichen selbst (Placeboeffekt)ohne den Weg über X bereits die Krankheit heilt. Wir möchten auchnicht, dass das Medikament speziell nur den widerstandskräftigeren Pa-tienten verabreicht wird (I also unabhängig eingreift von anderen Fakto-ren Z, die Y beeinflussen). Alles das könnte unser Ergebnis verfälschen. Isoll eine Intervention darstellen, die nur den isolierten Einfluss von Xauf Y aufzeigen soll (vgl. auch Bartelborth 2007). Dazu dient die Inter-vention, die nur genau eine Änderung an X vornimmt, während alle an-deren Einflussgrößen, die noch auf Y wirken, konstant gehalten werden,was wir in der Regel durch einen speziellen Versuchsaufbau mit Ran-domisierung zu erreichen hoffen.

Bisher hatten wir nur Woodwards Definition von „total cause“, allge-meiner gilt für beitragende Ursachen:

(M) A necessary and sufficient condition for X to be a (type-level) di-rect cause of Y with respect to a variable set V is that there be a possi-ble intervention on X that will change Y or the probability distribu-tion of Y when one holds fixed at some value all other variables Zi inV. A necessary and sufficient condition for X to be a (type-level) con-tributing cause of Y with respect to variable set V is that (i) there be adirected path from X to Y such that each link in this path is a directcausal relationship; that is, a set of variables Z1... Zn such that X is adirect cause of Z1, which is in turn a direct cause of Z2, which is a di-rect cause of ... Zn, which is a direct cause of Y, and that (ii) there besome intervention on X that will change Y when all other variablesin V that are not on this path are fixed at some value. If there is only

Page 576: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 564

one path P from X to Y or if the only alternative path from X to Ybesides P contains no intermediate variables (i.e., is direct), then X isa contributing cause of Y as long as there is some intervention on Xthat will change the value of Y, for some values of the other variablesin V. (Woodward 2000, 59)

Zunächst wird hier eine Relativierung auf eine bestimmte Variablenmen-ge V vorgenommen, womit wir explizit die Menge anführen, von derwir annehmen, dass sie zumindest alle gemeinsamen Ursachen von Fak-toren innerhalb von V enthält. Dann wird definiert, was eine direkteUrsache ist und mit Hilfe dieser Bestimmung werden auch Ursachenket-ten und damit indirekte Verursachung definiert.

Das aktive Element der Intervention ist zwar neu, aber es dient letzt-lich vor allem dem Zweck, wieder zwei Situationen herbeizuführen (ein-mal mit und einmal ohne Intervention), die homogen sind im Hinblickauf Y mit der Ausnahme von X und so den Effekt von X auf Y zu unter-suchen gestatten. Interventionen an X relativ zu Y werden gerade so be-schrieben, dass sie alle anderen für Y kausal relevanten Faktoren unver-ändert lassen, die nicht auf einem Pfad von X zu Y liegen. Die Grund-idee bleibt daher dieselbe wie in unserer obigen Definition (KRQ) ausdem letzten Abschnitt. Es wird nur etwas anschaulicher dargestellt, wiewir derartige kausale Vergleichssituationen herbeiführen können. Wennwir eine Situation s haben, so können wir sie durch eine Intervention Iin eine geeignete Vergleichssituation s* überführen. Das kann man sichzunächst sogar als zeitliche Abfolge vorstellen. Hat jemand über einengewissen Zeitraum eine Krankheit, die nicht heilt, und wird dann ge-sund, nachdem er eine bestimmte Medizin erhalten hat, ohne dass sichansonsten etwas an seinen Lebensumständen ändert (das ist die Interven-tion I), dann dürfen wir schließen, dass die Medizin die Heilung bewirkthat.

Leider ist dieser Schluss nicht ganz so überzeugend, wie er auf denersten Blick zu sein scheint. Wir erwarten z.B. nicht, dass die neue Situa-tion in allen Aspekten der alten Situation vor der Einnahme gleicht.Vielleicht hat sich inzwischen das Immunsystem auf die Krankheit einge-stellt und hätte auch ohne das Medikament die Krankheit nun besiegt.Vielleicht war es auch nur der Glaube daran, nun eine wirkungsvolleMedizin zu erhalten, der zu der Heilung geführt hat (im Sinne eines Pla-cebo-Effekts). Vielleicht war es auch nur die Zuwendung, die mit derGabe der Medizin verbunden war. Vielleicht haben sich auch noch ande-re Umstände geändert, die uns nur nicht bekannt sind. Um diesen Din-gen Rechnung zu tragen, wird die Intervention oft nur als kontrafakti-

Page 577: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

565 Thomas Bartelborth: Induktives Schließen

sche Möglichkeit eingeführt. Hätte sie stattgefunden, während alle ande-ren Faktoren gleich geblieben wären, dann hätte sie eine bestimmte Än-derung von Y oder der Wahrscheinlichkeiten für Y zur Folge gehabt. Da-mit werden zumindest bestimmte zeitliche Entwicklungen (wie hier diezu erwartende Veränderung des Immunsystems) ausgeschlossen. Aller-dings ist der Preis zu bezahlen, dass man diese kontrafaktische Situationnicht tatsächlich beobachten kann. Also müssen wir doch wieder aufeinen Vergleich realer Situationen zurückgreifen. Dafür denkt auchWoodward (2003) an einen Vergleich von Experimental- und Kontroll-gruppe, wie er oben schon beschrieben wurde.

Wir haben allerdings noch ein Problem außen vor gelassen, das nochwesentlich ist. Im Unterschied zum deterministischen Fall müssen wirauch noch berücksichtigen, dass sich vielleicht nur die Wahrscheinlich-keiten verschieben, ohne dass es im Einzelfall gleich sichtbare Effektegibt. Im Falle unserer Heilung kann es schon immer eine gewisse Wahr-scheinlichkeit für eine Selbstheilung gegeben haben, die nur zufällignach der Gabe des Medikaments zum Tragen kam. Oder es hat die Me-dizin zwar die Heilungschancen für den Patienten deutlich erhöht, aberder ist trotzdem nicht genesen. Wir müssen also noch berücksichtigen,dass es sich um einen probabilistischen Effekt handelt, der nur imDurchschnitt einer größeren Gruppe auch beobachtbar ist. Pearl (2000)beschreibt das so, dass nur die jeweiligen (bedingten) Erwartungswertesich unterscheiden. Wenn man X zunächst auf x und dann auf x* setzt,dürfen wir das Ausmaß des Effekts also so beschreiben:

Maß für den Effekt: E(Y|do(X=x*)) – E(Y|do(X=x))

Das entspricht unserem obigen Maß für die Stärke der Kausalbeziehungfür eine bestimmte Population im Durchschnitt, wobei hier der do-Ope-rator sicherstellen soll, dass jeweils nur homogene Situationen miteinan-der verglichen werden. Um solche probabilistischen Effekte jedoch fest-stellen zu können, sind wir natürlich wieder auf größere Stichproben an-gewiesen, wobei die Elemente der beiden Gruppen sich untereinanderähnlich sein sollten.

Schauen wir noch einmal auf ein Beispiel: Wir geben den KrankenFranz und Karla beiden eine für bestimmte Personen (bestimmter Kofak-tor) wirksame Medizin. Dann kann es aber sein, dass sie bei Franz posi-tiv wirkt, aber speziell bei Karla sogar schädlich ist, so dass nur Franz ge-sund wird. Eine solche 50%-tige Heilung sei aber auch ohne Medizinnormal. Daher werden wir dann fälschlicherweise schließen, dass dieMedizin unwirksam ist. Um solchen Fehlschlüssen zu entgehen, müssen

Page 578: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 566

die Personen in unseren Gruppen gewisse Ähnlichkeiten untereinanderaufweisen. Auch das versucht man mit einer Randomisierung zu erzie-len, doch das Beispiel weist schon den Weg wie das schiefgehen kann.

Ist in unserer Grundgesamtheit G der Kofaktor K in 50% der Fällegegeben und non-K also in den anderen Fällen, aber nur zusammen mitK ist unsere Medizin wirksam und sonst nur schädlich, so dass die natür-liche Genesung, die im Durchschnitt in 50% aller Fälle auftritt, verhin-dert wird, so liegt K auch bei einer idealen Randomisierung in unserenGruppen jeweils in 50% der Fälle vor. So tritt eine Genesung dann inder Experimentalgruppe und der Kontrollgruppe in 50% aller Fälle aufund das Medikament wird als völlig unwirksam eingestuft, obwohl esbei 50% der Bevölkerung eine 100%-tige Wirkung aufweist und bei denanderen 50% zu 100% schädlich ist! Das belegt wieder, dass eine be-wusste Homogenisierung der beiden Gruppen nicht immer durch eineRandomisierung zu ersetzen ist. Hier wird auch der Nachteil sichtbar,den wir in Kauf nehmen müssen, wenn wir die Stärke eines Effekts nurals Durchschnittswert (bzw. Erwartungswert) festlegen.

Gegen den interventionalistischen Ansatz ist immer wieder der Ein-wand erhoben worden (vgl. Baumgartner 2009, 2009a), dass sie als De-finition und damit zugleich als Schlussverfahren ungeeignet sei, weil sienicht wirklich reduktiv ist. Die Entscheidung, ob X Ursache von Y ist,setzt bereits Wissen darüber voraus, ob I eine Interventionsvariable fürX relativ zu Y ist, ob also I Ursache von X ist und I keine Ursache vonanderen Ursachen von Y ist. Der Einwand scheint mir zwar korrekt zusein, aber die anderen Ansätze genau genommen ebenso zu treffen. Wirkehren damit zurück zu der Einsicht von Nancy Cartwright: „No causesin, no causes out“. Die Beurteilung von Kausalbeziehungen ist ebenletztlich ein holistisches Verfahren, mit dem wir komplettere Kausal-theorien für einen bestimmten Bereich miteinander vergleichen müssen.Ganz ohne kausale Grundannahmen wird uns leider kein Verfahren zuweitergehenden Kausalhypothesen leiten.

7.3.8 Kausale Strukturen und gerichtete Graphen

Um komplexere kausale Strukturen darzustellen, bietet sich das Hilfs-mittel der Kausalgraphen an (vgl. Kap. 5.3.8). Meist beschränkt mansich auf gerichtete azyklische Graphen G (sogenannte DAGs für „direc-ted acyclic graph“). Man nimmt also bereits an, dass die zu ermittelndeKausalstruktur keine Rückkoppelungen kennt, sondern einfacher Art ist.Der Graph G=(V,E) besteht aus den Knoten (vertices) V={X1,...,Xn}und den gerichteten Kanten (edges) oder Pfeilen EVV, die jeweils

Page 579: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

567 Thomas Bartelborth: Induktives Schließen

durch ein Paar von Knoten gegeben sind. „X wirkt auf Y“ wird im Gra-phen durch einen Pfeil XY dargestellt. Lässt man alle Ausrichtungenweg und arbeitet mit ungerichteten Kanten, erhält man das Skelett vonG. Weiterhin gibt es viele anschauliche Konzepte auf einem solchen Gra-phen, die einem helfen. Ein Pfad von X nach Y ist ein Weg von X nachY über möglicherweise weitere Knoten, der entlang der Kanten (mitoder gegen deren Richtung) läuft. Ein gerichteter Pfad läuft nur entlangder gerichteten Kanten in deren Richtung. In DAGs sind Zyklen, alsogerichtete Pfade, die zum selben Knoten zurückführen verboten. Sindzwei Knoten durch einen Pfad verbunden, heißen sie verbunden.

Außerdem verwendet man in anschaulicher Weise die Begriffe fürVerwandtschaftsbeziehungen: Gilt XY, so sagen wir, dass X Elter vonY ist bzw. Y Kind von X ist. Außerdem sprechen wir von Nachfahrenund Vorfahren etc. Ein spezieller Graph ist der vollständige Graph, indem zwischen je zwei Knoten eine ungerichtete Kante existiert.

Zusätzlich zur kausalen Struktur nehmen wir auch noch eine Wahr-scheinlichkeitsverteilung P(x1,...,xn) auf der Menge V an. Das ist einekomplexe Funktion, die sich allerdings für DAGs vereinfachen lässt. Wirnehmen dort an, dass die Wahrscheinlichkeitsverteilung für ein Xi je-weils nur von den Wahrscheinlichkeitsverteilungen der Eltern (PAi „pa-rents“) von Xi abhängt. Man nennt solche Wahrscheinlichkeitsverteilun-gen markovsch relativ zu G. Das heißt, dass Xi statistisch unabhängig zuseinen Vorfahren (und anderen Nicht-Nachfahren) ist gegeben seine El-tern. Das ist gerade für kausale Beziehungen eine recht plausible Annah-me.

Man kann das auch so beschreiben, dass wir durch die Kenntnis derVorfahren keine neuen Informationen über Xi erhalten, wenn wir dieWerte der Eltern bereits kennen. Dann vereinfacht sich die gemeinsameVerteilung der Xi erheblich. Zunächst gilt nach der Kettenregel fürWahrscheinlichkeiten:

(KR) P(x1,...,xn) = j P(xj|x1,...,xj–1)

Dann können wir das weiter vereinfachen zu

Markov-Bedingung 1: P(x1,...,xn) = j P(xj|paj),

weil wir für die Wahrscheinlichkeiten von Xj nur die der Eltern heran-ziehen müssen (vgl. Kap. 5.3.8). So erhalten wir ein Bayessches NetzN=(G,P) (vgl. Neapolitan 2004). Das ist ein DAG, für das die Markov-Bedingung gilt.

Page 580: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 568

Bayessches Netz N=(G,P)N ist ein Bayessches Netz gdw. N ein gerichteter azyklischer Graphist und P eine Wahrscheinlichkeitsverteilung auf seinen Knoten, diedie Markov-Bedingung bzgl. G erfüllt.

Man die Markov-Bedingung für P auch äquivalent gleich so schreiben,dass gilt:

Markov-Bedingung 2: Für alle X in V gilt: X ist statistisch unabhän-gig zu NDX gegeben PAX, was auch oft so geschrieben wird:(X NDX | PAX)P

Das soll bedeuten, dass X statistisch unabhängig ist von allen Nicht-Nachfahren NDX von X gegeben die Eltern PAX von X (relativ zurWahrscheinlichkeitsverteilung P). Das können wir uns nun an einem ein-fachen Beispiel von Pearl (2000, 15) verdeutlichen: Darin geht es dar-um, dass je nach Saison (Sommer, Herbst, Winter Frühling) sich andereWahrscheinlichkeiten für Regen oder das Angehen des Rasensprengerseinstellen und das jeweils dazu führt, dass ein Weg nass wird und des-halb rutschig wird oder auch nicht.

Graphik 7.1 Beispiel für ein kleines Bayessches Netz

Die Eltern X2 und X3 von X4 schirmen hier X4 von X1 ab. Wenn wir alsoschon wissen, ob der Rasensprenger an ist und ob es regnet, dann wissenwir schon alles, was es gemäß diesem Netz darüber zu wissen gibt, obder Weg nass wird. Jedenfalls gibt uns die zusätzliche Information, wel-che Jahreszeit X1 wir haben, dann keine zusätzlichen Hinweise mehrdarauf, ob der Weg nass wird, wenn unsere Wahrscheinlichkeitsvertei-lung für dieses kleine Netz markovsch ist, also zu der Kausalstruktur Gpasst.

Die Markov-Bedingung lässt sich für beliebige DAGs G und Wahr-scheinlichkeitsverteilungen P formulieren und scheint für reale Kausal-

Page 581: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

569 Thomas Bartelborth: Induktives Schließen

strukturen sehr plausibel zu sein. Stellt G den Graphen zu einer realenKausalstruktur dar und P die tatsächlichen Wahrscheinlichkeiten für dasAuftreten von Werten der beteiligten Größen, die sich aus den kausalenZusammenhängen ergeben, dann sollte P markovsch bzgl. G sein. Jeden-falls ist das der Fall, wenn V aller Variablen im Netz kausal vollständigist, d.h., wenn es keine gemeinsamen Ursachen von Faktoren in V gibt,die nicht in V enthalten sind (sogenannte verborgene Common Causes),und auch keine vor uns verborgenen kausalen Pfade. Wir erwartendann, dass N=(G,P) die kausale Markov-Bedingung erfüllt. Das ist derGrund, warum Bayessche Netze als geeignete formale Repräsentationenkausaler Zusammenhänge betrachtet werden.

Bayessche Netze sind vor allem durch ihre Unabhängigkeitsbeziehun-gen gekennzeichnet. Die gemeinsame Wahrscheinlichkeitsverteilung Pder Faktoren aus V gibt uns hier an, welche Koinzidenzen wir zu erwar-ten haben und welche nicht auftreten werden. Sie ist der zumindest imPrinzip der Beobachtung zugängliche Teil des bayesschen Netzes N. Da-her ist die Aufgabenstellung des kausalen Schließens vor allem, aus den„Daten“ P wieder auf die zugrundeliegende Kausalstruktur G zurück zuschließen. Insbesondere wird es darum gehen, aus den zu beobachten-den statistischen Unabhängigkeiten auf die zugrundeliegenden kausalenUnabhängigkeiten zu schließen und daraus den Graphen G zu rekonstru-ieren.

Anders als im Falle der deterministischen Kausalität versucht manhier also nicht direkt aus dem gemeinsamen Auftreten von Faktoren aufkausale Zusammenhänge zu schließen, sondern vielmehr aus dem nichtgemeinsamen Auftreten darauf zu schließen, dass auch keine Kausalbe-ziehungen vorliegen. Im Prinzip geht man zunächst davon aus, dass zwi-schen allen Variablen Kausalbeziehungen vorliegen könnten, und elimi-niert dann nach und nach solche potentiellen Kausalbeziehungen, fürdie sich keine Koinzidenzen der beteiligten Faktoren finden lassen. Dazuwerden aber nicht sogleich die umfangreichen kompletten Graphen be-trachtet, sondern vielmehr Teilstrukturen von jeweils drei Faktoren.

Um das Verfahren umsetzen zu können, müssen wir zunächst dreikausale Grundstrukturen unterscheiden, die uns schließlich auch beimkausalen Schließen immer wieder als Teilstrukturen begegnen werden.Da haben wir zunächst die kausale Kette: XYZ. In unserem Beispielkönnte das etwa sein: RegenNassRutschig. Für solche Verhältnissegilt normalerweise: (X Z | Y). Wissen wir also schon, dass der Wegnass oder trocken ist, erfahren wir nichts Neues über den Rutschigkeits-zustand des Weges, wenn wir etwas darüber erfahren, ob es geregnet

Page 582: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 570

hat. Das ist jedenfalls dann der Fall, wenn es hier nicht einen geheimnis-vollen Einfluss von Regen auf die Rutschigkeit gibt, der nicht über denNässezustand des Wegs vermittelt wird. Ein Problem für das kausaleSchließen ist nun, dass auch die Common-Cause-Struktur oder (divergie-rende) Gabel XYZ dieselbe Unabhängigkeitsstruktur (X Z | Y)aufweist. Das hatten wir bereits in anderen Beispielen gesehen, findetsich aber natürlich auch in unserem Nässebeispiel wieder. Die Jahreszeitwar dort eine solche gemeinsame Ursache von Regen und Rasenspren-ger, wobei sie hier eine negative Korrelation stiftet. Weiß ich schon, dassHerbst ist, hilft mir die Information, dass der Rasensprenger läuft, nichtweiter für die Frage, ob es regnet. Die Wahrscheinlichkeit für Regen be-stimmt sich hier ganz aus der Jahreszeit und ist davon unabhängig, obder Rasensprenger an ist. Das gilt in unserem Beispiel auch umgekehrt,obwohl es nicht sehr plausibel zu sein scheint, dass jemand den Sprengereinschaltet, wenn es regnet. Das würde aber eine neue Kausalverbindungetablieren, die in unserer Geschichte nicht vorkommt. Der Sprengerschaltet sich in unserem Beispiel einfach nur nach Jahreszeit ein undnicht anhand der Entscheidung einer Person, die erst einmal nachschaut,ob es regnet. Das wäre eine andere Kausalstruktur, für die (X Z | Y)nicht mehr gelten würde.

Als dritte Struktur müssen wir uns noch der konvergierenden Gabel(den „collider“) bzw. der v-Struktur XYZ zuwenden. Sie hat nun al-lerdings eine andere Abhängigkeitsstruktur als ihre Vorgänger, was sie sobedeutsam für das kausale Schließen macht. Unser Collider in unseremBeispiel ist: SprengerNassRegen. Wenn wir nur diese Struktur be-trachten, so sind hier die äußeren Variablen zunächst als statistisch unab-hängig zu betrachten: (X Z), ohne, dass wir dafür eine Bedingung be-nötigen. Im Gegenteil findet hier erst ein Informationsfluss von X zu Ystatt, wenn Y bekannt ist. Wissen wir nämlich schon, dass es nass ist,dann können wir daraus, dass es nicht regnet, in unserem Netz schlie-ßen, dass der Sprenger an sein muss. Das heißt, die Kenntnis von Yschaltet hier den Informationsfluss von X nach Z frei, während dieseKenntnis in den beiden vorhergehenden Fällen den Informationsflussblockiert hat. Man nennt in einem gerichteten Graphen die Knoten d-se-pariert („d“ steht für „directed“), zwischen denen kein kausaler Informa-tionsfluss stattfindet. In unserer dritten Grundstruktur sind X und Z oh-ne weiteres d-separiert, während in den ersten beiden Strukturen derWeg von X nach Z durch Y blockiert werden muss. Erst wenn Y dort be-kannt ist, liefert X keine weiteren Informationen mehr über Z und um-gekehrt. Hier gelten X und Z dann durch Y als d-separiert.

Page 583: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

571 Thomas Bartelborth: Induktives Schließen

Anhand dieser Regeln können wir aus einem Kausalgraphen die sta-tistischen Unabhängigkeiten der gemeinsamen Verteilung P schnell her-auslesen. Für alle Variablen, die in dem Kausalgraphen d-separiert durchbestimmte andere Variablen sind, gilt, dass sie dann auch statistisch un-abhängig sind gegeben diese anderen Variablen. Das ist nur eine andereDarstellung der Markov-Bedingung. Dazu können wir zunächst etwasallgemeiner definieren, was es heißt, dass zwei Variablen durch andereVariablen d-separiert sind.

d-Separation: Zwei Variablen X und Y sind dann d-separiert durcheine Menge von Variablen Z, wenn jeder Pfad p von X nach Y blo-ckiert wird durch Z, d.h., wenn gilt:1) Für zumindest einen Collider XMY auf dem Pfad p gilt, dass

MZ ist und auch kein Nachkomme von M in Z liegt. (So ein Mbzw. ein Nachkomme von M würde den Collider freischalten, wieunser Beispiel zeigt.) oder

2) Für zumindest eine der anderen Strukturen auf p vom TypXMY oder vom Typ XMY gilt: MZ.

Das heißt, dass auf jedem Pfad zwischen X und Y eine Blockade stattfin-det, entweder weil zumindest ein Collider nicht durch Z freigeschaltetist oder weil eine der anderen Verbindungen durch Z blockiert wurde.Hier gilt das Theorem, dass wenn X und Y durch Z d-separiert sind,dann in einem bayesschen Netz gilt, dass X und Y statistisch unabhängigsind gegeben Z. Diese Definitionen und Zusammenhänge lassen sich aufMengen X und Y von Variablen in entsprechender Weise ausdehnen.

7.3.9 Graphentreue Bayessche Netze

Man könnte also sagen, wenn es einen nicht blockierten Pfad zwischenX und Y gibt, dann findet ein kausaler Informationsfluss zwischen Xund Y statt, während durch Z d-separierte X und Y keinen kausalen In-formationsfluss mehr aufweisen, wenn Z gegeben ist. In einem Bayes-schen Netz mit Wahrscheinlichkeitsverteilung P findet sich diese Struk-tur in den statistischen Unabhängigkeitsbeziehungen wieder (das besagtletztlich die Markov Bedingung), indem hier gilt: (X Y |Z)P. Das lässtsich auch kurz für alle Mengen X, Y und Z von Zufallsvariablen aus Vso schreiben:

Strukturähnlichkeit 1: (Markov-Bedingung)(X Y | Z)G daraus folgt: (X Y | Z)P,

Page 584: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 572

wobei (X Y | Z)G bedeuten soll, dass Z gerade X von Y d-separiert inG. Man könnte das so ausdrücken: Den kausalen Strukturunabhängig-keiten entsprechen bestimmte strukturelle statistische Unabhängigkeiten.

Allerdings könnte es noch weitere nicht strukturelle Unabhängig-keitsbeziehungen in P geben, also probabilistische Unabhängigkeiten, dienicht durch die Struktur von G bedingt sind. Da wir letztlich anhand derstatistischen Unabhängigkeiten, die wir aus den beobachtbaren Daten er-schließen können, zurück auf die zugrundeliegende kausale Strukturschließen möchten, könnten uns diese nicht-strukturellen Unabhängig-keiten in die Irre führen. Deshalb verlangt man zusätzlich eine zweiteStrukturähnlichkeit zwischen G und P:

Strukturähnlichkeit 2: (Graphentreue)(X Y | Z)P daraus folgt: (X Y | Z)G

Das heißt, es gibt nur noch die statistischen relativen Unabhängigkeiten,die tatsächlich durch die kausale Struktur repräsentiert in G vorgegebensind, die man als strukturelle statistische Unabhängigkeiten bezeichnenkann. Diese Annahme der Graphentreue (oder bei Pearl „Stabilität“) derVerteilung P gegenüber dem Graphen G ist offensichtlich hilfreich undwesentlich für das Schließen auf den zugrundeliegenden Graphen G,denn schließlich sollen unsere kausalen Schlüsse genau in dieser Rich-tung laufen.

Die Idee für unser Schließen ist damit die folgende: Wir nehmen an,dass die wahre kausale Struktur in einem bestimmten Anwendungsbe-reich durch ein DAG G=(V,E) ausgedrückt werden kann. Davon kennenwir im Wesentlichen schon die Knoten V, wissen aber zunächst nochnicht, wie die Struktur E auf V beschaffen ist. Die versuchen wir zu er-mitteln, indem wir die zwei obigen Annahmen der Strukturähnlichkeitvoraussetzen und mit deren Hilfe aus den vorliegenden Daten (hier müs-sen wir annehmen, dass wir alle relativen statistischen Unabhängigkeitenermitteln können, also alle relevanten möglichen Situationen auch tat-sächlich aufgetreten sind), dann die Struktur E (also die Pfeile im Gra-phen) erschließen können. Man sieht hier wiederum, wie schwierig dasSchließen auf kausale Zusammenhänge ist und wie starke Annahmen wirbereits voraussetzen müssen, um überhaupt zum Schluss zu kommen.Trotzdem sind wir hier noch immer nicht am Ziel.

Doch bevor wir uns überlegen, was wir mit dem Verfahren im Ideal-fall erreichen können, sollen die Annahmen noch einmal kurz erörtertwerden. Zunächst die Markovbedingung. Sie impliziert u.a., dass dieWurzelknoten untereinander statistisch unabhängig sind. Ein Wurzel-

Page 585: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

573 Thomas Bartelborth: Induktives Schließen

knoten X soll schließlich von seinen Nicht-Nachkommen (also aucheinem anderen Wurzelknoten Y) statistisch unabhängig sein, gegeben sei-ne Eltern. Da er keine Eltern hat, müssen schlicht X und Y statistisch un-abhängig voneinander sein. Das heißt, genau genommen, dass für dieAnnahme der Menge V keine gemeinsamen Ursachen von Wurzelknotenund damit auch von anderen Knoten im Netz übersehen wurden. Dassetzt bereits ein gewisses kausales Hintergrundwissen voraus. Wir neh-men damit an, dass wir bereits über eine vollständige Liste aller poten-tiell wirksamen Faktoren in einem bestimmten Bereich verfügen.

Das entspricht in etwa den Forderungen nach einer vollständigen Lis-te von Hypothesen für die früheren induktiven Schlussformen, denn imPrinzip liefert uns die Menge aller Kombinationen von Faktoren aus Veine solche Liste von Hypothesen. Die zwei Hypothesen zu zwei Fakto-ren V und W sind eben gerade, dass (1) V kausal relevant für W ist unddass (2) W kausal relevant für W ist. Wir haben schon früher darauf hin-gewiesen, dass diese Annahme recht anspruchsvoll ist, hatten aber auchgesehen, dass sie für viele induktive Schlussverfahren unverzichtbar ist.Im konkreten Anwendungsfall ist sie auch häufiger plausibel einzulösen.Das belegen einige der früheren Beispiele.

Zugleich wird deutlich, dass hier bestimmte Unterminierer für daskausale Schließen anhand bayesscher Netze zu finden sind. Außerdembesagt die Markov-Bedingung noch, dass kausale Wirkungen von X aufY, die nur über bestimmte Zwischenfaktoren Z vermittelt werden, dazuführen, dass z.B. die Großeltern im Netz von den Kindern probabilis-tisch unabhängig sind gegeben die Kinder, und das wird durch unsereVorstellungen von Kausalität nahegelegt. Die Darstellung durch einengerichteten azyklischen Graphen schließt aber noch nicht aus, dass dieGroßeltern daneben auch direkt auf die Kinder einwirken und damit zu-gleich weitere Eltern der Kinder sind. Das muss dann nur durch einenweiteren Pfad gekennzeichnet werden.

Die zweite Strukturähnlichkeitsbedingung der Graphentreue wirdmanchmal für harmlos gehalten. Doch für deterministische Systeme istsie nicht so ohne. Was muss für (probabilistische) Systeme passieren, da-mit sie verletzt wird? X könnte auf zwei Wegen über M und N zu Y füh-ren, wobei die Wirkungen sich gerade aufheben. Ein Beispiel, das sich inähnlicher Weise bei Nancy Cartwright (1989) findet, ist das folgende(vgl. a. Baumgartner & Grasshoff 2004). Nehmen wir an, X bezeichnedie Einnahme der Antibabypille und M die Erhöhung des Östrogenspie-gels. Das wiederum erhöhe das Thromboserisiko (Y). Andererseits redu-ziert die Einnahme der Pille die Anzahl der Schwangerschaften (N) und

Page 586: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 574

diese würden ihrerseits das Thromboserisiko erhöhen. Also könnte esder Fall sein, dass die Wirkungen der Einnahme der Pille für das Throm-boserisiko für Frauen sich auf beiden Wegen gerade aufheben. Die Ein-nahme der Pille würde also insgesamt das Thromboserisiko nicht verän-dern.

Damit wären X und Y statistisch unabhängig, obwohl X auf zwei We-gen kausal relevant für Y ist, was sich natürlich anhand geeigneter Ein-griffe (etwa Verhütung ohne Pille) auch aufzeigen lässt. Allerdings ver-langt diese Konstellation nach ganz besonderen Bedingungen der zweikausalen Wege. Die Risikoerhöhung und die Risikoverminderung aufden beiden Wegen müssen genau gleich groß sein. Daher argumentierendie Befürworter einer Annahme der Graphentreue, dass bei geeigneterParametrisierung der speziellen funktionalen Zusammenhänge sich der-artige Konstellationen nur für eine Nullmenge der Bedingungen finden(Spirtes & Glymour & Scheines, 41: Theorem 3.2) und wir sie daher alsAusnahmefälle beiseitelassen dürfen.

Das sieht allerdings anders aus für deterministische Zusammenhänge(Spirtes & Glymour & Scheines 2000, 53 f.). Betrachten wir den Gra-phen, in dem gilt: ABC und zusätzlich direkt AC. Dann gibt es ge-mäß der d-Separation keine Unabhängigkeitsbeziehungen darin. Neh-men wir aber an, dass B den Wert von C determiniert (wir haben esschließlich mit deterministischer Kausalität zu tun), so gilt: (AC|B)P.Also gibt es statistische Unabhängigkeitsbeziehungen, die aber keine kau-salen Unabhängigkeitsbeziehungen darstellen, denn wir haben schließ-lich angenommen, dass A auch direkt kausal relevant für C ist. UnsereKenntnis von B schneidet also den kausalen Einfluss von A auf C keines-wegs ab. Die Graphentreue ist damit verletzt. Oder es determiniere A di-rekt C, dann gilt: (BC|A)P, obwohl auch B weiterhin kausal relevantfür C ist. In deterministischen Strukturen treten also sehr schnell nicht-graphentreue Unabhängigkeitsbeziehungen auf, während das für reinprobabilistische Beziehungen zumindest als unwahrscheinlich geltenkann. In dem Fall könnten wir sagen, die Natur führt uns in die Irre, in-dem sie die unterschiedlichen Effekte der Pille auf das Thromboserisikoso gestaltet hat, dass keine Korrelation zwischen beidem auftritt, obwohlkausale Beziehungen vorliegen. Für das kausale Schließen (wie auch fürandere induktive Schlüsse) sind wir aber auf ein gewisses Entgegenkom-men der Natur angewiesen. Verbirgt sie ihre kausale Struktur zu ge-schickt, werden wir sie nicht korrekt ermitteln. Das ist das Induktionsri-siko, das wir beim induktiven Schließen nie ganz ausschalten können,

Page 587: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

575 Thomas Bartelborth: Induktives Schließen

und es liefert uns wiederum typische Unterminierer für die entsprechen-den Kausalschlüsse.

Nehmen wir die Graphentreue jedoch einmal als gegeben an, so er-halten wir in folgendem Beispiel nur die der Graphenstruktur entspre-chenden Unabhängigkeitsbeziehungen (vgl. Spirtes & Glymour & Schei-nes 2000, 43 f.).

Graphik 7.2: ein einfaches Beispielnetz

Für den Graphen (CCN) WXZYV ergeben sich damit die Un-abhängigkeitsbeziehungen:

(1) (W{Z,Y,V})(2) (X{Y,V}{W,Z})(3) (Z{W,V})(4) (Y{W,X}{V,Z})(5) (V{W,X,Z})

Dabei sind nun allerdings einige Unabhängigkeitsbeziehungen doppeltaufgeführt, da sie symmetrisch sind in den ersten beiden Argumenten.

7.3.10 Erschließen des Kausalgraphen

Im Prinzip können wir nun fragen, welche kausale Struktur diese Unab-hängigkeitsbeziehungen am besten erklären kann. Das wäre dann unserbester Tipp für unsere kausale Theorie dieses Gebiets. Unter Annahmeder beiden Strukturzusammenhänge haben sich bestimmte Algorithmenfür diesen Rückschluss etabliert, von denen ich kurz den SGS-Algorith-mus (Spirtes & Glymour & Scheines 2000, 82) sowie den IC-Algorith-mus (für „inductive causation“) von Pearl (2000, 50 ff.) betrachtenmöchte. Beide Verfahren gehen im Prinzip von einem vollständigen un-gerichteten Graphen aus, bei dem jeder Knoten V={X1,...,Xn} mit jedemanderen verbunden ist und nun anhand von Unabhängigkeitsbeziehun-gen bestimmte Verbindungen gestrichen werden und zuletzt möglichstviele Verbindungen ausgerichtet werden.

Page 588: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 576

Graphik 7.3: ein vollständiger Graph

Dieser vollständige und ungerichtete Graph entspricht hier der einervollständigen Hypothesenliste mit den Hypothesen Hij:XiXj für alleungleichen i und j, wobei der Pfeil für eine direkte Verursachungsbezie-hung steht. Im Verfahren versuchen wir dann möglichst viele der Hypo-thesen zu eliminieren anhand der beobachteten statistischen Unabhän-gigkeitsbeziehungen, bis nur noch eine kompatible Hypothesenmengeübrigbleibt, die uns dann nach Möglichkeit einen definitiven Kausalgra-phen beschreibt. Allerdings werden wir hier wieder auf das Problem sto-ßen, dass nicht unbedingt alle Konkurrenzhypothesen bis auf eine elimi-niert werden können und wir so mit einer gewissen Unterbestimmtheitzurückbleiben. Wir starten mit dem vollständigen ungerichteten Gra-phen H und fangen zunächst an, Kanten zu streichen und versuchen da-nach, von den verbleibenden Kanten so viele wie möglich zu orientie-ren:

SGS-Algorithmus1. Für jedes Paar A, B von Variablen, für die es eine Menge von Va-

riablen SAB V\{A,B} gibt, für die (ABSAB)P gilt, entferne mandie Kante zwischen A und B.

2. Für jedes Tripel A—C—B, bei dem A und B nicht verbunden sind,orientiere man ACB gdw. es keine Menge SAB V\{A,B} gibt,für die (ABSAB)P gilt. (Hier werden die v-Strukturen unseres ge-suchten Graphen identifiziert.)

3. Wenn gilt AC—B, aber A und B sind nicht verbunden, und esgibt keine Pfeilspitze, die auf B zeigt, so orientiere CB. (Hierwird orientiert unter der Vermeidung weiterer v-Strukturen.)Wenn es einen gerichteten Pfad von A nach B gibt und zusätzlichA und B direkt verbunden sind, so orientiere: AB. (Hier wirdorientiert unter der Vermeidung von Zyklen.)

Ganz ähnlich funktioniert der IC-Algorithmus. Er besteht aus den fol-genden Schritten, wobei wir wie gesagt mit einem vollständigen unge-

Page 589: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

577 Thomas Bartelborth: Induktives Schließen

richteten Graphen starten und uns im ersten Schritt einer vereinfachtenBeschreibung im Sinne des SGS-Algorithmus von Spirtes und Glymourund Scheines (2000, 82) bedienen:

IC-Algorithmus1. Für jedes Paar A, B von Variablen, für die es eine Menge von Va-

riablen SAB V\{A,B} gibt, für die (ABSAB)P gilt, entferne mandie Kante zwischen A und B.

2. Suche alle Tripel A, B und C, bei denen A und B nur über C mit-einander verbunden sind: A—C—B. Falls dann C nicht in derMenge SAB [mit (ABSAB)P] enthalten ist, so orientiere das Tripelals v-Struktur: ACB.

3. In dem nun erhaltenen partiell gerichteten Graphen sollen so vie-le Kanten wie möglich ausgerichtet werden unter Einhaltung derzwei folgenden Bedingungen: (i) Produziere keinen neuen v-Strukturen und (ii) produziere keine gerichteten Zyklen.

Diese Regeln sind jetzt eigentlich relativ leicht verständlich. Die ersteRegel nutzt die angenommene Graphentreue aus: Wenn A und B statis-tisch unabhängig sind gegeben SAB, dann gibt es auch keine direkte kau-sale Verbindung zwischen A und B mehr, sondern nur noch die indirek-ten kausalen Verbindungen über die Variablen in SAB. A ist eventuellUrsache von B über Zwischenfaktoren in SAB oder es gibt gemeinsameUrsachen von A und B in SAB. In jedem Fall liegt jedenfalls keine direkteKausalbeziehung zwischen A und B mehr vor. Die entsprechende Kantekann also eliminiert werden, was einer Eliminierung der entsprechendenHypothesen entspricht.

Im zweiten Schritt suchen wir nach verbundenen Tripeln A—C—B,für die B aber weder Zwischenursache noch gemeinsame Ursache von Aund B ist. Dann bleibt nur noch die v-Struktur übrig. Damit nutzen wirdie besondere Stellung der v-Struktur unter den drei Grundstrukturenaus. Sie wird durch eine spezielle probabilistische Unabhängigkeitsstruk-tur gegenüber den anderen beiden kausalen Grundstrukturen hervorge-hoben.

Dann haben wir aber bereits alle v-Strukturen erwischt und müssenim dritten Schritt auf andere Strukturen hinaus, die jedoch weiter aufeinen DAG hinführen sollen. Wir wissen nun schon, dass die weiterenStrukturen keine v-Strukturen sind (denn die hätten sich schon in Schritt2 gezeigt), und wir nutzen unsere Grundannahme aus, dass wir es nurmit Fällen gerichteter Kausalität zu tun haben (also keine Zyklen auftre-ten), um die verbliebenen Kanten auszurichten. Das Ausrichten von Kan-

Page 590: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 578

ten entspricht wiederum der Elimination von einer der jeweils zwei ver-bliebenen Kausalhypothesen.

Um das Verfahren im dritten Schritt noch zu algorithmisieren, gibt esweitere Regeln (s. etwa Pearl 2000, 51), die das leisten sollen. Sie sollenden dritten Schritt wie folgt systematisieren:

Regel 1: Ist AB—C und A ist nicht direkt mit C verbunden (A undC sind nicht benachbart), so orientiere: ABC, da sonst eine v-Struktur auftreten würde.Regel 2: Falls ABC und A—C gilt, so orientiere: AC, da sonstein Zyklus auftreten würde.Regel 3: Falls man zwei Ketten findet: A—CB und A—DB, aberC und D sind nicht verbunden, so orientiere die Kante A—B zuAB, da jede mögliche andere Ausrichtung sonst entweder einen Zy-klus oder eine v-Struktur erzeugen würde.Regel 4: Falls man zwei Ketten findet: A—CD und CDB, aberC und B sind nicht verbunden, so orientiere die Kante A—B zuAB, da jede mögliche andere Ausrichtung sonst entweder einen Zy-klus oder eine v-Struktur erzeugen würde.

Die letzten beiden Fälle sind etwas komplexer, aber man kann sich an-hand eines kleinen Graphen schnell davon überzeugen, dass es keine an-deren Möglichkeiten gibt, als die gerade genannten.

Das Verfahren können wir nun auf unser kleines Beispielnetz CCNanwenden. Wir starten also mit dem vollständigen ungerichteten Gra-phen und fangen dann zunächst an zu streichen.

Gemäß den Unabhängigkeitsbeziehungen in (1) fallen alle direktenVerbindungen von nach Z, Y und V weg, so dass Z nur noch (ungerich-tet) mit X verbunden ist. Analoges übernimmt (5) für V. (2) kappt die di-rekte Verbindung zwischen X und Y, da diese durch den Common CauseZ voneinander abgeschirmt werden. Weitere Verbindungen könnennicht gestrichen werden. Nun geht es um die Ausrichtung der verbliebe-nen Kanten, die schon die Grundstruktur unseres angestrebten Netzeszeigen. Hier können wir zwei v-Strukturen erkennen, da die Variablen Xund Y nicht unter den „Blockierern“ in (1)–(5) zu finden sind. Also ent-steht wieder unser ursprüngliches Netz. Das klappt allerdings nur sogut, weil wir gleich zwei v-Strukturen in CCN vorfinden.

Im Allgemeinen können wir nicht mit eindeutigen Ergebnissen rech-nen. Das besagt zumindest ein bekanntes Theorem dieses Ansatzes, daswir etwa bei Pearl (2000, 19: Theorem 1.2.8 Observational Equivalen-ce) finden, wonach zwei Graphen G1 und G2 dann dieselben Unabhän-

Page 591: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

579 Thomas Bartelborth: Induktives Schließen

gigkeitsstrukturen generieren, wenn sie dasselbe Skelett aufweisen(gleich viele Knoten und dieselben Nachbarschaftskanten) und über die-selben v-Strukturen verfügen. Sobald also die ungerichtete Grundstruk-tur gleich ist und dieselben v-Strukturen vorliegen, erzeugen zwei Gra-phen dieselben probabilistischen Unabhängigkeitsmuster und sind mitdiesem Verfahren nicht mehr zu unterscheiden.

Damit lassen sich leicht viele beobachtungsäquivalente Graphenkonstruieren. Einfache Beispiele hatten wir schon kennengelernt:ABC, ABC und ABC sind demnach beobachtungsäquiva-lent, aber auch z.B. die umfassenderen Graphen: DABCE undDABCE und viele ähnliche Strukturen, die keine unterschiedli-chen v-Strukturen (in unserem Fall überhaupt keine v-Strukturen) ent-halten.

Es ist sicher zu stark, in diesen Fällen gleich von Beobachtungsäqui-valenz zu sprechen, denn wir können durch Beobachtung auch zu ande-ren Informationen etwa über die zeitliche Abfolge der Instanzen unsererVariablen gelangen, die selbst wieder zu bestimmten Eliminationen vonKausalvermutungen führen können. Auch sagt uns unser Hintergrund-wissen, dass etwa eine Variable wie das Geschlecht nicht verursacht wirddurch die Variable Rauchverhalten. Wir können unser Geschlecht nichtdadurch verändern, dass wir mehr oder weniger rauchen. Das heißtaber, dass auch bei Markov-Äquivalenz (wie die Beziehung manchmal ge-nannt wird) durchaus noch empirisch zugängliche Informationen dar-über vorliegen können, welche der möglichen Kausalgraphen, die alleunsere Unabhängigkeitsbeziehungen hervorgebracht haben können,unser bester Tipp ist.

Die Mehrdeutigkeit oder Unterbestimmtheit der Theorie (bzw. unse-res vermuteten Kausalgraphen G) wird allerdings noch größer, wenn wirdie Voraussetzungen abschwächen und z.B. noch verborgene CommonCauses zulassen, die sich dann nicht in unserer Liste V von Faktoren be-finden. Dazu gibt es wiederum bestimmte Verfahren wie den IC*-Algo-rithmus, die ich aber hier nicht verfolgen werde. Ein Weg, um die Unter-bestimmtheit zu reduzieren, sind bestimmte Minimalitätsprinzipien, wo-nach wir die einfacheren latenten Strukturen unter den passenden aus-wählen. Dieser Ansatz zeigt wiederum klare Zusammenhänge zur Ab-duktion, da die einfacheren Theorien ceteris paribus die besseren Erklä-rungen liefern sollen.

Ein Modell, das wir uns aber meist gerade nicht wünschen, ist etwaimmer anwendbar, nämlich das, bei dem eine latente Variable Z (alsoeine Variable, deren Werte gerade nicht beobachtbar sind und die uns

Page 592: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 580

bisher nicht bekannt ist) alle anderen Variablen determiniert. Das drohtetwa bei der Gotteserklärung, bei der Gott als Instanz ins Spiel gebrachtwird, die alle Ereignisse in der Welt festlegt und damit erklärt(?). Daskönnen wir mit dem genannten Verfahren nicht ausschließen, entsprichtaber nicht unserem bisherigen Modell unserer Welt, in dem lokale Ereig-nisse x an einer bestimmten Stelle andere lokale Ereignisse y in der Um-gebung von x hervorrufen und ganz bestimmte Eigenschaften Ursachenganz bestimmter anderer Eigenschaften sind, aber nicht gleich aller an-deren Eigenschaften. Gewisse Vorstellungen von Lokalität gehen imRahmen der „Gotteserklärung“ also verloren, die aber normalerweiseKausalbeziehungen gerade so spannend für uns machen, weil wir erstdadurch wissen, wie wir lokal eingreifen können. Wir werden so in vie-len Fällen über Forderungen nach möglichst großer Erklärungsstärkenoch eine weitere Auswahl unter den markov-äquivalenten Strukturentreffen können. Der IC-Algorithmus nutzt keineswegs bereits alle zu-gänglichen Informationen aus.

Sind die so beschriebenen Verfahren abduktiver Natur? Sie zeigen zu-mindest die typischen Merkmale abduktiven Schließens. Ausgangspunktsind bestimmte Ereignisse E=(W=w), für die wir nach einer Erklärungsuchen. Die unterschiedlichen Faktoren X1,...,Xn und ihre Kombinatio-nen bieten die unterschiedlichen Erklärungshypothesen als möglicheUrsachen des Ereignistyps E. Die Koinzidenztabellen bzw. statistischenAbhängigkeiten sind unsere weiteren Daten, die nun mithelfen sollen,bestimmte Hypothesen zu eliminieren. Jeder Schritt von IC kann als einesolche Elimination betrachtet werden. Die auftretenden Koinzidenzenstellen Erklärungsanomalien für bestimmte Hypothesen dar und werdendeshalb ausgeschlossen.

Wenn wir dabei sorgfältig vorgehen und so Gründe dafür haben, dasswir keine möglichen gemeinsamen Ursachen übersehen haben, so habenwir auch prima facie Gründe dafür, anzunehmen, dass es sich um Wissenhandelt. Gibt es dann tatsächlich keine Unterminierer – also etwa ver-gessene Common Causes –, so sollte es sich tatsächlich um Wissen han-deln.

7.3.11 Kausale Vorhersagen

Mit Hilfe eines kausalen Modells lässt sich dann bestimmen, welcheWirkung von bestimmten Variablen auf andere ausgeht und etwa vorher-sagen, was bei bestimmten Eingriffen in ein System passieren würde.Das lässt sich nicht einfach mit den im Prinzip der Beobachtung zugäng-lichen bedingten Wahrscheinlichkeiten identifizieren. Nehmen wir an,

Page 593: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

581 Thomas Bartelborth: Induktives Schließen

wir möchten ermitteln, welchen Einfluss fettes Essen auf die Wahr-scheinlichkeit für einen Herzinfarkt hat. Möchten wir dazu etwa heraus-finden, wie hoch die Wahrscheinlichkeit für einen Sportler wie Franz (S)sein würde, wenn er ab heute immer fett essen (X) würde, einen Herzin-farkt Y zu bekommen, so dürfen nicht einfach rechnen: P(X|do(Y=fett))= P(X|(Y=fett)). Wir können ihm nicht einfach den Wert zuschreiben,den die durchschnittlichen Fettesser haben, denn bei denen sind norma-lerweise weitere relevante Variablen im Spiel, die sich von denen unseresSportlers unterscheiden, wie z.B. die Bewegungsarmut und andere Le-bensumstände. Ist also der durchschnittliche Fettesser viel träger alsFranz, so dürfte die zweite Wahrscheinlichkeit deutlich größer sein, alsdie für Franz, einen Herzinfarkt zu erleiden, wenn er oder ein Sportlerwie er nun auf fette Kost umsteigt. Die Auswirkungen einer Interventionlassen sich nicht ganz so einfach abschätzen.

Pearl u.a. haben nun Regeln dafür aufgestellt, wie sie sich die neuenWahrscheinlichkeitsverteilungen nach Interventionen aus „beobachtba-ren“ Wahrscheinlichkeiten ermitteln lassen. Dazu müssen wir die grund-legende Kausalstruktur kennen. In unserem Beispiel haben wir eineDreiecksstruktur bestehend aus einem Common Cause S von X und Yund zusätzlich einem Zusammenhang XY. Auf die Berechnungsweisenkann ich hier nicht umfassend eingehen, aber einige Beispiele für der-artige Kausalschlüsse mögen genügen:

1. Gilt einfach nur XY, so ist P(x|do y) = P(x|y).

2. Ist aber XZY gegeben, dann gilt: P(y|do x) = P(y), da X kei-ne direkten Auswirkungen auf Y hat.

Ist aber 3. wie in unserem Beispiel sowohl XSY, wie auch XY ge-geben, so gilt:

(DD) P(y|do x) = s P(y|x,s) P(s),

d.h., die Wahrscheinlichkeitsverteilung für Y nach der Intervention er-gibt sich in Abhängigkeit von der weiteren Variablen S, für weitere Le-bensumstände wie Bewegungsarmut etc. Wenn wir also jemanden auffettes Essen setzen würden (per Intervention), so ergäbe sich die Wahr-scheinlichkeit für einen Herzinfarkt als Durchschnittswert für alle davonBetroffenen in den unterschiedlichen Lebensumständen s. Möchten wirdie Wahrscheinlichkeit speziell von Franz möglichst genau ermitteln,sollten wir natürlich nicht mit dieser Durchschnittsverteilung arbeiten,sondern nur den für Franz spezifischen Wert s einsetzen: P(Franz erlei-det Herzinfarkt|fettes Essen)=P(Y=1|X=fettes Essen & S=sportlich).

Page 594: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 582

Möchten wir dagegen den durchschnittlichen Schaden durch fettes Es-sen ermitteln, interessiert uns gerade die Wahrscheinlichkeitsverteilungin der Gesamtpopulation und wir könnten mit den entsprechenden Er-wartungswerten arbeiten (s.o.):

E(Y|do(X=fettes Essen)) ̶ E(Y|do(X=mageres Essen)).

Leider sind Interventionen nicht immer so einfach durchführbar. Meistwird das in Experimenten durch eine geeignete Randomisierung ver-sucht. Wir hatten aber schon gesehen, dass sie nicht immer funktioniert,weil es sich nur um einen Zufallsprozess handelt. Es gibt aber noch an-dere Probleme.

Ein Beispiel von Howson & Urbach (1993) beschreibt den folgendenVersuch. Nehmen wir an, wir möchten ermitteln, ob Tabakrauchen zuLungenkrebs führt, und verteilen unsere Probanden zufällig auf die Ex-perimentalgruppe, die nun stark rauchen muss, und die Kontrollgruppe,die nun nikotinabstinent bleiben muss. Stellen wir uns vor, es ergebensich signifikante Unterschiede zwischen den Gruppen. Aber es könntenicht der Tabak sein, sondern bestimmte Bestandteile im Papier der Zi-garetten, die den Krebs auslösen. Das kann man auch durch eine Ran-domisierung nicht ausschließen. Ganz abgesehen davon, dass wir einensolchen Versuch schon aus moralischen Gründen wohl nie so durchfüh-ren könnten.

Ein anderes Problem könnte sich, wie oben schon erwähnt, aus derVerteilung von Kofaktoren ergeben. Nehmen wir an, es bekämen 10 inunserer Kontrollgruppe Lungenkrebs, ohne geraucht zu haben. Tabak seiaber ein dominanter Faktor zusammen mit bestimmten genetischen Ko-faktoren für den Lungenkrebs. In der Experimentalgruppe sei der Ko-faktor so verteilt, dass genau 10% der Versuchspersonen ihn aufweisenund dann mit Sicherheit einen Krebs entwickeln und für die anderen90% sei der Kofaktor nicht vorhanden, und für die entfalte der Tabaksogar eine wirksame Schutzfunktion vor Krebs. Dann bleiben uns diesekausalen Zusammenhänge trotz Randomisierung verborgen, weil in bei-den Gruppen ca. 10 % an Lungenkrebs erkranken werden. Das ist wie-derum ein Fall von mangelnder Graphentreue der Verteilung. Wir benö-tigen hier tiefergehende Hypothesen über die Kofaktoren, die uns ande-re Experimente vorschlagen – etwa mit Subpopulationen mit denselbenKofaktoren. Doch dazu müssen wir erst einmal Hypothesen darüber ent-wickeln, welche Kofaktoren hier am Werk sein könnten.

Dominik Janzing (2003, 56 ff.) spricht in einem Beispiel auf einpraktisches Problem solcher Experimente an, in denen „Compliance“-

Page 595: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

583 Thomas Bartelborth: Induktives Schließen

Probleme auftreten. Nehmen wir dazu einen Doppelblindversuch miteiner Medizin versus Placebo (Einnahmevariable X) der durch eineInterventionsvariable Z (Aufforderung zur Einnahme) verursacht wird.Die Heilung sei wieder durch Y dargestellt. Es gibt aber eine unbekannteStörvariable U, die hier etwa Aspekte der Persönlichkeitsstruktur be-trifft, etwa ob jemand ein Starrkopf ist oder nicht. Von den Starrköpfen,die sich nichts sagen lassen wollen, nehmen nun etliche ihre Medizinnicht ein. Dann funktioniert die Intervention nicht wirklich sauber, daauch U auf X einwirkt und nicht wirklich abgeschaltet wurde. VieleStarrköpfe könnten verhindern, dass eine an sich wirksame Medizin alssolche in Erscheinung tritt, aber es könnte auch noch schlimmer kom-men.

Sollte U zusätzlich noch Auswirkungen auf die Heilung haben, wärees eine gemeinsame Ursache von X und Y und unsere Randomisierung Zhätte wiederum nicht funktioniert. Die Randomisierung wäre keinesaubere Intervention mehr und das Experiment könnte den durch-schnittlichen Effekt der Medizin nicht sauber bestimmen. Hier sindunterschiedlichste Konstellationen denkbar. Wenn es viele Starrköpfe gä-be und die zudem noch besonders kränklich wären, könnte das Experi-ment auch für eine an sich wirksame Medizin ungünstig ausgehen.

Fisher (1951) setzt in seinen Regeln für das Experimentieren ganzauf die Randomisierung und sie ist sicher ein sehr wichtiges Instrumentfür das Experimentieren, allerdings ist es nicht ganz so einfach und er-folgreich, wie es manchmal unkritisch angenommen wird. Ganz deutlichwird schon bei Fisher, dass er es vor allem als entscheidendes Instrumentbetrachtet, um damit bestimmte kausale Hypothesen eliminieren zu kön-nen. Im Idealfall entsprechen unsere Versuchsgruppe und die Kontroll-gruppe durch eine Randomisierung einer idealen Intervention undunterscheiden sich in ihrer Zusammensetzung nur durch den PrüffaktorX. Sollte sich dann im Hinblick auf Y ein Unterschied zwischen denGruppen ergeben, bleibt uns nur eine Erklärung für diesen Unterschiedübrig, nämlich dass der auf den Unterschied im Hinblick auf X zurück-geht. Wir hätten so den idealen Fall eines Schlusses auf die beste Erklä-rung vor uns, in dem es uns gelungen ist, alle anderen Erklärungen bisauf die eine zu eliminieren. Die Randomisierung leistet im idealen Fallgenau das. Die Hypothese, ein unbekannter Faktor U hätte diesenUnterschied herbeigeführt, wird eliminiert durch den Hinweis, dass U inE und K gleich häufig vorkommt und daher keinen Unterschied bewir-ken kann. Allerdings verbleiben in dieser Elimination alle Unsicherhei-ten des ganzen Verfahrens, das eben nur ein Zufallsverfahren ist. Einige

Page 596: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 584

Probleme haben wir oben bereits geschildert. Weitere beschreibt etwaFreedman (1999).

7.3.12 Ein Beispiel aus der Praxis

Dass diese Verfahren ganz so einfach nicht sind, zeigt auch die Praxis.Spirtes & Glymour & Scheines (2000, 239 ff.) bieten eine umfassendeRekonstruktion eines Teils der heftig geführten Debatte um die Frage,ob Rauchen Lungenkrebs verursacht, deren wichtigste Werke auch heutenoch zitiert werden. Die Bewertung dieser Debatte durch die drei Auto-ren zeigt m.E. zugleich, dass man die Verfahren des kausalen Schließensnicht als alleinige Kriterien heranziehen sollte. Ausgangspunkt war derArtikel von Doll und Hill von 1950 und 1952, wonach es eine starkeKorrelation zwischen Zigarettenrauchen und Lungenkrebs gab. Daskonnte in anderen Studien bestätigt werden und wurde als starkes Indizdafür betrachtet, dass Rauchen Lungenkrebs verursacht. Vor allem SirRonald Fisher (1959) betätigte sich als Kritiker dieser Hypothese undhielt die sogenannte konstitutionelle Hypothese entgegen, wonach einCommon Cause für Beides verantwortlich wäre, also vermutlich eineentsprechende genetische Disposition zum einen Ursache für Nikotin-sucht und zum anderen für Lungenkrebs wäre. Außerdem wurde kritischangemerkt, dass die Studien retrospektiv waren. In den 50er, 60er und70er Jahren gab es zahlreiche Artikel, die die einfache kausale Hypothe-se H vertraten und die Vertreter der konstitutionellen Hypothese K wa-ren eine Minderheit, die aber nach Spirtes et al. eigentlich gute Argu-mente hatten, denn die Daten der Vertreter von H konnten nach denRegeln kausalen Schließens H nicht wirklich etablieren. Das mag zwarstimmen, aber die Frage bleibt, ob sie nicht trotzdem schon damals diebesseren Argumente auf ihrer Seite hatten; auch ohne ein entsprechen-des Verfahren wie die genannten Algorithmen. Dazu möchte ich die we-sentlichsten Argumente kurz aufnehmen und nicht so sehr auf die u.a.sehr heftig geführte Debatte mit ihren persönlichen Angriffen eingehen.

Zu den Kritikern der kausalen Hypothese H gehörte u.a. Burch(1983), der die Unzulänglichkeiten der Daten für den Schluss auf einenkausalen Zusammenhang betont, während unter den Vertretern von Hnoch Cornfield et al. (1959) zu nennen ist, die einen Überblick über diepositiven Indizien geben. Fisher (1959) verwies darauf, dass Korrelatio-nen Kausalbeziehungen nicht festlegen würden, und konnte seine Com-mon-Cause-Spekulation K noch durch einige Belege untermauern. Soscheinen sich eineiige Zwillinge in ihrem Rauchverhalten weniger zuunterscheiden als zweieiige. Das schien dafür zu sprechen, dass das

Page 597: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

585 Thomas Bartelborth: Induktives Schließen

Rauchverhalten auch durch die Gene beeinflusst wird. Außerdem gab esHinweise darauf, dass einige Krebsarten ebenfalls genetische Ursachenhaben. Cornfield et al. (1959) stellten noch einmal die Belege für diekausale These zusammen:

1. Starke Korrelationen zwischen Rauchen und Lungenkrebs auch inden Subpopulationen. Raucher schienen 26-mal so häufig Lun-genkrebs zu bekommen wie Nichtraucher.

2. Die Lungenkrebsraten stiegen genau parallel (allerdings mit einerca. 20-jährigen Verzögerung) zu dem Anstieg der Raucher an.

3. Die Lungenkrebsraten waren in städtischen Populationen höherals in den ländlichen mit weniger Rauchern.

4. Männer waren stärker vom Lungenkrebs betroffen als Frauen undrauchten auch stärker.

5. Die Unterschiede zwischen den Betroffenen in anderen Lebens-umständen schienen zu gering, um die große Kluft zwischen Rau-chern und Nicht-Rauchern zu erklären.

6. Die Lungenhärchen von Kühen, Ratten und Hasen zeigten nachdem Rauchen Beeinträchtigungen ihrer Funktion.

7. Zigaretten-Teer konnte die Zellen von Hunden verändern.8. Rauchen führte bei Mäusen zu Zellveränderungen, aber nicht zu

Lungenkrebs.9. Einige Inhaltsstoffe des Rauches waren als Karzinogen bekannt.

Die Autoren waren der Meinung, dass man die Hypothese K zwar lo-gisch gesehen nicht zwingend widerlegt hatte, aber diese eben doch im-mer schwieriger aufrecht zu erhalten war, weil sie die einzelnen Faktennur mit zusätzlichen Ad-hoc-Annahmen noch erklären konnte. Die Ver-treter der konstitutionellen Hypothese versuchten, diese Punkte jeden-falls auch zu erklären. Den Anstieg der Lungenkrebsraten führten sie et-wa auf verbesserte Diagnoseverfahren und eine Tendenz der Ärzte zu-rück, bei starken Rauchern besonders auf Lungenkrebs zu achten. AusSicht des abduktiven Schließens, das die Debatte sehr gut beschreibt, gabes aber schon einige Erklärungsanomalien der konstitutionellen Hypo-these. So waren z.B. Mormonen, die nicht rauchten, weniger von Lun-genkrebs betroffen als andere Menschen. Sollte das durch einen geneti-schen Common Cause zu erklären sein, müsste der auch für die religiöseAusrichtung verantwortlich sein. Auch ohne zwingende kausale Argu-mente hielten die Anhänger der kausalen Hypothese H das für so wenigplausibel, dass sie das nicht als Erklärung akzeptieren konnten. Hier fin-den sich wohl auch die gewichtigsten Gründe gegen K. Die konstitutio-

Page 598: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 586

nelle Hypothese konnte die vorgelegten Fakten nur mit gewissen Ad-hoc-Annahmen erklären und war damit zwar nicht widerlegt, aber boteindeutig schon in der damaligen Zeit die schlechteren Erklärungen alsH. Allerdings gab es auch Studien wie die skandinavische Zwillingsstu-die (Cederloff et al. 1977), die keine brauchbaren Ergebnisse erbrach-ten, so erkrankten 2 Raucher und zwei Nichtraucher von jeweils ein-eiigen Zwillingen, was nicht für die Hypothese H sprach, aber auchnicht dagegen. Wir haben es in der Praxis leider oft mit „unklaren“Daten zu tun.

Interessant ist sicher noch, dass es auch erste Experimente in dieserFrage gab, die aber ebenfalls praktisch ergebnislos verliefen. So berichte-ten Rose et al. (1982) über eine zehnjährige randomisierte Interventions-studie, bei der in einer Gruppe mittelalter männlicher Raucher eine Ver-suchsgruppe ausgewählt wurde, der Mitglieder dann ermutigt wurden,das Rauchen aufzugeben, worüber sie später selbst berichteten. Es ließsich kein signifikanter Unterschied in den Lungenkrebsraten zu der ver-bleibenden Rauchergruppe feststellen. Die neue „freiwillige“ Nichtrau-chergruppe hatte sogar die höheren Mortalitätsraten. Das Problem zeigtsich immer wieder in der Praxis, dass solche randomisierten Studiennicht das Ergebnis liefern, das wir uns von ihnen versprechen. Die Frageist hier sicher immer wieder, was die beste Erklärung für diesen Miss-erfolg ist. Eine Möglichkeit besteht natürlich darin, dass unsere ur-sprüngliche Hypothese falsch ist. Eine andere muss im Einzelfall gesuchtwerden. Für die Studie von Rose et al. können wir etwa fragen, ob dieStudie lang genug war, um die positiven Wirkungen des Nichtrauchensschon aufzuzeigen. Und wir müssen fragen, ob die Selbstberichterstat-tung über die eigenen Erfolge beim Nichtrauchen immer ganz zuverläs-sig war. So lassen sich im Prinzip aussagekräftigere Studien ausdenken.Allerdings dürfte hier das oben erwähnte Problem eines möglichen„Compliance Bias“ ernst zu nehmen sein. Nur ein Teil der zufällig ausge-wählten Raucher war tatsächlich bereit, auf das Rauchen zu verzichten.Es ist gut nachvollziehbar, dass das diejenigen waren, die sich auch eherin anderen Bereichen einer gesünderen Lebensweise zuwendeten. Dannkönnte der Effekt des Nichtrauchens überzeichnet sein. Oder sie lebtenschon immer gesünder als die anderen Raucher, dann könnte der Effektdes Nichtrauchens geringer geschätzt werden, als er tatsächlich war.

7.3.13 Randomisierte Experimente

Sir Ronald Fisher (1951) setzte jedenfalls ganz auf randomisierte Experi-mente. Seine Begründung dafür ist gut nachvollziehbar und deckt sich

Page 599: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

587 Thomas Bartelborth: Induktives Schließen

eindeutig mit den Ideen des abduktiven Schließens bzw. der eliminativenInduktion (oder dem Schluss auf die einzig verbliebene Erklärung). Neh-men wir an, wir haben aus unserer Population eine Gruppe von Proban-den ausgewählt, um ein Medikament zu testen, so werden wir dieseGruppe per Zufallsauswahl auf die Versuchs- und die Kontrollgruppeaufteilen, weil wir hoffen, damit eine Vielzahl (möglichst alle bis aufeine) von kausalen Hypothesen eliminieren zu können. Sollte sich in derVersuchsgruppe ein bestimmter Effekt Y gegenüber der Kontrollgruppezeigen, so schließen wir, dass er nicht auf noch unbekannte Faktoren Uzurückzuführen sein kann, da die vermutlich in beiden Gruppen durchdie Randomisierung ungefähr gleichverteilt sein sollten. Dann wäre esaber unwahrscheinlich, dass Y auf U zurückzuführen wäre, denn U liegtschließlich in ausgeglichener Weise (so der Idealfall) in beiden Gruppenvor. Dann wird ein Schluss auf die Definition von kausaler Wirkung unddie Differenzmethode zurückzuführen sein.

Wir haben oben aber schon einige Einwände und Probleme zu dieserSchlussweise genannt. Fisher scheint ihre Möglichkeiten auch für diePraxis etwas zu überschätzen (das zeigte auch das Raucher-Experiment),aber wir können uns auch nicht der Kritik und dem sehr negativenUrteil von Howson & Urbach (1993, Kap. 11) anschließen. Allerdingshat Worrall (2007) recht, dass das Vertrauen in die Randomisierung inder Praxis etwa der Medizin oft so übertrieben wird, dass andere Datenkaum noch zur Kenntnis genommen werden, obwohl sie durchaus eben-falls etwas über kausale Zusammenhänge aussagen können.

7.4 Kausale Modelle

7.4.1 Die Grundideen der Regressionsrechnung

Viele kennen die Regressionsrechnung aus der Statistik und nicht immerwerden dabei die Bezüge zu kausalen Vermutungen deutlich gemacht.Wir werden hier Gleichungen des Typs

(*) Y = f(X1,...,Xn) (etwa mit einer Funktion f:ℝnℝ)

zumindest immer so verstehen, dass die erklärenden Variablen X1,...,Xn

Ursachen der Zielvariablen Y sein sollen. Ich halte mich hier an die Be-nennungen aus Fahrmeier et al. 2009; die sind jedoch keineswegs ein-heitlich für den Bereich der Regressionsrechnung. Sie verdeutlichen unsaber, worum es geht. Wir gehen von der Zielvariablen Y zurück auf dieerklärenden Variablen, also normalerweise die Ursachen von Y und ver-

Page 600: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 588

suchen die funktionale Abhängigkeit f genauer zu bestimmen bzw. zuschätzen.

Wir können die Gleichung solcher Regressionen nach Freedman(1997) genau genommen auf drei Arten verstehen. Zunächst kann (*)einfach als Beschreibung bestimmter Daten dienen. So haben wir in derPopulation bestimmte Objekte o1,...,on, an denen wir zwei Größen Xund Y gemessen haben und fragen uns, welche Geradengleichung dieseDaten am besten systematisiert. Das hat nichts mit einer kausalen Inter-pretation von (*) zu tun. Man kann (*) auch nutzen, um damit eine Vor-hersage abzugeben. Nehmen wir an, X sei der Grad der Gelbfärbung derFinger und Y das Lungenkrebsrisiko, dann taugt X sehr wohl (wenn wireinmal annehmen, dass es sich um eine relativ stabile Beziehung han-delt), um auch neue Werte des Krebsrisikos aus neuen Werten von Gelb-färbung vorherzusagen, obwohl es sich bei (*) danach nicht um eine kau-sale Gleichung handelt. Nur die dritte Interpretation stellt einen kausa-len Schluss dar (vgl. Woodward 1999, 2003, Kap. 7). Danach beschrei-ben die Xi die direkten Ursachen von Y und (L1) gibt uns an, was unterbestimmten Interventionen an den Xi passieren würde. Das ist die Deu-tung, der auch ich hier folgen werde. Das ist jedenfalls das, wonach wirin solchen Rgeressionsrechnungen suchen sollten und dann erst befindenwir uns wieder im Gebiet kausalen Schließens.

Wenn wir die kausale Struktur in einem bestimmten Bereich aufge-klärt haben, können wir dadurch noch einen Schritt weitergehen undversuchen, die genaueren funktionalen Zusammenhänge zwischen denGrößen zu beschreiben. Das soll u.a. dazu dienen, das Ausmaß bestimm-ter Zusammenhänge oder bestimmter Maßnahmen in unserer Popula-tion zu quantifizieren. Wissen wir etwa, dass das Rauchen eine Ursachefür den Lungenkrebs ist, so bleibt immer noch die Frage offen, welchesAusmaß bestimmte Maßnahmen in unserer Population haben würden,wie etwa die Durchsetzung des Rauchverbots. Gibt es z.B. in der vorlie-genden Grundgesamtheit nur 1% Raucher, von denen nur jeder Tau-sendste einen Lungenkrebs entwickelt, so ist schon einmal klar, dassdurch das Rauchverbot höchstens einer von 10 000 Personen gerettetwürde. Käme nun noch hinzu, dass nur jeder zweite Lungenkrebspatientaufgrund des Rauchens (eigenes oder Mitrauchen) erkrankt, könnte dasVerbot nur einen von 20 000 Personen retten. Das könnte etwa im Vor-feld wichtig sein, wenn wir über solche Maßnahmen nachdenken. Dazusuchen wir nach quantitativen Zusammenhängen zwischen den Größenetwa im Sinne einer linearen Gleichung im Rahmen der Regressions-rechnung:

Page 601: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

589 Thomas Bartelborth: Induktives Schließen

(LG) Y = a0+a1X1+...+anXn +U

Die Gleichung (LG) soll hier so zu lesen sein, dass die erklärenden Grö-ßen X1,...,Xn als Ursachen der Zielgröße Y aufgefasst werden. Die Para-meter a1,...,an geben dann darüber Auskunft, wie stark sich Y ändert,wenn sich eines der Xi ändert, wobei hier schon angenommen wird, dassdie Xi untereinander nicht interagieren, d.h. keine Kofaktoren voneinan-der sind, sondern unabhängig voneinander auf Y wirken. Unsere gesuch-te Funktion f aus (*) wird hier von Anfang an auf eine bestimmte einfa-che Form festgelegt. Man sucht nun nach der Gleichung, die die Datenam besten erklären kann. Dafür gibt es den Ansatz der Regressionsrech-nung. Dafür kommt noch eine Komplikation ins Spiel, die sich am bes-ten mit einem Schema aus der Informationstheorie beschreiben lässt:

Daten = Signal+Rauschen

Das heißt, wir erwarten nicht, dass unsere erklärenden Variablen Xi dieWerte der Zielgröße zu einhundert Prozent erklären können, sondern esgibt daneben immer eine Abweichung, die wir als Rauschen, Störterm,Messfehler etc. beschreiben können, und die wird hier durch die Zu-fallsvariable U wiedergeben. Das heißt, wir können das auch so beschrei-ben:

Messwert = systematischer Wert + Messfehler

In (LG) wird dazu schon angenommen, dass auch U keine Interaktionmit den erklärenden Variablen Xi aufweist. Jedenfalls sollte eine gute Er-klärung der Daten diesen „Zufallsfehler“ in irgendeiner Form berück-sichtigen und ist daher nicht darauf angewiesen, dass die lineare Funk-tion y=a0+a1x1+...+anxn die Daten exakt reproduziert.

Man spricht ebenfalls von einer Kurvenanpassung. Zu vorgegebenDaten suchen wir nach einer Kurve (in unserem Spezialfall einer Hyper-ebene), die nahe an unseren Daten liegt. Der Fehlerterm erlaubt, dass esgewisse Abweichungen zwischen den Daten und dem systematischen An-teil der rechten Seite der Gleichung gibt, ganz nach dem genanntenSchema: Daten=Signal+Rauschen. Dieses Rauschen hatten wir obenschon für die Messungen einer so einfache Größe wie dem Gewicht ken-nengelernt. Die nächsten Fragen werden dann sein: Wie messen wir denAbstand zwischen unserer Kurve und den Daten? Dafür nimmt man heu-te normalerweise die Summe der Abstandsquadrate, die Frage bleibtaber, warum wir das tun sollten und kein anderes Abstandsmaß verwen-den. Zweitens müssen wir wissen, welche Abweichungen wir akzeptie-ren wollen und was wir dabei gewinnen, wenn wir etwa einen größeren

Page 602: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 590

Fehler akzeptieren. Meist geht es uns darum, die einfacheren Funktionenzu wählen (also in unserem Beispiel etwa lineare Funktionen, denn wirhaben keine Terme höherer Ordnung Xi

n oder Terme für Interaktionenwie XiXj in unserer Funktionsgleichung).

Das führt schließlich zu der nächsten Frage, was man genau unterEinfachheit verstehen kann und warum wir nach einfacheren Funktio-nen streben sollten. Geht es nur um unsere mathematische Bequemlich-keit oder bieten die einfacheren Funktionen auch einen Erkenntnisge-winn etwa im Sinne des abduktiven Schließens? Steht vielleicht die meta-physische Spekulation im Hintergrund, dass die Welt im Wesentlichenaus einfachen Zusammenhängen besteht? Das sind schwierige Fragen,auf die es erste Antworten gibt, aber es wird auch klar werden, dass die-se Antworten noch nicht das Ende der Debatte darstellen, denn die Ant-worten sind kaum zwingend, sondern bieten bestenfalls erste Hinweiseauf bestimmte Lösungsansätze.

In unserem Raucherbeispiel könnte der lineare Ansatz etwa bedeu-ten, dass X1 über die Gesamtmenge an gerauchten Zigaretten Auskunftgibt, und X2 über die Menge an anderen schädlichen Stoffen (wie Radonoder Asbest) usf. Dann geht man davon aus, dass die Lungenkrebsrate Ylinear von beiden Größen abhängt und es nicht zu Synergieeffekten indem Sinne kommt, dass die Belastungen sich potenzieren würden. Imnächsten Schritt wird man bestimmte Beobachtungsdaten dazu bestim-men und könnte damit versuchen, die Parameter a1 und a2 und gegebe-nenfalls weitere so zu schätzen, dass die resultierende Kurve möglichstnahe an die Daten herankommt. Wenn wir nur X1 einbringen, müssenwir einfach aus allen Geraden die aussuchen, die unseren Daten insge-samt am nächsten kommt.

U beschreibt dann den Fehler, der noch verbleibt. Als Abstandmaßverwenden wir hier wie schon erwähnt die Summe: SQ(LG)=i (yi-a0-a1xi)2 = i (di)2, wobei wir mit di nun die senkrechten Abstände zwi-schen Kurven und Daten bezeichnen wollen. Die Frage war dann, war-um wir nicht einfach i di oder eine andere Funktion der di wählen, umdamit die Abstände zwischen der Kurve und unseren Daten (xi,yi) zu be-stimmen. Darauf kommen wir weiter unten zurück.

Wir nehmen allgemeiner an, dass es jedenfalls irgendeine funktionaleAbhängigkeit f der Zielgröße Y von ihren kausalen Eltern PAY gibt, diewir durch eine Funktion f beschreiben können, und suchen nach einemgeeigneten f. Dann setzen wir so an:

(FG) Y = f(PAY, U)

Page 603: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

591 Thomas Bartelborth: Induktives Schließen

Dabei soll etwa U als Variable für die noch unbekannten Größen einge-führt werden oder einfach für die zu erwartenden Messfehler bzw. Stör-terme. Das heißt, U wird eingeführt, um die Differenz zwischen denWerten f(PAY) und Y zu erklären. Für jede Stufe im Kausaldiagramm undjede Wirkung führen wir so eine Gleichung ein, die einen speziellen kau-salen Mechanismus in unserem größeren kausalen Netz beschreiben soll.Wenn wir die Eltern von Y identifiziert haben, können wir sie explizit inunserer Gleichung auflisten mit X=(X1,...,Xn) und die Gleichung neuformulieren:

(GG) Y = f(X,U)

Die Zufallsvariable U kann also unterschiedliche Deutungen erfahren. Ineinem deterministischen Rahmen (den selbst Pearl 2000 in seinem rechtprobabilistisch geprägten Ansatz annimmt) kann U ein Ausdruck für dienoch unbekannten Faktoren sein, die neben den Xi auch auf Y einwir-ken. Sie werden einfach in einer Zufallsvariablen zusammengefasst. Eineandere Lesart wäre, es als eine Beschreibung des Messfehlers zu deuten,den wir bei jeder Messung berücksichtigen müssen. Im indeterministi-schen Fall können wir durch U auch den probabilistischen Anteil zumAusdruck bringen. Meist nimmt man jedenfalls an, dass dieser Fehlerteilsich als unabhängig von unseren anderen Ursachenfaktoren einbringenlässt, und notiert die Gleichung daher so:

(EG) Y = f(X) + U,

wobei man meist noch einige Annahmen über U akzeptiert, auf die ichweiter unten zu sprechen komme. Um eine solche Gleichung verstehenzu können, starten wir etwa mit einer einfachen linearen Gleichung, diesich etwa im Rahmen einer linearen Regressionsrechnung ergibt:

(LG) Y = a0+a1X1+...+anXn +U

Komplexere Funktionen lassen sich damit im Prinzip auch modellieren,da wir z.B. die Möglichkeit haben, neue Zufallsvariablen etwaX*=log(X) einzuführen und diese dann in einer linearen Regression ein-zubringen (vgl. Fahrmeier et al. 2009). Dabei geht man oft davon aus,dass der Fehlerterm oder die Störgröße U eine Reihe von Bedingungenerfüllt (vgl. Woodward 1999, 2003, Kap. 7; Fahrmeier et al. 2009: die 5Axiome der Testtheorie):

(FA) Typische Fehlerterm-Annahmen(F1) E(U) = 0(F2) Homoskedastizität bzw. die Konstanz der Varianz bzgl. aller

Page 604: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 592

Werte von X.(F3) Statistische Unabhängigkeit bzw. keine Autokorrelation des

Fehlerterms für verschiedene Werte von X.(F4) Statistische Unabhängigkeit von U und den erklärenden

Variablen Xi.

Diese Bedingungen stellen jeweils ganz bestimmte Annahmen dar, diewir mit der Zufallsvariable U verbinden. Die erste Bedingung (F1) be-sagt, dass U nur einen unsystematischen Fehler beschreibt bzw. die Wir-kung der nicht beobachteten Störvariablen sich im Durchschnitt in unse-rer Population wieder aufhebt. Damit geht für die Beurteilung der Wir-kung insgesamt nicht wirklich viel verloren, wenn wir die Variablen in Uaußen vor lassen. Vereinfachend wird außerdem angenommen (F2), dassdie von U hervorgerufenen Abweichungen an jeder Stelle unserer Kurve(LG) den gleichen Umfang annehmen und nicht in einem Bereich beson-ders groß sind. Das ist oft hilfreich für bestimmte Abschätzungen undkann deshalb zunächst einmal so stehenbleiben. Natürlich können wirsolche Annahmen auch wieder aufgeben. In (F3) geht es darum, dass dieFehler an bestimmten Stellen nicht von den Fehlern an anderen Stellenabhängen sollen. Man könnte sagen, das gehört zu unserer Vorstellungvon Fehlern, dass sie keine solchen systematischen Zusammenhänge auf-weisen, was in (F4) noch weitergetrieben wird, wonach die Fehler auchnicht mit unseren erklärenden Variablen statistisch zusammenhängen.Dabei gehen wir in der Regel davon aus, dass eine kausale Unabhängig-keit auch eine statistische Unabhängigkeit nach sich zieht. Dass das nichtimmer zwingend der Fall sein muss, hatten wir bereits im Zusammen-hang mit der Graphentreue diskutiert. [Wie Regressionen ohne solcheAnnahmen aussehen, finden wir z.B. auch bei Fahrmeier et al. (2009).]

Nehmen wir als einfaches Beispiel im Rahmen unserer Annahmendie Gleichung:

(BG) (Lungenkrebsrate) = a0+ a1(Anzahl gerauchter Zigarretten)+U

Wir nehmen für (BG) an, dass der durchschnittliche Fehler bzw. diedurchschnittliche Abweichung U jeweils Null ist, sonst müssten wir nacheinem anderen funktionalen Zusammenhang zwischen unseren beidenVariablen suchen, der diese systematischen Abweichungen berücksich-tigt. Eine gewisse Grundquote an Lungenkrebs wird außerdem durch dieKonstante a0 abgedeckt. Die zu erwartenden Abweichungen denken wiruns als dieselben für unterschiedliche Werte der Variablen (Anzahl ge-rauchter Zigaretten), obwohl das vermutlich kaum sehr realistisch ist.

Page 605: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

593 Thomas Bartelborth: Induktives Schließen

Man könnte etwa annehmen, dass für hohe Anzahlen auch die Schwan-kungen etwas größer sind, aber als brauchbare mathematische Idealisie-rung mag das zunächst durchgehen. Die zufälligen Abweichungen für10 000 gerauchte Zigaretten sollen zudem nicht von denen für 20 000abhängen, denn die gesamte Abhängigkeit unserer Variablen steckt be-reits im systematischen Teil der Gleichung.

Diese Annahmen sind von Bedeutung, wenn wir unser Verfahrenrechtfertigen, etwa im Hinblick auf die Methode der kleinsten Quadra-te. Nehmen wir etwa an, U sei überall normalverteilt mit U~N(0,2)und einem unbekannten (d.h. P(U=u) folgt der Normalverteilung mitDichtefunktion (x)=1/(2) exp(–1/2 (x/)2) und P(Uu)= xu(x)dx,wobei wir für U also kleine Intervalle betrachten sollten). Dann könnenwir eine bestimmte Rechtfertigung für eine Gerade anhand der Methodeder kleinsten Quadrate finden, denn sie ist dieselbe wie der entsprechen-de Maximum-Likelihood-Schätzer (vgl. Fahrmeier et al. 2009).

Das heißt, wenn wir mit der Methode der kleinsten Quadrate eineGerade auswählen, ist sie die Gerade g, für die gilt, dass die Wahrschein-lichkeit für die Daten bei dieser Gerade g die höchste Wahrscheinlich-keit im Vergleich aller Geraden g* ist, d.h., für alle g* gilt: P(Daten|g) P(Daten|g*). Das entspricht einer abduktiven Begründung, denn ceterisparibus ist dann g eine bessere Erklärung für die Daten als andere Gera-den g*; und g ist die Gerade, die am ehesten von allen Geraden genauunsere Daten vorhersagen würde. Für diese speziellen Annahmen über Ugibt es also zunächst eine Begründung dafür, den Abstand zwischen derGeraden und den Daten anhand der Summe der Quadrate zu bemessen.Allerdings ist die Erklärungsstärke nicht nur durch die entsprechendenLikelihoods bestimmt, sondern auch durch andere Parameter und außer-dem wurde der Aspekt, dass die Daten sich aus systematischen und zu-fälligen Anteilen zusammensetzen, bisher noch nicht genügend berück-sichtigt.

Bisher haben wir uns nur auf Geradengleichungen beschränkt, aberwenn wir etwa allgemeinere Polynome höheren Grades zulassen, kön-nen wir damit meistens eine deutlich bessere Anpassung an die Daten er-reichen (kleinere Werte der Quadratsummen der Abweichungen), zumaldie linearen Funktionen immer noch als Grenzfall mit enthalten sind. Al-lerdings droht nun eine Überanpassung, die mehr die Zufallsschwankun-gen nachzeichnet, als die systematischen Signale zu ermitteln, wenn wiretwa beliebige Polynome zulassen. Darum sehen bestimmte VerfahrenStrafterme für eine zu komplexe Funktion vor, mit deren Hilfe die An-passung vorgenommen werden soll, um der Überanpassung entgegenzu-

Page 606: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 594

wirken. So werden z.B. im Ansatz von Akaike (1973) den verglichenenLikelihoods jeweils Strafterme für komplexe Funktionen hinzugefügt.Dabei wird die Komplexität etwa durch die Anzahl der freien Parametereines komplexen Polynoms bestimmt.

7.4.2 Penalisierung und Erklärungen auch für zukünftige Ereignisse

Wie bereits erwähnt fragen wir uns in der Regressionsrechnung, was diebeste Erklärung für unsere Daten ist. Denken wir zunächst an einen Zu-sammenhang zwischen bloß zwei Faktoren X und Y der Art: Y=f(X)+U.Dabei suchen wir natürlich nach einer insgesamt besten Erklärung, dienicht nur unsere bisherigen Daten gut erklären kann, sondern der ent-scheidende neue Aspekt ist, dass wir auch die zu erwartenden zukünfti-gen Daten mit einbeziehen. Selbstverständlich wollen wir eine Erklärungfinden, die auch für sie mit zutrifft. Doch das hilft uns meist nicht wei-ter, da diese Daten schließlich noch unbekannt sind. Sollten wir aller-dings Grund zu der Annahme haben, dass sie von einem bestimmten Typsind, den wir charakterisieren können, so sind sie selbstverständlich mitzu berücksichtigen. Genau das geschieht im Akaike Theorem. Wenn wirannehmen, dass gilt: Messwert=systematischer Wert + Messfehler, sodürfen wir nicht nach einer Kurve suchen, die die Messwerte exakt re-produziert. Wir könnten sonst etwa an ein Polynom höheren Grades(vielleicht 20 oder mehr) denken, dass alle Windungen unserer bisheri-gen Daten mitmacht.

Sie würde unsere bisherigen Messfehler exakt nachbilden und als sys-tematische Anteile darstellen, doch das wäre eine Überanpassung, dieneue Daten nicht so gut beschreiben würde, denn der Fehleranteil ist un-systematisch und wird daher nicht in derselben Weise in den neuen nochzu erwartenden Daten wiederzufinden sein. So verfahren wir in der Pra-xis der Regressionsrechnung deshalb nicht. Wenn jemand mit einemPolynom 45-ten Grades daherkommt, das unsere Daten exakt reprodu-ziert, werden wir ihn nicht für eine besonders gute Arbeit loben, wennwir mit einer einfachen Geradengleichung schon eine relativ gute Ap-proximation erzielen.

Das Theorem von Akaike weist uns dazu einen Weg, wie wir auf sys-tematische Weise die Komplexität unserer Funktion und die Güte derAnpassung miteinander verrechnen können. Sie stützt sich dazu auf diezu erwartende Prognoseleistung unterschiedlicher Regressionsverfahren.Eine bessere Prognose liefert statt einer optimalen Anpassung an dieDaten (und das ist gerade der Inhalt des Akaike Theorems vgl. Forster& Sober 1994) eine Abtrennung des systematischen Anteils vom unsys-

Page 607: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

595 Thomas Bartelborth: Induktives Schließen

tematischen oder nicht erfassten Anteil. Das funktioniert in der Praxisso, dass ein Strafterm für die höhere Komplexität der Kurve eingeführtwird, der genau so ausgestaltet wird, dass die resultierenden Kurven diehöchsten Likelihoods für die noch zu erwartenden Daten aufweisen. Dasheißt aber gerade, dass wir nach solchen Kurven suchen, die nicht nurdie alten Daten, sondern auch noch die zu erwartenden Daten am bes-ten erklären können. Dabei benutzt Akaike die Kullback-Leibler-Distanzfür Verteilungen, um die Abstände zwischen Modell und zu erwartendenDaten darzustellen, wobei wir davon ausgehen, dass die neuen Datendurch dieselbe Verteilung produziert werden, wie die schon gefundenenDaten. So wird zum ersten Mal überzeugend erklärt, inwiefern Einfach-heit einen epistemischen Wert darstellt und nicht nur mit unserer Be-quemlichkeit zu tun hat (vgl. Forster & Sober 1994).

Das ist eine neue Wendung auch für das abduktive Schließen. Selbst-verständlich verlangt ein Schluss auf die beste Erklärung, dass alle rele-vanten Daten, die es jemals geben wird, möglichst gut durch unsereHypothesen zu erklären sind. Haben wir also Grund zu der Annahme,bereits bestimmte Dinge über zukünftige Daten zu wissen, so sollten wirdas natürlich in unseren heutigen abduktiven Schlüssen berücksichtigen.Nichts anderes geschieht im Akaike Ansatz, der zum Akaike Informa-tionskriterium AIC geführt hat. Das beruht allerdings darauf, dass wirgenauer angeben können, welche Daten denn eigentlich zu erwartensind. Dazu macht Akaike in seinem Theorem zumindest eine plausibleKontinuitätsannahme. Er geht davon aus, dass die zugrundeliegende Ver-teilung, die unsere bisherigen Daten hervorgebracht hat, dieselbe ist, dieauch die neuen Daten hervorbringen wird. Diese Annahme scheint einerecht grundlegende Annahme zumindest für viele unserer konservativenInduktionsverfahren zu sein. Haben wir keine gegenteiligen Hinweise,ist das sicher unsere nächstliegende Arbeitshypothese. Sie geht im Akai-ke Ansatz in den Schluss auf die beste Erklärung mit ein und unser allge-meines Modell, wie sich die Daten zusammensetzen, natürlich auch. DieKomplexität unserer Funktionen wird nach Funktionsklassen bestimmt,die durch die Anzahl der freien Parameter gegeben ist, die diese Klassenbeschreiben. So wird die Funktionsklasse f(x)=a0+a1x+a2x2+...+anxn,durch die n+1 Parameter a0, a1, ..., an beschrieben und erhält einenStrafterm, der von n+1 abhängt und dessen genaue Ausgestaltung durchdas Theorem von Akaike bestimmt wird.

Man geht dann so vor, dass man in jeder Funktionsklasse die besteFunktion (etwa mit der maximalen Likelihood Ln relativ zu den Datend) heraussucht und anschließend die Sieger in ihren Klassen jeweils mit

Page 608: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 596

dem Klassenstrafterm versieht und schaut, wer dann den besten Wert(Likelihood minus Strafterm) aufweist. Dabei wird AIC=–ln(Ln+1) +2(n+1) gewählt und der jeweils kleinste AIC-Wert gewinnt, d.h., die ent-sprechende Funktion liefert uns das beste Modell. Je mehr Parametervorkommen, um so schlechter wird also der AIC-Wert, aber für vieleDaten fällt der Strafterm nicht mehr so stark ins Gewicht, da Ln+1 nahebei Null liegt und damit ln(Ln+1) sehr klein und so –ln(Ln+1) sehr großwird. Dann entscheiden eher Unterschiede in den Likelihoods als in derAnzahl der Parameter. Das so gewählte Modell bietet die insgesamt bes-te Erklärung für unsere tatsächlichen und noch erwarteten Daten. Dasist für den Durchschnitt der zu erwartenden Daten beweisbar, wenn wirdie Annahmen des Akaike Theorems akzeptieren. Allerdings führenschon kleine Änderungen in den Abstandsmaßen zu kleinen Änderungenin den Straftermen und anderen Kriterien als AIC. So gibt es inzwischenviele weitere Kriterien (s.a. Forster 2000).

Schlimmer ist aber noch, dass wir keinen Grund dafür haben anzu-nehmen, dass unsere Funktion f in (EG) immer ein durchgängiges Poly-nom sein muss. Bei Fahrmeier et al. (2009) finden sich Beispiele dafür,dass auch Polynome höheren Grades nicht immer gute Ergebnisse liefernmüssen. Warum sollte der liebe Gott die Zusammenhänge zwischen Xund Y nur durch ein Polynom gestalten? Er könnte sich ganz andere Zu-sammenhänge ausdenken. Und auch die Regression wird einfacher undbesser, wenn wir etwa nur annehmen, dass die Bereiche stabiler einfa-cher Zusammenhänge kleiner sind. Wir können unseren Anwendungsbe-reich in viele kleine Intervalle aufteilen und dann jeweils in diesen klei-nen Abschnitten die Daten durch einfache polynomiale Kurven niedri-gen Grades darstellen. Fahrmeier et al. (2009) sprechen da von Poly-nom-Splines. Deren Komplexität wird vor allem bestimmt durch die An-zahl der Knoten und die Glätte der Funktion an diesen Knoten (manverlangt dort mindestens die Stetigkeit der Gesamtfunktion), die durchden Differenzierbarkeitsgrad an diesen Stellen festgelegt wird. Doch da-mit bewegen wir uns langsam weg, von unseren klaren und interpretier-baren Vorstellungen von Komplexitätsstraftermen. Die Debatte wirdhier sicherlich weiterzuführen sein, aber der große Durchbruch, denAkaike noch für Forster & Sober (1994) zu bringen schien, hat sich z.T.wieder verflüchtigt.

Eine andere Frage, der man sich in der Statistik ebenfalls zuwendet,ist die, welche unterschiedlichen Faktoren wir überhaupt betrachtensollten. Sind Kreativität und Phantasie zwei unterschiedliche Faktorenoder hängen sie doch sehr eng – vielleicht sogar zum Teil analytisch –

Page 609: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

597 Thomas Bartelborth: Induktives Schließen

zusammen? Die Faktorenanalyse und die Clusteranalyse sind u.a. Me-thoden, um solche Faktoren zu ermitteln.

Das allgemeine Ziel der Faktorenanalyse besteht darin, korrelierendeVariablen auf höherer Abstraktionsebene zu Faktoren zusammenzu-fassen. Damit ist die Faktorenanalyse ein datenreduzierendes Verfah-ren. Musste man im obigen Beispiel zur Charakterisierung einer Per-son zunächst Messwerte auf den sechs Variablen heranziehen, sind esnach der Faktorenanalyse nur noch zwei Werte (sog. Faktorwerte),die praktisch die gesamten Variableninformationen abbilden. Diesedatenreduzierende Funktion der Faktorenanalyse ist besonders dannvon Nutzen, wenn man mit sehr vielen Variablen arbeitet und es ein-fach ökonomischer und übersichtlicher ist, mit Faktorwerten stattmit vielen korrelierten Einzelmessungen zu operieren. (Bortz & Dö-ring 2006 Kap. 6.4)

7.4.3 Zusammenhänge zum abduktiven Schließen

Insgesamt hat sich gezeigt, dass das kausale Schließen eine Spezialformdes abduktiven Schließens darstellt und keine Konkurrenzmethode. Inseinen unterschiedlichen Varianten werden unterschiedliche Hinweiseabduktiv ausgewertet, um auf die zugrundeliegenden Kausalzusammen-hänge zurück zu schließen. Im Falle der minimalen Theorie mit ihrerAnnahme deterministischer Zusammenhänge wurden Regelmäßigkeiten(oder Korrelationen) positiv ausgewertet. Allerdings ließen sie sich nurdann als Indikatoren für Kausalität interpretieren, wenn sie auch in spe-ziellen homogenisierten Situationen (also etwa in sogenannten randomi-sierten Interventionsstudien, aber nicht nur dort) auftraten. Dann bliebnur noch eine Erklärung übrig, denn alle möglichen Konkurrentenkonnten durch Homogenisierung eliminiert werden. Als Liste der mögli-chen erklärenden Theorien finden wir hier alle möglichen kausalen Zu-sammenhänge, die zwischen den Faktoren bestehen können, als Hypo-thesen. Es handelt sich wiederum um einen Schluss auf die einzig ver-bliebene Erklärung, deren Grundidee wir schon in der eliminativen In-duktion kennengelernt hatten.

Im Falle der bayesschen Netze wurden dagegen die statistischen Un-abhängigkeitsbeziehungen ausgewertet. Dazu mussten wir allerdingseine gewisse strukturelle Übereinstimmung zwischen der tatsächlichenKausalstruktur und den zu beobachtenden Korrelationen (Markov-Be-dingung und Graphentreue) voraussetzen. Außerdem haben wir ange-nommen, die tatsächliche Kausalstruktur sei frei von Zirkeln und ent-

Page 610: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Kapitel 7: Kausalschlüsse 598

spreche somit der Struktur eines azyklischen gerichteten Graphen. Gera-de der IC-Algorithmus verdeutlichte aber auch hier wieder, wie das Eli-minationsverfahren vonstatten geht. Es werden zunächst alle möglichenZusammenhänge zwischen den Variablen zugelassen und dann schritt-weise möglichst viele davon eliminiert. Dabei sind zunächst viele Hypo-thesen im Spiel, die dadurch gegeben sind, dass man zwischen allen be-teiligten Variablen eine Kausalbeziehung annimmt und diese Listen anHypothesen dann langsam durch Elimination anhand von Unabhängig-keitsbeziehungen reduziert. Erst durch Streichen von Kanten zwischenden Variablen und dann durch Orientieren der Kanten, wodurch jeweilsnur noch eine von den zwei noch möglichen Kausalzusammenhängenübrigbleibt.

Wenn wir weitergehende kausale Modelle aufstellen wollen, geht esauch wieder um die jeweilige Erklärungskraft dieser Modelle. Wir ver-gleichen ein Kontinuum dieser Modelle anhand ihrer Likelihoods, d.h.anhand der Wahrscheinlichkeit, die sie den Daten geben, wobei wirschon annehmen, dass bestimmte kausale Zusammenhänge zwischenden erklärenden Variablen und der Zielvariablen bestehen. Dann ist die-se Likelihood sicher ein wesentlicher Aspekt der Erklärungsstärke. Aller-dings ist es nicht der einzige und gerade in den betrachteten Fällen müs-sen wir einen kleinen nicht erklärbaren Zufallsanteil einräumen und inunseren Vergleichen berücksichtigen, so dass die letzten Theorienverglei-che etwas komplizierter ausfallen und schließlich das passiert, was wirschon für das induktive Schließen und das abduktive Schließen im Be-sonderen eingeräumt hatten, nämlich, dass die Kriterien für die beste Er-klärung auch gewisse Spielräume aufweisen und insbesondere die Ver-rechnung unterschiedlicher Aspekte der Erklärungsstärke nicht immereinheitlich und unumstritten ist.

Page 611: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

599 Thomas Bartelborth: Induktives Schließen

Einige Notationen

Begriffe der Bestätigung• B(H:E) bedeutet, dass die Hypothese H durch das Datum E bestätigt

wird.• B(H:E;K) bedeutet, dass die Hypothese H durch das Datum E bestä-

tigt wird, gegeben ein bestimmtes Hintergrundwissen K.• B(H:E,E*) bedeutet, dass die Hypothese H durch das Datum E bes-

ser bestätigt wird als durch das Datum E* (entsprechend:B(H:E,E*;K))

• P(A) ist die Wahrscheinlichkeit dafür, dass die Aussage A wahr ist• P(X=x)=P(x) ist die Wahrscheinlichkeit dafür, dass die Zufallsvaria-

ble X den Wert x annimmt.Als logische Zeichen verwende ich:• & als Konjunktionszeichen „und“ und als einschließendes oder• (Allquantor) „für alle“• (Existenzquantor) „es gibt ein“• (logische Äquivalenz) „ist genau dann wahr, wenn“• ⊨ (semantische Folgerung) „daraus folgt“• {x; Fx} für die Menge aller x, die die Eigenschaft F erfüllen• HaaFaGa und für abzählbar unendlich viele ai schreiben wir

aiFaiGai und kürzen dann ab: nFanGan und ni(i{1,...,n} (FanGan)) &in(FaiGai) oder oft H i(FaiGai) oderwir schreiben dafür auch x(FxGx). Und dazu finden wir einigegrundlegende Formeln:

• P(n)= P(1) P(2 1) P(32&1)...P(nn–1) (Kettenregel: folgt ausder allgemeinen Multiplikationsregel)

• Für statistisch unabhängige i gilt: P(n)= P(1) P(2)...P(n)• Wir verlangen für Induktionsverfahren die Induktionseigenschaft:

(IE) P(nn–1)>P(n), die besagt, dass die Wahrscheinlichkeit für an

wächst, wenn wir schon wissen, dass die vorigen ai die Eigenschaft aufweisen.

• Oder: (IE) P(nn–1)1 für n• Argument dazu: Aus P()>0 folgt mit der Multiplikationsformel,

dass die P(nn–1) schnell gegen 1 gehen müssen, da sonst P()=0 fol-gen würde, denn es gilt P()=limn P(n)= limnP(1) P(2 1)P(32&1)...P(nn–1) aufgrund der -Additivität von P.

Page 612: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Literatur

Achinstein, Peter (1983): The Nature of Explanation, Oxford UniversityPress, Oxford.

Achinstein, Peter (2001): The Book of Evidence, New York: Oxford Uni-versity Press.

Achinstein, Peter (2004): A Challenge to Positive Relevance Theorists:Reply to S. Roush, in: Philosophy of Science 71, 521-524.

Adler, Jonathan (2006): Epistemological Problems of Testimony, Stan-ford Encyclopedia of Philosophy.

Akaike, Hirotugu (1973): Information theory and an extension of themaximum likelihood principle, in: B. N. Petrov (Hrsg.) u.A.: Procee-dings of the Second International Symposium on Information Theory,Budapest: Akademiai Kiado, S. 267-281.

Albert, Max (1992): Die Falsifikation statistischer Hypothesen, in: Jour-nal for General Philosophy of Science 23, 1-32.

Aliseda, Atocha (2006): Abductive Reasoning: Logical Investigations intothe Processes of Discovery and Explanation, Synthese Library. KluwerAcademic Publishers. Dordrecht.

Arntzenius, Frank & Elga, Adam & Hawthorne, John (2004): Bayesia-nism and Binding, Mind Vol 113 No 450, pp 251-283.

Arntzenius, Frank (2010): Reichenbach's Common Cause Principle,Stanford Encyclopedia of Philosophy (URL: http://www.sci-ence.uva.nl/~seop/entries/physics-Rpcc/)

Balzer, Wolfgang & Moulines, Carlos Ulises & Sneed, John D. (1987):An Architectonic for Science, Dordrecht: Reidel.

Bartelborth, Thomas (1987): Eine logische Rekonstruktion der klassi-schen Elektrodynamik, Frankfurt a.M.: Verlag Peter Lang.

Bartelborth, Thomas (1989): Kann es rational sein, eine inkonsistenteTheorie zu akzeptieren? in: Philosophia Naturalis 26, 1989, 91-120.

Bartelborth, Thomas (1994): Modelle und Wirklichkeitsbezug, in: H.J.Sandkühler (Hrsg.), Theorien, Modelle und Tatsachen. Konzepte derPhilosophie und der Wissenschaften, Frankfurt a.M.: Peter Lang1994, 145-154.

Bartelborth, Thomas (1996): Begründungsstrategien. Ein Weg durch dieanalytische Erkenntnistheorie, Akademie Verlag.

Page 613: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

601 Thomas Bartelborth: Induktives Schließen

Bartelborth, Thomas (1996a): Der Schluß auf die beste Erklärung, in:Hubig, Christoph & Poser, Hans (Hrsg.), Cognitio Humana - Dyna-mik des Wissens und der Werte, Leipziger Universitätsverlag 1996,552-559.

Bartelborth, Thomas (2001): A-priori-Rechtfertigung und Skeptizismus,in: Thomas Grundmann (Hrsg.), Erkenntnistheorie, Paderborn: Men-tis, 109-124.

Bartelborth, Thomas (2002): Explanatory Unification, in: Synthese 130:91-207.

Bartelborth, Thomas (2004): Wofür sprechen die Daten? in: Journal forGeneral Philosophy of Science 35: 13–40.

Bartelborth, Thomas (2005): Is the Best Explaining Theory the MostProbable one?, in: Grazer Philosophische Studien 70, 1-23.

Bartelborth, Thomas (2006): Zum Einsatz formaler Methoden in deranalytischen Philosophie, in: Ernst, G.& Niebergall, K.G. (Hrsg.)Philosophie der Wissenschaft - Wissenschaft der Philosophie (Fest-schrift für C.Ulises Moulines zum 60. Geburtstag), Paderborn: Men-tis, 13-30.

Bartelborth, Thomas (2007): Erklären, Berlin-New York: Walter deGruyter.

Bartelborth, Thomas (2008): Dimensionen der Erklärungsstärke in mo-dernen Erklärungstheorien, in: Philosophia Naturalis Bd. 45, Heft 2,139-166.

Bartelborth, Thomas (2011). Propensities and Transcendental Assumpti-ons. Erkenntnis 74 (3):363-381.

Bartels, Andreas & Stöckler, Manfred (Hrsg.) (2009): Wissenschaftstheo-rie, Paderborn: Mentis.

Baumgartner, Michael & Grasshoff, Gerd (2004): Kausalität und kausa-les Schliessen. Eine Einführung mit interaktiven Übungen, Bern Stu-dies in the History and Philosophy of Science, Bern.

Baumgartner, Michael (2006): Complex Causal Structures. Extensions ofa Regularity Theory of Causation, PhD-thesis, University of Bern. #,

Baumgartner, Michael (2008): Inferring Causal Complexity, SociologicalMethods & Research. 38, 71-101.

Baumgartner, Michael (2008a): The Causal Chain Problem, Erkenntnis,69, 201-226.

Baumgartner, Michael (2008b): Uncovering Deterministic Causal Struc-tures: A Boolean Approach, Synthese, 170, 71-96.

Baumgartner, Michael (2008c): Regularity Theories Reassessed, Philoso-phia 36, 327-354.

Page 614: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Literaturverzeichnis 602

Baumgartner, Michael (2009): An Interventionist Exclusion Argument,International Studies in the Philosophy of Science, 23, 161-178.

Baumgartner, Michael (2009a): Interdefining Causation and Interven-tion, Dialectica, 63, 175-194.

Beck-Bornholdt, Hans Peter & Dubben, Hans Hermann (1998): DerHund, der Eier legt. Erkennen von Fehlinformationen durch Querden-ken, Hamburg: Rowohlt.

Beck-Bornholdt, Hans Peter & Dubben, Hans Hermann (2003): DerSchein der Weisen. Irrtümer und Fehlurteile im täglichen Denken,Hamburg: Rowohlt.

Beck-Bornholdt, Hans Peter & Dubben, Hans Hermann, (1996): Is thepope an alien, Nature 381, S. 730.

Beierle, Christoph & Kern-Isberner, Gabriele (2008), Methoden wissens-basierter Systeme, Vieweg + Teubner.

Bernardo, J. M. (2009): Statistics: Bayesian methodology in statistics.in: Comprehensive Chemometrics (S. Brown, R. Tauler and R. Walc-zak eds.) Oxford: Elsevier, 213-245

Bird, Alexander (2002): On whether some laws are necessary, in: Analy-sis 62: 257-270.

Bird, Alexander (2004): Antidotes All the Way Down?, in: Theoria 19,259-269.

Bird, Alexander (2005): Explanation and Metaphysics , in: Synthese143, 89–107.

Bird, Alexander (2006): Abductive Knowledge and Holmesian Inferencein Oxford Studies in Epistemology (eds. Tamar Szabo Gendler andJohn Hawthorne) Oxford: Oxford University Press (2005) 1–31.

Bird, Alexander (2011): Eliminative Abduction—Examples from Medi-cine, Studies in History and Philosophy of Science (forthcoming).

BonJour, Laurence (1985): The Structure of Empirical Knowledge, Har-vard UP.

BonJour, Laurence (1998): In Defense of Pure Reason, Cambridge Uni-versity Press.

Bortz, Jürgen & Döring, Nicola, (2006): Forschungsmethoden und Eva-luation für Human- und Sozialwissenschaftler, Berlin-Heidelberg:Springer.

Bovens, Luc & Hartmann, Stephan (2006): Bayesianische Erkenntnis-theorie, Paderborn: Mentis Verlag.

Bradley, Richard (2005): Radical Probabilism and Bayesian Conditio-ning. Philosophy of Science 72:342–64.

Page 615: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

603 Thomas Bartelborth: Induktives Schließen

Büchter, Andreas & Henn, Hans-Wolfgang (2007): Elementare Stochas-tik, Springer Verlag: Berlin.

Burch, P. (1983): The Surgeon General's Epidemologic Criteria for Cau-sality. A Critique, Journal of Chronic Diseases 37, 148-157.

Burnham, Kenneth P. & Anderson, David R. (2002): Model Selectionand Multimodel Inference: A Practical Information-Theoretic Ap-proach, Springer-Verlag: New York

Burnham, Kenneth P. & Anderson, David R. (2004): Multimodel Infe-rence: Understanding AIC and BIC in Model Selection, in: Sociologi-cal Methods and Research, Vol. 33, Seite 261-304

Campbell, Scott & Franklin, James (2004): Randomness And the Justifi-cation of Induction, Synthese 138: 79–99.

Carnap Rudolf (1959): Induktive Logik und Wahrscheinlichkeit. Wien:Springer.

Carnap, Rudolf (1950): Logical Foundations of Probability, Chicago:University of Chicago Press.

Carnap, Rudolf (1971): A basic system of inductive logic, part I. In Car-nap and Jeffrey (1971), 33-165.

Carnap, Rudolf (1980): A basic system of inductive logic, part II. In Stu-dies in Inductive Logic and Probability, ed. Richard C. Jeffrey, Uni-versity of California Press, vol. 2, 7-155.

Carnap, Rudolf and Jeffrey, Richard, eds. 1971. Studies in Inductive Lo-gic and Probability, vol. 1. Berkeley: University of California Press.

Carnap, Rudolf, (1968): Einführung in die Philosophie der Naturwissen-schaften, Ullstein Materialien.

Carrier, Martin (2006): Wissenschaftstheorie zur Einführung, Hamburg:Junius Verlag.

Cartwright, Nancy (1989): Nature's Capacities and their Measurement,Oxford: Oxford University Press, Oxford.

Cederlof, R.Friberg, L. & Lundman, T. (1972): The interactions of smo-king, environment and heredity and their implications for diseaseetiology, Acta Med Scand 612, Suppl.

Chalmers, Allan F. (1994): Wege der Wissenschaft, Berlin: Springer.Cheng, Patricia (1997): From Covariation to Causation: A Causal Power

Theory, Psychological Review 104: 367–405.Christensen, David (1991): Clever Bookies and Dutch Strategies, Philo-

sophical Review 100, 229–47.Christensen, David (1999): Measuring confirmation. Journal of Philoso-

phy 96: 437–461.

Page 616: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Literaturverzeichnis 604

Cornfield, J. Haenszel, W. Hammond, E. Lilienfeld, A. Shimkin, M. &Wynder, E. (1959): Smoking and Lung Cancer: Recent evidence anda discussion of some questions, Journal of the National Cancer Insti-tut 22, 173-203.

Cox, Richard T. (1946): “Probability, frequency, and reasonable expecta-tion,” Am. Jour. Phys., 14, pp. 1–13, 1946.

Crupi, V., Tentori, K., & Gonzalez, M. (2007): On Bayesian measures ofevidential support: Theoretical and empirical issues. Philosophy ofScience, 74 (April 2007) pp. 229–252.

Persi Diaconis & Sandy L. Zabell (1982): Updating Subjective Probabili-ty, Journal of the American Statistical Association, Vol. 77, No. 380.(Dec., 1982), pp. 822-830.

Doll, R. and A.B. Hill, (1950): Smoking and carcinoma of the lung. Pre-liminary report, British Medical Journal, p. ii:739-48,

Doll, R. and A.B. Hill, (1952): A study of the aetiology of carcinoma ofthe lung, British Medical Journal, 1271-1286,

Doll, R. and R. Peto, (2003): Epidemiology of Cancer. Oxford Textbookof Medicine, ed. D. Warrell, et al. Oxford: OUP.

Duhem, P., 1978, Ziel und Struktur der physikalischen Theorien, Ham-burg: Felix Meiner Verlag.

Eagle, Antony (2004): „Twenty-One Arguments Against Propensity Ana-lyses of Probability“, in: Erkenntnis 60: 371–416.

Earman, John (1986): A Primer on Determinism, Dordrecht: Reidel.Earman, John (1992): Bayes or Bust? A Critical Examination of Bayesian

Confirmation Theory, Cambridge, MA: MIT Press.Edwards, A.W.F. (1992) (1. Auflage 1972): Likelihood, John Hopkins

University Press.Ellis, Brian and Lierse, Caroline, (1994): Dispositional Essentialism,

Australasian Journal of Philosophy 72: 27–45.Ellis, Brian, (2001): Scientific Essentialism, Cambridge Studies in Philo-

sophy. Cambridge: Cambridge University Press.Eriksson, Lina & Hájek, Alan (2007): What are degrees of belief? Studia

Logica 86: 185–215.Esfeld, Michael (2007): Kausalität, in Andreas Bartels & Manfred

Stöckler (eds.): Wissenschaftstheorie. Ein Studienbuch, Paderborn:Mentis 2007, pp. 89-107.

Esfeld, Michael (2008): Die Metaphysik dispositionaler Eigenschaften,Zeitschrift für philosophische Forschung 62 (2008), pp. 323-342.

Esfeld, Michael (2008a): Naturphilosophie als Metaphysik der Natur.Frankfurt (Main): Suhrkamp 2008.

Page 617: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

605 Thomas Bartelborth: Induktives Schließen

Esfeld, Michael (2010): Physics and causation, Foundations of Physics40 (2010), pp. 1597-1610. Special issue in honour of the 80th birth-day of Peter Mittelstaedt.

Esfeld, Michael & Sachse, Christian (2010): Kausale Strukturen. Einheitund Vielheit in der Natur und den Naturwissenschaften, Frankfurt(Main): Suhrkamp 2010.

Fahrmeir, Ludwig & Kneib, Thomas & Lang, Stefan, (2009): Regres-sion. Modelle, Methoden und Anwendungen, Springer-Verlag BerlinHeidelberg.

Fishburn, Peter C. (1986): The Axioms of Subjective Probability, Statisti-cal Science Vol. 1, No. 3, 335-358.

Fisher, R. (1951): The Design of Experiments, Edingburgh: Oliver andBoyd.

Fisher, R. (1959): Smoking. The Cancer Corntroversy, Edingburgh: Oli-ver and Boyd.

Fitelson, B. (2003). A probabilistic theory of coherence. Analysis, 63,194–199.

Fitelson, Branden & James Hawthorne (2010): How Bayesian Confir-mation Theory Handles the Paradox of the Ravens in Eells andFetzer eds., The Place of Probability in Science: In Honor of ElleryEells (1953 - 2006), Boston Studies in the Philosophy of Science.

Fitelson, Branden (1999): The plurality of bayesian measures of confir-mation and the problem of measure sensitivity. Philosophy of Science66 (Proceedings): S362–S378.

Fitelson, Branden (2001): Studies in Bayesian confirmation Theory.Ph.D. thesis, University of Wisconsin, Madison. URL http://Fitel-son.org/thesis.pdf.

Fitelson, Branden (2002): Putting the Irrelevance Back Into the Problemof Irrelevant Conjunction , Philosophy of Science 69 (4), 611–622.

Fitelson, Branden (2003). A probabilistic theory of coherence. Analysis,63 , 194–199.

Fitelson, Branden (2007): Likelihoodism, Bayesianism, and relationalconfirmation, Synthese Volume 156, Number 3, 473-489, DOI:10.1007/s11229-006-9134-9.

Fitelson, Branden & Hitchcock (2011): "Probabilistic Measures of Cau-sal Strength" erscheint in: Causality in the Sciences, P. Illari, F. Russoand J. Williamson (eds.), Oxford University Press.

Forster, Malcolm R. (1988): Unification, Explanation, and the Composi-tion of Causes in Newtonian Mechanics. Studies in the History andPhilosophy of Science 19: 55 - 101.

Page 618: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Literaturverzeichnis 606

Forster, Malcolm and Sober, Elliott (1994): "How to Tell when Simpler,More Unified, or Less Ad Hoc Theories will Provide More AccuratePredictions", British Journal for the Philosophy of Science 45: 1-35.

Forster, Malcolm (2000): Key Concepts in Model Selection: Perfor-mance and Generalizability, Journal of Mathematical Psychology 44,205-231.

Franklin, James, (2001): Resurrecting logical probability, Erkenntnis 55(2001), 277-305.

Freedman, D.A. & Pisani, R. & Purves, R. (1983): Statistics, W.W. Nor-ton & Company, New York.

Freedman, David A.: (1999): From association to causation: Some re-marks on the history of statistics, Statistical Science 14, 243-258.

Fröhlich, Gerhard, (2003): Anonyme Kritik: Peer Review auf dem Prüf-stand der Wissenschaftsforschung, medizin - bibliothek - information· Vol 3 · Nr 2 · Mai 2003, 33-39.

Gabbay, D., & Woods, J. (2005): The Reach of Abduction: Insight andTrial (A Practical Logic of Cognitive Systems Vol. 2), North-Holland,Amsterdam.

Gähde, Ulrich & Stegmüller, Wolfgang (1988): An Argument in favor ofthe Duhem-Quine-Thesis: from the structuralist point of view', in:The philosophy of W. V. Quine / ed. by Lewis Edwin Hahn and PaulArthur Schilpp. - 3. pr. - La Salle, Ill. : Open Court: 1988, S. 116-136.

Gähde, Ulrich (1983): T-Theoretizität und Holismus, Frankfurt a.M.: Pe-ter Lang.

Gaifman, Haim & Snir, Marc (1982). Probabilities Over Rich Langua-ges, Testing and Randomness, Journal of Symbolic Logic 47 (3):495-548.

Gemes, Ken (1998): Hypothetico-Deductivism: The Current State ofPlay; The Criterion of Empirical Significance Endgame, Erkenntnis,49:1-20.

Genschel, Ulrike & Becker, Claudia (2005): Schließende Statistik, Ber-lin-Heidelberg: Springer.

Gigerenzer, Gerd (2002): Das Einmaleins der Skepsis. Über den richtigenUmgang mit Zahlen und Risiken, Berlin Verlag.

Gillies, Donald (2000): Varieties of Propensity, Brit. J. Phil. Sci. 51, 807-835.

Gilovich, Thomas (1991): How We Know What Isn´t So. The Fallibilityof Human Reason in Everyday Life, The Free Press New York.

Page 619: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

607 Thomas Bartelborth: Induktives Schließen

Gintis, Herbert (2009): The Bounds of Reason: Game Theory and theUnification of the Behavioral Sciences, Princeton University Press.

Glass, D. H. (2002): Coherence, explanation and Bayesian networks. InM . O ’Neill, & R . F. E Sutcliffe et al. (Eds.), Artificial intelligenceand cognitive science. Berlin, Heidelberg, New York: Springer-Verlag, Lecture Notes in Artificial Intelligence, 2464 , 177–182.

Glass, D. H. (2007): Coherence Measures and Inference to the Best Ex-planation. Synthese 157, 275–296.

Good, Irving John (1983): Good Thinking: The Foundations of Probabi-lity and Its Applications. Univ. of Minn. Press, Minneapolis 1983.

Gottwald, Siegfried (1993): Fuzzy Sets and Fuzzy Logic. Foundations ofApplication – from a Mathematical Point of View, Wiesbaden: Vie-weg.

Gottwald, Siegfried (2010): Many-Valued Logic, The Stanford Encyclo-pedia of Philosophy (Spring 2010 Edition), Edward N. Zalta (ed.),URL =<http://plato.stanford.edu/archives/spr2010/entries/logic-ma-nyvalued/>.

Grundmann, Thomas (2008): Analytische Einführung in die Erkenntnis-theorie, Berlin: de Gruyter.

Haack, Susan (1993): Evidence and Inquiry. Towards Reconstruction inEpistemology, Blackwell.

Hájek, Alan (2003): What conditional probability could not be. Synthe-se 137: 273–323.

Hájek, Alan, (2010): Interpretations of Probability, The Stanford Encyc-lopedia of Philosophy (Spring 2010 Edition), Edward N. Zalta (ed.),URL = <http://plato.stanford.edu/archives/spr2010/entries/ probabi-lity-interpret/>.

Halpern, Joseph Y. (2001): Conditional plausibility measures and Baye-sian networks, Journal of AI Research 14, 2001, pp. 359-389.

Halpern, Joseph Y. (2001a): Plausibility Measures: A General ApproachFor Representing Uncertainty, Proceedings of the 17th InternationalJoint Conference on AI (IJCAI 2001), pp. 1474-1483.

Halpern, Joseph Y. (2003): Reasoning About Uncertainty. MIT Press.Halpern, Joseph Y. & Pearl, Judea (2005): Causes and Explanations: A

Structural-Model Approach. Part I: Causes & Part II: Explanations,in: British Journal for the Philosophy of Science 56 (4), I: 843-887 &II: 889-911.

Halpern, Joseph Y. & Pucella, Ricardo (2006): A Logic for Reasoningabout Evidence, Journal of Artificial Intelligence Research 25.

Page 620: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Literaturverzeichnis 608

Hansson, Sven Ove (2006) Logic of Belief Revision, The Stanford En-cyclopedia of Philosophy (Spring 2009 Edition), Edward N. Zalta(ed.), URL = <http://plato.stanford.edu/archives/spr2009/entries/lo-gic-belief-revision/>.

Hawthorne, James (1993): Bayesian Induction Is Eliminative Induction :Philosophical Topics, v. 21, no. 1, pp. 99-138.

Hawthorne, James (2005), Degree-of-Belief and Degree-of-Support:Why Bayesians Need Both Notions, Mind 114 (454), 277-320.

Hawthorne, James, (2009): The Lockean Thesis and the Logic of Belief,in: Franz Huber and Christoph Schmidt-Petri (eds.), Degrees of Be-lief, Synthese Library 342, pp. 49-74.

Hawthorne, James (2011a): Inductive logic. The Stanford Encyclopediaof Philosophy, URL http://plato.stanford.edu/entries/logic-inductive/.

Hawthorne, James (2011b): Bayesian Confirmation Theory : in S.French and J. Saatsi (eds.), The Continuum Companion to the Philo-sophy of Science, 2011, Continuum Press, pp. 197-213.

Hawthorne, James (2011c): Confirmation Theory : in Prasanta S. Ban-dyopadhyay and Malcolm Forster (eds.), Philosophy of Statistics:Handbook of the Philosophy of Science, Volume 7, 2011, Elsevier,pp. 333-389.

Hawthorne, James & Fitelson, Branden (2004): Re-solving IrrelevantConjunction with Probabilistic Independence, Philosophy of Science,v. 71, no. 4, 2004, pp. 505-514.

Held, Leonhard (2008): Methoden der statistischen Inferenz. Likelihoodund Bayes, Spektrum Akademischer Verlag.

Hempel, C. G. (1943): A Purely Syntactical Definition of Confirmation.The Journal of Symbolic Logic, 8.

Hempel, Carl Gustav (1945): Studies in the Logic of Confirmation,Mind 54, 1-26, 97-121.

Hitchcock, Christopher (2010): Probabilistic Causation, The StanfordEncyclopedia of Philosophy, Edward N. Zalta (ed.), URL =<http://www.science.uva.nl/~seop/entries/causation-probabilistic/>

Hitchcock, Christopher/Woodward, James (2003): Explanatory Gene-ralizations, Part 2: Plumbing Explanatory Depth, in: Nous 37: 181-99.

Howson, Colin & Urbach, Peter (1993): Scientific Reasoning: The Baye-sian Approach, La Salle, IL: Open Court, 2nd edition.

Howson, Colin & Franklin, Allan (1992): Bayesian Conditionalizationand Probability Kinematics, Brit. J. Phil. Sci. 45, 451-466.

Page 621: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

609 Thomas Bartelborth: Induktives Schließen

Howson, Colin (2000): Hume's problem: induction and the justificationof belief. Oxford University Press, Oxford.

Huber, Franz (2011): Formal Representations of Belief, The StanfordEncyclopedia of Philosophy (Fall 2011 Edition), Edward N. Zal-ta (ed.), URL = <http://plato.stanford.edu/archives/fall2011/ent-ries/formal-belief/>.

Hume, David (1888): Treatise of Human Nature, edited by L. A. SelbyBigge, Oxford, Clarendon Press. Originally published 1739–40.

Humphreys, Paul (1989): The Chances of Explanation. Causal Explana-tion in the Social, Medical, and Physical Sciences, Princeton: Prince-ton University Press.

Irle, Albrecht (2001): Wahrscheinlichkeitstheorie und Statistik, Teubner,Stuttgart.

Janzing, Dominik (2003): Kann Statistik Ursachen beweisen?, Vor-lesungsskript (http://iaks-www.ira.uka.de/home/janzing/kausalskrip-tum03.ps).

Jaynes, E.T. (2003): Probability Theory: The Logic of Science: Principlesand Elementary Applications Vol 1, Cambridge UP.

Joyce, J. M. (1998): A Nonpragmatic Vindication of Probabilism. Philo-sophy of Science 65 (4): 575–603.

Joyce, J.M. (2009): Accuracy and Coherence: Prospects for an AlethicEpistemology of Partial Belief. In Degrees of Belief, ed. F. Huber andC. Schmidt-Petri, 263–97. Synthese Library 342. Dordrecht: Sprin-ger.

Kadane, J. & Seidenfeld, T. (1990): Randomization in a Bayesian Per-spective, Journal of Statistical Planning and Inference 25, 329-345.

Kahneman, D., Slovic, P. und Tversky, A. (Hrsg.), 1982, Judgement undCertainty: Heuristics and Biases, Cambridge University Press.

Kaplan, Mark (2006): Decision Theory as Philosophy, Cambridge UP.Kelle, Udo (2003): Die Entwicklung kausaler Hypothesen in der qualita-

tiven Sozialforschung. Methodologische Ueberlegungen zu einemhäufig vernachlaessigten Aspekt qualitativer Theorie- und Typenbil-dung. Zentralblatt für Didaktik der Mathematik, 35 (2003) 6, S. 232-246.

King, Jeffrey C. (2011): Structured Propositions, The Stanford Encyclo-pedia of Philosophy (Fall 2011 Edition), Edward N. Zalta (ed.), URL= <http://plato.stanford.edu/archives/fall2011/entries/propositions-structured/>.

Klärner, Holger (2003): Der Schluss auf die beste Erklärung, Berlin: de-Gruyter.

Page 622: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Literaturverzeichnis 610

Koehler, J. J. & Chia, A. , Lindsey, J. S. (1995): The Random MatchProbability (RMP) in DNA Evidence. Irrelevant and Prejudicial? In:Jurimetrics Journal. 35, S. 201-219.

Kronz, Frederick M. (1992): Carnap and Achinstein on Evidence . In:Philosophical Studies 67, 151-167.

Kuhn, Thomas S. (1976): Die Struktur wissenschaftlicher Revolutionen,Originaltitel: The Structure of Scientific Revolutions, Chicago 1962.

Kvart, Igal (2001): The Counterfactual Analysis of Cause, Synthese 127,389–427.

Lakatos, I. (1974): Falsifikation und die Methodologie wissenschaftli-cher Forschungsprogramme, in: Lakatos/Musgrave (Hrsg.) Kritik undErkenntisfortschritt, 89-189, Braunschweig: Vieweg.

Laudan, Larry (1981): A confutation of convergent realism, Philosophyof Science 48, pp. 19–49.

Lehrer, Keith (1974): Knowledge, Oxford Clarendon Press.Leitgeb, H., & Pettigrew, R. (2010): An Objective Justification of Baye-

sianism I: Measuring Inaccuracy. Philosophy of Science, 77 (April2010) pp. 201–235.

Leitgeb, H., & Pettigrew, R. (2010):. An Objective Justification of Baye-sianism II: The Consequences of Minimizing Inaccuracy. Philosophyof Science, 77 (April 2010) pp. 236–272.

Lenzen, Wolfgang (1974): Theorien der Bestätigung wissenschaftlicherHypothesen, Stuttgart-Bad Cannstatt: Frommann Verlag.

Lewis, David (1973): Causation, Journal of Philosophy 70, 556–567.Lewis, David (1980): A Subjectivist's Guide to Objective Chance, in Ri-

chard C. Jeffrey (ed.), Studies in Inductive Logic and Probability, Vo-lume II, Berkeley: University of California Press, pp. 263–293.

Lewis, David (1994): Humean supervenience debugged, in: Mind 103,473-490.

Lipton, Peter (2004) (erste Auflage 1991): Inference to the Best Explana-tion, London: Routledge.

Little, Daniel (1998): Microfoundations, Method, and Causation Essaysin the Philosophy of the Social Sciences, Transaction Publishers.

Löffler, Winfried (2002): Eine vermutlich unerwünschte Konsequenzvon Swinburnes probabilistischer Gotteslehre, in: Argument und Ana-lyse. Ausgewählte Sektionsvorträge des 4. Kongresses der Gesell-schaft für Analytische Philosophie, Bielefeld 2000. Hg. von A. Be-ckermann und C. Nimtz. Paderborn: mentis 2002 (elektronische Pu-blikation unter http://www.gap-im-netz.de/gap4Konf/Proceedings4/Proc.htm, Seite 474-484).

Page 623: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

611 Thomas Bartelborth: Induktives Schließen

Löffler, Winfried (2006): Einführung in die Religionsphilosophie, Darm-stadt: Wissenschaftliche Buchgesellschaft.

Lowe, E. Jonathan (2006): The Four-Category Ontology. A MetaphysicalFoundation for Natural Science, Oxford: Clarendon Press.

MacKay, J.C. David (2005): Information Theory, Inference, and Lear-ning Algorithms, Cambridge UP.

Mackie, John Leslie (1974): The Cement of the Universe, Oxford UP.Maher, Patrick (2002): Joyce's Argument for Probabilism. Philosophy of

Science 69, 73-81.Maher, Patrick (2004): Probability captures the logic of scientific confir-

mation, in Contemporary Debates in the Philosophy of Science, ed.Christopher R. Hitchcock, 69–93. Blackwell.

Maher, Patrick (2006): The Concept of Inductive Probability, Erkenntnis65 (2006), 185–206.

Maher, Patrick (2010): Explication of Inductive Probability. Journal ofPhilosophical Logic 39 (2010), 593-616.

Mayo, Deborah (1996): Error and the Growth of Experimental Know-ledge, Chicago: University of Chicago Press.

Meek, C. (1995): Causal Inference and Causal Explanation with Back-ground Knowledge, Proceedings of the Eleventh Conference on Un-certainty in Artificial Intelligence, 403-411. Morgan Kaufmann.

Mill, John Stuart (1865): System of Logic, London.Mises, Richard von (1928): Wahrscheinlichkeit, Statistik und Wahrheit,

Wien: Springer Verlag.Neapolitan, Richard E. (2004): Learning Bayesian Networks. Upper

Saddle River, NJ: Prentice Hall.Neapolitan, Richard E. (2009): Probabilistic Methods for Bioinformatics,

San Francisco: Morgan Kaufmann.Neta, Ram (2009): Defeating the Dogma of Defeasibility, in Williamson

on Knowledge, ed. by Greenough and Pritchard (Oxford, 2009): 161- 82.

Nida-Rümelin, Julian & Schmidt, Thomas (2000): Rationalität in derpraktischen Philsophie. Eine Einführung, Akademie Verlag: Berlin.

Niiniluoto, Ilkka (1999): Critical Scientific Realism, Oxford UniversityPress.

Norton, John D. (2003): A Material Theory of Induction, Philosophy ofScience, 70 (October 2003), pp. 647-70.

Nozick, Robert (1981): Philosophical Explanations. Cambridge: Har-vard University Press.

Page 624: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Literaturverzeichnis 612

Oddie, Graham, (2007): Truthlikeness, The Stanford Encyclopedia ofPhilosophy (Fall 2008 Edition), Edward N. Zalta (ed.), URL =<http://plato.stanford.edu/archives/fall2008/entries/truthlikeness/>

Olsson, Erik J. (2002): What is t he problem of coherence a nd truth?The Journal of Philosophy, 99(5), 246–272.

Olsson, Erik J. (2005): Against coherence. Oxford: Oxford UniversityPress.

Pearl, Judea (2000): Causality: Models, Reasoning, and Inference. Cam-bridge University Press, New York.

Pearl, Judea (2009): Causal inference in statistics: An overview, Statis-tics Surveys 3, 96-146,

Pollock, John (1974):. Knowledge and Justification. Princeton, NJ:Princeton University Press.

Pollock, John (1994): Justification and Defeat, Artificial Intelligence. 67,377-408.

Ponocny, Ivo & Ponocny-Seliger, Elisabeth (2009): Akte Astrologie Ös-terreich. Vom Schicksal, den Sternen und der Bevölkerungsstatistik,in: Skeptiker 4/2009, 176.

Popper, K. R. (1957): The Propensity Interpretation of the Calculus ofProbability, and the Quantum Theory', in S. Korner (ed.), Observa-tion and Interpretation, Proceedings of the Ninth Symposium of theColston Research Society, University of Bristol, pp. 65-70, 88-9.

Popper, K. R. (1959): The Propensity Interpretation of Probability', Bri-tish Journal for the Philosophy of Science, 10, pp. 25-42.

Popper, Karl R. & Miller, David W. (1983): A proof of the impossibilityof inductive probability. Nature 302, 687–688.

Popper, Karl Raimund (1984): Die Logik der Forschung, Tübingen:Mohr, Original: 1934.

Pritchard, Duncan (2005): Epistemic Luck, Oxford: Oxford UP.Pritchard, Duncan (2007): Anti-Luck Epistemology, Oxford: Oxford UP.Pritchard, Duncan (2008):Sensitivity, Safety, and Anti-Luck Epistemolo-

gy', The Oxford Handbook of Scepticism, (ed.) J. Greco, 437-55,(Oxford UP, 2008).

Putnam, Hilary (1975): Mathematics, Matter and Method, Cambridge:Cambridge University Press.

Quine, Willard V. Orman (1969): Natural Kinds, in: Ontological Relati-vity and other Essays, Columbia University Press, 114-138.

Quine, Willard V. Orman (1979): Zwei Dogmen des Empirismus, in:W.v.O. Quine, Von einem logischen Standpunkt aus, Frankfurt a.M.:Ullstein.

Page 625: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

613 Thomas Bartelborth: Induktives Schließen

Quine,W. v. O. (1952): The Problem of Simplifying Truth Functions,The American Mathematical Monthly, 59, 521–531. (1959), OnCores and Prime Implicants of Truth Functions, The American Mat-hematical Monthly, 66, 755–760.

Ragin, C. C. (1987): The Comparative Method, Berkeley: University ofCalifornia Press.

Ragin, Charles C. (2000): Fuzzy-Set Social Science, Chicago: Universityof Chicago Press.

Ragin, Charles C. (2006): Set Relations in Social Research: EvaluatingTheir Consistency and Coverage, Political Analysis, 14, 291–310.

Ramsey, Frank Plumpton [1926] (1990):. Truth and probability. In D.H. Mellor (ed.) Philosophical Papers. Cambridge: Cambridge Univer-sity Press.

Reichenbach, Hans (1938): Experience and Prediction. An Analysis ofthe Foundations and the Structure of Knowledge, Univ. of ChicagoPress, Chicago. German trans. in Reichenbach (1977a), vol. 4.

Renni, John (2002): 15 Answers to Creationist Nonsense. Opponents ofevolution want to make a place for creationism by tearing down realscience, but their arguments don't hold up, Scientific American Maga-zine July 2002.

Rose, G. Hamilton, P. Colwell, L. & Shipley, J. (1982): A randomisedcontrolled trial of anti-smoking advice: 10-years results, Journal ofepidemiology and Community Health 36, 102-108.

Rosenthal, Jacob (2004): Wahrscheinlichkeiten als Tendenzen. EineUntersuchung objektiver Wahrscheinlichkeitsbegriffe, Paderborn:Mentis.

Roush, Sherrilyn (2004): Discussion Note: Positiv Relevance Defended .In: Philosophy of Science 71, 110-116

Royall, Richard (1997): Statistical Evidence. A Likelihood Paradigm. Bo-ca Raton: Chapman and Hall.

Sachs, Lothar & Hedderich, Jürgen, (2006): Angewandte Statistik, Ber-lin-Heidelberg: Springer.

Sasco, A. et al. (2004): Tobacco smoking and cancer: a brief review ofthe epidemiological evidence. Lung Cancer 45, S3-S9.

Savage, Leonard J. (1954): The Foundations of Statistics. Wiley Publica-tions in Statistics.

Savage, Leonard J. (1972): The Foundations of Statistical Inference, NewYork: Dover.

Schick, Frederic (1986): Dutch Bookies and Money Pumps, Journal ofPhilosophy 83, 112­19.

Page 626: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Literaturverzeichnis 614

Schoch, Daniel (2000,): A fuzzy measure for explanatory coherence,Synthese 122, 291 - 311.

Schurz, Gerhard (1991): Relevant Deduction. From Solving ParadoxesTowards a General Theory, Erkenntnis 35, 391 - 437.

Schurz, Gerhard (1994): Relevant Deduction and Hypothetico-Deducti-vism: A Reply to Gemes , Erkenntnis 41, 183 - 188.

Schurz, Gerhard (2004): Normic Laws, Nonmonotonic Reasoning, andthe Unity of Science, in: Rahman. S. et al. (eds.), Logic, Epistemolo-gy, and the Unity of Science, Dordrecht, Kluwer, 181-211.

Schurz, Gerhard (2005): Kuipers' Account to H-D Confirmation andTruthlikeness: From Intuitive Starting Points to CounterintuitiveConsequences , in: Festa, R. (eds.), Logics of Scientific Discovery. Es-says in Debate With Theo Kuipers (Poznan Studies in the Philosophyof Science and the Humanities), Rodopi, Amsterdam 2005, 141-159.

Schurz, Gerhard (2006): Einführung in die Wissenschaftstheorie, Darm-stadt: Wissenschaftliche Buchgesellschaft.

Schurz, Gerhard (2008): Patterns of Abduction, Synthese 164, 201-234.Schurz, Gerhard (2008a): The Meta-Inductivist's Winning Strategy in

the Prediction Game: A New Approach to Hume's Problem, Philoso-phy of Science 75, 278-305.

Schweizer, Mark (2006): Intuition, Statistik und Beweiswürdigung, in:Justice - Justiz - Giustizia 2006/4 (http://www.decisions.ch/publika-tionen/intuition_statistik.html).

Semmelweis, I. (1983):. The Etiology, Concept, and Prophylaxis ofChildbed Fever (K. Codell Carter trans and ed.). Madison,WI: Uni-versity ofWisconsin Press.

Shafer, G. (1976): A Mathematical Theory of Evidence. Princeton Uni-versity Press.

Shogenji, T. (1999): Is Coherence Truth-conducive?, Analysis, 59: 338-45.

Siebel, Mark (2004): Der Rabe und der Bayesianist, Journal for GeneralPhilosophy of Science 35, 313-329

Snow, John (1855): On the Mode of Communication of Cholera, Lon-don: John Churchill.

Snyder, Laura (2006): William Whewell, The Stanford Encyclopedia ofPhilosphy, Edward N. Zalta (ed.), (URL: http://www.sci-ence.uva.nl/~seop/entries/whewell/)

Sober, Elliott (1991): Reconstructing the Past. Parsimony, Evolution, andInference, MIT Press, Cambridge/ Mass.

Page 627: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

615 Thomas Bartelborth: Induktives Schließen

Sober, Elliott (2001): Venetian Sea Levels, British Bread Prices, and thePrinciple of the Common Cause, British Journal for the Philosophy ofScience 52, 331-346.

Sörenson, R. (2006): Epistemic Paradoxes , The Stanford Encyclopediaof Philosophy (Winter 2006 Edition), Edward N. Zalta (ed.), URL =<http://www.science.uva.nl/~seop/entries/epistemic-paradoxes/>.

Sosa, Ernest (1999): How to Defeat Opposition to Moore, PhilosophicalPerspectives 13 (s13):137-49.

Sosa, Ernest (2003): Relevant Alternatives, Contextualism included, Phi-losophical Studies (2003): 35-65.

Spirtes, P. C. & Glymour, C. & Scheines, R. (2000): Causation, Predicti-on and Search (2nd ed.) Cambridge, MA: MIT Press.

Spohn, Wolfgang (2009): A Survey of Ranking Theory in: F. Huber &C. Schmidt-Petri (eds.), Degrees of Belief, Dordrecht: Springer.

Steup, Matthias (2006): Epistemology in the Twentieth Century . Forth-coming in the Routledge Companion to Twentieth Century Philoso-phy, ed. by Dermot Moran.

Strevens, Michael (1999): Objective Probabilities as a Guide to theWorld. Philosophical Studies 95, 243–75.

Strevens, Michael (2000): Do Large Probabilities Explain Better?, in:Philosophy of Science 67, 366-90.

Strevens, Michael (2003): Bigger than Chaos: Understanding Complexitythrough Probability. Harvard University Press.

Strevens, Michael (2007): Mackie Remixed, in: Joseph Keim Campbell,Michael O'Rourke and Harry S. Silverstein (eds.), Causation and Ex-planation, Topics in Contemporary Philosophy, vol. 4, MIT Press,Cambridge, 93-118.

Swinburne, R. G. (1970): Choosing between Confirmation Theories .In: Philosophy of Science 37, 602-613.

Swinburne, Richard, (1987): Die Existenz Gottes, Reclam: Stuttgart(Übersetzung der ersten Auflage) (Original: Swinburne, R. (19912,1979), The Existence of God, Oxford: Clarendon Press).

Tentori, K., V. Crupi, N. Bonini, & D. Osherson (2007): Comparison ofConfirmation Measures, Cognition 103: 107–119.

Thagard, Paul (1978): Why astrology is a pseudoscience (1978) In PSA1978, Volume 1, ed. Asquith PD and Hacking I (East Lansing: Philo-sophy of Science Association, 1978) 223 ff.

Thagard, Paul (1998): Ulcers and bacteria I: Discovery and acceptance.Studies in History and Philosophy of Science. Part C: Studies in His-

Page 628: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

Literaturverzeichnis 616

tory and Philosophy of Biology and Biomedical Sciences, 29: 107-136.

Thagard, Paul (1998): Ulcers and bacteria II: Instruments, experiments,and social interactions. Studies in History and Philosophy of Science.Part C: Studies in History and Philosophy of Biology and BiomedicalSciences.

Thagard, Paul (1999): How scientists explain disease. Princeton: Prince-ton University Press.

Thagard, Paul (2000): Coherence in thought and action. Cambridge,MA: MIT Press.

Thagard, Paul (2007): Coherence, Truth, and the Development of Scien-tific Knowledge. Philosophy of Science, 74, 28-47.

van Fraassen, Bas C. (1980): The Scientific Image, Oxford ClarendonPress.

van Fraassen, Bas C. (1984): Belief and the Will, The Journal of Philoso-phy, vol. LXXXI, 5, 135–56.

Weisberg, Jonathan (2010): Varieties of Bayesianism, Handbook of theHistory of Logic, vol. 10, eds. Dov Gabbay, Stephan Hartmann, andJohn Woods, forthcoming.

Whewell, William (1847): The Philosophy of the Inductive Sciences,Founded Upon Their History, 2nd edition, in two volumes, London.

Williamson, Timothy, (2000): Knowledge and its Limits, Oxford: Ox-ford University Press.

Wilson, Fred, (2007): John Stuart Mill, The Stanford Encyclopedia ofPhilosphy, Edward N. Zalta (ed.) (URL: http://www.sci-ence.uva.nl/~seop/entries/mill/)

Woodward, James (1999): Causal Interpretation in Systems of Equati-ons, Synthese 121, 199–247.

Woodward, James (2000): Explanation and Invariance in the SpecialSciences, in: The British Journal for the Philosophy of Science 51:197–254.

Woodward, James (2003): Making Things Happen. A Theory of CausalExplanation, Oxford: Oxford University Press.

Woodward, James & Hitchcock, Christopher, (2003): Explanatory Ge-neralizations, Part 1: A Counterfactual Account, in: Nous 37: 1-24.

Worrall, John (2007): Why there’s no cause to randomize. The BritishJournal for the Philosophy of Science, 58, 451–488

Zagzebski, Linda (1994): The Inescapability of Gettier Problems, Philo-sophical Quarterly, vol. 44, 174 (January 1994), 65-73.

Page 629: Die erkenntnistheoretischen Grundlagen induktiven Schließens · dass wir sie induktiv erschließen oder begründen müssen, und fragt dazu nach den geeigneten induktiven Schlussverfahren

617 Thomas Bartelborth: Induktives Schließen

Zankl, Heinrich (2003): Fälscher, Schwindler, Scharlatane. Betrug in For-schung und Wissenschaft, Weinheim: VCH-Verlag.

Zankl, Heinrich (2010): Kampfhähne der Wissenschaft. Kontroversenund Feinschaften, Weinheim: VCH-Verlag.