32
Methoden zur Klassifikation Mike H¨ uftle 31. Juli 2006 Inhaltsverzeichnis 1 Einleitung 2 1.1 .................................... 2 2 Diskriminanzanalyse 3 2.1 Allgemeines .............................. 3 2.2 Methodenbeschreibung ........................ 4 2.3 Methodenbeschreibung ........................ 5 2.3.1 Nebenpfad: Klassifizierung von Objekten ......... 6 2.4 Anwendung .............................. 7 3 Naive Bayes-Klassifikatoren 8 3.1 Methodenbeschreibung ........................ 8 3.2 Beispiel ................................ 9 3.2.1 Nebenpfad: Bedingte Wahrscheinlichkeiten f¨ ur das Beispiel 9 3.3 Anwendung .............................. 11 4 Bayes-Netzwerke 12 4.1 Methodenbeschreibung ........................ 12 4.2 Anwendung .............................. 13 5 Entscheidungsb¨ aume 14 5.1 Allgemeines .............................. 14 5.2 ID3-Algorithmus ........................... 15 5.2.1 Nebenpfad: Window-Technik des ID3 ........... 15 5.2.2 Nebenpfad: Informationskriterium ............. 16 5.3 Anwendung von ID3 ......................... 17 5.4 Weitere Entscheidungsb¨ aume .................... 19 5.4.1 Nebenpfad: Pruning-Verfahren ............... 19 5.4.2 Nebenpfad: .......................... 20 5.4.3 Nebenpfad: .......................... 21 5.4.4 Nebenpfad: GID3-IV-Algorithmus ............. 22 5.4.5 Nebenpfad: SLIQ-Algorithmus ............... 22 5.4.6 Nebenpfad: Chaid-Algorithmus ............... 23 1

Methoden zur Klassifikation - OptiVoptiv.de/Methoden/KlassMet/KlassMet.pdf · Naive Bayes-Klassifikatoren vereinfachen das Problem, indem sie die Gultigkeit der Unabh¨angigkeitsannahme

  • Upload
    vannhi

  • View
    225

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Methoden zur Klassifikation - OptiVoptiv.de/Methoden/KlassMet/KlassMet.pdf · Naive Bayes-Klassifikatoren vereinfachen das Problem, indem sie die Gultigkeit der Unabh¨angigkeitsannahme

Methoden zur Klassifikation

Mike Huftle

31. Juli 2006

Inhaltsverzeichnis

1 Einleitung 21.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2 Diskriminanzanalyse 32.1 Allgemeines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32.2 Methodenbeschreibung . . . . . . . . . . . . . . . . . . . . . . . . 42.3 Methodenbeschreibung . . . . . . . . . . . . . . . . . . . . . . . . 5

2.3.1 Nebenpfad: Klassifizierung von Objekten . . . . . . . . . 62.4 Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3 Naive Bayes-Klassifikatoren 83.1 Methodenbeschreibung . . . . . . . . . . . . . . . . . . . . . . . . 83.2 Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.2.1 Nebenpfad: Bedingte Wahrscheinlichkeiten fur das Beispiel 93.3 Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

4 Bayes-Netzwerke 124.1 Methodenbeschreibung . . . . . . . . . . . . . . . . . . . . . . . . 124.2 Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

5 Entscheidungsbaume 145.1 Allgemeines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145.2 ID3-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

5.2.1 Nebenpfad: Window-Technik des ID3 . . . . . . . . . . . 155.2.2 Nebenpfad: Informationskriterium . . . . . . . . . . . . . 16

5.3 Anwendung von ID3 . . . . . . . . . . . . . . . . . . . . . . . . . 175.4 Weitere Entscheidungsbaume . . . . . . . . . . . . . . . . . . . . 19

5.4.1 Nebenpfad: Pruning-Verfahren . . . . . . . . . . . . . . . 195.4.2 Nebenpfad: . . . . . . . . . . . . . . . . . . . . . . . . . . 205.4.3 Nebenpfad: . . . . . . . . . . . . . . . . . . . . . . . . . . 215.4.4 Nebenpfad: GID3-IV-Algorithmus . . . . . . . . . . . . . 225.4.5 Nebenpfad: SLIQ-Algorithmus . . . . . . . . . . . . . . . 225.4.6 Nebenpfad: Chaid-Algorithmus . . . . . . . . . . . . . . . 23

1

Page 2: Methoden zur Klassifikation - OptiVoptiv.de/Methoden/KlassMet/KlassMet.pdf · Naive Bayes-Klassifikatoren vereinfachen das Problem, indem sie die Gultigkeit der Unabh¨angigkeitsannahme

6 Weitere Klassifikationsmethoden 246.1 Support Vector Machines . . . . . . . . . . . . . . . . . . . . . . 246.2 Support Vector Machines . . . . . . . . . . . . . . . . . . . . . . 256.3 Regelgenerierungsverfahren . . . . . . . . . . . . . . . . . . . . . 266.4 Logistische Regression . . . . . . . . . . . . . . . . . . . . . . . . 27

7 Literatur und Methodenverzeichnis 287.1 Literatur zur Diskriminanzanalyse . . . . . . . . . . . . . . . . . 287.1 Literatur zu Naiven-Bayes-Klassifikatoren und Bayes-Netzwerken 287.1 Literatur zu Entscheidungsbaumen . . . . . . . . . . . . . . . . . 297.1 Literatur zu weiteren Verfahren . . . . . . . . . . . . . . . . . . . 307.1 Methodenverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . 30

2

Page 3: Methoden zur Klassifikation - OptiVoptiv.de/Methoden/KlassMet/KlassMet.pdf · Naive Bayes-Klassifikatoren vereinfachen das Problem, indem sie die Gultigkeit der Unabh¨angigkeitsannahme

1 Einleitung

1.1

Klassifikationvs.

Segmentierung

Neben der Segmentierung ist die Klassifikation die zweite Moglichkeit, um Ob-jekte in verschiedene Gruppen oder Klassen einzuteilen. Im Gegensatzzur Segmentierung setzt die Klassifikation jedoch die Kenntnis des Kriteriumsvoraus, nach dem die Gruppierung durchgefuhrt wird. Es werden also Objektemit unbekannter Gruppenzugehorigkeit der richtigen Gruppe zugeordnet.

Vorgehensweisebei der

Klassifikation

Um eine Zuordnung zu ermoglichen wird bei allen Methoden der Klassifikationeine Entscheidungsfunktion oder Regel vorausgesetzt, nach der die Datenin Gruppen eingeteilt werden.Diese Funktion oder Regel wird aus einer Menge von Trainingsdaten erlernt,von denen die Einteilung in die verschiedenen, im voraus festgelegten Gruppenbekannt ist. Die so abgeleiteten Klassifizierungsmodelle konnen beispisweise dieForm von Klassifikationsregeln der Form ”wenn-dann“ oder von NeuronalenNetzen haben.

Anwendungsbereicheder

Klassifikation

Typische Beispiele fur die Anwendung der Klassifikation sind die medizinischeDiagnose anhand von Krankheitssymptomen, die Uberprufung der Korrektheitvon Steuererklarungen oder das Filtern von Spam-Emails.

3

Page 4: Methoden zur Klassifikation - OptiVoptiv.de/Methoden/KlassMet/KlassMet.pdf · Naive Bayes-Klassifikatoren vereinfachen das Problem, indem sie die Gultigkeit der Unabh¨angigkeitsannahme

2 Diskriminanzanalyse

2.1 Allgemeines

Die Diskriminanzanalyse ist ein multivariates statistisches Verfahren zurAnalyse von Gruppenunterschieden und zur Prognose der Gruppenzugehorig-keit von Objekten.

Die Diskriminanzanalyse gehort wie auch die Regresionsanalyse oder die Va-rianzanalyse zur Gruppe der strukturprufenden statistischen Verfahren.Wahrend die Merkmalsvariablen der Objekte metrisch skaliert sein mussen, wirddie Gruppenzugehorigkeit durch eine nominal skalierte Variable ausgedruckt.

Mittels der Diskriminanzanalyse werden Objekte, die bestimmte Kombinatio-nen von Merkmalsauspragungen haben, in vorher bekannte Gruppen eingeord-net. Dabei wird versucht, aus einer Trainingsmenge, deren Klassenzugehorigkeitbekannt ist, eine Diskriminanzfunktion zu schatzen, welche die Objekte derStichprobe richtig klassifiziert.

Weitere Objekte, deren Klassenzugehorigkeit unbekannt ist, konnen anhanddieser Funktion mit einer gewissen Wahrscheinlichkeit einer Klasse zugeordnetwerden.

4

Page 5: Methoden zur Klassifikation - OptiVoptiv.de/Methoden/KlassMet/KlassMet.pdf · Naive Bayes-Klassifikatoren vereinfachen das Problem, indem sie die Gultigkeit der Unabh¨angigkeitsannahme

2.2 Methodenbeschreibung

MethodenbeschreibungDas Ziel der Diskriminanzanalyse ist, die Werte eines abhangigen Merkmalsdurch die Werte von einem oder mehreren unabhangigen Merkmalen zu erklaren.Dazu mussen zunachst anhand von Objekten, fur welche die Merkmalsauspragun-gen bekannt sind, eine oder mehrere Diskriminanzfunktion(en) geschatztwerden. Diese dienen dann zur Klassifikation des abhangigen Merkmals, wennnur die unabhangigen Merkmale eines Objektes beobachtet wurden.

Der Ablauf der Diskriminanzanalyse lasst sich in zwei Schritte gliedern.

1. Im ersten Schritt werden die Gruppen definiert sowie eine Diskriminanz-funktion geschatzt und gepruft (die Definition der Gruppen kann sich un-mittelbar aus dem realen Problem ergeben oder das Ergebnis einer vorge-schalteten Clusteranalyse sein).

2. Im zweiten Schritt werden neue Objekte klassifiziert.

Die Vorgehensweise der Diskriminanzanalyse ist ahnlich der Regressionsanaly-se, jedoch hat das abhangige Merkmal nominalesoder ordinales Skalenniveauund druckt somit eine Gruppenzugehorigkeit aus (vgl. Tabachnik/ Fidell 1996,S. 507 ff.).

Eine zu schatzende Diskriminanzfunktion hat die Form

D = b0 + b1 · X1 + b2 · X2 + ... + bn · Xn

mit den unabhangigen Merkmalen Xi und den zu schatzenden Koeffizienten bi,mit denen die Merkmale in die Diskriminanzfunktion eingehen. D ist der sogenannte Diskriminanzwert.

5

Page 6: Methoden zur Klassifikation - OptiVoptiv.de/Methoden/KlassMet/KlassMet.pdf · Naive Bayes-Klassifikatoren vereinfachen das Problem, indem sie die Gultigkeit der Unabh¨angigkeitsannahme

2.3 Methodenbeschreibung

Schatzung derDiskriminanz-

funktion

Es gibt eine Reihe von Verfahren zur Schatzung der Diskriminanzfunktion.Das bekannteste ist der Ansatz von Fisher, welcher die Koeffizienten bi sowahlt, dass die Funktionswerte der Diskriminanzfunktion fur verschiedene Grup-pen moglichst weit auseinanderliegen bzw. das Verhaltnis von erklarter Streuung(zwischen den Gruppen) zu nicht erklarter Streuung (innerhalb der Gruppen)moglichst groß ist.

max

∑Gg=1 ng · (Dg − D)2∑G

g=1

∑ng

i=1(Dgi − Dg)2=

Streuung zwischen den Gruppen

Streuung innerhalb der Gruppen

Hierbei ist ng die Anzahl der Falle in einer Klasse g, D das gesamte Mittel allerDiskriminanzwerte D, Dg das Mittel aller Diskriminanzwerte in einer Klasse gund Dgi der Diskriminanzwert des i-ten Falles in der Klasse g (vgl. Tabach-nik/Fidell 1996, S. 514 f.).

Dieses Maximierungsproblem wird uber ein Eigenwertproblem gelost. WeitereDiskriminanzfunktionen werden so ermittelt, dass diese einen maximalen Anteilder bis dahin nicht erklarten Streuung erklaren konnen.

Uberprufungder Gute der

Diskriminanz-funktion

Die gebrauchlichsten Kriterien zur Uberprufung der Gute der Diskriminanz-funktion sind der kanonische Korrelationskoeffizient und Wilks Lambdaim Falle zweier Gruppen sowie das multivariate Wilks Lambda bei mehrerenGruppen. Mit der Anwendung von Wilks Lambda sind Wahrscheinlichkeitsaus-sagen uber die Unterschiedlichkeit der Gruppen moglich. Hierdurch kann diestatistische Signifikanz ermittelt werden.

Der Kanonische Korrelationskoeffizient misst den Anteil der Streuung zwischenden Klassen an der gesamten Streuung der Daten. Je großer der Wert des Koef-fizienten ist, desto großer ist die Streuung der Merkmalsauspragungen zwischenden Gruppen, im Verhaltnis zur Streuung innerhalb der Gruppen.

Klassifizierung Die Klassifizierung von Objekten mit unbekannter Klassenzugehorigkeitlasst sich nach verschiedenen Methoden durchfuhren. Zu den bekanntesten gehorendie Distanzmethode, das Wahrscheinlichkeitskonzept und die Klassifizierungs-funktionen von Fischer.

6

Page 7: Methoden zur Klassifikation - OptiVoptiv.de/Methoden/KlassMet/KlassMet.pdf · Naive Bayes-Klassifikatoren vereinfachen das Problem, indem sie die Gultigkeit der Unabh¨angigkeitsannahme

2.3.1 Nebenpfad: Klassifizierung von Objekten

Distanzmethode Gemaß der Distanzmethode wird ein neues Objekt derjenigen Gruppe g zu-geordnet deren mittlerer Distanzwert Dg dem Distanzwert Dgi des zu klassifi-zierenden Objektes am nachsten liegt.Bei mehreren Diskriminanzfunktionen reicht die Berucksichtigung der signifi-kanten Funktionen aus. Die Distanzmethode setzt gleiche Streuungenin denverschiedenen Gruppen voraus. Ist dies nicht der Fall, so mussen modifizierteDistanzen verwendet werden.

WahrscheinlichkeitskonzeptDas Wahrscheinlichkeitskonzept ist die flexibelste Methode zur Klassifi-zierung. Es ermoglicht die Berucksichtigung von A-priori-WahrscheinlichkeitenPi(g), die vor der Durchfuhrung der Diskriminanzanalyse bekannt sind odergeschatzt werden.Diese geben an, mit welcher Wahrscheinlichkeit ein Objekt i einer bestimmtenGruppe g angehort. Hieraus wird mittels des Satzes von Bayes die Wahrschein-lichkeit P (g|Di) berechnet, mit der ein Objekt mit einem bestimmten Distanz-wert Di zu einer Gruppe g gehort.

P (g|Di) = P (Di|g)·Pi(g)∑G

g=1P (Di|g)·Pi(g)

; g = 1, ..., G

P (Di|g) sind bedingte Wahrscheinlichkeiten, die angeben wie wahrscheinlich einDiskriminanzwert Di fur Objekt i ware, wenn es zur Gruppe g gehoren wurde.

Zusatzlich konnen Fehlklassifikationskosten berucksichtigt werden, die falscheKlassifikationen in bestimmte Gruppen bestrafen.

Fischer’s Klas-sifizierungs-funktionen

Fischers Klassifizierungsfunktionen sind ein Hilfsmittel, um eine Klassifi-zierung ohne Anwendung der Diskriminanzfunktion vornehmen zu konnen. DieMethode ist nur durchfuhrbar wenn gleiche Streuung innerhalb der Grup-pen unterstellt werden kann.

Fur jede Gruppe ist eine Klassifizierungsfunktion zu bestimmen. Zur Klassifizie-rung eines Objektes sind dessen Funktionswerte fur jede Klassifizierungsfunkti-on, also jede Gruppe, zu berechnen. Das Objekt wird der Gruppe zugeordnet,fur die der berechnete Funktionswert maximal ist. Auch hier konnen A-priori-Wahrscheinlichkeiten berucksichtigt werden.

7

Page 8: Methoden zur Klassifikation - OptiVoptiv.de/Methoden/KlassMet/KlassMet.pdf · Naive Bayes-Klassifikatoren vereinfachen das Problem, indem sie die Gultigkeit der Unabh¨angigkeitsannahme

2.4 Anwendung

AnwendungsvoraussetzungenVor der Durchfuhrung einer Diskriminanzanalyse sollte sichergestellt wer-den, dass die Trainingsdaten keine Objekte enthalten, welche gleichzeitig zumehr als einer Klasse gehoren.Außerdem sollte der Umfang der Trainingsdaten mindestens doppelt sogroß sein wie die Anzahl der Merkmale und deren Anzahl sollte auf jeden Fallgroßer sein als die Anzahl der vorgegebenen Klassen. Andernfalls werden Test-datensatze erheblich schlechter klassifiziert als die Trainingsdaten.

Die Schatzung der Diskriminanzfunktion sollte zunachst nach Wilks Lamb-da erfolgen und die Interpretation graphisch uberpruft werden. Bei der eigent-lichen Klassifzierung sollten nur die signifikantesten Diskriminanzfunktionen indie Analyse einbezogen werden.

FehlklassifikationenDen Fehlern der Diskriminanzanalyse, die in falschen Gruppenzuordnun-gen zum Ausdruck kommen, muss nicht unbedingt eine falsche Parameterwahlzugrunde liegen. Vielmehr ist oft das dahinter liegende Modell fehlerhaft. Nurselten ist es moglich, eine abhangige Variable vollstandig durch unabhangigeVariablen zu beschreiben, da haufig nicht erfassbare oder quantifizierbare Ein-flussfaktoren existieren.

Sind alle Objekte richtig zugeordnet worden, besagt dies lediglich, dass die Zu-sammenhange in den Trainingsdaten richtig dargestellt wurden. Daraus folgtjedoch nicht automatisch, dass dies auch fur eine Klassifikation von Objektenmit unbekannter Klassenzugehorigkeit gilt. Dies ist lediglich dann der Fall, wenndie Trainingsdaten die Grundgesamtheit aller Objekte sehr gut reprasentiert unddie neu zu klassifizierenden Objekte ebenfalls dieser Grundgesamtheit entstam-men. Gibt es Unterschiede zwischen der Struktur der Grundgesamtheit und derTrainingsdaten, so ergeben sich systematische Verzerrungen.

8

Page 9: Methoden zur Klassifikation - OptiVoptiv.de/Methoden/KlassMet/KlassMet.pdf · Naive Bayes-Klassifikatoren vereinfachen das Problem, indem sie die Gultigkeit der Unabh¨angigkeitsannahme

3 Naive Bayes-Klassifikatoren

3.1 Methodenbeschreibung

Allgemeines Die Bayes-Klassifikation ist eine statistische Klassifikationsmethode, welchedie Wahrscheinlichkeit vorhersagt, mit der ein Objekt zu einer bestimmtenGruppe gehort.

Die Bayes-Klassifikation basiert auf der Formel von Bayes, mit der die beding-te Wahrscheinlichkeit eines Ereignisses unter einer Bedingungen berechnetwerden kann. Naive Bayes-Klassifikatoren vereinfachen das Problem, indem siedie Gultigkeit der Unabhangigkeitsannahme voraussetzen.Diese besagt, dass die Auswirkung eines Merkmales auf die Klassifizierung un-abhangig von den Auspragungen anderer Attributwerte ist. Diese Annahme istin gewissem Sinne naiv, da sie in der Realitat selten gultig ist. Sie reduziert dieKomplexitat des Problems jedoch erheblich.[5]

MethodenbeschreibungNaive Bayes-Klassifikatoren reprasentieren jedes Objekt durch einen n-dimensionalenVektor, wobei n die Anzahl der Merkmale aj eines Objektes ist. Danach wirdein Objekt derjenigen Klasse ci ∈ C zugeordnet, zu der es mit der hochstenWahrscheinlichkeit gehort:

c = arg maxci∈C

P (a1, a2, ..., an)P (ci) = arg maxci∈C

P (ci)n∏

j=0

P (aj |ci)

Die bedingten Wahrscheinlichkeiten P (aj |ci) werden aus den Trainingsbei-spielen geschatzt.Der naive Bayes-Klassifikator ist im Vergleich mit anderen Klassifikationsmetho-den theoretisch der genaueste Klassifikator. In der Praxis ist dies jedochoftmals aufgrund von Verletzungen der Unabhangigkeitsannahme und aufgrundfehlender oder fehlerhafter Daten uber die bedingten Wahrscheinlichkeiten nichtder Fall.

9

Page 10: Methoden zur Klassifikation - OptiVoptiv.de/Methoden/KlassMet/KlassMet.pdf · Naive Bayes-Klassifikatoren vereinfachen das Problem, indem sie die Gultigkeit der Unabh¨angigkeitsannahme

3.2 Beispiel

Beispiel Der Naive Bayes-Klassifikator wird im folgenden an einem Beispiel erlautert.

Es soll die Kreditwurdigkeit eines potentiellen Kreditnehmers uberpruft wer-den. Hierzu baut die Bank anhand einer Kundendatenbank einen Klassifikatorfur das Kreditrisiko eines Kunden auf. Die Abbildung zeigt die Kundendaten-bank.

Der Klassifikator wird mit den Daten aus der Kundendatenbank folgenermaßenaufgebaut: Zuerst werden die bedingten Wahrscheinlichkeiten P (aj |ci) aus denDaten geschatzt:

P(Alter¡30 — Kreditw.=”schlecht“) = 2/3; P(Alter¡30 — Kreditw.=”gut“) =2/7; P(Alter¡30 — Kreditw.=”sehr gut“)= 1/4; P(Alter=30-40 — Kreditw.=”schlecht“)= 0; P(Alter=30-40 — Kreditw.=”gut“) = 1/7; P(Alter=30-40 — Kreditw.=”sehrgut“)=3/4; usw.Die vollstandige Berechnung aller bedingten Wahrscheinlichkeiten des Beispielsfinden SIe hier.

Es soll ein potenzieller Kreditnehmer X auf seine Kreditwurdigkeit beurteilt wer-den. X hat die Attributauspragungen Alter¡30, Einkommen=2.000-5.000 eundBeruf= ”Angestellter“.

Dann wird die Wahrscheinlichkeit, dass X eine schlechte Kreditwurdigkeit be-sitzt folgendermaßen berechnet:

P(ci)∏n

j=0 P (aj |ci) = P (Kreditw. = schlecht) · P (Alter < 30|Kreditw. =schlecht) · P (Einkommen

=2.000-5.000—Kreditw.=schlecht)·P (Beruf = Angestellter|Kreditw. = schlecht)

=3/14 ·2/3 · 0 · 2/3 = 0

Ebenso berechnen sich die Wahrscheinlichkeit, dass seine Kreditwurdigkeit ”gut“ist zu 0,10 bzw. dass seine Kreditwurdigkeit ”sehr gut“ ist zu 0,03. Der Kundewird somit mit der Kreditwurdigkeit ”gut“ klassifiziert.

3.2.1 Nebenpfad: Bedingte Wahrscheinlichkeiten fur das Beispiel

Berechnungder bedingtenWahrschein-

lichkeiten furdas Beispiel

P(Alter¡30 — Kreditw.=”schlecht“) = 2/3;P(Alter¡30 — Kreditw.=”gut“) = 2/7;

10

Page 11: Methoden zur Klassifikation - OptiVoptiv.de/Methoden/KlassMet/KlassMet.pdf · Naive Bayes-Klassifikatoren vereinfachen das Problem, indem sie die Gultigkeit der Unabh¨angigkeitsannahme

P(Alter¡30 — Kreditw.=”sehr gut“) = 1/4;P(Alter=30-40 — Kreditw.=”schlecht“) = 0;P(Alter=30-40 — Kreditw.=”gut“) = 1/7;P(Alter=30-40 — Kreditw.=”sehr gut“) =3/4;P(Alter¿40 — Kreditw.=”schlecht“) = 1/3;P(Alter¿40 — Kreditw.=”gut“) = 4/7;P(Alter¿40 — Kreditw.=”sehr gut“) =0;P(Einkommen¡2000 — Kreditw.=”schlecht“) = 1;P(Einkommen¡2000 — Kreditw.=”gut“) = 1/7;P(Einkommen¡2000 — Kreditw.=”sehr gut“) = 1/4;P(Einkommen=2000-5000 — Kreditw.=”schlecht“) = 0;P(Einkommen=2000-5000 — Kreditw.=”gut“) = 5/7;P(Einkommen=2000-5000 — Kreditw.=”sehr gut“) =2/4;P(Einkommen¿5000 — Kreditw.=”schlecht“) = 0;P(Einkommen¿5000 — Kreditw.=”gut“) = 1/7;P(Einkommen¿5000 — Kreditw.=”sehr gut“) =1/4;P(Beruf=”Arbeiter“ — Kreditw.=”schlecht“) = 1/3;P(Beruf=”Arbeiter“ — Kreditw.=”gut“) = 4/7;P(Beruf=”Arbeiter“ — Kreditw.=”sehr gut“) = 1/4;P(Beruf=”Angestellter“ — Kreditw.=”schlecht“) = 2/3;P(Beruf=”Angestellter“ — Kreditw.=”gut“) = 2/7;P(Beruf=”Angestellter“ — Kreditw.=”sehr gut“) =3/4;P(Beruf=”Manager“ — Kreditw.=”schlecht“) = 0;P(Beruf=”Manager“ — Kreditw.=”gut“) = 1/7;P(Beruf=”Manager“ — Kreditw.=”sehr gut“) =0;

11

Page 12: Methoden zur Klassifikation - OptiVoptiv.de/Methoden/KlassMet/KlassMet.pdf · Naive Bayes-Klassifikatoren vereinfachen das Problem, indem sie die Gultigkeit der Unabh¨angigkeitsannahme

3.3 Anwendung

AnwendungsbereicheNaive Bayes-Klassifikatoren sind in der Textanalyse weit verbreitet. Da sie ho-he Trainings- und Klassifizierungsgeschwindigkeit besitzen und mit jedem neuklassifizierten Objekt den Klassifikator verbessern, werden sie haufig zur Klas-sifikation von E-Mails eingesetzt.Ihre guten Klassifizierungseigenschaften machen sie insbesondere beim Einsatzin Spam-Filtern sehr beliebt. Dort wurden sie z.B. von Sahami et al. [] oderKatirai [] eingesetzt.

VorteileNaiver Bayes-

Klassifikatoren

Die wichtigsten Vorteile der Anwendung von Naiven Bayes-Klassifikatoren sind:

• Sie sind einfach zu implementieren.

• Sie erzielen in vielen Fallen gute bis sehr gute Klassifkationsergebnisse.

• Naive Bayes-Klassifikatoren lernen inkrementell, d.h. mit jedem neuklassifizierten Datensatz wird der Klassifikator genauer.

NachteileNaiver Bayes-

Klassifikatoren

Die Verwendung Naiver Bayes-Verfahren bei der Klassifikation bringt folgendeNachteile mit sich:

• Abhangigkeiten zwischen den Merkmalen konnen nicht berucksichtigtwerden.

• Durch diese Unabhangigkeitsannahme ist die theoretisch mogliche Klassi-fikationsgenauigkeit eingeschrankt.

• Bei hochdimensionalen Problemen (sehr viele Attribute) sind Bayes-Klassifikatorennicht mehr effizient.

12

Page 13: Methoden zur Klassifikation - OptiVoptiv.de/Methoden/KlassMet/KlassMet.pdf · Naive Bayes-Klassifikatoren vereinfachen das Problem, indem sie die Gultigkeit der Unabh¨angigkeitsannahme

4 Bayes-Netzwerke

4.1 Methodenbeschreibung

Allgemeines Bayessche Netzwerke sind eine Klassifikationsmethode, die -wie auch dieNaiven Bayes-Klassifikatoren- auf dem Satz von Bayes basieren. Im Gegen-satz zu den Naiven Bayes-Klassifikatoren berucksichtigen die Bayes-Netze auchAbhangigkeiten zwischen den Attributen. modellieren.

MethodenbeschreibungEin bayessches Netzwerk kann als ein azyklischer,gerichteter Graph dargestelltwerden, dessen Knoten Merkmale und dessen Kanten Abhangigkeiten zwischenMerkmalen darstellen.

Die Knoten konnen Wahrscheinlichkeitswerte zwischen 0 und 1 annehmen.Mit diesen Wahrscheinlichkeiten werden neue Wahrscheinlichkeiten in den Nach-folgerknoten im Graphen berechnet. Dazu besitzt jeder Knoten eine Tabelle mitbedingten Wahrscheinlichkeiten oder eine Funktion, die aus den Wahrscheinlich-keiten seiner Vorgangerknoten, eine neue bedingte Wahrscheinlichkeit berech-net. Wenn es zu einem Knoten nur einen Vorgangerknoten gibt, kann das dieeinfache bedingte Wahrscheinlichkeit sein.

Die Tabelle der bedingten Wahrscheinlichkeiten enthalt fur jede mogliche Kom-bination von direkten Vorgangermerkmalen V (Zi) die bedingten Wahrschein-lichkeiten fur die Merkmalsauspragungen zi als P (zi|V (Zi)).

Damit kann die Wahrscheinlichkeit fur einen bestimmten Pfad von Merkmals-auspragungen berechnet werden:

P (z1, ..., zn) =n∏

ı=1

P (zi|V (Zi))

Zur Klassifikation werden einer oder mehrere Knoten im Graphen als Ziel-knoten ausgewahlt. Diese reprasentieren die Gruppen, nach denen die Objekteklassifiziert werden sollen. Um ein Objekt zu klassifizieren werden die Wahr-scheinlichkeiten der Pfade zu den gewahlten Zielknoten verglichen und der Pfadbzw. der Zielknoten mit der hochsten Wahrscheinlichkeit ausgewahlt.

13

Page 14: Methoden zur Klassifikation - OptiVoptiv.de/Methoden/KlassMet/KlassMet.pdf · Naive Bayes-Klassifikatoren vereinfachen das Problem, indem sie die Gultigkeit der Unabh¨angigkeitsannahme

4.2 Anwendung

Erweiterungenund Varianten

Es existieren zahlreiche Erweiterungen und Varianten von Bayes-Netzen, bei-spielsweise zur Klassifikation von fehlerhaften oder unvollstandigen Da-ten mit Monte-Carlo-Methoden []. Einenguten Uberblick bietet Heckermann [].

Anwendung Bayes-Netzwerke werden hauptsachlich in Bereichen eingesetzt, in denen es aufdie Abhangigkeiten zwischen den verschiedenen Merkmalen ankommt,wie z.B. bei der Fehlerdiagnose in komplexen Systemen [].

Vorteile vonBayes-

Netzwerken

• Bayes-Netzwerke konnen Abhangigkeiten zwischen den verschiedenenAttributen modellieren.

• Sie sind fur den Benutzer sehr anschaulich und gut nachvollziehbar.

• Sie sind relativ einfach zu implementieren.

Nachteile vonBayes-

Netzwerken

• Bayes-Netzwerke erfordern bei vielen Merkmalen und komplexen Abhangig-keiten einen hohen Rechenaufwand.

• Die Abhangigkeiten zwischen den Merkmalen konnen bei vielen Merkma-len schnell unubersichtlich werden.

• Die Abhangigkeiten werden nur dann modelliert, wenn sie als solche iden-tifiziert werden. Die Struktur des Netzwerkes und somit die Klassifikati-onsergebnisse sind stark vom Benutzer abhangig.

14

Page 15: Methoden zur Klassifikation - OptiVoptiv.de/Methoden/KlassMet/KlassMet.pdf · Naive Bayes-Klassifikatoren vereinfachen das Problem, indem sie die Gultigkeit der Unabh¨angigkeitsannahme

5 Entscheidungsbaume

5.1 Allgemeines

Ein Entscheidungsbaum ist ein Graph mit Baumstruktur, bei dem jeder in-nere Knoten ein Merkmal eines zu klassifizierenden Objektes auf die Erfullungeiner Bedingung testet. Die von diesem Knoten ausgehenden Verzweigungenentsprechen den Werten oder Wertebereichen, die diese Bedingung uberpruft.Jedes Blatt des Entscheidungsbaumes reprasentiert eine Klasse bzw. die Zuord-nung zu einer Klasse von Objekten.

Um ein nicht-klassifiziertes Objekt einzugruppieren werden die Merkmalswertedieses Objektes gegen die inneren Knoten des Entscheidungsbaumes getestet.Somit wird ein Pfad uber alle Stufen des Baumes durchlaufen, der in einemBlatt endet und so das analysierte Objekt eingruppiert.

Die Abbildung zeigt einen einfachen Entscheidungsbaum, der einen bestimm-ten Tag danach klassifizieren soll, ob es sich lohnt einen Ausflug zu machenoder nicht. Dies wird anhand der Attribute Wetterlage, Temperatur und Wind-verhaltnisse gepruft. Ist z.B. die Wetterlage bewolkt und der Wind schwach, solohnt es sich einen Ausflug zu unternehmen.

Zur Generierung solcher Entscheidungsbaume wurden verschiedene Algorithmenentwickelt, von denen hier eine Auswahl vorgestellt wird.

15

Page 16: Methoden zur Klassifikation - OptiVoptiv.de/Methoden/KlassMet/KlassMet.pdf · Naive Bayes-Klassifikatoren vereinfachen das Problem, indem sie die Gultigkeit der Unabh¨angigkeitsannahme

5.2 ID3-Algorithmus

ID3-Algorithmus

Der ID3-Algorithmus (Iterative Dichotomiser 3) von Ross Quinlan [3] ist einim wissenschaftlichen und kommerziellen Bereich weit verbreitetes Klassifikati-onsverfahren. ID3 ist ein rekursiver Top-Down-Algorithmus zur Konstruktioneines Entscheidungsbaumes. Das großte Problem des Algorithmus ist die hoheSensibilitat fur fehlerhafte und widerspruchliche Daten, welche Fehl-klassifikationen zur Folge hat.

Ablauf desID3-

Algorithmus

Der ID3-Algorithmus kann generell wie folgt dargestellt werden:Nachdem zunachst gemaß der ” window-Technik“ ein erster Entscheidungs-baum erstellt wurde, wird uberpruft, ob alle Beispiele eines Knotens zur glei-chen Klasse gehoren. Ist dies der Fall, so ist der Entscheidungsbaum fertig.

Wenn nicht, so wird das informativste Merkmalausgewahlt und nach die-sem verzweigt. Das heißt mit Hilfe dieses Merkmals werden die Beispiele desbetrachteten Knotens in Untergruppen aufgeteilt, wobei in jeder dieser Unter-gruppen nur Beispiele mit gleichen Merkmalswerten vorkommen. Dies wird solange wiederholt, bis alle Beispiele in den verschiedenen Untergruppen richtigklassifiziert wurden.

Das informativste Merkmal wird ermittelt, in dem fur jedes Merkmal der Bei-spieldaten (nach dem noch nicht verzweigt wurde) berechnet wird, wie gut esdie Daten klassifizieren wurde. Diese Klassifikationsgute wird von ID3 uber das

Informationskriterium gemessen. Dieses Kriterium quantifiziert die zur Klas-sifikation benotigte Information, d.h. die Anzahl der Tests, die notig sind um einnicht klassifiziertes Objekt einer Klasse zuzuordnen. Ziel von ID3 ist es, die zurKlassifikation benotigte Information im Entscheidungsbaum zu minimieren.

5.2.1 Nebenpfad: Window-Technik des ID3

Window-Technik

Um die Klassifikation großer Datenmengen zu ermoglichen wurde beim ID3-Algorithmus die so genannte ”window-Technik“ verwendet. Dies ist ein iterati-ves Verfahren, welches mit einem gewissen Anteil der verfugbaren Beispieldaten(z.B. 10%) einen Entscheidungsbaum generiert. Dieser Anteil wird in das ”win-dow“ aufgenommen. Anhand dieses ersten Baumes werden die restlichen Datenklassifiziert.

Gibt es Objekte, welche nicht richtig klassifiziert wurden, so werden diese zusatz-lich dem ”window“ hinzugefugt und der Entscheidungsbaum wird neu generiert.Dies wird so lange wiederholt, bis alle Beispieldaten korrekt klassifiziert wurden.

16

Page 17: Methoden zur Klassifikation - OptiVoptiv.de/Methoden/KlassMet/KlassMet.pdf · Naive Bayes-Klassifikatoren vereinfachen das Problem, indem sie die Gultigkeit der Unabh¨angigkeitsannahme

Vorteil derWindow-Terchnik

Der Vorteil eines so gewonnenen Entscheidungsbaumes ist, dass zunachst ei-ne reprasentative Auswahl aus allen Beispielen gefunden wird und somit eineschnellere Klassifikation moglich ist, als mit Baumen, die alle Beispieldaten ver-wenden.

5.2.2 Nebenpfad: Informationskriterium

ZurKlassifikation

eines Objektesbenotigte

Information

Die benotigte Information I um ein Objekt zu klassifizieren berechnetsich zu:

I(s1, s2, ..., sm) = −∑m

i=1 pi · log2(pi)

wobei si die Anzahl von Objekten in der Klasse Ci und pi die Wahrschein-lichkeit, dass ein zufalliges Beispiel zu einer Klasse Ci gehort.

Nach einerVerzweigung

benotigteInformation

Wenn in einem Knoten anhand eines Attributes A in s1, s2, ..., sv Teilbaumeverzweigt wird, misst EA die nach der Verzweigung noch benotigte Infor-mation um ein Objekt zu klassifizieren. Sei sij die Anzahl von Beispielen derKlasse Ci im Teilbaum Sj , dann berechnet sich die zur Klassifizierung benotigteInformation zu:

EA =∑v

j=1s1j+ ... +smj

s · I(s1j , ... , smj)

Auswahl desinformativsten

Attributs

Zur Auswahl des informativsten Attributs verwendet ID3 den Informationsge-winn G. GA misst hierbei den Gewinn, den eine Klassifikation mit Verzweigungnach Attribut A im Vergleich zu einer Klassifikation ohne das Attribut erzielt.

GA = |(s1, ... , sm) − EA|

GAist also die erwartete Verringerung an benotigter Information wenn der Wertdes Attributs A bekannt ist. Nachdem der Informationsgewinn fur jedes Attri-but eines Knotens, nach dem noch nicht verzweigt wurde berechnet ist, wird dasAttribut mit dem hochsten Informationsgewinn als dasjenige ausgewahlt,nach dem als nachstes zu verzweigen ist.

17

Page 18: Methoden zur Klassifikation - OptiVoptiv.de/Methoden/KlassMet/KlassMet.pdf · Naive Bayes-Klassifikatoren vereinfachen das Problem, indem sie die Gultigkeit der Unabh¨angigkeitsannahme

5.3 Anwendung von ID3

Anwendungsvoraussetzungenvon ID3

Der ID3-Algorithmus kann unter folgenden Voraussetzungen einen Entschei-dungsbaum generieren:

• Die Daten mussen fehlerfrei und unverrauscht sein.

• Die Merkmale mussen diskrete Werte besitzen oder bei reellen Wertenmussen Intervallgrenzen festsetzbar sein. Diese Festlegung ist jedoch oftproblematisch, da sie Einfluss auf die Klassifikationsgute des Entschei-dungsbaumes hat.

Der ID3-Algorithmus ist insbesondere fur die schnelle Klassifikation großer Da-tenmengen gut geeignet.

Vorteile vonID3

Der ID3-Algorithmus bietet folgende Vorteile:

• Der Lernprozess ist auch bei großen Datenmengen recheneffizient.

• Die Reprasentation als Baumstruktur ist fur den Anwender gut uber-schaubar und verstandlich.

• Aus dem Entscheidungsbaum konnen gut handhabbare Entscheidungs-regeln gebildet werden.

• Die Entscheidungsregeln konnen zum Zugriff auf Datenbanken in SQL-Abfragen ubersetzt werden.

Nachteile vonID3

Der ID3-Algorithmus hat eine Reihe von Nachteilen:

• Da der Algorithmus auf eine vollstandige Klassifikation aller Daten einge-richtet ist, reagiert er sehr empfindlich auf verrauschte und fehler-hafte Daten, da schon bei kleinen Anderungen der Merkmalswerte derEntscheidungsbaum entsprechend geandert wird und zu falschen Klassifi-kationen fuhrt.

• Da der Baum nur vorwarts aufgebaut wird und kein ruckschreitendes Ver-bessern moglich ist, handelt es sich bei dem so gewonnenen Baum oft umein lokales Optimum.

18

Page 19: Methoden zur Klassifikation - OptiVoptiv.de/Methoden/KlassMet/KlassMet.pdf · Naive Bayes-Klassifikatoren vereinfachen das Problem, indem sie die Gultigkeit der Unabh¨angigkeitsannahme

• Bei ID3 kann an jedem Knoten immer nur ein Merkmal betrachtet wer-den kann. Es darf also kein zu klassifizierendes Objekt mehrerenKlassen angehoren, wie dies in der Realitat oft der Fall ist.

• Der Algorithmus verzweigt bevorzugt an Merkmalen mit vielen Merkmals-werten.

19

Page 20: Methoden zur Klassifikation - OptiVoptiv.de/Methoden/KlassMet/KlassMet.pdf · Naive Bayes-Klassifikatoren vereinfachen das Problem, indem sie die Gultigkeit der Unabh¨angigkeitsannahme

5.4 Weitere Entscheidungsbaume

Prune-Verfahren

Um den ID3-Algorithmus auch auf fehlerhafte, verrauschte und widerspruchlicheDaten anwenden zu konnen wurden die so genannten Prune-Verfahrenentwickelt.

C4.5-Algorithmus

Der C4.5-Algorithmus behebt die Einschrankungen von ID3 in Bezug auffehlerfreie und vollstandige Daten sowie diskrete Merkmalswerte.

CART-Algorithmus

Der CART-Algorithmus ist ein rekursiver Partitionsalgorithmus, mit demdie Beispieldaten sukzessive nach einzelnen Merkmalsauspragungen jeweils inzwei Teilmengen zerlegt werden.

GID, SLIQund CHAID

Zur Klassifizierung von Elementen mit fehlenden Attributwerten wurde vonQuinlan der GID3-IV-Algorithmus entwickelt. SLIQ eignet sich furdie Generierung von Entscheidungsbaumen aus großen Datenbanken.Der CHAID-Algorithmus wurde 1964 von Sonquist und Morgan publiziertund ist somit der Alteste der gangigen Entscheidungsbaum-Algorithmen.

5.4.1 Nebenpfad: Pruning-Verfahren

Pruning Da der ID3-Algorithmus den Entscheidungsbaum bis zu den Endknoten erzeugt,welche nur noch aus Beispielen einer Klasse bestehen, konnen die resultieren-den Baume sehr tief werden. Insbesondere bei verrauschten, fehlerhaftenDaten werden Baume erzeugt, welche zwar die Testbeispiele richtig klassifizie-ren, aber bei unbekannten Beispielen viele Fehler erzeugen.Um den Entscheidungsbaum nicht ubermaßig stark wachsen zu lassen, wirddieser an manchen Stellen beschnitten (pruning).[2]

Pre-Pruning Beim Vor-Prunen (pre-pruning) wird vor der Entwicklung des Entschei-dungsbaumes mittels statistischer Analysen uberpruft, ob Datensatze elimi-niert werden konnen, die zu einem starken Wachstum des Baumes fuhren.Dies kann jedoch dazu fuhren, dass wichtige Beispiele und somit Besonderheitender Klassifizierung nicht in den Baum aufgenommen werden.

20

Page 21: Methoden zur Klassifikation - OptiVoptiv.de/Methoden/KlassMet/KlassMet.pdf · Naive Bayes-Klassifikatoren vereinfachen das Problem, indem sie die Gultigkeit der Unabh¨angigkeitsannahme

AufbauendesPrunen

Beim Prunen wahrend des Aufbaus eines Entscheidungsbaumes wirdbei der Generierung jedes Knotens uberpruft, ob der Informationsgewinn durcheine weitere Verzweigung großer als ein festgelegter minimaler Informationsge-winn ist (Schwellenwert).Ist dies nicht der Fall, so wird nicht weiter Verzweigt. Das Festlegen diesesSchwellenwertes ist jedoch problematisch, da bei einem zu niedrigen Wert derBaum zu groß wird und bei einem zu hohen Schwellenwert zu viel Informationverloren geht.

Post-Pruning Beim nachtraglichen Prunen (post-pruning) wird zuerst der kompletteEntscheidungsbaum wie oben beschrieben aufgebaut und erst in einem zweitenSchritt werden Teilbaume durch einzelne Knoten ersetzt.

RegelbasiertesPruning

Vor allem das regelbasierte Pruning ist in der Praxis sehr verbreitet. Hierwerden alle Beispieldaten zur Generierung eines ersten Entscheidungsbaumesherangezogen. Anschließend wird dieser als Regelmenge in die disjunktiveNormalform (DNF) umgeformt.Dabei wird jeder mogliche Pfad von der Wurzel zu den Blattern ”oder“-verknupftund die in einem solchen Pfad vorkommenden Attributwerte ”und“-verknupft.Dann wird bei jeder Regel uberpruft, ob Teile der Regel fur die richtige Klassi-fikation relevant sind.

Falls Attribute irrelevant sind, so werden sie aus der Regel entfernt.Anschließend werden die Regeln auf ihre Relevanz fur die Klassifikations-ergebnisse getestet. Sind Regeln irrelevant, so werden sie weggelassen.Der Vorteil dieser Umformung in einzelne Regeln besteht darin, dass beim Strei-chen einzelner Regelteile Unterbaume zwar abgeschnitten werden, jedoch in an-deren Regeln weiterhin vorkommen, so dass die hierin enthaltene Informationweiterhin verfugbar ist.

5.4.2 Nebenpfad:

C4.5-Algorithmus

Der C4.5-Algorithmus wurde wie auch ID3 von Ross Quinlan [3] entwickeltund ist eine Erweiterung von ID3. Er behebt die Einschrankungen von ID3 inBezug auf fehlerfreie und vollstandige Daten sowie diskrete Merkmalswerte.

C4.5 enthalt außerdem eine erweiterte ”window-Technik“, welche den Vor-gang des Baumerzeugens und -beschneidens mehrfach wiederholt.

21

Page 22: Methoden zur Klassifikation - OptiVoptiv.de/Methoden/KlassMet/KlassMet.pdf · Naive Bayes-Klassifikatoren vereinfachen das Problem, indem sie die Gultigkeit der Unabh¨angigkeitsannahme

Die Algorithmen zur Attributauswahl und Verzweigung wurden verbessert, sodass Merkmale mit vielen Auspragungen nicht mehr bevorzugt als Knotenausgewahlt werden.Weiterhin wurden in C4.5 verschiedene Methoden des Pruning implemen-tiert.

Erweiterungenvon C4.5

Von Quinlan wurden zwei Erganzungen zu C4.5 vorgestellt, welche aufgrund sta-tistischer Tests entscheiden konnen, ob die Verzweigung nach einem Merk-mal sinnvoll ist und ob bei widerspruchlichen Daten aufgrund stochastischerUberlegungen eine Zuordnung der fraglichen Daten zu einer Klasse vorgenom-men werden kann.Liegen Trainingsdaten mit fehlenden Attributwerten vor, so wird der Al-gorithmus dahingehend abgeandert, dass die Verzweigung nach einem Merkmalmit vielen fehlenden Werten wenig wahrscheinlich ist.

5.4.3 Nebenpfad:

PartitionsalgorithmusDer CART-Algorithmus [1] (Classification and Regression Trees) ist ein re-kursiver Partitionsalgorithmus, mit dem die Beispieldaten sukzessive nacheinzelnen Merkmalsauspragungen jeweils in zwei Teilmengen zerlegt werden.Bei diskreten Merkmalswerten werden alle moglichen Verzweigungen erzeugtund untersucht.Bei stetigen Merkmalsauspragungen wird wie bei C4.5 eine Schranke berechnet,nach der die Beispielmenge in einem Knoten in zwei Untermengen zerlegt wird.

”Reine“Untermengen

Der CART-Algorithmus versucht die Zerlegung in zwei Teilmengen so vorzuneh-men, dass die Untermengen bezuglich der Klassenzugehorigkeit ”reiner“ werdenals die Ausgangsmenge.Hierzu wird ein Unreinheitsmaß definiert, welches angibt wie groß die Streu-ung der Verteilung uber die Klassen in einem Knoten ist.Wenn beispielsweise in einem Knoten die Beispiele uber alle Klassen gleichver-teilt sind, dann ist die Unreinheit des Knotens am großten.Fur den Fall einheitlicher bzw. variabler Fehlklassifikationskosten werdenbeim CART-Algorithmus das Gini- bzw. das Twoing-Kriterium als Verzwei-gungskriterien verwendet.

KlassenwahrscheinlichkeitFalls bei CART ein Endknoten vorliegt, welcher nicht weiter verzweigt werdenkann, aber Objekte unterschiedlicher Klassenzugehorigkeit enthalt, so wird mit

22

Page 23: Methoden zur Klassifikation - OptiVoptiv.de/Methoden/KlassMet/KlassMet.pdf · Naive Bayes-Klassifikatoren vereinfachen das Problem, indem sie die Gultigkeit der Unabh¨angigkeitsannahme

dem Kriterium der Klassenwahrscheinlichkeit oder der Klassenhaufigkeitfestgelegt, welcher Klasse ein solcher Knoten zugewiesen wird.

5.4.4 Nebenpfad: GID3-IV-Algorithmus

GID3-IV-Algorithmus

Zur Klassifizierung von Elementen mit fehlenden Merkmalswertenwurde von Quinlan der GID3-IV-Algorithmus entwickelt. Durch eine Ande-rung der Merkmalsauswahl- und Verzweigungsregel des ID3 werden bei einerVerzweigung nicht alle Werte eines Merkmals erzeugt, sondern nur diese, die furdie Klassifizierung wichtig sind.Somit werden mehrere Werte zu einem gemeinsamen Zweig zusammengefasst,wobei nicht auftretende Merkmalswerte auch in einen solchen gemeinsamenZweig fallen und somit klassifiziert werden konnen.

5.4.5 Nebenpfad: SLIQ-Algorithmus

Entscheidungsbaumein großen

Datenbanken

Der SLIQ-Algorithmus [4] wurde fur die Generierung von Entscheidungsbaum-en aus großen Datenbanken entwickelt.Algorithmen wie ID3 sind bei großeren Datenbanken ineffizient, da sie in je-dem Knoten fur jedes zu testende Attribut uber die gesamten Trainingsbeispie-le iterieren. SLIQ umgeht dies, indem die Werte fur jedes Merkmal vorsortiertwerden.

Vorsortierung Zur Vorsortierung wird fur jedes Merkmal eine Liste angelegt, welche die inder Datenbank vorhandenen Merkmalswerte und die IDs der Trainingsbeipieleenthalt, die diese Merkmalswerte annehmen.Außerdem wird eine Klassenliste angelegt, in welcher gespeichert ist, welcherBaumknoten welche Klasse(n) enthalt und welche Trainingsbeispiele zu diesenKlassen gehoren.

Verzweigung Fur jede Verzweigungsentscheidung in einem Knoten kann somit in Formeines Histogramms evaluiert werden, wieviele Beispiele einer Klasse sich vor undnach einer moglichen Verzweigung in einem Knoten befinden. Nach der Verzwei-gungsentscheidung mussen die Klassenlisten aktualisiert werden.

Fur einen Verzweigungsentscheidung mussen in einem Knoten somit nur nochalle Attribute durchlaufen werden, nicht mehr die gesamte Trainingsmenge.

23

Page 24: Methoden zur Klassifikation - OptiVoptiv.de/Methoden/KlassMet/KlassMet.pdf · Naive Bayes-Klassifikatoren vereinfachen das Problem, indem sie die Gultigkeit der Unabh¨angigkeitsannahme

5.4.6 Nebenpfad: Chaid-Algorithmus

Chaid-Algorithmus

Der CHAID-Algorithmus (Chi-square Automatic Interaction Detectors) wur-de 1964 von Sonquist und Morgan [5] publiziert.

Der Hauptunterschied von CHAID zu CART und C4.5 besteht darin, dassder CHAID-Algorithmus den Entscheidungsbaum wahrend seines Aufbaus be-schneidet. Um die Merkmale, nach denen verzweigt wird auszuwahlen wird derChi-Quadrat-Unabhangigkeitstest verwendet.Dieser pruft die Starke der Abhangigkeit zweier Merkmale. Je geringer dieAbhangigkeit zwischen zwei Merkmalen ist, desto großer ist die Wahrschein-lichkeit, dass der Algorithmus nach diesen Merkmalen verzweigt.

MIt dem CHAID-Algorithmus konnen kompaktere Baume erzeugt werden alsz.B. mit dem CART-Algorithmus. Da jedoch fur alle moglichen Attributkom-binationen die Abhangigkeiten gepruft werden mussen ist CHAID bei großenProblemen nicht mehr recheneffizient.

24

Page 25: Methoden zur Klassifikation - OptiVoptiv.de/Methoden/KlassMet/KlassMet.pdf · Naive Bayes-Klassifikatoren vereinfachen das Problem, indem sie die Gultigkeit der Unabh¨angigkeitsannahme

6 Weitere Klassifikationsmethoden

6.1 Support Vector Machines

Konstruktiontrennender

Ebenen

Support Vector Machines (SVM) [] stellen die zu analysierenden Objekte mit-tels ihrer Merkmalswerte in einem Merkmalsraum dar, wobei ahnliche Objektenahe beieinander liegen.Siekonstruieren trennende Ebenen zwischen den Daten. Dabei werden die Datenauf einer Seite der Ebene einer Klasse und die auf der anderen Seite einer an-deren Klasse zugeordnet. Solch eine trennende Ebene wird Entscheidungso-berflache genannt und durch Vektoren konstruiert, die an der Grenze zwischenzwei Klassen liegen. Diese Vektoren werden Support-Vektoren genannt.

WeicheRander

Falls die Konstruktion mehrerer solcher Ebenen zwischen zwei Klassen moglichist, so wird diejenige ausgewahlt, welche die eindeutigste Trennung ergibt.Meist ist jedoch eine eindeutige Trennung der Klassen nicht moglich. Dann wer-den so genannte weiche Rander verwendet, bei denen sich auch noch jenseitseiner gewissen Entfernung von der Ebene Daten der anderen Klasse befindendurfen.

Eine neu zu klassifizierendes Objekt wird in den Merkmalsraum eingeord-net. Dann kann bestimmt werden, in welcher Beziehung sie zu den Trennungs-ebenen steht und zu welcher Klasse sie hiermit gehort.

25

Page 26: Methoden zur Klassifikation - OptiVoptiv.de/Methoden/KlassMet/KlassMet.pdf · Naive Bayes-Klassifikatoren vereinfachen das Problem, indem sie die Gultigkeit der Unabh¨angigkeitsannahme

6.2 Support Vector Machines

Klassifizierung Einer der Vorteile der SVM gegenuber anderen Klassifikationsverfahren ist, dassein Objekt zur Klassifikation nicht mit vielen anderen verglichen werden muss,sondern lediglich mit den Support-Vektoren. Dadurch ist das Verfahren beider Klassifizierung sehr schnell. Dafur ist jedoch die Trainingsphase sehrlangsam, da das Auffinden der Hyperebenen aufwandig ist (vgl. Yang 1999).

Anwendung Die Anwendung von SVM in Spam-Filtern wird von Drucker (1999) ausfuhrlichbeschrieben. Brutlag und Meek (2000) verglichen die Ergebnisse der Klassifizie-rung von Ham-E-Mails mit einer linearen SVM und einem Unigram-Sprachmodell,wobei ihre Klassifikationsergebnisse eher von den verwendeten Klassen als vondem Klassifikator abhangen.

26

Page 27: Methoden zur Klassifikation - OptiVoptiv.de/Methoden/KlassMet/KlassMet.pdf · Naive Bayes-Klassifikatoren vereinfachen das Problem, indem sie die Gultigkeit der Unabh¨angigkeitsannahme

6.3 Regelgenerierungsverfahren

DisjunkteRegeln als

Klassifikator

Regelgenerierungsverfahren, auch als regelbasierte Lernverfahren bezeich-net, lernen eine Menge von disjunktiven Regeln als Klassifikator.Die Regeln aus dieser Menge mussen hierfur die Trainingsdaten vollstandig ab-decken. Im ungunstigsten Fall muss also fur jeden Fall eine eigene Regel gelerntwerden.

Ripper-Algorithmus

Der Ripper-Algorithmus ist einer der bekanntesten Algorithmen zur Regel-generierung []. Er erzeugt Regeln der Form

(FAC53 − 1 >= 2.13625) and (FAC1 − 1 <= −0.33792) => topic = ink

Solche Regeln sind relativ einfach zu verstehen. Die Konstruktion der Re-geln verlauft ahnlich wie die Konstruktion von Entscheidungsbaumen. Im Un-terschied zu diesen wird jedoch nicht ein Kriterium gesucht, das alle Objektemoglichst gut ihrer Klasse zuordnet, sondern es werden beim Erzeugen der Re-geln nur Instanzen einer Klasse betrachtet.Die so erstellten Regeln sind im allgemeinen genauer als Entscheidungsbaumeder gleichen Komplexitat. Das Ergebnis des Algorithmus ist eine Liste vonRegeln, mittels derer die Objekte klassifiziert werden konnen.

27

Page 28: Methoden zur Klassifikation - OptiVoptiv.de/Methoden/KlassMet/KlassMet.pdf · Naive Bayes-Klassifikatoren vereinfachen das Problem, indem sie die Gultigkeit der Unabh¨angigkeitsannahme

6.4 Logistische Regression

Die logistische Regression ist ein statistisches Verfahren zur Klassifikation kate-gorialer abhangiger Merkmale [].Im Gegensatz zur Regressionsanalyse erfordert sie weit weniger Voraussetzungenzu ihrer Anwendung (keine Normalverteilung der Residuen, keine Homogenitatder Varianz).

Die logistische Regression geht ahnlich wie die Diskriminanzanalyse vor. Sieist jedoch flexibler und deshalb vielfaltiger einsetzbar.

28

Page 29: Methoden zur Klassifikation - OptiVoptiv.de/Methoden/KlassMet/KlassMet.pdf · Naive Bayes-Klassifikatoren vereinfachen das Problem, indem sie die Gultigkeit der Unabh¨angigkeitsannahme

7 Literatur und Methodenverzeichnis

7.1 Literatur zur Diskriminanzanalyse

Literaturverzeichnis

[] Bortz, J.: Statistik fur Sozialwissenschaftler, Berlin 1989, S. 736ff.

[] Backhaus, K., B. Erichson, W. Plinke u. R. Weiber: Multivariate Analy-semethoden. Eine anwendungsorientierte Einfuhrung, 9. Auflage, Berlin2000, S. 145ff.

[] Cooley, W.F./Lohnes, P.R. : Mulivariate Data Analysis, New York 1971.

[] Lachenbruch, P.A.: Discriminant Analysis, 2nd edition, London 1975.

[] Morrison, D.F.: Multivariate Statistical Methods, 3rd edition, New York1990.

7.1 Literatur zu Naiven-Bayes-Klassifikatoren und Bayes-Netzwerken

Literaturverzeichnis

Einfuhrende Literatur zu Naiven Bayes-KlassifikatorenMitchell,T.: Machine Learning. MacGraw-Hill 1997, Kap. 6, pp 154-184.

Weiterfuhrende Literatur zu Naiven Bayes-Klassifikatoren

Domingo, P./Pazzani, M.: On the optimality of the simple Bayesi-an classifier under zero-one loss, in: Machine Learning, Vol. 29, 1997, pp.103-130. Katirai, H.: Filtering Junk E-Mail-A Performance Comparisonbetween Genetic Programming & Naive Bayes, University of Waterloo1999, auf URL: web.mit.edu/ hooman/www/papers/katirai99filtering.pdf(10.09.2005) Sahami, M./Dumais, S./Heckermann, D./Horvitz, E.: ABayesian approach to filtering junk e-mail, in: AAAI-98 Workshop onLearning for Text Categorization, 1998. Sahami, M.: Learning limiteddependence Bayesian classifiers, in: KDD-96: Proceedings of the SecondInternational Conference on Knowledge Discovery and Data Mining,AAAI Press, 1996, pp. 335-338. Upal, M.A./Neufeld, E.M.: Comparison ofBayesian and Neural Net Unsupervised Classifiers, in: Proceedings of theInformation, Statistics and Induction in Science, World Scientific, 1996,pp. 342-353, auf URL: http://citeseer.ist.psu.edu/upal96comparison.html(10.09.2005)

29

Page 30: Methoden zur Klassifikation - OptiVoptiv.de/Methoden/KlassMet/KlassMet.pdf · Naive Bayes-Klassifikatoren vereinfachen das Problem, indem sie die Gultigkeit der Unabh¨angigkeitsannahme

Literaturverzeichnis

Einfuhrende Literatur zu Bayes-Netzwerken

Han, J./Kamber, M.: Data Mining: Concepts and Techniques. Mor-gan Kaufmann, 2000, p. 300. Jensen, F.: An Introduction to BayesianNetworks. Springer, Heidelberg New York 1996.

Weiterfuhrende Literatur zu Bayes-Netzwerken

Friedman, N./Geiger, D./Goldszmidt, M: Bayesian net-work classifiers, in: Machine Learning, 1997, auf URL:http://citeseer.ist.psu.edu/article/friedman97bayesian.html (9.9.2005)Geman, S./Geman, D.: Stochastic relaxation, Gibbs distributionsand the Bayesian restoration of images, in: IEEE Transactions onPattern Analysis and Machine Intelligence, Vol. 6, 1984, pp. 721-742. Heckerman, D.: Bayesian networks for data mining, auf URL:http://research.microsoft.com/research/pubs/view.aspx?msr tr id=MSR-TR-95-06 (12.09.2005) Robers, U.: Modellbasierte Fehlerdiagnose kom-plexer Systeme mit Hilfe Bayesscher Netze, Jahresbericht 1998 desZentrums fur Beratungssysteme in der Technik, Dortmund e.V., aufURL: http://www.zedo.fuedo.de/zedo/jb98/robers.htm (15.9.2005)

7.1 Literatur zu Entscheidungsbaumen

Literaturverzeichnis

Einfuhrende Literatur

Ester M., Sander J. : Knowledge Discovery in Databases: Techni-ken und Anwendungen, Springer, Heidelberg New York 2000. Han,J./Kamber, M.: Data Mining: Concepts and Techniques, Morgan Kauf-mann, San Mateo 2000. Quinlan, J.R.: Induction of Decision Trees, in:Machine Learning, Vol. 1, 1986, pp. 81-106. Quinlan, J.R.: Generatingproduction rules from decision trees, International Joint Conferenceon Artifical Intelligence, 1987, pp. 304-307 Mitchell T. M. : MachineLearning, McGraw-Hill, 1997.

Literaturverzeichnis

Weiterfuhrende Literatur

Breimann, L./Friedman, J.H./Olshen, R.A./Stone, C.J.: Classifica-tion and Regression Trees. Wadsworth International Group 1984.

30

Page 31: Methoden zur Klassifikation - OptiVoptiv.de/Methoden/KlassMet/KlassMet.pdf · Naive Bayes-Klassifikatoren vereinfachen das Problem, indem sie die Gultigkeit der Unabh¨angigkeitsannahme

Quinlan, J.R.: Simplifying Decision Trees, in: International Man-MachineStudies, 1987, pp. 221-234. Quinlan, J.R.: C4.5: Programs for MachineLearning, Morgan Kaufmann, San Mateo, California 1993. Mehta,M./Agrawal, R./Rissanen, J.: SLIQ: A Fast Scalable Classifier for DataMining, IBM Almaden Research Center, San Jose 1996, auf URL:www.almaden.ibm.com/u/ragrawal/papers/edbt96 sliq.ps Sonquist, J.A.and Morgan, J.N.: The Detection of Interaction Effects. Survey ResearchCenter, Institute for Social Research, University of Michigan 1964.Wallace, C./Patrick, J.: Coding decision trees, in: Macine Learning, Vol.11, 1993, pp. 7-22. Witten I. H., Frank E . : Data Mining: PracticalMachine Learning Tools and Techniques with Java Implementations,Morgan Kaufmann Publishers, 2000

7.1 Literatur zu weiteren Verfahren

Literaturverzeichnis

[][][][][][][][][][][][] [1][2][3][4][5][1][2][3][4][5][6][7][] Backhaus, K., B. Erichson, W. Plinke u. R. Weiber (2000): Multivaria-te Analysemethoden. Eine anwendungsorientierte Einfuhrung, 9. Auflage,Berlin.

[] Burgess, C.: A Tutorial on Support Vector Machines for Pattern Recogni-tion, in: Data Mining and Knowledge Discovery, Vol. 2, 1989, pp.121-167.

[] Cohen, William W.: Fast Effective Rule Induction, from: Machine Lear-ning: Proceedings of the Twelfth International Conference, 1995.

[] Joachims, T.: A Statistical Learning Model of Text Classification for Sup-port Vector Machines. In: Proceedings of SIGIR’01, New Orleans 2001.

[] Mitchell, T.: Machine Learning. McGraw-Hill, 1997.

7.1 Methodenverzeichnis

Verzeichnis der erlauterten Methoden

Bayes-NetzwerkeC4.5-AlgorithmusCART-AlgorithmusCHAID-AlgorithmusDiskriminanzanalyseGID3-AlgorithmusID3-AlgorithmusLogistische RegressionNaive-Bayes-Klassifikation

31

Page 32: Methoden zur Klassifikation - OptiVoptiv.de/Methoden/KlassMet/KlassMet.pdf · Naive Bayes-Klassifikatoren vereinfachen das Problem, indem sie die Gultigkeit der Unabh¨angigkeitsannahme

Prune-VerfahrenRegelgenerierungRipper-AlgorithmusSLIQ-AlgorithmusSupport Vector Machines (SVM)Window-Technik

32