5
Fakultät Informatik Lehrstuhl für Künstliche Intelligenz Data Mining mit RapidMiner Intelligenz Motivation CRISP: DM-Prozess besteht aus unterschiedlichen Teilaufgaben Datenvorverarbeitung spielt wichtige Rolle im DM-Prozess Systematische Evaluationen erfordern flexible und strukturierte Experimentierumgebung Ggf. periodische Wiederholungen von Analysen notwendig Intelligenz Anforderungen Einfache wiederverwendbare Spezifikation von DM-Prozessen Austauschbarkeit von Lern-Verfahren, insbesondere: Durchführen von Verfahrensvergleichen Kombination/Verschachtelung von Verfahren Verfahren zur Merkmalsauswahl und - generierung Intelligenz Anpassung des Entwurfes Durchführung Data Mining Experiment Data Mining Aufgaben Meta- Daten Daten Entwurf Konzept Ergebnis Data-Mining Experiment

Data Mining mit RapidMiner - TU Dortmund -- Computer ...€¦ · Fakultät Informatik Lehrstuhl für Künstliche Intelligenz Data Mining mit RapidMiner 1 Fakultät Informatik Lehrstuhl

  • Upload
    buibao

  • View
    226

  • Download
    2

Embed Size (px)

Citation preview

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

Data Miningmit RapidMiner

1

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

Motivation• CRISP: DM-Prozess besteht aus

unterschiedlichen Teilaufgaben

• Datenvorverarbeitung spielt wichtige Rolle im DM-Prozess

• Systematische Evaluationen erfordern flexible und strukturierte Experimentierumgebung

• Ggf. periodische Wiederholungen von Analysen notwendig

2

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

Anforderungen• Einfache wiederverwendbare

Spezifikation von DM-Prozessen

• Austauschbarkeit von Lern-Verfahren, insbesondere:

• Durchführen von Verfahrensvergleichen

• Kombination/Verschachtelung von Verfahren

• Verfahren zur Merkmalsauswahl und -generierung

3

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

Anpassung des Entwurfes

Durchführung

Data Mining Experiment

Data Mining

AufgabenMeta-

Daten

Daten

Entwurf

Konzept

Ergebnis

Data-Mining Experiment

4

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

Data Mining Aufgaben• Klassifikation/Regression

• Transduktion

• Merkmalsextraktion

• Merkmalsgenerierung

• Merkmalsselektion

• Concept Drift

• Zeitreihenanalyse

• Text-Mining

5

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

RapidMiner• Modellierung von DM-Prozessen als

Abfolge von Operatoren (Ketten)

• Verschachtelung von Operatoren

• Transparente/effiziente Datenhaltung

• Leichte Erweiterbarkeit

• GUI-Modus/Batch-Modus

• Einbindung externer Programme (z.B. Weka, SVM-Imlementierungen)

6

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

Integrierte Operatoren• Operatoren zur Ein-/Ausgabe

• Datenvorverarbeitung

• Zahlreiche Lernverfahren(Weka-Lerner, Clustering, ...)

• Performanzbewertung von Lernverfahren

• Verwaltung/Ausgabe von Lernergebnissen

7

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

Information• Open-Source (GPL-Lizenz)

• Erfolgreiche Anwendung auf unterschiedliche Lernaufgaben

• Weltweite Verbreitung (Anwender und Forscher in über 30 Ländern)

• Dokumentation/Download/uvm unter http://rapid-i.com

8

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

DM-Experiment• Laden der Daten

• Datenbank, Datei

• Transformieren und Lernen

• Fehlende Werte? Normierung?Klassifikation? Clustering?

• Optimierung:

• Verfahrensauswahl, Parameter

• Ausgabe der Ergebnisse

• Performanz, Regeln, Cluster

Laden der Daten

Evaluieren

Darstellung der Ergebnisse

Transformierenund Lernen

9

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

• Operator: Typ, Name, Eingabe, Ausgabe, Parameter

• OperatorChain: Verkettung von Operatoren

Operator/OperatorChain

IOObjects IOObjects

Parameter

Operator

Parameter

Operator

IOObjectsIOObjects

Parameter

Operator

10

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

Beispiel: Operatorbaum

11

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

Logfenster

ParameterAufbau/Ablauf

12

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

IOObject• Objekte, die zwischen Operatoren ausgetauscht werden

• Beispiele:

• ExampleSet (eine Menge von Daten)

• Model (gelerntes Model)

• PerformanceVector (Menge von Leistungsmaßen)

• Ähnlichkeit

• Merkmalsgewichte

• ...

13

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

ExampleSet (IOObject)• Beschreibung der Attribute (Metadaten):

• Name

• Skala: nominal, integer, real, ...

• Einheit

• Typ: Einzelwert, Zeitreihe, ...

• Position (Spalte) in der Datendatei

• Sicht auf Daten

14

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

ExampleSet (IOObject)• Spezielle Attribute:

• Label

• Predicted label

• Id

• Cluster

• Beliebig erweiterbar...

15

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

ExampleSet (IOObject)

16

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

• Input: -• Output: ExampleSet• Parameter: Attributdatei, Datendatei, Sampling, ...

ExampleSource (Operator)

17

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

IOObjects/Resultate

18