Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes

Fakultät für IngenieurwissenschaftenJevgenij JakunschinChristian Mewes

www.hs-wismar.de

Data Mining Cup 2012

Wissensextraktion – Multimedia Engineering

deck using PDA or similar devices

Data Mining Cup 2012 - Wissensextraktion 2

Gliederung1. Software2. Vorverarbeitung3. Analyse4. Algorithmen5. Verfeinerung6. Auswahl

Data Mining Cup 2012 - Wissensextraktion

Software Daten wurden in .csv Format gespeichert

Excel für frühe Analysen und Umwandlung

Knime + Weka + Math plugins für Datamining, Clusterung und die meisten Algorithmen

Matlab für für Regression, Interpolation und Approximationverfahren

Dropbox für Synchronisation

3



Vorverarbeitung Keine fehlenden Werte

Keine Duplikate

Keine fehlerhaften Werte

Rein syntaxisch her Daten komplett korrekt

Allerdings...

5


Vorverarbeitung Allerdings...

Starke Schwankungen, mit „Peaks“

Keine zusätzlichen/abgeleiteten Informationen (wie Wochentag oder Gewinn)

Werte nicht normalisiert und/oder nominalisiert

6


Vorverarbeitung Erstellen von CSV Dateien mit Zusätzlichen

Informationen:-Gewinn,Wochentag, Durschnittlicher Gewinn

(soweit)

Zusätzliche nominalisierten und normalisierten Werte

Durschnittswerte für Diagramme und Statistiken

Strukturieren und Anlegen von Zwischentabellen/Resultaten

Tabellen mit allen Wochenwerten in einer Zeile (pro Produkt)

7



Analysis Erstellen von Tabellen mit Mittelwerten und Summen

Darstellen von Diagrammen

Notieren von Abweichungen, Min/Max-Werten

Überprüfen auf Auffälligkeiten durch gruppierte Tabellen

Starker Exceleinsatz

9



Algorithmen Erstellen von Matlab und Knime Umgebungen

Möglichkeiten schnell Module und Algorithmen zu tauschen

Schnelles Anpassen der Daten...

... für Noralisieren, Partitonieren, Splitten, Clusterung...

...und schließlich Auswertung

11



Regression (linear, logistic, polynom, WEKA versions)

Bayes (Naive, WEKA versions, Multinomial)

Neuronal Network (MLP, PNN, WEKA Voted Perceptron

Kstar, LWL

Decission Trees

Clustering: Kmeans, Xmeans .. (usw.)

13

Algorithmen:


Regression (linear, logistic, polynom, WEKA versions)

Bayes (Naive, WEKA versions, Multinomial)

Neuronal Network (MLP, PNN, WEKA Voted Perceptron

Kstar, LWL

Decission Trees

Clustering: Kmeans, Xmeans .. (usw.)

14

Algorithmen:


Ergebnisse meist sehr ungenau (accuracy <<10%)

aber 2 Algorithmen waren klar im Vorteil:

Kstar – WEKA plugin – ungenau aber erkennt Tendenz

Regressionen (Polynom/Linear) Accuracy Werte bis zu 20%

Beide trotzdem bei weitem nicht genau genug

15

Algorithmen


Verbesserung der Resultate auf viele Weisen

Veränderung interner Variablen

Clusterung nach Wochentagen verbessert Ergebnisse stark

Zusätzliche Einbindung von Neuronalen Netzwerken

Entfernen oder skalieren mancher Daten

16

Verfeinerung


Größte Veränderung durch Sortierung nach Wochentagen

Durch mehr als 7 Cluster allerdings noch bessere Resultate

Clustersuche schlägt sich vor

K-means

Relativ gute Ergebnisse bei Regression und Kstar

17

Verfeinerung


Das experementieren ging dann eine Weile

weiter...

18


Testen - Knime

19

1) Allgemeiner Workflow und WEKA Workflow2) Anwendungen meister Algorithmen3) Entscheidung: Regression(Matlab) und Kstar(Knime)4) Kstar – Anpassung der Variablen (++)5) Kstar+MLP – Hinzufügen eines neuronalen Netzes (--)6) Kstar – Clusterung nach Wochetagen (++)7) Kstar+Kmeans – Automatische Clusterung (++)8) Kstar+Kmeans – Skalierung/Filterung (++)

Beste Kstar Ergebnisse in 600ter Bereich...



Verfeinern - Matlab

21

1. Durchschnitt Tag/Menge pro Produkt 2. DS Wochentag/Menge pro Produkt (~16%) 3. MIN, MAX statt DS (ca.30%) 4. Ausreißer beseitigen (+ca.1.5%) 5. Identische Datensätze (+ca.1.5%) 6. Durchschnittspreis (+ca.0.5%) 7. Approximation Menge (30-40%, aber E:NaN,

M:NaN) (8.Clustering Menge) (9.Clustering Produkt) 10.Zusammenführung aller Ansätze



Auswahl

23

Bis man zwischen Regression und Kstar wählen musste

(Bei Aufteilung 4:2 Wochen)

Kstar: EuklD: 650, ManD: 20000, Accuracy bis 25%Regression: EuklD: 462, ManD: 20948, Accuracy bis 16.4%

Regression kann konfiguriert werden, auf Kosten von der EuklD und ManD höhere Accuracy zu bekommen (30+)Endentscheidung: Regression


Quellen und Zusatzinformationen

http://www.knime.org/

http://www.data-mining-cup.de/

http://www.knime.org/files/weka.jpg

http://www.mathworks.de/products/matlab/

https://www.dropbox.com/home

http://www.kreditrechner-kostenlos.de/wp-content/uploads/2012/03/Microsoft-Excel-2011-Logo.png

24














Danke fürs Zuhören!

25

Documents

Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes