Upload
idola
View
40
Download
0
Embed Size (px)
DESCRIPTION
Data Mining Cup 2012. Wissensextraktion – Multimedia Engineering deck using PDA or similar devices . Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes www.hs-wismar.de. Gliederung. Software Vorverarbeitung Analyse Algorithmen Verfeinerung Auswahl. Software. - PowerPoint PPT Presentation
Citation preview
Fakultät für IngenieurwissenschaftenJevgenij JakunschinChristian Mewes
www.hs-wismar.de
Data Mining Cup 2012
Wissensextraktion – Multimedia Engineering
deck using PDA or similar devices
Data Mining Cup 2012 - Wissensextraktion 2
Gliederung1. Software2. Vorverarbeitung3. Analyse4. Algorithmen5. Verfeinerung6. Auswahl
Data Mining Cup 2012 - Wissensextraktion
Software Daten wurden in .csv Format gespeichert
Excel für frühe Analysen und Umwandlung
Knime + Weka + Math plugins für Datamining, Clusterung und die meisten Algorithmen
Matlab für für Regression, Interpolation und Approximationverfahren
Dropbox für Synchronisation
3
Data Mining Cup 2012 - Wissensextraktion 4
Data Mining Cup 2012 - Wissensextraktion
Vorverarbeitung Keine fehlenden Werte
Keine Duplikate
Keine fehlerhaften Werte
Rein syntaxisch her Daten komplett korrekt
Allerdings...
5
Data Mining Cup 2012 - Wissensextraktion
Vorverarbeitung Allerdings...
Starke Schwankungen, mit „Peaks“
Keine zusätzlichen/abgeleiteten Informationen (wie Wochentag oder Gewinn)
Werte nicht normalisiert und/oder nominalisiert
6
Data Mining Cup 2012 - Wissensextraktion
Vorverarbeitung Erstellen von CSV Dateien mit Zusätzlichen
Informationen:-Gewinn,Wochentag, Durschnittlicher Gewinn
(soweit)
Zusätzliche nominalisierten und normalisierten Werte
Durschnittswerte für Diagramme und Statistiken
Strukturieren und Anlegen von Zwischentabellen/Resultaten
Tabellen mit allen Wochenwerten in einer Zeile (pro Produkt)
7
Data Mining Cup 2012 - Wissensextraktion 8
Data Mining Cup 2012 - Wissensextraktion
Analysis Erstellen von Tabellen mit Mittelwerten und Summen
Darstellen von Diagrammen
Notieren von Abweichungen, Min/Max-Werten
Überprüfen auf Auffälligkeiten durch gruppierte Tabellen
Starker Exceleinsatz
9
Data Mining Cup 2012 - Wissensextraktion 10
Data Mining Cup 2012 - Wissensextraktion
Algorithmen Erstellen von Matlab und Knime Umgebungen
Möglichkeiten schnell Module und Algorithmen zu tauschen
Schnelles Anpassen der Daten...
... für Noralisieren, Partitonieren, Splitten, Clusterung...
...und schließlich Auswertung
11
Data Mining Cup 2012 - Wissensextraktion 12
Data Mining Cup 2012 - Wissensextraktion
Regression (linear, logistic, polynom, WEKA versions)
Bayes (Naive, WEKA versions, Multinomial)
Neuronal Network (MLP, PNN, WEKA Voted Perceptron
Kstar, LWL
Decission Trees
Clustering: Kmeans, Xmeans .. (usw.)
13
Algorithmen:
Data Mining Cup 2012 - Wissensextraktion
Regression (linear, logistic, polynom, WEKA versions)
Bayes (Naive, WEKA versions, Multinomial)
Neuronal Network (MLP, PNN, WEKA Voted Perceptron
Kstar, LWL
Decission Trees
Clustering: Kmeans, Xmeans .. (usw.)
14
Algorithmen:
Data Mining Cup 2012 - Wissensextraktion
Ergebnisse meist sehr ungenau (accuracy <<10%)
aber 2 Algorithmen waren klar im Vorteil:
Kstar – WEKA plugin – ungenau aber erkennt Tendenz
Regressionen (Polynom/Linear) Accuracy Werte bis zu 20%
Beide trotzdem bei weitem nicht genau genug
15
Algorithmen
Data Mining Cup 2012 - Wissensextraktion
Verbesserung der Resultate auf viele Weisen
Veränderung interner Variablen
Clusterung nach Wochentagen verbessert Ergebnisse stark
Zusätzliche Einbindung von Neuronalen Netzwerken
Entfernen oder skalieren mancher Daten
16
Verfeinerung
Data Mining Cup 2012 - Wissensextraktion
Größte Veränderung durch Sortierung nach Wochentagen
Durch mehr als 7 Cluster allerdings noch bessere Resultate
Clustersuche schlägt sich vor
K-means
Relativ gute Ergebnisse bei Regression und Kstar
17
Verfeinerung
Data Mining Cup 2012 - Wissensextraktion
Das experementieren ging dann eine Weile
weiter...
18
Data Mining Cup 2012 - Wissensextraktion
Testen - Knime
19
1) Allgemeiner Workflow und WEKA Workflow2) Anwendungen meister Algorithmen3) Entscheidung: Regression(Matlab) und Kstar(Knime)4) Kstar – Anpassung der Variablen (++)5) Kstar+MLP – Hinzufügen eines neuronalen Netzes (--)6) Kstar – Clusterung nach Wochetagen (++)7) Kstar+Kmeans – Automatische Clusterung (++)8) Kstar+Kmeans – Skalierung/Filterung (++)
Beste Kstar Ergebnisse in 600ter Bereich...
Data Mining Cup 2012 - Wissensextraktion 20
Data Mining Cup 2012 - Wissensextraktion
Verfeinern - Matlab
21
1. Durchschnitt Tag/Menge pro Produkt 2. DS Wochentag/Menge pro Produkt (~16%) 3. MIN, MAX statt DS (ca.30%) 4. Ausreißer beseitigen (+ca.1.5%) 5. Identische Datensätze (+ca.1.5%) 6. Durchschnittspreis (+ca.0.5%) 7. Approximation Menge (30-40%, aber E:NaN,
M:NaN) (8.Clustering Menge) (9.Clustering Produkt) 10.Zusammenführung aller Ansätze
Data Mining Cup 2012 - Wissensextraktion 22
Data Mining Cup 2012 - Wissensextraktion
Auswahl
23
Bis man zwischen Regression und Kstar wählen musste
(Bei Aufteilung 4:2 Wochen)
Kstar: EuklD: 650, ManD: 20000, Accuracy bis 25%Regression: EuklD: 462, ManD: 20948, Accuracy bis 16.4%
Regression kann konfiguriert werden, auf Kosten von der EuklD und ManD höhere Accuracy zu bekommen (30+)Endentscheidung: Regression
Data Mining Cup 2012 - Wissensextraktion
Quellen und Zusatzinformationen
http://www.knime.org/
http://www.data-mining-cup.de/
http://www.knime.org/files/weka.jpg
http://www.mathworks.de/products/matlab/
https://www.dropbox.com/home
http://www.kreditrechner-kostenlos.de/wp-content/uploads/2012/03/Microsoft-Excel-2011-Logo.png
24
Danke fürs Zuhören!
25