64

Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Data Mining in der Wirtschaft und durchGeheimdienste

Methoden und Anwendungen

Balázs Bárány

Rapid-I GmbH

Club IT, 11. 9. 2013

Page 2: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Inhalt

Einführung und ÜberblickData Mining im Kontext

Methoden und TechnikEinteilung der VerfahrenBeispielhafte LernalgorithmenErweiterte AnwendungenUmsetzung in die PraxisWerkzeuge

Anwendungen in der Wirtschaft (und durch die Geheimdienste?)

Page 3: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Einführung und Überblick

Data Mining im Kontext

Wichtige Begri�e

Data Science

Predictive Analytics

Statistik

Data MiningMaschinelles Lernen

Data Warehousing

Business Intelligence Big Data

Page 4: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Einführung und Überblick

Data Mining im Kontext

Ethische Fragen

I Werkzeug-Aspekt

I Datenschutz

I Aussagekraft; Umgang mit falschen Vorhersagen

Page 5: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Einführung und Überblick

Data Mining im Kontext

Ethische Fragen

I Werkzeug-Aspekt

I Datenschutz

I Aussagekraft; Umgang mit falschen Vorhersagen

Page 6: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Einführung und Überblick

Data Mining im Kontext

Ethische Fragen

I Werkzeug-Aspekt

I Datenschutz

I Aussagekraft; Umgang mit falschen Vorhersagen

Page 7: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Methoden und Technik

Einteilung der Verfahren

Methoden und Technik

Methoden: Einteilung

Page 8: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Methoden und Technik

Einteilung der Verfahren

Einteilung der Verfahren

I informierte Verfahren (�supervised�): Zielvariable bekannt

I Aufgaben:

I Klassi�kationI RegressionI Assoziation

I uninformierte Verfahren (�unsupervised�): Zielvariable nichtvorhanden oder nicht bekannt

I ClusteringI Ausreiÿererkennung

Page 9: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Methoden und Technik

Einteilung der Verfahren

Einteilung der Verfahren

I informierte Verfahren (�supervised�): Zielvariable bekannt

I Aufgaben:

I Klassi�kationI RegressionI Assoziation

I uninformierte Verfahren (�unsupervised�): Zielvariable nichtvorhanden oder nicht bekannt

I ClusteringI Ausreiÿererkennung

Page 10: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Methoden und Technik

Einteilung der Verfahren

Einteilung der Verfahren

I informierte Verfahren (�supervised�): Zielvariable bekannt

I Aufgaben:

I Klassi�kationI RegressionI Assoziation

I uninformierte Verfahren (�unsupervised�): Zielvariable nichtvorhanden oder nicht bekannt

I ClusteringI Ausreiÿererkennung

Page 11: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Methoden und Technik

Einteilung der Verfahren

Methoden und Technik

Lernalgorithmen

Page 12: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Methoden und Technik

Beispielhafte Lernalgorithmen

(Lineare) Regression

I Erstellt Gleichungen der Form y = ax+b

Quelle: R-Projekt, Datensatz �cars�

Page 13: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Methoden und Technik

Beispielhafte Lernalgorithmen

Regression: Erweiterungen

I mit mehreren Variablen

I nichtlineare Funktionen

I andere Verteilungen

Page 14: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Methoden und Technik

Beispielhafte Lernalgorithmen

Entscheidungsbäume

Entscheidungsbaum (Quelle: RapidMiner)

Page 15: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Methoden und Technik

Beispielhafte Lernalgorithmen

Entscheidungsbäume: Algorithmus

I Attribut und Wert suchen, der die Daten am besten aufteilt

I Rekursiv auf die Teilmengen anwenden, ...I ... bis irgendeine Abbruchbedingung erfüllt ist: zu kleineGruppen, Baum zu �tief� usw.

I Mögliche Kriterien für Aufteilung: Informationsgewinn (Gain);Gain ratio; Gini-Koe�zient

I Viele Varianten und Erweiterungen

Page 16: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Methoden und Technik

Beispielhafte Lernalgorithmen

Entscheidungsbäume: Algorithmus

I Attribut und Wert suchen, der die Daten am besten aufteilt

I Rekursiv auf die Teilmengen anwenden, ...I ... bis irgendeine Abbruchbedingung erfüllt ist: zu kleineGruppen, Baum zu �tief� usw.

I Mögliche Kriterien für Aufteilung: Informationsgewinn (Gain);Gain ratio; Gini-Koe�zient

I Viele Varianten und Erweiterungen

Page 17: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Methoden und Technik

Beispielhafte Lernalgorithmen

Entscheidungsbäume: Algorithmus

I Attribut und Wert suchen, der die Daten am besten aufteilt

I Rekursiv auf die Teilmengen anwenden, ...I ... bis irgendeine Abbruchbedingung erfüllt ist: zu kleineGruppen, Baum zu �tief� usw.

I Mögliche Kriterien für Aufteilung: Informationsgewinn (Gain);Gain ratio; Gini-Koe�zient

I Viele Varianten und Erweiterungen

Page 18: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Methoden und Technik

Beispielhafte Lernalgorithmen

Support Vector Machine

I Versucht, die gröÿtmögliche Distanz zwischen Kategorien zu�nden

I Transformation der Attribute, um �lineare Trennung� zuerzielen

Quelle: RapidMiner-Schulungsunterlagen

Page 19: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Methoden und Technik

Beispielhafte Lernalgorithmen

Support Vector Machine

I Nur einige Punkte (�support vector�) de�nieren dieKlassengrenzen

Quelle: RapidMiner-Schulungsunterlagen

Page 20: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Methoden und Technik

Beispielhafte Lernalgorithmen

Weitere Algorithmen

I Naive Bayes

I �bedingte Wahrscheinlichkeiten�

I Neuronale Netze

I simples Modell menschlicher Nervenzellen

I Nearest Neighbors

I Suche nach ähnlichen Attributwerten

I Ensemble-Algorithmen u. v. m.

Page 21: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Methoden und Technik

Beispielhafte Lernalgorithmen

Weitere Algorithmen

I Naive Bayes

I �bedingte Wahrscheinlichkeiten�

I Neuronale Netze

I simples Modell menschlicher Nervenzellen

I Nearest Neighbors

I Suche nach ähnlichen Attributwerten

I Ensemble-Algorithmen u. v. m.

Page 22: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Methoden und Technik

Beispielhafte Lernalgorithmen

Weitere Algorithmen

I Naive Bayes

I �bedingte Wahrscheinlichkeiten�

I Neuronale Netze

I simples Modell menschlicher Nervenzellen

I Nearest Neighbors

I Suche nach ähnlichen Attributwerten

I Ensemble-Algorithmen u. v. m.

Page 23: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Methoden und Technik

Beispielhafte Lernalgorithmen

Weitere Algorithmen

I Naive Bayes

I �bedingte Wahrscheinlichkeiten�

I Neuronale Netze

I simples Modell menschlicher Nervenzellen

I Nearest Neighbors

I Suche nach ähnlichen Attributwerten

I Ensemble-Algorithmen u. v. m.

Page 24: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Methoden und Technik

Beispielhafte Lernalgorithmen

Methoden und Technik

Erweiterungen für unstrukturierte Daten

Page 25: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Methoden und Technik

Erweiterte Anwendungen

Text mining

I Tabellenstruktur aus unstrukturierten Texten/Dokumenten

Quelle: RapidMiner, Händlerbewertungen auf geizhals.at

Page 26: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Methoden und Technik

Erweiterte Anwendungen

Vorgehensweise bei Text Mining

I Berechnung: Term-Frequenz, TF/IDF

Beispiel

TF/IDF = term frequencydocument frequency

Je häu�ger ein Term in einem Dokument vorkommt, aber jeseltener in anderen Dokumenten, umso relevanter ist er für diesesDokument.

Page 27: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Methoden und Technik

Erweiterte Anwendungen

Image mining

I Segmentierung und Berechnung von Kennzahlen

I Farbverteilung, Komplexität, Helligkeit, ...

I Erkennung von Formen und Figuren (Anzahl, Position)

I Ähnlichkeit ganzer Bilder oder Bildelemente (Personen, ...)

I Erweiterung: Videoanalyse

Page 28: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Methoden und Technik

Erweiterte Anwendungen

Image mining

I Segmentierung und Berechnung von Kennzahlen

I Farbverteilung, Komplexität, Helligkeit, ...

I Erkennung von Formen und Figuren (Anzahl, Position)

I Ähnlichkeit ganzer Bilder oder Bildelemente (Personen, ...)

I Erweiterung: Videoanalyse

Page 29: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Methoden und Technik

Erweiterte Anwendungen

Image mining

I Segmentierung und Berechnung von Kennzahlen

I Farbverteilung, Komplexität, Helligkeit, ...

I Erkennung von Formen und Figuren (Anzahl, Position)

I Ähnlichkeit ganzer Bilder oder Bildelemente (Personen, ...)

I Erweiterung: Videoanalyse

Page 30: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Methoden und Technik

Erweiterte Anwendungen

Image mining

I Segmentierung und Berechnung von Kennzahlen

I Farbverteilung, Komplexität, Helligkeit, ...

I Erkennung von Formen und Figuren (Anzahl, Position)

I Ähnlichkeit ganzer Bilder oder Bildelemente (Personen, ...)

I Erweiterung: Videoanalyse

Page 31: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Methoden und Technik

Erweiterte Anwendungen

Netzwerkanalyse

I Netzwerkstruktur: Graph im mathematischen Sinne

I Besteht aus Knoten und Kanten

I Kennzahlen: Zentralität, Intensität und Richtung derBeziehungen

I Entfernung vom �Zentrum� oder de�nierten Knoten

Page 32: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Methoden und Technik

Erweiterte Anwendungen

Netzwerkanalyse

I Netzwerkstruktur: Graph im mathematischen Sinne

I Besteht aus Knoten und Kanten

I Kennzahlen: Zentralität, Intensität und Richtung derBeziehungen

I Entfernung vom �Zentrum� oder de�nierten Knoten

Page 33: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Methoden und Technik

Erweiterte Anwendungen

Methoden und Technik

Umsetzung in die Praxis

Page 34: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Methoden und Technik

Umsetzung in die Praxis

Algorithmen sind nicht alles

I Vorverarbeitung fast immer notwendig

I Behandlung fehlender Werte

I Attributkonstruktion

I Parameteroptimierung

Page 35: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Methoden und Technik

Umsetzung in die Praxis

Algorithmen sind nicht alles

I Vorverarbeitung fast immer notwendig

I Behandlung fehlender Werte

I Attributkonstruktion

I Parameteroptimierung

Page 36: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Methoden und Technik

Umsetzung in die Praxis

Algorithmen sind nicht alles

I Vorverarbeitung fast immer notwendig

I Behandlung fehlender Werte

I Attributkonstruktion

I Parameteroptimierung

Page 37: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Methoden und Technik

Umsetzung in die Praxis

Algorithmen sind nicht alles

I Vorverarbeitung fast immer notwendig

I Behandlung fehlender Werte

I Attributkonstruktion

I Parameteroptimierung

Page 38: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Methoden und Technik

Umsetzung in die Praxis

Umsetzung

I Lernalgorithmus nur kleiner Teil der Gesamtlösung!

Quelle: RapidMiner; MythMiner-Projekt des Vortragenden

Page 39: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Methoden und Technik

Umsetzung in die Praxis

Methoden und Technik

Data-Mining-Werkzeuge

Page 40: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Methoden und Technik

Werkzeuge

Werkzeuge

I Komplettlösungen für Data Mining und Analytik, GUI

I Open source: RapidMiner, KNIME, Weka, Orange usw.

I Kommerziell: SAS, IBM SPSS, Statistica usw.

I Statistische Programmiersprache R (open source)

I GUI für Data Mining: Rattle

Page 41: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Methoden und Technik

Werkzeuge

Werkzeuge

I Komplettlösungen für Data Mining und Analytik, GUI

I Open source: RapidMiner, KNIME, Weka, Orange usw.

I Kommerziell: SAS, IBM SPSS, Statistica usw.

I Statistische Programmiersprache R (open source)

I GUI für Data Mining: Rattle

Page 42: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Methoden und Technik

Werkzeuge

Werkzeuge

I Komplettlösungen für Data Mining und Analytik, GUI

I Open source: RapidMiner, KNIME, Weka, Orange usw.

I Kommerziell: SAS, IBM SPSS, Statistica usw.

I Statistische Programmiersprache R (open source)

I GUI für Data Mining: Rattle

Page 43: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Methoden und Technik

Werkzeuge

Anwendungen

Anwendungen in Wirtschaft, Wissenschaft und durchdie Geheimdienste

Page 44: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Anwendungen in der Wirtschaft (und durch die Geheimdienste?)

Kündigerprävention

I In der Wirtschaft: Daten wie Vertragsdauer,Nutzungsintensität, Konkurrenzsituation usw.

I Daraus Erkennung kündigungswilliger Kunden, Reaktion

I Durch Geheimdienste:

I Änderungen in der Lebenssituation, KommunikationsverhaltenI Vorhersage: Gefahr der �Radikalisierung�I oder: bekannte �Zelle� wird jetzt aktivI oder: welche Mitglieder sind unglücklich und können�umgedreht� werden

Page 45: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Anwendungen in der Wirtschaft (und durch die Geheimdienste?)

Kündigerprävention

I In der Wirtschaft: Daten wie Vertragsdauer,Nutzungsintensität, Konkurrenzsituation usw.

I Daraus Erkennung kündigungswilliger Kunden, Reaktion

I Durch Geheimdienste:

I Änderungen in der Lebenssituation, KommunikationsverhaltenI Vorhersage: Gefahr der �Radikalisierung�I oder: bekannte �Zelle� wird jetzt aktivI oder: welche Mitglieder sind unglücklich und können�umgedreht� werden

Page 46: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Anwendungen in der Wirtschaft (und durch die Geheimdienste?)

Betrugserkennung

I In der Wirtschaft (z. B. Kreditkarten�rma): Daten wieKaufhäu�gkeit, Ort der Transaktion, Länge derGeschäftsbeziehung, Art der bezahltenWaren/Dienstleistungen usw.

I Daraus Erkennung �verdächtiger� Transaktionen und eventuellZurückweisung

I Bei falscher Anwendung zu hohe Rate �Falscher Positive�

I Durch Geheimdienste:I Au�ällige, �verdächtige� Kommunikation oder Lebensführungoder Änderungen dieser Aspekte

I Au�ällige, unübliche Geld�üsse (SWIFT-Datentransfer in dieUSA!)

I Identi�ziert Verdächtige für genauere Überprüfung oder fürschwarze Listen (�no-�y list�)

Page 47: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Anwendungen in der Wirtschaft (und durch die Geheimdienste?)

Betrugserkennung

I In der Wirtschaft (z. B. Kreditkarten�rma): Daten wieKaufhäu�gkeit, Ort der Transaktion, Länge derGeschäftsbeziehung, Art der bezahltenWaren/Dienstleistungen usw.

I Daraus Erkennung �verdächtiger� Transaktionen und eventuellZurückweisung

I Bei falscher Anwendung zu hohe Rate �Falscher Positive�

I Durch Geheimdienste:I Au�ällige, �verdächtige� Kommunikation oder Lebensführungoder Änderungen dieser Aspekte

I Au�ällige, unübliche Geld�üsse (SWIFT-Datentransfer in dieUSA!)

I Identi�ziert Verdächtige für genauere Überprüfung oder fürschwarze Listen (�no-�y list�)

Page 48: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Anwendungen in der Wirtschaft (und durch die Geheimdienste?)

Betrugserkennung

I In der Wirtschaft (z. B. Kreditkarten�rma): Daten wieKaufhäu�gkeit, Ort der Transaktion, Länge derGeschäftsbeziehung, Art der bezahltenWaren/Dienstleistungen usw.

I Daraus Erkennung �verdächtiger� Transaktionen und eventuellZurückweisung

I Bei falscher Anwendung zu hohe Rate �Falscher Positive�

I Durch Geheimdienste:I Au�ällige, �verdächtige� Kommunikation oder Lebensführungoder Änderungen dieser Aspekte

I Au�ällige, unübliche Geld�üsse (SWIFT-Datentransfer in dieUSA!)

I Identi�ziert Verdächtige für genauere Überprüfung oder fürschwarze Listen (�no-�y list�)

Page 49: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Anwendungen in der Wirtschaft (und durch die Geheimdienste?)

Regressionsmethoden

I In der Wirtschaft:

I Absatzplanung, Bedarfsplanung

I Optimierung von Abläufen und technischen Prozessen

I Maschinenwartung, Fertigungsprozesse, Unternehmensprozesse

I Durch Geheimdienste:

I Analyse wirtschaftlicher Kennzahlen, daraus Vorhersagen überHandlungen von Staaten oder Gruppen

I Bedarfsplanung (z. B. benötigte Rechenzentrumskapazität)

Page 50: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Anwendungen in der Wirtschaft (und durch die Geheimdienste?)

Regressionsmethoden

I In der Wirtschaft:

I Absatzplanung, Bedarfsplanung

I Optimierung von Abläufen und technischen Prozessen

I Maschinenwartung, Fertigungsprozesse, Unternehmensprozesse

I Durch Geheimdienste:

I Analyse wirtschaftlicher Kennzahlen, daraus Vorhersagen überHandlungen von Staaten oder Gruppen

I Bedarfsplanung (z. B. benötigte Rechenzentrumskapazität)

Page 51: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Anwendungen in der Wirtschaft (und durch die Geheimdienste?)

Regressionsmethoden

I In der Wirtschaft:

I Absatzplanung, Bedarfsplanung

I Optimierung von Abläufen und technischen Prozessen

I Maschinenwartung, Fertigungsprozesse, Unternehmensprozesse

I Durch Geheimdienste:

I Analyse wirtschaftlicher Kennzahlen, daraus Vorhersagen überHandlungen von Staaten oder Gruppen

I Bedarfsplanung (z. B. benötigte Rechenzentrumskapazität)

Page 52: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Anwendungen in der Wirtschaft (und durch die Geheimdienste?)

Text mining, Textanalyse

I In der Wirtschaft:

I Spam�lter, Vorsortierung des MaileingangsI Stimmung, Einstellung zur Marke oder Firma in Online-Bewertungen, Foren- und Facebook-Postings, Tweets

I Dokumentenkategorisierung

I Durch Geheimdienste:

I Erkennung von diskutierten Themen (Anschlagspläne, radikaleEinstellungen, ...)

I Fall Andrej Holm

I Erkennung ungewöhnlicher Kommunikation (Thema paÿt nichtzum sozialen Umfeld: kodierte Sprache?)

Page 53: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Anwendungen in der Wirtschaft (und durch die Geheimdienste?)

Text mining, Textanalyse

I In der Wirtschaft:

I Spam�lter, Vorsortierung des MaileingangsI Stimmung, Einstellung zur Marke oder Firma in Online-Bewertungen, Foren- und Facebook-Postings, Tweets

I Dokumentenkategorisierung

I Durch Geheimdienste:

I Erkennung von diskutierten Themen (Anschlagspläne, radikaleEinstellungen, ...)

I Fall Andrej Holm

I Erkennung ungewöhnlicher Kommunikation (Thema paÿt nichtzum sozialen Umfeld: kodierte Sprache?)

Page 54: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Anwendungen in der Wirtschaft (und durch die Geheimdienste?)

Text mining, Textanalyse

I In der Wirtschaft:

I Spam�lter, Vorsortierung des MaileingangsI Stimmung, Einstellung zur Marke oder Firma in Online-Bewertungen, Foren- und Facebook-Postings, Tweets

I Dokumentenkategorisierung

I Durch Geheimdienste:

I Erkennung von diskutierten Themen (Anschlagspläne, radikaleEinstellungen, ...)

I Fall Andrej Holm

I Erkennung ungewöhnlicher Kommunikation (Thema paÿt nichtzum sozialen Umfeld: kodierte Sprache?)

Page 55: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Anwendungen in der Wirtschaft (und durch die Geheimdienste?)

Image Mining

I In der Wirtschaft:

I (Facebook, Google): Erkennung von Menschen auf BildernI Landwirtschaft, Bergbau: Verarbeitung von Satellitenbildern

I Durch Geheimdienste:

I Auswertung von Bildern aus Überwachungskameras, -satellitenI Erkennung von Verdächtigen (z. B. am Flughafen)

Page 56: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Anwendungen in der Wirtschaft (und durch die Geheimdienste?)

Image Mining

I In der Wirtschaft:

I (Facebook, Google): Erkennung von Menschen auf BildernI Landwirtschaft, Bergbau: Verarbeitung von Satellitenbildern

I Durch Geheimdienste:

I Auswertung von Bildern aus Überwachungskameras, -satellitenI Erkennung von Verdächtigen (z. B. am Flughafen)

Page 57: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Anwendungen in der Wirtschaft (und durch die Geheimdienste?)

Netzwerkanalyse

I In der Wirtschaft:

I KündigerpräventionI Empfehlung neuer Waren oder Dienstleistungen

I Durch Geheimdienste:

I Identi�zierung zentraler oder �interessanter� FigurenI Plötzliche Änderungen im KommunikationsverhaltenI Ausweitung der Suche auf Kommunikationsumfeld desVerdächtigen

Page 58: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Anwendungen in der Wirtschaft (und durch die Geheimdienste?)

Netzwerkanalyse

I In der Wirtschaft:

I KündigerpräventionI Empfehlung neuer Waren oder Dienstleistungen

I Durch Geheimdienste:

I Identi�zierung zentraler oder �interessanter� FigurenI Plötzliche Änderungen im KommunikationsverhaltenI Ausweitung der Suche auf Kommunikationsumfeld desVerdächtigen

Page 59: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Zusammenfassung und Ausblick

Ausblick, abschlieÿende Gedanken

I Data Mining wird noch zunehmen

I Sinnvoll, sich damit zu beschäftigen

I Data Mining nicht per se schlimm

Page 60: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Zusammenfassung und Ausblick

Ausblick, abschlieÿende Gedanken

I Data Mining wird noch zunehmen

I Sinnvoll, sich damit zu beschäftigen

I Data Mining nicht per se schlimm

Page 61: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Zusammenfassung und Ausblick

Ausblick, abschlieÿende Gedanken

I Data Mining wird noch zunehmen

I Sinnvoll, sich damit zu beschäftigen

I Data Mining nicht per se schlimm

Page 62: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Zusammenfassung und Ausblick

Literatur � anwendungsorientiert

Matthew North: Graham Williams:Data Mining for the Masses Data Mining with Rattle and R

Page 63: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Zusammenfassung und Ausblick

Literatur � theoretische Grundlagen

Ian H. Witten, Eibe Frank, Mark A. Hall:Data Mining (3. ed.)

Page 64: Data Mining in der Wirtschaft und durch Geheimdienste · I Open source: RapidMiner, KNIME, Weka, Orange usw. I Kommerziell: SAS, IBM SPSS, Statistica usw. I Statistische Programmiersprache

Data Mining � Club IT, 2013-09-11

Zusammenfassung und Ausblick

Schluÿ

I Fragen?

Balázs Bárány <[email protected]>