Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
Data Mining
Ausarbeitung im Rahmen der Ringvorlesung „Next Media“
Xenia Sataev
Hochschule für Angewandte Wissenschaften Hamburg
Hamburg University of Applied Sciences
Fakultät Technik und Informatik Department Informatik
Faculty of Engineering and Computer Science Department of Computer Science
Inhaltsverzeichnis
1 Einleitung .......................................................................................................... 1
2 Begriffsbestimmung und Anwendungsgebiete .............................................. 2
2.1 KDD-Prozess .............................................................................................. 3
2.2 Datentypen und Anwendungsgebiete ......................................................... 4
3 Methoden des Data Mining ............................................................................. 6
3.1 Clusteranalyse ............................................................................................. 6
3.2 Klassifikation .............................................................................................. 7
3.3 Assoziationsanalyse .................................................................................... 7
3.4 Ausreißeranalyse ......................................................................................... 7
4 Verfahren für spezielle Datentypen ............................................................... 8
4.1 Text Mining ................................................................................................ 9
4.2 Web Mining ................................................................................................ 9
5 Fazit und Ausblick ......................................................................................... 10
Literaturverzeichnis ............................................................................................... 12
1 Einleitung
1
1 Einleitung
Im Zeitalter der Digitalisierung werden immer mehr Daten in den unterschied-
lichsten Lebensbereichen gespeichert. Kaufverhalten in Supermärkten oder Onli-
neshops, Kriminalitätsdaten, Muster im Telefonierverhalten oder die Nutzung
sozialer Medien sind nur einige Beispiele von Daten, die sich tagtäglich vervielfa-
chen. „,We are living in the information age’ is a popular saying; however, we are actually living in the data age. Terabytes or petabytes of data pour into our computer net-works, the World Wide Web (WWW), and various data storage devices every day from business“ (Han et al. 2012: 1).
Das Bewusstsein für das Potenzial der Erkenntnisse, die aus den Daten gewonnen
werden können und damit die Auseinandersetzung mit diesen, ist in den letzten
Jahren stark gestiegen. Neben großen Unternehmen haben mittlerweile auch ver-
mehrt kleine und mittelständische Unternehmen sowohl die Kapazität, die Daten
zu speichern, als auch vereinzelt Experten, die diese zu nützlichem Wissen verar-
beiten können. Auch staatliche Organisationen, Behörden, Polizei oder Kranken-
häuser machen sich Daten von Bürgern, Verbrechen oder Patienten zunutze.
Fayyad definiert Data Mining als „[...] one of the central activities associated with
understanding, navigating, and exploiting the new world of digital data“ (Fayyad
2001: 62). Im folgenden wird der Begriff Data Mining näher betrachtet und im Zusammen-
hang mit dem Knowledge Discovery Process (KDD) vorgestellt. Des Weiteren
werden unterschiedliche Datentypen und Anwendungsgebiete von Data Mining
behandelt. Kapitel 3 gibt einen Überblick über einige der zahlreichen Methoden
des Data Mining. Anschließend werden zwei Verfahren für spezielle Datentypen
betrachtet: Das Text und das Web Mining. Letztlich wird in Kapitel 5 die Arbeit
resümiert und Problemfelder des Data Mining thematisiert.
2 Begriffsbestimmung und Anwendungsgebiete
2
2 Begriffsbestimmung und Anwendungsgebiete
Der Begriff Data Mining wurde in den 90er Jahren geprägt. „Während man im
Bergbau, zum Beispiel beim Coal Mining, die Kohle sucht, und abbaut, will man
im Data Mining nicht die Daten ,abbauen‘, sondern man sucht nach Schätzen, die
in den Daten verborgen sind“ (Cleve/ Lämmel 2014: 2).
Data Mining bezeichnet den Prozess, Korrelationen und Strukturen1 beziehungs-
weise Muster aus einer großen Datenmenge zu entdecken. Shi beschreibt diesen
Prozess als „extracting the unknown but potentially useful information and know-
ledge that is hidden inside mass, noisy, fuzzy, and random practical applied data“
(Shi 2014: 3). Um relevante und bisher unbekannte Informationen aufzudecken,
werden große Datenbestände mittels mathematischer Verfahren analysiert.
Für die Analyse greift die „Crossdisziplin“ Data Mining auf verschiedene Metho-
den aus der Statistik, der Künstlichen Intelligenz (maschinelles Lernen) und der
Informatik (Datenbanksysteme) zurück2 (vgl. Müller/ Lenz 2013: 75). Die analy-
sierten Daten sind elektronisch gespeichert und werden größtenteils automatisch
durch Computer verarbeitet (vgl. Witten et al. 2011: 4). Dennoch ist eine manuel-
le Bearbeitung der Daten sowie die Interpretation der Ergebnisse durch Menschen
notwendig: „Ultimately, defining which structures are ,interesting enough‘ to be
deemed ,knowledge‘ is up to the human user3“ (Fayyad 1998: 116).
In der wissenschaftlichen Auseinandersetzung mit dem Begriff Data Mining exis-
tieren zwei unterschiedliche Perspektiven. Auf der einen Seite wird Data Mining
als ein Schritt des Prozesses Knowledge Discovery in Databases (KDD) nach Fa-
yyad et al. (1996) gesehen (vgl. Fayyad et al. 1996; vgl. Gabriel et al. 2009). Auf
1 „Structure can be a simple set of patterns, a parameterized model, or a mixture of models“ (Fa-
yyad 1998: 116). 2 „Today’s data mining algorithms [...] draw on mathematical techniques from probability theory,
information theory, estimation, uncertainty, graph theory, and database techniques“ (Fayyad 2001: 64).
3 „Data mining is not about automating data analysis. Data mining is about making analysis more convenient, scaling analysis algortihms to large databases, and providing data owners with easy-to-use tools to help them navigate, visualize, summarize, and model data. It is not the “ro-bot” that is finding interesting patterns. The “robot” is merely enumerating, sifting, and filtering patterns. The human user is the ultimate judge of what is interesting or useful. [...]. Data mining tools serve their role in the KDD process as a step in an otherwise interative, and highly human-centric process“ (Fayyad 1998: 6).
2 Begriffsbestimmung und Anwendungsgebiete
3
der anderen Seite wird dieses mit dem KDD-Prozess synonym verwendet und um-
fasst alle Prozessschritte (vgl. Müller/ Lenz 2013; vgl. Cleve/ Lämmel 2014).
Die vorliegende Arbeit betrachtet Data Mining als Synonym zum KDD, der im
folgenden dargestellt wird.
2.1 KDD-Prozess
Fayyad et al. definieren den KDD-Prozess als „the nontrivial process of identi-
fying valid, novel, potentially useful, and ultimately understandable patterns in
data“ (Fayyad et al. 1996: 30). In ihrem Modell (vgl. ebd. 30ff.) besteht Know-
ledge Discovery in Databases aus folgenden Schritten (vgl. Abb. 1):
§ Selektion der Daten
§ Datenvorverarbeitung
§ Transformation
§ Data Mining
§ Interpretation der Ergebnisse
(Abb. 1: KDD-Modell nach Fayyad et al. 1996: 29)
Im ersten Schritt werden die verfügbaren Daten gesichtet sowie daraus die zu ver-
arbeitenden, hinsichtlich der Fragestellung relevanten Daten ausgewählt (Selekti-
on). Der folgende Schritt dient der Beseitigung von Datenqualitätsproblemen. Die
ausgewählten Daten werden vorverarbeitet und bereinigt. Dabei werden bei-
spielsweise Ausreißer identifiziert und fehlerhafte Werte korrigiert (Datenvorver-
arbeitung). Im Prozessschritt Transformation werden die Daten in für das Data
Mining angemessene Datenformate umgewandelt. So werden zum Beispiel metri-
sche Werte in Intervalle gruppiert (vgl. Cleve/ Lämmel 2014: 5).
Der vierte Schritt Data Mining ist die eigentliche Datenanalyse, die Suche nach
Mustern. Somit wird zunächst eine geeignete Methode für die Analyse der Daten,
wie etwa Klassifikation oder Clustering (vgl. Kapitel 3), ausgewählt. Dabei wird
2 Begriffsbestimmung und Anwendungsgebiete
4
zwischen zwei Aufgaben des Data Mining unterschieden: Die Beschreibung und
die Vorhersage. Ziel der Beschreibung ist es, die Realität abzubilden, indem die
Daten charakterisiert werden. So werden zum Beispiel typische Verhaltensregeln
(Muster) der analysierten Kundengruppe aufgedeckt. Bei der Prognose geht es um
die Aufstellung von Regeln auf Basis der analysierten Daten, mit deren Hilfe eine
Vorhersage für das zukünftige Verhalten anderer Kunden mit ähnlichen Eigen-
schaften getroffen werden kann.
Im letzten Prozessschritt Interpretation werden die entdeckten Muster und Re-
gelmäßigkeiten interpretiert und in verständlicher Form aufbereitet bzw. visuali-
siert. (Vgl. Fayyad et al. 1996: 29ff.)
Das von einem Konsortium entwickelte Modell CRISP wird aufgrund der Ähn-
lichkeit der Prozessschritte zum beschriebenen KDD-Modell in der vorliegenden
Arbeit vernachlässigt.
2.2 Datentypen und Anwendungsgebiete
Die Anwendungsbereiche von Data Mining sind sehr vielfältig und reichen von
Kreditwürdigkeits- über Warenkorbanalysen hin zu Verbrechensvorhersagen der
Polizei. Dabei geht es unter anderem darum, Risiken zu minimieren, Wettbe-
werbsvorteile herauszuarbeiten, eine Grundlage für Entscheidungen zu schaffen
oder dem Gegner einen Schritt voraus zu sein. „Data Mining ist besonders für Probleme geeignet,
§ die eine komplexe, wissensbasierte Entscheidung verlangen, § in der eine richtige Entscheidung einen Mehrwert erzeugt, § die momentan mit sub-optimalen Methoden gelöst werden und § in der genügend relevante Daten vorhanden sind“ (Müller/ Lenz 2013: 81).
Große Datenmengen existieren heutzutage in sehr vielen Bereichen. So wird Data
Mining unter anderem für die Optimierung von industriellen Fertigungsprozessen
eingesetzt, was der Steigerung der Wettbewerbsfähigkeit dienen soll.
Im Marketing werden Kunden- und Produktdaten in Form von den bereits er-
wähnten Warenkorbanalysen verarbeitet. Ausgewertet wird insbesondere, welche
Produkte im Supermarkt zusammen gekauft werden (zum Beispiel Windeln und
Bier), um die Preisgestaltung oder die Produktplatzierung zu optimieren. Durch
die Kundensegmentierung mit Hilfe von Data Mining können gezielte Kundenan-
gebote und Werbemaßnahmen entwickelt werden.
2 Begriffsbestimmung und Anwendungsgebiete
5
In der Wissenschaft findet Data Mining zum Beispiel in der Erbgutanalyse der
biomedizinischen Informatik Verwendung. So können mithilfe von Datenbanken
mit Genomdaten Genfunktionen bestimmt werden.
Neben numerischen Daten werden Textdaten und strukturierte Daten betrachtet.
Die Analyse von Textdokumenten und internetbasierten Dokumenten trägt unter
anderem dazu bei, das Filtern oder die Suche nach Informationen zu verbessern.
Seit der Verbreitung von Digitalkameras ist auch die Menge an Bilddaten enorm.
Analyseverfahren werden für die Suche und Erkennung von Objekten, Analyse
und Klassifizierung von Szenen sowie der Inbeziehungsetzen der Bilddaten mit
anderen Informationen eingesetzt. (Vgl. Runkler 2010: 1 f.)
Müller und Lenz unterscheiden zehn verschiedene Datentypen. Strukturierte Da-
ten finden sich in Datenbanktabellen und können Buchhaltungsdaten in Unter-
nehmen sein. Produkte wie Milch, Brot und Bier werden in Warenkorbanalysen
als Menge bezeichnet. Der Klickpfad eines Besuchers einer Webseite wird als Se-
quenz abgespeichert. Wichtig dabei ist die Reihenfolge der Daten, die in einer Se-
quenz zusammengefasst werden.
Texte sind unstrukturierte Daten, die zum Beispiel auf Webseiten oder in E-Mails
zu finden sind. Beim Web Mining (vgl. Kapitel 4.2) kommt die Analyse von se-
mistrukturierten Texten zum Einsatz, die auf die Tags einer Auszeichnungsspra-
che wie HTML zugreift. Zeitreihen sind ebenfalls wie Sequenzen, zeitlich geord-
nete Folgen. Zusätzlich wird jedoch auch der Mess- oder Beobachtungszeitpunkt
mit erfasst. Auf diese Weise werden unter anderem Betriebsunfälle je Schicht
ausgewertet.
Die Verbindungen der einzelnen Mitglieder in sozialen Netzwerken können in
Graphen dargestellt werden. Diese bestehen aus Knoten, die mit gerichteten oder
ungerichteten Kanten miteinander verbunden sind. Räumliche Muster werden
durch die Analyse von Geodaten aufgedeckt. Mit Hilfe von Geodaten können un-
ter anderem Cluster der Adressdaten von Kunden gebildet werden. Bilder werden,
wie bereits beschrieben, für die Bildmustererkennung analysiert. Die Gesichtser-
kennung von Apple erfasst nach einer Lernphase automatisch Gesichter. Bei die-
sem Datentypen ist jedoch eine aufwändige Vorverarbeitung nötig.
Multimediale Daten wie Audio oder Video sind aufgrund des Speicherbedarfs und
des Laufzeitverhaltens ebenfalls nicht einfach in der Handhabung. Programme
wie der MusicMiner analysieren den Rhythmus, um eine Musiksammlung auf ei-
3 Methoden des Data Mining
6
ner visuellen Landkarte darzustellen, auf der ähnliche Musikstücke näher beiei-
nander liegen. (Vgl. ebd.)
Die Verarbeitung der Daten erfolgt mit Hilfe von Data Mining Tools. Dabei gibt
es eine Vielzahl von bezahlter und kostenloser Software. Die umsatzstärksten
Programme sind SAP, Oracle, IBM und SAS (vgl. Müller/ Lenz 2013: 261). Open
Source Software bieten RapidMiner oder Weka für die Datenverarbeitung an.
3 Methoden des Data Mining
Im Data Mining können abhängig von Fragestellung, Datentyp und Anwendungs-
gebiet unterschiedliche Methoden angewendet werden. Im folgenden werden aus-
gewählte Methoden vorgestellt.
3.1 Clusteranalyse
Die Clusteranylse ist eine wichtige Methode im Data Mining. Sie kann genutzt
werden „to gain insight into the distribution of data, to observe the characteristics
of each cluster, and to focus on a particular set of clusters for further analysis“
(Han et al. 2012: 445).
Im Clustering geht es darum Strukturen in den Daten zu finden und die Daten
aufzuteilen. Datenobjekte werden automatisch durch Algorithmen in Gruppen
(Cluster) eingeteilt. Dabei werden Objekte mit ähnlichen Eigenschaften gruppiert,
die Objekte unterschiedlicher Cluster unterscheiden sich hingegen voneinander.
Somit sind sich die Objekte innerhalb eines Clusters so „nah“ wie möglich, wäh-
rend die verschiedenen Cluster sich so „fern“ wie möglich sind. Die Distanz be-
misst sich an allen verfügbaren Variablen. Das Clustern kann auch im Datenvor-
verarbeitungsschritt eingesetzt werden, um homogene Gruppen zu identifizieren.
(Vgl. Pastuchovöá/ Václavíková 2013: 128)
Neben Kundensegmentierung werden Clusterverfahren beispielsweise in der Geo-
logie eingesetzt. Erdbebenepizentren werden geclustert, um auf diese Weise ge-
fährliche Zonen zu bestimmen. In der Versicherung werden durch das Verfahren
Betrüger anhand von überdurchschnittlich hohen Schadenskosten identifiziert.
(Vgl. Dey 2012: 351f.)
3 Methoden des Data Mining
7
3.2 Klassifikation
Klassifikation ist ebenfalls eine sehr verbreitete Methode. Ähnlich wie bei dem
Clustering zielt die Klassifikation darauf ab, Datenobjekte verschiedenen Gruppen
(Klassen) zuzuordnen. Der Unterschied zum Clustering ist, dass in der Cluster-
analyse die Gruppen automatisch gefunden werden, in der Klassifikation jedoch
bereits bekannt sind. Dabei werden in dem Prozess Regeln gesucht, um die Klasse
eines Objekts zu bestimmen.
Im Marketing werden für den Versand von Katalogen Neukunden in potenzielle
Käufer bzw. Nichtkäufer klassifiziert, um unnötige Kosten zu vermeiden. Des
Weiteren wird Klassifikation für die Insolvenzprognose eingesetzt, die Unterneh-
men in kreditwürdig bzw. nicht kreditwürdig klassifiziert. (Vgl. Müller/ Lenz
2013: 95f.)
3.3 Assoziationsanalyse
Auch in der Assoziationsanalyse geht es um das Finden von Regeln in den vor-
handenen Daten. Es werden Beziehungen herausgearbeitet, die zwischen Attribu-
ten bestehen und somit Zusammenhänge zwischen Objekten erkannt. Die Abhän-
gigkeiten werden in der Form A -> B („wenn A, dann wahrscheinlich auch B“)
dargestellt. Das Verfahren dient der Ableitung von Vorhersagen aus den vorhan-
denen Daten: „Die Assoziationsanalyse ist ein vorhersagendes Data-Mining-
Verfahren. Es analysiert die Daten, um Regelmäßigkeiten zu identifizieren und
das Verhalten neuer Datensätze vorherzusagen“ (Cleve/ Lämmel 2014: 64).
In der Praxis wird es unter anderem in der Warenkorbanalyse verwendet. Die Ab-
hängigkeit drückt sich in der Form: „Wer Produkt A kauft, kauft häufig auch Pro-
dukt B“ aus. Anhand der Ergebnisse kann ein Unternehmen seine Produktplatzie-
rung anpassen oder im Onlineshopping automatisch Produkt B vorschlagen, wenn
Produkt A in den Warenkorb gelegt wird. (Vgl. ebd. 63f.)
3.4 Ausreißeranalyse
Bei der Ausreißeranalyse werden Datensätze identifiziert, die im Vergleich zu
dem Gesamtdatensatz untypisch sind. Als Ausreißer werden Objekte bezeichnet,
die sich vom allgemeinen Verhalten bzw. Modell der restlichen Daten unterschei-
4 Verfahren für spezielle Datentypen
8
den. „An outlier is a data object that deviates significally from the rest of the ob-
jects, as if it were generated by a different mechanism“ (Han et al. 2012: 327).
In vielen Methoden werden Ausreißer im Datenbereinigungsschritt (vgl. Kapitel
2.1) als Rauschen entfernt. In einigen Analysen, wie beispielsweise Betrugsidenti-
fizierung, können seltene Fälle jedoch interessanter sein als die regelmäßigen.
Ausreißer können unter anderem mit Hilfe von Distanzmessungen identifiziert
werden, in denen Objekte, die weit entfernt von allen Clustern liegen, als Ausrei-
ßer betrachtet werden.
Nützlich sind solche Verfahren in etwa in der Aufdeckung von Kreditkartenbe-
trug. Anhand dieser Analysen können außergewöhnlich hohe Abhebungssummen,
ungewöhnliche Orte oder eine besonders hohe Einkaufshäufigkeit bemerkt und
genauer geprüft werden. Um den Bankkunden jedoch nicht täglich mit einem fal-
schen Alarm zu stören, weil er ein etwas teureres Essen als gewöhnlich gekauft
hat oder sich vor dem Urlaub nicht abgemeldet hat, wird auch vor Ausreißerana-
lysen der Datenbereinigungsschritt durchgeführt und Rauschen beseitigt.
(Vgl. ebd. 20 ff.)
Weitere Methoden wie Entscheidungsbäume, Regression, Korrelation oder Neu-
ronale Netze werden aufgrund des Umfangs der Arbeit nicht thematisiert.
4 Verfahren für spezielle Datentypen
Spezielle Formen von Data Mining sind Text und Web Mining. Die Besonderhei-
ten sind zum einen die Struktur der Daten, zum anderen die Herkunft dieser. Der
zu untersuchende Datentyp ist un- bzw. semistrukturierter Text.
Die Analysen sollen neue Erkenntnisse liefern bzw. zur Entwicklung von Hypo-
thesen beitragen. Obwohl sich die beiden Verfahren aus methodischer Sicht sehr
ähneln, bedienen sie sich verschiedener Datenquellen und werden in unterschied-
lichen Anwendungsgebieten eingesetzt. (Vgl. Müller/ Lenz 2013: 110)
4 Verfahren für spezielle Datentypen
9
4.1 Text Mining
Text Mining dient der Entdeckung neuer Informationen und Muster in Textdoku-
menten mittels spezifischer Algorithmen. Laut Schätzungen bilden Texte 80% der
Informationsbasis eines Unternehmens. (Vgl. Gabriel et al. 2009: 142ff.)
Sie besitzen zwar eine Semantik, sind jedoch unstrukturierte Daten, die sich von
den strukturierten Daten in Datenbanken unterscheiden.
Häufig soll ein Dokument mit Hilfe des Text Mining nach Themengebieten klas-
sifiziert werden. Da Texte unstrukturierte Daten sind, werden in einem ersten
wichtigen Schritt die relevanten Informationen aus dem Text herausgezogen. Dies
geschieht in etwa durch die Identifikation von Schlüsselwörtern oder der Häufig-
keitsverteilung von Begriffen.
Besondere Bedeutung haben auch der Datenbereinigungsschritt und der Daten-
vorverarbeitungsschritt im Text Mining-Verfahren. So müssen unter anderem
nicht relevante Wörter entfernt oder Abürzungen sowie Synonyme erkannt wer-
den. Die Groß- und Kleinschreibung wird meist ignoriert. Mit dem Stemming
werden Wörter auf ihren Wortstamm gekürzt, um Wörter mit unterschiedlicher
Schreibweise miteinander vergleichen zu können. Auch die Einteilung des Do-
kumentes in seine einzelnen Bestandteile, wie Kapitel, Absatz oder Satz, ist ein
gängiges Vorgehen.
Das Ergebnis der vorherigen Schritte ist „eine reduzierte Menge von Wörtern (bag
of words), die man zusätzlich noch gewichten kann. Auf der Basis dieser Wort-
mengen findet dann die eigentliche Datenanalyse statt“ (Cleve/ Lämmel 2014:
65). (Vgl. ebd.)
4.2 Web Mining
Bei dem Verfahren des Web Mining handelt es sich um die Analyse von Daten
aus dem World Wide Web.
Es werden drei Formen von Web Mining unterschieden: Das Web Content Mi-
ning, Web Structure Mining und Web Usage Mining (vgl. Gabriel et al. 2009:
143f.). Mit dem Web Content Mining werden ebenso wie mit dem Text Mining
neue Muster und neues Wissen aus textuellen und multimedialen Dokumenten
verschiedener Formate entdeckt. Das Web Structure Mining bezeichnet die Unter-
5 Fazit und Ausblick
10
suchung und Auswertung von Linkstrukturen auf der Typologie von Hyperlinks.
Mit diesen Analysen lassen sich zum Beispiel Webseiten kategorisieren und ihre
Ähnlichkeiten und Unterschiede aufdecken. „Für die thematische und nutzer-
freundliche Gestaltung solcher Web-Ressourcen ist es für die Website-
Administratoren wichtig zu wissen, ob z. B. Seiten mehr Verweischarakter (sog.
hub pages) haben oder inhaltsbezogen (sog. content pages) sind“ (Müller/ Lenz
2013: 117f.). Die dritte Form des Web Mining, das Web Usage Mining, dient der
Untersuchung der Daten, die während der Nutzung einer Webseite innerhalb einer
oder mehrerer Sitzungen protokolliert werden. Interessant sind in diesem Zusam-
menhang vor allem Klickstatistiken, die zur Optimierung der Seiten bezüglich
Zugriffspfade oder indivualisierter Inhalte genutzt werden. (Vgl. ebd. 117f.)
5 Fazit und Ausblick
„Identifying interesting structure and useful patterns among the plethora of possi-
bilities is what a data mining algorithm must do, and it must do it quickly over
very large databases“ (Fayyad 2002: 29f.).
Angesichts der durch die Digitalisierung immer mehr steigenden Datenmassen4
sowie Speicherung dieser, reichen manuelle Auswertungsmethoden nicht aus, um
Erkenntnisse aus diesen zu ziehen. Demnach sind Data Mining Tools unabdingbar
geworden. Diese können dazu genutzt werden, von der Fragestellung abhängige
Methoden wie etwa Cluster- oder Ausreißeranalysen anzuwenden, um Kenntnisse
aus den Daten zu gewinnen. Für Daten aus Texten oder dem Internet wurden die
spezifischen Formen Text und Web Mining entwickelt, die auf ähnlichen Metho-
den basieren, jedoch speziell an die besonderen Datentypen angepasst sind. Doch
auch die computerbasierten Programme allein reichen nicht aus. Für die Wahl der
Methode oder die korrekte Interpretation der Ergebnisse werden Spezialisten be-
nötigt (vgl. Fayyad 1998: 6). Die gespeicherten Datenmengen steigen stetig und
viele Unternehmen und Organisationen haben erkannt, welcher Nutzen sich hinter
den Daten verbergen kann. Allerdings mangelt es an Experten, die in der Lage
4 „The capacity of digital data storage worldwide has doubled every nine months for at least a de-
cade, at twice the rate predicted by Moore’s Law for the growth of computing power during the same period“ (Fayyad 2002: 28).
5 Fazit und Ausblick
11
sind mit diesen Daten umzugehen. „Our ability to capture and store data has far
outpaced our ability to process and utilize it“ (Fayyad 2002: 28). So sind Daten-
analysten eine gesuchte Berufsgruppe auf dem Arbeitsmarkt.
Trotz der Vorteile von Data Mining birgt dieses auch Nachteile und Probleme.
Das Wachstum neuer Datentypen und die Analyse dieser stellt die Analysten vor
eine Herausforderung: „Diverse applications generate a wide spectrum of new data types, from structured data such as relational and data warehouse data to semi-structured and unstructured data; from stable data repositories to dynamic data streams; from simple data objects to temporal data, biological sequences, sensor data, spatial data, hypertext data, mul-timedia data, software program code, Web data, and social network data“ (Han et al. 2012: 32).
Aufgrund dieser Vielfalt an Datentypen und auch der verschiedenen Ziele einer
Analyse werden unterschiedliche Data Mining Systeme benötigt.
Auch der Datenschutz ist ein Thema, das bei der Analyse der Daten zu beachten
ist. Oft werden Daten von Nutzern oder Käufern analysiert. Obwohl die Daten
überwiegend aggregiert werden, spielt die Nichtaufdeckung persönlicher Daten
einzelner Individuen eine wichtige Rolle beim Data Mining (vgl. ebd.). Data Mi-
ning kann neben positiven Zwecken auch gegen Konkurrenten oder Feinde einge-
setzt werden: „Moreover, data mining tools can work both ways—also helping individuals figure out when their space is being mined inappropriately. Since competition is part of our human nature, wars will be waged over this information. Data banks will be held hostage and robbed. Magnificent digital libraries will be destroyed“ (Fayyad 2001: 65).
Um valide Ergebnisse zu bekommen und nutzen zu können gilt es Probleme wie
schlechte Datenqualität, falsche Interpretation der Ergebnisse oder die Anwen-
dung statistischer Werte auf Einzelne zu vermeiden. Die auf die Situation abge-
stimmte Vorverarbeitung der Daten sowie die anderen vier Prozessschritte des
Knowledge Discovery (vgl. Kapitel 2.1) sind dafür von Bedeutung.
Trotz der Gefahren hat Data Mining ein großes Potenzial nützliches Wissen auf
vielen Gebieten zu generieren. Mit der Entwicklung immer besserer und schnelle-
rer Tools, werden die Möglichkeiten, Erkenntnisse aus der riesigen Datenflut zu
extrahieren, vergrößert. „In the same vein, my imagination fails to begin to visualize the wonders we will discover as data mining evolves into the effective cybernavigation science of tomor-row. I envy the early discovery expeditions into the new world of data. A wondrous journey awaits us all“ (ebd).
Literaturverzeichnis 12
Literaturverzeichnis
Cleve, Jürgen/ Lämmel, Uwe (2014): Data Mining. München. Dey, Pabitra Kumar/ Chakraborty, Gangotri/ Ruj, Purnendu/ Sarkar, Suvobrata
(2012): A Data Mining Approach on Cluster Analysis of IPL. In: International Journal of Machine Learning and Computing, 2012, Vol. 2, Nr. 4: 351-354.
Fayyad, Usama/ Piatetsky-Shapiro, Gregory/ Smyth, Padhraic (1996): The
KDD Process for Extracting Useful Knowledge from Volumes of Data. In: Communications of the ACM, Nov. 1996, Vol. 39, Nr. 11: 27-34.
Fayyad, Usama (1998): Editorial. In: Data Mining and Knowledge Discovery 2.
Kluwer Academic Publishers: 5-7; 115-119. Fayyad, Usama (2001): The Digital Physics of Data Mining. In: Communications
of the ACM, March 2001, Vol.44, Nr. 3: 62-65. Gabriel, Roland/ Gluchowski, Peter/ Pastwa, Alexander (2009): Data Wa-
rehouse & Data Mining. Herdecke/ Witten. Han, Jiawei/ Kamber, Micheline/ Pei, Jian (2012): Data mining: concepts and
techniques. Amsterdam. Müller, Roland M./ Lenz, Hans-Joachim (2013): Business Intelligence. Berlin/
Heidelberg. Pastuchovöá, Elena/ Václavíková, Stefánia (2013): Cluster Analysis – Data Mi-
ning Technique for Discovering Natural Groupings in the Data. In: Journal of Electrical Engineering, 2013, Vol. 64, Nr. 2: 128–131.
Runkler, Thomas A. (2010): Data Mining. Methoden und Algorithmen intelli-
genter Datenanalyse. Wiesbaden. Sharafi, Armin (2013): Knowledge Discovery in Databases: Eine Analyse des
Änderungsmanagements in der Produktentwicklung. Wiesbaden. Shi, Guangren (2014): Data Mining and Knowledge Discovery for Geoscientists.
Amsterdam. Witten, Ian H./ Frank, Eibe/ Hall, Mark A. (2011): Data Mining: Practical Ma-
chine Learning Tools and Techniques. Amsterdam.
Versicherung über Selbstständigkeit
Hiermit versichere ich, dass ich die vorliegende Arbeit im Sinne der Prüfungsord-
nung ohne fremde Hilfe selbstständig verfasst und nur die angegebenen Hilfsmit-
tel benutzt habe.
________________________
(Datum, Unterschrift)