Data Mining för nybörjare

Data Mining/Kunskaputvinning

Nybörjargenomgång av viktigaste koncept

Data mining är en mix:

Exempel på användningsområden

BANK Låneerbjudanden Kreditrisk Misstänkta korttransaktioner

CRM Riktad marknadföring Churn (kunder som går till

konkurenten)

MEDICIN Troliga sjukdomsförlopp Identifiering av nya

läkemedel

Data mining är en iterativ verksamhetsbaserad process

DATA → FRÅGOR → BEARBETNING → SVAR → NYA FRÅGOR → NY DATA

ALLTSÅ: BEHOV AV INDUSTRIELL STANDARD/METODOLOGI

CRISP-DM, cross-industry standard for processes involving data mining

Crisp-dm detaljerat

Business understanding/data understanding

Verksamheten måste ha klart för sig vad de vill veta/uppnå. I slutändan skall frågeställningen styras av lönsamhet.

Analytikern måste ha förståelse för datat han får.

Skräckscenario:

Försäkringsbolag data = statistik över

bilkrockar+väderförhållanden+vägförhållanden

Data mining svarar: bilar krockar mest när det är mörkt och blött på vägen

Data preparation/modelling

Data mining sker alltid mot EN tabell/vy/fil med

underliggande data.

Alltså: ETL-processer! KNOW IT Helikopter bidra med

mycket konsultkunskap

Typiskt dm-flöde (KNIME)

Möjliga mål för DM projekt

Identifikation av grupper (klustrar) i data vars struktur är ej synlig

Hitta faktorer som orsakar vissa konkreta händelser

Beräkning av utfallsvariablernas värden (prediktion)

Alltså finns det två olika “grupper av metoder”:

deskriptiv

Inga nya värden genereras, ingen fördelning på historisk data och ny data. Inga svar förväntas på förhand. Kallas

även UNSUPERVISED LEARNING

Att förutse värden, antingen numeriska eller kategoriska.

“hur mycket säljer vi i maj”“är kunden en kreditrisk”

Kallas för SUPERVISED LEARNING

prediktiv

Hur vi jobbar med prediktiv process

En del av gammal dala (holdout)

validiering

MÅL: FÖRUTSE VÄRDET

C = F(X1,....XN)

Target, värdet vi söker

Funktionen som dm-verktyget ska hitta, predictor function

Indatavariabler, predictors

LLIjär

Tre mest populära tekniker för supervised learning

• RegressionLinjär/icke linjär/logistisk

• Närmsta granne

• Beslutsträd

Linear regressionEnklaste regression har en prediktor och en target:

Y = β_0 + β_1*X

Lutningen och fria termen beräknas inuti datamining-maskinen så att minstakvadratavvikningar av indata X från en beräknad

linje Y(X) är minimerade.

Faran med linjär regression: Anscombes kvartett

Statistiskt identiska datamängder, där linjär regression ger exakt samma svar, men visualiseringen avslöjar mycket annat.

Här åter ser vi vikten att man måste

FÖRSTÅ DITT DATA

K-närmsta grannemetodenExempel: testdata att klassificera/förutse – är det en röd triangel eller en blå rektangel?

Om k =3 är det en triangel: då är det flest trinaglar bland 3 “närmsta grannar” men

Om k =5 är det en rektangel, då det är flest rektanglar bland 5 närmsta instanser av historiskt data.

BRA: Snabbt och lätta att träna.

DÅLIGT: Långsam metod att skora.

Svårt att definiera vad ”nära” är exakt.

BeslutsträdGrafisk representation av ja/nej beslut.

BRA:

Lätta att förstå

Relativt snabbt att träna

Snabb produktionssättningSkalbara

DÅLIGT:

Kan ej hantera komplicerade förhållanden

Fungerar illa om data saknas

POPULÄRASTE METODER FÖR UNSUPERVISED

LEARNING

CLUSTERING

ASSOCIATION RULES

clusteringPoster grupperas tillsammans.Exempel: sortera tvätt. 60 färg

90 vitt bomull handtvätt

Hur tvättar man vit skjorta med röda ränder?

Definition

Clustering can be considered the most important unsupervised learning technique; so, as every other problem of this kind, it deals with finding a structure in a collection of unlabeled data.

Clustering is “the process of organizing objects into groups whose members are similar in some way”.

A cluster is therefore a collection of objects which are “similar” between them and are “dissimilar” to the objects belonging to other clusters.

Distance based method

In this case we easily identify the 4 clusters into which the data can be divided; the similarity criterion is distance: two or more objects belong to the same cluster if they are “close” according to a given distance. This is called distance-based clustering.

Associationsregler

Basket analysis

Det som undersöks är t.ex. följdköp: varan (varor) som köps efter det givna

köpet.

Tomatsås => PastaChips => Cola

Eller (Amazon, skrämmande):

Upptäck relationer (“om A då B”) eller associationer (“A och B oftast tillsammans”) mellan utvalda värden av kategoriska variabler i stora databaser(filer,tabeller).

Vi tar ett litet exempel. Lanthandel, transaktionsdata:

TransID

Mjölk Bröd Smör Öl

1 1 1 0 0

2 0 0 1 0

3 0 0 0 1

4 1 1 1 0

5 0 1 0 0

För att kunna välja intressanta associationer inför vi några

mätvärden:

1.Stöd (support), dvs hur ofta itemset intraffar. { MJÖLK; BRÖD} inträffar 2 gånger av fem, alltså är

supp{MJÖK;BRÖD} = 2/5.

supp{MJÖLK;BRÖD;SMÖR} =1/5

2.Konfidens. conf(X=>Y) definieras som supp(X∪Y)/ supp(X).

Conf({mjölk, bröd} =>{smör}) =0.2/0.4=0.5

Andra mätetal kan introduceras. Vi letar efter regler som har vettigt stöd och relativt stor konfidens (evt minstavärde begränsningar på andra mått).

Algoritmen går ut på att man på förhand bestämmer sig för hur små stöd- och konfidensvärden för de förväntade reglerna får vara och sedan1.Hitta alla itemsets med stort stöd2.Forma regler mha dessa itemsets utifrån begränsningen på konfidens.

GEORGE BOX,Berömd statistiker

http://en.wikipedia.org/wiki/George_E._P._Box

“Alla modeller är felaktiga. Några är dock änvändbara.”



Technology

Data Mining för nybörjare