30
Data Mining/Kunskaputvinning Nybörjargenomgång av viktigaste koncept

Data Mining för nybörjare

Embed Size (px)

DESCRIPTION

Presentationen jag gjorde för intresserade BI-konsulter

Citation preview

Page 1: Data Mining för nybörjare

Data Mining/Kunskaputvinning

Nybörjargenomgång av viktigaste koncept

Page 2: Data Mining för nybörjare

Data mining är en mix:

Page 3: Data Mining för nybörjare

Exempel på användningsområden

BANK Låneerbjudanden Kreditrisk Misstänkta korttransaktioner

CRM Riktad marknadföring Churn (kunder som går till

konkurenten)

MEDICIN Troliga sjukdomsförlopp Identifiering av nya

läkemedel

Page 4: Data Mining för nybörjare

Data mining är en iterativ verksamhetsbaserad process

DATA → FRÅGOR → BEARBETNING → SVAR → NYA FRÅGOR → NY DATA

ALLTSÅ: BEHOV AV INDUSTRIELL STANDARD/METODOLOGI

Page 5: Data Mining för nybörjare

CRISP-DM, cross-industry standard for processes involving data mining

Page 6: Data Mining för nybörjare

Crisp-dm detaljerat

Page 7: Data Mining för nybörjare

Business understanding/data understanding

Verksamheten måste ha klart för sig vad de vill veta/uppnå. I slutändan skall frågeställningen styras av lönsamhet.

Analytikern måste ha förståelse för datat han får.

Skräckscenario:

Försäkringsbolag data = statistik över

bilkrockar+väderförhållanden+vägförhållanden

Data mining svarar: bilar krockar mest när det är mörkt och blött på vägen

Page 8: Data Mining för nybörjare
Page 9: Data Mining för nybörjare

Data preparation/modelling

Data mining sker alltid mot EN tabell/vy/fil med

underliggande data.

Alltså: ETL-processer! KNOW IT Helikopter bidra med

mycket konsultkunskap

Page 10: Data Mining för nybörjare

Typiskt dm-flöde (KNIME)

Page 11: Data Mining för nybörjare

Möjliga mål för DM projekt

Identifikation av grupper (klustrar) i data vars struktur är ej synlig

Hitta faktorer som orsakar vissa konkreta händelser

Beräkning av utfallsvariablernas värden (prediktion)

Page 12: Data Mining för nybörjare

Alltså finns det två olika “grupper av metoder”:

deskriptiv

Inga nya värden genereras, ingen fördelning på historisk data och ny data. Inga svar förväntas på förhand. Kallas

även UNSUPERVISED LEARNING

Att förutse värden, antingen numeriska eller kategoriska.

“hur mycket säljer vi i maj”“är kunden en kreditrisk”

Kallas för SUPERVISED LEARNING

prediktiv

Page 13: Data Mining för nybörjare

Hur vi jobbar med prediktiv process

En del av gammal dala (holdout)

validiering

Page 14: Data Mining för nybörjare

MÅL: FÖRUTSE VÄRDET

C = F(X1,....XN)

Target, värdet vi söker

Funktionen som dm-verktyget ska hitta, predictor function

Indatavariabler, predictors

Page 15: Data Mining för nybörjare

LLIjär

Tre mest populära tekniker för supervised learning

• RegressionLinjär/icke linjär/logistisk

• Närmsta granne

• Beslutsträd

Page 16: Data Mining för nybörjare

Linear regressionEnklaste regression har en prediktor och en target:

Y = β_0 + β_1*X

Lutningen och fria termen beräknas inuti datamining-maskinen så att minstakvadratavvikningar av indata X från en beräknad

linje Y(X) är minimerade.

Page 17: Data Mining för nybörjare

Faran med linjär regression: Anscombes kvartett

Statistiskt identiska datamängder, där linjär regression ger exakt samma svar, men visualiseringen avslöjar mycket annat.

Här åter ser vi vikten att man måste

FÖRSTÅ DITT DATA

Page 18: Data Mining för nybörjare

K-närmsta grannemetodenExempel: testdata att klassificera/förutse – är det en röd triangel eller en blå rektangel?

Om k =3 är det en triangel: då är det flest trinaglar bland 3 “närmsta grannar” men

Om k =5 är det en rektangel, då det är flest rektanglar bland 5 närmsta instanser av historiskt data.

BRA: Snabbt och lätta att träna.

DÅLIGT: Långsam metod att skora.

Svårt att definiera vad ”nära” är exakt.

Page 19: Data Mining för nybörjare

BeslutsträdGrafisk representation av ja/nej beslut.

BRA:

Lätta att förstå

Relativt snabbt att träna

Snabb produktionssättningSkalbara

DÅLIGT:

Kan ej hantera komplicerade förhållanden

Fungerar illa om data saknas

Page 20: Data Mining för nybörjare

POPULÄRASTE METODER FÖR UNSUPERVISED

LEARNING

CLUSTERING

ASSOCIATION RULES

Page 21: Data Mining för nybörjare

clusteringPoster grupperas tillsammans.Exempel: sortera tvätt. 60 färg

90 vitt bomull handtvätt

Hur tvättar man vit skjorta med röda ränder?

Page 22: Data Mining för nybörjare

Definition

Clustering can be considered the most important unsupervised learning technique; so, as every other problem of this kind, it deals with finding a structure in a collection of unlabeled data.

Clustering is “the process of organizing objects into groups whose members are similar in some way”.

A cluster is therefore a collection of objects which are “similar” between them and are “dissimilar” to the objects belonging to other clusters.

Page 23: Data Mining för nybörjare
Page 24: Data Mining för nybörjare
Page 25: Data Mining för nybörjare

Distance based method

Page 26: Data Mining för nybörjare

In this case we easily identify the 4 clusters into which the data can be divided; the similarity criterion is distance: two or more objects belong to the same cluster if they are “close” according to a given distance. This is called distance-based clustering.

Page 27: Data Mining för nybörjare

Associationsregler

Basket analysis

Det som undersöks är t.ex. följdköp: varan (varor) som köps efter det givna

köpet.

Tomatsås => PastaChips => Cola

Eller (Amazon, skrämmande):

Upptäck relationer (“om A då B”) eller associationer (“A och B oftast tillsammans”) mellan utvalda värden av kategoriska variabler i stora databaser(filer,tabeller).

Page 28: Data Mining för nybörjare

Vi tar ett litet exempel. Lanthandel, transaktionsdata:

TransID

Mjölk Bröd Smör Öl

1 1 1 0 0

2 0 0 1 0

3 0 0 0 1

4 1 1 1 0

5 0 1 0 0

För att kunna välja intressanta associationer inför vi några

mätvärden:

1.Stöd (support), dvs hur ofta itemset intraffar. { MJÖLK; BRÖD} inträffar 2 gånger av fem, alltså är

supp{MJÖK;BRÖD} = 2/5.

supp{MJÖLK;BRÖD;SMÖR} =1/5

2.Konfidens. conf(X=>Y) definieras som supp(X∪Y)/ supp(X).

Conf({mjölk, bröd} =>{smör}) =0.2/0.4=0.5

Andra mätetal kan introduceras. Vi letar efter regler som har vettigt stöd och relativt stor konfidens (evt minstavärde begränsningar på andra mått).

Algoritmen går ut på att man på förhand bestämmer sig för hur små stöd- och konfidensvärden för de förväntade reglerna får vara och sedan1.Hitta alla itemsets med stort stöd2.Forma regler mha dessa itemsets utifrån begränsningen på konfidens.

Page 29: Data Mining för nybörjare
Page 30: Data Mining för nybörjare

GEORGE BOX,Berömd statistiker

http://en.wikipedia.org/wiki/George_E._P._Box

“Alla modeller är felaktiga. Några är dock änvändbara.”