69
Veri Madenciliği Sınıflama ve Kümeleme Yöntemleri Yrd.Doç.Dr.Songül Albayrak Yıldız Teknik Üniversitesi Bilgisayar Müh. Bölümü [email protected] www.yildiz.edu.tr/~sbayrak

Veri Madenciliği

  • Upload
    tirzah

  • View
    156

  • Download
    5

Embed Size (px)

DESCRIPTION

Veri Madenciliği. Sınıflama ve Kümeleme Yöntemleri Yrd.Doç.Dr.Songül Albayrak Yıldız Teknik Üniversitesi Bilgisayar Müh. Bölümü [email protected] www.yildiz.edu.tr/~sbayrak. Veri Madenciliği. - PowerPoint PPT Presentation

Citation preview

Page 1: Veri Madenciliği

Veri MadenciliğiSınıflama ve Kümeleme Yöntemleri

Yrd.Doç.Dr.Songül AlbayrakYıldız Teknik ÜniversitesiBilgisayar Müh. Bölümü[email protected]

www.yildiz.edu.tr/~sbayrak

Page 2: Veri Madenciliği

Veri Madenciliği Büyük miktarda veri içinden, gelecekle ilgili

tahmin yapmamızı sağlayacak bağıntı ve kuralların aranmasıdır. (Alpaydın 2000)

Knowledge Discovery in Databases

Page 3: Veri Madenciliği

Veri Madenciliğinde Örnek Uygulamalar Birliktelik

“Çocuk bezi alan müşterilerin 30%’u bira da alır.” (Basket Analysis)

Sınıflandırma“Genç kadınlar küçük araba satın alır; yaşlı, zengin erkekler ise büyük, lüks araba satın alır.”

RegresyonKredi skorlama (Application Scoring)

Zaman içinde Sıralı Örüntüler“İlk üç taksidinden iki veya daha fazlasını geç ödemiş olan müşteriler %60 olasılıkla krediyi geriye ödeyemiyor.” (Behavioral scoring, Churning)

Page 4: Veri Madenciliği

Veri Madenciliğinde Örnek Uygulamalar Benzer Zaman Sıraları

“X şirketinin hisselerinin fiyatları Y şirketinin fiyatlarıyla benzer hareket ediyor.”

İstisnalar (Fark Saptanması)“Normalden farklı davranış gösteren müşterilerim var mı?” Fraud detection

Döküman Madenciliği (Web Madenciliği)“Bu arşivde (veya internet üzerinde) bu dökümana benzer hangi dökümanlar var?”

Page 5: Veri Madenciliği

Veri Madenciliğinde gerekli konular

Veri madenciliği, veri tabanları, istatistik ve yapay öğrenme konularının kavramlarına dayanır ve onların tekniklerini kullanır.

Page 6: Veri Madenciliği

Veri Madenciliği Konuları

Data MiningStrategies

SupervisedLearning

Market BasketAnalysis

UnsupervisedClustering

PredictionEstimationClassification

Page 7: Veri Madenciliği

Eğiticili ve Eğiticisiz Sınıflandırma Eğiticili (supervised) sınıflandırma:

Sınıflandırma Sınıf sayısı ve bir grup örneğin hangi sınıfa

ait olduğunu bilinir

Eğiticisiz (unsupervised) sınıflandırma: Kümeleme (Demetleme, öbekleme,…) Hangi nesnenin hangi sınıfa ait olduğu ve grup sayısı belirsizdir.

Page 8: Veri Madenciliği

Sınıflama TanımıSınıflamanın temel kuralları: Öğrenme eğiticilidir Veri setinde bulunan her örneğin bir dizi niteliği

vardır ve bu niteliklerden biri de sınıf bilgisidir. Hangi sınıfa ait olduğu bilinen nesneler (öğrenme

kümesi- training set) ile bir model oluşturulur Oluşturulan model öğrenme kümesinde yer almayan

nesneler (deneme kümesi- test set) ile denenerek başarısı ölçülür

Page 9: Veri Madenciliği

Örnek VerikümesiTable 3.1 • The Credit Card Promotion Database

Income Life Insurance Credit Card Range Promotion Insurance Sex Age

40–50K No No Male 45 30–40K Yes No Female 40 40–50K No No Male 42 30–40K Yes Yes Male 43 50–60K Yes No Female 38 20–30K No No Female 55 30–40K Yes Yes Male 35 20–30K No No Male 27 30–40K No No Male 43 30–40K Yes No Female 41 40–50K Yes No Female 43 20–30K Yes No Male 29 50–60K Yes No Female 39 40–50K No No Male 55 20–30K Yes Yes Female 19

Örnekler (intances, samples)

Page 10: Veri Madenciliği

Örnek VerikümesiTable 3.1 • The Credit Card Promotion Database

Income Life Insurance Credit Card Range Promotion Insurance Sex Age

40–50K No No Male 45 30–40K Yes No Female 40 40–50K No No Male 42 30–40K Yes Yes Male 43 50–60K Yes No Female 38 20–30K No No Female 55 30–40K Yes Yes Male 35 20–30K No No Male 27 30–40K No No Male 43 30–40K Yes No Female 41 40–50K Yes No Female 43 20–30K Yes No Male 29 50–60K Yes No Female 39 40–50K No No Male 55 20–30K Yes Yes Female 19

Özellikler, nitelikler

(features)

Page 11: Veri Madenciliği

Sınıflandırma Yöntemleri: Karar Ağaçları (Decision Trees) Örnek Tabanlı Yöntemler:k en-yakın komşu

(Instance Based Methods- k nearest neighbor)

Bayes Sınıflandırıcı (Bayes Classifier) Yapay Sinir Ağları (Artificial Neural Networks) Genetik Algoritmalar (Genetic Algorithms)

Page 12: Veri Madenciliği

Karar AğaçlarıTable 3.1 • The Credit Card Promotion Database

Income Life Insurance Credit CardRange Promotion Insurance Sex Age

40–50K No No Male 4530–40K Yes No Female 4040–50K No No Male 4230–40K Yes Yes Male 4350–60K Yes No Female 3820–30K No No Female 5530–40K Yes Yes Male 3520–30K No No Male 2730–40K No No Male 4330–40K Yes No Female 4140–50K Yes No Female 4320–30K Yes No Male 2950–60K Yes No Female 3940–50K No No Male 5520–30K Yes Yes Female 19

IncomeRange

30-40K

4 Yes1 No

2 Yes2 No

1 Yes3 No

2 Yes

50-60K40-50K20-30KKöke Gelir aralığı yerleştirilmiş bir kısmi karar ağacı

Page 13: Veri Madenciliği

Karar Ağaçları

CreditCard

Insurance

No Yes

3 Yes0 No

6 Yes6 No

Table 3.1 • The Credit Card Promotion Database

Income Life Insurance Credit CardRange Promotion Insurance Sex Age

40–50K No No Male 4530–40K Yes No Female 4040–50K No No Male 4230–40K Yes Yes Male 4350–60K Yes No Female 3820–30K No No Female 5530–40K Yes Yes Male 3520–30K No No Male 2730–40K No No Male 4330–40K Yes No Female 4140–50K Yes No Female 4320–30K Yes No Male 2950–60K Yes No Female 3940–50K No No Male 5520–30K Yes Yes Female 19

Köke Kredi Kartı Sigortası niteli yerleştirilmiş bir kısmi karar ağacı

Page 14: Veri Madenciliği

Karar Ağaçları Karar ağaçları eğiticili öğrenme için çok yaygın bir

yöntemdir. Algoritmanın adımları:1. T öğrenme kümesini oluştur2. T kümesindeki örnekleri en iyi ayıran niteliği belirle3. Seçilen nitelik ile ağacın bir düğümünü oluştur ve bu

düğümden çocuk düğümleri veya ağacın yapraklarını oluştur. Çocuk düğümlere ait alt veri kümesinin örneklerini belirle

4. 3. adımda yaratılan her alt veri kümesi için Örneklerin hepsi aynı sınıfa aitse Örnekleri bölecek nitelik kalmamışsa Kalan niteliklerin değerini taşıyan örnek yoksa işlemi sonlandır. Diğer durumda alt veri kümesini ayırmak

için 2. adımdan devam et.

Page 15: Veri Madenciliği

Karar Ağaçları: Haftasonu örneği

Weekend (Example)

Weather Parents Money Decision (Category

W1 Sunny Yes Rich Cinema

W2 Sunny No Rich Tennis

W3 Windy Yes Rich Cinema

W4 Rainy Yes Poor Cinema

W5 Rainy No Rich Stay in

W6 Rainy Yes Poor Cinema

W7 Windy No Poor Cinema

W8 Windy No Rich Shopping

W9 Windy Yes Rich Cinema

W10 Sunny No Rich Tennis

1. Adım: Veri setinden T öğrenme kümesi oluşturulur.

Page 16: Veri Madenciliği

Karar Ağaçları: Haftasonu örneği 2. Adım: Veri setindeki en ayırt edici nitelik belirlenir

ve ağacın kökü olarak alınır.

3. Adım: Ağacın çocuk düğümü olan A düğümüne ait alt veri kümesi belirlenir.

Page 17: Veri Madenciliği

Karar Ağaçları: En ayırt edici nitelik nasıl bulunur? Bilgi Kazancı (Information Gain):ID3, C4.5

gibi karar ağacı metotlarında en ayırt edici niteliği belirlemek için her nitelik için bilgi kazancı ölçülür.

Bilgi Kazancı ölçümünde Entropy kullanılır. Entropy rastgeleliği, belirsizliği ve

beklenmeyen durumun ortaya çıkma olasılığını gösterir.

Page 18: Veri Madenciliği

Karar AğaçlarıBilgi Kazancı:Entropy

Page 19: Veri Madenciliği

Karar Ağaçları:Entropy Haftasonu veri kümesindeki (T kümesi) 10

örnekten 6 örnek için karar sinema 2 örnek için karar tenis oynamak 1 örnek için karar evde kalmak ve 1 örnek için karar alışverişe gitmek olduğuna göre

Entropy: H(T)= - (6/10) log2(6/10) - (2/10) log2(2/10) - (1/10) log2(1/10) - (1/10) log2(1/10)

H(T)= 1,571

Page 20: Veri Madenciliği

Karar Ağaçları:Bilgi Kazancı

A niteliğinin T veri kümesindeki bilgi kazancı: Gain(T,A)=Entropy(T)-Σ P(v) Entropy(T(v))

v: Values of A P(v)=|T(v) | / | T |

Page 21: Veri Madenciliği

Karar Ağaçları:Bilgi Kazancı Gain(T, weather)= ?

Sunny=3 (1 Cinema, 2 Tennis) Windy=4 (3 Cinema, 1 Shopping) Rainy=3 (2 Cinema, 1 Stay in)

Entropy(Tsunny)= - (1/3) log2 (1/3) - (2/3) log2 (2/3)=0,918 Entropy(Twindy)= - (3/4) log2 (3/4) - (1/4) log2 (1/4) =0,811 Entropy(Trainy)= - (2/3) log2 (2/3) - (1/3) log2 (1/3) =0,918

Gain(T, weather) = Entropy(T)- ((P(sunny)Entropy(Tsunny) + P(windy) Entropy(Twindy)+ P(rainy) Entropy(Trainy) )

=1,571- ((3/10)Entropy(Tsunny)+(4/10)Entropy(Twindy)+ (3/10)Entropy(Trainy)) Gain(T, weather) =0,70

Page 22: Veri Madenciliği

Karar Ağaçları:Bilgi Kazancı Gain(T, parents)= ?

Yes=5 (5 Cinema) No =5 (2 Tennis, 1 Cinema, 1 Shopping, 1 Stay in)

Entropy(Tyes)= - (5/5) log2 (5/5) = 0 Entropy(Tno)= - (2/5) log2 (2/5) - 3(1/5) log2 (1/5) =1,922

Gain(T, parents) = Entropy(T)- ((P(yes)Entropy(Tyes) + P(no) Entropy(Tno))

=1,571- ((5/10)Entropy(Tyes)+(5/10)Entropy(Tno))

Gain(T, parents)=0,61

Page 23: Veri Madenciliği

Karar Ağaçları:Bilgi Kazancı Gain(T, money)= ?

Rich=7 (3 Cinema, 2 Tennis, 1 Shopping, 1 Stay in) Poor=3 (3 Cinema)

Entropy(Trich)= 1,842 Entropy(Tpoor)= 0

Gain(T, money) = Entropy(T)- ((P(rich)Entropy(Trich) + P(poor) Entropy(Tpoor))

=1,571- ((5/10)Entropy(Trich)+(5/10)Entropy(Tpoor))

Gain(T, money)=0,2816

Page 24: Veri Madenciliği

Karar Ağaçları:Bilgi Kazancı Gain(T, weather) =0,70 Gain(T, parents)=0,61 Gain(T, money)=0,2816

Weather özelliği en büyük bilgi kazancını sağladığı için ağacın kökünde yer alacak özellik olarak seçilir. Bu özellik en ayırt edici özellik olarak bulunmuş olur.

Page 25: Veri Madenciliği

Karar Ağaçları: 3. Adım: Ağacın çocuk düğümü olan A düğümüne

ait alt veri kümesi belirlenir.

Her alt küme için tekrar bilgi kazancı hesaplanarak en ayırt edici özellik belirlenir.

Page 26: Veri Madenciliği

Karar Ağaçları

Yeni düğüm için en ayırt edici özellik Perents olarak belirlenmiştir. Bu işlemler her düğüm için aşağıdaki durumlardan biri oluşuncaya kadar devam eder

Örneklerin hepsi aynı sınıfa ait Örnekleri bölecek özellik kalmamış Kalan özelliklerin değerini taşıyan örnek yok

Page 27: Veri Madenciliği

Sınıflandırma Yöntemleri:

Karar Ağaçları (Decision Trees) Örnek Tabanlı Yöntemler:k en-yakın komşu

(Instance Based Methods- k nearest neighbor)

Bayes Sınıflandırıcı (Bayes Classifier) Yapay Sinir Ağları (Artificial Neural Networks) Genetik Algoritmalar (Genetic Algorithms)

Page 28: Veri Madenciliği

K- en yakın komşu Bütün örnekler n boyutlu uzayda bir nokta

olarak alınır. Öklid mesafesi kullanılarak en yakın komşu

belirlenir, dist(X1,X2) Hangi sınıfa ait olduğu bilinmeyen Xq örneği,

kendisine en yakın k örneğin sınıfına aittir denir.

Page 29: Veri Madenciliği

K- en yakın komşu : Örnek Xq örneği ;

1-en yakın komşuya göre pozitif 5-en yakın komşuya göre negatif

Olarak sınıflandırılır.

.

_+

_

+

_ _+

_

_

+xq

Page 30: Veri Madenciliği

Sınıflandırma Yöntemleri:

Karar Ağaçları (Decision Trees) Örnek Tabanlı Yöntemler:k en-yakın komşu

(Instance Based Methods- k nearest neighbor)

Bayes Sınıflandırıcı (Bayes Classifier) Yapay Sinir Ağları (Artificial Neural Networks) Genetik Algoritmalar (Genetic Algorithms)

Page 31: Veri Madenciliği

Bayes Sınıflandırıcılar Bayes Sınıflayıcı Bayes teoremine göre

istatistiksel kestirim yapar.

Bir örneğin sınıf üyelik olasılığını kestirir.

Naïve Bayesian sınıflandırıcı (simple Bayesian classifier) oldukça başarılı bir sınıflayıcıdır.

Page 32: Veri Madenciliği

Bayes Kuralı p(x|Cj) : Sınıf j’den bir örneğin x olma olasılığı P(Cj) : Sınıf j’nin ilk olasılığı p(x) : Herhangi bir örneğin x olma olasılığı P(Cj|x) : x olan bir örneğin sınıf j’den olma

olasılığı (son olasılık)

Page 33: Veri Madenciliği

Naïve Bayes sınıflandırıcı T öğrenme kümesinde bulunan her örnek n boyutlu uzayda tanımlı

olsun, X = (x1, x2, …, xn) Veri kümesinde m adet sınıf bulunuyor olsun, C1, C2, …, Cm

Sınıflamada son olasılığı en büyütme aranır ( the maximal P(Ci|X) )

Bayes teoreminden türetilebilir

P(X) olasılıgı bütün sınıflar için sabit olduğuna göre, sadece olasılığı için en büyük değer aranır.

)()()|(

)|( XX

X PiCPiCP

iCP

)()|()|( iCPiCPiCP XX

Page 34: Veri Madenciliği

Naïve Bayes sınıflandırıcı

Eğer bu basitleştirilmiş ifadede bütün özellikler bağımsız ise P(X|Ci) aşağıdaki şekilde yazılabilir.

)|(...)|()|(1

)|()|(21

CixPCixPCixPn

kCixPCiP

nk

X

)()|()|( iCPiCPiCP XX

Böylece hesap karmaşıklığı büyük ölçüde azaltılmış olur.

Page 35: Veri Madenciliği

Bayes Sınıflandırıcı için Örnek

Table 10.4 • Data for Bayes Classifier

Magazine Watch Life Insurance Credit CardPromotion Promotion Promotion Insurance Sex

Yes No No No MaleYes Yes Yes Yes FemaleNo No No No MaleYes Yes Yes Yes MaleYes No Yes No FemaleNo No No No FemaleYes Yes Yes Yes MaleNo No No No MaleYes No No No MaleYes Yes Yes No Female

Page 36: Veri Madenciliği

Bayes Sınıflandırıcı için Örnek Sınıflandırılacak örnek:

Magazine Promotion = Yes Watch Promotion = Yes Life Insurance Promotion = No Credit Card Insurance = No Sex = ?

Page 37: Veri Madenciliği

Bayes Sınıflandırıcı için Örnek

Table 10.5 • Counts and Probabilities for Attribute Sex

Magazine Watch Life Insurance Credit CardPromotion Promotion Promotion Insurance

Sex Male Female Male Female Male Female Male Female

Yes 4 3 2 2 2 3 2 1No 2 1 4 2 4 1 4 3

Ratio: yes/total 4/6 3/4 2/6 2/4 2/6 3/4 2/6 1/4Ratio: no/total 2/6 1/4 4/6 2/4 4/6 1/4 4/6 3/4

Page 38: Veri Madenciliği

Bayes Sınıflandırıcı için Örnek

)(

)()|()|(

EP

malesexPmalesexEPEmalesexP

Sex = Male için olasılık hesabı

Page 39: Veri Madenciliği

Bayes Sınıflandırıcı için Örnek Sex = Male için koşullu olasılıklar;

P(magazine promotion = yes | sex = male) = 4/6 P(watch promotion = yes | sex = male) = 2/6 P(life insurance promotion = no | sex = male) = 4/6 P(credit card insurance = no | sex = male) = 4/6

P(E | sex =male) = (4/6) (2/6) (4/6) (4/6) = 8/81

P(sex = male | E) (8/81) (6/10) / P(E)P(sex = male | E) 0,0593 / P(E)

Page 40: Veri Madenciliği

Bayes Sınıflandırıcı için Örnek

)(

)()|()|(

EP

femalesexPfemalesexEPEfemalesexP

Sex = Female için olasılık hesabı

Page 41: Veri Madenciliği

Bayes Sınıflandırıcı için Örnek

Sex = Female için koşullu olasılıklar;

P(magazine promotion = yes | sex = female) = 3/4 P(watch promotion = yes | sex = female) = 2/4 P(life insurance promotion = no | sex = female) = 1/4 P(credit card insurance = no | sex =f emale) = 3/4

P(E | sex =female) = (3/4) (2/4) (1/4) (3/4) = 9/128

P(sex = female | E) (9/128) (4/10) / P(E)P(sex = female | E) 0,0281 / P(E)

Page 42: Veri Madenciliği

Bayes Sınıflandırıcı için Örnek

P(sex = male | E) 0,0593 / P(E) P(sex = female | E) 0,0281 / P(E)

Bayes sınıflayıcı 0,0593 > 0,0281 olduğu için E davranışını gösteren kart sahibi erkektir.

Page 43: Veri Madenciliği

Bayes Sınıflayıcı : Sayısal özellik

wheree = the exponential function

= the class mean for the given numerical attribute = the class standard deviation for the attribute

x = the attribute value

)2/()( 22

)2/(1)( xexf

Page 44: Veri Madenciliği

Sınıflandırma Modelini Değerlendirme Sınıflandırma Metodu tarafından oluşturulan

modelin başarısını ölçmek için Doğruluk (Accuracy) Hata Oranı (Error rate) Specificity Sensitivitygibi ölçüler kullanılır.

Page 45: Veri Madenciliği

Sınıflandırma Modelini Değerlendirme: * Doğruluk (Accuracy) * Hata Oranı (Error Rate)

Bir M sınıflayıcısı için doğruluk; acc(M) doğru sınıflanmış örneklerin toplam örnek

sayısına oranından bulunur.

Bir M sınıflayıcısı için hata oranı; 1-acc(M) olarak hesaplanır.

Page 46: Veri Madenciliği

Sınıflandırma Modelini Değerlendirme: Karışıklık Matrisi (Class Confusion Matrix)

Öngörülen sınıf (Predicted Class)

Gerçek Sınıf(Actual Class)

C1 (Positive) C2 (Negative)

C1

(Positive) True positive

TPFalse negative

FN

C2

(Negative) False positive

FPTrue negative

TN

sensitivity = TP /pos /* true positive recognition rate */specificity = TN /neg /* true negative recognition rate */

accuracy= (TP +TN) / (pos + neg)

ΣPositive

ΣNegative

Page 47: Veri Madenciliği

Sınıflandırma Modelini Değerlendirme: Karışıklık Matrisi (Class Confusion Matrix)

Table 2.7 • Two Confusion Matrices Each Showing a 10% Error Rate

Model Computed Computed Model Computed ComputedA Accept Reject B Accept Reject

Accept 600 25 Accept 600 75Reject 75 300 Reject 25 300

Page 48: Veri Madenciliği

Kümeleme Konu Başlıkları Kümeleme Nedir? Benzerlik Ölçüsü (Nümerik ve binary ve

kategorik Veri) Kümeleme Yöntemleri

Page 49: Veri Madenciliği

Kümeleme Nedir? Kümeleme bir eğiticisiz öğrenme ile

gerçekleştirilir. Küme: Birbirine benzeyen nesnelerden

oluşan gruptur. Aynı kümedeki örnekler birbirine daha çok benzer Farklı kümedeki örnekler birbirine daha az benzer

Page 50: Veri Madenciliği

Benzerlik Ölçüsü: Nümerik Veri kümesi içindeki nümerik örneklerin

birbirine olan benzerliğini ölçmek için mesafe ölçüsü kullanılabilir. Ancak mesafe ölçüsü benzerlikle ters orantılıdır. L1 Norm (City Block or Manhattan Distance) L2 Norm (Euclidean Distance) L3 Norm (Minkowski distance)

Page 51: Veri Madenciliği

Mesafe Ölçüsü:

L1 Norm (City Block or Manhattan Distance): p boyutlu uzayda verilen i ve j noktalarının birbirine olan uzaklığı

||...||||),(2211 pp jxixjxixjxixjid

Page 52: Veri Madenciliği

Mesafe Ölçüsü:

L2 Norm (Euclidean Distance) :p boyutlu uzayda verilen i ve j noktalarının birbirine olan uzaklığı

)||...|||(|),( 22

22

2

11 pp jxixjxixjxixjid

Page 53: Veri Madenciliği

Mesafe Ölçüsü:

L3 Norm (Minkowski distance): p boyutlu uzayda verilen i ve j noktalarının birbirine olan uzaklığı

q q

pp

qq

jxixjxixjxixjid )||...|||(|),(2211

Page 54: Veri Madenciliği

Mesafe Ölçüsü: Mesafe ölçüsü ile ilgili özellikler;

d(i,j) 0d(i,i) = 0d(i,j) = d(j,i)d(i,j) d(i,k) + d(k,j)

Page 55: Veri Madenciliği

Benzerlik Ölçüsü: Binary İ ve j örneklerine ait binary özellikler bir olasılık tablosu

(contingency table) ile gösterilebilir.

dcbada jisim

),( Simple Matching Coefficient (SMA): İkili değişkenin simetrik olduğu durumlarda

• Jaccard coefficient : İkili değişkenin asimetrik olduğu durumlarda dcb

d jisimJaccard ),(

j Örneği

i Örneği0 1

0 a b

1 c d

a : i örneğinde 0, j örneğinde 0 olan özelliklerin sayısı

b : i örneğinde 0, j örneğinde 1 olan özelliklerin sayısı

c : i örneğinde 1, j örneğinde 0 olan özelliklerin sayısı

d : i örneğinde 1, j örneğinde 1 olan özelliklerin sayısı

Page 56: Veri Madenciliği

Benzerlik Ölçüsü: Binary i=10011011 J=11000110 i ve j örnekleri için verilen

binary özelliklere göre i ve j örneklerinin birbirlerine olan benzerlikleri;

a=1, b=2, c=3, d=2 olduğuna göre Sim SMC(i,j)= 3/8 Sim jaccard(i,j)= 2/8 olur.

Page 57: Veri Madenciliği

Kümeleme Yöntemleri K-Means Kümeleme Hierarşik Kümeleme Yapay Sinir Ağları (SOM-Self Organized

Feature Map) Genetik Algoritmalar

Page 58: Veri Madenciliği

K-Means Kümeleme K-means algoritması basit ve etkin bir

istatistiki kümeleme yöntemidir. K-means algoritması veri kümesini birbirinden

ayrık kümelere böler. K küme sayısının başlangıçta bilinmesi

gerekir.

Page 59: Veri Madenciliği

K-Means Kümeleme K-means kümeleme algoritmasının adımları;

1. Belirlenecek küme sayısı k seçilir.2. Veri kümesinden k adet örnek başlangıç küme merkezleri

olarak rastgele seçilir.3. Öklid mesafesi kullanılarak kalan örneklerin en yakın

olduğu küme merkezleri belirlenir.4. Her küme için yeni örneklerle küme merkezleri hesaplanır.5. Eğer kümelerin yeni merkez noktaları bir önceki merkez

noktaları ile aynı ise işlem bitirilir. Değilse yeni küme merkezleri ile 3 adımdan itibaren işlemler tekrarlanır.

Page 60: Veri Madenciliği

K-Means Kümeleme

Table 3.6 • K-Means Input Values

Instance X Y

1 1.0 1.52 1.0 4.53 2.0 1.54 2.0 3.55 3.0 2.56 5.0 6.0

Page 61: Veri Madenciliği

K-Means Kümeleme

01234567

0 1 2 3 4 5 6

f(x)

x

1

2

3

45

6

Page 62: Veri Madenciliği

K-means Kümeleme

Table 3.7 • Several Applications of the K-Means Algorithm (K = 2)

Outcome Cluster Centers Cluster Points Squared Error

1 (2.67,4.67) 2, 4, 614.50

(2.00,1.83) 1, 3, 5

2 (1.5,1.5) 1, 315.94

(2.75,4.125) 2, 4, 5, 6

3 (1.8,2.7) 1, 2, 3, 4, 59.60

(5,6) 6

Page 63: Veri Madenciliği

K-Means Kümeleme

01234567

0 1 2 3 4 5 6

x

f(x)

2.İterasyon sonunda kümelerin şekli

Page 64: Veri Madenciliği

K-Means Kümeleme

01234567

0 1 2 3 4 5 6

f(x)

x

1

2

3

45

6

3.İterasyon sonunda kümelerin şekli

Page 65: Veri Madenciliği

Kümeleme Yöntemleri K-Means Kümeleme Hierarşik Kümeleme Yapay Sinir Ağları (SOM-Self Organized

Feature Map) Genetik Algoritmalar

Page 66: Veri Madenciliği

Hiyerarşik Kümeleme Küme sayısının bilinmesine gerek yoktur

ancak bir sonlanma kriterine ihtiyaç duyar.

Step 0 Step 1 Step 2 Step 3 Step 4

b

dc

e

a a b

d ec d e

a b c d e

Step 4 Step 3 Step 2 Step 1 Step 0

agglomerative(AGNES)

divisive(DIANA)

Page 67: Veri Madenciliği

Hiyerarşik Kümeleme: AGNES (Agglomerative Nesting)

Kaufmann ve Rousseeuw (1990) tarafından ortaya atılmıştır. Başlangıçta her nesne bir küme olarak alınır. Aralarında en az uzaklık bulunan kümeler birleştirilir. Kümeler arasında mesafe tek bağ metodu (single linkage method)

ile hesaplanır Bütün örnekler tek bir demet içinde kalana kadar birleştirme işlemi

devam eder.

0

1

2

3

4

5

6

7

8

9

10

0 1 2 3 4 5 6 7 8 9 100

1

2

3

4

5

6

7

8

9

10

0 1 2 3 4 5 6 7 8 9 100

1

2

3

4

5

6

7

8

9

10

0 1 2 3 4 5 6 7 8 9 10

Page 68: Veri Madenciliği

Hiyerarşik Kümeleme: DIANA (Divisive Analysis)

Kaufmann and Rousseeuw (1990) tarafından ortaya atılmıştır.

AGNES’in yaptığı işlemlerin tersini yapar.

Başlangıçta bütün örnekler bir demet içindeyken işlem sonunda her örnek bir demet oluşturur.

0

1

2

3

4

5

6

7

8

9

10

0 1 2 3 4 5 6 7 8 9 100

1

2

3

4

5

6

7

8

9

10

0 1 2 3 4 5 6 7 8 9 10

0

1

2

3

4

5

6

7

8

9

10

0 1 2 3 4 5 6 7 8 9 10

Page 69: Veri Madenciliği

Hiyerarşik Kümeleme:Dendrogram Dendrogram: Kümelerin nasıl birleştiğini

gösterir.