12
Cebeci, Z., Yıldız, F., Kayaalp, G.T. (2015) K-Ortalamalar Kümelemesinde Optimum K Değeri Seçilmesi”, 2. Ulusal Yönetim Bilişim Sistemleri Kongresi, 8-10 Ekim 2015, Erzurum. Bildiriler Kitabı (Ed: Ü. Özen ve ark.), s. 231-242. Orka Ofset Matbaacılık, Erzurum, ISBN:978-975-442-738-7. 231 K-ORTALAMALAR KÜMELEMESİNDE OPTİMUM K DEĞERİ SEÇİLMESİ Prof. Dr. Zeynel CEBECİ Çukurova Üniversitesi Ziraat Fakültesi Biyometri ve Genetik Anabilim Dalı [email protected] Ar.Gör. Figen YILDIZ Çukurova Üniversitesi Fen Bilimleri Enstitüsü Zootekni Anabilim Dalı [email protected] Prof.Dr. Tamer KAYAALP Çukurova Üniversitesi Ziraat Fakültesi Biyometri ve Genetik Anabilim Dalı [email protected] Özet Kümeleme analizi, veri yapıları ve örüntüler gibi anlamlı bilginin keşfedilmesini sağladığından veri madenciliğinde en yaygın kullanılan analizlerinden biri olmuştur. Kümeleme analizi için geliştirilmiş yüzlerce algoritma mevcut olmasına karşın her durumda en iyi denilebilecek bir algoritma söz konusu değildir . Uygun bir kümeleme algoritmasının seçimi, veri büyüklüğü ve boyutu ile kümelerin şekli ve dağılışı yanında kümelemenin amacına da bağlı olmakla birlikte büyük verilerin analizinde bölümleyici kümeleme algoritmalarının tercih edildiği görülmektedir. Sert ve bölümleyici bir algoritma olan K-ortalamalar ise yarım asırdan beri hızı ve basitliği nedeniyle belki de en popüler olanlar arasında yer almaktadır. Diğer bölümleyici kümeleme algoritmaları gibi K-ortalamalar algoritması da başlangıçta bir k değerinin yani küme sayısının girilmesini gerektirmektedir. Kümelemenin sonucunu doğrudan etkileyen optimal bir k değeri seçimi için birçok yöntem mevcuttur. Alan bilgisi ve veri yapısı üzerinde belli bir tecrübeye dayanarak yapılan k seçimi sübjektiftir. Diğer yandan kümeleme analizi sonrası belirlenen geçerlilik indislerinin performanslarında veri yapısına göre duyarlılıklar söz konusu olmaktadır. Bu nedenle hala daha güvenilir ve hızlı k değeri verebilecek yöntemlere ihtiyaç duyulmaktadır. Bu çalışmada, k’nın optimal seçiminde kullanılmak üzere Pham ve ark. (2005) tarafından önerilen f(K) fonksiyonu tanıtılmış ve çeşitli yapay veri setleri üzerinde test edilmiştir. Ayrıca kümeleme analizinde optimal k değeri seçiminde kullanılmak üzere yöntemin bir uygulaması olarak R ortamı için geliştirilen "kselection" paketi kullanılarak yöntemin performansı ortaya konulmuştur. Yapılan analizlerde f(K) fonksiyonun kümeleme geçerliliği değerlendirmesinde kullanılan iç indekslerden daha başarılı sonuçlar verdiği saptanmıştır. Anahtar Kelimeler: veri madenciliği, kümeleme analizi, k-ortalamalar kümelemesi, objektif k seçimi CHOOSING AN OPTIMAL K IN K-MEANS CLUSTERING Abstract Cluster analysis has been one of the widely applied data mining techniques because of its usefulness in discovering the meaningful information such as the structures and patterns in datasets. Although there are hundreds of the methods in clustering arena, there is no any best algorithm that fits to all cases. Over a half century, K-means as the basic hard partitioning algorithm has probably been the most popular because of its lower execution time and simplicity to implement in big data analysis. As needed for the other partitioning algorithms, K-means algorithm requires inputting a k value, the number of clusters before starting to cluster analysis. There are several methods to determine an optimal k value, directly affecting the results of partitioning datasets. Among them, the subjective methods depend on user’s domain knowledge and experiences on the underlying datasets. On the other hand, clustering validity indices used after clustering may be sensitive to data structures, and thus they are based on trial- and-error process. Therefore robust, fast and automated methods are still needed for determination of k in K-means clustering. In this paper, for optimal choice of k, the f(K) function proposed by Pham et al. (2005) was explained and tested on the artificially generated datasets. In addition, the performance of the function was revealed for employing with K-means clustering by running the “kselection”, a package developed to implement the method in R environment. According to the results, it was obtained that f(K) function is more successful than the internal indices which are used in clustering validation. Keywords: data mining, cluster analysis, k-means clustering, objective selection of k

K-ORTALAMALAR KÜMELEMESİNDE OPTİMUM K DEĞERİ …traglor.cu.edu.tr/objects/objectFile/qO7TZaso-12102015-24.pdf · Anahtar Kelimeler: veri madenciliği, kümeleme analizi, k-ortalamalar

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

Page 1: K-ORTALAMALAR KÜMELEMESİNDE OPTİMUM K DEĞERİ …traglor.cu.edu.tr/objects/objectFile/qO7TZaso-12102015-24.pdf · Anahtar Kelimeler: veri madenciliği, kümeleme analizi, k-ortalamalar

Cebeci, Z., Yıldız, F., Kayaalp, G.T. (2015) “K-Ortalamalar Kümelemesinde Optimum K Değeri Seçilmesi”, 2. Ulusal Yönetim

Bilişim Sistemleri Kongresi, 8-10 Ekim 2015, Erzurum. Bildiriler Kitabı (Ed: Ü. Özen ve ark.), s. 231-242. Orka Ofset

Matbaacılık, Erzurum, ISBN:978-975-442-738-7.

231

K-ORTALAMALAR KÜMELEMESİNDE OPTİMUM K DEĞERİ SEÇİLMESİ

Prof. Dr. Zeynel CEBECİ Çukurova Üniversitesi Ziraat Fakültesi Biyometri ve Genetik Anabilim Dalı

[email protected]

Ar.Gör. Figen YILDIZ Çukurova Üniversitesi Fen Bilimleri Enstitüsü Zootekni Anabilim Dalı

[email protected]

Prof.Dr. Tamer KAYAALP Çukurova Üniversitesi Ziraat Fakültesi Biyometri ve Genetik Anabilim Dalı

[email protected]

Özet

Kümeleme analizi, veri yapıları ve örüntüler gibi anlamlı bilginin keşfedilmesini sağladığından veri

madenciliğinde en yaygın kullanılan analizlerinden biri olmuştur. Kümeleme analizi için geliştirilmiş yüzlerce

algoritma mevcut olmasına karşın her durumda en iyi denilebilecek bir algoritma söz konusu değildir. Uygun bir

kümeleme algoritmasının seçimi, veri büyüklüğü ve boyutu ile kümelerin şekli ve dağılışı yanında kümelemenin amacına da bağlı olmakla birlikte büyük verilerin analizinde bölümleyici kümeleme algoritmalarının tercih edildiği

görülmektedir. Sert ve bölümleyici bir algoritma olan K-ortalamalar ise yarım asırdan beri hızı ve basitliği nedeniyle

belki de en popüler olanlar arasında yer almaktadır. Diğer bölümleyici kümeleme algoritmaları gibi K-ortalamalar

algoritması da başlangıçta bir k değerinin yani küme sayısının girilmesini gerektirmektedir. Kümelemenin sonucunu doğrudan etkileyen optimal bir k değeri seçimi için birçok yöntem mevcuttur. Alan bilgisi ve veri yapısı üzerinde

belli bir tecrübeye dayanarak yapılan k seçimi sübjektiftir. Diğer yandan kümeleme analizi sonrası belirlenen

geçerlilik indislerinin performanslarında veri yapısına göre duyarlılıklar söz konusu olmaktadır. Bu nedenle hala daha

güvenilir ve hızlı k değeri verebilecek yöntemlere ihtiyaç duyulmaktadır. Bu çalışmada, k’nın optimal seçiminde kullanılmak üzere Pham ve ark. (2005) tarafından önerilen f(K) fonksiyonu tanıtılmış ve çeşitli yapay veri setleri

üzerinde test edilmiştir. Ayrıca kümeleme analizinde optimal k değeri seçiminde kullanılmak üzere yöntemin bir

uygulaması olarak R ortamı için geliştirilen "kselection" paketi kullanılarak yöntemin performansı ortaya

konulmuştur. Yapılan analizlerde f(K) fonksiyonun kümeleme geçerliliği değerlendirmesinde kullanılan iç indekslerden daha başarılı sonuçlar verdiği saptanmıştır.

Anahtar Kelimeler: veri madenciliği, kümeleme analizi, k-ortalamalar kümelemesi, objektif k seçimi

CHOOSING AN OPTIMAL K IN K-MEANS CLUSTERING

Abstract

Cluster analysis has been one of the widely applied data mining techniques because of its usefulness in

discovering the meaningful information such as the structures and patterns in datasets. Although there are hundreds of the methods in clustering arena, there is no any best algorithm that fits to all cases. Over a half century, K-means as

the basic hard partitioning algorithm has probably been the most popular because of its lower execution time and

simplicity to implement in big data analysis. As needed for the other partitioning algorithms, K-means algorithm

requires inputting a k value, the number of clusters before starting to cluster analysis. There are several methods to

determine an optimal k value, directly affecting the results of partitioning datasets. Among them, the subjective

methods depend on user’s domain knowledge and experiences on the underlying datasets. On the other hand,

clustering validity indices used after clustering may be sensitive to data structures, and thus they are based on trial-

and-error process. Therefore robust, fast and automated methods are still needed for determination of k in K-means clustering. In this paper, for optimal choice of k, the f(K) function proposed by Pham et al. (2005) was explained and

tested on the artificially generated datasets. In addition, the performance of the function was revealed for employing

with K-means clustering by running the “kselection”, a package developed to implement the method in R environment. According to the results, it was obtained that f(K) function is more successful than the internal indices

which are used in clustering validation.

Keywords: data mining, cluster analysis, k-means clustering, objective selection of k

Page 2: K-ORTALAMALAR KÜMELEMESİNDE OPTİMUM K DEĞERİ …traglor.cu.edu.tr/objects/objectFile/qO7TZaso-12102015-24.pdf · Anahtar Kelimeler: veri madenciliği, kümeleme analizi, k-ortalamalar

Cebeci, Z., Yıldız, F., Kayaalp, G.T. (2015) “K-Ortalamalar Kümelemesinde Optimum K Değeri Seçilmesi”, 2. Ulusal Yönetim

Bilişim Sistemleri Kongresi, 8-10 Ekim 2015, Erzurum. Bildiriler Kitabı (Ed: Ü. Özen ve ark.), s. 231-242. Orka Ofset

Matbaacılık, Erzurum, ISBN:978-975-442-738-7.

232

1. GİRİŞ

Kümeleme analizi, bir veri setindeki nesneleri ortak özellikleri itibariyle gruplandırma

ya da küme olarak adlandırılan alt veri setlerine ayırma işlemidir (Liu ve ark., 2010). Kümeleme

işlemi ile bir kümede bulunan nesnelerin mümkün olduğunca birbirine benzer, ancak diğer

kümelerdekinden mümkün olduğunca farklı olması amaçlanır. Bir başka deyişle küme içindeki

varyansın düşük, kümeler arasındaki varyansların ise yüksek olması arzulanmaktadır.

Kümeleme ile veri setleri bölümlenerek mevcut veri yapısı ve desenler ortaya konulduğundan

anlamlı bilginin keşfedilmesi için veri madenciliğinde çok sıkça kullanılmaktadır.

Günümüzde, kümeleme yöntemlerinin yüzlercesi mevcut olup çeşitli şekillerde

sınıflandırılmaktadır. Yaygın kullanılan bir sınıflamaya göre kümeleme yöntemlerini hiyerarşik

yöntemler, bölümleyici yöntemler ve bunların çeşitli şekillerde kombine edildiği karma

yöntemler olarak üç grupta incelemek mümkündür. Bölümleyici kümeleme algoritmaları veri

setlerini k adet alt sete (ya da kümeye) bölen/parçalayan algoritmalardır. Bu nedenle, en çok

çalışılan konulardan biri, herhangi bir algoritmanın çalıştırılmasından önce, analizin en başında

bilinmesi gereken k’nın seçimidir. Bu parametre, veri setinin bölümleneceği küme sayısını

göstermekte, bir başka ifadeyle veri setinde mevcut kümelerin sayısını belirtmektedir. Başarılı

ya da doğru bir kümeleme k’nın optimal seçimine bağlıdır. Çünkü k ne olursa olsun,

bölümleyici algoritmalar geçerli veya geçersiz bir kümeleme sonucu üretecektir. Ancak amaç

geçerli bir kümeleme sonucu elde etmek olduğuna göre gerçek küme sayısı veya buna en yakın

sayının bulunması ve kullanılması doğru sonuçlara ulaşılmasını sağlamak için gereklidir. Bir

başka deyişle k’nın isabetli seçilmesi başarılı bir kümeleme analizi için belirleyici olup

bölümleyici kümeleme algoritmalarının en önemli dezavantajlarından birini oluşturmaktadır

(Ray ve Turi, 1999).

Bu çalışmada, k’nın seçiminde kullanılmak üzere Pham ve ark. (2005) tarafından

önerilen ve objektif değerlendirme sağlayan f(K) fonksiyonu çeşitli yapay veri yapıları üzerinde

test edilmektedir. Ayrıca optimal k değeri seçimindeki performansı çeşitli kümeleme

indekslerine göre karşılaştırılmaktadır.

2. K-ORTALAMALAR ALGORİTMASI VE K’NIN BELİRLENMESİ

2.1. K-ortalamalar Algoritması

K-ortalamalar (KO), 50 yıldan uzun bir süreden beri belki de en çok kullanılan

bölümleyici yöntemlerden biri olmuştur. Nesne sınıflandırma, görüntü bölümleme, veri

madenciliği, makine öğrenmesi gibi bilişim uygulamaları yanında iktisat, müşteri yönetimi,

pazarlama, biyoinformatik ve mühendislik araştırmaları gibi hemen her alanda en çok kullanılan

yöntemleri arasında yer almıştır. K-ortalamalar aşağıdaki amaç fonksiyonu miminize eden

bölümleyici bir kümeleme algoritmasıdır:

𝐽𝐾𝑂(𝑿; 𝑽) = ∑ ∑ 𝐷𝑖𝑗2𝑘

𝑗=1𝑛𝑖=1 (1)

Burada 𝑘 küme sayısını ve 𝑛 nesne sayısını göstermektedir. 𝐷𝑖𝑗2 , nesneler ile küme merkezleri

arasındaki uzaklık ölçüsüdür. Kümeleme analizlerinde uzaklık normu olarak genellikle Öklid

uzaklıkları kullanılmakta (L2 normu) ve ‖𝑥𝑖𝑗 − 𝑣𝑗‖ 2, 1 ≤ 𝑗 ≤ 𝑘 olarak hesaplanmaktadır.

Burada 𝑥𝑖𝑗 , 𝑗. kümedeki 𝑖. nesneyi; 𝑣𝑗 ise 𝑗. küme merkezi prototipini ifade etmektedir. K-

ortalamalar algoritması aşağıdaki adımlardan oluşmaktadır:

1) 𝑿 veri setinden rastgele k adet küme merkezi seçilir.

2) Veri noktaları ile küme merkezleri arasındaki uzaklıklar hesaplanır.

3) Veri noktaları uzaklığı kendilerine en küçük olan merkezlerin ait olduğu kümelere

atanır.

4) Küme merkezleri Eşitlik (2) ile güncellenir:

Page 3: K-ORTALAMALAR KÜMELEMESİNDE OPTİMUM K DEĞERİ …traglor.cu.edu.tr/objects/objectFile/qO7TZaso-12102015-24.pdf · Anahtar Kelimeler: veri madenciliği, kümeleme analizi, k-ortalamalar

Cebeci, Z., Yıldız, F., Kayaalp, G.T. (2015) “K-Ortalamalar Kümelemesinde Optimum K Değeri Seçilmesi”, 2. Ulusal Yönetim

Bilişim Sistemleri Kongresi, 8-10 Ekim 2015, Erzurum. Bildiriler Kitabı (Ed: Ü. Özen ve ark.), s. 231-242. Orka Ofset

Matbaacılık, Erzurum, ISBN:978-975-442-738-7.

233

𝑣𝑗 = ∑ 𝑥𝑖𝑗𝑛𝑗

𝑖=1/𝑛𝑗 ; 1 ≤ 𝑗 ≤ 𝑘 (2)

5) Küme değiştiren veri noktaları yoksa ya da birbirini izleyen iki adımda hata

karelerindeki artış tanımlanmış bir yaklaşma değerine eşit veya küçükse kümeleme sona

erdirilir, değilse 2. adıma geçilerek işlemler tekrarlanır.

2.2. K’nın Belirlenmesi

Bölümleyici kümelemede kullanılacak k değeri sübjektif ve objektif olarak

belirlenebilmektedir. Genelde hiyerarşik kümelemede başvurulan sübjektif yöntemler

araştırmacının üzerinde çalıştığı veri setlerini tanıyacak alan bilgisine sahip olmasına (veya daha

önceki benzer araştırmalardan elde edilen önbilgiyi kullanmasına) ve serpilme grafiklerini

incelemesine dayanmaktadır (Hamerly ve Elkan, 2004). Ancak kümeleme algoritmaları, verinin

yapısı, hacmi, kümelerin şekli ve uzaydaki yerleşimleri itibariyle farklı sonuçlar

üretebileceğinden sübjektif yöntemlerle çoğu durumda uygun veya geçerli sonuçlara

ulaşılamamaktadır (Kodinariya ve Makwana, 2013:90). Dahası boyut sayısı arttıkça sübjektif

yöntemlerle k seçimi fazlasıyla zorlaşmakta hatta yapılamaz duruma gelinmektedir. Alternatif

olarak kümeleme sonuçlarının iyiliği ya da geçerliliğini belirlemek için istatistiksel indeks,

varyans ve uyum iyiliğine dayalı çeşitli indeksler geliştirilmiştir. K-ortalamalar algoritmalarının

çeşitli k değerleri ile birçok defa çalıştırılmasından sonra elde edilen sonuçları kullanarak

optimum bir k değeri belirlemek üzere kullanılan bu indeksleri dış indeksler, iç indeksler ve

relatif indeksler olarak gruplandırmak olasıdır (Kovács ve ark., 2005; Rendón ve ark., 2011).

Dış indeksler, önceden yapılmış ve bilinen bir sınıflamayı belli bir kümeleme

algoritmasının çalıştırılmasıyla elde edilen kümeleme sonuçlarıyla karşılaştıran ölçütlerdir

(Dudoit ve Fridlyand, 2002). Bu durumda kümelerde yer alan nesnelerin hangi kümeye ait

oldukları daha önceden bilinmekte ve uygulanan kümeleme algoritması için referans/kontrol

olarak kullanılmaktadır. Yani nesneler kümeler itibariyle etiketlenmiş durumdadırlar. İç

indeksler ise herhangi bir dış bilgi olmaksızın sadece analiz edilen veriden kümeleme

algoritması ile elde edilen sonucun geçerliliğini ortaya koyan ölçütlerdir (Thalamuthu ve ark.,

2005). Relatif indeksler, bir veya daha fazla kümeleme algoritmasının aynı veri seti üzerinde

farklı girdi parametreleri ile çalıştırılmasına dayanmaktadır. En iyi kümelemenin hangisi

olduğuna elde edilen sonuçlardan hesaplanan indekslerin karşılaştırması ile karar verilmektedir.

Kümeleme analizleri, yönetimsiz öğrenme yöntemleri olduğundan veri yapısı ve

dolayısıyla kümelenme eğilimleri daha önceden bilinmeyen veri setlerinde uygulandığından

çoğu araştırma ve uygulamada kümeleme sonucunu değerlendirmek için iç geçerlilik indeksleri

üzerinde yoğunlaşma olduğu görülmektedir. İç indeksler kompaktlık, ayrışma veya bunların

çeşitli bileşimlerine dayanmaktadırlar. Kompaktlık bir kümedeki nesnelerin birbirleriyle ne

kadar ilişkili ya da yapışık olduğunun ölçüsüdür. Ayrışma ise bir kümenin diğerlerinden ne

kadar ayrıldığını ya da belirgin olduğunu ortaya koymaktadır. İndekslerin formülasyonları ve

performansları çeşitli çalışmalarda ayrıntılı olarak incelenmiştir (Halkidi ve ark., 2001; Rendón

ve ark., 2011, Charrad ve ark., 2012).

Algoritmaların sağladığı bilgiler itibariyle farklılıklar olduğundan geçerlilik

indekslerinin tüm kümeleme algoritmaları için aynı performansı göstermeleri beklenemez. Bu

yüzden kümeleme algoritmalarına özel indekslerin kullanılması gerekli olabilmektedir. Örneğin

Xie-Beni indeksi, Bölümleme katsayısı, Bölümleme entropisi gibi indeksler bulanık kümeleme

algoritmalarının sonuçlarını değerlendirmede iyi çalışan indeksler arasında incelenmektedir

(Wang ve Zhanga, 2007). Kümeleme sonuçları üzerinde çalışan indeksler dışında, yaygın

olmamakla birlikte Akaike Bilgi Kriteri (AIC) ve Bayesçi Bilgi Kriteri (BIC) gibi bilgi kriterleri

ile En Küçük Açıklama Uzunluğu (MDL) ve GAP istatistiği gibi bazı ölçütler de küme sayısı

seçiminde kullanılabilmektedirler.

Küme geçerlilik indeksleri ve kriterlerinin her birinin bir takım artı ve eksileri

bulunmaktadır. Bu nedenle, aynı kümeleme algoritmasının farklı sayıda geçişlerle veya farklı

Page 4: K-ORTALAMALAR KÜMELEMESİNDE OPTİMUM K DEĞERİ …traglor.cu.edu.tr/objects/objectFile/qO7TZaso-12102015-24.pdf · Anahtar Kelimeler: veri madenciliği, kümeleme analizi, k-ortalamalar

Cebeci, Z., Yıldız, F., Kayaalp, G.T. (2015) “K-Ortalamalar Kümelemesinde Optimum K Değeri Seçilmesi”, 2. Ulusal Yönetim

Bilişim Sistemleri Kongresi, 8-10 Ekim 2015, Erzurum. Bildiriler Kitabı (Ed: Ü. Özen ve ark.), s. 231-242. Orka Ofset

Matbaacılık, Erzurum, ISBN:978-975-442-738-7.

234

parametrelerle çalıştırılarak denenmesi ve algoritmayla bağımlılık göstermeyen yani

korelasyonu olmayan indekslerin seçilmesinin iyi sonuçlar verebileceği söylenebilir. Örneğin

K-ortalamaların farklı performansları için siluet indeksi veya grup içi hata kareler toplamlarını

kullanmak sorunlu olmayan indeksler olarak görülmektedir.

Çok sayıda iç geçerlilik indeksi bulunmakla birlikte bunların pratikte kullanılabilirlikleri

istatistik yazılımlarında mevcut olmalarıyla yakından ilişkilidir. R, diğer istatistik yazılımlarıyla

karşılaştırıldığında bu açıdan oldukça iyi bir konumdadır. R ortamında, cclust (Dimitriadou,

2014), clusterSim (Walesiak ve Dudek, 2014), clv (Nieweglowski, 2014) ve clValid (Brock ve ark., 2008) gibi paketlere bulunmakla birlikte 29 iç indeks ve 14 dış indeksle

clusterCrit (Desgraupes, 2013, 2015) ve 30 adet indeksle NbClust (Charrad ve ark.,

2014) bunlar arasında en zenginlerindendir. Veri setlerinde mevcut küme sayılarını saptamak

için geliştirilen NbClust’ın mevcut sürümünde hiyerarşik kümeleme sonuçları yanında K-

ortalamalar kümelemesi sonuçlarının incelenebilmesi ve SOM yöntemi için çalışmaların da

sürdürülmesi diğer paketlere göre önemli bir başka avantajıdır. NbClust’ın tanıtım belgesinde

(Charrad ve ark., 2012) geçerlilik indekslerinin formülasyonları da verilmiş olup liste halinde

bir arada incelenmesi mümkün olabilmektedir.

Geçerlilik indekslerine dayalı olarak k sayısını saptamak araştırmacılar için oldukça

zaman alıcı ve güç olduğundan daha kolay yöntemlere ihtiyaç duyulmuştur. Son yıllarda

Bezdek tarafından önerilen görsel kümeleme eğilimi değerlendirmesi (VAT) (Bezdek ve

Hathway, 2002; Bezdek ve ark., 2007) ve VAT’ın iyileştirilmiş bir sürümü olan iVAT (Havens

ve Bezdek, 2012) gibi görsel teknikler geliştirilmiştir. Dahası bu tekniklerin görsel çıktıları

üzerinde karanlık blok sayımı (DBE), küme sayısı çıkarma (CCE) (Pakhira, 2012), köşegen

taramasıyla görsel kümelenme eğilimi (VATdt) saptama (Hu, 2012) ve spektral VAT

(spectVAT) (Krishnamoorthi, 2011) gibi otomatikleştirilmiş küme sayısı saptama algoritmaları

yeni yöntemler arasındadır. Tüm mümkün k değerleri arasında en iyi olanı saptamak için

kullanılabilecek bir başka yaklaşım ise cezalandırma yoluyla model seçimidir (Fischer, 2011).

Yeni geliştirilen Küme Ayrıklık Geçerliliği (CDV; Cluster Discreteness Validity) indeksinin de

en etkili indekslerden biri olduğu bildirilmektedir (Yeh ve ark., 2014). Yine, birçok küme

geçerlilik indekslerinin birlikte kullanılabileceği, duyarlılık ve belirsizlik analizi tekniklerine

dayalı kompozit indeksler de geliştirilmektedir (Saisana ve ark., 2005; Marozzi, 2014).

Bununla birlikte Pham, Dimov ve Nguyen (2005) tarafından k’nın belirlenmesi için

önerilen f(K) fonksiyonunun objektif ve geçerli sonuçlar verdiği ortaya konulmuştur.

Araştırmacılar yöntemi tanıttıkları çalışmalarında, f(K)’nın küme hacminden etkilenmediği yani

sağlam (robust) bir yöntem olduğu; bunun için boyut sayısını dikkate alarak çalışan bir tartı

faktörü de kullandığını belirtmektedirler. Bununla birlikte f(K) fonksiyonunun, istatistik

yazılımlarına entegrasyonu ve tanınırlığı henüz yeterli düzeyde değildir. Bu nedenle çeşitli veri

setleriyle etkinliğinin araştırılması ve yaygın kullanılan K-ortalamalar ile kümeleme analizine

sağlayacağı katkıların gösterilmesi önem taşımaktadır.

2.3. f(K) fonksiyonu ile K’nin Belirlenmesi

K-ortalamalar yönteminde her bir küme için distorsiyonlar yani kompaktlıktan

uzaklaşmalar veri noktaları ile küme merkezleri arasındaki uzaklığın bir fonksiyonu olup:

𝐼𝑗 = ∑ [𝑑(𝑥𝑗𝑖 , 𝑐𝑗)]2𝑛𝑗

𝑖=1 (3)

ile hesaplanır. Burada, 𝐼𝑗 j. kümenin distorsiyonu; 𝑐𝑗 j. kümenin merkezi, 𝑛𝑗 j. kümedeki

nesnelerin sayısı; 𝑥𝑗𝑖, j. kümedeki i. nesneyi ve 𝑑(𝑥𝑗𝑖,𝑐𝑗) ise 𝑥𝑗𝑖 nesnesi ile 𝑐𝑗 arasındaki

uzaklıktır. Her bir küme, 𝐼𝑗 distorsiyonu ve veri setinin tamamına etkisi, yani 𝑆𝐾’ya (Eşitlik 4)

katkısı ile temsil edilir.

𝑆𝐾 = ∑ 𝐼𝑗𝐾𝑗=1 (4)

Burada 𝐾 küme sayısı için 𝑆𝐾 küme distorsiyonları toplamını göstermektedir. 𝑁𝑑 , özelliklerin

(boyutların) sayısı olup Eşitlik (5)’deki gibi hesaplanan 𝛼𝐾, bir tartı (ağırlık) faktörü olarak

boyut etkisini gidermektedir.

Page 5: K-ORTALAMALAR KÜMELEMESİNDE OPTİMUM K DEĞERİ …traglor.cu.edu.tr/objects/objectFile/qO7TZaso-12102015-24.pdf · Anahtar Kelimeler: veri madenciliği, kümeleme analizi, k-ortalamalar

Cebeci, Z., Yıldız, F., Kayaalp, G.T. (2015) “K-Ortalamalar Kümelemesinde Optimum K Değeri Seçilmesi”, 2. Ulusal Yönetim

Bilişim Sistemleri Kongresi, 8-10 Ekim 2015, Erzurum. Bildiriler Kitabı (Ed: Ü. Özen ve ark.), s. 231-242. Orka Ofset

Matbaacılık, Erzurum, ISBN:978-975-442-738-7.

235

𝜶𝑲 = {1 −

3

4𝑁𝑑, 𝐾 = 2, 𝑁𝑑 > 1 𝑖𝑠𝑒

𝛼𝐾−1 +1−𝛼𝐾−1

6, 𝐾 > 2, 𝑁𝑑 > 1 𝑖𝑠𝑒

(5)

𝛼𝐾, 1 veya 1’den küçük bir sayıdır. 𝑁𝑑 , yani boyutların sayısı ile ters orantılı olarak

distorsiyondaki azalmayı göstermektedir. f(K) fonksiyonu yukarıdaki değerleri kullanarak

Eşitlik (6)’daki gibi tanımlanmaktadır.

𝒇(𝑲) = {

1, 𝐾 = 1 𝑖𝑠𝑒𝑆𝐾

𝛼𝐾𝑆𝐾−1, 𝑆𝐾−1 ≠ 0, ∀𝐾 = 1 𝑖𝑠𝑒

1, 𝑆𝐾−1 = 0, ∀𝐾 = 1 𝑖𝑠𝑒

(6)

Eşitlik (6)’daki tanımlamalara göre f(K), gerçek distorsiyonun tahmin edilen distorsiyona

oranıdır. Küme sayısı 2’den daha büyük olmaya devam ederken 𝑆𝐾 düşmeye başlar ve f(K)

değeri 1’e yaklaşır. Bu değer veri setinde nesnelerin artık uniform dağılmaya başladığını yani

kümelenme eğilimi olmadığını gösterir. Bunun aksine nesnelerin dağılımında toplanma

(konsantrasyon) alanları bulunduğunda f(K) düşüş gösterir. Küçük f(K)değerleri bu nedenle

kümelerin varlığını ifade eder. Belli bir eşik değerinden (genelde 0.85) küçük f(K) değeri veren

k değerleri kümeleme için önerilmektedir. Eğer 0.85’ten küçük f(K) değeri yoksa eşik değeri 1

varsayılır. Analiz sonucunda 1’den küçük f(K) değeri bulunamamışsa veri setinde kümeler

olmadığı, dolayısıyla analiz yapmaya gerek olmadığı anlaşılır.

3. MATERYAL VE METOT

Araştırmada farklı şekillerde (kare, daire, elips, konkav) düzenli ve düzensiz (rastgele)

yerleşimli kümeler içeren ve ayrıntıları Tablo 3.1’de listelenen ve yapıları Grafik 4.1’de

görüntülenen 12 adet veri seti kullanılmıştır. Veri setleri R ortamında (R Core Team, 2015)

stats, ellipse, splancs ve mlbench gibi paketlerden çeşitli fonksiyonlar kullanılarak

geliştirilen bir R programıyla 2 boyutlu (2 özellikli) olarak üretilmişlerdir. Tablo 3.1’de k gerçek

küme sayısını (etiketli sınıf sayısını), n toplam veri noktası sayısı ve nk ise ortalama küme

büyüklüğünü göstermektedir Üretilen yapay veri setlerindeki nesnelerin özellikleri farklı

aralıklarda olduğundan analizlere başlamadan veriler standardize edilmişlerdir.

İstatistik yazılımlarında f(K), Rodriguez’in (2015) ‘kselection’ paketi ile yalnız

R’de uygulanmıştır. Pakette bulunan kselection fonksiyonu, bir k serisi için R’ın stats

paketindeki kmeans fonksiyonundan döndürülen kümeleme sonuçlarını kullanarak f(K)

değerleri vektörünü; en iyi küme sayısını ve belli bir eşik değeri (genelde 0.85) altında kalan

f(K) değerlerine göre önerilen küme sayılarını vermektedir. Bir başka çalışmada yöntemin

Python kodlaması yapılmış ve GAP istatistiklerine göre performansı karşılaştırılmıştır (Data

Science Lab, 2014). (Bu çalışmanın yazarları tarafından da yöntemin K-ortalamalar ile

otomatikleştirilmiş kullanımı için R dilinde yeni bir uygulaması üzerinde çalışmalar

sürdürülmektedir). Tablo 3.1. Veri setleri ve yapısal özellikleri

Veri seti k n nk Küme yapısı

DS1 9 1800 200 kare şekilli, düzenli serpilme

DS2 9 1800 200 daire şekilli, düzenli serpilme

DS3 9 1800 200 elips şekilli, düzenli serpilme

DS4 9 1800 200 kare şekilli, diyagonalde düzenli serpilme

DS5 9 1800 200 elips şekilli, diyagonalde düzenli serpilme

DS6 9 1800 200 basık elips şekilli, diyagonalde düzenli serpilme

DS7 9 1000 111 dikey yönelimli basık elips şekilli düzensiz serpilme

DS8 9 1000 111 yatay yönelimli basık elips şekilli düzensiz serpilme

DS9 9 1000 111 gürültülü çember şekilli düzensiz serpilme

DS10 14 1328 95 gürültülü çember şekilli düzensiz serpilme

DS11 7 788 113 çeşitli şekillerde düzensiz serpilme

DS12 3 1200 400 konkav ve çember şekilli, düzensiz serpilme

Page 6: K-ORTALAMALAR KÜMELEMESİNDE OPTİMUM K DEĞERİ …traglor.cu.edu.tr/objects/objectFile/qO7TZaso-12102015-24.pdf · Anahtar Kelimeler: veri madenciliği, kümeleme analizi, k-ortalamalar

Cebeci, Z., Yıldız, F., Kayaalp, G.T. (2015) “K-Ortalamalar Kümelemesinde Optimum K Değeri Seçilmesi”, 2. Ulusal Yönetim

Bilişim Sistemleri Kongresi, 8-10 Ekim 2015, Erzurum. Bildiriler Kitabı (Ed: Ü. Özen ve ark.), s. 231-242. Orka Ofset

Matbaacılık, Erzurum, ISBN:978-975-442-738-7.

236

Bu çalışmada, kselection ile önerilen en iyi küme sayıları, NbClust paketindeki

24 geçerlilik indeksi ile önerilen en iyi küme sayıları ile karşılaştırılmıştır. Yöntemin

performansı ayrıca veri setlerinde nesnelere atanan sınıf etiketlerine göre belirlenen sınıf sayıları

(ya da orijinal etiketli kümelerin sayısı) ile de karşılaştırılmıştır. Analizlerde K-ortalamalar için

kmeans fonksiyonu kullanılmış ve her bir veri seti için 2’den başlayarak 1 artışla (k=2,.., 20

aralığında) nstart=10 ve iters=100 olmak üzere varsayılan girdi parametreleriyle

çalıştırılmıştır.

4. BULGULAR VE TARTIŞMA

Tablo 4.1’in ilk satırında verilen etiketli sınıf sayıları, veri setlerindeki etiketli sınıf

sayılarını, bir başka deyişle orijinal küme sayılarını ifade etmektedir. Tablo 2’nin ikinci

satırında f(K) ile önerilen küme sayıları listelenmiştir. Koyu renkli olarak gösterilen rakamlar

fonksiyonun önerdiği en iyi küme sayısını (en küçük f(K) değeri vereni) gösterirken diğerleri

önerilen küme sayılarını (0.85 eşik değeri altındaki f(K) değerlerini) göstermektedir. Tablo

4.1’in üçüncü satırı ise f(K) ile önerilen küme sayılarının etiketli sınıf sayıları yani veri setinde

daha önceden bilinen küme sayıları ile karşılaştırma sonuçlarını içermektedir.

Karşılaştırmalarda bu iki sayı eşitse f(K) küme sayısını tam isabetle saptamış demektir (Tablo

4.1’de +++ ile gösterilmiştir). Eğer etiketli sınıf sayısı f(K) tarafından önerilen küme sayıları

arasında bulunuyorsa küme sayıları isabetli (++) olarak saptanmakta ancak araştırmacı

değerlendirmesine ihtiyaç duyulmaktadır. Bulunan küme sayılarının gerçek küme sayısından +1

büyük veya -1 küçük olması halinde ise yakın isabet ya da makul isabet (Tablo 4.1’de + ile

gösterilmiştir) sağlandığı varsayılmıştır. Yukarıdaki durumların hiçbiri söz konusu değilse, f(K)

küme sayısı bulmada başarısız ( Tablo 4.1’de – ile gösterilmiştir) olarak değerlendirilmiştir.

Yukarıdaki açıklamalara göre, f(K)’nın DS1 ve DS9 veri setlerinde küme sayısını tam

isabetle bulduğu görülmektedir (Tablo 4.1’de koyu renkli sayılar f(K) tarafından önerilen

optimal küme sayılarını göstermektedir). Grafik 4.1’de kare şekilli kümeleri içeren DS1 veri seti

için f(K) ile optimal küme sayısı 9 olarak elde edilmiştir. Nitekim söz konusu grafikte 9 adet

küme olduğu gözle bakıldığında da açıkça anlaşılmaktadır. Grafik 4.2’de DS1 için f(K)

grafiğinde yeşil daire şekli ile işaretlenen noktaya bakıldığında optimal küme sayısının 9 olduğu

görülmektedir. DS9 veri setinde de küme sayısı doğru şekilde bulunmuş ve optimal k değeri

olarak 9 işaretlenmiş olsa da 7 farklı küme sayısı önerisi daha yapılmıştır. Tablo 4.1’den

görüleceği gibi önerilen küme sayıları 2, 3, 4, 5, 6, 7 ve 9 olmakla birlikte en düşük f(K) değerli

olanı 9’dur (Grafik 4.2). Bu veri setlerindeki küme yapıları ve serpilmesini dikkate alarak bir

değerlendirme yapıldığında, f(K) fonksiyonu:

a) Kare şekilli ve düzenli bir desenle küme serpilmesi gösteren veri setleri,

b) Daire şekilli ve iyi ayrılmış küme serpilmesi gösteren veri setlerinde

çok başarılı olmaktadır.

DS2 veri setinde kontrol amacıyla kullanılan etiketli sınıf sayısı 9 olduğu halde f(K) ile elde

edilen optimal küme değeri 2’dir. Bununla birlikte DS2 için önerilen küme sayıları 2, 3, 5, 6, 9

ve 11 olarak saptanmıştır. Bu durumda f(K) tarafından gerçek küme sayısı olan 9, en küçük f(K)

değerli yani optimal küme sayısı olarak bulunmamıştır. Ancak önerilen küme sayıları içinde 9

da bulunduğundan sonuç isabetli (++) sayılabilir. Böyle bir durumda, k seçiminde araştırmacı

değerlendirmesine ihtiyaç olacağı ve k’nın ancak inceleme sonucunda seçilebileceği

anlaşılmaktadır. Benzer değerlendirmeler DS4, DS5 ve DS7 veri setleri için de geçerlidir.

Sonuçlar özetlenirse, f(K) fonksiyonu:

a) Daire şekilli ve düzenli serpilme gösteren veri setlerinde,

b) Kare şekilli ve diyagonal yerleşimli düzenli serpilme gösteren veri setlerinde,

c) Elips şekilli ve diyagonal yerleşimli düzenli serpilme gösteren veri setlerinde,

d) Elips şekilli ve dikey yerleşimli düzensiz serpilme gösteren veri setlerinde

iyi çalışmaktadır. Ancak önerilen küme sayılarına ilaveten araştırmacı incelemesine de ihtiyaç

duyulmaktadır.

Page 7: K-ORTALAMALAR KÜMELEMESİNDE OPTİMUM K DEĞERİ …traglor.cu.edu.tr/objects/objectFile/qO7TZaso-12102015-24.pdf · Anahtar Kelimeler: veri madenciliği, kümeleme analizi, k-ortalamalar

Cebeci, Z., Yıldız, F., Kayaalp, G.T. (2015) “K-Ortalamalar Kümelemesinde Optimum K Değeri Seçilmesi”, 2. Ulusal Yönetim

Bilişim Sistemleri Kongresi, 8-10 Ekim 2015, Erzurum. Bildiriler Kitabı (Ed: Ü. Özen ve ark.), s. 231-242. Orka Ofset

Matbaacılık, Erzurum, ISBN:978-975-442-738-7.

237

DS1

DS2

DS3

DS4

DS5

DS6

DS7 DS8

DS9

DS10

DS11

DS12

Grafik 4.1. Veri setlerine göre serpilme grafikleri

Tablo 4.1. f(K) fonksiyonuna göre optimum ve önerilen küme sayıları

İndeks DS1 DS2 DS3 DS4 DS5 DS6 DS7 DS8 DS9 DS10 DS11 DS12

Etiketli küme

(sınıf) sayısı 9 9 9 9 9 9 8 8 9 14 7 3

f(K) ile önerilen

küme sayısı

9 2, 3,

5, 6,

9, 11

2 2, 3,

5, 6,

9, 11

2, 3,

6, 9 2 2, 3,

4, 5,

6, 7,

8

2, 3,

4, 6,

7

2, 3,

4, 5,

6, 7,

9

2, 3, 4,

8, 12,

13

2, 3 2,5

Değerlendirme +++ ++ - ++ ++ - ++ + +++ + - +

Page 8: K-ORTALAMALAR KÜMELEMESİNDE OPTİMUM K DEĞERİ …traglor.cu.edu.tr/objects/objectFile/qO7TZaso-12102015-24.pdf · Anahtar Kelimeler: veri madenciliği, kümeleme analizi, k-ortalamalar

Cebeci, Z., Yıldız, F., Kayaalp, G.T. (2015) “K-Ortalamalar Kümelemesinde Optimum K Değeri Seçilmesi”, 2. Ulusal Yönetim

Bilişim Sistemleri Kongresi, 8-10 Ekim 2015, Erzurum. Bildiriler Kitabı (Ed: Ü. Özen ve ark.), s. 231-242. Orka Ofset

Matbaacılık, Erzurum, ISBN:978-975-442-738-7.

238

DS1

DS2

DS3

DS4

DS5

DS6

DS7 DS8 DS9

DS10

DS11

DS12

Grafik 4.2. Veri setlerine göre f(K) değerleri grafiği

DS8, DS10 ve DS12 veri setlerinde f(K) fonksiyonu ile etiketli sınıf sayılarının

bulunamadığı, ancak yaklaşık küme sayısı (±1) önerilerinin yapıldığı görülmektedir. Örneğin,

DS8 setinde etiketli sınıf sayısı 8’dir ve f(K) buna çok yakın bir değer olarak 7 önerisinde

bulunmuş olup araştırmacı değerlendirmesine ihtiyaç olduğuna işaret etmektedir. Böylesi

durumlarda k değeri seçiminde objektif bir yaklaşımdan biraz daha uzaklaşılacağı

Page 9: K-ORTALAMALAR KÜMELEMESİNDE OPTİMUM K DEĞERİ …traglor.cu.edu.tr/objects/objectFile/qO7TZaso-12102015-24.pdf · Anahtar Kelimeler: veri madenciliği, kümeleme analizi, k-ortalamalar

Cebeci, Z., Yıldız, F., Kayaalp, G.T. (2015) “K-Ortalamalar Kümelemesinde Optimum K Değeri Seçilmesi”, 2. Ulusal Yönetim

Bilişim Sistemleri Kongresi, 8-10 Ekim 2015, Erzurum. Bildiriler Kitabı (Ed: Ü. Özen ve ark.), s. 231-242. Orka Ofset

Matbaacılık, Erzurum, ISBN:978-975-442-738-7.

239

anlaşılmaktadır. Örneğin, DS12 veri setinde optimal küme sayısı 2 olarak saptanmış ancak 5

önerisi de yapılmıştır. Bu durumda, düzensiz elips şekilli, düzensiz daire şekilli ve gürültülü

veri setleri ile düzensiz konkav şekilli kümelere sahip veri setlerinde f(K) sonuçlarının çok

kullanışlı olamayacağı söylenebilir.

DS3 ve DS6 veri setleri için birer adet küme sayısı önerildiği; dahası bunların etiketli

sınıf sayısından çok küçük oldukları görülmektedir. Bu durum, f(K) fonksiyonunun bu tür veri

setlerinde çok başarısız olduğuna işaret etmektedir. DS11 veri seti için iki değer önerilse de

benzer durum geçerli olup f(K)’nın bu tür veri setlerinde iyi çalışamayacağı anlaşılmaktadır. Bu

sonuç, büyük ihtimalle araştırmada kullanılan uzaklık normunun Öklid uzaklığı olmasından da

kaynaklanmış olabilir. Bu nedenle başka uzaklık normları ile test edilmesi gerekmektedir.

Sonuç olarak, f(K) fonksiyonu küme sayısını bulmada 2 veri setinde çok başarılı, 4 veri

setinde başarılı, 3 veri setinde az başarılı ve 3 veri setinde ise başarısız bulunmuştur. Bu

sonuçlar f(K) fonksiyonunun genel olarak optimal küme sayısını belirlemek için kabul edilebilir

bir başarısı olduğunu ortaya koymaktadır. Aşağıda diğer kümeleme indeksleri ile yapılan

karşılaştırmalar da bu savı doğrulamaktadır.

Tablo 4.2’de analiz edilen veri setleri için yaygın olarak kullanılan 24 indeks tarafından

önerilen küme sayıları görülmektedir. Tabloda kırmızı ve altı çizili işaretlenmiş değerler veri

setlerinde etiketli sınıf sayısına (orijinal küme sayısı) eşit olarak bulunan küme sayılarını

göstermektedir. Örneğin, KL indeksi DS6; Scott indeksi DS3, DS6 ve DS12 veri setlerindeki

küme sayısını tam isabetle bulmuşlardır. Tablo 4.2’de mavi ve eğik olarak işaretlenen sayılar ise

veri setindeki etiketli sınıf sayısına yakın (±1) küme sayısı önerilerini göstermektedir. Örneğin,

KL indeksi DS7 veri setindeki; CH indeksi DS4, DS8, DS9 ve DS10 veri setindeki orijinal

küme sayılarını yakın olarak tahmin etmişlerdir.

Tablo 4.2. Çeşitli geçerlilik indekslerine göre optimum küme sayıları İndeks DS1 DS2 DS3 DS4 DS5 DS6 DS7 DS8 DS9 DS10 DS11 DS12

KL 4 11 4 3 14 9 9 4 5 8 16 8

CH 11 11 17 10 17 18 10 9 10 15 20 5

Hartigan 10 11 4 3 4 4 9 4 3 3 3 5

CCC 11 11 17 2 17 18 18 4 10 15 6 5

Scott 4 5 9 3 6 9 9 3 5 3 3 3

Marriot 9 5 6 3 6 9 4 4 5 3 4 5

TrCovW 3 3 3 3 3 3 3 3 4 3 3 3

TraceW 3 3 4 3 3 4 4 3 4 3 3 5

Friedman 11 11 9 10 6 14 9 16 9 14 8 18

Rubin 11 11 17 10 14 18 9 16 9 15 16 5

Cindex 15 10 20 20 13 20 7 6 8 17 15 4

DB 7 7 9 3 2 17 2 4 5 6 4 5

Silhouette 11 11 9 3 2 18 4 4 9 9 4 5

Duda 2 2 2 2 2 2 2 4 2 3 3 2

PseudoT2 2 2 2 2 2 2 2 4 2 3 3 2

Beale 2 2 2 2 2 2 2 3 2 2 2 2

Ratkowsky 3 3 3 2 2 3 2 2 2 3 3 5

Ball 3 3 3 3 3 3 3 3 4 3 3 3

PtBiserial 4 5 4 2 2 4 2 3 5 3 3 5

Frey 1 1 1 1 2 1 2 1 2 1 1 1

McClain 2 2 2 2 2 2 2 2 9 2 2 2

Dunn 11 11 9 3 2 5 2 4 5 6 19 5

SDindex 4 7 9 3 6 4 4 4 5 6 4 5

SDbw 11 12 20 10 4 20 9 4 6 15 20 16

Tablo 4.2’ye göre, CH, Friedman ve Scott gibi bazı indeksler diğerlerine göre daha

başarılı olmakla birlikte f(K)’ya göre oldukça düşük performans göstermişlerdir. Dahası Beale,

Ratkowsky, Point biserial, Frey ve PseudoT2 gibi bazı indeksler incelenen veri setlerinin

hiçbirinde küme sayılarını yaklaşık olarak bile tahmin edememişlerdir. Liu ve ark. (2010)

tarafından çalışılan tüm veri setlerinde diğerlerinden daha üstün olduğu bildirilen SDbw

indeksinin de bu araştırmada kullanılan veri setlerinde çok güçlü olmadığı görülmüştür.

Page 10: K-ORTALAMALAR KÜMELEMESİNDE OPTİMUM K DEĞERİ …traglor.cu.edu.tr/objects/objectFile/qO7TZaso-12102015-24.pdf · Anahtar Kelimeler: veri madenciliği, kümeleme analizi, k-ortalamalar

Cebeci, Z., Yıldız, F., Kayaalp, G.T. (2015) “K-Ortalamalar Kümelemesinde Optimum K Değeri Seçilmesi”, 2. Ulusal Yönetim

Bilişim Sistemleri Kongresi, 8-10 Ekim 2015, Erzurum. Bildiriler Kitabı (Ed: Ü. Özen ve ark.), s. 231-242. Orka Ofset

Matbaacılık, Erzurum, ISBN:978-975-442-738-7.

240

İncelenen indekslerden bazıları veri setlerinde mevcut orijinal küme sayılarına göre çok

yukarıda ve bazıları da çok aşağıda kalan sonuçlar vermişlerdir. Bununla birlikte, bu indekslerin

farklı kümeleme algoritmalarına göre farklı performanslar göstermeleri mümkün olabilir. Zira

veri setlerinde farklı monotonluk, gürültü, yoğunluk, küme sayısı ve çarpıklık durumlarına özel

performanslar sergileyen indeksler olması doğal bir beklenti olup (Liu ve ark., 2010)

araştırılması gereken bir konudur. Yukarıdaki tartışmalara göre, bu çalışmada incelenen veri

setleriyle yapılan analizlerde NbClust paketinde bulunan 24 indeksin hiçbirinin f(K)

yönteminin performansına ulaşamadıkları görülmüştür.

5. SONUÇ

Bu çalışmada bölümleyici kümelemede k seçiminde kullanılabilecek f(K) fonksiyonu

tanıtılarak R ortamında yapay veri setleri ile test edilmiştir. Farklı şekilli, düzenli ve düzensiz

serpilme gösteren kümeler içeren veri setleriyle yapılan analizlere göre f(K) fonksiyonu diğer

indekslere göre daha başarılı bulunmuştur. Sonuçlar, K-ortalamalar kümelemesinin çoklu

geçişlerle çalıştırılmasıyla k’nın çoğu veri setinde başarılı şekilde belirlenebileceğini ortaya

koymuştur. Buna karşın fonksiyonun elips şekilli ve düzensiz serpilen kümeler içeren veri

setlerinde başarılı olamadığı da anlaşılmaktadır. Fakat bunun bizzat fonksiyonun kendisinden

kaynaklanmak yerine K-ortalamalar algoritmasının elips şekilli kümelere karşı sorunlu

olmasından ileri geldiği söylenebilir. Fonksiyon başarısının bu nedenle K-ortalamalar yerine

Bulanık c-ortalamalar ve Gustafson-Kessel algoritmaları ile test edilmesi de yararlı

olabilecektir. K-ortalamalar popüler bir yöntem olmakla birlikte son yıllarda k parametresi

bakımından iyi sonuçlar verdiği bildirilen X-ortalamalar, G-ortalamalar, PG-ortalamalar ve

Bayesçi K-ortalamalar gibi yöntemlerin kullanılması da alternatifler durumundadır.

Mevcut geçerlilik indekslerinin kümelerin şekli, hacmi ve uzaydaki yerleşimlerini

dikkate alarak küme sayısını mümkün olduğunca doğru verecek şekilde sınanmaları önemlidir.

Bu nedenle veri setlerindeki kümelerin şekli ve uzaydaki serpilmesini dikkate alan akıllı küme

sayısı bulma algoritmaları üzerinde çalışmalar da sürdürülmektedir. İleride bu tür algoritmaların

bölümleyici kümeleme analiz yazılımlarına dâhil edilmesiyle kümelemede daha geçerli sonuçlar

elde edilebilecektir. Bunlara ilaveten f(K) yönteminin K-ortalamalar dışında diğer bölümleyici

kümeleme algoritmaları için Xie-Beni indeksi, Bölümleme katsayısı, Bölümleme entropisi,

NIVA (Rendón ve ark., 2008) ve CDV (Yeh ve ark., 2014) gibi yeni geçerlilik indeksleriyle

karşılaştırılması daha genelleştirilebilir önerilere ulaşılmasını sağlayabilecektir.

KAYNAKLAR

Bezdek, J.C. and Hathaway, R.J. (2002). VAT: A tool for Visual Assessment of (Cluster) Tendency.

Proceedings of IEEE Int. Joint Conference on Neural Networks (IJCNN 02), 12-17 May 2002. 21.

2225-2230.

Bezdek, J.C., Hathaway, R.J. and Huband , J.M. (2007). “Visual Assessment of Fuzzy Clustering

Tendency for Rectangular Dissimilarity Matrices”, IEEE Transactions on Fuzzy Systems, 15 (5).

890-903.

Brock, G., Pihur, V., Datta, S., Datta, S. (2008). “clValid: An R Package for Cluster Validation.” Journal

of Statistical Software, 25(4), 1–22. URL http://www.jstatsoft.org/v25/i04/. [Erişim tarihi:

28.06.2015].

Charrad, M., Ghazzali, N., Boiteau, V. and Niknafs, A. (2012). “Package NbClust”, May 23, 2012 .

http://cedric.cnam.fr/fichiers/art_2554.pdf [Erişim tarihi: 28.06.2015].

Charrad, M., Ghazzali, N., Boiteau, V. and Niknafs, A. (2014). “NbClust: An R Package for Determining

the Relevant Number of Clusters in a Data Set”. J.of Statistical Software, 61(6). 1-36.

Desgraupes, B. (2013). “Clustering Indices”, http://cran.r-

project.org/web/packages/clusterCrit/vignettes/clusterCrit.pdf [Erişim tarihi: 30.6.2015]

Data Science Lab. (2014). “Selection of K in K-means Clustering, Reloaded”.

https://datasciencelab.wordpress.com/2014/01/21/selection-of-k-in-k-means-clustering-reloaded.

[Erişim Tarihi: 05.06.2015].

Page 11: K-ORTALAMALAR KÜMELEMESİNDE OPTİMUM K DEĞERİ …traglor.cu.edu.tr/objects/objectFile/qO7TZaso-12102015-24.pdf · Anahtar Kelimeler: veri madenciliği, kümeleme analizi, k-ortalamalar

Cebeci, Z., Yıldız, F., Kayaalp, G.T. (2015) “K-Ortalamalar Kümelemesinde Optimum K Değeri Seçilmesi”, 2. Ulusal Yönetim

Bilişim Sistemleri Kongresi, 8-10 Ekim 2015, Erzurum. Bildiriler Kitabı (Ed: Ü. Özen ve ark.), s. 231-242. Orka Ofset

Matbaacılık, Erzurum, ISBN:978-975-442-738-7.

241

Dimitriadou, E. (2014). “cclust: Convex Clustering Methods and Clustering Indexes”. R package version

0.6-18, URL http://CRAN.R-project.org/package=cclust. [Erişim tarihi: 28.06.2015].

Dudoit, S. and Fridlyand, J. (2002), “A Prediction-based Resampling Method for Estimating the Number

of Clusters in a Dataset. Genome Biology, 3(7).1-21.

Fischer, A. (2011). “On the number of groups in clustering”, Statistics & Probability Letters, 81(12).

1771–1781.

Halkidi, M., Batistakis, Y. and Vazirgiannis, M. (2001). “On Clustering Validation Techniques”, J. of

Intelligent Information Systems, 17 (2/3). 107–145.

Hamerly, G. and Elkan, C. (2004). “Learning the k in k-means”. In Advances in Neural Information

Processing Systems 16, Eds. S. Thrun and L.K. Saul and B. Schölkopf. pp. 281-288. MIT Press.

http://papers.nips.cc/paper/2526-learning-the-k-in-k-means.pdf [Erişim tarihi: 28.06.2015].

Havens, T.C. and Bezdek , J.C. (2012). "An Efficient Formulation of the Improved Visual Assessment of

Cluster Tendency (iVAT) Algorithm", IEEE Transactions on Knowledge & Data Engineering, 24

(5). 813-822.

Hu, Y. (2012). “VATdt: Visual Assessment of Cluster Tendency Using Diagonal Tracing”, American

Journal of Computational Mathematics, 2. 27-41.

Kodinariya, T.M. and Makwana, P.R. (2013). “Review on Determining Number of Cluster in K-Means

Clustering”, Int. J. of Advance Research in Computer Science &Management Studies, 1(6). 90-95.

Kovács, F., Legány, C., & Babos, A. (2005). “Cluster Validity Measurement Techniques”, 6th Int.

Symposium of Hungarian Researchers on Computational Intelligence, Nov 18-19, 2005,

Budapest, Hungary.

Krishnamoorthi (2011). Automatic Evaluation of Cluster in Unlabeled Datasets. Proc. Of Int.Conf. on

Information and Network Technology. IACSIT Press, Singapore. 120-124.

Liu, Y., Li, Z., Xiong, H., Gao, X. & Wu, J. (2010). Understanding of Internal Clustering Validation

Measures. 2010 IEEE Int. Conf. on Data Mining, 911-916.

Marozzi, M. (2014). “Construction, Dimension Reduction and Uncertainty Analysis of an Index of Trust

in Public Institutions.”, Quality and Quantity, 48(2). 939–953.

Nieweglowski, L. (2014). clv: Cluster Validation Techniques. R package version 0.3-2.1, URL

http://CRAN.R-project.org/package=clv. [Erişim tarihi: 28.06.2015].

Pakhira, M.K (2012). Finding Number of Clusters before Finding Clusters. Procedia Technology 4: 27 -

37.

Pham, D.T., Dimov, S.S. and Nguyen, C.D. (2005). “Selection of K in K-means clustering”. Journal of

Mechanical Engineering Science, 219. 103 -119.

Ray, S. and Turi, R.H. (1999). “Determination of Number of Clusters in K-Means Clustering and

Application in Colour Image Segmentation” in Proc. of the 4th Int. Conf. on Advances in Pattern

Recognition and Digital Techniques, Calcutta, India, December 27-29, 1999, Narosa Publishing

House, New Delhi, India, pp. 137-143.

R Core Team (2015). R: A language and environment for statistical computing. R Foundation for

Statistical Computing, Vienna, Austria. URL:http://www.R-project.org.

Rendón, E., Garcia, R., Abundez, I., Gutierrez, C., Gasca, E. Del Razo, F., A. and Gonzales, A. (2008).

NIVA: A Robust Cluster Validity. 12th WSEAS International Conference on Communications,

Heraklion, Greece, July 23-25, 2008. p. 241-248.

Rendón, E., Abundez, I., Arizmendi, A. and Quiroz, E.M, (2011). “Internal versus External Cluster

Validation Indexes”, Int. J. of Computers and Communications, 5(1).27-34.

Rodriguez, G. (2015). “kselection: Selection of K in K-Means Clustering”. R package version 0.2.0.

http://CRAN.R-project.org/package=kselection [Erişim tarihi: 28.06.2015].

Saisana, M., Saltelli, A. and Tarantola, S. (2005). “Uncertainty and Sensitivity Analysis Techniques as

Tools for the Quality Assessment of Composite Indicators.”, J. of the Royal Statistical Society:

Series A (Statistics in Society). 168(2). 307–323.

Thalamuthu, A., Mukhopadhyay, I., Zheng, X., and Tseng, G. C. (2005). “Evaluation and Comparison of

Gene Clustering Methods in Microarray Analysis”. Bioinformatics, 22(19).2405-2412.

Walesiak, M. and Dudek, A. (2014). clusterSim: Searching for Optimal Clustering Procedure for a Data

Set. R package version 0.43-4, URL http://CRAN.R-project.org/package= clusterSim. [Erişim

tarihi: 28.06.2015].

Wang, W. and Zhanga, Y. (2007). “On fuzzy cluster validity indices”, Fuzzy Sets and Systems, 158 .

2095– 2117.

Page 12: K-ORTALAMALAR KÜMELEMESİNDE OPTİMUM K DEĞERİ …traglor.cu.edu.tr/objects/objectFile/qO7TZaso-12102015-24.pdf · Anahtar Kelimeler: veri madenciliği, kümeleme analizi, k-ortalamalar

Cebeci, Z., Yıldız, F., Kayaalp, G.T. (2015) “K-Ortalamalar Kümelemesinde Optimum K Değeri Seçilmesi”, 2. Ulusal Yönetim

Bilişim Sistemleri Kongresi, 8-10 Ekim 2015, Erzurum. Bildiriler Kitabı (Ed: Ü. Özen ve ark.), s. 231-242. Orka Ofset

Matbaacılık, Erzurum, ISBN:978-975-442-738-7.

242

Yeh, J-H., Joung, F-J. and Lin, J.-C. (2014). “CDV Index: A Validity Index for Better Clustering Quality

Measurement”, Journal of Computer and Communications, 2. 163-171.

http://dx.doi.org/10.4236/jcc.2014.24022.

Bu bildiriyi aşağıdaki gibi kaynak gösterebilirsiniz:

Cebeci, Z., Yıldız, F., Kayaalp, G.T. (2015) “K-Ortalamalar Kümelemesinde Optimum K Değeri

Seçilmesi”, 2. Ulusal Yönetim Bilişim Sistemleri Kongresi, 8-10 Ekim 2015, Erzurum. Bildiriler

Kitabı (Ed: Ü. Özen ve ark.), s. 231-242. Orka Ofset Matbaacılık, Erzurum, ISBN:978-975-442-

738-7.