Upload
others
View
7
Download
0
Embed Size (px)
Citation preview
Cebeci, Z., Yıldız, F., Kayaalp, G.T. (2015) “K-Ortalamalar Kümelemesinde Optimum K Değeri Seçilmesi”, 2. Ulusal Yönetim
Bilişim Sistemleri Kongresi, 8-10 Ekim 2015, Erzurum. Bildiriler Kitabı (Ed: Ü. Özen ve ark.), s. 231-242. Orka Ofset
Matbaacılık, Erzurum, ISBN:978-975-442-738-7.
231
K-ORTALAMALAR KÜMELEMESİNDE OPTİMUM K DEĞERİ SEÇİLMESİ
Prof. Dr. Zeynel CEBECİ Çukurova Üniversitesi Ziraat Fakültesi Biyometri ve Genetik Anabilim Dalı
Ar.Gör. Figen YILDIZ Çukurova Üniversitesi Fen Bilimleri Enstitüsü Zootekni Anabilim Dalı
Prof.Dr. Tamer KAYAALP Çukurova Üniversitesi Ziraat Fakültesi Biyometri ve Genetik Anabilim Dalı
Özet
Kümeleme analizi, veri yapıları ve örüntüler gibi anlamlı bilginin keşfedilmesini sağladığından veri
madenciliğinde en yaygın kullanılan analizlerinden biri olmuştur. Kümeleme analizi için geliştirilmiş yüzlerce
algoritma mevcut olmasına karşın her durumda en iyi denilebilecek bir algoritma söz konusu değildir. Uygun bir
kümeleme algoritmasının seçimi, veri büyüklüğü ve boyutu ile kümelerin şekli ve dağılışı yanında kümelemenin amacına da bağlı olmakla birlikte büyük verilerin analizinde bölümleyici kümeleme algoritmalarının tercih edildiği
görülmektedir. Sert ve bölümleyici bir algoritma olan K-ortalamalar ise yarım asırdan beri hızı ve basitliği nedeniyle
belki de en popüler olanlar arasında yer almaktadır. Diğer bölümleyici kümeleme algoritmaları gibi K-ortalamalar
algoritması da başlangıçta bir k değerinin yani küme sayısının girilmesini gerektirmektedir. Kümelemenin sonucunu doğrudan etkileyen optimal bir k değeri seçimi için birçok yöntem mevcuttur. Alan bilgisi ve veri yapısı üzerinde
belli bir tecrübeye dayanarak yapılan k seçimi sübjektiftir. Diğer yandan kümeleme analizi sonrası belirlenen
geçerlilik indislerinin performanslarında veri yapısına göre duyarlılıklar söz konusu olmaktadır. Bu nedenle hala daha
güvenilir ve hızlı k değeri verebilecek yöntemlere ihtiyaç duyulmaktadır. Bu çalışmada, k’nın optimal seçiminde kullanılmak üzere Pham ve ark. (2005) tarafından önerilen f(K) fonksiyonu tanıtılmış ve çeşitli yapay veri setleri
üzerinde test edilmiştir. Ayrıca kümeleme analizinde optimal k değeri seçiminde kullanılmak üzere yöntemin bir
uygulaması olarak R ortamı için geliştirilen "kselection" paketi kullanılarak yöntemin performansı ortaya
konulmuştur. Yapılan analizlerde f(K) fonksiyonun kümeleme geçerliliği değerlendirmesinde kullanılan iç indekslerden daha başarılı sonuçlar verdiği saptanmıştır.
Anahtar Kelimeler: veri madenciliği, kümeleme analizi, k-ortalamalar kümelemesi, objektif k seçimi
CHOOSING AN OPTIMAL K IN K-MEANS CLUSTERING
Abstract
Cluster analysis has been one of the widely applied data mining techniques because of its usefulness in
discovering the meaningful information such as the structures and patterns in datasets. Although there are hundreds of the methods in clustering arena, there is no any best algorithm that fits to all cases. Over a half century, K-means as
the basic hard partitioning algorithm has probably been the most popular because of its lower execution time and
simplicity to implement in big data analysis. As needed for the other partitioning algorithms, K-means algorithm
requires inputting a k value, the number of clusters before starting to cluster analysis. There are several methods to
determine an optimal k value, directly affecting the results of partitioning datasets. Among them, the subjective
methods depend on user’s domain knowledge and experiences on the underlying datasets. On the other hand,
clustering validity indices used after clustering may be sensitive to data structures, and thus they are based on trial-
and-error process. Therefore robust, fast and automated methods are still needed for determination of k in K-means clustering. In this paper, for optimal choice of k, the f(K) function proposed by Pham et al. (2005) was explained and
tested on the artificially generated datasets. In addition, the performance of the function was revealed for employing
with K-means clustering by running the “kselection”, a package developed to implement the method in R environment. According to the results, it was obtained that f(K) function is more successful than the internal indices
which are used in clustering validation.
Keywords: data mining, cluster analysis, k-means clustering, objective selection of k
Cebeci, Z., Yıldız, F., Kayaalp, G.T. (2015) “K-Ortalamalar Kümelemesinde Optimum K Değeri Seçilmesi”, 2. Ulusal Yönetim
Bilişim Sistemleri Kongresi, 8-10 Ekim 2015, Erzurum. Bildiriler Kitabı (Ed: Ü. Özen ve ark.), s. 231-242. Orka Ofset
Matbaacılık, Erzurum, ISBN:978-975-442-738-7.
232
1. GİRİŞ
Kümeleme analizi, bir veri setindeki nesneleri ortak özellikleri itibariyle gruplandırma
ya da küme olarak adlandırılan alt veri setlerine ayırma işlemidir (Liu ve ark., 2010). Kümeleme
işlemi ile bir kümede bulunan nesnelerin mümkün olduğunca birbirine benzer, ancak diğer
kümelerdekinden mümkün olduğunca farklı olması amaçlanır. Bir başka deyişle küme içindeki
varyansın düşük, kümeler arasındaki varyansların ise yüksek olması arzulanmaktadır.
Kümeleme ile veri setleri bölümlenerek mevcut veri yapısı ve desenler ortaya konulduğundan
anlamlı bilginin keşfedilmesi için veri madenciliğinde çok sıkça kullanılmaktadır.
Günümüzde, kümeleme yöntemlerinin yüzlercesi mevcut olup çeşitli şekillerde
sınıflandırılmaktadır. Yaygın kullanılan bir sınıflamaya göre kümeleme yöntemlerini hiyerarşik
yöntemler, bölümleyici yöntemler ve bunların çeşitli şekillerde kombine edildiği karma
yöntemler olarak üç grupta incelemek mümkündür. Bölümleyici kümeleme algoritmaları veri
setlerini k adet alt sete (ya da kümeye) bölen/parçalayan algoritmalardır. Bu nedenle, en çok
çalışılan konulardan biri, herhangi bir algoritmanın çalıştırılmasından önce, analizin en başında
bilinmesi gereken k’nın seçimidir. Bu parametre, veri setinin bölümleneceği küme sayısını
göstermekte, bir başka ifadeyle veri setinde mevcut kümelerin sayısını belirtmektedir. Başarılı
ya da doğru bir kümeleme k’nın optimal seçimine bağlıdır. Çünkü k ne olursa olsun,
bölümleyici algoritmalar geçerli veya geçersiz bir kümeleme sonucu üretecektir. Ancak amaç
geçerli bir kümeleme sonucu elde etmek olduğuna göre gerçek küme sayısı veya buna en yakın
sayının bulunması ve kullanılması doğru sonuçlara ulaşılmasını sağlamak için gereklidir. Bir
başka deyişle k’nın isabetli seçilmesi başarılı bir kümeleme analizi için belirleyici olup
bölümleyici kümeleme algoritmalarının en önemli dezavantajlarından birini oluşturmaktadır
(Ray ve Turi, 1999).
Bu çalışmada, k’nın seçiminde kullanılmak üzere Pham ve ark. (2005) tarafından
önerilen ve objektif değerlendirme sağlayan f(K) fonksiyonu çeşitli yapay veri yapıları üzerinde
test edilmektedir. Ayrıca optimal k değeri seçimindeki performansı çeşitli kümeleme
indekslerine göre karşılaştırılmaktadır.
2. K-ORTALAMALAR ALGORİTMASI VE K’NIN BELİRLENMESİ
2.1. K-ortalamalar Algoritması
K-ortalamalar (KO), 50 yıldan uzun bir süreden beri belki de en çok kullanılan
bölümleyici yöntemlerden biri olmuştur. Nesne sınıflandırma, görüntü bölümleme, veri
madenciliği, makine öğrenmesi gibi bilişim uygulamaları yanında iktisat, müşteri yönetimi,
pazarlama, biyoinformatik ve mühendislik araştırmaları gibi hemen her alanda en çok kullanılan
yöntemleri arasında yer almıştır. K-ortalamalar aşağıdaki amaç fonksiyonu miminize eden
bölümleyici bir kümeleme algoritmasıdır:
𝐽𝐾𝑂(𝑿; 𝑽) = ∑ ∑ 𝐷𝑖𝑗2𝑘
𝑗=1𝑛𝑖=1 (1)
Burada 𝑘 küme sayısını ve 𝑛 nesne sayısını göstermektedir. 𝐷𝑖𝑗2 , nesneler ile küme merkezleri
arasındaki uzaklık ölçüsüdür. Kümeleme analizlerinde uzaklık normu olarak genellikle Öklid
uzaklıkları kullanılmakta (L2 normu) ve ‖𝑥𝑖𝑗 − 𝑣𝑗‖ 2, 1 ≤ 𝑗 ≤ 𝑘 olarak hesaplanmaktadır.
Burada 𝑥𝑖𝑗 , 𝑗. kümedeki 𝑖. nesneyi; 𝑣𝑗 ise 𝑗. küme merkezi prototipini ifade etmektedir. K-
ortalamalar algoritması aşağıdaki adımlardan oluşmaktadır:
1) 𝑿 veri setinden rastgele k adet küme merkezi seçilir.
2) Veri noktaları ile küme merkezleri arasındaki uzaklıklar hesaplanır.
3) Veri noktaları uzaklığı kendilerine en küçük olan merkezlerin ait olduğu kümelere
atanır.
4) Küme merkezleri Eşitlik (2) ile güncellenir:
Cebeci, Z., Yıldız, F., Kayaalp, G.T. (2015) “K-Ortalamalar Kümelemesinde Optimum K Değeri Seçilmesi”, 2. Ulusal Yönetim
Bilişim Sistemleri Kongresi, 8-10 Ekim 2015, Erzurum. Bildiriler Kitabı (Ed: Ü. Özen ve ark.), s. 231-242. Orka Ofset
Matbaacılık, Erzurum, ISBN:978-975-442-738-7.
233
𝑣𝑗 = ∑ 𝑥𝑖𝑗𝑛𝑗
𝑖=1/𝑛𝑗 ; 1 ≤ 𝑗 ≤ 𝑘 (2)
5) Küme değiştiren veri noktaları yoksa ya da birbirini izleyen iki adımda hata
karelerindeki artış tanımlanmış bir yaklaşma değerine eşit veya küçükse kümeleme sona
erdirilir, değilse 2. adıma geçilerek işlemler tekrarlanır.
2.2. K’nın Belirlenmesi
Bölümleyici kümelemede kullanılacak k değeri sübjektif ve objektif olarak
belirlenebilmektedir. Genelde hiyerarşik kümelemede başvurulan sübjektif yöntemler
araştırmacının üzerinde çalıştığı veri setlerini tanıyacak alan bilgisine sahip olmasına (veya daha
önceki benzer araştırmalardan elde edilen önbilgiyi kullanmasına) ve serpilme grafiklerini
incelemesine dayanmaktadır (Hamerly ve Elkan, 2004). Ancak kümeleme algoritmaları, verinin
yapısı, hacmi, kümelerin şekli ve uzaydaki yerleşimleri itibariyle farklı sonuçlar
üretebileceğinden sübjektif yöntemlerle çoğu durumda uygun veya geçerli sonuçlara
ulaşılamamaktadır (Kodinariya ve Makwana, 2013:90). Dahası boyut sayısı arttıkça sübjektif
yöntemlerle k seçimi fazlasıyla zorlaşmakta hatta yapılamaz duruma gelinmektedir. Alternatif
olarak kümeleme sonuçlarının iyiliği ya da geçerliliğini belirlemek için istatistiksel indeks,
varyans ve uyum iyiliğine dayalı çeşitli indeksler geliştirilmiştir. K-ortalamalar algoritmalarının
çeşitli k değerleri ile birçok defa çalıştırılmasından sonra elde edilen sonuçları kullanarak
optimum bir k değeri belirlemek üzere kullanılan bu indeksleri dış indeksler, iç indeksler ve
relatif indeksler olarak gruplandırmak olasıdır (Kovács ve ark., 2005; Rendón ve ark., 2011).
Dış indeksler, önceden yapılmış ve bilinen bir sınıflamayı belli bir kümeleme
algoritmasının çalıştırılmasıyla elde edilen kümeleme sonuçlarıyla karşılaştıran ölçütlerdir
(Dudoit ve Fridlyand, 2002). Bu durumda kümelerde yer alan nesnelerin hangi kümeye ait
oldukları daha önceden bilinmekte ve uygulanan kümeleme algoritması için referans/kontrol
olarak kullanılmaktadır. Yani nesneler kümeler itibariyle etiketlenmiş durumdadırlar. İç
indeksler ise herhangi bir dış bilgi olmaksızın sadece analiz edilen veriden kümeleme
algoritması ile elde edilen sonucun geçerliliğini ortaya koyan ölçütlerdir (Thalamuthu ve ark.,
2005). Relatif indeksler, bir veya daha fazla kümeleme algoritmasının aynı veri seti üzerinde
farklı girdi parametreleri ile çalıştırılmasına dayanmaktadır. En iyi kümelemenin hangisi
olduğuna elde edilen sonuçlardan hesaplanan indekslerin karşılaştırması ile karar verilmektedir.
Kümeleme analizleri, yönetimsiz öğrenme yöntemleri olduğundan veri yapısı ve
dolayısıyla kümelenme eğilimleri daha önceden bilinmeyen veri setlerinde uygulandığından
çoğu araştırma ve uygulamada kümeleme sonucunu değerlendirmek için iç geçerlilik indeksleri
üzerinde yoğunlaşma olduğu görülmektedir. İç indeksler kompaktlık, ayrışma veya bunların
çeşitli bileşimlerine dayanmaktadırlar. Kompaktlık bir kümedeki nesnelerin birbirleriyle ne
kadar ilişkili ya da yapışık olduğunun ölçüsüdür. Ayrışma ise bir kümenin diğerlerinden ne
kadar ayrıldığını ya da belirgin olduğunu ortaya koymaktadır. İndekslerin formülasyonları ve
performansları çeşitli çalışmalarda ayrıntılı olarak incelenmiştir (Halkidi ve ark., 2001; Rendón
ve ark., 2011, Charrad ve ark., 2012).
Algoritmaların sağladığı bilgiler itibariyle farklılıklar olduğundan geçerlilik
indekslerinin tüm kümeleme algoritmaları için aynı performansı göstermeleri beklenemez. Bu
yüzden kümeleme algoritmalarına özel indekslerin kullanılması gerekli olabilmektedir. Örneğin
Xie-Beni indeksi, Bölümleme katsayısı, Bölümleme entropisi gibi indeksler bulanık kümeleme
algoritmalarının sonuçlarını değerlendirmede iyi çalışan indeksler arasında incelenmektedir
(Wang ve Zhanga, 2007). Kümeleme sonuçları üzerinde çalışan indeksler dışında, yaygın
olmamakla birlikte Akaike Bilgi Kriteri (AIC) ve Bayesçi Bilgi Kriteri (BIC) gibi bilgi kriterleri
ile En Küçük Açıklama Uzunluğu (MDL) ve GAP istatistiği gibi bazı ölçütler de küme sayısı
seçiminde kullanılabilmektedirler.
Küme geçerlilik indeksleri ve kriterlerinin her birinin bir takım artı ve eksileri
bulunmaktadır. Bu nedenle, aynı kümeleme algoritmasının farklı sayıda geçişlerle veya farklı
Cebeci, Z., Yıldız, F., Kayaalp, G.T. (2015) “K-Ortalamalar Kümelemesinde Optimum K Değeri Seçilmesi”, 2. Ulusal Yönetim
Bilişim Sistemleri Kongresi, 8-10 Ekim 2015, Erzurum. Bildiriler Kitabı (Ed: Ü. Özen ve ark.), s. 231-242. Orka Ofset
Matbaacılık, Erzurum, ISBN:978-975-442-738-7.
234
parametrelerle çalıştırılarak denenmesi ve algoritmayla bağımlılık göstermeyen yani
korelasyonu olmayan indekslerin seçilmesinin iyi sonuçlar verebileceği söylenebilir. Örneğin
K-ortalamaların farklı performansları için siluet indeksi veya grup içi hata kareler toplamlarını
kullanmak sorunlu olmayan indeksler olarak görülmektedir.
Çok sayıda iç geçerlilik indeksi bulunmakla birlikte bunların pratikte kullanılabilirlikleri
istatistik yazılımlarında mevcut olmalarıyla yakından ilişkilidir. R, diğer istatistik yazılımlarıyla
karşılaştırıldığında bu açıdan oldukça iyi bir konumdadır. R ortamında, cclust (Dimitriadou,
2014), clusterSim (Walesiak ve Dudek, 2014), clv (Nieweglowski, 2014) ve clValid (Brock ve ark., 2008) gibi paketlere bulunmakla birlikte 29 iç indeks ve 14 dış indeksle
clusterCrit (Desgraupes, 2013, 2015) ve 30 adet indeksle NbClust (Charrad ve ark.,
2014) bunlar arasında en zenginlerindendir. Veri setlerinde mevcut küme sayılarını saptamak
için geliştirilen NbClust’ın mevcut sürümünde hiyerarşik kümeleme sonuçları yanında K-
ortalamalar kümelemesi sonuçlarının incelenebilmesi ve SOM yöntemi için çalışmaların da
sürdürülmesi diğer paketlere göre önemli bir başka avantajıdır. NbClust’ın tanıtım belgesinde
(Charrad ve ark., 2012) geçerlilik indekslerinin formülasyonları da verilmiş olup liste halinde
bir arada incelenmesi mümkün olabilmektedir.
Geçerlilik indekslerine dayalı olarak k sayısını saptamak araştırmacılar için oldukça
zaman alıcı ve güç olduğundan daha kolay yöntemlere ihtiyaç duyulmuştur. Son yıllarda
Bezdek tarafından önerilen görsel kümeleme eğilimi değerlendirmesi (VAT) (Bezdek ve
Hathway, 2002; Bezdek ve ark., 2007) ve VAT’ın iyileştirilmiş bir sürümü olan iVAT (Havens
ve Bezdek, 2012) gibi görsel teknikler geliştirilmiştir. Dahası bu tekniklerin görsel çıktıları
üzerinde karanlık blok sayımı (DBE), küme sayısı çıkarma (CCE) (Pakhira, 2012), köşegen
taramasıyla görsel kümelenme eğilimi (VATdt) saptama (Hu, 2012) ve spektral VAT
(spectVAT) (Krishnamoorthi, 2011) gibi otomatikleştirilmiş küme sayısı saptama algoritmaları
yeni yöntemler arasındadır. Tüm mümkün k değerleri arasında en iyi olanı saptamak için
kullanılabilecek bir başka yaklaşım ise cezalandırma yoluyla model seçimidir (Fischer, 2011).
Yeni geliştirilen Küme Ayrıklık Geçerliliği (CDV; Cluster Discreteness Validity) indeksinin de
en etkili indekslerden biri olduğu bildirilmektedir (Yeh ve ark., 2014). Yine, birçok küme
geçerlilik indekslerinin birlikte kullanılabileceği, duyarlılık ve belirsizlik analizi tekniklerine
dayalı kompozit indeksler de geliştirilmektedir (Saisana ve ark., 2005; Marozzi, 2014).
Bununla birlikte Pham, Dimov ve Nguyen (2005) tarafından k’nın belirlenmesi için
önerilen f(K) fonksiyonunun objektif ve geçerli sonuçlar verdiği ortaya konulmuştur.
Araştırmacılar yöntemi tanıttıkları çalışmalarında, f(K)’nın küme hacminden etkilenmediği yani
sağlam (robust) bir yöntem olduğu; bunun için boyut sayısını dikkate alarak çalışan bir tartı
faktörü de kullandığını belirtmektedirler. Bununla birlikte f(K) fonksiyonunun, istatistik
yazılımlarına entegrasyonu ve tanınırlığı henüz yeterli düzeyde değildir. Bu nedenle çeşitli veri
setleriyle etkinliğinin araştırılması ve yaygın kullanılan K-ortalamalar ile kümeleme analizine
sağlayacağı katkıların gösterilmesi önem taşımaktadır.
2.3. f(K) fonksiyonu ile K’nin Belirlenmesi
K-ortalamalar yönteminde her bir küme için distorsiyonlar yani kompaktlıktan
uzaklaşmalar veri noktaları ile küme merkezleri arasındaki uzaklığın bir fonksiyonu olup:
𝐼𝑗 = ∑ [𝑑(𝑥𝑗𝑖 , 𝑐𝑗)]2𝑛𝑗
𝑖=1 (3)
ile hesaplanır. Burada, 𝐼𝑗 j. kümenin distorsiyonu; 𝑐𝑗 j. kümenin merkezi, 𝑛𝑗 j. kümedeki
nesnelerin sayısı; 𝑥𝑗𝑖, j. kümedeki i. nesneyi ve 𝑑(𝑥𝑗𝑖,𝑐𝑗) ise 𝑥𝑗𝑖 nesnesi ile 𝑐𝑗 arasındaki
uzaklıktır. Her bir küme, 𝐼𝑗 distorsiyonu ve veri setinin tamamına etkisi, yani 𝑆𝐾’ya (Eşitlik 4)
katkısı ile temsil edilir.
𝑆𝐾 = ∑ 𝐼𝑗𝐾𝑗=1 (4)
Burada 𝐾 küme sayısı için 𝑆𝐾 küme distorsiyonları toplamını göstermektedir. 𝑁𝑑 , özelliklerin
(boyutların) sayısı olup Eşitlik (5)’deki gibi hesaplanan 𝛼𝐾, bir tartı (ağırlık) faktörü olarak
boyut etkisini gidermektedir.
Cebeci, Z., Yıldız, F., Kayaalp, G.T. (2015) “K-Ortalamalar Kümelemesinde Optimum K Değeri Seçilmesi”, 2. Ulusal Yönetim
Bilişim Sistemleri Kongresi, 8-10 Ekim 2015, Erzurum. Bildiriler Kitabı (Ed: Ü. Özen ve ark.), s. 231-242. Orka Ofset
Matbaacılık, Erzurum, ISBN:978-975-442-738-7.
235
𝜶𝑲 = {1 −
3
4𝑁𝑑, 𝐾 = 2, 𝑁𝑑 > 1 𝑖𝑠𝑒
𝛼𝐾−1 +1−𝛼𝐾−1
6, 𝐾 > 2, 𝑁𝑑 > 1 𝑖𝑠𝑒
(5)
𝛼𝐾, 1 veya 1’den küçük bir sayıdır. 𝑁𝑑 , yani boyutların sayısı ile ters orantılı olarak
distorsiyondaki azalmayı göstermektedir. f(K) fonksiyonu yukarıdaki değerleri kullanarak
Eşitlik (6)’daki gibi tanımlanmaktadır.
𝒇(𝑲) = {
1, 𝐾 = 1 𝑖𝑠𝑒𝑆𝐾
𝛼𝐾𝑆𝐾−1, 𝑆𝐾−1 ≠ 0, ∀𝐾 = 1 𝑖𝑠𝑒
1, 𝑆𝐾−1 = 0, ∀𝐾 = 1 𝑖𝑠𝑒
(6)
Eşitlik (6)’daki tanımlamalara göre f(K), gerçek distorsiyonun tahmin edilen distorsiyona
oranıdır. Küme sayısı 2’den daha büyük olmaya devam ederken 𝑆𝐾 düşmeye başlar ve f(K)
değeri 1’e yaklaşır. Bu değer veri setinde nesnelerin artık uniform dağılmaya başladığını yani
kümelenme eğilimi olmadığını gösterir. Bunun aksine nesnelerin dağılımında toplanma
(konsantrasyon) alanları bulunduğunda f(K) düşüş gösterir. Küçük f(K)değerleri bu nedenle
kümelerin varlığını ifade eder. Belli bir eşik değerinden (genelde 0.85) küçük f(K) değeri veren
k değerleri kümeleme için önerilmektedir. Eğer 0.85’ten küçük f(K) değeri yoksa eşik değeri 1
varsayılır. Analiz sonucunda 1’den küçük f(K) değeri bulunamamışsa veri setinde kümeler
olmadığı, dolayısıyla analiz yapmaya gerek olmadığı anlaşılır.
3. MATERYAL VE METOT
Araştırmada farklı şekillerde (kare, daire, elips, konkav) düzenli ve düzensiz (rastgele)
yerleşimli kümeler içeren ve ayrıntıları Tablo 3.1’de listelenen ve yapıları Grafik 4.1’de
görüntülenen 12 adet veri seti kullanılmıştır. Veri setleri R ortamında (R Core Team, 2015)
stats, ellipse, splancs ve mlbench gibi paketlerden çeşitli fonksiyonlar kullanılarak
geliştirilen bir R programıyla 2 boyutlu (2 özellikli) olarak üretilmişlerdir. Tablo 3.1’de k gerçek
küme sayısını (etiketli sınıf sayısını), n toplam veri noktası sayısı ve nk ise ortalama küme
büyüklüğünü göstermektedir Üretilen yapay veri setlerindeki nesnelerin özellikleri farklı
aralıklarda olduğundan analizlere başlamadan veriler standardize edilmişlerdir.
İstatistik yazılımlarında f(K), Rodriguez’in (2015) ‘kselection’ paketi ile yalnız
R’de uygulanmıştır. Pakette bulunan kselection fonksiyonu, bir k serisi için R’ın stats
paketindeki kmeans fonksiyonundan döndürülen kümeleme sonuçlarını kullanarak f(K)
değerleri vektörünü; en iyi küme sayısını ve belli bir eşik değeri (genelde 0.85) altında kalan
f(K) değerlerine göre önerilen küme sayılarını vermektedir. Bir başka çalışmada yöntemin
Python kodlaması yapılmış ve GAP istatistiklerine göre performansı karşılaştırılmıştır (Data
Science Lab, 2014). (Bu çalışmanın yazarları tarafından da yöntemin K-ortalamalar ile
otomatikleştirilmiş kullanımı için R dilinde yeni bir uygulaması üzerinde çalışmalar
sürdürülmektedir). Tablo 3.1. Veri setleri ve yapısal özellikleri
Veri seti k n nk Küme yapısı
DS1 9 1800 200 kare şekilli, düzenli serpilme
DS2 9 1800 200 daire şekilli, düzenli serpilme
DS3 9 1800 200 elips şekilli, düzenli serpilme
DS4 9 1800 200 kare şekilli, diyagonalde düzenli serpilme
DS5 9 1800 200 elips şekilli, diyagonalde düzenli serpilme
DS6 9 1800 200 basık elips şekilli, diyagonalde düzenli serpilme
DS7 9 1000 111 dikey yönelimli basık elips şekilli düzensiz serpilme
DS8 9 1000 111 yatay yönelimli basık elips şekilli düzensiz serpilme
DS9 9 1000 111 gürültülü çember şekilli düzensiz serpilme
DS10 14 1328 95 gürültülü çember şekilli düzensiz serpilme
DS11 7 788 113 çeşitli şekillerde düzensiz serpilme
DS12 3 1200 400 konkav ve çember şekilli, düzensiz serpilme
Cebeci, Z., Yıldız, F., Kayaalp, G.T. (2015) “K-Ortalamalar Kümelemesinde Optimum K Değeri Seçilmesi”, 2. Ulusal Yönetim
Bilişim Sistemleri Kongresi, 8-10 Ekim 2015, Erzurum. Bildiriler Kitabı (Ed: Ü. Özen ve ark.), s. 231-242. Orka Ofset
Matbaacılık, Erzurum, ISBN:978-975-442-738-7.
236
Bu çalışmada, kselection ile önerilen en iyi küme sayıları, NbClust paketindeki
24 geçerlilik indeksi ile önerilen en iyi küme sayıları ile karşılaştırılmıştır. Yöntemin
performansı ayrıca veri setlerinde nesnelere atanan sınıf etiketlerine göre belirlenen sınıf sayıları
(ya da orijinal etiketli kümelerin sayısı) ile de karşılaştırılmıştır. Analizlerde K-ortalamalar için
kmeans fonksiyonu kullanılmış ve her bir veri seti için 2’den başlayarak 1 artışla (k=2,.., 20
aralığında) nstart=10 ve iters=100 olmak üzere varsayılan girdi parametreleriyle
çalıştırılmıştır.
4. BULGULAR VE TARTIŞMA
Tablo 4.1’in ilk satırında verilen etiketli sınıf sayıları, veri setlerindeki etiketli sınıf
sayılarını, bir başka deyişle orijinal küme sayılarını ifade etmektedir. Tablo 2’nin ikinci
satırında f(K) ile önerilen küme sayıları listelenmiştir. Koyu renkli olarak gösterilen rakamlar
fonksiyonun önerdiği en iyi küme sayısını (en küçük f(K) değeri vereni) gösterirken diğerleri
önerilen küme sayılarını (0.85 eşik değeri altındaki f(K) değerlerini) göstermektedir. Tablo
4.1’in üçüncü satırı ise f(K) ile önerilen küme sayılarının etiketli sınıf sayıları yani veri setinde
daha önceden bilinen küme sayıları ile karşılaştırma sonuçlarını içermektedir.
Karşılaştırmalarda bu iki sayı eşitse f(K) küme sayısını tam isabetle saptamış demektir (Tablo
4.1’de +++ ile gösterilmiştir). Eğer etiketli sınıf sayısı f(K) tarafından önerilen küme sayıları
arasında bulunuyorsa küme sayıları isabetli (++) olarak saptanmakta ancak araştırmacı
değerlendirmesine ihtiyaç duyulmaktadır. Bulunan küme sayılarının gerçek küme sayısından +1
büyük veya -1 küçük olması halinde ise yakın isabet ya da makul isabet (Tablo 4.1’de + ile
gösterilmiştir) sağlandığı varsayılmıştır. Yukarıdaki durumların hiçbiri söz konusu değilse, f(K)
küme sayısı bulmada başarısız ( Tablo 4.1’de – ile gösterilmiştir) olarak değerlendirilmiştir.
Yukarıdaki açıklamalara göre, f(K)’nın DS1 ve DS9 veri setlerinde küme sayısını tam
isabetle bulduğu görülmektedir (Tablo 4.1’de koyu renkli sayılar f(K) tarafından önerilen
optimal küme sayılarını göstermektedir). Grafik 4.1’de kare şekilli kümeleri içeren DS1 veri seti
için f(K) ile optimal küme sayısı 9 olarak elde edilmiştir. Nitekim söz konusu grafikte 9 adet
küme olduğu gözle bakıldığında da açıkça anlaşılmaktadır. Grafik 4.2’de DS1 için f(K)
grafiğinde yeşil daire şekli ile işaretlenen noktaya bakıldığında optimal küme sayısının 9 olduğu
görülmektedir. DS9 veri setinde de küme sayısı doğru şekilde bulunmuş ve optimal k değeri
olarak 9 işaretlenmiş olsa da 7 farklı küme sayısı önerisi daha yapılmıştır. Tablo 4.1’den
görüleceği gibi önerilen küme sayıları 2, 3, 4, 5, 6, 7 ve 9 olmakla birlikte en düşük f(K) değerli
olanı 9’dur (Grafik 4.2). Bu veri setlerindeki küme yapıları ve serpilmesini dikkate alarak bir
değerlendirme yapıldığında, f(K) fonksiyonu:
a) Kare şekilli ve düzenli bir desenle küme serpilmesi gösteren veri setleri,
b) Daire şekilli ve iyi ayrılmış küme serpilmesi gösteren veri setlerinde
çok başarılı olmaktadır.
DS2 veri setinde kontrol amacıyla kullanılan etiketli sınıf sayısı 9 olduğu halde f(K) ile elde
edilen optimal küme değeri 2’dir. Bununla birlikte DS2 için önerilen küme sayıları 2, 3, 5, 6, 9
ve 11 olarak saptanmıştır. Bu durumda f(K) tarafından gerçek küme sayısı olan 9, en küçük f(K)
değerli yani optimal küme sayısı olarak bulunmamıştır. Ancak önerilen küme sayıları içinde 9
da bulunduğundan sonuç isabetli (++) sayılabilir. Böyle bir durumda, k seçiminde araştırmacı
değerlendirmesine ihtiyaç olacağı ve k’nın ancak inceleme sonucunda seçilebileceği
anlaşılmaktadır. Benzer değerlendirmeler DS4, DS5 ve DS7 veri setleri için de geçerlidir.
Sonuçlar özetlenirse, f(K) fonksiyonu:
a) Daire şekilli ve düzenli serpilme gösteren veri setlerinde,
b) Kare şekilli ve diyagonal yerleşimli düzenli serpilme gösteren veri setlerinde,
c) Elips şekilli ve diyagonal yerleşimli düzenli serpilme gösteren veri setlerinde,
d) Elips şekilli ve dikey yerleşimli düzensiz serpilme gösteren veri setlerinde
iyi çalışmaktadır. Ancak önerilen küme sayılarına ilaveten araştırmacı incelemesine de ihtiyaç
duyulmaktadır.
Cebeci, Z., Yıldız, F., Kayaalp, G.T. (2015) “K-Ortalamalar Kümelemesinde Optimum K Değeri Seçilmesi”, 2. Ulusal Yönetim
Bilişim Sistemleri Kongresi, 8-10 Ekim 2015, Erzurum. Bildiriler Kitabı (Ed: Ü. Özen ve ark.), s. 231-242. Orka Ofset
Matbaacılık, Erzurum, ISBN:978-975-442-738-7.
237
DS1
DS2
DS3
DS4
DS5
DS6
DS7 DS8
DS9
DS10
DS11
DS12
Grafik 4.1. Veri setlerine göre serpilme grafikleri
Tablo 4.1. f(K) fonksiyonuna göre optimum ve önerilen küme sayıları
İndeks DS1 DS2 DS3 DS4 DS5 DS6 DS7 DS8 DS9 DS10 DS11 DS12
Etiketli küme
(sınıf) sayısı 9 9 9 9 9 9 8 8 9 14 7 3
f(K) ile önerilen
küme sayısı
9 2, 3,
5, 6,
9, 11
2 2, 3,
5, 6,
9, 11
2, 3,
6, 9 2 2, 3,
4, 5,
6, 7,
8
2, 3,
4, 6,
7
2, 3,
4, 5,
6, 7,
9
2, 3, 4,
8, 12,
13
2, 3 2,5
Değerlendirme +++ ++ - ++ ++ - ++ + +++ + - +
Cebeci, Z., Yıldız, F., Kayaalp, G.T. (2015) “K-Ortalamalar Kümelemesinde Optimum K Değeri Seçilmesi”, 2. Ulusal Yönetim
Bilişim Sistemleri Kongresi, 8-10 Ekim 2015, Erzurum. Bildiriler Kitabı (Ed: Ü. Özen ve ark.), s. 231-242. Orka Ofset
Matbaacılık, Erzurum, ISBN:978-975-442-738-7.
238
DS1
DS2
DS3
DS4
DS5
DS6
DS7 DS8 DS9
DS10
DS11
DS12
Grafik 4.2. Veri setlerine göre f(K) değerleri grafiği
DS8, DS10 ve DS12 veri setlerinde f(K) fonksiyonu ile etiketli sınıf sayılarının
bulunamadığı, ancak yaklaşık küme sayısı (±1) önerilerinin yapıldığı görülmektedir. Örneğin,
DS8 setinde etiketli sınıf sayısı 8’dir ve f(K) buna çok yakın bir değer olarak 7 önerisinde
bulunmuş olup araştırmacı değerlendirmesine ihtiyaç olduğuna işaret etmektedir. Böylesi
durumlarda k değeri seçiminde objektif bir yaklaşımdan biraz daha uzaklaşılacağı
Cebeci, Z., Yıldız, F., Kayaalp, G.T. (2015) “K-Ortalamalar Kümelemesinde Optimum K Değeri Seçilmesi”, 2. Ulusal Yönetim
Bilişim Sistemleri Kongresi, 8-10 Ekim 2015, Erzurum. Bildiriler Kitabı (Ed: Ü. Özen ve ark.), s. 231-242. Orka Ofset
Matbaacılık, Erzurum, ISBN:978-975-442-738-7.
239
anlaşılmaktadır. Örneğin, DS12 veri setinde optimal küme sayısı 2 olarak saptanmış ancak 5
önerisi de yapılmıştır. Bu durumda, düzensiz elips şekilli, düzensiz daire şekilli ve gürültülü
veri setleri ile düzensiz konkav şekilli kümelere sahip veri setlerinde f(K) sonuçlarının çok
kullanışlı olamayacağı söylenebilir.
DS3 ve DS6 veri setleri için birer adet küme sayısı önerildiği; dahası bunların etiketli
sınıf sayısından çok küçük oldukları görülmektedir. Bu durum, f(K) fonksiyonunun bu tür veri
setlerinde çok başarısız olduğuna işaret etmektedir. DS11 veri seti için iki değer önerilse de
benzer durum geçerli olup f(K)’nın bu tür veri setlerinde iyi çalışamayacağı anlaşılmaktadır. Bu
sonuç, büyük ihtimalle araştırmada kullanılan uzaklık normunun Öklid uzaklığı olmasından da
kaynaklanmış olabilir. Bu nedenle başka uzaklık normları ile test edilmesi gerekmektedir.
Sonuç olarak, f(K) fonksiyonu küme sayısını bulmada 2 veri setinde çok başarılı, 4 veri
setinde başarılı, 3 veri setinde az başarılı ve 3 veri setinde ise başarısız bulunmuştur. Bu
sonuçlar f(K) fonksiyonunun genel olarak optimal küme sayısını belirlemek için kabul edilebilir
bir başarısı olduğunu ortaya koymaktadır. Aşağıda diğer kümeleme indeksleri ile yapılan
karşılaştırmalar da bu savı doğrulamaktadır.
Tablo 4.2’de analiz edilen veri setleri için yaygın olarak kullanılan 24 indeks tarafından
önerilen küme sayıları görülmektedir. Tabloda kırmızı ve altı çizili işaretlenmiş değerler veri
setlerinde etiketli sınıf sayısına (orijinal küme sayısı) eşit olarak bulunan küme sayılarını
göstermektedir. Örneğin, KL indeksi DS6; Scott indeksi DS3, DS6 ve DS12 veri setlerindeki
küme sayısını tam isabetle bulmuşlardır. Tablo 4.2’de mavi ve eğik olarak işaretlenen sayılar ise
veri setindeki etiketli sınıf sayısına yakın (±1) küme sayısı önerilerini göstermektedir. Örneğin,
KL indeksi DS7 veri setindeki; CH indeksi DS4, DS8, DS9 ve DS10 veri setindeki orijinal
küme sayılarını yakın olarak tahmin etmişlerdir.
Tablo 4.2. Çeşitli geçerlilik indekslerine göre optimum küme sayıları İndeks DS1 DS2 DS3 DS4 DS5 DS6 DS7 DS8 DS9 DS10 DS11 DS12
KL 4 11 4 3 14 9 9 4 5 8 16 8
CH 11 11 17 10 17 18 10 9 10 15 20 5
Hartigan 10 11 4 3 4 4 9 4 3 3 3 5
CCC 11 11 17 2 17 18 18 4 10 15 6 5
Scott 4 5 9 3 6 9 9 3 5 3 3 3
Marriot 9 5 6 3 6 9 4 4 5 3 4 5
TrCovW 3 3 3 3 3 3 3 3 4 3 3 3
TraceW 3 3 4 3 3 4 4 3 4 3 3 5
Friedman 11 11 9 10 6 14 9 16 9 14 8 18
Rubin 11 11 17 10 14 18 9 16 9 15 16 5
Cindex 15 10 20 20 13 20 7 6 8 17 15 4
DB 7 7 9 3 2 17 2 4 5 6 4 5
Silhouette 11 11 9 3 2 18 4 4 9 9 4 5
Duda 2 2 2 2 2 2 2 4 2 3 3 2
PseudoT2 2 2 2 2 2 2 2 4 2 3 3 2
Beale 2 2 2 2 2 2 2 3 2 2 2 2
Ratkowsky 3 3 3 2 2 3 2 2 2 3 3 5
Ball 3 3 3 3 3 3 3 3 4 3 3 3
PtBiserial 4 5 4 2 2 4 2 3 5 3 3 5
Frey 1 1 1 1 2 1 2 1 2 1 1 1
McClain 2 2 2 2 2 2 2 2 9 2 2 2
Dunn 11 11 9 3 2 5 2 4 5 6 19 5
SDindex 4 7 9 3 6 4 4 4 5 6 4 5
SDbw 11 12 20 10 4 20 9 4 6 15 20 16
Tablo 4.2’ye göre, CH, Friedman ve Scott gibi bazı indeksler diğerlerine göre daha
başarılı olmakla birlikte f(K)’ya göre oldukça düşük performans göstermişlerdir. Dahası Beale,
Ratkowsky, Point biserial, Frey ve PseudoT2 gibi bazı indeksler incelenen veri setlerinin
hiçbirinde küme sayılarını yaklaşık olarak bile tahmin edememişlerdir. Liu ve ark. (2010)
tarafından çalışılan tüm veri setlerinde diğerlerinden daha üstün olduğu bildirilen SDbw
indeksinin de bu araştırmada kullanılan veri setlerinde çok güçlü olmadığı görülmüştür.
Cebeci, Z., Yıldız, F., Kayaalp, G.T. (2015) “K-Ortalamalar Kümelemesinde Optimum K Değeri Seçilmesi”, 2. Ulusal Yönetim
Bilişim Sistemleri Kongresi, 8-10 Ekim 2015, Erzurum. Bildiriler Kitabı (Ed: Ü. Özen ve ark.), s. 231-242. Orka Ofset
Matbaacılık, Erzurum, ISBN:978-975-442-738-7.
240
İncelenen indekslerden bazıları veri setlerinde mevcut orijinal küme sayılarına göre çok
yukarıda ve bazıları da çok aşağıda kalan sonuçlar vermişlerdir. Bununla birlikte, bu indekslerin
farklı kümeleme algoritmalarına göre farklı performanslar göstermeleri mümkün olabilir. Zira
veri setlerinde farklı monotonluk, gürültü, yoğunluk, küme sayısı ve çarpıklık durumlarına özel
performanslar sergileyen indeksler olması doğal bir beklenti olup (Liu ve ark., 2010)
araştırılması gereken bir konudur. Yukarıdaki tartışmalara göre, bu çalışmada incelenen veri
setleriyle yapılan analizlerde NbClust paketinde bulunan 24 indeksin hiçbirinin f(K)
yönteminin performansına ulaşamadıkları görülmüştür.
5. SONUÇ
Bu çalışmada bölümleyici kümelemede k seçiminde kullanılabilecek f(K) fonksiyonu
tanıtılarak R ortamında yapay veri setleri ile test edilmiştir. Farklı şekilli, düzenli ve düzensiz
serpilme gösteren kümeler içeren veri setleriyle yapılan analizlere göre f(K) fonksiyonu diğer
indekslere göre daha başarılı bulunmuştur. Sonuçlar, K-ortalamalar kümelemesinin çoklu
geçişlerle çalıştırılmasıyla k’nın çoğu veri setinde başarılı şekilde belirlenebileceğini ortaya
koymuştur. Buna karşın fonksiyonun elips şekilli ve düzensiz serpilen kümeler içeren veri
setlerinde başarılı olamadığı da anlaşılmaktadır. Fakat bunun bizzat fonksiyonun kendisinden
kaynaklanmak yerine K-ortalamalar algoritmasının elips şekilli kümelere karşı sorunlu
olmasından ileri geldiği söylenebilir. Fonksiyon başarısının bu nedenle K-ortalamalar yerine
Bulanık c-ortalamalar ve Gustafson-Kessel algoritmaları ile test edilmesi de yararlı
olabilecektir. K-ortalamalar popüler bir yöntem olmakla birlikte son yıllarda k parametresi
bakımından iyi sonuçlar verdiği bildirilen X-ortalamalar, G-ortalamalar, PG-ortalamalar ve
Bayesçi K-ortalamalar gibi yöntemlerin kullanılması da alternatifler durumundadır.
Mevcut geçerlilik indekslerinin kümelerin şekli, hacmi ve uzaydaki yerleşimlerini
dikkate alarak küme sayısını mümkün olduğunca doğru verecek şekilde sınanmaları önemlidir.
Bu nedenle veri setlerindeki kümelerin şekli ve uzaydaki serpilmesini dikkate alan akıllı küme
sayısı bulma algoritmaları üzerinde çalışmalar da sürdürülmektedir. İleride bu tür algoritmaların
bölümleyici kümeleme analiz yazılımlarına dâhil edilmesiyle kümelemede daha geçerli sonuçlar
elde edilebilecektir. Bunlara ilaveten f(K) yönteminin K-ortalamalar dışında diğer bölümleyici
kümeleme algoritmaları için Xie-Beni indeksi, Bölümleme katsayısı, Bölümleme entropisi,
NIVA (Rendón ve ark., 2008) ve CDV (Yeh ve ark., 2014) gibi yeni geçerlilik indeksleriyle
karşılaştırılması daha genelleştirilebilir önerilere ulaşılmasını sağlayabilecektir.
KAYNAKLAR
Bezdek, J.C. and Hathaway, R.J. (2002). VAT: A tool for Visual Assessment of (Cluster) Tendency.
Proceedings of IEEE Int. Joint Conference on Neural Networks (IJCNN 02), 12-17 May 2002. 21.
2225-2230.
Bezdek, J.C., Hathaway, R.J. and Huband , J.M. (2007). “Visual Assessment of Fuzzy Clustering
Tendency for Rectangular Dissimilarity Matrices”, IEEE Transactions on Fuzzy Systems, 15 (5).
890-903.
Brock, G., Pihur, V., Datta, S., Datta, S. (2008). “clValid: An R Package for Cluster Validation.” Journal
of Statistical Software, 25(4), 1–22. URL http://www.jstatsoft.org/v25/i04/. [Erişim tarihi:
28.06.2015].
Charrad, M., Ghazzali, N., Boiteau, V. and Niknafs, A. (2012). “Package NbClust”, May 23, 2012 .
http://cedric.cnam.fr/fichiers/art_2554.pdf [Erişim tarihi: 28.06.2015].
Charrad, M., Ghazzali, N., Boiteau, V. and Niknafs, A. (2014). “NbClust: An R Package for Determining
the Relevant Number of Clusters in a Data Set”. J.of Statistical Software, 61(6). 1-36.
Desgraupes, B. (2013). “Clustering Indices”, http://cran.r-
project.org/web/packages/clusterCrit/vignettes/clusterCrit.pdf [Erişim tarihi: 30.6.2015]
Data Science Lab. (2014). “Selection of K in K-means Clustering, Reloaded”.
https://datasciencelab.wordpress.com/2014/01/21/selection-of-k-in-k-means-clustering-reloaded.
[Erişim Tarihi: 05.06.2015].
Cebeci, Z., Yıldız, F., Kayaalp, G.T. (2015) “K-Ortalamalar Kümelemesinde Optimum K Değeri Seçilmesi”, 2. Ulusal Yönetim
Bilişim Sistemleri Kongresi, 8-10 Ekim 2015, Erzurum. Bildiriler Kitabı (Ed: Ü. Özen ve ark.), s. 231-242. Orka Ofset
Matbaacılık, Erzurum, ISBN:978-975-442-738-7.
241
Dimitriadou, E. (2014). “cclust: Convex Clustering Methods and Clustering Indexes”. R package version
0.6-18, URL http://CRAN.R-project.org/package=cclust. [Erişim tarihi: 28.06.2015].
Dudoit, S. and Fridlyand, J. (2002), “A Prediction-based Resampling Method for Estimating the Number
of Clusters in a Dataset. Genome Biology, 3(7).1-21.
Fischer, A. (2011). “On the number of groups in clustering”, Statistics & Probability Letters, 81(12).
1771–1781.
Halkidi, M., Batistakis, Y. and Vazirgiannis, M. (2001). “On Clustering Validation Techniques”, J. of
Intelligent Information Systems, 17 (2/3). 107–145.
Hamerly, G. and Elkan, C. (2004). “Learning the k in k-means”. In Advances in Neural Information
Processing Systems 16, Eds. S. Thrun and L.K. Saul and B. Schölkopf. pp. 281-288. MIT Press.
http://papers.nips.cc/paper/2526-learning-the-k-in-k-means.pdf [Erişim tarihi: 28.06.2015].
Havens, T.C. and Bezdek , J.C. (2012). "An Efficient Formulation of the Improved Visual Assessment of
Cluster Tendency (iVAT) Algorithm", IEEE Transactions on Knowledge & Data Engineering, 24
(5). 813-822.
Hu, Y. (2012). “VATdt: Visual Assessment of Cluster Tendency Using Diagonal Tracing”, American
Journal of Computational Mathematics, 2. 27-41.
Kodinariya, T.M. and Makwana, P.R. (2013). “Review on Determining Number of Cluster in K-Means
Clustering”, Int. J. of Advance Research in Computer Science &Management Studies, 1(6). 90-95.
Kovács, F., Legány, C., & Babos, A. (2005). “Cluster Validity Measurement Techniques”, 6th Int.
Symposium of Hungarian Researchers on Computational Intelligence, Nov 18-19, 2005,
Budapest, Hungary.
Krishnamoorthi (2011). Automatic Evaluation of Cluster in Unlabeled Datasets. Proc. Of Int.Conf. on
Information and Network Technology. IACSIT Press, Singapore. 120-124.
Liu, Y., Li, Z., Xiong, H., Gao, X. & Wu, J. (2010). Understanding of Internal Clustering Validation
Measures. 2010 IEEE Int. Conf. on Data Mining, 911-916.
Marozzi, M. (2014). “Construction, Dimension Reduction and Uncertainty Analysis of an Index of Trust
in Public Institutions.”, Quality and Quantity, 48(2). 939–953.
Nieweglowski, L. (2014). clv: Cluster Validation Techniques. R package version 0.3-2.1, URL
http://CRAN.R-project.org/package=clv. [Erişim tarihi: 28.06.2015].
Pakhira, M.K (2012). Finding Number of Clusters before Finding Clusters. Procedia Technology 4: 27 -
37.
Pham, D.T., Dimov, S.S. and Nguyen, C.D. (2005). “Selection of K in K-means clustering”. Journal of
Mechanical Engineering Science, 219. 103 -119.
Ray, S. and Turi, R.H. (1999). “Determination of Number of Clusters in K-Means Clustering and
Application in Colour Image Segmentation” in Proc. of the 4th Int. Conf. on Advances in Pattern
Recognition and Digital Techniques, Calcutta, India, December 27-29, 1999, Narosa Publishing
House, New Delhi, India, pp. 137-143.
R Core Team (2015). R: A language and environment for statistical computing. R Foundation for
Statistical Computing, Vienna, Austria. URL:http://www.R-project.org.
Rendón, E., Garcia, R., Abundez, I., Gutierrez, C., Gasca, E. Del Razo, F., A. and Gonzales, A. (2008).
NIVA: A Robust Cluster Validity. 12th WSEAS International Conference on Communications,
Heraklion, Greece, July 23-25, 2008. p. 241-248.
Rendón, E., Abundez, I., Arizmendi, A. and Quiroz, E.M, (2011). “Internal versus External Cluster
Validation Indexes”, Int. J. of Computers and Communications, 5(1).27-34.
Rodriguez, G. (2015). “kselection: Selection of K in K-Means Clustering”. R package version 0.2.0.
http://CRAN.R-project.org/package=kselection [Erişim tarihi: 28.06.2015].
Saisana, M., Saltelli, A. and Tarantola, S. (2005). “Uncertainty and Sensitivity Analysis Techniques as
Tools for the Quality Assessment of Composite Indicators.”, J. of the Royal Statistical Society:
Series A (Statistics in Society). 168(2). 307–323.
Thalamuthu, A., Mukhopadhyay, I., Zheng, X., and Tseng, G. C. (2005). “Evaluation and Comparison of
Gene Clustering Methods in Microarray Analysis”. Bioinformatics, 22(19).2405-2412.
Walesiak, M. and Dudek, A. (2014). clusterSim: Searching for Optimal Clustering Procedure for a Data
Set. R package version 0.43-4, URL http://CRAN.R-project.org/package= clusterSim. [Erişim
tarihi: 28.06.2015].
Wang, W. and Zhanga, Y. (2007). “On fuzzy cluster validity indices”, Fuzzy Sets and Systems, 158 .
2095– 2117.
Cebeci, Z., Yıldız, F., Kayaalp, G.T. (2015) “K-Ortalamalar Kümelemesinde Optimum K Değeri Seçilmesi”, 2. Ulusal Yönetim
Bilişim Sistemleri Kongresi, 8-10 Ekim 2015, Erzurum. Bildiriler Kitabı (Ed: Ü. Özen ve ark.), s. 231-242. Orka Ofset
Matbaacılık, Erzurum, ISBN:978-975-442-738-7.
242
Yeh, J-H., Joung, F-J. and Lin, J.-C. (2014). “CDV Index: A Validity Index for Better Clustering Quality
Measurement”, Journal of Computer and Communications, 2. 163-171.
http://dx.doi.org/10.4236/jcc.2014.24022.
Bu bildiriyi aşağıdaki gibi kaynak gösterebilirsiniz:
Cebeci, Z., Yıldız, F., Kayaalp, G.T. (2015) “K-Ortalamalar Kümelemesinde Optimum K Değeri
Seçilmesi”, 2. Ulusal Yönetim Bilişim Sistemleri Kongresi, 8-10 Ekim 2015, Erzurum. Bildiriler
Kitabı (Ed: Ü. Özen ve ark.), s. 231-242. Orka Ofset Matbaacılık, Erzurum, ISBN:978-975-442-
738-7.