254
VERİ MADENCİLİĞİ ENDÜSTRİ MÜHENDİSLİĞİ LİSANS TAMAMLAMA PROGRAMI DR. ÖĞR. ÜYESİ TUNCAY ÖZCAN İSTANBUL ÜNİVERSİTESİ AÇIK VE UZAKTAN EĞİTİM FAKÜLTESİ

VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

  • Upload
    others

  • View
    12

  • Download
    0

Embed Size (px)

Citation preview

Page 1: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

VERİ MADENCİLİĞİ

ENDÜSTRİ MÜHENDİSLİĞİ LİSANS TAMAMLAMA PROGRAMI

DR. ÖĞR. ÜYESİ TUNCAY ÖZCAN

İSTANBUL ÜNİVERSİTESİ AÇIK VE UZAKTAN EĞİTİM FAKÜLTESİ

Page 2: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

İSTANBUL ÜNİVERSİTESİ AÇIK VE UZAKTAN EĞİTİM FAKÜLTESİ

ENDÜSTRİ MÜHENDİSLİĞİ LİSANS TAMAMLAMA PROGRAMI

VERİ MADENCİLİĞİ

DR. ÖĞR. ÜYESİ TUNCAY ÖZCAN

Page 3: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

Yazar Notu

Elinizdeki bu eser, İstanbul Üniversitesi Açık ve Uzaktan Eğitim Fakültesi’nde okutulmak için

hazırlanmış bir ders notu niteliğindedir.

Page 4: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

I

ÖNSÖZ

Veri madenciliği, büyük ölçekli veri kümelerinden bilinmeyen, ilgi çekici ve faydalı desenlerin ve bilgilerin çıkarılması amacına yönelik algoritmaları içermektedir. Bu kitapta;

sınıflandırma, kümeleme ve birliktelik analizi gibi veri madenciliğinin temel fonksiyonlarına yönelik teorik bilgiler verilecek ve önemli algoritmalar detaylandırılacaktır. Ayrıca, bu algoritmaların gerçek hayat problemlerinde nasıl kullanılacağına yönelik uygulamalara da yer verilecektir.

Kitap bölümlerinin gelişimi ise şu şekilde sıralanabilir:

İlk bölümde, veri madenciliği ve bilgi keşfi ile ilgili detaylı bilgiler verilecek ve uygulamada karşılaşılan veri madenciliği problemleri özetlenecektir. İkinci bölümde, makine öğrenmesi kavramı ile birlikte veri madenciliğinin önemli fonksiyonlarına ait temel bilgiler örnek veri kümeleri ile sunulacaktır. Üçüncü bölümde; veri madenciliği projelerinde önemli yer tutan veri önişleme adımları örnek problemleri ile detaylandırılacaktır. Dördüncü bölümde, önemli veri madenciliği fonksiyonlarından biri olan sınıflandırma ile ilgili temel

bilgiler verilecek ve karar ağaçları ile sınıflandırma problemlerinin nasıl çözüleceği ortaya konulacaktır. Sınıflandırma problemlerinin çözümünde yaygın olarak kullanılan bir diğer algoritma olan bayes teoremi ve bayes ağları beşinci bölümde ele alınacaktır. Altınca bölümde, örnek tabanlı sınıflandırma algoritmaları ile birlikte sınıflandırıcı performansının değerlendirilmesinde kullanılan ölçütlere yer verilecektir. Yedinci bölümde, veri madenciliğinde önemli bir yer tutan kümeleme algoritmaları ile ilgili temel kavramlara yer verilecek ve farklı veri türleri ile benzerlik ve uzaklık hesaplamalarının nasıl yapılacağı sunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-

ortalamalar algoritması detaylı olarak incelenecek ve örnek uygulamalar gerçekleştirilecektir. Dokuzuncu bölümde, hiyerarşik kümeleme algoritmaları ele alınacak ve kümeleme kalitesinin değerlendirilmesine yönelik ölçütlere yer verilecektir. Kitabın onuncu bölümü ile birlikte birliktelik kuralları madenciliğine giriş yapılacak ve bu bölümde, birliktelik kurallarının oluşturulmasında önemli yer tutan destek ve güven değerleri ile ilgili hesaplamalar gerçekleştirilecektir. On birinci bölümde, yaygın desen madenciliği ile birlikte Appriori algoritması detaylandırılacaktır. On ikinci bölümde, çok seviyeli birliktelik kurallarına ve birliktelik kurallarının keşfinde kullanılan FP-Ağacı algoritmasına yer verilecektir. On üçüncü bölümde, sıralı desen madenciliği ile temel kavramlar ve algoritmalar anlatılacaktır. Son bölümde ise, veri madenciliği uygulamalarının geliştirilmesinde kullanılabilecek açık kaynak kodlu WEKA yazılımı, örnek vaka çalışmaları ile birlikte incelenecektir. Böylece, bir yazılım ile veri madenciliği uygulamalarının nasıl gerçekleştirileceği ve gerçek hayat problemlerinin nasıl çözümleneceği ile ilgili gerekli becerinin kazanılması hedeflenmektedir.

İstanbul, 2015

DR. ÖĞR. ÜYESİ TUNCAY ÖZCAN

Page 5: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

II

İÇİNDEKİLER

ÖNSÖZ ........................................................................................................................................ I

İÇİNDEKİLER .......................................................................................................................... II

1. VERİ MADENCİLİĞİNE GİRİŞ .......................................................................................... 1

1.1. Veri Madenciliği Kavramı .................................................................................................. 7

1.2. Bilgi Keşfi Süreci ve CRISP-DM Süreç Modeli ................................................................ 8

1.3. Veri Madenciliği Uygulamaları ........................................................................................ 11

1.4. Veri Martı, Veri Ambarı, OLAP ve OLTP ....................................................................... 13

2. VERİ MADENCİLİĞİ FONKSİYONLARI ....................................................................... 18

2.1. Denetimli ve Denetimsiz Öğrenme ................................................................................... 24

2.2. Veri Madenciliği Fonksiyonları ........................................................................................ 24

2.3. Nesne ve Nitelik Kavramı ................................................................................................. 27

3. VERİ ÖNİŞLEME ............................................................................................................... 33

3.1. Verinin Grafiksel Gösterimi ve İstatistiksel Analizi ......................................................... 39

3.2. Veri Önişleme Adımları .................................................................................................... 39

3.2.1. Veri Temizleme ...................................................................................................... 41

3.2.2. Veri Entegrasyonu ve Veri Azaltma ....................................................................... 43

3.2.3. Veri Dönüşümü ve Normalleştirme ........................................................................ 44

3.2.4. Veri Düzeltme ve Ayrıklaştırma ............................................................................. 45

4.SINIFLANDIRMANIN TEMEL KAVRAMLARI VE KARAR AĞAÇLARI İLE SINIFLANDIRMA .................................................................................................................. 50

4.1. Sınıflandırmanın Temel Kavramları ................................................................................. 56

4.2. Karar Ağaçları ile Sınıflandırma ....................................................................................... 58

4.3. ID3 Algoritması ................................................................................................................. 62

5. BAYES TEOREMİ VE BAYES AĞLARI İLE SINIFLANDIRMA .................................. 74

5.1. Bayes Teoremi ................................................................................................................... 80

5.2. Sade (Naive) Bayes Sınıflandırıcısı .................................................................................. 80

5.3. Bayes Ağları ile Sınıflandırma .......................................................................................... 84

6. ÖRNEK TABANLI SINIFLANDIRMA VE SINIFLANDIRICI PERFORMANSININ DEĞERLENDİRİLMESİ ......................................................................................................... 90

6.1. Tembel ve İstekli Öğrenme ............................................................................................... 96

6.2. K-En Yakın Komşu Algoritması ....................................................................................... 96

6.3. Sınıflandırıcı Performansının Değerlendirilmesi .............................................................. 99

7. KÜMELEME ANALİZİNE GİRİŞ VE BENZERLİK VE UZAKLIK ÖLÇÜLERİ ........ 109

Page 6: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

III

7.1. Kümeleme Analizinin Temel Kavramları ....................................................................... 115

7.2. Kümeleme Algoritmalarında Uzaklık Ölçüleri ............................................................... 116

7.3. Kümeleme Algoritmalarında Benzerlik Ölçüleri ............................................................ 119

8. K ORTALAMALAR ALGORİTMASI İLE KÜMELEME .............................................. 123

8.1. Önemli Kümeleme Algoritmaları .................................................................................... 129

8.2. K-Ortalamalar Algoritması ............................................................................................. 135

8.3. K-Medoid Algoritması .................................................................................................... 137

9. HİYERARŞİK KÜMELEME VE KÜMELEME KALİTESİNİN ÖLÇÜLMESİ ............ 145

9.1. Hiyerarşik Kümeleme ..................................................................................................... 151

9.2. Bulanık Kümeleme .......................................................................................................... 152

9.3. Beklenti Maksimizasyonu Algoritması ........................................................................... 152

9.4. Kümeleme Kalitesinin Değerlendirilmesi ....................................................................... 155

10. BİRLİKTELİK KURALLARININ TEMEL KAVRAMLARI ....................................... 164

10.1. Birliktelik Kurallarına Giriş ve Yaygın Desen Analizi ................................................. 170

10.2. Birliktelik Kurallarının Keşfi ve Destek ve Güven Hesaplamaları ............................... 171

10.3. Nicel Birliktelik Kuralları ............................................................................................. 173

10.4. İlgi Çekicilik Ölçüleri .................................................................................................... 175

11. APPRİORİ ALGORİTMASI İLE BİRLİKTELİK KURALLARI MADENCİLİĞİ ...... 180

11.1. Appriori Algoritması ile Yaygın Öğelerin Belirlenmesi ............................................... 186

11.2. Birliktelik Kurallarının Oluşturulması .......................................................................... 186

11.3. Kısıt Esaslı Madencilik ................................................................................................. 188

12. FP-AĞACI İLE BİRLİKTELİK KURALLARI MADENCİLİĞİ VE ÇOK SEVİYELİ BİRLİKTELİK KURALLARI ............................................................................................... 195

12.1. FP-Ağacı ile Yaygın Desen Madenciliği ...................................................................... 201

12.2. Çok Seviyeli Birliktelik Kuralları ................................................................................. 203

12.3. Negatif ve Nadir Kurallar .............................................................................................. 205

13. SIRALI DESEN MADENCİLİĞİ ................................................................................... 216

13.1. Sıralı Desen Madenciliğine Giriş .................................................................................. 222

13.2. Appriori All Algoritması ile Sıralı Desen Madenciliği ................................................. 225

13.3. GSP-Genelleştirilmiş Sıralı Desen Madenciliği Algoritması........................................ 227

14. WEKA YAZILIMI İLE VERİ MADENCİLİĞİ UYGULAMALARI ............................ 232

14.1. WEKA Yazılımına Giriş ............................................................................................... 238

14.2. WEKA ile Veri Önişleme Uygulamaları ...................................................................... 241

Page 7: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

IV

14.3. WEKA ile Sınıflandırma Uygulamaları ........................................................................ 242

KAYNAKÇA ......................................................................................................................... 247

Page 8: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

1

1. VERİ MADENCİLİĞİNE GİRİŞ

Page 9: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

2

Bu Bölümde Neler Öğreneceğiz?

1.1. Veri Madenciliği Kavramı

1.2. Bilgi Keşfi Süreci ve CRISP-DM Süreç Modeli

1.3. Veri Madenciliği Uygulamaları

1.4. Veri Martı, Veri Ambarı, OLAP ve OLTP

Page 10: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

3

Bölüm Hakkında İlgi Oluşturan Sorular

1) Veri madenciliği nedir ?

2) Neden veri madenciliğine gereksinim duyulmaktadır?

3) Veri madenciliği kapsamında ele alınan temel problemler ve uygulama alanları nelerdir?

Page 11: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

4

Bölümde Hedeflenen Kazanımlar ve Kazanım Yöntemleri

Konu Kazanım Kazanımın nasıl elde edileceği veya geliştirileceği

Veri Madenciliği Kavramı

Veri madenciliği kavramını ve neden veri madenciliğine gereksinim duyulduğunu kavramak.

Teorik anlatım

Bilgi Keşfi Süreci ve

CRISP-DM Süreç Modeli

Bilgi keşfi sürecinin

adımlarını öğrenmek. Teorik anlatım

Bilgi Keşfi Süreci ve CRISP-DM Süreç Modeli

Veri madenciliği projelerinde kullanılan CRISP-DM süreç modelinin adımlarını ortaya koymak.

Teorik anlatım

Veri Madenciliği Uygulamaları

Veri madenciliği uygulama

örneklerini detaylandırmak.

Teorik anlatım

Veri Martı, Veri Ambarı, OLAP ve OLTP

Veri martı, veri ambarı, OLAP ve OLTP

kavramlarını öğrenmek.

Teorik anlatım

Page 12: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

5

Anahtar Kavramlar

Veri Madenciliği

Bilgi Keşfi

CRISP-DM

Page 13: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

6

Giriş

Bu bölümde, veri madenciliğinin tanımı ve neden veri madenciliği algoritmalarına gereksinim duyulduğu açıklanacak, veri madenciliği projelerinin gerçekleştirilmesinde kullanılan CRISP-DM modeli ortaya konulacak ve veri madenciliğinin gerçek hayat uygulama örneklerine yer verilecektir.

Page 14: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

7

1.1. Veri Madenciliği Kavramı

Günümüzde birçok işletme için veri büyüklüğü sürekli olarak artmakta ve terabyte boyutundan petabyte boyutuna doğru büyümektedir. Veri büyüklüğünün artmasının en önemli nedenleri arasında; barkod teknolojisi ve otomatik veri toplama araçları, veri tabanı sistemleri

ve web sıralanabilir. Örneğin; süpermarketler müşteri işlem verileri ile oluşturulan büyük miktarda veriye sahiptir. Barkodlama teknolojisi, barkod-ürün eşleşmesini gerçekleştirerek fiyat, maliyet ve stok gibi bilgileri güncellenmesini sağlamakta ve veri kitlelerini

perakendecilere sunmaktadır.

Büyük boyutlu verinin en önemli kaynakları ise aşağıdaki şekilde sıralanabilir:

İş dünyası: Web, e-ticaret, müşteri işlem verileri, stoklar, satışlar, …

Bilim: Uzaktan algılama, biyoinformatik, bilimsel simülasyon, …

Toplum ve insanlar: Gazeteler, dijital kameralar, YouTube, sosyal medya

verisi, ….

Günümüzde birçok işletme için veri çokluğundan boğulma ama bilgi için açlıktan ölme durumu söz konusudur. Bu noktada, veri madenciliği büyük veri kümelerinin otomatik

analizini sağlamaktadır.

Veri madenciliği, çok büyük miktardaki veriden ilgili çekici desenlerin ya da bilginin çıkarılması sürecidir. Bu noktada, veri madenciliği yerine; veri tabanlarından bilgi keşfi, bilgi çıkarma, veri/desen analizi, veri arkeolojisi, veri tarama, iş zekası gibi alternatif isimlendirmelerde kullanılmaktadır.

Bir veri madenciliği sürecinden elde edilen bilginin ya da desenlerin; sıradan olmayan, kesin, önceden bilinmeyen ve faydalı olması gerekmektedir. Bu noktada; basit arama ve sorgu

işlemleri veri madenciliği olarak nitelendirilemez. Örneğin; bir perakendecinin son 3 ay içerisindeki Ankara bölgesindeki bayilerinin satışlarını elde etmesi bir veri madenciliği aktivitesi değildir. Bu tip, basit sorgulama işlemlerinin veri madenciliği olarak değerlendirilmesi uygulamada da sıklıkla yapılan bir hatadır.

Veri madenciliği daha önce de ifade edildiği gibi; veriden kesin, önceden bilinmeyen ya da faydalı bilginin çıkarılmasını içermektedir. Bu noktada, veri madenciliği sürecinin etkileyen bazı problemler söz konusudur.

Problem 1: çoğu desen ilgi çekici değildir Problem 2: desenler kesin değildir (ya da gerçek değildir) Problem 3: veri bozuk veya kayıp olabilir

Veri madenciliği, keşfedici veri analizidir. Klasik istatistiksel yaklaşımlar, veri

madenciliğine temeldir. Yapay zeka metodları da veri madenciliğinde kullanılmaktadır. Veri

madenciliğinin diğer alanlar ile ilişkisi Şekil 1’de sunulmaktadır.

Page 15: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

8

Şekil 1: Veri Madenciliğinin Diğer Alanlar ile İlişkisi

Veri madenciliği, veri tabanlarında elde edilen bilgileri kullanmaktadır. Veri madenciliği fonksiyonlarını yerine getirmek için geliştirilen algoritmaların kullanımı veri madenciliğinde temelini oluşturmaktadır. Bu algoritmalar, makine öğrenmesi kavramını esas

almaktadır. Bu noktada, büyük veri kümelerinden sonuçların makul zamanda elde edilmesi için yüksek performanslı hesaplama gereksinimi söz konusudur. Elde edilen sonuçların kullanıcı tarafından kolaylıkla algılanmasını ve yorumlanmasını sağlayacak şekilde

görselleştirme araçlarından veri madenciliği projelerinde faydalanılmaktadır.

1.2. Bilgi Keşfi Süreci ve CRISP-DM Süreç Modeli

Bilgi keşfi, veri tabanlarından ve veri ambarlarından tipik olarak bilginin elde edilmesini içermektedir. Veri madenciliği, bilgi keşfi sürecinde önemli rol oynamaktadır. Bilgi keşfi sürecinin adımları Şekil 2’de sunulmaktadır.

Bilgi keşfi süreci, veri tabanlarından bilginin elde edilmesi ile başlamaktadır. Veri tabanlarından elde edilen bilginin sağlıksız ve hatalı olan kısmının temizlenmesi ve veri

tabanının farklı kaynaklarından yer alan verinin entegrasyonu bu aşamada kritik önem taşımaktadır. Veri tabanlarından veri madenciliği projeleri için kullanılacak veri ambarının oluşturulması ve veri ambarlarından ilişki verinin alınması bilgi keşfi sürecinin bir sonraki adımıdır. Bilgi keşfi sürecinin bir sonraki adımında, problem alanına bağlı olarak veri madenciliği algoritmalarının uygulanması gerçekleştirilmektedir. Son olarak, algoritma

sonucunda elde edilen desenlerin değerlendirilmesi sonucunda bilgiye ulaşılmaktadır.

Page 16: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

9

Şekil 2: Bilgi Keşfi Süreci

Bilgi keşfi sürecinin bir diğer gösterimi, Şekil 3’de sunulmaktadır. Burada, veri girişi ve bilgi keşfi arasındaki süreç; veri önişleme, veri madenciliği ve son işleme olmak üzere 3 temel adıma ayrılmıştır. Veri önişleme adımında; veri entegrasyonu, verinin standarlaştırılması, kullanılacak değişkenlerin ve özelliklerin seçimi ve boyut azaltma gibi adımlar söz konusudur. Veri madenciliği adımında ise, daha sonraki bölümlerde detaylandırılacak olan birliktelik, sınıflandırma, kümeleme ve aykırılık gibi veri madenciliği fonksiyonları uygulanarak desen keşfetmek amaçlanmaktadır. Son işleme adımında ise elde edilen desenlerin değerlendirilmesi, seçimi, yorumlanması ve görselleştirilmesi gibi adımlar söz konusudur.

Şekil 3: Veri madenciliğinde veriden bilgiye dönüşüm süreci

Page 17: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

10

Veri madenciliği projelerinin gerçekleştirilmesinde kullanılan modellerden biri de CRISP-DM’dir (Cross Industry Standard Process Model for Data Mining). CRISP-DM, veri

madenciliği projelerinin gerçekleştirileceği endüstriden ve kullanılan yazılımdan bağımsız olarak tüm dünyada yaygın olarak kullanılan bir veri madenciliği süreç modelidir. Bu model,

veri madenciliği süreçlerini, kullanılan yazılımdan ve endüstriden bağımsız olarak standartlaştırmayı amaçlamaktadır. Orijinal üyeleri Daimler-Benz, SPSS ve NCR olan bir

konsorsiyum tarafından geliştirilmiştir.

CRISP-DM sürecinin adımları, Şekil 4’de sunulmaktadır. Bu süreç, veri madenciliği probleminin somut bir şekilde tanımlanması ile başlamaktadır. Bu problem için gerekli değişkenlerin belirlenmesi ve verileri tanımlanması problemin bir sonraki aşamasını oluşturmaktadır. İlişkili veri tabanlarından ya da veri ambarlarından ilgili verinin elde edilmesi ve veri önişleme algoritmalarının uygulanması verinin hazırlanmasını aşamasını kapsamaktadır. Modelleme aşamasında, problem ile ilgili veri madenciliği algoritmaları uygulanarak sonuçlar elde edilmektedir. Modelleme aşamasında kullanılan veri madenciliği algoritmasının başarımının ve elde edilen desenlerin değerlendirilmesi ise değerlendirme aşamasında gerçekleştirilmektedir. Son olarak, modelleme aşamasında kullanılan algoritmanın ve/veya metodolojinin başarımı istenen düzeyde değilse problemin tanımlanması aşamasına dönülerek bu durumun nedenleri tespit edilmeye ve yeni modeller tasarlanmaya çalışılmaktadır. Model başarımı istenen düzeyde ise modelin kullanılmasına karar verilmektedir.

Şekil 4: CRISP-DM Veri Madenciliği Süreç Modeli

Page 18: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

11

CRISP-DM sürecinin adımlarını ortaya koymak için, örnek bir web madenciliği çatısının adımları aşağıdaki şekilde sıralanabilir.

Veri temizleme

Farklı kaynaklardan veri entegrasyonu

Verinin depolanması

Veri küpü oluşturma

Veri madenciliği için veri seçimi

Veri madenciliği

Madencilik sonuçlarının sunumu

Desenlerin ve bilginin kullanımı ya da bilgi-tabanında depolanması

1.3. Veri Madenciliği Uygulamaları

İş dünyasında veri madenciliği birçok şekilde kullanılmakta ve birçok endüstride çok etkili olmaktadır. Örneğin; birçok parti, potansiyel oy verenlerin analizi için veri madenciliğini kullanmaktadır. Sağlık alanında, hasta tanı kayıtlarından esas alınarak veri

madencili algoritmalarından faydalanılmaktadır. Toyota, daha etkin taşıma rotalarını belirlemek ve müşterilere araç sevk zamanlarını azatmak için veri madenciliği kullanmaktadır. Bankalarda, kredi kartı müşterilerinin teşviğinde ve risk değerlendirmesinde,

telekominikasyon şirketlerinde dolandırıcılık tespitinde, üretim firmalarında kalite kontrolde

veri madenciliği algoritmaları önemli fırsatlar sunmaktadır.

Veri madenciliğindeki ilk uygulamalar, perakendecilikte pazar-sepet analizi alanında gerçekleştirilmiştir. Örneğin; soğuk algınlığı ilacı ile ilgilenen bir müşterinin kağıt mendil ile de ilgileneceği tahminlenerek her iki ürünü birbirlerine kolaylıkla ulaşılabilecek şekilde konumlandırma gereksinimi veri madenciliği süreci ile elde edilir.

İki tip veri madenciliği çalışması vardır. İlki, hipotez testidir. Aksiyonlar ve sonuçlar arasındaki ilişki analiz edilir. Örneğin; reklamın daha fazla karlılık sağlayacağı hipotezinin doğruluğu bu yöndeki bir çalışma ile belirlenebilir. İkincisi ise bilgi keşfidir, bir önyargı yoktur, veri ile ilişkiler belirlenebilir.

Veri madenciliği uygulamaları için üç temel örnek aşağıdaki şekilde sıralanabilir:

1. Müşteri profili: En karlı müşteri kümelerinin belirlenmesi (CRM’in önemli bir parçası).

2. Hedefleme: Rakiplerin en karlı müşterilerinin karekteristiklerini belirlemek (Müşteri kaybını azaltmada kritiktir).

Page 19: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

12

3. Pazar-sepet analizi: Ürün konumlama ve çapraz satış için kullanılabilir şekilde tüketicilerin ürün satınalma birlikteliklerini belirlemek.

Önemli veri madenciliği uygulama örnekleri Tablo 1’de sunulmaktadır.

Uygulama Alanı Uygulamalar Özellikler Perakendecilik Yakınlığa göre

konumlama

Etkin şekilde ürünleri pozisyonlama

Çapraz satış Müşteriler için daha fazla ürün bulma

Bankacılık Müşteri ilişkileri yönetimi

Maksimum gelir için programlar geliştirme ve müşteri değerini belirleme Risk analizi

Kredi Kartı Yönetimi

Promosyonlara cevap

(lift)

Etkin pazar segmentlerini

belirlemek

Pazarlama Müşteri kaybını azaltma

Olası müşteri devir hızını ve azalmaları belirleme

Sigorta Dolandırıcılık tespiti Dolandırıcılık potansiyeli olan müşterilerin önceden belirlenmesi

Telekomünikasyon Müşteri kaybını azaltma

Olası müşteri devir hızını ve azalmaları belirleme

Tele-pazarlama Online bilgi Kolay veri erişimi ile telepazarlamacılara yardım

İnsan Kaynakları Yönetimi

Çalışan kaybını azaltma

Potansiyel çalışan devir hızını belirleme

Tablo 1: Veri Madenciliği Uygulama Örnekleri

Bu veri madenciliği uygulamaları, uygulama alanına göre aşağıdaki şekilde detaylandırılabilir.

Satış ve pazarlama alanındaki uygulamalar şu şekilde sıralanabilir:

Müşteri sadakati: Davranış değişikliği tespiti ile kaybedilecek müşterilerin önceden tahmini (örn: bankacılık/telekomünikasyon)

Özel hizmetler: Karlı müşterilerin belirlenmesi. Örneğin; tatil sezonunda ekstra harcamada bulunacak güvenilir kredi kartı sahipleri

Pazar sepet analizi: Bir müşteri işlem verisinde birlikte satın alınan ürünlerin tespiti

Satınalma desenlerinin geçmişe yönelik analizi: Kampanyaların hedef kitlesi ve potansiyel müşterileri belirlenerek, kampanyalara cevap verme oranının arttırılması.

Page 20: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

13

Veri madenciliğinin ilk kullanıcıları arasında yer alan bankacılık sektöründeki uygulamalar ise aşağıdaki şekilde sıralanabilir:

Ayrılan müşteri analizi ve müşteri kaybının analizi

Kredi başvurularında risk analizi

Dolandırıcılık ve sahtekarlık tespiti

Hedef pazarlama ve müşteri segmentasyonu

E-ticaret alanındaki veri madenciliği uygulamaları ise aşağıdaki şekilde sıralanabilir:

E-CRM uygulamaları

Web sayfası ziyaretlerinin çözümlenmesi ve alışveriş tahmini

Ürün öneri sistemleri

Veri madenciliği uygulamalarında kullanılan veri seti örneği olarak, kredi başvurularında risk değerlendirme verisi Tablo 2’de sunulmaktadır.

Yaş Gelir Varlıklar Borçlar İstenen Zamanında Ödeme

24 55557 27040 48191 1500 1

20 17152 11090 20455 400 1

20 85104 0 14361 4500 1

33 40921 91111 90076 2900 1

30 76183 101162 114601 1000 1

55 80149 511937 21923 1000 1

28 26169 47355 49341 3100 0

20 34843 0 21031 2100 1

20 52623 0 23054 15900 0

39 59006 195759 161750 600 1

Tablo 2: Kredi Risk Değerlendirmesi için Örnek Veri Kümesi

1.4. Veri Martı, Veri Ambarı, OLAP ve OLTP

Veri madenciliği projelerinde önemli noktalardan biri gerekli verilerin elde edilmesi

ve büyük veri yığınlarından bilgi keşfinin veri madenciliği algoritmaları kullanılarak makul sürelerde gerçekleştirilmesidir. Bu noktada, veri ambarları klasik veri tabanlarına göre önemli fırsatlar sağlamaktadır. Veri ambarı, etkin şekilde veriye ulaşmayı sağlayan büyük ölçekli bir veri depolama sistemidir. Belirli döneme ait, konu odaklı ve bütünleşik veri tabanlarıdır. Veri tabanını yormadan daha etkin sorgulama olanağı sağlamaktadır. Veri ambarlarından sadece veri okuması gerçekleştirme, veri silme ve ekleme işlemleri yapılmamaktadır.

Veri martı ise, bir veriambarından verinin alt kümelerini oluşturmada kullanılan bir veritabanı sistemidir. Bir veri madenciliği uygulaması için kullanılabilirler.

Page 21: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

14

OLAP ve OLTP kavramları ise şu şekilde açıklanabilir. OLTP (online kayıt işleme), işlemsel veritabanı üzerinden yapılan stok giriş-çıkışları, satışlar, depo girişleri ve sevkleri gibi hareketleri içermektedir. OLAP (online analitik işleme) ise veri ambarları üzerinde karar vermeye yardımcı analiz ve sorgulama işlemleridir. Bu sorgula analitiktir, örneğin; yaşı x ve geliri y olan müşterilerin haftasonu z tutarının üzerinde harcama yapma olasılığı.

Veri madenciliğine çok boyutlu bir bakış açısı geliştirildiğinde madenlenen verinin tipine (veritabanı verisi, işlemsel veri, uzaysal veri, zaman serileri, metin verisi, web verisi,

multimedya verisi, sosyal ağ verisi), kullanılan veri madenciliği fonksiyonuna (sınıflandırma, kümeleme, birliktelik, aykırılık), kullanılan tekniklere (makine öğrenmesi, istatistik, OLAP, görselleştirme) ve uygulama alanına (perakende, telekomünikasyon, bankacılık, dolandırıcılık analizi, pazar-sepet analizi, metin madenciliği, web madenciliği) göre veri madenciliği projeleri sınıflandırılabilir.

Page 22: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

15

Bu Bölümde Ne Öğrendik Özeti

Bu bölümde, ilk olarak veri madenciliği kavramı ile işletmelerin neden veri madenciliğine gereksinim duyduğu analiz edilmiştir. Daha sonra, bilgi keşfi süreci ile birlikte veri madenciliği projelerinde yaygın olarak kullanılan CRISP-DM süreç modeli açıklanmıştır. Son olarak, gerçek hayattaki veri madenciliği uygulama örnekleri detaylı olarak sunulmuş ve veri ambarı, veri martı, OLTP ve OLAP kavramları özetlenmiştir.

Page 23: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

16

Bölüm Soruları

1) Veri ambarları üzerinde karar vermeye yardımcı olacak şekilde gerçekleştirilen sorgulama işlemlerine ne ad verilmektedir?

a) Veritabanı

b) Veri Madenciliği

c) Veri Martı

d) OLTP

e) OLAP

2) (1) Modeli kullanma, (2) Veriyi anlama, (3) Modeli Değerlendirme, (4) Modelleme, (5) Veriyi Hazırlama, (6) Problemi Tanımlama olmak üzere standart bir veri madenciliği sürecinde izlenecek sıra aşağıdakilerin hangisinde doğru olarak verilmiştir?

a) 6-2-4-5-3-1

b) 6-2-5-4-3-1

c) 2-5-6-4-1-3

d) 2-6-5-3-1-4

e) 6-5-2-4-3-1

3) Veri madenciliği aşağıdaki alanların hangisi ile yakın derecede ilişkilidit?

a) İstatistik

b) Veritabanı Yönetimi

c) Algoritma Geliştirme

d) Makine Öğrenmesi

e) Hepsi

4) Bir işletme aşağıdaki çalışmalardan hangisinde veri madenciliği uygulamalarından faydalanabilir?

a) Satış elemanlarının 6 aylık satış hacimlerinin hesaplanması

b) Şubelerin stok devir hızı raporlarının çıkarılması

c) Senelik şube bazlı karlılık raporlarının oluşturulması

Page 24: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

17

d) Yapılacak kampanyaya yanıt verebilecek hedef kitlenin belirlenmesi

e) Şubelerin işgücü ve vardiya planlamasının yapılması

5) Etkin şekilde veriye ulaşmayı sağlayan, belirli döneme ait, konu odaklı ve bütünleşik veritabanlarına ne ad verilmektedir?

a) Veri Ambarı

b) Veri Küpü

c) OLTP

d) OLAP

e) Veri Martı

Cevaplar

1)e, 2)b, 3)e, 4)d, 5)a

Page 25: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

18

2. VERİ MADENCİLİĞİ FONKSİYONLARI

Page 26: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

19

Bu Bölümde Neler Öğreneceğiz?

2.1. Denetimli ve Denetimsiz Öğrenme

2.2. Veri Madenciliği Fonksiyonları

2.3. Nesne ve Nitelik Kavramı

Page 27: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

20

Bölüm Hakkında İlgi Oluşturan Sorular

1) Denetimli ve denetimsiz öğrenme nedir?

2) Veri madenciliğinin fonksiyonları nelerdir?

3) Veri madenciliğinde nesne ve nitelik nedir?

Page 28: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

21

Bölümde Hedeflenen Kazanımlar ve Kazanım Yöntemleri

Konu Kazanım Kazanımın nasıl elde edileceği veya geliştirileceği

Denetimli ve Denetimsiz

Öğrenme

Denetimli ve denetimsiz

öğrenme arasındaki farkı kavrayabilmek.

Teorik anlatım

Veri Madenciliği Fonksiyonları

Veri madenciliğinin temel fonksiyonları hakkında bilgi edinmek.

Teorik anlatım ve örnek uygulamalar

Nesne ve Nitelik Kavramları Veri madenciliğinde nesne ve nitelik kavramlarını ve nitelik türlerini neler olduğunu öğrenmek.

Teorik anlatım

Page 29: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

22

Anahtar Kavramlar

Denetimli Öğrenme

Denetimsiz Öğrenme

Veri Madenciliği Fonksiyonları

Nesne

Nitelik

Page 30: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

23

Giriş

Veri madenciliği algoritmalarını makine öğrenmesini esas alan algoritmalardır. Bu bölümde, denetimli ve denetimsiz öğrenme kavramları ile birlikte, temel veri madenciliği fonksiyonları özetlenecek ve nesne ve nitelik kavramlarına yer verilecektir.

Page 31: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

24

2.1. Denetimli ve Denetimsiz Öğrenme

Veri madenciliği problemlerinin çözümünde kullanılan algoritmalar, makine öğrenmesi esaslı algoritmalardır. Bu noktada, makine öğrenmesi, denetimli ve denetimsiz öğrenme olmak üzere ikiye ayrılmaktadır. Veri madenciliği projelerinde problem verisi, eğitim ve test verisi olmak üzere genellikle ikiye ayrılmaktadır. Eğitim verisi üzerinden veri madenciliği algoritmaları kullanılarak bir model oluşturulur. Oluşturulan modelin başarımı ve yeterliliği ise test verisi üzerinden değerlendirilir. Bu noktada, denetimli öğrenmede eğitim verisi, tahmin edilmesi istenen bir değişkeni (sınıf etiketi) içernektedir ve öğrenme işlemi diğer değişkenlere bağlı olarak bu değişkenin doğru tahmini üzerinden gerçekleştirilir. Denetimsiz öğrenmede ise eğitim verisi içerisinde tahmin edilecek bir değişken yoktur, örneklerin, karakteristiklerini ortaya koyan değişkenlere göre aldıkları değeri içeren bir veri yapısı söz konusudur. Verinin tamamı eğitim verisi olarak değerlendirilmektedir.

Veri madenciliği algoritmalarının bir bölümü tanımlayıcı (descriptive), bir bölümü ise tahminleyici (predictive) nitelik taşımaktadır. Bu noktada, denetimsiz öğrenme gerçekleştiren algoritmalar tanımlayıcı, denetimli öğrenme gerçekleştiren algoritmalar ise tahminleyicidir.

Bir sonraki alt bölümde detaylandırılacak veri madenciliği fonksiyonlarından; sınıflandırma ve regresyon tahminleyici iken kümeleme, birliktelik ve ardıl desen madenciliği tanımlayıcıdır.

2.2. Veri Madenciliği Fonksiyonları

Veri madenciliğinin temel fonksiyonları aşağıdaki gibi sıralanabilir.

Veri önişleme

Sınıflandırma

Birliktelik

Kümeleme

Aykırılık

Ardışık Zaman Örüntüleri

Bu fonksiyonlar aşağıdaki şekilde özetlenebilir:

Genelleştirme ve veri önişleme adımında; veri madenciliği projesi için gerekli veri kaynaklarının belirlenmesi ve veri önişleme adımlarının gerçekleştirilerek verinin modelleme aşamasından önce istenilen düzeye getirilmesi amaçlanmaktadır. Veri madenciliği projesi için yüksek performanslı hesaplama için veri ambarının oluşturulması, sağlıksız ve kirli verilerin temizlenmesi (örn: doğum tarihi 01.01.1900 olan bir müşteri kaydı), farklı birimlere sahip verilerin normalleştirilmesi ve çok boyutlu veri modellerinin oluşturulması bu aşamanın temel

adımlarını oluşturmaktadır. Ayrıca bu adımda, veriyi tanımlayıcı istatistiklerinin

Page 32: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

25

hesaplanması, histogram, kutu grafiği, serpilme diyagramı gibi araçlarla verinin görsel araçlarla sunumu da bu aşamada gerçekleştirilmektedir.

Birliktelik analizi, veri madenciliğinde pazar-sepet analizi ve ürün öneri sistemleri gibi alanlarda yaygın şekilde kullanılmaktadır. Birliktelik analizinde, yaygın görülen desenlerin ne olduğu ve hangi öğelerin sıklıkla birlikte satın alındığı sorularına yanıt aranmaktadır. Bu desenler, destek ve güven değeri adı verilen olasıklı değerler ile ifade edilmektedir.

Klasik bir birliktelik kuralı örneği olarak; çocuk bezi → bira [0.5%, 75%] ile ifade edilirse, köşeli parantez içindeki ilk değer olan %0.5 değeri destek değeri, ikinci değer olan %75 değeri ise güven değeridir. Bu değerler; çocuk bezi ve biranın birlikte görüldüğü işlem sayısının toplam işlem sayısına oranının %0.5, çocuk bezi alınan işlemlerde biranın da görülme oranının %75 olduğunu ifade etmektedir.

Birliktelik analizinde temel soru, milyonlarca işlem içeren veri kümelerinden bu desenlerin ve kuralların etkin şekilde nasıl elde edileceğidir? Birliktelik analizinin yapısından da görülebileceği gibi denetimsiz öğrenme gerçekleştirilmektedir.

Önemli bir veri madenciliği fonksiyonu olan sınıflandırmada ise sınıf etiketi adı verilen ve genellikle kesikli olan bir değişkenin tahmini gerçekleştirilmektedir. Sınıflandırma için kullanılan temel yöntemler; karar ağaçları, sade bayes sınıflandırıcısı, destek-vektör makineleri, lojistik regresyon ve örnek-tabanlı sınıflandırma olarak sıralanabilir. Sınıflandırma algoritmalarının uygulandığı veri madenciliği problemlerine örnek olarak; kredi kartı dolandırıcılık tespiti, risk değerlendirme, hastalık teşhisi, ayrılan müşteri analizi

verilebilir.

Sınıflandırma problemlerinde veri kümesi eğitim ve test verisi olarak ayrılmakta ve eğitim kümesinde yer alan veri kullanılarak sınıflandırma modeli oluşturulmaktadır. Sınıflandırma modeli ile test kümesindeki verilerin sınıf değişkeni tahmin edilmekte ve

tahmin edilen sınıf değerleri ile test kümesindeki verilerin gerçek sınıf değerleri karşılaştırılarak sınıflandırma modelinin başarımı değerlendirilmektedir. Eğer; sınıflandırma modelinin başarımı istenen seviyenin üzerinde ise ya da diğer sınıflandırma modellerinden daha iyi tahmin yeteneğine sahip ise gelecekteki örneklerin tahmini için bu sınıflandırma modeli kullanılmaktadır.

Örnek bir sınıflandırma veri seti Şekil 5’de sunulmaktadır. Bu veri setinde hastaların yaş, gözlük reçetesi, astigmat durumu, gözyaşı üretme hızları ve önerilen lens bilgileri yer almaktadır. Bu veri setinde, önerilen lens değişkeni sınıf etiketidir. Önerilen lensin yaş, gözlük reçetesi, astigmat durumu ve gözyaşı üretme hızına göre tahmin edilmesi amaçlanmaktadır.

Örneğin; karar ağaçları ile bu problem çözüldüğünde, aşağıdaki gibi kural setleri elde edilebilir.

If gözyaşı üretim hızı = azalmış then öneri = hiçbiri

Page 33: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

26

else if yaş = genç and astigmat = yok then öneri = yumuşak

Şekil 5: Sınıflandırma veri seti örneği

Sınıflandırma problemlerinde tüm verilerin nominal olma zorunluluğu yoktur, bazı veriler nümerik olabilir. Aşağıda, belirli değişkenleri nümerik değer içeren bir sınılandırma verisi örneği yer almaktadır.

Şekil 6: Nümerik değer içeren sınıflandırma veri seti örneği

Bu veri seti için sınıflandırma algoritmaları uygulandığında, aşağıdaki gibi kural örnekleri elde edilebilir.

If hava=güneşli ve nem 83 then oyun=hayır

If hava=yağmurlu and rüzgar=var then oyun=hayır

If nem 85 then oyun=evet

İstatistiksel yöntemler kullanılarak gerçekleştirilen sayısal tahminin sınıflandırmadan farkı, sayısal tahminde değişkenlerin nümerik olması zorunluluğudur. Örneğin; bir çoklu doğrusal regresyon denkleminde, bağımlı değişken; bağımsız değişkenlerin matematiksel bir fonksiyonu ile ifade edilmekte ve bağımlı değişkenin tahmini bu fonksiyon kullanılarak gerçekleştirilmektedir.

Page 34: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

27

Veri madenciliğinin en önemli fonksiyonlarından biri olan kümeleme de, bir bağımlı değişken ya da sınıf bilgisi söz konusu değildir. Bu nedenle; kümeleme algoritmaları denetimsiz öğrenmeyi kullanan algoritmalardır. Kümeleme algoritmalarının en yaygın kullanıldığı veri madenciliği problemleri olarak müşteri ve şube (bayi) segmentasyonu ve üretim yönetimindeki grup teknolojisi sayılabilir.

Kümeleme analizinde amaç, küme içi benzerliği en büyükleyecek ve kümeler arasındaki benzerliği en küçükleyecek şekilde, veri kümesindeki örnekleri belirli ya da optimum sayıda gruba ayırmaktır. Kümeleme analizinde kullanılan çok sayıda metodoloji ve algoritma vardır. Bunların en önemlileri olarak; k-ortalamalar, bulanık c-ortalamalar, beklenti

maksimizasyonu, hiyerarşik kümeleme ve yoğunluk esaslı kümeleme yöntemleri sıralanabilir.

Veri madenciliğinin bir diğer önemli fonksiyonu da aykırılık analizidir. Aykırılık analizi çoğu zaman bir veri önişleme adımı olarak da değerlendirilir. Bu kitapta da, benzer şekilde veri önişleme içerisinde değerlendirilecektir. Aykırı değer, bir veri kümesinde verinin genel davranışı ile uyumsuz olan veri nesnesidir. Veri madenciliği algoritmaları uygulanmadan önce eğer veri aykırı değere duyarlı ise aykırı değerler tespit edilip veri kümesinden çıkarılmalıdır. Kutu-grafiği yöntemi, normal dağılım yöntemi ve kümeleme algoritmaları aykırılık analizinde kullanılabilecek algoritmalar olarak sıralanabilir. Dolandırıcılık tespiti ve nadir olay analizi gibi veri madenciliği problemlerinin çözümünde aykırılık analizinin kullanımı tercih edilmelidir.

Ardışık zaman örüntüleri (ardıl desen madenciliği), veri madenciliğinde önemli yer tutan fonksiyonlardan biridir. Ardıl desen madenciliğinde, zaman serisi şeklinde gerçekleştirilen işlemlere bağlı olarak bir sonraki işlemin tahmin edilmesi amaçlanmaktadır. Kampanya planlamasında ve alışveriş tahmini gibi alanlarda yaygın şekilde ardıl desen madenciliğinden faydalanılmaktadır. Örneğin; ilk olarak dijital kamera satın alan bir müşterinin daha sonra hafıza kartı satın alması.

2.3. Nesne ve Nitelik Kavramı Veri madenciliğinde en temel kavramlardan biri de nesne (object) ve nitelik (attribute)

kavramıdır. ID Yaş Gelir Varlıklar Borçlar İstenen Zamanında Ödeme

1 24 55557 27040 48191 1500 1

2 20 17152 11090 20455 400 1

3 20 85104 0 14361 4500 1

4 33 40921 91111 90076 2900 1

5 30 76183 101162 114601 1000 1

6 55 80149 511937 21923 1000 1

7 28 26169 47355 49341 3100 0

8 20 34843 0 21031 2100 1

9 20 52623 0 23054 15900 0

10 39 59006 195759 161750 600 1

Tablo 3: Veri Madenciliği İçin Örnek Veri Seti

Page 35: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

28

Veri madenciliği projelerinde veri setleri nesnelerin nitelikler karşısında aldıkları değerlerden oluşmaktadır. Nesne ve nitelik kavramlarını, Tablo 3’de sunulan veri setini kullanarak açıklayalım.

Bu veri setinde, her bir satır bir müşteriye ait ID numarası ile birlikte diğer değerleri içermektedir. Buradaki her bir müşteri bir nesne (object) olarak adlandırılmaktadır. Sütunlarda yer alan ve veri nesnelerini tanımlayan yaş, gelir, varlıklar, borçlar, istenen, zamanında ödeme gibi alanlar ise nitelik (attribute) olarak adlandırılır. Herbir nesnenin (örneğin), niteliklere göre aldığı değerler matris formunda, veri madenciliği projelerinin ana veri kaynağını oluşturmaktadır.

Veri madenciliğinde nitelik ifadesinin yerine boyut, özellik ya da değişken ifadesinin kullanılmasını da sıklıkla rastlanılmaktadır. Nitelik; bir veri nesnesinin özelliğini ve karakteristiğini gösteren bir veri alanıdır. Örneğin; müşteri numarası, müşteri adı, adres, gelir, yaş, eğitim durumu bilgisi.

Veri madenciliğinde farklı nitelik tipleri ile karşılaşmak mümkündür. Bu nitelik tipleri aşağıdaki şekilde sıralanabilir:

Nominal (Sözel) nitelikler o Saç rengi = {kumral, siyah, sarı}, {güneşli, ılık, yağmurlu}

o Medeni durum, meslek, posta kodu

Sayısal (nümerik) nitelikler o Tamsayı ya da gerçel değerli olabilir.

İkili (binary) nitelikler o Yalnız iki durum ile ifade edilen sözel niteliklerdir (0 ve 1) o Simetrik ikili: ikisi durum eşit öneme sahiptir. Örneğin; cinsiyet o Asimetrik ikili: ikisi eşit önemde değildir. Örneğin; sağlık testi (pozitif

ya da negatif)

Aralıklı (interval) nitelikler o Belirli aralıkta değer alan nitelikler (sıcaklık, tarih vb.)

Sıralı nitelikler o Değerler mantıksal bir sıralamaya sahiptir ama değerler arasındaki

önem ilişkisi bilinmemektedir. o Örneğin; {küçük, orta, büyük} {sıcak, ılık, soğuk}

Nitelikler, aynı zamanda kesikli ve sürekli nitelik olmak üzere ikiye ayrılabilir. Kesikli niteliklerde değerlerin sadece sonlu ya da sayılabilir sonsuz bir kümesi vardır. Örneğin; posta kodları, meslek, bir dökümandaki kelime sayısı. İkili nitelikler, kesikli niteliklerin özel bir durumudur. Sürekli niteliklerde ise niteilk değerleri gerçel sayılara sahiptir. Sıcaklık, yükseklik ve ağırlık gibi nitelikler örnek olarak verilebilir. Uygulamada, sürekli nitelikler basamakların sonlu bir sayısı kullanılarak ölçülebilir ve sunulabilir.

Page 36: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

29

Veri madenciliği uygulamalarında genellikle bu veri tiplerinin birlikte yer aldığı veri kümeleri söz konusudur. Ancak, bazı veri madenciliği algoritmaları sadece belirli nitelik tipleri ile çalışmaktadır. Bu gibi durumlarda, veri tipleri arasında dönüşümler gerçekleştirilmektedir.

Page 37: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

30

Bu Bölümde Ne Öğrendik Özeti

Bu bölümde, ilk olarak veri madenciliğinin temelini oluşturan makine öğrenmesi kavramı ile birlikte denetimli ve denetimsiz öğrenme ayrımı üzerinde durulmuştur. Daha sonra, veri madenciliğinin veri önişleme, sınıflandırma, kümeleme, birliktelik, aykırılık ve ardışık desen madenciliği gibi temel fonksiyonları genel hatları ile örnek veri setleri kullanılarak açıklanmıştır. Son olarak, veri madenciliğinde önemli yer tutan nesne ve nitelik kavramları analiz edilmiştir. Ayrıca; nümerik, nominal, sıralı, ikili ve aralıklı nitelik tipleri

örneklendirilerek detaylandırılmıştır.

Page 38: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

31

Bölüm Soruları

1) Aşağıdakilerin hangisinde denetimsiz öğrenmeyi kullanan veri madenciliği fonksiyonları doğru olarak verilmiştir?

a) Kümeleme-Sınıflandırma

b) Birliktelik-Regresyon

c) Kümeleme-Birliktelik

d) Kümeleme-Regresyon

e) Sınıflandırma-Aykırılık

2) Aşağıdakilerin hangisinde veri madenciliğinin fonksiyonunun işlevi doğru

olarak belirtilmiştir?

a) SınıflandırmaTanımlayıcı

b) KümelemeTanımlayıcı

c) Birliktelik Tahminleyici

d) Ardıl desen keşfiTahminleyici

e) RegresyonTanımlayıcı

3) Pazar sepet analizi ile müşteri işlem verisinin değerlendirilmesi hangi veri madenciliği fonksiyonu ile gerçekleştirilmektedir?

a) Kümeleme

b) Sınıflandırma

c) Aykırılık

d) Birliktelik

e) Veri önişleme

4) Aşağıdakilerden hangisi veri madenciliğinde sınıflandırma problemlerinin çözümü için kullanılan algoritmalardan biri değildir?

a) Karar Ağaçları

b) Sade Bayes

Page 39: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

32

c) K-ortalamalar

d) Lojistik Regresyon

e) Destek Vektör Makineleri

5) Aşağıdakilerden hangisi veri madenciliğinde kümeleme problemlerinin çözümü için kullanılan algoritmalardan biri değildir?

a) Bulanık c-ortalamalar

b) Beklenti maksimizasyonu

c) Yoğunluk tabanlı yöntemler

d) Hiyerarşik yöntemler

e) Doğrusal Regresyon

Cevaplar

1)c, 2)b, 3)d, 4)c, 5)e

Page 40: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

33

3. VERİ ÖNİŞLEME

Page 41: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

34

Bu Bölümde Neler Öğreneceğiz?

3.1. Verinin Grafiksel Gösterimi ve İstatistiksel Analizi

3.2. Veri Önişleme Adımları

3.2.1. Veri Temizleme

3.2.2. Veri Entegrasyonu ve Veri Azaltma

3.2.3. Veri Dönüşümü ve Normalleştirme

3.2.4. Veri Düzeltme ve Ayrıklaştırma

Page 42: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

35

Bölüm Hakkında İlgi Oluşturan Sorular

1) Veri önişleme adımları nelerdir ve veri önişlemeye neden ihtiyaç duyulmaktadır?

2) Veri madenciliğinde veri temizliği nasıl yapılır?

3) Veri dönüşümü için kullanılan teknikler nelerdir?

4) Veri kümeleri nasıl kesikli hale getirilir ve ayrıklaştırılır?

Page 43: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

36

Bölümde Hedeflenen Kazanımlar ve Kazanım Yöntemleri

Konu Kazanım Kazanımın nasıl elde edileceği veya geliştirileceği

Veri Önişleme Adımları Veri önişleme adımları hakkında bilgi edinmek

Teorik anlatım

Veri Temizleme Veri madenciliğinde gürültülü ve kayıp verinin nasıl yönetileceğini öğrenmek

Teorik anlatım

Veri Dönüşümü ve Normalleştirme

Veri normalleştirmesinde kullanılan teknikleri uygulama becerisi elde

etmek

Teorik anlatım ve örnek uygulamalar

Veri Düzeltme ve Ayrıklaştırma

Veriyi kesikli hale getirmek

için kullanılan teknikler hakkında bilgi sahibi olmak

Teorik anlatım ve örnek uygulamalar

Page 44: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

37

Anahtar Kavramlar

Veri Önişleme

Veri Temizleme

Veri Entegrasyonu

Veri Dönüşümü

Veri Düzeltme

Page 45: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

38

Giriş

Bu bölümde, ilk olarak verinin grafiksel gösterimi ve istatistiksel analizi için kullanılan araçlara kısaca değinilecektir. Daha sonra; veri temizleme, veri entegrasyonu, normalleştirme ve ayrıklaştırma gibi veri önişleme adımları detaylı olarak incelenecektir.

Page 46: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

39

3.1. Verinin Grafiksel Gösterimi ve İstatistiksel Analizi

İstatistiği temel alan diğer derslerde de ifade edildiği gibi, veriyi daha iyi anlamak ve

çözümlemek oldukça kritik önem taşımaktadır. Bu noktada, istatistiksel ölçütlerden ve veri analizi araçlarından faydalanılmaktadır.

Verinin istatistiksel tanımı için; merkezi eğilim ölçüleri (medyan, mod, ortalama vb.)

ve değişkenlik ölçüleri (standart sapma, varyans, genişlik) önemli ölçüde kullanılmaktadır. Bu ölçülerin hesaplanması ile birlikte veri dağılımının yapısı hakkında (simetrik, pozitif

asimetrik, negatif asimetrik) fikir sahibi olunmaktadır.

Verinin grafiksel gösterimi için ise kullanılan temel araçlar olarak histogramlar, kutu grafikleri ve serpilme diyagramları sıralanabilir. Histogram, daha önceki derslerde de ifade edildiği gibi verinin sınıflara ayrılmasını ve her bir sınıfın frekansının (eleman sayısının) çubuk grafikler şeklinde gösterilmesini içermektedir. Kutu grafiği ise; minimum değer, 1.çeyrek, medyan, 3.çeyrek ve maksimum değer gibi 5 temel ölçüt değerini içermektedir. Verinin dağılım yapısını göstermenin yanında veride yer alan aykırı değerlerin tespiti için de kullanılması nedeniyle veri madenciliği çalışmalarında önemli yer tutmaktadır. Serpilme diyagramı ise iki değişken arasındaki ilişkiyi değerlendirmede kullanılan bir araçtır. Bu veri analiz araçlarına ek olarak uygulamada çok sayıda analiz aracına rastlanılmaktadır.

3.2. Veri Önişleme Adımları

Sınıflandırma, kümeleme ve birliktelik analizi gibi veri madenciliği fonksiyonlarını gerçekleştiren veri madenciliği algoritmaları uygulanmadan önce sıhhatli sonuçlar elde etmek için veri kalitesinin garanti altına alınmış gerekmektedir.

Veri kalitesinin ölçüleri aşağıdaki gibi sıralanabilir:

Doğruluk: Doğru ya da yanlış, kesin ya da değil

Eksiksizlik: Kaydedilmemiş, elde edilemez, …

Tutarlılık: Bazen değişiklik yapılmış bazen yapılmamış,

Güncellik: Tam vaktinde güncelleniyor mu?

Güvenilirlik: Verinin doğru olduğuna nasıl güveniliyor?

Yorumlanabilirlik: Veri nasıl kolaylıkla yorumlanabilir?

Veri kalitesinin sağlanması noktasında veri madenciliğinde veri önişleme adımlarından faydalanılmaktadır. Bu adımlar aşağıdaki şekilde sıralanabilir.

Veri Temizleme

Page 47: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

40

o Kayıp değerleri (missing data) doldurma, gürültü veriyi düzeltme, uç (ekstrem) değerleri belirleme ve kaldırma ve tutarsızlıkları çözme

Veri Entegrasyonu

o Çoklu veritabanlarının, veri küplerinin ve dosyalarının entegrasyonu

Veri İndirgeme

o Boyut indirgeme

o Veri sıkıştırma

Veri Dönüşümü ve Normalleştirme

Veri Düzeltme ve Ayrıklaştırma

Bu veri önişleme adımları, basit olarak Şekil 7’de gösterilmektedir.

Şekil 7: Veri Önişleme Adımları

Page 48: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

41

3.2.1. Veri Temizleme

Gerçek hayat verisi önemli ölçüde kirlilik içermektedir. Potansiyel olarak yanlış veriler; ölçüm hatasından (alet hatası), insan ya da bilgisayar hatasından ve iletim hatasından kaynaklanabilir.

Veri kirliliği türleri, örnekleri ile birlikte aşağıdaki şekilde sıralanabilir:

Eksik (kayıp) veri: Nitelik değerlerinden yoksunluk ve veri alanının boş olması şeklinde ortaya çıkmaktadır. Örneğin; Meslek=“ ”.

Gürültülü veri: Gürültü, hata ya da ekstrem (uç) değer içeren veri anlamına gelmektedir. Örneğin; Maaş=“−10” (bir hata), doğum tarihi =“01.01.1900” (uç değer).

Tutarsız veri: Aynı anlama gelen iki farklı alandaki uyuşmazlık. Kodlarda ya da isimlerde çelişkilerin bulunması. Örneğin; bir müşteri için Yas=“42”, Doğumgunu=“03/07/2010” olması, bir tabloda eski puanlamanın “1, 2, 3”, yeni

puanlamanın “A, B, C” şeklinde olması, bir kaynakta nitelik değeri alanının ‘ürün adı’ diğerinde ‘product name’ olması.

Kasıtlılık: Kayıp veriyi gizleme ya da veri gizliliğinden dolayı kasıtlı olarak veriyi sağlıksız şekilde sunma.

Birçok nesne kümesi, birçok nitelik için kayıtlı değere sahip değildir, örneğin; satış verisindeki müşteri geliri. Kayıp veriye neden olan faktörler aşağıdaki şekilde sıralanabilir:

Ekipman bozukluğu,

Diğer kayıtlı veri ile tutarsızlık ve bu nedenle silinme,

Yanlış anlamadan dolayı veriyi girmeme,

Bazı verilerin giriş anında önemli olmadığının düşünülmesi,

Veri değişikliklerinin ya da geçmişinin kayıtlı olmaması.

Kayıp verinin nasıl yönetileceği noktasında, veri madenciliği projelerinde farklı stratejiler izlenebilir. Bu stratejiler şu şekilde sıralanabilir:

Kayıp verinin yer aldığı kayıt dikkate alınmaz. Bu strateji, nitelik başına

kayıp değerlerin %’si düşük olduğunda tercih edilebilir. Aksi takdirde, önemli veri eksikliğine neden olacaktır.

Kayıp değer manuel olarak doldurulur. Örneğin; ürün kodu ya da ISBN alanının değer içermemesi. Kayıp değer oranı yüksek olduğunda usandırıcı bir

yöntemdir, zaman alması nedeniyle rasyonel değildir.

Kayıp değerlerin aşağıdaki yöntemler ile otomatik olarak doldurulabilir.

Page 49: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

42

o Global bir sabit ile (örneğin; “bilinmeyen” yeni bir sınıf) kayıp değerler doldurulur. Tüm kayıp verilere aynı bilgi girilir.

o Nitelik ortalması ile kayıp değerler doldurulur.

o Aynı sınıf değerini taşıyan tüm örneklerin nitelik ortalaması ile doldurulur.

o Kayıp verinin olası değeri; bayes formülü, regresyon ya da karar ağacı gibi çıkarım esaslı tekniklerle tahmin edilir.

Veri temizlemeyi gerektiren diğer veri problemleri olarak ise tekrarlı kayıtlar, eksik veri ve tutarsız veri sayılabilir.

Gürültü ise ölçülen bir nitelikte rastsal hata, uyuşmazlık durumu ve ekstrem (uç) değerlerin oluşmasıdır.

Gürültü veri aşağıdaki şekillerde yönetilebilir:

Bölümleme

o İlk olarak veri sıralanır ve parçalara bölünür (eşit frekanslı).

o Sonra, sınıf ortalamaları, medyanı ve sınır değerleri ile bir düzeltme yapılır.

Regresyon

o Regresyon fonksiyonları kullanılarak veri düzeltilir.

Kümeleme

o Uç değerler bulunur ve dışarı atılır.

İnsan-Bilgisayar Denetimi

o Kuşkulu değerler belirlenir ve bu değerler konu ile ilgili bireyler ile kontrol edilir (örneğin; olası ekstrem değerler)

Bir süreç olarak veri temizleme ele alındığında aşağıdaki adımların izlenmesi gerekmektedir.

Teklik kuralı (tekil olması gereken alanların kontrolü), ardışıklık kuralı (ardışık olarak devam etmesi gereken alanların kontrolü) ve null değer kuralının kontrolü (boş olan alan değerinin olup olmadığının kontrolü)

Ticari araçların kullanımı

o Veri temizleme: Hataları tespit etmek ve düzeltmeleri yapmak için basit alan bilgisi kullan (örneğin; posta kodu, imla kontrolü)

Page 50: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

43

o Veri denetimi: Veri analizi ile uygun olmayan değerleri tespit etmek (örneğin; ekstrem değerleri bulmak için kümeleme ya da kutu grafiği uygulaması)

3.2.2. Veri Entegrasyonu ve Veri Azaltma

Farklı kaynaklardan gelen verinin birleştirilmesi ve entegrasyonunu içermektedir. Örneğin; A.cust_id=B.dust_num. Veri entegrasyonu aynı anda veri değer uyuşmazlıklarını belirlemeyi ve çözmeyi sağlamaktadır. Veri uyuşmazlıklarının olası nedenleri olan; farklı gösterimlerin ve farklı ölçeklerin kullanımı bu aşamada tespit edilebilir.

Çok sayıda veritabanının entegrasyonunda, gereksiz veri sıklıkla oluşmaktadır. Örneğin; hem yaş bilgisinin hem de doğum tarihinin yer alması. Diğer taraftan, aynı nitelik ya da nesne, farklı veri tabanlarında farklı isimlere sahip olması ve bir niteliğin diğer bir tablodan türetilmiş bir nitelik olması (örneğin; yıllık gelir) gibi durumlar gereksiz veri oluşumuna neden olmaktadır.

Farklı kaynaklarda gelen verinin özenli bir şekilde gerçekleştirilen entegrasyonu; madencilik hızını ve kalitesini iyileştirmeye ve tutarsızlıkları ve gereksiz verileri önlemeye yardım etmektedir.

Veri entegrasyonu ve veri azaltmada, gereksiz değişkenler korelasyon analizi ve kovaryans analizi ile tespit edilebilir. Birbiri ile yüksek derecede korelasyonu olan iki niteliğin aynı anda kullanılması gereksizdir.

A ve B değişkenleri arasındaki korelasyon aşağıdaki eşitlik ile hesaplanabilir:

1 1,

( )( ) ( )

( 1) ( 1)

n n

i i i ii iA B

A B A B

a A b B a b nABr

n n

(1)

Eğer rA,B > 0, A ve B değişkenleri arasında pozitif korelasyon vardır, rA,B = 0 ise

değişkenler arasından korelasyon yoktur. rAB < 0 ise A ve B değişkenleri arasında negatif

korelasyon vardır.

Bir veritabanı ya da veri ambarı, terabyte boyutunda veriyi tutabilmekte ve saklayabilmektedir. Veri kümesinin tamamı üzerinde kompleks veri analizleri gerçekleştirmek ve veri madenciliği algoritmalarını uygulamak uzun zaman almaktadır. Bu noktada, veri azaltma; veri kümesinin indirgenmiş hali ile benzer (neredeyse aynı) sonuçları elde etme amacı taşımaktadır.

Veri azaltma; iki farklı şekilde gerçekleştirilebilir. Boyut azaltarak yapılan veri azaltmada önemsiz nitelikler çıkarılmaktadır. Bu amaçla; kullanılan en önemli teknikler; dalgacık dönüşümü ve temel bileşen analizidir. Bir diğer veri azaltma stratejisi ise veri sıkıştırma ve örnekleme yolu ile veri kümesindeki nesne sayısının azaltılmasıdır.

Page 51: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

44

3.2.3. Veri Dönüşümü ve Normalleştirme

Veri dönüşümü, verilen bir nitelik değerleri kümesini yeni değerler kümesi ile değiştirme amacı taşımaktadır. Bazı algoritmalar, sadece sayısal bazıları sadece nominal ya da ikili değişken kullanabilir. Veri, çalışılacak algoritmaya uygun hale getirilmelidir. Farklı büyüklüklere ve minimum ve maksimum değerlere sahip (örneğin; yaş ve gelir değişkeni) veri niteliklerini aynı ölçek değerlerine getirmek, algoritmalardan sağlıklı sonuç elde etme açısından kritiktir.

Normalleştirme, veriyi daha küçük ve belirlenmiş bir aralıkta ölçeklendirme amacı taşımaktadır. Bu noktada kullanılan üç temel veri normalleştirme biçimi söz konusudur:

Min-maks normalleştirmesi (doğrusal normalleştirme)

Z-skor normalleştirmesi

Ondalık ölçek ile normalleştirme

Min-maks normalleştirmesi aşağıdaki eşitlik kullanılarak gerçekleştirilmektedir.

min' ( _ max _ min ) _ min

max min

A

A A A

A A

vv yeni yeni yeni

(2)

Bu eşitlikte, minA, A niteliği için veride gözlenen en küçük değeri, maxA, A niteliği için veride yer alan en büyük değeri, v normalleştirme yapılacak nitelik değerini, yeni_maxA

niteliğin normalleştirileceği yeni aralık değerinin üst sınırını, yeni_minA niteliğin normalleştirileceği yeni aralık değerinin alt sınırını ifade etmektedir.

Örneğin; 12000 $ ile 98000 $ aralığındaki geliri, [0,1] aralığında normalleştirirsek,

73600 $’lık gelir değeri;

73600 12000(1 0) 0 0.716

98000 12000

değerine dönüşecektir.

Z-skor normalleştirmesi, normal dağılım mantığından faydalanılarak aşağıdaki şekilde gerçekleştirilmektedir.

'A

A

vv

(3)

Bu eşitlikte, A, A niteliği için veri kümesinin ortalamasını, A, A niteliği için veri kümesinin standart sapmasını ifade etmektedir.

Örneğin; ortalaması 54000, sapması 16000 olan gelir niteliği için Z-skor

normalleştirmesi uygulanırsa, 73600 $’lık gelir değeri;

Page 52: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

45

73600 54000

1.22516000

değerine dönüşecektir.

Ondalık ölçek ile normalleştirme ise aşağıdaki eşitlik yardımı ile gerçekleştirilmektedir.

'10 j

vv (4)

Bu eşitlikte j, Max(|ν’|) < 1 sağlayan en küçük tamsayı değeridir.

3.2.4. Veri Düzeltme ve Ayrıklaştırma

Ayrıklaştırma, sürekli bir niteliğin aralıklara bölünmesidir. Aralık etiketleri, gerçek veri değerlerini değiştirmede kullanılmaktadır. Ayrıklaştırma ile veri boyutu azaltılmaktadır. Ayrıklaştırma genelde eşit frekans ve eşit genişlik yöntemleri ile yapılmaktadır.

Örneğin; fiyat niteliği için değerler 15, 25, 28, 34, 9,24, 29, 26, 21, 4, 21, 8 şeklinde olsun. Bu veri niteliği eşit frekanslı olarak 3 kümeye bölünmek istenirse, her bir kümeye veri sayısı 12 olduğu için 12/3=4 eleman düşecektir. Küme elemanları aşağıdaki şekilde olacaktır;

Küme 1: 4, 8, 9, 15

Küme 2: 21, 21, 24, 25

Küme 3: 26, 28, 29, 34

Eşit frekansa böldükten sonra küme ortalamaları ile düzeltme uygulanırsa veriler aşağıdaki şekli alacaktır.

Küme 1: 9, 9, 9, 9

Küme 2: 23, 23, 23, 23

Küme 3: 29, 29, 29, 29

Eşit frekans ile bölümleme yapıldıktan sonra, küme sınırları ile düzeltme (küme içerisindeki minimum ya da maksimum değerden hangisine yakın ise o değer ile düzeltme) uygulanırsa, veriler aşağıdaki şekildeki gibi olacaktır.

Küme 1: 4, 4, 4, 15

Küme 2: 21, 21, 25, 25

Küme 3: 26, 26, 26, 34

Page 53: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

46

Diğer taraftan eşit genişlik ile fiyat değerleri 3 kümeye bölündüğünde; herbir kümenin genişliği; (34-4)/3=10 olarak hesaplanabilir. Bu doğrultuda; kümeler aşağıdaki şekilde oluşacaktır.

Küme 1: 4, 8, 9

Küme 2: 15, 21, 21, 24

Küme 3: 25, 26, 28, 29, 34

Page 54: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

47

Bu Bölümde Ne Öğrendik Özeti

Bu bölümde, veri madenciliği çalışmalarında önemli bir yer tutan veri önişleme konusu ele alınmıştır. Veri önişleme; veri madenciliği algoritmalarının çalıştırlmadan önce yapılan veri temizleme, veri entegrasyonu, veri azaltımı, aykırı değer analizi, normalleştirme ve ayrıklaştırma gibi süreçleri içermektedir. Veri temizleme süreci; gürültü, eksik ve tutarsız verinin tespit edilip düzeltilmesini içermektedir. Veri entegrasyonu, farklı kaynaklardan gelen verinin sağlıklı bir şekilde birleştirilmesini kapsamaktadır. Veri azaltımında; veri madenciliği algoritmalarının uygulama performansını ve hızını arttırmak için veri boyutunun nitelik ya da

nesne bazında küçültülmesi ile ilgili teknikler uygulanmaktadır. Veri dönüşümünde ise; doğrusal, z-skor ya da ondalık ölçek kullanılarak farklı niteliklerin aynı aralıkta ölçeklendirilmesi ile ilgili hesaplamar yönetilmektedir. Ayrıklaştırma ve veri düzeltimi ile sürekli değere sahip bir niteliğin aralıklara bölünerek kesikli hale getirilmesi amaçlanmaktadır. Veri önişleme adımlarının, sağlıklı bir şekilde uygulanması, veri madenciliği algoritmalarının daha hızlı ve daha sağlıklı sonuçlar vermesine önemli katkıda bulunmaktadır.

Page 55: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

48

Bölüm Soruları

1) Aşağıdaki hangisi veri önişlemede veri azaltımı için kullanılan tekniklerden biri değildir?

a) Korelasyon Analizi

b) Örnekleme Metodu

c) Kutu Grafiği

d) Temel Bileşen Analizi

e) Dalgacık Dönüşümü

2) Aşağıda listelenen değerlere sahip sürekli bir niteliği kesikli hale getirmek istediğimizi düşünelim. Eşit frekanslı olarak, bölümleme yapmak istediğimizde bölüm sayısı aşağıdakilerden hangisi olamaz?

3, 4, 5, 10, 21, 32, 43, 44, 46, 52, 59, 67

a) 2

b) 3

c) 4

d) 5

e) 6

3.-5. soruları aşağıdaki veri kümesini kullanarak yanıtlayınız.

Aşağıda listelenen değerlere sahip sürekli bir nitelik ile ilgili, aşağıdaki soruları yanıtlayınız.

4, 3, 59, 10, 32, 21, 46, 44, 43, 67, 5, 52

3) Niteliği kesikli hale getirmek için eşit genişlikli dört bölüme ayırırsak, birinci bölümde (en küçük değerlerin olduğu bölüm) kaç değer yer alacaktır?

a) 2

b) 3

c) 4

d) 5

Page 56: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

49

e) 6

4) Nitelik için Z-skor normalleştirmesi yapılırsa, niteliğin 3. elemanı (59 değeri) hangi değere dönüşecektir? (nitelik ortalaması=32.16, nitelik standart sapması=22.91)

a) 3.98

b) 3.92

c) 2.46

d) 1.17

e) 1.12

5) Niteliğin 4.değeri için (10 değeri) min-maks normalleştirmesi yapılırsa, niteliğin 5. elemanının (32 değeri) yeni değeri ne olacaktır?

a) 0.412

b) 0.453

c) 0.494

d) 0.535

e) 0.576

Cevaplar

1)c, 2)d, 3)c, 4)d, 5)b

Page 57: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

50

4.SINIFLANDIRMANIN TEMEL KAVRAMLARI VE KARAR

AĞAÇLARI İLE SINIFLANDIRMA

Page 58: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

51

Bu Bölümde Neler Öğreneceğiz?

4.1. Sınıflandırmanın Temel Kavramları 4.2. Karar Ağaçları ile Sınıflandırma

4.3. ID3 Algoritması

Page 59: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

52

Bölüm Hakkında İlgi Oluşturan Sorular

1) Sınıflandırma modellerinin temel çalışma prensibi nedir?

2) Karar ağaçları ile sınıflandırma nasıl yapılmaktadır?

3) Entropi ve bilgi kazancı nedir ve sınıflandırma algoritmalarında nasıl kullanılır?

Page 60: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

53

Bölümde Hedeflenen Kazanımlar ve Kazanım Yöntemleri

Konu Kazanım Kazanımın nasıl elde edileceği veya geliştirileceği

Sınıflandırmanın Temel Kavramları

Sınıflandırmanın test ve eğitim kümesi, model oluşturma ve model kullanımı kavramlarını anlamak.

Teorik anlatım

Karar Ağaçları ile Sınıflandırma

Karar ağaçları sınıflandırmanın temel yapısını öğrenmek

Teorik anlatım ve örnek uygulamalar

ID3 Algoritması ID3 algoritmasını kullanarak sınıflandırma problemlerini çözebilmek

Örnek problemler

Page 61: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

54

Anahtar Kavramlar

Sınıflandırma

Karar Ağaçları

Entropi

Bilgi Kazanımı

ID3 Algoritması

Page 62: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

55

Giriş

Sınıflandırma, veri madenciliğinin en önemli fonksiyonlarından biridir. Sınıflandırma algoritmaları; denetimli öğrenmeyi kullanmakta ve sınıf niteliğinin doğru tahminini amaçlamaktadır. Bu bölümde ilk olarak, sınıflandırma problemlerinin yapısı ve sınıflandırma problemlerinin çözümünde kullanılan algoritmaların temel özellikleri incelenmiştir. Daha sonra, sınıflandırma problemlerinin çözümünde yaygın şekilde kullanılan karar ağaçları, entropi ve bilgi kazanımı kavramları ile birlikte analiz edilmiştir. Son olarak ise, karar ağaçları ile sınıflandırma için kullanılan en önemli algoritmalardan biri olan ID3

algoritmasının adımları örnek problem üzerinden açıklanacaktır.

Page 63: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

56

4.1. Sınıflandırmanın Temel Kavramları

Sınıflandırma problemleri, veri madenciliğinde önemli bir yer tutmaktadır. Sınıflandırma problemlerinin yapısını ortaya koymadan önce, daha önce sözü edilen denetimli ve denetimsiz öğrenme kavramlarını açıklamak gerekmektedir.

Denetimli öğrenmede; problem için toplanan veri tahmin edilecek bir bağımlı değişkeni ya da sınıf etiketini içermektedir. Problem verisi eğitim ve test verisi olmak üzere ikiye ayrılmakta ve eğitim verisi kullanılarak tahmin modeli oluşturulmaktadır. Oluşturulan tahmin modelinin başarısı ise test verisi ile değerlendirilmektedir.

Denetimsiz öğrenmede ise tahmin edilecek bir sınıf etiketi ya da bağımlı değişken söz konusu değildir. Problem için mevcut verinin tamamı eğitim verisi olup, ölçümlerin ve gözlemlerin kümelere ayrılması amaçlanmaktadır.

Bu doğrultuda, veri madenciliğinin önemli fonksiyonlarından biri olan sınıflandırma algoritmaları denetimli öğrenmeyi esas alan tahmin yapmayı amaçlayan algoritmalardır. Sınıflandırma problemlerinde ayrık (kesikli ya da nominal) değerlere sahip sınıf etiketlerinin tahmin edilmesi amaçlanmaktadır. Sayısal tahmini içeren öngörü modelleri bağımlı değişkeni tahmin etmek için sürekli değere sahip fonksiyonları modellemektedir.

Sınıflandırma kapsamına giren bazı veri madenciliği problemleri aşağıdaki gibi sıralanabilir:

Kredi/borç onayı

Hastalık teşhisi: Belirli faktörlere bağlı olarak, bir tümörün kanser ya da iyi huylu olma durumu.

Dolandırıcılık tespiti

Ses ve karakter tanıma

Ayrılan müşteri analizi

Sınıflandırma, model oluşturma ve model kullanımı olmak üzere iki adımdan

oluşmaktadır. Model oluşturma aşamasında, her bir örneğin sınıf değişkeni ile belirtilen önceden tanımlanmış bir sınıfa ait olduğu varsayılmaktadır. Model oluşturma için kullanılan örneklerin kümesine eğitim verisi adı verilmektedir. Sınıflandırma algoritmaları kullanılarak oluşturulan modeller ile, sınıf değişkeninin tahmini için sınıflandırma kuralları, karar ağaçları ya da matematiksel formüller ortaya konulmaktadır. Model kullanımı adımında ise test verisinde yer alan örneklerin bilinen sınıf değeri ile model sonucunda elde edilen sınıf değeri karşılaştırılarak, oluşturulan modelin doğruluğu tahmin edilmektedir. Model kullanımı sırasında yer alan örneklerin kümesine ise test kümesi adı verilmektedir. Doğruluk oranı, model tarafından doğru olarak sınıflandırılan test kümesi örneklerinin yüzdesel değeridir. Test kümesi, eğitim kümesinden bağımsızdır aksi takdirde aşırı uyum söz konusu olacaktır. Model

Page 64: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

57

kullanımı ile elde edilen doğruluk oranı kabul edilebilir düzeyde ise bilinmeyen ya da gelecekteki yeni örnekleri sınıflandırmada bu model kullanılmaktadır. Bu sınıflandırma süreci aşağıda, basit bir örnek ile gösterilmektedir.

Şekil 8: Sınıflandırma Problemlerinde Model Oluşturma Adımı

Şekil 9: Sınıflandırma Problemlerinde Tahmin İçin Model Kullanımı Adımı

Model kullanımı adımı sonrasında sınıflandırıcının performansı aşağıdaki özellikler dikkate alınarak değerlendirilmelidir:

Doğru sınıflandırma başarısı

Hız

o Modeli oluşturmak için gerekli süre

o Sınıflandırma yapmak için gerekli süre

Kararlı olması

Veri kümesinde gürültülü veri ve eksik nitelik değerleri olduğu durumlarda

iyi sonuç verme yeteneği

Ölçeklenebilirlik

Page 65: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

58

Büyük boyutlu veri kümeleri ile çalışabilme yeteneği

Anlaşılabilir olması

Kullanıcı tarafından yorumlanabilir olması

Kuralların yapısı

Birbiri ile tutarlı olmayan kuralların var olma durumu

Sınıflandırıcı performansının değerlendirilmesinde ve farklı sınıflandırma algoritmalarının karşılaştırılmasında kullanılan performans ölçütleri ve bu ölçütlerin hesaplanmasına yönelik uygulamalara 6.bölümde detaylı olarak yer verilecektir.

Sınıflandırma problemlerinin çözümünde kullanılan çok sayıda yaklaşım vardır. Bu yaklaşımların en önemlileri aşağıdaki şekilde sıralanabilir:

Karar ağaçları (ID3, C4.5 algoritmaları)

Yapay sinir ağları

Sade bayes ve bayes ağları

Regresyon esaslı modeller

Örnek tabanlı (tembel) sınıflandırma algoritmaları (örn: k en yakın komşu algoritması)

Destek vektör makineleri

Genetik algoritmalar

Bu kitap kapsamında; karar ağaçları, sade bayes ve bayes ağları ve örnek tabanlı (tembel) algoritmalar ile sınıflandırma problemlerinin çözülmesi örnek uygulamalar ile birlikte sunulacaktır.

4.2. Karar Ağaçları ile Sınıflandırma

Karar ağaçları ile sınıflandırma yapılırken, sınıflandırma değişkenini tahmin etmek için karar kurallarını içeren bir ağaç yapısı oluşturulmaktadır. Aşağıda, bilgisayar satınalma davranışını tahmin etmek için kullanılan bir eğitim verisi örneği yer almaktadır. Bu veri seti; 14 müşteri için yaş, gelir, öğrenci ve kredi reytingi bilgilerine göre bilgisayar satınalma davranışını içermektedir.

Page 66: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

59

Yas gelir öğrenci kredi reytingi bilgisayar satınalma

<=30 yüksek hayır orta hayır

<=30 yüksek hayır yüksek hayır

31…40 yüksek hayır orta evet

>40 orta hayır orta evet

>40 düşük evet orta evet

>40 düşük evet yüksek hayır

31…40 düşük evet yüksek evet

<=30 orta hayır orta hayır

<=30 düşük evet orta evet

>40 orta evet orta evet

<=30 orta evet yüksek evet

31…40 orta hayır yüksek evet

31…40 yüksek evet orta evet

>40 orta hayır yüksek hayır

Tablo 4: Bilgisayar satınalma davranışı için örnek sınıflandırma verisi

Bu veri seti esas alınarak, sınıflandırma algoritmasının işletilmesi sonucunda aşağıdaki karar ağacı elde edilmiştir.

Page 67: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

60

Şekil 10: Bilgisayar satınalma davranışı için örnek karar ağacı

Bu karar ağacına göre bilgisayar satınalma davranışının tahmini için aşağıdaki karar kuralları oluşturulmuştur:

Eğer yaş≤30 ve öğrenci=Evet ise Bilgisayar satınalma=Evet

Eğer yaş≤30 ve öğrenci=Hayır ise Bilgisayar satınalma=Hayır

Eğer yaş≤40 ve yaş≥31 ise Bilgisayar satınalma=Evet

Eğer yaş40 ve kredi reytingi=Yüksek ise Bilgisayar satınalma=Hayır

Eğer yaş40 ve kredi reytingi=Orta ise Bilgisayar satınalma=Evet

Bu karar kurallarına bağlı olarak test verisinin sınıf etiketi tahmin edilmektedir. Geliştirilen modelin doğruluk oranı yeterince iyi ise, bu karar ağacı modeli kullanılarak yeni müşterilerin bilgisayar satınalma noktasında potansiyel bir müşteri olup olmadıkları tahmin edilebilir.

Karar ağacı oluşturmada, temel algoritmanın özellikleri aşağıdaki gibi sıralanabilir:

Ağaç yukarıdan aşağıya doğru, yinelemeli şekilde parçala ve çöz metodu ile oluşturulur.

Başlangıçta, tüm eğitim örnekleri tek bir köktedir.

Ağaç, bütün verinin oluşturduğu tek bir düğümle başlar.

Nitelikler kategoriseldir (eğer sürekli veriler var ise ayrıklaştırılır)

Page 68: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

61

Eğer örneklerinin hepsi aynı sınıfa aitse düğüm yaprak olarak sonlanır ve sınıf etiketini alır.

Eğer değilse, örnekleri sınıflara en iyi bölecek olan nitelik seçilir

Nitelikler, sezgiseller ya da istatiksel ölçütler (örn., bilgi kazanımı) temelinde seçilir (örn., bilgi kazancı)

Karar ağacı ile sınıflandırma algoritmalarında durma koşulları ise aşağıdaki gibi sıralanabilir:

Bir düğüm için tüm örnekler aynı sınıfa ait ise.

Örnekleri bölecek nitelik kalmamış ise.

Kalan niteliklerin değerini taşıyan örnek yok ise.

Karar ağaçlarında her bir nitelik bir düğüm ile temsil edilir. Ara düğümler, bir nitelik sınamasını, dallar sınama sonuçlarını ve yapraklar ise sınıfları ifade etmektedir. Karar ağaçları oluşturmak için, entropiye dayalı algoritmalar, sınıflandırma ve regresyon ağaçları, bellek tabanlı sınıflandırma yöntemleri olmak üzere makine öğrenmesi başlığı altında birçok yöntem geliştirilmiştir. Bu yöntemler, karar ağacı oluşturulmasında dallandırma yapılırken hangi niteliğin (değişkenin) seçileceğine yönelik olarak yapılan hesaplamalarda farklılaşmaktadır. Bu noktada; ID3 ve C4.5 algoritmaları en yaygın kullanılan entropiye dayalı karar ağacı oluşturma yöntemleridir.

Entropiye dayalı algoritmalarda, karar ağacının dallanması en yüksek bilgi kazancına (en düşük entropiye) sahip nitelikten başlanarak gerçekleştirilir. Entropi bir sistemdeki belirsizliğin ölçüsüdür ve aşağıdaki şekilde hesaplanmaktadır.

pi D niteliğine ait Ci sınıfının olasılığı olsun. D sınıf niteliğinin entropisi aşağıdaki gibi hesaplanabilir:

2

1

( ) log ( )m

i ii

Entropi D p p

(5)

D’yi sınıflandırmada A niteliğini kullanımını entropisi (bilgi ihtiyacı) (A’yı kullandıktan sonra v parçaya D bölündükten sonra) aşağıdaki gibi hesaplanabilir:

1

| |( ) ( )

| |

vj

A jj

DEntropi D Entropi D

D

(6)

Sonuç olarak, A niteliğinin dallanması ile elde edilen bilgi kazancı aşağıdaki gibi hesaplanabilir:

AKazanc(A) Entropi(D) Entropi (D) (7)

Page 69: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

62

Entropinin hesaplanması aşağıdaki basit örnek ile ortaya konulmuştur. Örneğin; iki

farklı futbol takımının son 8 maçının sonuçları aşağıdaki gibi olsun.

A takımı {B, G, G, G, B, G, G, G},

B takımı {G, G, B, B, G, G, G, B},

A takımının maç sonuçları olayının entropisi;

2 2( ) (0.25log (0.25) 0.75log (0.75)) 0.81128Entropi A

B takımının maç sonuçları olayının entropisi;

2 2( ) (0.5log (0.5) 0.5log (0.5)) 1Entropi B olarak hesaplanabilir.

Örnekler aynı sınıfa aitse entropi değeri 0, sınıflar arasında eşit dağılmışsa entropi değeri 1 olacaktır.

4.3. ID3 Algoritması

ID3 algoritması, karar ağaçları ile sınıflandırma problemlerinin çözümünde kullanılan temel algoritmalardan biridir. Bu algoritmada, veri kümesinde tüm değerlerin nominal olması ve bilinmeyen değerin olmaması gerekmektedir. Quinlan (1979) tarafından geliştirilen ID3

algoritması entropiye dayalı olup, karar ağaçlarının dallandırılmasında niteliklerin bilgi kazancını kullanmaktadır.

ID3 algoritması, algoritmanın hesaplama adımlarını göstermede klasikleşen aşağıdaki örnek problem ile açıklanacaktır.

Hava Isı Nem Rüzgar Oyun

güneşli sıcak yüksek Yok Hayır güneşli sıcak yüksek Var Hayır bulutlu sıcak yüksek Yok Evet

yağmurlu ılık yüksek Yok Evet

yağmurlu soğuk normal Yok Evet

yağmurlu soğuk normal Var Hayır bulutlu soğuk normal Var Evet

güneşli ılık yüksek Yok Hayır güneşli soğuk normal Yok Evet

yağmurlu ılık normal Yok Evet

güneşli ılık normal Var Evet

bulutlu ılık yüksek Var Evet

bulutlu sıcak normal Yok Evet

yağmurlu ılık yüksek Var Hayır Tablo 5: ID3 algoritması sınıflandırma verisi

Page 70: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

63

Bu veri setinde; hava, sıcaklık, nem ve rüzgar durumuna göre koşulların tenis oynamaya uygun olup olmadığına karar verilmeye çalışılmaktadır.

ID3 algoritmasında, ilk olarak karar ağacının birinci dallanmasının hangi nitelikten başlanacağını belirlemek gerekmektedir. Bunun için, sınıf niteliğinin (oyun) ve karar ağacının dallandırılması için aday olan tüm niteliklerin (hava, ısı, nem, rüzgar) entropi değerleri hesaplanması gerekmektedir. Bu hesaplamalar sonucunda, bilgi kazancı en yüksek olan nitelik, dallandırma için seçilecektir.

İlk olarak sınıf niteliğinin entropisini hesaplayalım. Oyun niteliği hedef sınıf değerlerini içermektedir. Oyun niteliğinin değerlerinden oluşan küme D kümesi olarak tanımlanabilir.

D={H,H,E,E,E,H,E,H,E,E,E,E,E,H}.

Sınıflar C1 sınıfı ‘H’, C2 sınıfı ‘E’ olsun. Sınıf olasılıkları veri kümesinden; p1=5/14,

p2=9/14 olarak hesaplanabilir.

Bu doğrultuda, oyun (sınıf niteliğinin) kümesinin entropi değeri;

2 2

5 5 9 9( ) ( log ( ) log ( )) 0.940

14 14 14 14Entropi Oyun olarak bulunur.

Her bir niteliğin entropi değerleri ve bilgi kazancı da aşağıdaki şekilde hesaplanabilir.

Isı niteliği için kazanç ölçütü,

Kazanc (Isı,Oyun)=Entropi(Oyun)-Entropi(Isı,Oyun)

4 6 4

( , ) ( ) ( ) ( )14 14 14

soguk ılık sıcakEntropi Isı Oyun entropi ISI entropi ISI entropi ISI ile

hesaplanır.

2 2

2 2

2 2

1 1 3 3( ) ( log log ) 0.811

4 4 4 4

2 2 4 4( ) ( log log ) 0.918

6 6 6 6

2 2 2 2( ) ( log log ) 1

4 4 4 4

4 6 4( , ) 0.811 0.918 1 0.911

14 14 14

soguk

ılık

sıcak

Entropi ISI

Entropi ISI

Entropi ISI

Entropi Isı Oyun

Bu entropi değerlerine göre, ısı niteliğinin bilgi kazancı ise aşağıdaki şekilde hesaplanabilir.

( , ) 0.940 0.911 0.029Kazanc Isı Oyun olarak bulunur.

Benzer şekilde hava niteliği için kazanç ölçütü aşağıdaki şekilde hesaplanabilir.

Page 71: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

64

Kazanc (Hava,Oyun)=Entropi(Oyun)-Entropi(Hava,Oyun)

5 4( , ) ( ) ( )

14 14

5( )

14

gunesli bulutlu

yagmurlu

Entropi Hava Oyun entropi HAVA entropi HAVA

entropi HAVA

ile hesaplanır.

2 2

2

2 2

3 3 2 2( ) ( log log ) 0.971

5 5 5 5

4 4( ) ( log ) 0

4 4

3 3 2 2( ) ( log log ) 0.971

5 5 5 5

5 4 5( , ) 0.971 0 0.971 0.694

14 14 14

güneşli

bulutlu

yağmurlu

Entropi HAVA

Entropi HAVA

Entropi HAVA

Entropi Hava Oyun

Bu entropi değerlerine göre, hava niteliğinin bilgi kazancı ise aşağıdaki şekilde hesaplanabilir.

( , ) 0.940 0.693 0.247Kazanc Hava Oyun olarak bulunur.

Nem niteliği için kazanç ölçütü ise aşağıdaki gibi hesaplanır.

Kazanc (Nem,Oyun)=Entropi(Oyun)-Entropi(Hava,Oyun)

7 7( , ) ( ) ( )

14 14yuksek normalEntropi Nem Oyun entropi NEM entropi NEM ile hesaplanır.

2 2

2 2

4 4 3 3( ) ( log log ) 0.985

7 7 7 7

1 1 6 6( ) ( log log ) 0.592

7 7 7 7

7 7( , ) 0.985 0.592 0.789

14 14

yuksek

normal

Entropi NEM

Entropi NEM

Entropi Nem Oyun

Bu entropi değerlerine göre, nem niteliğinin bilgi kazancı ise aşağıdaki şekilde hesaplanabilir.

( , ) 0.940 0.789 0.151Kazanc Nem Oyun olarak bulunur.

Son olarak, rüzgar niteliği için kazanç ölçütü ise aşağıdaki gibi hesaplanır.

Kazanc (Rüzgar,Oyun)=Entropi(Oyun)-Entropi(Rüzgar,Oyun)

Page 72: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

65

var

8 6( , ) ( ) ( )

14 14yokEntropi Rüzgar Oyun entropi RÜZGAR entropi RÜZGAR ile

hesaplanır.

2 2

var 2 2

2 2 6 6( ) ( log log ) 0.811

8 8 8 8

3 3 3 3( ) ( log log ) 1

6 6 6 6

8 6( , ) 0.811 1 0.892

14 14

yokEntropi RÜZGAR

Entropi RÜZGAR

Entropi Rüzgar Oyun

Bu entropi değerlerine göre, rüzgar niteliğinin bilgi kazancı ise aşağıdaki şekilde hesaplanabilir.

( , ) 0.940 0.892 0.048Kazanc Rüzgar Oyun olarak bulunur.

Dört nitelik arasından en yüksek bilgi kazancına sahip hava niteliği karar ağacının ilk dallanması için seçilmelidir.

Bu noktada, karar ağacı aşağıdaki şekli alacaktır.

Şekil 11: ID3 algoritması ile karar ağacının ilk dallanması

Bir sonraki aşamada hava niteliğinin güneşli değeri için karar ağacının dallandırılması gerçekleştirilecektir. Hava niteliğinin güneşli değerinin hangi niteliğe göre dallandırılacağının belirlenmesi için aday niteliklerin (ısı, nem ve rüzgar) bilgi kazancının hesaplanması gerekmektedir. Bu hesaplamalar yapılırken, aşağıdaki tablodan da görülebileceği gibi hava durumunun güneşli değeri aldığı veri seti esas alınır.

Hava Isı Nem Rüzgar Oyun

güneşli sıcak yüksek Yok Hayır güneşli sıcak yüksek Var Hayır güneşli ılık yüksek Yok Hayır güneşli soğuk normal Yok Evet

güneşli ılık normal Var Evet

Tablo 6: Hava niteliğinin güneşli değeri için sınıflandırma verisi

Page 73: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

66

İlk olarak sınıf değeri (Oyun niteliği) için entropi hesaplanabilir.

2 2

3 3 2 2( ) ( log ( ) log ( )) 0.970

5 5 5 5Entropi Oyun olarak bulunur.

Isı niteliği için kazanç ölçütü,

Kazanc (Isı,Oyun)=Entropi(Oyun)-Entropi(Isı,Oyun)

1 2 2( , ) ( ) ( ) ( )

5 5 5soguk ılık sıcakEntropi Isı Oyun entropi ISI entropi ISI entropi ISI ile

hesaplanır.

2

2 2

2

1 1( ) ( log ) 0

1 1

1 1 1 1( ) ( log log ) 1

2 2 2 2

2 2( ) ( log ) 0

2 2

1 2 1( , ) 0 1 0 0.4

5 5 5

soguk

ılık

sıcak

Entropi ISI

Entropi ISI

Entropi ISI

Entropi Isı Oyun

Bu entropi değerlerine göre, ısı niteliğinin bilgi kazancı ise aşağıdaki şekilde hesaplanabilir.

( , ) 0.970 0.400 0.570Kazanc Isı Oyun olarak bulunur.

Benzer şekilde nem niteliği için kazanç ölçütü aşağıdaki şekilde hesaplanabilir.

Kazanc (Nem,Oyun)=Entropi(Oyun)-Entropi(Nem,Oyun)

3 2( , ) ( ) ( )

5 5yuksek normalEntropi Nem Oyun entropi NEM entropi NEM

ile hesaplanır

2

2

3 3( ) ( log ) 0

3 3

2 2( ) ( log ) 0

2 2

3 2( , ) 0 0 0

5 5

yuksek

normal

Entropi NEM

Entropi NEM

Entropi Nem Oyun

Bu entropi değerlerine göre, rüzgar niteliğinin bilgi kazancı ise aşağıdaki şekilde hesaplanabilir.

( , ) 0.970 0 0.970Kazanc Nem Oyun olarak bulunur.

Page 74: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

67

Benzer şekilde rüzgar niteliği için kazanç ölçütü aşağıdaki şekilde hesaplanabilir.

Kazanc (Rüzgar,Oyun)=Entropi(Oyun)-Entropi(Rüzgar,Oyun)

var

3 2( , ) ( ) ( )

5 5yokEntropi Rüzgar Oyun entropi RÜZGAR entropi RÜZGAR ile

hesaplanır

2 2

var 2 2

2 2 1 1( ) ( log log ) 0.918

3 3 3 3

1 1 1 1( ) ( log log ) 1

2 2 2 2

3 2( , ) 0.918 1 0.951

5 5

yokEntropi RÜZGAR

Entropi RÜZGAR

Entropi Rüzgar Oyun

Bu entropi değerlerine göre, rüzgar niteliğinin bilgi kazancı ise aşağıdaki şekilde hesaplanabilir.

( , ) 0.970 0.951 0.019Kazanc Rüzgar Oyun olarak bulunur.

Bu hesaplamalar doğrultusunda, en yüksek bilgi kazancına sahip nem niteliği hava niteliğinin güneşli değerinin alt dalı olarak seçilmektedir. Bu adım sonrasında, karar ağacı aşağıdaki şekli alacaktır.

Şekil 12: ID3 algoritması ile hava niteliğinin güneşli değeri için karar ağacının dallanması

Nem yüksek değerine sadece ‘hayır’ değeri, normal değerine sadece ‘evet’ değeri karşılık geldiğinden karar ağacının dallandırılması sonlandırılır.

Page 75: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

68

Bir sonraki aşamada hava niteliğinin bulutlu değeri için karar ağacının dallandırılması gerçekleştirilecektir. Aşağıdaki tablodan, hava durumunun bulutlu değeri için veri seti görülmektedir.

Hava Isı Nem Rüzgar Oyun

bulutlu sıcak yüksek Yok Evet

bulutlu soğuk normal Var Evet

bulutlu ılık yüksek Var Evet

bulutlu sıcak normal Yok Evet

Tablo 7: Hava niteliğinin bulutlu değeri için sınıflandırma verisi

Hava niteliğinin bulutlu değeri için tüm sınıf değerleri Evet olduğundan karar ağacının dallandırılması sonlandırılır ve karar ağacı aşağıdaki şekilde alır.

Şekil 13: ID3 algoritması ile hava niteliğinin bulutlu değeri için karar ağacının dallanması

İlk olarak sınıf değeri (Oyun niteliği) için entropi hesaplanabilir.

Bir sonraki aşamada hava niteliğinin yağmurlu değeri için karar ağacının dallandırılması gerçekleştirilecektir. Hava niteliğinin yağmurlu değerinin hangi niteliğe göre dallandırılacağının belirlenmesi için aday niteliklerin (ısı, nem ve rüzgar) bilgi kazancının

hesaplanması gerekmektedir. Bu hesaplamalar yapılırken, aşağıdaki tablodan da görülebileceği gibi hava durumunun yağmurlu değeri aldığı veri seti esas alınır.

Page 76: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

69

Hava Isı Nem Rüzgar Oyun

yağmurlu ılık yüksek Yok Evet

yağmurlu soğuk normal Yok Evet

yağmurlu soğuk normal Var Hayır yağmurlu ılık normal Yok Evet

yağmurlu ılık yüksek Var Hayır Tablo 8: Hava niteliğinin yağmurlu değeri için sınıflandırma verisi

2 2

3 3 2 2( ) ( log ( ) log ( )) 0.970

5 5 5 5Entropi Oyun olarak bulunur.

Isı niteliği için kazanç ölçütü,

Kazanc (Isı,Oyun)=Entropi(Oyun)-Entropi(Isı,Oyun)

2 3

( , ) ( ) ( )5 5

soguk ılıkEntropi Isı Oyun entropi ISI entropi ISI ile hesaplanır.

2 2

2 2

1 1 1 1( ) ( log log ) 1

2 2 2 2

2 2 1 1( ) ( log log ) 0.918

3 3 3 3

2 3( , ) 1 0.918 0.951

5 5

soguk

ılık

Entropi ISI

Entropi ISI

Entropi Isı Oyun

Bu entropi değerlerine göre, ısı niteliğinin bilgi kazancı ise aşağıdaki şekilde hesaplanabilir.

( , ) 0.970 0.951 0.019Kazanc Isı Oyun olarak bulunur.

Tablo 10’da yer alan veri kümesinden rüzgar niteliğinin var değerleri için oyun sınıfı evet değerini, yok değeri için oyun sınıfı hayır değerini almaktadır. Karar ağacının tekrar dallandırılmasına gerek yoktur. Rüzgar niteliğinin entropi değeri 0’dır.

Karar ağacı bu dallandırma sonrasında aşağıdaki şekli alacaktır. Bu adım ile karar ağacında dallandırılacak nokta kalmadığı için ağaç oluşturma işlemi tamamlanmıştır.

Page 77: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

70

Şekil 14: ID3 algoritması ile elde edilen karar ağacı

ID3 algoritmasına ile oluşturulan karar ağacı sonucunda elde edilen kurallar aşağıdaki gibi sıralanabilir:

EĞER Hava=Güneşli ve EĞER Nem=Yüksek ise Oyun=Hayır

EĞER Hava=Güneşli ve EĞER Nem=Normal ise Oyun=Evet

EĞER Hava=Bulutlu ise Oyun=Evet

EĞER Hava=Yağmurlu ise ve EĞER Rüzgar=Var ise Oyun=Hayır

EĞER Hava=Yağmurlu ise ve EĞER Rüzgar=Yok ise Oyun=Evet

Veri kümesinde sayısal değerlere sahip niteliklerin söz konusu olduğu durumda C4.5 algoritması kullanılmaktadır. Bu algoritma, ID3 algoritması gibi Quinlan (1993) tarafından geliştirilmiştir. Sayısal nitelik değerleri, sayısal olmayan değerlere dönüştürülerek, bu algoritmada çözüm üretilmektedir.

Page 78: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

71

Bu Bölümde Ne Öğrendik Özeti

Bu bölümde; ilk olarak, sınıflandırmanın temel kavramlarına ve sınıflandırma sürecine yer verilmiştir. Daha sonra, karar ağaçları yapısını esas alan sınıflandırma algoritmalarının yapısı analizi edilmiştir. Son olarak, entropiye dayalı önemli bir sınıflandırma algoritması olan ID3 algoritmasının hesaplama adımları örnek bir problem ile ortaya konulmuştur.

Page 79: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

72

Bölüm Soruları

1) Karar ağaçları ile sınıflandırma yapıldığında aşağıdakilerin hangisinde karar ağacı durdurulmaz?

a) Bir düğüm için tüm örnekler aynı sınıfa ait

b) Örnekleri bölecek nitelik yok

c) Niteliklerin entropi değerleri eşit

d) Kalan niteliklerin değerini taşıyan örnek yok

e) Hiçbiri

2-5. soruları aşağıdaki veri kümesini kullanarak hesaplayınız?

Aşağıdaki tabloda, araba modelleri için motor, SC/Turbo, ağırlık, yakıt tüketimi niteliklerine göre hız sınıf etiketinin değerini içeren eğitim verisi yer almaktadır.

Model Motor SC/Turbo Ağırlık Yakıt

Tüketimi Hızlı

Prius Küçük Hayır Orta İyi Hayır Civic Küçük Hayır Hafif Orta Hayır WRX STI Küçük Evet Orta Kötü Evet

M3 Orta Hayır Ağır Kötü Evet

RS4 Büyük Hayır Orta Kötü Evet

GTI Orta Hayır Hafif Kötü Hayır XJR Büyük Evet Ağır Kötü Hayır S500 Büyük Hayır Ağır Kötü Hayır 911 Orta Evet Hafif Kötü Evet

Corvette Büyük Hayır Orta Kötü Evet

Insight Küçük Hayır Hafif İyi Hayır RSX Küçük Hayır Orta Orta Hayır IS350 Orta Hayır Ağır Kötü Hayır MR2 Küçük Evet Orta Orta Hayır E320 Orta Hayır Ağır Kötü Hayır

2) Sınıf niteliğinin entropisi hesaplandığında hangi değer elde edilir?

a) 0

b) 0.724

Page 80: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

73

c) 0.836

d) 0.918

e) 0.970

3) Karar ağacının ilk olarak motor niteliğine göre dallandırılmasının bilgi kazancı nedir?

a) 0.074

b) 0.085

c) 0.115

d) 0.121

e) 0.212

4) Karar ağacının ilk olarak ağırlık niteliğine göre dallandırılmasının bilgi kazancı nedir?

a) 0.074

b) 0.085

c) 0.115

d) 0.121

e) 0.212

5) ID3 algoritmasına göre karar ağacı ilk olarak hangi niteliğe göre dallandırılmalıdır?

a) Model

b) Motor

c) SC/Turbo

d) Ağırlık

e) Yakıt Tüketimi

Cevaplar

1)c, 2)e, 3)d, 4)c, 5)e

Page 81: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

74

5. BAYES TEOREMİ VE BAYES AĞLARI İLE SINIFLANDIRMA

Page 82: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

75

Bu Bölümde Neler Öğreneceğiz?

5.1. Bayes Teoremi

5.2. Sade (Naive) Bayes Sınıflandırıcısı

5.3. Bayes Ağları ile Sınıflandırma

Page 83: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

76

Bölüm Hakkında İlgi Oluşturan Sorular

1) Bayes teoremi sınıflandırma problemlerinin çözümünde nasıl kullanılmaktadır?

2) Sade bayes sınıflandırıcısı ile sınıf niteliğinin değeri nasıl tahmin edilmektedir?

3) Bayes ağları, hangi sınıflandırma problemlerinin çözümü için tercih edilmelidir?

Page 84: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

77

Bölümde Hedeflenen Kazanımlar ve Kazanım Yöntemleri

Konu Kazanım Kazanımın nasıl elde edileceği veya geliştirileceği

Bayes Teoremi Bayes teoreminden bayes

sınıflandırıcısının nasıl türetildiğini öğrenmek

Teorik anlatım

Sade (naive) Bayes

Sınıflandırıcısı Sade bayes

sınıflandırıcısının sınıflandırma problemlerinin çözümünde nasıl kullanıldığını kavramak

Teorik anlatım ve örnek problemler

Bayes Ağları ile Sınıflandırma

Bayes ağlarının hangi durumlarda kullanılması gerektiğini anlamak

Teorik anlatım ve örnek problemler

Page 85: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

78

Anahtar Kavramlar

Bayes Teoremi

Bayes Sınıflandırıcısı

Bayes Ağları

Page 86: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

79

Giriş

Bu bölümde, sade bayes ve bayes ağları ile sınıflandırma problemlerinin nasıl çözüleceği konusu ele alıınmaktadır. Bu doğrultuda, bayes teoreminden bayes sınıflandırıcının nasıl türetildiği ve bayes sınıflandırıcısının sınıflandırma problemlerinin çözümünde nasıl kullanılacağı açıklanacaktır. Ayrıca, bayes ağları ile çözümlenecek sınıflandırma problemlerinin yapısı analiz edilecektir.

Page 87: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

80

5.1. Bayes Teoremi

Bayes sınıflandırıcısı, bir istatistiksel sınıflandırıcı olup, tahmin edilecek nesnenin

hangi sınıfa ait olduğunu olasılık olarak tahmin etmektedir. Bu sınıflandırıcı ile sınıf üyelik

olasılıkları tahmin edilmektedir. Bayes teoremini esas alan bayes sınıflandırıcısında, her

eğitim örneği, bir hipotezin doğruluk olasılığını giderek arttırmakta ya da azaltmaktadır.

Bayes sınıflandırıcısı ortaya koymadan önce koşullu olasılık kavramını ve Bayes teoremini açıklamak gerekmektedir.

A ve B olayları için A∩B olmak üzere, B olayının gerçekleşmesi, A olayına bağlı ise bu olasılık P(B\A) ile gösterilir ve aşağıdaki şekilde hesaplanır:

( )( / )

( )

P A BP B A

P A

Ç= (8)

Buradan, aşağıdaki ifade elde edilir:

( ) ( / )( / )

( )

P B P A BP B A

P A= (9)

X, sınıf etiketi bilinmeyen bir veri örneği olsun (“olay”). H, X’in C sınıfına ait olduğunu belirten bir hipotez olsun. Sınıflandırma problemi, P(H|X) olasılığının (sonrasal

olasılık) belirlenmesini içermektedir. Diğer bir ifade ile, hipotezin veri kümesi X verildiğinde gerçekleşme olasılığını ifade etmektedir. Burada, P(H) başlangıç olasılığını (önsel olasılık),

P(X) örnek verinin olasılığını ve P(X|H), Hipotezin doğruluğu verildiğinde, örnek X’in gözlemlenme olasılığını ifade etmektedir. P(X|H), örneğin, X bilgisayar satın alacaklar sınıfına aittir hipotezi verildiğinde, yaşın 31-40 ve gelirin orta olma olasılığı ifade etmektedir.

Eğitim verisi X verildiğinde, bir H hipotezinin sonrasal olasılığı P(H|X), Bayes

teoremi ile aşağıdaki şekilde hesaplanır.

( | ) ( )( | ) ( | ) ( ) / ( )

( )

P X H P HP H X P X H P H P X

P X (10)

sonrasal= olasılık x önsel /olay

Tüm k sınıfları için tüm P(Ck|X)’ler arasındaki, en yüksek olasılığa sahip Cj sınıfına

X’in ait olduğunu tahmin etmektedir.

5.2. Sade (Naive) Bayes Sınıflandırıcısı

Sade bayes sınıflandırıcısı, Bayes teoreminden hareketle aşağıdaki şekilde ortaya konabilir.

Page 88: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

81

D, sınıf etiketlerini de içeren bir eğitim kümesi ve her bir örnek n nitelikli bir vektör ile sunulmaktadır X = (x1, x2, …, xn) . C1, C2, …, Cm olmak üzere m sınıf olduğunu varsayalım.

Sınıflandırma problemi, maximum P(Ci|X)’i elde etmeyi amaçlamaktadır. Bu

olasılık, bayes teoreminden türetilir.

( | ) ( )( | )

( )

P C P Ci iP C

i P

XX

X (11)

P(X), tüm sınıflar için sabit olduğundan, yalnızca ( | ) ( | ) ( )P C X P X C P Ci i i

ifadesinin en büyüklenmesi gerekmektedir.

Naive (sade) bayes sınıflandırıcısında, niteliklerin hepsi eşit derecede önemli ve birbirinden bağımsızdır. Bir niteliğin değeri başka bir nitelik değeri hakkında bilgi içermemektedir. Nitelikler arasında bağımlılık ilişkisinin olmaması hesaplamaları aşağıdaki şekilde basitleştirmektedir.

( | ) ( | ) ( | ) ( | ) ... ( | )1 21

nP P P P PC x C x C x C x Ci i i i i

k nk

X (12)

Bu eşitlik, hesaplama maliyetini büyük oranda düşürür. Yalnızca, sınıf dağılımı sayılır. Eğer Ak nominal bir nitelik ise, P(xk|Ci) Ak için xk değerine sahip Ci sınıfındaki örneklerin sayısının eğitim kümesi D’deki Ci sınıfının örnek sayısına bölünmesiyle elde edilmektedir. Eğer Ak sürekli bir değer ise, P(xk|Ci) genellikle ortalaması μ and standart sapması σ olan

normal dağılım temelinde hesaplanır.

Aşağıdaki örnek problem, naive bayes sınıflandırıcısı ile veri madenciliğindeki sınıflandırma problemlerinin nasıl çözüleceği konusuna katkı yapmayı amaçlamaktadır.

Örnek Problem 5.1:

Aşağıdaki tabloda, elektronik ürünler satan bir işletme için son 1 yılda bilgisayar satın alma davranışına göre 14 kayıtlı müşterisinden elde edilen eğitim verisi yer almaktadır. Bu bilgilere göre; yaşı 30’dan küçük ya da eşit, gelir düzeyi ve kredi reytingi orta ve öğrenci olan bir müşterinin bilgisayar satın alma davranışının hangi olasılık ile hangi sınıfa ait olacağını sade bayes sınıflandırıcısı ile bulunuz?

Problem verisi incelendiğinde; iki farklı sınıf söz konusudur. Bu sınıflar aşağıdaki şekilde tanımlanabilir.

C1:bilgisayar satın alır = ‘evet’

C2:bilgisayar satın alır = ‘hayır’

Page 89: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

82

Sınıflandırılacak veri ise; X = (yas <=30, gelir = orta, öğrenci = evet, Kredi reytingi =

orta) şeklindedir.

yas gelir öğrenci kredi reytingi bilgisayar satınalma

<=30 yüksek hayır orta hayır <=30 yüksek hayır yüksek hayır

31…40 yüksek hayır orta evet

>40 orta hayır orta evet

>40 düşük evet orta evet

>40 düşük evet yüksek hayır 31…40 düşük evet yüksek evet

<=30 orta hayır orta hayır <=30 düşük evet orta evet

>40 orta evet orta evet

<=30 orta evet yüksek evet

31…40 orta hayır yüksek evet

31…40 yüksek evet orta evet

>40 orta hayır yüksek hayır Tablo 9: Sade bayes sınıflandırıcısı için örnek eğitim verisi

Problemde, P(C1|X) ve P(C2|X) ifadelerinin hesaplanması gerekmektedir. Bayes teoreminden hareketle, ( | ) ( | ) ( )P C X P X C P C

i i i ile hesaplanabilir. Burada, P(Ci) olasılıkları sınıf

niteliğinin evet ve hayır sayılarından hareket ile;

P(Ci): P(bilgisayar satınalma = “evet”) = P(C1) = 9/14 = 0.643

P(bilgisayar satınalma = “hayır”) = P(C2) = 5/14= 0.357 olarak hesaplanır.

Herbir sınıf için P(X|Ci) olasılıkları ise aşağıdaki şekilde hesaplanabilir:

P(yas = “<=30” | blg. satınalma= “evet”) = 2/9 = 0.222

P(yas = “<= 30” | blg. satınalma = “hayır”) = 3/5 = 0.6

P(gelir = “orta” | blg. satınalma = “evet”) = 4/9 = 0.444

P(gelir = “orta” | blg_satınalma = “hayır”) = 2/5 = 0.4

P(ogrenci = “evet” | blg_satınalma = “evet) = 6/9 = 0.667

P(ogrenci = “evet” | blg_satınalma = “hayır”) = 1/5 = 0.2

P(kredi_reytingi = “orta” | blg_satınalma = “evet”) = 6/9 = 0.667

P(kredi_reytingi = “orta” | blg_satınalma = “hayır”) = 2/5 = 0.4

X = (yas <= 30 , gelir = orta, ogrenci = evet, kredi_reytingi = orta) için

Page 90: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

83

P(X|C1) = 0.222 x 0.444 x 0.667 x 0.667 = 0.044

P(X|C2) = 0.6 x 0.4 x 0.2 x 0.4 = 0.019

P(C1|X) ve P(C2|X) olasılık değerleri ise yukarıdaki olasılık değerleri kullanılarak hesaplanabilir.

P(C1|X) =P(X|C1)P(C1) = 0.044x0.643 = 0.028

P(C2|X) =P(X|C2)P(C2) = 0.019x0.357 = 0.007 olarak elde edilir.

Evet, sınıfının olasılık değeri daha yüksek olduğu için X’in (“blg_satın alma = evet”) sınıfına ait olduğu söylenebilir. X’in evet sınıfına üyelik derecesi ise; 0.028 / (0.028+0.007) = 0.80 olarak bulunabilir. Dolayısıyla, yaşı 30’dan küçük ya da eşit, gelir düzeyi ve kredi reytingi orta ve öğrenci olan bir müşteri %80 olasılıkla bilgisayar satın alma davranışı açısından evet sınıfına, %20 olasılıkla ise bilgisayar satın alma davranışı açısından hayır sınıfına aittir.

Naïve Bayes tahmini, her koşullu olasılığın 0’dan farklı olmasını gerektirir. Aksi

takdirde, tahmin edilen olasılık sıfır olacaktır.

( | ) ( | )

1

nP X PC x Ci k i

k

(13)

Örneğin; 1000 örnekli bir veri setimiz olduğunu varsayalım. Bu veri setinde, gelir

niteliğinin düşük, orta ve yüksek değerlerinin sayıları; gelir=dusuk (0), gelir= orta (990) ve

gelir = yuksek (10) şeklinde olsun. Bu durumda, sıfır olasılık probleminden kaçınmak için Laplace düzeltmesi uygulanır ve herbir duruma 1 eklenir. Bu durumda olasılık değerleri aşağıdaki gibi olacaktır.

P(gelir = dusuk) = 1/1003=0.001

P(gelir = orta) = 991/1003=0.988

P(gelir = yuksek) = 11/1003=0.011

Düzeltilmiş olasılık tahminleri, düzeltilmemiş değerlere yakındır.

Naïve bayes sınıflandırıcısının avantajları aşağıdaki gibi sıralanabilir:

Uygulanması kolay

Çoğu durumda elde edilen sonuçlar iyi

Naïve bayes sınıflandırıcısının dezavantajları ise aşağıdaki gibi sıralanabilir:

Değişkenler arasındaki bağımsızlık varsayımı, doğruluk kaybına neden

olabilir.

Page 91: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

84

Uygulamada, değişkenler arasında bağımlılık olabilir. Değişkenler arasındaki

bağımlılık Naive Bayes ile modellenemez.

5.3. Bayes Ağları ile Sınıflandırma

Değişkenler arasında bağımlılık söz konusu ise Sade Bayes sınıflandırıcısı yerine Bayes ağları kullanılır. Bayes ağları; niteliklerin alt kümesinin birbiri ile bağımsız olduğunu varsaymaktadır. Problem verisi; yönlü çizgelerden ve koşullu olasılık tablolarından oluşmaktadır. Niteliğin, ebeveynlerine olan koşullu olasılıkları, aşağıdaki örnek ağ yapısı ile ifade edilebilir:

Şekil 15: Örnek bayes ağı yapısı

Bu ağ yapısında; X ve Y, Z değişkeninin ebeveyni, Y, Z ve P değişkeninin ebeveyni, Z ve P bağımsız değişkenlerdir. Bu durumda olasılık değeri şu şekilde hesaplanabilir:

( , , ) ( / ) ( / ) ( )P Z Y P P Z Y P P Y P Y=

Aşağıda, sağlık durumu ile ilgili bir Bayes ağı örneği yer almaktadır.

Şekil 16: Hastalık tespiti için bayes ağı yapısı

Bu gibi durumlara olasılık değerlerinin de belirtilmesi gerekmektedir.

Page 92: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

85

Bu olasılıklar şu şekilde örneklendirilebilir. Aile geçmişi olan ve sigara kullanan bir

kişinin kanser olma olasılığı 0.8’dir.

P(kanser=evet|Aile gecmisi =evet, sigara=evet)=0.8

Aile geçmişi olmayan ve sigara kullanmayan bir kişinin kanser olma olasılığı ise 0.1’dir.

P(kanser=evet|Aile gecmisi =hayır, sigara=hayır)=0.1

Page 93: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

86

Bu Bölümde Ne Öğrendik Özeti

Bu bölümde, ilk olarak bayes teoremi ortaya konulmuş ve bu teoremden sade bayes sınıflandırıcısının nasıl türetildiği açıklanmıştır. Daha sonra, sade bayes sınıflandırıcısının hesaplama adımları örnek bir problem ile detaylandırılmıştır. Son olarak ise, nitelikler arasında bağımlılık ilişkisi olduğu durumda kullanılan Bayes ağları temel hatları ile analiz edilmiştir.

Page 94: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

87

Bölüm Soruları

1) Bayes teoremi ve bayes sınıflandırıcısı ile ilgili aşağıdaki ifadelerden hangisi yanlıştır?

a) Bayes sınıflandırıcısı, nesnenin hangi sınıfa ait olduğunu olasılıksal olarak tahmin etmektedir.

b) Sade bayes sınıflandırıcısı, nitelikler arasındaki bağımlılık ilişkisini dikkate

almaktadır.

c) Sade bayes sınıflandırıcısında, niteliklerin hepsi eşit derecede önemlidir

d) Bayes teoremi, koşullu olasılık hesaplamalarına dayanmaktadır.

e) Sade bayes sınıflandırıcısında, bir niteliğin değeri başka bir niteliğin değeri hakkında bilgi içermemektedir.

2) Bir bayes sınıflandırıcısında, A niteliğine ait i=1,2,…,k farklı değer ve sınıf değişkeni için j=1,2,..,n farklı değer söz konusudur. Eğitim kümesinde; Cj sınıfı bilindiğinde A niteliğinin i değerinin gözlemlenme olasılığı aşağıdaki şekilde ifade edilmektedir:

( ) |i

i

j

j

j

Pn

A Cn

= .

Burada, nj, j sınıfına ait gözlemlerin sayısını ve nij, j sınıfına ait gözlemlerde A niteliğinin i değerinin gözlemlenme sayısını ifade etmektedir. Bu sınıflandırma probleminde, A niteliğinin herhangi bir i değeri, Cj sınıfına ait gözlemlerde yer almadığı için sıfır olasılık problemine neden olmaktadır. Bu problemin çözümü için Laplace düzeltmesi uygulanırsa, P(Ai| Cj) olasılığı nasıl (hangi matematiksel eşitlik ile) ifade edilir?

a) ( )|1

i

i

j

j

jnP A C

k

n=

+

+

b) ( )1

| i

j

i j

jnP A

kC

n=

+

+

c) ( )|1

i

i

j

j

jnP A

xk

nC =

+

d) ( ) |i

j

i

j

j

n nA C

kP

n=

+

+

Page 95: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

88

e) ( ) 1

|1

ij

j

i j

nP A C

n

+=

+

3.-4. sorularını aşağıdaki veri setini kullanarak yanıtlayınız?

Hava Isı Nem Rüzgar Oyun

güneşli sıcak yüksek Yok Hayır güneşli sıcak yüksek Var Hayır bulutlu sıcak yüksek Yok Evet

yağmurlu ılık yüksek Yok Evet

yağmurlu soğuk normal Yok Evet

yağmurlu soğuk normal Var Hayır bulutlu soğuk normal Var Evet

güneşli ılık yüksek Yok Hayır güneşli soğuk normal Yok Evet

yağmurlu ılık normal Yok Evet

güneşli ılık normal Var Evet

bulutlu ılık yüksek Var Evet

bulutlu sıcak normal Yok Evet

yağmurlu ılık yüksek Var Hayır

3) P(Oyun=Evet)|P(x’=(Hava=Güneşli, Isı=Soğuk, Nem=Yüksek, Rüzgar=Var))

olasılığını hesaplayınız?

a) 0.0053

b) 0.0106

c) 0.0159

d) 0.0212

e) 0.0265

4) x’=(Hava=Güneşli, Isı=Soğuk, Nem=Yüksek, Rüzgar=Var) test örneğinin Oyun=Hayır sınıfına hangi olasılıkla ait olduğunu sade bayes sınıflandırısını kullanarak

bulunuz?

a) %50

b) %60

c) %70

Page 96: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

89

d) %80

e) %90

5) İkili bir sınıflandırma problemi için aşağıdaki tabloda verilen eğitim verisini dikkate alınız. (A=0, B=1, C=0) test örneğinin - sınıfına hangi olasılıkla ait olacağını sade bayes sınıflandırıcısını kullanarak belirleyiniz?

A B C Sınıf 0 0 0 +

0 0 0 -

0 1 1 -

0 1 1 -

0 0 1 +

1 0 1 +

1 0 1 -

1 0 1 -

1 1 1 +

1 0 1 +

a) %100

b) %75

c) %50

d) %25

e) %0

Cevaplar

1)b, 2)b, 3)a, 4)d, 5)d

Page 97: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

90

6. ÖRNEK TABANLI SINIFLANDIRMA VE SINIFLANDIRICI PERFORMANSININ DEĞERLENDİRİLMESİ

Page 98: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

91

Bu Bölümde Neler Öğreneceğiz?

6.1. Tembel ve İstekli Öğrenme

6.2. K-En Yakın Komşu Algoritması

6.3. Sınıflandırıcı Performansının Değerlendirilmesi

Page 99: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

92

Bölüm Hakkında İlgi Oluşturan Sorular

1) Sınıflanfırma problemlerinin çözümünde kullanılan tembel öğrenme algoritmaları nelerdir?

2) K-En yakın komşu algoritması ile sınıflandırma problemleri nasıl çözülmektedir?

3) Farklı sınıflandırıcıların performansının değerlendirilmesinde kullanılan ölçütler nelerdir ve bu ölçütler nasıl hesaplanmaktadır?

Page 100: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

93

Bölümde Hedeflenen Kazanımlar ve Kazanım Yöntemleri

Konu Kazanım Kazanımın nasıl elde edileceği veya geliştirileceği

Tembel ve İstekli Öğrenme Tembel ve istekli öğrenme arasındaki ayırımı kavramak

Teorik anlatım

K-En Yakın Komşu Algoritması

K-en yakın komşu algoritmasını kullanarak sınıflandırma problemlerini çözebilmek

Teorik anlatım ve örnek problemler

Sınıflandırıcı Performansının Değerlendirilmesi

Sınıflandırıcı performansının değerlendirilmesinde kullanılan ölçütleri ve bu ölçütlerin nasıl hesaplanacağını kavramak

Teorik anlatım ve örnek uygulamalar

Page 101: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

94

Anahtar Kavramlar

Örnek tabanlı sınıflandırma

K-en yakın komşu algoritması

Karışıklık matrisi

Sınıflandırıcı performansı

Page 102: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

95

Giriş

Bu bölümde; ilk olarak, tembel ve istekli öğrenme kavramları açıklanmıştır. Daha sonra, sınıflandırma problemlerinin çözümünde kullanılan ve tembel öğrenmeyi esas alan k-

en yakın komşu algoritmasının hesaplama adımları örnek bir problem ile sunulmuştur. Son

olarak, farklı sınıflandırıcıların performanslarını karşılaştırmak için kullanılan ölçütlerine yer verilmiştir. Bu bağlamda; doğruluk oranı, anma, kesinlik, F-ölçüsü, spesifiklik ve ROC alanı gibi ölçütler analiz edilmiştir.

Page 103: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

96

6.1. Tembel ve İstekli Öğrenme

Dördüncü ve beşinci bölümde ele alınan sınıflandırma algoritmalarında, bir eğitim verisi verildiğinde, sınıflandırma için yeni data verilmeden önce bir sınıflandırma modeli oluşturulmaktaydı. Bu algoritmalar, aynı zamanda istekli öğrenme algoritmaları olarak adlandırılır.

Tembel öğrenmede ise, sınıflandırma algoritması sadece eğitim verisini saklamakta ve bir test örneği verilene kadar sınıflandırma modeli oluşturmak için beklemektedir. Tembel öğrenmese eğitim için daha az zaman, tahmin için daha çok zaman harcanmaktadır.

Örnek tabanlı öğrenme algoritmaları, tembel öğrenme sınıfındadır. Bu algoritmalarda,

eğitim örnekleri saklanmakta ve yeni bir örnek sınıflandırma işlemi gerçekleştirilene kadar bekletilmektedir. Bu noktada, en yaygın kullanılan algoritma, k-en yakın komşu algoritmasıdır.

6.2. K-En Yakın Komşu Algoritması

K- en yakın komşu algoritması, sınıflandırma problemlerinin çözümünde en yaygın kullanılan algoritmalardan biridir. Örneklerin tümü, N boyutlu uzayda noktalara karşılık gelmektedir. Bu algoritmada, öklid uzaklığı kullanılarak (uzaklık (X1, X2)) en yakın komşular tanımlanır. Diğer bir ifade ile, eğitim kümesindeki örneklerin her birinin sınıflandırılacak örnek değerine olan uzaklıklarının hesaplanması ve en küçük uzaklığa sahip k sayıda gözlemin seçilmesi prensibine dayanmaktadır.

Sınıf değeri, kesikli ya da sürekli olabilmektedir. Kesikli değerler için, en yakın k eğitim örneği arasında en çok görülen sınıf değeri, sınıflandırma etiketi tahmin edilecek örneğin, sınıf değeri olarak atanmaktadır. Sınıf değeri sürekli değerler içeriyorsa, k en yakın komşunun ortalama değeri, sınıf değeri bilinmeyen gözleme atanmaktadır. k-en yakın komşu algoritmasının hesaplama adımları aşağıdaki örnek problem ile detaylandırılacaktır.

Örnek Problem 6.1:

Bir bankanın, 6 müşterisinin yıllık gelir ve yaş değerlerine göre risk değerleri aşağıdaki tablodaki gibidir. Geliri 24000 ve yaşı 28 olan bir müşterinin risk değerini k en yakın komşu algoritmasını kullanarak tahmin ediniz? (k değerini 3 olarak varsayınız)

Gelir Yaş Risk

32000 58 YÜKSEK

55000 32 DÜŞÜK

20000 34 YÜKSEK

42000 26 YÜKSEK

38000 32 DÜŞÜK

30000 42 DÜŞÜK

Tablo 10: k en yakın komşu algoritması için örnek veri

Page 104: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

97

k en yakın komşu algoritmasında örnekler arasındaki öklid uzaklıkları hesaplanacağı için, büyük değer alan niteliklerin küçük değerler üzerinde olan baskısını engellemek için verinin normalleştirilmesi gerekmektedir. Aksi takdirde, uzaklık hesaplamasında gelir

niteliğinin etkisi yaş niteliğine göre çok daha fazla olacaktır.

Gelir ve yaş değerleri [0,1] aralığında normalleştirildiğinde aşağıdaki tablodaki değerler elde edilecektir.

Gelir Yaş Risk

0,3429 1 YÜKSEK

1 0,1875 DÜŞÜK

0 0,2500 YÜKSEK

0,6286 0 YÜKSEK

0,5143 0,1875 DÜŞÜK

0,2857 0,5000 DÜŞÜK

Tablo 11: k en yakın komşu algoritmasında normalleştirilmiş verilerin hesaplanması

Bu değerler, [0,1] normalleştirmesi için aşağıda verilen eşitlik ile hesaplanmaktadır.

min

max min

x x

x x

(14)

Bu eşitlikte; x normalleştirilecek veriyi, xmin o nitelik için veri kümesi içerisindeki minimum değeri, xmax ise o nitelik için veri kümesindeki en büyük değeri ifade etmektedir. Örneğin; birinci müşterinin gelir niteliği için 0,3429 değeri, (32000-20000)/(55000-20000) ile

hesaplanmıştır. Aynı müşterinin yaş niteliği için ise normalleştirilmiş değer (58-26)/(58-26)

ifadesi ile 1 olarak hesaplanmıştır. Tabloda yer alan tüm değerler benzer şekilde hesaplanabilir.

Sonraki aşamada, sınıflandırılacak verinin de normalleştirilmesi gerekmektedir. Gelir niteliği için 24000 değerinin normalleştirilmiş değeri (24000-20000)/(55000-20000) ifadesi

ile 0,1142 olarak, yaş niteliği için 28 değerinin normalleştirilmiş değeri (28-26)/(58-26)

ifadesi ile 0,0625 olarak hesaplanır.

Bir sonraki aşamada, normalleştirilmiş değerler kullanılarak sınıflandırılacak verinin eğitim verisindeki her bir niteliğe olan öklid uzaklığı hesaplanmalıdır. Öklid uzaklığını hesaplamak için aşağıdaki eşitlik kullanılmaktadır.

2

1

( , ) ( )n

ik jkk

d i j x x=

= -å (15)

Bu eşitlikte, d(i,j) değeri i ve j örnekleri arasındaki uzaklık değerini, n ise örneklerin nitelik sayısını ifade etmektedir.

Page 105: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

98

Sınıflandırılacak verinin, eğitim kümesinde yer alan ilk veriye olan uzaklığı aşağıdaki şekilde hesaplanabilir.

2 2(0,1142 0,3429) (0,0625 1) 0,9650- + - = değeri elde edilir.

Benzer şekilde, sınflandırılacak verinin eğitim verisindeki herbir örneğe olan uzaklıkları hesaplandığında aşağıdaki tablodaki değerler elde edilecektir.

Gelir Yaş Risk D(i,j) Sıralama

0,3429 1 YÜKSEK 0,9650 6

1 0,1875 DÜŞÜK 0,8945 5

0 0,2500 YÜKSEK 0,2196 1

0,6286 0 YÜKSEK 0,5181 4

0,5143 0,1875 DÜŞÜK 0,4191 2

0,2857 0,5000 DÜŞÜK 0,4699 3

Tablo 11: k en yakın komşu algoritmasında örnekler arasındaki uzaklığın hesaplanması

Eğitim kümesindeki veriler, sınıflandırılacak veri ile aralarındaki uzaklık değerine göre sıralanır. Problemde k=3 değeri verildiği için sıralama sonuçlarına göre ilk üç örnek seçilmelidir. En yakın 3 örneğin sınıf değerine bakıldığında, 2 adet Düşük ve 1 adet Yüksek değeri görülmektedir. Bu nedenle, geliri 24000 ve yaşı 28 olan bir müşterinin risk değeri tahmini k-en yakın komşu algoritmasına göre “Düşük” olarak tahmin edilir.

k en yakın komşu algoritmasında sınıflandırılacak veriye en yakın komşunun sınıf değeri yüksek olmasına rağmen, düşük değeri seçilmiştir. k en yakın komşu algoritmasının eksikliklerinin üstesinden gelmek için uzaklık ağırlıklı k en yakın komşu algoritması geliştirilmiştir.

k komşunun her birinin ağırlığı, uzaklıklarına göre aşağıdaki eşitlik yardımı ile hesaplanmaktadır.

1

2( , )

w

d x xj i

(16)

Daha yakın komşular, daha yüksek ağırlığa sahip olmaktadır. Uzaklık ağırlıklı yöntemde, k komşu arasında en çok tekrarlanan sınıfı seçme yöntemi yerine, en yüksek ağırlık toplamına sahip sınıf seçilmektedir.

Uzaklık ağırlıklı k en yakın komşu yöntemine göre, en yakın 3 komşunun ağırlık değeri aşağıdaki tablodaki gibidir:

Page 106: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

99

Gelir Yaş Risk D(i,j) Sıralama Wi,j

0,3429 1 YÜKSEK 0,9650 6

1 0,1875 DÜŞÜK 0,8945 5

0 0,2500 YÜKSEK 0,2196 1 20,7394

0,6286 0 YÜKSEK 0,5181 4

0,5143 0,1875 DÜŞÜK 0,4191 2 5,6940

0,2857 0,5000 DÜŞÜK 0,4699 3 4,5291

Tablo 12: Uzaklık ağırlıklı k en yakın komşu algoritmasının uygulanması

Uzaklık ağırlıklı yönteme göre düşük sınıfının toplam ağırlığı 5,6940+4,5291=10,2231 ve yüksek sınıfının toplam ağırlığı 20,7394 olduğundan (24000,28) gözlemi YÜKSEK sınıfına aittir.

6.3. Sınıflandırıcı Performansının Değerlendirilmesi

Bu kitap kapsamında; sınıflandırma algoritması olarak; karar ağaçları, bayes teoremi ve k-en yakın komşu algoritmaları incelenmiştir. Bu algoritmaların dışında da çok sayıda sınıflandırma algoritması literatürde yer almaktadır. Tüm sınıflandırma problemleri ve veri kümeleri için bir sınıflandırma algoritmasının diğer bir sınıflandırma algoritmasından daha iyi ya da daha kötü olması gibi bir durum söz konusu değildir. Bu noktada, hangi algoritmanın daha iyi olduğu belirleyen değerlendirme ölçütleri söz konusudur. Eğitim verisi ile oluşturulan sınıflandırma modelinin başarısı test verisi kullanılarak hesaplanan ölçütler ile değerlendirilmektedir.

Sınıflandırma modelinin başarımını değerlendirmek ve farklı sınıflandırma algoritmalarını karşılaştırmak için kullanılan ölçütlerin en önemlileri aşağıdaki şekilde sıralanabilir:

Doğruluk / Hata Oranı

Anma (recall)

Kesinlik (precision)

F-ölçütü

Spesifiklik

ROC alanı

Bu ölçütlerin hesaplanması için karışıklık matrisi (confusion matrix) adı verilen bir matris kullanılmaktadır. Karışıklık matrisindeki CMi,j değeri sınıflandırma modeli tarafından sınıf j olarak etiketlenen sınıf i’ye ait örneklerin sayısını göstermektedir. İki farklı sınıf değeri içeren bir sınıflandırma problemi için karışıklık matrisinin yapısı aşağıdaki şekildedir.

Page 107: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

100

Gerçek sınıf\Tahmini sınıf C1 ¬ C1

C1 A:Doğru pozitif (DP) B:Yanlış Negatif (YN)

¬ C1 C:Yanlış pozitif (YP) D:Doğru Negatif (DN)

Tablo 13: Karışıklık matrisinin yapısı

Karışıklık matrisinde A ile belirtilen matris alanı, test verisi içinde C1 sınıfına ait olup, sınıflandırma modelinin de C1 olarak tahmin ettiği örnek sayısını ifade etmektedir. Bu alan, doğru pozitif olarak adlandırılır.

Karışıklık matrisinde B ile belirtilen matris alanı, test verisi içinde C1 sınıfına ait olan ancak sınıflandırma modelinin de C1 olarak tahmin etmediği örnek sayısını ifade etmektedir. Bu alan, yanlış negatif olarak adlandırılır.

Karışıklık matrisinde C ile belirtilen matris alanı, test verisi içinde C1 sınıfına ait olmayan, ancak sınıflandırma modelinin de C1 olarak tahmin ettiği örnek sayısını ifade etmektedir. Bu alan, yanlış pozitif olarak adlandırılır.

Karışıklık matrisinde D ile belirtilen matris alanı, test verisi içinde C1 sınıfına ait olmayan ve sınıflandırma modelinin de C1 olarak tahmin etmediği örnek sayısını ifade etmektedir. Bu alan, doğru negatif olarak adlandırılır.

Bir karışıklık matrisi örneği aşağıdaki tabloda sunulmaktadır.

Gerçek sınıf \Tahmini sınıf sınıf Blg_satınalma=evet Blg_satınalma=hayır Toplam

Blg_satınalma=evet 6954 46 7000

Blg_satınalma=hayır 412 2588 3000

Toplam 7366 2634 10000

Tablo 14: Karışıklık matrisi örneği

Karışıklık matrisinde yer alan değerler kullanılarak, doğruluk ve hata oranları aşağıdaki eşitlikler yardımı ile hesaplanabilir.

Doğruluk oranı = (DP+DN) / (DP+YN+YP+DN) (17)

Hata oranı = (YN+YP) / (DP+YN+YP+DN) (18)

Kesinlik ölçütü, sınıflandırma modeli tarafından doğru olarak sınıflandırılmış pozitif örnek sayısının, pozitif olarak sınıflandırılmış toplam örnek sayısına oranıdır. Diğer bir ifade ile C sınıfına ait olarak tahmin edilen örneklerin gerçekte C sınıfına ait olma oranıdır. Bu ölçüt sınıflandırma modelinin, yanlış pozitifleri eleme kabiliyetini ölçmekte ve aşağıdaki şekilde hesaplanabilmektedir.

Kesinlik = DP / (DP+YP) (19)

Page 108: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

101

Anma değeri, doğru olarak sınıflandırılmış pozitif örneklerin oranını ölçmektedir. Diğer bir ifade ile C sınıfına ait doğru sınıflandırılmış örneklerin, C sınıfına ait örnek sayısına oranı ile ölçülmektedir. Bu ölçüt sınıflandırma modelinin, yanlış negatifleri eleme kabiliyetini

ölçmekte ve aşağıdaki şekilde hesaplanmaktadır.

Anma=DP/(DP+YN) (20)

Kesinlik ve anma ölçütleri için en iyi skor değeri 1’dir.

Sınıflandırma modelinin başarımında kullanılan bir diğer ölçüt olan F ölçüsü ise kesinlik ve anma değerlerinin harmonik ortalaması kullanılarak aşağıdaki eşitlik ile hesaplanmaktadır.

2xkesinlikxanma

kesinlik+anmaF = (21)

Kesinlik ölçütüne, anma ölçütüne göre kat fazla ağırlık verilmek istendiğinde Fß

ölçütü aşağıdaki gibi hesaplanabilir:

2

2

(1 )xkesinlikxanma

xkesinlik+anmaFb

b

b

+= (22)

Spesifiklik değeri, gerçek durumda C sınıfına ait olmayan örneklerin, C sınıfına ait olmadığını doğru olarak tahmin edilme oranıdır. Bu ölçüt, doğru negatif sınıflandırma başarısını ölçmektedir.

Spesifiklik = DN / (YP+DN) (23)

Doğruluk oranı, anma, kesinlik, spesifiklik ve F-ölçüsü değerleri daha büyük olan sınıflandırıcı diğer sınıflandırıcılara göre daha başarılıdır ve yeni örneklerin tahmini için bu sınıflandırıcının kullanımı tercih edilir.

Örnek Problem 6.2:

Kanser hastalığının teşhis problemi için kullanılan bir sınıflandırma modelinin, test verisi üzerinde başarımı değerlendirilerek aşağıdaki karışıklık matrisi oluşturulmuştur.

Gerçek sınıf \Tahmini sınıf sınıf

kanser=evet kanser=hayır

kanser=evet 90 210

kanser =hayır 140 9560

Bu sınıflandırıcının doğruluk oranı, anma, kesinlik ve F ölçütü değerlerini hesaplayınız?

Page 109: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

102

Sınıflandırıcı için; karışıklık matrisinden DP=90, YN=210, YP=140 ve DN=9560 olarak görülebilir.

Sınıflandırıcının doğruluk oranı; (90+9560)/(90+210+140+9560)=%96.5 olarak

hesaplanabilir. Sınıflandırıcının hata oranı ise 1-%96.5=%3.5 olarak belirlenir.

Sınıflandırıcının kesinlik değeri; 90/(90+140) = %39.13 olarak belirlenmiştir. Benzer şekilde, sınıflandırıcının anma değeri 90/(90+210)=%30 olarak bulunmaktadır. Sınıflandırıcı için f ölçüsü (2x0.3913x0.3)/(0.3913+0.30) eşitliğinden %33.96 olarak hesaplanabilir.

Son olarak, sınıflandırıcının spesifiklik oranı 9560/(9560+140)=%98.56 olarak bulunur.

Sınıflandırıcının başarısını ölçmede, doğruluk en basit ölçüttür. Kesinlik ve anma

değerleri daha iyi değerlendirme sağlamaktadır. Diğer taraftan, Model A’nın kesinliği Model B’den daha iyi, Model B’nin anma değeri Model A’dan daha iyi olabilir.

Sadece doğruluk oranına göre sınıflandırıcı performansını değerlendirmenin sakıncaları aşağıdaki örnek ile açıklanabilir:

2 farklı sınıf değeri içeren bir sınıflandırma problemini (kanser/kanser değil, dolandırıcı/dolandırıcı değil) dikkate alalım. Test kümesinde, dolandırıcı ya da kanser değil sınıfına sahip gözlem sayısının 9990, dolandırıcı ya da kanserli sınıfına ait gözlem sayısının ise 10 olduğunu varsayalım.

Sınıflandırma modeli, tüm örnekleri dolandırıcı ya da kanser değil olarak tahmin ederse, doğruluk oranı 9990/10000=%99.9 olarak bulunacaktır. Sınıflandırma modeli, dolandırıcı müşterileri ya da kanserli hastaları tespit edememesine rağmen, çok yüksek doğruluk oranına sahip olacaktır. Bu noktada, doğruluk yeterli bir ölçüt değildir. Küçük veya dengesiz veri kümelerinde, iki sınıfın eşit dağıldığı bir veri kümesi oluşturulmalıdır. Ayrıca, spesifiklik ölçütü söz konusu örnekte daha sağlıklı bir değerlendirme sağlayacaktır.

Sınıflandırma modellerinin başarımını değerlendirmede kullanılan bir diğer ölçüt, ROC eğrisinin altında kalan alandır. Bu alanın daha büyük olması, sınıflandırma modelinin daha başarılı olduğunu ifade etmektedir. ROC ( receiving operating characteristics - algılayıcı işletim özellikleri) eğrisi, sınıflandırma modellerinin görsel karşılaştırması için kullanılmaktadır. İşaret işleme teorisinden türetilmektedir ve gürültülü bir kanalda doğru algılamanın yanlış alarma oranından esinlenilmiştir. ROC eğrisinde, düşey y ekseninde doğru pozitif oranını (TP/(TP+FN)) ve yatay x ekseninde ise yanlış pozitif oranı (FP/(TN+FP)) yer

almaktadır. Grafikte çapraz bir çizgi de gösterilir. Çapraz çizgiye yakınlık (örneğin., 0.5’e yakın alan), daha az doğru modeldir. Mükemmel doğru bir model ise 1.0 alanına sahip olacaktır. Şekil 17’de ROC eğrisi örneği yer almaktadır. Bu eğriye göre, uç değerler aşağıdaki şekilde ifade edilebilir:

(0,0): Bütün örneklerin negatif sınıflandırılması.

Page 110: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

103

(1,1): Bütün örneklerin pozitif sınıflandırılması

(0,1): ideal durum

(1,0): tüm durumların hatalı tahmin edilmesi

Çapraz çizgiye yakınlık(örneğin., 0.5’e yakın alan), daha az doğru modeli ifade etmektedir.

Şekil 17: ROC eğrisi örneği

Sınıflandırma problemi ile ilgili bir veri kümesinin, nasıl eğitim ve test verisi olarak bölüneceği, sınıflandırma modelinin başarımı açısından kritik önem taşımaktadır. Bu noktada,

verinin eğitim ve test verisi olarak ayrıştırılmasında farklı stratejiler söz konusudur. Bu

stratejilerin en yaygın kullanılanları aşağıdaki şekilde sıralanabilir:

Gizleme metodu: Veri kümesi, her eğitme işleminde iki bağımsız kümeye rassal olarak bölünür. Örneğin; model oluşturma için eğitim kümesi olarak verinin 2/3’ü, doğruluk tahmini için test kümesi olarak verinin 1/3’ü alınabilir.

Rassal örnekleme: Gizleme metodunun bir versiyonudur. k kez gizleme

tekrarlanır, sınıflandırıcının dogruluk oranı, elde edilen doğrulukların ortalaması ile

hesaplanır.

Çapraz doğrulama: Veri yaklaşık olarak eşit büyüklükte, birbirinden ayrı k alt

kümeye rassal olarak bölünür. i. iterasyonda, Di test kümesi (bir alt küme) olarak, diğerleri (k-1 alt küme) eğitim kümesi olarak kullanılır. Toplamda k iterasyon yapılır. k=10 en çok kullanılan değerdir.

Biri hariç çapraz doğrulama: k kat çapraz doğrulamanın özel bir halidir. k sayısı veri kümesindeki örnek sayısına (n) eşittir. Model n-1 örnek üzerinde eğitilir. Dışarıda

Page 111: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

104

bırakılan 1 örnek test verisi olarak kullanılır. Model n kez eğitilmektedir ve her örnek 1 kez

test verisi olacaktır. Modelin doğruluk oranı, tüm elde edilen doğrulukların ortalamasıdır

Page 112: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

105

Bu Bölümde Ne Öğrendik Özeti

Sınıflandırmanın problemlerinin çözümünde yaygın olarak kullanılan algoritmalardan biri k en yakın komşu algoritmasıdır. Örnek tabanlı tembel sınıflandırma algoritmalarından biri olan k en yakın komşu algoritmasının hesaplama adımları, bu bölümde sunulmuştur.

Ayrıca, k en yakın komşu algoritmasının eksikliklerinin üstesinden gelmek için geliştirilen uzaklık ağırlıklı k en yakın komşu algoritması da örnek problem üzerinden analiz edilmiştir.

Sınıflandırıcı performansının değerlendirilmesi ve sınıflandırma problemi için uygun sınıflandırma modelinin seçilmesi kritik önem taşımaktadır. Bu noktada; doğruluk oranı, kesinlik, anma, spesifiklik, F-ölçüsü ve ROC alanı gibi ölçütler sınıflandırma modellerinin performansını karşılaştırmak için kullanılmaktadır. Karışıklık matrisi kullanılarak bu performans değerlerinin nasıl hesaplanacağı bu bölümde detaylı olarak gösterilmiştir.

Sınıflandırma problemlerinde önem taşıyan bir diğer nokta olan veri kümesinin eğitim ve test verisi olarak nasıl ayrılacağına yönelik stratejilere de bu bölümde yer verilmiştir.

Page 113: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

106

Bölüm Soruları

1) Sınıflandırıcı performansının değerlendirilmesinde kullanılan ölçütler ile ilgili aşağıdaki ifadelerden hangisi yanlıştır?

a) ROC eğrisinde, y ekseninde doğru pozitif oranı ve x ekseninde yanlış pozitif oranı yer alır

b) Kesinlik ölçütü, sınıflandırıcını yanlış pozitifleri eleme kabiliyetini ölçmektedir

c) Anma ölçütü, sınıflandırıcını yanlış negatifleri eleme kabiliyetini ölçmektedir

d) F ölçüsü ise kesinlik ve anma değerlerinin geometrik ortalamasına eşittir

e) ROC eğrisinin altında kalan alanın büyüdükçe sınıflandırma modeli daha başarılı olur

2.-4. soruları aşağıdaki veri setini kullanarak yanıtlayınız.

Bir sınıflandırma problemi için maliyet matrisi ve M1 sınıflandırma modelinin karışıklık matrisi ağıdaki şekildedir:

Maliyet

matrisi

Tahmini Sınıf

Gerçek Sınıf

+ -

+ -1 100

- 1 0

Model

M1

Tahmini Sınıf

Gerçek Sınıf

+ -

+ 150 40

- 60 250

Örneğin; maliyet matrisine göre gerçek sınıfı pozitif olan bir örneği, negatif olarak sınıflandırmanın maliyeti 100 birim, gerçek sınıfı negatif olan bir örneği pozitif olarak sınıflandırmanın maliyeti 1 birimdir. Pozitif olan bir örnek, pozitif olarak tahmin edildiğinde ise 1 birim kazanç sağlanmaktadır.

Page 114: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

107

2) M1 sınıflandırma modelinin toplam maliyeti nedir?

a) 3850

b) 3910

c) 4010

d) 4050

e) 4150

3) M1 sınıflandırma modelinin doğruluk oranı nedir?

a) % 60

b) % 70

c) % 80

d) % 90

e) % 100

4) M1 sınıflandırma modelinin F-ölçüsünün değeri nedir?

a) 0.55

b) 0.60

c) 0.65

d) 0.70

e) 0.75

Page 115: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

108

5) Bir mağazanın, 6 farklı ürününün sergileme miktarı ve reklam harcamalarına bağlı olarak, satış değerleri aşağıdaki tablodaki gibidir. Sergileme miktarı 240 ve reklam harcaması 2000 olan bir ürünün k en yakın komşu algoritması (k=3) ile elde edilen

komşularının sınıf etiketinin dağılımı nasıldır?

Sergileme Reklam Satış

180 1600 ORTA

260 1800 YÜKSEK

320 2000 YÜKSEK

200 1400 DÜŞÜK

140 1600 DÜŞÜK

220 2600 YÜKSEK

a) 3 YÜKSEK

b) 2 YÜKSEK, 1 ORTA

c) 1 YÜKSEK, 2 ORTA

d) 2 YÜKSEK, 1 DÜŞÜK

e) 1 YÜKSEK, 1 ORTA, 1 DÜŞÜK

Cevaplar

1)d, 2)b, 3)c, 4)e, 5)b

Page 116: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

109

7. KÜMELEME ANALİZİNE GİRİŞ VE BENZERLİK VE UZAKLIK ÖLÇÜLERİ

Page 117: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

110

Bu Bölümde Neler Öğreneceğiz?

7.1. Kümeleme Analizinin Temel Kavramları

7.2. Kümeleme Algoritmalarında Uzaklık Ölçüleri

7.3. Kümeleme Algoritmalarında Benzerlik Ölçüleri

Page 118: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

111

Bölüm Hakkında İlgi Oluşturan Sorular

1) Veri madenciliğinin kümeleme fonksiyonu için kullanılan algoritmaların temel özellikleri nelerdir?

2) Farklı veri tipleri içeren nesnelerin birbirine olan uzaklığı nasıl hesaplanmaktadır?

3) Farklı veri tipleri için nesnelerin birbirine olan yakınlıkları nasıl belirlenmektedir?

Page 119: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

112

Bölümde Hedeflenen Kazanımlar ve Kazanım Yöntemleri

Konu Kazanım Kazanımın nasıl elde edileceği veya geliştirileceği

Kümeleme Analizinin Temel Kavramları

Kümelemenin temel kavramlarını ve kümeleme algoritmalarının temel çalışma prensiplerini öğrenmek

Teorik anlatım

Kümeleme Algoritmalarında Uzaklık Ölçüleri

Farklı veri tipleri için uzaklık hesaplamalarını kavramak

Teorik anlatım ve örnek problemler

Kümeleme Algoritmalarında

Benzerlik Ölçüleri

Farklı veri tipleri için benzerlik ölçülerinin nasıl hesaplanacağını anlamak

Teorik anlatım ve örnek problemler

Page 120: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

113

Anahtar Kavramlar

Kümeleme Analizi

Uzaklık

Benzerlik.

Page 121: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

114

Giriş

Bu bölümde, ilk olarak kümeleme analizinin temel kavramları ile birlikte kümeleme problemlerinin yapısı incelenmiştir. Daha sonra, kümeleme algoritmalarının temelini oluşturan farklı veri tipleri için uzaklık ve benzerlik ölçülerine yer verilmiştir. Ayrıca, bu ölçüler ile ilgili hesaplama örnekleri sunulmuştur.

Page 122: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

115

7.1. Kümeleme Analizinin Temel Kavramları

Kümeleme, veri madenciliğinin en önemli fonksiyonlarından biridir. Literatürde kümeleme kelimesi yerine gruplama ve demetleme gibi ifadelerin kullanımı ile de karşılaşılmaktadır. Kümeleme algoritmaları, denetimsiz öğrenme algoritmaları olup nesnelerin (örneklerin) belirlenen niteliklere göre gruplara ayrılması amaçlanmaktadır. Kümelemenin matematiksel ifadesi ise aşağıdaki şekilde belirtilebilir.

n farklı nesneden oluşan bir veri tabanı D = {t1, t2, .., tn} verilsin. ti ve tj nesneleri

arasındaki uzaklık ölçüsü uzaklık(ti, tj) ile tanımlansın. k tamsayılı bir değer olmak üzere,

kümeleme problemi f: D {1, …,k } her ti bir Kf kümesine atanır. Kf, 1 ≤ f ≤ k.

Kümeleme analizinde, birbirine benzeyen veri nesnelerinin gruplanması amaçlanmaktadır. Kümeleme analizinde, temel felsefe aşağıdaki gibi sıralanabilir:

Aynı küme içerisindeki elemanların benzerliğinin en büyüklenmesi

Diğer kümelerdeki elemanlara benzerliğin en küçüklenmesi

Veride bulunan özelliklere göre veriler arasındaki benzerlikleri bulma ve benzer veri nesnelerini kümelere gruplama

Kümeleme algoritmaları daha önce de belirtildiği gibi denetimsiz öğrenme gerçekleştirilmektedir. Kümeleme analizi veri madenciliği projelerinde tek başına kullanılabildiği gibi, diğer algoritmalar için bir önişleme adımı olarak (örn: veri azaltma, aykırılıkları belirleme) da kullanılabilir.

Kümeleme analizinin uygulama alanı örnekleri aşağıdaki şekilde sıralanabilir:

Biyoloji: canlıların sınıflandırılması - sınıf, familya, tür ve cins.

Pazarlama: müşteri segmentasyonu. Pazarlamacıların müşterilerin farklı gruplarını keşfetmesine yardım eder ve daha sonra, hedeflenen pazarlama programlarının geliştirilmesinde bu bilgi kullanılır.

Şehir planlama: Hane tipine, gelirine ve coğrafik lokasyonuna göre hane gruplarının belirlenmesi

Deprem çalışmaları: Gözlenen deprem merkez üsleri, fay hatları boyunca kümelenmelidir.

Ekonomi Bilimi: Pazar araştırmaları

Aykırılıkları belirleme

WWW – döküman kümeleme, kullanıcı davranışlarını ve kullanıcıları kümeleme

Page 123: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

116

Kümeleme uygulaması olarak, bir ülkedeki şehirlerin gruplanması problemini ele alalım. Burada, şehirlerin kümelenmesinde kullanılacak niteliklerin belirlenmesi gerekmektedir. Politik, ekonomik ve demografik özelliklerine göre şehirler gruplanabilir. Burada, politik özellikler olarak 2002, 2007, 2011 ve 2015 seçim sonuçlarını, demografik özellik olarak popülasyon ve şehirleşme oranlarını, ekonomik özellik olarak kişi başına gayri safi milli hasıla değerini ve gayri safi hasıla büyüme hızını alırsak her bir şehir bu faktörlerden oluşan bir matris halini almaktadır. Daha sonra kümeleme algoritmaları kullanılarak, bu faktörlere göre birbirine benzer şehirler kullanıcı tarafından belirlenen ya da

optimum sayıdaki küme sayısı kadar gruba ayrılır.

İyi bir kümeleme metodu, yüksek kaliteli kümeler üretmelidir. Daha önce ifade edildiği gibi, yüksek küme içi benzerlik ile kümeler içinde bağlılığın (yapışkanlık) arttırılması ve düşük kümeler arası benzerlik ile kümeler arasındaki belirginliğin (ayırıcılığın) arttırılması hedeflenmektedir. Kümeleme metodunun kalitesi; kullanılan metodun benzerlik ölçüsüne, uygulanabilirliğine ve gizli desenlerin tümünü ya da birkaçını keşfedebilme yeteneğine bağlıdır.

7.2. Kümeleme Algoritmalarında Uzaklık Ölçüleri

Kümeleme algoritmaları, veri nesneleri arasındaki benzerliğin ya da farklılığın ölçülmesi esasına dayanmaktadır. Benzerlik, iki veri nesnesinin benzerliğini ölçen bir sayısal ölçüt olup genelde [0,1] aralığında değere sahip olmaktadır. Nesneler birbirine daha benzer ise daha büyük değer almaktadır. Kümeleme algoritmalarında benzerlik yerine yakınlık ifadesi de kullanılabilmektedir.

Uzaklık ise iki veri nesnesinin birbirinden ne kadar farklı olduğunu gösteren bir

sayısal ölçüdür. Nesneler birbirine daha benzer ise daha düşük değer alır. En küçük farklılık değeri genelde 0 olup, üst sınır değeri değişebilmektedir. Uzaklık kavramı yerine farklılık kavramı da kullanılabilmektedir.

n veri noktasından (nesne/örnek) ve p boyuttan oluşan (nitelikten) aşağıdaki gibi bir veri matrisini dikkate alalım.

x ... x ... x11 1f 1p

... ... ... ... ...

x ... x ... xi1 if ip

... ... ... ... ...

x ... x ... xn1 nf np

é ùê úê úê úê úê úê úê úê úê úê úê úë û

(24)

Nesneler arasındaki uzaklık hesaplandığında, aşağıdaki gibi bir uzaklık matrisi elde edilmektedir.

Page 124: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

117

) (3, 2)

: : :

( ,1) ( , 2) ... 0

0

d(2,1) 0

d(3,1 d 0

d n d n ...

é ùê úê úê úê úê úê úê úê úê úë û

(25)

Örneğin; i ve j nesneleri arasındaki öklid uzaklığı aşağıdaki formül yardımı ile hesaplanabilir:

2 2 2( , ) (| | | | ... | | )1 1 2 2

d i j x x x x x xi j i j ip jp

= - + - + + - (26)

Aşağidaki tabloda yer alan 4 veri nesnesini dikkate alalım.

nokta nitelik 1 nitelik 2

X1 1 2

X2 3 5

X3 2 0

X4 4 5

Tablo 15: Uzaklık hesaplamaları için örnek veri nesnesi

Bu nesneler için öklid uzaklığı kullanılarak elde edilen uzaklık matrisi aşağıdaki gibi olacaktır.

X1 X2 X3 X4

X1 0

X2 3.61 0

X3 2.24 5.1 0

X4 4.24 1 5.39 0

Tablo 16: Veri nesneleri arasındaki öklid uzaklığının hesaplanması

Nümerik veriler için öklid uzaklığı dışında, farklı veri uzaklığı hesaplama biçimleri de söz konusudur. Bu noktada, Minkowski uzaklığı popüler bir uzaklık ölçüsü olup, aşağıdaki eşitlik yardımı ile hesaplanır.

( , ) | | | | ... | |1 1 2 2

hh h hd i j x x x x x x

i j i j ip jp= - + - + + - (27)

Xi = (xi1, xi2, …, xip) ve Xj = (xj1, xj2, …, xjp) iki boyutlu veri nesnesi olmak üzere aşağıdaki özellikler söz konusudur.

• eğer i ≠ j ise d(i, j) > 0 ve d(i, i) = 0 (Pozitif tanımlılık)

• d(i, j) = d(j, i) (Simetri)

• d(i, j) d(i, k) + d(k, j) (Üçgen eşitsizliği)

Page 125: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

118

Minkowski uzaklığında, h=2 olduğunda Minkowski uzaklığı, Öklid uzaklığı halini alır. Öklid uzaklığı, Minkowski uzaklığının özel bir durumudur. Minkowski uzaklığında, h=1 olduğunda, Manhattan uzaklığı olarak adlandırılan bir uzaklık ölçüsü söz konusu olacaktır. Manhattan uzaklığı aşağıdaki şekilde hesaplanabilir.

( , ) | | | | ... | |1 1 2 2

d i j x x x x x xi j i j ip jp

= - + - + + - (28)

Minkowski uzaklığında, h= olduğunda supremum uzaklığı adı verilen bir uzaklık söz konusu olacaktır. Supremum uzaklığı, veri nesnelerinin herhangi bir niteliği arasındaki maksimum farka eşittir.

1/

1

( , ) lim | | max| |

hp p

hif jf if jf

h ff

d i j x x x x® ¥

=

æ ö÷ç ÷= - = -ç ÷ç ÷çè øå (29)

Tablo 17’de yer alan veri nesneleri arasındaki Manhattan ve Supremum uzaklığı değerleri hesaplandığında aşağıdaki tabloda yer alan farklılık matrisleri elde edilmektedir.

X1 X2 X3 X4

X1 0

X2 5 0

X3 3 6 0

X4 6 1 7 0

Tablo 17: Veri nesneleri arasındaki manhattan uzaklığının hesaplanması

X1 X2 X3 X4

X1 0

X2 3 0

X3 2 5 0

X4 3 1 5 0

Tablo 18: Veri nesneleri arasındaki supremum uzaklığının hesaplanması

İkili (binary) nitelikler için uzaklık hesaplamalarında tüm olası durumları gösteren aşağıdaki tablodan faydalanılır.

Nesne j

Nesne i

1 0 Toplam

1 q r q+r

0 s t s+t

Toplam q+s r+t

Tablo 19: İkili nitelikler için olası durumlar tablosu

Simetrik ikili nitelikler için uzaklık ölçüsü aşağıdaki şekilde hesaplanır.

( , )r s

d i jq r s t

+=

+ + + (30)

Page 126: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

119

Asimetrik ikili nitelikler için ise uzaklık, aşağıdaki eşitlik kullanılarak hesaplanabilir.

( , )r s

d i jq r s

+=

+ + (31)

İkili nitelikler arasındaki uzaklık hesaplamalarını örneklendirmek için aşağıdaki tabloda yer alan veriyi dikkate alalım.

İsim E/K Ateş Öksürük Test-1 Test-2 Test-3 Test-4

A Erkek E N P N N N

B Kadın E N P N P N

C Erkek E P N N N N

Tablo 20: İkili nitelikler için uzaklık hesaplamaları örneği

Bu veri setinde, cinsiyet simetrik bir nitelik iken diğer nitelikler ise asimetriktir. E ve P 1 ve N olsun. Bu doğrultuda; A-B, A-C, B-C nesneleri arasındaki uzaklık aşağıdaki şekilde hesaplanabilir.

7.3. Kümeleme Algoritmalarında Benzerlik Ölçüleri

Asimetrik ikili nitelikler için Jaccard katsayısı benzerlik ölçüsü olarak kullanılabilmektedir. Jaccard katsayısı aşağıdaki gibi hesaplanabilir:

Jaccard( , )q

i jq r s

=+ +

(31)

Page 127: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

120

Bu Bölümde Ne Öğrendik Özeti

X-R ve X-S kontrol diyagramları verinin alt grup halinde toplandığı durumlarda

kullanılan kontrol diyagramlarıdır. Alt grup büyüklüğünün 8’den fazla olduğu durumlarda standart sapmanın genişlik değerine göre değişkenliği yansıtmada daha anlamlı bir ölçüt olması nedeniyle X-R diyagramı kullanılır. Alt grup büyüklüğü azaldıkça (8) X-S kontrol

diyagramının kullanılması önerilmektedir.

X-R ve X-S kontrol diyagramlarının oluşturulması için ilk olarak, başlangıç kontrol limitlerinin ve merkez çizgisinin hesaplanması gerekmektedir. Başlangıç değerleri hesaplandıktan sonra eğer kontrol limitleri dışında bir alt grup söz konusu ise bu alt gruplar

dışarı atılarak kontrol limitleri revize edilmektedir. Prosesin istatistiksel olarak kontrol altında olup olmadığının tespiti için sadece alt ve üst spesifikasyon limitlerinin dışında noktaların varlığı ile birlikte ölçülebilen değişkenler için 7 farklı test uygulanmaktadır. Ayrıca, kontrol diyagramında trend, gruplama, tekrarlı çevrim gibi durumların varlığı da kontrol dışı olma durumunu etkilemektedir.

Page 128: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

121

Bölüm Soruları

1) Aşağıdakilerden hangisi, kontrol diyagramlarında kontrol dışı olma duurumunu ifade etmez?

a) Herhangi bir noktanın 3 dışında olması

b) Ardışık 4 noktanın 1 aralığında olması

c) 7 ya da daha fazla ardışık noktanın merkez çizgisinin üzerinde ya da altında olması

d) Ardışık 6 noktanın sürekli olarak artması ya da azalması

e) Ardışık 3 noktanın 2’sinin 2 aralığının dışında olması

2) Alt grup büyüklüğü ile ilgili aşağıdaki ifadelerden hangisi yanlıştır?

a) Alt grup büyüklüğü arttıkça kontrol limitleri merkez değerine yaklaşmaktadır.

b) Alt grup büyüklüğü arttıkça, X-S diyagramı yerine X-R diyagramının tercih edilmesi gerekmektedir.

c) Tahribat veren test kullanıldığında ve öğe pahalı olduğunda, küçük bir altgrup gerekmektedir.

d) Altgrup büyüklüğü arttıkça, altgrup başına muayene maliyeti artar.

e) Alt grup büyüklüğü arttıkça, proses ortalamasındaki küçük değişkenliklere kontrol diyagramı daha duyarlı hale gelecektir.

3.-5. Soruları aşağıdaki problem verisini kullanarak hesaplayınız?

Geçmiş 7 gün boyunca bir acil servis ambulansı için cevap zamanlarını içeren veri

aşağıdaki tablodaki gibidir.

Gün 1 2 3 4 5 6 7

Sabah 3.6 4.5 2.9 7.1 4.3 6.7 2.8

Öğleden Sonra 5.2 6.3 4.7 6.2 2.8 5.8 5.6

Akşam 6.5 7.2 3.8 3.9 5.9 6.9 3.8

Gece 4.9 6.9 4.3 5.6 3.2 4.9 4.9

Page 129: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

122

3) Cevap zamanı için X-R kontrol diyagramı oluşturulduğunda, X ve R diyagramlarının merkez çizgisi olarak sırasıyla hangi değerler elde edilir?

a) 5.04 – 2.14

b) 5.04 – 2.34

c) 5.04 – 2.64

d) 5.64 – 2.14

e) 5.64 – 2.64

4) Cevap zamanı için X-R kontrol diyagramı oluşturulduğunda, X diyagramının alt kontrol limitinin hesaplanan değeri nedir?

a) 3.16

b) 2.22

c) 2.89

d) 3.12

e) 4.01

5) R diyagramının üst kontrol limiti hesaplandığında, hangi değer elde edilir?

a) 6.02

b) 5.74

c) 5.56

d) 4.56

e) 0

Cevaplar

1)b, 2)b, 3)c, 4)d, 5)a

Page 130: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

123

8. K ORTALAMALAR ALGORİTMASI İLE KÜMELEME

Page 131: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

124

Bu Bölümde Neler Öğreneceğiz?

8.1. Önemli Kümeleme Algoritmaları

8.2. K-Ortalamalar Algoritması

8.3. K-Medoid Algoritması

Page 132: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

125

Bölüm Hakkında İlgi Oluşturan Sorular

1) Ölçülemeyen kalite özellikleri için hangi kontrol diyagramları kullanılmaktadır?

2) Ölçülemeyen kalite özellikleri için kullanılan kontrol diyagramlarında kontrol limitlerinin ve merkez çizgilerin değerleri nasıl hesaplanmaktadır?

3) Kontrol diyagramları ile prosesin istatistiksel olarak kontrol altında olup olmadığı nasıl analiz edilmektedir?

Page 133: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

126

Bölümde Hedeflenen Kazanımlar ve Kazanım Yöntemleri

Konu Kazanım Kazanımın nasıl elde edileceği veya geliştirileceği

p kontrol diyagramı

np kontrol diyagramı

Hatalı oranı için kullanılan p ve hatalı sayısı için kullanılan np kontrol diyagramlarının kullanımını öğrenmek.

Teorik anlatım ve örnek uygulamalar

c kontrol diyagramı

u kontrol diyagramı

c ve u kontrol diyagramlarını kavramak.

Teorik anlatım ve örnek uygulamalar

Kontrol testleri Ölçülemeyen özellikler için kullanılan kontrol diyagramlarında, kontrol

dışılık durumunu analiz edebilmek.

Teorik anlatım ve örnek uygulamalar

Page 134: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

127

Anahtar Kavramlar

Kümeleme Algoritmaları

K-Ortalamalar

K-Medoid.

Page 135: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

128

Giriş

Kusurlu oranı, kusurlu sayısı, bir üründeki kusur sayısı gibi ölçülemeyen kalite özellikleri için oluşturulan ait kontrol diyagramları bu bölümde incelenecektir. Ayrıca, kontrol diyagramları için kontrol limitlerinin ve merkez çizgisi değerlerinin hesaplanması ve kontrol dışılık durumunun ve koşullarının analizi de detaylandırılacaktır.

Page 136: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

129

8.1. Önemli Kümeleme Algoritmaları

Bir partideki hatalı ya da kusurlu oranı için kullanılan p kontrol diyagramı, Binom

dağılımını esas almaktadır. Tablo 17’de yer alan veriyi içeren örnek problem ile p kontrol diyagramının hesaplamaları ve kullanımı gösterilecektir. Bu problem şu şekilde ifade edilebilir:

Büyük bir e-ticaret şirketi, müşterilerinden doğru olmayan faturalarla ilgili şikayetler almaktadır. Altı sigma projesinin ölçüm evresi boyunca, bu durumu iyileştirmek amaçlanmış ve 20 haftalık zaman dilimi için hatalı faturaları kontrol etmek amacı ile 200 faturalık rassal örnekler alınmıştır. Elde edilen değerler aşağıdaki tablodaki gibidir:

Hafta no 1 2 3 4 5 6 7 8 9 10

Hatalı sayısı 23 23 20 21 17 22 24 20 18 17

Hafta no 11 12 13 14 15 16 17 18 19 20

Hatalı sayısı 24 17 15 19 19 22 27 23 23 18

Tablo 17: Hatalı Fatura Sayısı Veri Kümesi

Bu veri kümesi için p kontrol diyagramı aşağıdaki şekilde oluşturulabilir.

1) p kontrol diyagramın çizmek istediğimizde, ilk olarak haftalara ait hatalı oranlarının hesaplanması gerekmektedir. Hesaplanan hatalı oranları aşağıdaki tablodaki gibidir:

Hafta Hatalı Sayısı Hatalı Oranı (p)

1 23 23/200=0.115

2 23 0.115

3 20 0.100

4 21 0.105

5 17 0.085

6 22 0.110

7 24 0.120

8 20 0.100

9 18 0.090

10 17 0.085

11 24 0.120

12 17 0.085

13 15 0.075

14 19 0.095

15 19 0.095

16 22 0.110

17 27 0.135

18 23 0.115

19 23 0.115

20 18 0.090

Toplam 412 0.103

Tablo 18: Haftalar Bazında Hatalı Fatura Oranları

Page 137: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

130

Bu hesaplamalara göre; ortalama hata oranı p = 412/ 4000 = %10.3’tür.

2) İkinci adım olarak, aşağıda verilen Eşitlik (7.1)-(7.3) kullanılarak p kontrol

diyagramının merkez çizgisi, alt ve üst kontrol limitleri hesaplanır.

(1 )3p

p pUCL p

n

(62)

pCL p (63)

(1 )3p

p pLCL p

n

(64)

Tablo 17’de yer alan veri ile fatura sürecinin p kontrol diyagramının merkez çizgisi, alt ve üst kontrol limitleri aşağıdaki şekildedir:

0.103(1 0.103)0.103 3 0.1675

200pUCL

0.103pCL

0.103(1 0.103)0.103 3 0.0385

200pLCL

3) Kontrol diyagramı çizilerek, varyasyonun özel bir nedeninin olup olmadığını tespit etmeye yönelik kontrol testleri uygulanmalıdır. Hatalı fatura sürecine ait p kontrol

diyagramı Şekil 28’de sunulmaktadır.

Ölçülemeyen özellikler için çizilen kontrol diyagramlarında, ölçülen özellikler için belirtilen kontrol dışılık testlerinden yalnızca ilk 4 test uygulanmaktadır. p, np, c ve u kontrol

diyagramlarında, kontrol dışı nokta ya da noktaların tespiti için uygulanan bu testler aşağıdaki şekilde sıralanabilir:

Merkez çizgisinin 3’sının dışında 1 nokta

Merkez çizgisinin aynı yönünde sıralanmış 9 ardıl nokta

Sürekli artan ya da sürekli azalan 6 ardıl nokta

Bir artıp bir azalan 14 nokta

Fatura sürecine ait p kontrol diyagramı incelendiğinde, yukarıda belirtilen 4 durumun

herhangi biri görülmemektedir. Bu nedenle, prosesin istatistiksel olarak kontrol altında olduğu ve varyasyonun rassal faktörlerden kaynaklandığı ifade edilebilir.

Page 138: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

131

Şekil 28: Hatalı Fatura Sürecinin p Kontrol Diyagramı

4) Eğer kontrol dışı noktalar söz konusu ise, veriden bu noktalar çıkarılarak yeniden revize kontrol limitleri ve merkez çizgileri hesaplanır. Revize kontrol limitleri hesaplanırken de, başlangıç kontrol limitlerinin hesaplanmasında kullanılan Eşitlik (62)-(64)

kullanılır

p kontrol diyagramı sadece örneklem büyüklüğünün sabit olduğu durumlarda değil, değişken olduğu durumlarda da kullanılabilir. Aşağıdaki örnek ile p kontrol diyagramının değişken örneklem büyüklüğü ile kullanımı açıklanacaktır.

Bir bilgisayar modemi üreticisi, Mart ayının sonu ve Nisan ayının tamamı için ürünlerin son testinden veri toplamıştır. Alt grup büyüklüğü, 1 günlük muayene sonuçlarıdır. 25 alt grup için muayene sonuçları, Tablo 19’da yer almaktadır.

Günlük muayene sayısındaki varyasyon, farklı sebeplerden kaynaklanabilir. Makine

arızaları, farklı üretim gereksinimlerine sahip ürünler varyasyona neden olmaktadır. Tablo 19’da yer alan veri için, 1238 muayene ile en düşük değer 9 Nisan tarihine aittir. Bu tarihte, ikinci vardiya çalışmamıştır. 2678 muayene ile 22 Nisan tarihinde en yüksek değer gerçekleşmiştir. Bu değer, bir iş merkezindeki fazla mesaiden kaynaklanmaktadır.

İlk olarak, kontrol diyagramının merkez çizgisini oluşturan, ortalama kusurlu oranının (p) hesaplanması gerekmektedir. Bu değer, aşağıdaki şekilde hesaplanabilir:

191715131197531

0.175

0.150

0.125

0.100

0.075

0.050

Hafta

Ha

talı

Ora

_P=0.103

UCL=0.1675

LCL=0.0385

Hatalı Fatura Sürecinin P Kontrol Diyagramı

Page 139: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

132

10150.02009

50515p

Alt Grup Muayene Sayısı Kusurlu Sayısı 29 Mart 2385 55

30 Mart 1451 18

31 Mart 1935 50

1 Nisan 2450 42

2 Nisan 1997 39

5 Nisan 2168 52

6 Nisan 1941 47

7 Nisan 1962 34

8 Nisan 2244 29

9 Nisan 1238 53

12 Nisan 2289 45

13 Nisan 1464 26

14 Nisan 2061 47

15 Nisan 1667 34

16 Nisan 2350 31

19 Nisan 2354 38

20 Nisan 1509 28

21 Nisan 2190 30

22 Nisan 2678 113

23 Nisan 2252 58

26 Nisan 1641 34

27 Nisan 1782 19

28 Nisan 1993 30

29 Nisan 2382 17

30 Nisan 2132 46

Toplam 50,515 1,015

Tablo 19: Haftalar Bazında Hatalı Fatura Oranları

Eğer örneklem büyüklüğü farklılık gösteriyorsa, herbir örneklem için kontrol limitlerinin hesaplanması gerekmektedir. Alt grupların kontrol limitleri hesaplanırken, Eşitlik (62)-(64) kullanılır. Bu eşitliklerde, n değeri olarak alt grup büyüklükleri esas alınır. Herbir gün için kontrol limitleri, p değeri kullanılarak elde edilir. Örneğin; 29 Mart verisi için alt ve üst kontrol limitleri;

(0.02009)(1 0.02009)0.02009 3 0.02871

2385

(0.02009)(1 0.02009)0.02009 3 0.01147

2385

UCL

LCL

30 Mart verisi için alt ve üst kontrol limitleri;

Page 140: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

133

(0.02009)(1 0.02009)0.02009 3 0.03114

1451

(0.02009)(1 0.02009)0.02009 3 0.00904

1451

UCL

LCL

Kusurlu oranları ve alt gruplar için hesaplanan alt ve üst kontrol limitleri Tablo 20’de yer almaktadır.

Alt Grup Muayene

Sayısı Kusurlu

Sayısı Kusurlu

Oranı (p) UCL LCL

29.Mar 2385 55 0.02306 0.02871 0.01147

30.Mar 1451 18 0.01241 0.03114 0.00904

31.Mar 1935 50 0.02584 0.02966 0.01052

01.Nis 2450 42 0.01714 0.02860 0.01159

02.Nis 1997 39 0.01953 0.02951 0.01067

05.Nis 2168 52 0.02399 0.02913 0.01105

06.Nis 1941 47 0.02421 0.02965 0.01054

07.Nis 1962 34 0.01733 0.02960 0.01059

08.Nis 2244 29 0.01292 0.02898 0.01121

09.Nis 1238 53 0.04281 0.03206 0.00813

12.Nis 2289 45 0.01966 0.02889 0.01129

13.Nis 1464 26 0.01776 0.03109 0.00909

14.Nis 2061 47 0.02280 0.02937 0.01082

15.Nis 1667 34 0.02040 0.03040 0.00978

16.Nis 2350 31 0.01319 0.02878 0.01141

19.Nis 2354 38 0.01614 0.02877 0.01142

20.Nis 1509 28 0.01856 0.03093 0.00926

21.Nis 2190 30 0.01370 0.02909 0.01110

22.Nis 2678 113 0.04220 0.02823 0.01196

23.Nis 2252 58 0.02575 0.02896 0.01122

26.Nis 1641 34 0.02072 0.03048 0.00970

27.Nis 1782 19 0.01066 0.03007 0.01012

28.Nis 1993 30 0.01505 0.02952 0.01066

29.Nis 2382 17 0.00714 0.02872 0.01147

30.Nis 2132 46 0.02158 0.02921 0.01098

Toplam 50515 1015 0.02009

Tablo 20: p Kontrol Diyagramında Alt Grupların Kontrol Limitlerinin Hesaplanması

Alt gruplar için hesaplanan kontrol limitlerine göre, p kontrol diyagramı Şekil 29’da

görüldüğü gibi çizilebilir.

Kontrol diyagramından incelendiğinde; prosesin istatistiksel olarak kontrol altında olmadığı ve 09 Nisan, 22 Nisan ve 29 Nisan tarihine ait ölçümlerin, kontrol dışı noktaları

Page 141: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

134

oluşturduğu görülebilmektedir. 09 Nisan ve 22 Nisan tarihlerindeki varyasyonun üretim prosesindeki özel bir hatadan ve 29 Nisan tarihine ait kontrol dışı noktanın ise ölçüm aletindeki kalibrasyon hatasından kaynaklandığı tespit edilmiştir. Bu nedenle; bu üç noktanın veriden dışarı atılarak merkez çizgisinin ve kontrol limitlerinin revize edilmesi gerekmektedir.

Şekil 29: Değişken Alt Grup Büyüklüğünde p Kontrol Diyagramı Örneği

Merkez çizgisinin (yeni kusurlu oranı) revize değeri aşağıdaki şekilde hesaplanabilir:

1015 53 113 170.01882

50515 1238 2678 2382yenip

Revize merkez çizgisi değeri, gelecek periyotlar için üst ve alt kontrol limitlerini hesaplamada kullanılır. Örneğin; 3 Mayıs tarihine ait, 1535 ürün muayenesine karşılık 31 adet kusurlu ürün bulunduğunu varsayalım. Bu durumda, 3 Mayıs tarihine ait kusurlu oranı p=31/1535=0.02019 olarak belirlenir. Alt gruba ait alt ve üst kontrol limitleri ise şu şekilde hesaplanabilir:

(0.01882)(1 0.01882)0.01882 3 0.02922

1535

(0.01882)(1 0.01882)0.01882 3 0.00841

1535

UCL

LCL

30/N

is

28/N

is

26/N

is

22/N

is

20/N

is

16/N

is

14/N

is

12/N

is

08/N

is

06/N

is

02/N

is

31/M

ar

29/M

ar

0.045

0.040

0.035

0.030

0.025

0.020

0.015

0.010

0.005

Alt Grup

Ku

su

rlu

Ora

_P=0.02009

1

11

Değişken alt grup büyüklüğü durumunda p kontrol diyagramı

Page 142: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

135

Hatalı oranı, kontrol limitlerinin dışında değildir. Alt grupların kontrol limitlerinin belirlenmesinde kullanılan p değeri yeni gözlemlerle birlikte periyodik olarak güncellenebilir (örneğin; Mayıs ayının sonunda).

8.2. K-Ortalamalar Algoritması

np kontrol diyagramı, ölçülemeyen özellikler için hatalı ya da kusurlu sayısının analizinde ve alt grupların büyüklükleri eşit olması durumunda kullanılmaktadır. Daha önce belirtildiği gibi, kontrol limitleri merkez çizgisinden 3 uzaklıkta oluşmaktadır. np kontrol

diyagramında standart sapma değeri; (1 )n p p ile hesaplanır. Bu doğrultuda, np

kontrol diyagramının alt ve üst kontrol limitleri aşağıdaki formüller yardımıyla belirlenir.

3 (1 )UCL np np p (65)

CL n p (66)

3 (1 )LCL np np p (67)

np kontrol diyagramında prosesin istatistiksel olarak kontrol altında olma durumu, p

kontrol diyagramında belirtilen 4 test uygulanarak analiz edilmektedir. Aşağıdaki örnek ile np

kontrol diyagramının kullanımı açıklanacaktır.

Bir analist bir üretim vardiyasında her biri 200 üründen oluşan 10 farklı örneklem almış ve her bir örneklemdeki hatalı parça sayısını belirleyerek kaydetmiştir. Hata sayıları aşağıdaki tablodaki gibidir.

Alt Grup Hatalı sayısı 1 5

2 3

3 7

4 2

5 1

6 4

7 10

8 4

9 1

10 6

Tablo 21: np Kontrol Diyagramı İçin Hatalı Üretim Verisi

np kontrol diyagramında, ortalama hatalı oranının ( p ) ve ortalama hatalı sayısının (

n p ) ilk olarak hesaplanması gerekmektedir. Tablo 21’deki veri kullanılarak, bu değerler aşağıdaki şekilde hesaplanır.

Page 143: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

136

5 3 7 2 1 4 10 4 1 6 430.0215

(10).(200) 2000p

(200)(0.0215) 4.3n p

Daha sonra, kontrol diyagramının merkez çizgisi ve alt ve üst kontrol limitleri Eşitlik (65)-(67) kullanılarak aşağıdaki şekilde hesaplanır.

4.3 3 4.3(1 0.0215) 10.4537UCL

4.3CL

4.3 3 4.3(1 0.0215) 1.8537LCL

Hatalı sayısı değeri negatif olamayacağından, LCL değeri 0 olarak alınır. Belirlenen alt ve üst kontrol limitleri, merkez çizgisi ve alt grupların hatalı sayılarına göre np diyagramı Şekil 30’daki gibi olacaktır.

Şekil 30: Üretim Sürecinin np Kontrol Diyagramı

Kontrol diyagramı incelendiğinde, kontrol dışı bir noktanın olmadığı ve prosesin istatistiksel olarak kontrol altında olduğu görülmektedir. Eğer, kontrol dışı bir alt grup ya da alt gruplar söz konusu ise bu alt gruba ya da alt gruplara ait veri dışarı atılarak kontrol limitlerinin ve merkez çizgisinin Eşitlik (65)-(67) yardımıyla revize edilmesi gerekmektedir.

10987654321

10

8

6

4

2

0

Alt Grup

Ha

talı

Sa

yıs

ı

__NP=4.3

UCL=10.45

LCL=0

Hatalı sayısının NP kontrol diyagramı

Page 144: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

137

8.3. K-Medoid Algoritması

c kontrol diyagramı, eşit alanlardaki (fırsattaki) kusur sayısını kontrol etmek için kullanılır. Örneklem büyüklüğü sabittir. Bu eşit fırsat alanı; zaman, alan ya da ürün grubu

olabilir. Örneğin; bir saatteki iplik kırılmalarının sayısı, bir m2 halıdaki kusur sayısı. c kontrol

diyagramında, alt ve üst kontrol limitleri ve merkez çizgisi aşağıdaki eşitlikler yardımı ile hesaplanabilir:

3UCL c c (68)

CL c (69)

3LCL c c (70)

Bu eşitliklerde; c değeri ortalama kusur sayısını ifade etmekte ve toplam kusur sayısının ölçüm sayısına bölünmesi ile bulunmaktadır. c kontrol diyagramının kullanımı aşağıdaki örnek problem ile açıklanacaktır.

Bir banka tarafından gerçekleştirilen ATM cihazlarının tahkiki sırasında, ATM cihazı bazlı olarak 1 aylık döneme ait tespit edilen hata sayıları aşağıdaki tablodaki gibidir.

ATM 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Hata sayısı 5 4 7 9 4 6 5 8 9 11 5 10 6 6 5

ATM 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

Hata sayısı 4 7 10 6 9 8 8 4 8 8 4 4 7 3 12

Tablo 22: ATM cihazı bazlı hata sayıları

ATM cihazlarının hata sayılarına yönelik kontrol diyagramını oluşturmak istediğimizde, ilk olarak ortalama hata sayısının hesaplanması gerekmektedir. Bu değer aşağıdaki şekilde hesaplanabilir:

5 4 ... 3 12 2026.733

30 30c

Ortalama hata sayısı değeri ile Eşitlik (68)-(70) kullanılarak kontrol limitleri aşağıdaki şekilde hesaplanabilir:

6.733 3 6.733 14.517UCL

6.733CL

6.733 3 6.733 1.051LCL

Page 145: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

138

Hata sayısı değeri negatif olamayacağından, LCL değeri 0 olarak alınır. Belirlenen alt ve üst kontrol limitleri, merkez çizgisi ve alt grupların hata sayısına göre c kontrol diyagramı Şekil 31’deki gibi olacaktır.

Kontrol diyagramı incelendiğinde, kontrol dışı bir noktanın olmadığı ve prosesin istatistiksel olarak kontrol altında olduğu görülmektedir. ATM cihazlarına bağlı olarak, hata sayılarında meydana gelen varyasyonun özel bir nedeni yoktur, tesadüfi faktörlerden kaynaklanmıştır.

Şekil 31: ATM Cihazlarının Hata Sayısı için c Kontrol Diyagramı

Diğer kontrol diyagramlarında olduğu gibi, c kontrol diyagramında da kontrol dışı bir nokta ya da noktalar söz konusu ise, bu alt grup ya da alt gruplar dışarı atılarak Eşitlik (68)-(70) yardımı ile revize kontrol limitlerinin ve yeni merkez çizgisinin hesaplanması gerekmektedir.

u kontrol diyagramı, ölçülemeyen niteliklerde ölçüm birimi başına hata sayısını kontrol etmek için kullanılmaktadır. u kontrol diyagramı, Poisson dağılımını temel almaktadır. Örneklem büyüklüğü, c dağılımından farklı olarak değişken ya da sabit olabilir.

u kontrol diyagramında, ilk olarak ölçüm birimi başına ortalama hata sayısı ( u ) değeri aşağıdaki eşitlik yardımıyla hesaplanır. Bu değer, aynı zamanda kontrol diyagramının merkez çizgisini oluşturmaktadır.

28252219161310741

16

14

12

10

8

6

4

2

0

ATM No

Ha

ta S

ay

ısı

_C=6.73

UCL=14.52

LCL=0

ATM cihazlarının hata sayısı için c kontrol diyagramı

Page 146: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

139

1

1

k

iik

ii

u

u

n

(71)

Bu eşitlikte, k örneklem sayısını, ui i.örneklemin hata sayısını, ni i.örneklemin büyüklüğünü ifade etmektedir. Bir sonraki adımda, u kontrol diyagramının, alt ve üst kontrol limitleri aşağıdaki eşitlikler yardımı ile hesaplanabilir:

3u

UCL un

(72)

3u

LCL un

(73)

u kontrol diyagramı ile aşağıdaki örnek problem ile açıklanacaktır.

Bir analist, her bir vardiyadaki kontrplak levhaların üretimini incelemekte ve üretilen kontrplak levhaların sayısını ve her bir levhadaki hata sayısını kayıt altına almaktadır. Muayene birimi, bir kontrplak levhadır. Analist tarafından toplanan veri, aşağıdaki tabloda

yer almaktadır.

Vardiya Kontrplak Sayısı Toplam Hata

Sayısı Kontrplak başına

hata sayısı A 250 300 1.200

B 270 310 1.148

C 230 290 1.261

D 245 310 1.265

Toplam 995 1210 1.216

Tablo 23: Kontrplak Üretimi Vardiya Bazlı Hata Sayıları

İlk olarak ölçüm birimi başına ortalama hata sayısı (u ) değeri, Eşitlik (71) yardımı ile aşağıdaki şekilde hesaplanır.

Değişken örneklem büyüklüğü durumunda, her bir alt grup için alt ve üst kontrol limitlerinin Eşitlik (72)-(73) kullanılarak ayrı olarak hesaplanması gerekmektedir. Bu eşitliklerde, n değeri yerine her bir alt grubun büyüklük değeri kullanılmalıdır.

Örneğin; Vardiya A için kontrol limitleri,

1.2161.216 3 1.425

250UCL

1.2161.216 3 1.007

250LCL

Page 147: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

140

Vardiya B için kontrol limitleri,

1.2161.216 3 1.417

270UCL

1.2161.216 3 1.015

270UCL olarak hesaplanabilir.

Tüm vardiyalar için merkez çizgileri, alt ve üst kontrol limitleri Tablo 24’de sunulmaktadır.

Vardiya Kontrplak

Sayısı Toplam Hata

Sayısı Kontrplak başına

hata sayısı LCL UCL

A 250 300 1.200 1.007 1.425

B 270 310 1.148 1.015 1.417

C 230 290 1.261 0.998 1.434

D 245 310 1.265 1.005 1.427

Toplam 995 1210

Tablo 24: u Kontrol Diyagramında Kontrol Limitlerinin Hesaplanması

Üretim vardiyaları için hesaplanan kontrol limitlerine göre, u kontrol diyagramı Şekil 32’de görüldüğü gibi çizilebilir.

Şekil 32: Üretim Vardiyaları için u Kontrol Diyagramı

Kontrol diyagramı incelendiğinde, üretim vardiyaları için kontrol dışılığın söz konusu

olmadığı görülmektedir. Üretim vardiyalarına bağlı olarak, birim kontrplak üretiminde oluşan

DCBA

1.4

1.3

1.2

1.1

1.0

Vardiya

Bir

im B

aşı

na

Ha

ta S

ay

ısı

_U=1.2161

Kontrplak levha üretimi U Kontrol Diyagramı

Page 148: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

141

gelen varyasyonun özel bir nedeni yoktur. Bu varyasyon, rassal nedenlerden kaynaklanmaktadır. Eğer kontrol dışı bir nokta söz konusu ise bu noktalara ait veri

çıkarılarak, Eşitlik (72)-(73) ile merkez çizgisi ve kontrol limitleri revize edilmelidir.

Page 149: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

142

Bu Bölümde Ne Öğrendik Özeti

Ölçülemeyen özellikler için p, np, c ve u kontrol diyagramları istatistiksel kalite kontrolde yaygın şekilde kullanılmaktadır. Bir partideki hatalı ya da kusurlu oranı için kullanılan p kontrol diyagramı, Binom dağılımını esas almaktadır np kontrol diyagramı ise, ölçülemeyen özellikler için hatalı ya da kusurlu sayısının analizinde ve alt grupların büyüklükleri eşit olması durumunda kullanılmaktadır. c kontrol diyagramı, eşit alanlardaki (fırsattaki) kusur sayısını kontrol etmek için kullanılır. Örneklem büyüklüğü sabittir. Bu eşit fırsat alanı; zaman, alan ya da ürün grubu olabilir. u kontrol diyagramı, ölçülemeyen niteliklerde ölçüm birimi başına kusur sayısını kontrol etmek için kullanılmaktadır. u kontrol

diyagramı, Poisson dağılımını temel almaktadır. Örneklem büyüklüğü, c dağılımından farklı olarak değişken ya da sabit olabilir.

Bu bölümde, ölçülemeyen özellikler için kullanılan bu 4 kontrol diyagramı örnek uygulamalar ile analiz edilmiştir. Bu doğrultuda; kontrol limitlerinin ve merkez çizgisinin hesaplanması ve kontrol testleri detaylı olarak açıklanmıştır.

Page 150: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

143

Bölüm Soruları

1) Ölçülemeyen özellikler için kullanılan u kontrol diyagramı hangi olasılık dağılımını esas almaktadır?

a) Normal Dağılım

b) Binom Dağılımı

c) Hipergeometrik Dağılım

d) Gama Dağılımı

e) Poisson Dağılımı

2) Bölgesel bir havaalanı şirketinin zamanında ucuş performansına ilişkin kayıtlar ile illgilenmektedir. Haftanın her günü 20 uçuş yapılmaktadır. Geçmiş 7 günün zamanında ucuş kayıtları 17,16,18,19,16,15,20 şeklindedir. Zamanında ucuş performansı için p-kontrol

diyagramı oluşturulduğunda elde edilecek alt ve üst kontrol limitleri nedir?

a) 0.6345 – 1.0940

b) 0.6345 - 1

c) 0.8643 - 1

d) 0.8643 – 1.0940

e) 0.6345 – 0.8643

3) Bir operatör, bir üretim vardiyasında her biri 300 üründen oluşan 8 farklı örneklem almış ve her bir örneklemdeki hatalı parça sayısını belirleyerek kaydetmiştir. Hata sayıları aşağıdaki tablodaki gibidir.

Alt Grup Hatalı sayısı 1 3

2 4

3 6

4 4

5 3

6 5

7 7

8 4

Bu veri kümesi kullanılarak üretim süreci için np kontrol diyagramı oluşturulduğunda, kontrol diyagramının üst kontrol limiti değeri nedir?

a) 5.64

b) 6.89

Page 151: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

144

c) 8.32

d) 9.56

e) 10.82

4) Halı yapımında kullanılan , kumaş üretim prosesinde malzeme yüzeyleri görsel olarak kontrol edilmektedir. Farklı büyüklüklerde halılar olmasından dolayı, birim alan başına kusur sayısı kullanılmaktadır. 6 farklı örnekten elde edilen değerler aşağıdaki tablodaki gibidir:

Malzeme No Malzeme Boyutu Hata Sayısı 1 180 1

2 120 0

3 150 2

4 120 1

5 200 3

6 200 3

6 nolu malzeme için u kontrol diyagramının üst kontrol limiti hesaplanırsa, hangi değer elde edilir?

a) 0.0100

b) 0.0121

c) 0.0212

d) 0.0312

e) 0.0432

5) Paslanmaz çelik levhaların yüzeyindeki kırıklar için c kontrol diyagramının

yapılacaktır. 10 ürün için elde edilen kusur sayısı sırasıyla 3, 1, 0, 2, 2, 1, 0, 1, 2, 1 şeklindedir. c kontrol diyagramının alt kontrol limiti nedir?

a) 0

b) 0.371

c) 0.534

d) 0.713

e) 0.958

Cevaplar

1)e, 2)b, 3)e, 4)d, 5)a

Page 152: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

145

9. HİYERARŞİK KÜMELEME VE KÜMELEME KALİTESİNİN ÖLÇÜLMESİ

Page 153: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

146

Bu Bölümde Neler Öğreneceğiz?

9.1. Hiyerarşik Kümeleme

9.2. Bulanık Kümeleme

9.3. Beklenti Maksimizasyonu Algoritması

9.4. Kümeleme Kalitesinin Değerlendirilmesi

Page 154: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

147

Bölüm Hakkında İlgi Oluşturan Sorular

1) Altı sigma felsefesi nasıl bir kalite yönetim anlayışı ortaya koymaktadır?

2) Bir prosesin sigma kalite seviyesi nasıl hesaplanır ve elde edilen sonuçlar nasıl yorumlanır?

3) Altı sigma projeleri nasıl yürütülmektedir? Bu projelerin yürütülmesinde izlenen metodoloji nedir?

Page 155: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

148

Bölümde Hedeflenen Kazanımlar ve Kazanım Yöntemleri

Konu Kazanım Kazanımın nasıl elde edileceği veya geliştirileceği

Altı Sigma Nedir? Altı sigma kalite yönetim anlayışını kavramak.

Teorik anlatım

Sigma Kalite Seviyesi Bir prosesin sigma kalite

seviyesinin nasıl hesaplanacağını öğrenmek.

Örnek problemler ve uygulamalar

Altı Sigma Projelerinin Yönetimi

Altı Sigma Metodolojisi

Altı sigma proje yönetim

metodolojisini öğrenmek

Teorik anlatım

Page 156: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

149

Anahtar Kavramlar

Altı Sigma

Sigma Kalite Seviyesi

DMAIC

Page 157: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

150

Giriş

Bu bölümde; Altı Sigma kalite yönetim anlayışı detaylı şekilde incelenecektir. Bu doğrultuda; altı sigma kavramı ve teknik terminolojisi açıklanacaktır, altı sigma projeleri için önerilen DMAIC metodolojisi analiz edilecek ve altı sigma proje ekibinin rol ve sorumlulukları ortaya konulacaktır. Ayrıca, sigma kalite seviyesi kavramı açıklanarak, bu indeksin nasıl hesaplanacağı örnek problemler ile gösterilecektir.

Page 158: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

151

9.1. Hiyerarşik Kümeleme

Altı sigma; ürün, proses ve işlemlerdeki değişkenliği azaltmak, hataları ortadan kaldırmak ve israfı elimine etme amacına yönelik olarak geliştirilen disiplinli, istatistik tabanlı ve proje odaklı bir yaklaşımdır. Altı sigma, istatistiksel kalite kontrole benzer şekilde prosesteki varyasyon ile ilgilenmektedir. Altı sigmada temel felsefe; performans

düşüklüğünün nedeninin varyasyon kaynaklı olmasıdır.

Sigma, Yunan alfabesinde bir harftir ve aynı zamanda standart sapmanın simgesidir. Önceki bölümlerde ifade edildiği gibi, standart sapma da istatistiksel olarak yayılımın ve değişkenliğin ölçüsüdür.

Altı sigma felsefesinde amaç; bir prosesin 6*standart sapmasını müşterinin istekleri doğrultusunda belirlenen üst ve alt spesifikasyon sınırları içerisine çekilmesini sağlayarak varyasyonu azaltmaktır. 6 sigma’nın mükemmellik hedefi, bir ürünün tasarım ve üretimi veya müşteri merkezli hizmet süreci ile ilgili olarak kusur, hata ve yanlışları milyonda 3,4 ten daha aza indirmeyi başarmaktır.

Altı sigma, bir işletmenin gerekli iyileştirmeleri gerçekleştirmesi için ortaya konulan bilimsel ve uygulamaya yönelik bir metodolojidir. Bilimsel bir yaklaşım olması; sayısal verinin analizi esas almasından, uygulamaya yönelik olması ise bu yaklaşımın finansal sonuçları odaklanıp, müşterinin sesi ile başlamasından kaynaklanmaktadır.

Altı sigmanın odağında, diğer proaktif kalite yönetimi yaklaşımlarında olduğu gibi; sonuçlar üzerine değil nedenleri üzerine eğilme vardır. Bu yaklaşım Şekil 33’de sunulmaktadır.

Şekil 33: Altı Sigma Yönetiminin Odağı

Page 159: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

152

9.2. Bulanık Kümeleme

Altı sigma yönetiminde kullanılan teknik terimlerin en önemlileri bu bölümde açıklanacaktır.

Kritik kalite parametreleri (Critical-To-Quality - CTQ): Bir müşteri için ölçülmesi önemli olan özellik

Hata: Bir birimin (parçanın) müşteri memnuniyetsizliğine neden olan, uygun olmayan bir kalite karakteristiğine sahip olması.

Birim başına hata (DPU – Defect Per Unit): Hataların toplam sayısının ürün birimlerinin toplam sayısına bölünmesi ile hesaplanmaktadır.

Bir Milyon Fırsattaki Hata Sayısı (Defect per million Oportunities DPMO): Altı Sigma prosesinde sıklıkla kullanılan bir kalite metriğidir. Gözlenen hata sayısının fırsat sayısına oranlanıp 1 milyon ile normalize edilmesi ile hesaplanır. Farklı karmaşıklıktaki sistemlerin hataları böylece karşılaştırılabilir.

Başarı oranı (Yield): Toplam birim sayısının, spesifikasyon içindeki birim sayısına oranlanması ile elde edilir.

Toplam süreç verimliliği (Rolled Throughput Yield - RTY): Bir prosesteki

herbir adımın başarı oranının çarpımıdır. Bir seferde ara adımlarda hiçbir hata olmaksızın ürün üretme olasılığını verir.

9.3. Beklenti Maksimizasyonu Algoritması

Altı sigma metodolojisinde, proses performansı “sigma kalite seviyesi” ölçütü ile değerlendirilmektedir. Bu ölçüt, birim başına kusur sayısı, hata/başarısızlık olasılığı, milyonda kusurlu parça sayısı gibi karakteristikler ile doğrudan ilişkilidir.

Altı sigma felsefesi, sigma kalite seviyesinin 6 olmasını amaçlamaktadır. Bu kalite seviyesi, milyon fırsatta 3.4 hata olması diğer bir ifade ile hatasız yüzdesinin %99.99966 olması anlamına gelmektedir. Bu durum; %99 hatasız durumu için verilen aşağıdaki örnekler ile daha detaylı şekilde açıklanabilir:

Bir saatte kaybolan 20000 mektup

Her gün yaklaşık 15 dakika süre ile pis su içilmesi

Her hafta 5000 yanlış ameliyat yapılması

Her ay yaklaşık 7 saat elektrik kesintisi (altı sigma seviyesinde 8.8 sn)

Page 160: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

153

Her gün büyük havalimanlarında piste 2 tane geç veya erken iniş olması, her yılda 200000 adet yanlış reçete yazılması

Bu noktada; sıklıkla karıştırılan bir husus şu şekilde ifade edilebilir. İyileşme varyasyonun azaltılması ifade eder ve çoğu zaman standart sapmayı ifade eden sigmada bir

azalma anlamına gelmektedir. Diğer taraftan, iyileştirme; sigmada azalma anlamına gelirken sigma kalite seviyesinde bir artış anlamına da gelmektedir. Bu nedenle; sigmanın her iki kullanımı arasında net bir ayırım yapılması temeldir.

Sigma kalite seviyesi, başarı oranı, birim başına hata (DPU) ve bir milyon fırsatta hatalı sayısı arasındaki sayısal ilişki aşağıdaki tabloda sunulmaktadır.

Sigma

Kalite

Seviyesi

Hatasız Yüzdesi (Başarı oranı )

Birim başına hata (DPU)

Bir milyon

fırsatta hatalı sayısı (DPMO)

Hata oranı değişimi

6 99.99966% 0.00034% 3.4 68.47

5 99.97674% 0.02326% 233 26.69

4 99.37903% 0.62097% 6210 10.76

3 93.31928% 6.68072% 66807 4.62

2 69.14625% 30.85375% 308538

Tablo 25: Sigma Kalite Seviyesi ve Diğer Ölçütler Arasındaki İlişki

Tablo 25’in son sütunu sigma kalite seviyeleri arasındaki geçişte, hata oranının nasıl değiştiğini ifade etmektedir. Örneğin; bir prosesin sigma kalite seviyesini 2 seviyesinden 3 seviyesine çıkarmak hata sayısında yaklaşık 4.6 katlık bir azalma anlamına gelmektedir. Benzer şekilde, kalite seviyesini 3’den 4’e çıkarmak 10.7 katlık, 4 ‘den 5’e çıkarmak 26.7 katlık, 5’den 6’ya çıkarmak ise 68.5 katlık bir iyileşme sağlamaktadır. Bu durum; daha yüksek kalite seviyelerinde yapılan iyileştirmelerin hatalı sayısını daha yüksek oranda

iyileştirdiğini ortaya koymaktadır. Ancak, yüksek seviyelerde yapılacak bir iyileştirme çok daha büyük çaba ve emek gerektirmektedir. Bu ilişki; Şekil 34’de ortaya konulmaktadır.

Şekil 34: Sigma Kalite Seviyesi ve DPMO arasındaki ilişki

Page 161: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

154

Sigma kalite seviyesi ile kalite maliyeti arasındaki ilişki de aşağıdaki tabloda gösterilmektedir. Bu tablodan da görülebileceği gibi, altı sigma kalite seviyesinin sağlanması, işletmenin rekabet avantajı sağlaması açısından kritik önem taşımaktadır.

Sigma

Hata oranı

Kalite Maliyeti Kuruluşun durumu

6 3.4 < ciro’nun %10 Dünya Şirketi

5 233 Ciro’nun %10 - %15

4 6210 Ciro’nun %15 - %20 Ortalama şirket

3 66807 Ciro’nun %20 - %30

2 308537 Ciro’nun %30 - %40 İflas (rekabet edemez) Tablo 26: Sigma Seviyesi ve Kalite Maliyeti Arasındaki İlişki

Bir prosenin sigma kalite seviyesinin nasıl hesaplanacağını ortaya koymadan önce, altı sigmanın istatistiksel alt yapısı şu şekilde özetlenebilir:

Sigma kalite seviyesi hesaplamaları, istatistiksel kalite kontroldeki birçok uygulamaya benzer şekilde, normal dağılım varsayımını esas almaktadır. Bir kalite özelliği için ortalama değer olsun, bu ortalama değerden 3 uzaklıkta kontrol limitleri yer alacaktır. Kalite özelliği için belirlenen alt ve üst spesifikasyon limitleri LSL ve USL ile ifade edilsin. Bu

kalite özelliği için tolerans değeri; USL-ASL ile ifade edilebilir ve normal dağılım hesaplamaları kullanılarak prosesin alt ve üst spesifikasyon limitlerinin dışında parça üretme oranı (hatalı oranı) hesaplanarak sigma kalite seviyesi değerine ulaşılabilir. Altı sigma yaklaşımının temel amacı; spesifikasyon limitlerinin (ASL ve ÜSL), proses ortalamasından en az 6 uzaklıkta olmasıdır. Bu durum; Şekil 35’de sunulmaktadır.

Şekil 35: Altı Sigma Felsefesinin İstatistiksel Altyapısı

Altı sigma yöntemi ile ilgili Motorola deneyimleri sonucu uzun vadede Şekil 36’daki

gibi proses ortalamasının spesifikasyon sınırları orta noktasından (tolerans aralığı ortasından) 1.5 kadar sapabildiği, dolayısıyla 6 ile milyonda 3.4 kusurluya ulaşılabileceğini ortaya koymuştur.

Page 162: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

155

Şekil 36: Proses Ortalamasının 1.5 Kayması

Bu bilgiler doğrultusunda; Sigma kalite seviyesinin nasıl hesaplanacağı ile ilgili aşağıdaki örnek uygulamalar incelenebilir.

Örnek Problem 9.1:

Bir pastanenin 200 adet üretmiş olduğu pastanın 2 adedinin hatalı (yanık, tatsız vb.) olması durumunda pasta üretim prosesinin sigma kalite seviyesini hesaplayınız?

Sigma kalite seviyesinin hesaplanması için; ilk olarak, prosesin hatasız olma olasılığının bulunması gerekmektedir. Hatalı pasta üretme olasılığı 2/200=0.01 (%1) olarak ve buna bağlı şekilde prosesin hatasız pasta üretme olasılığı; 1-0.01=0.99 (%99) olarak

bulunabilir.

İkinci aşamada; normal dağılım tablosundan 0.99 değerine karşılık gelen standart normal değişken (Z) değerinin bulunması gerekmektedir. Ek-A’de verilen tablo

kullanıldığında, bu değer 2.33 olarak bulunabilir. Motorala örneğinde belirtildiği gibi; proses

ortalamasındaki 1.5’lık kaymadan dolayı 2.33 değerine 1.5 eklenmelidir. Bu doğrultuda; prosesin sigma kalite seviyesi 3.83 olarak bulunabilir.

Örnek Problem 9.2:

Aylık periyotta 20475 adet sevkiyattan 120 adetini hatalı olarak (yanlış ürün gönderimi, eksik/fazla ürün gonderimi) gerçekleştiren bir lojistik sevkiyat sürecinin sigma kalite seviyesi nedir?

Prosesin hatasız sevkiyat gerçekleştirme olasılığı; 1-(120/20475)=0.9941 (%99.41) ve

bu değere karşılık gelen standart normal değişken değeri 2.52 olarak bulunur. Bu doğrultuda prosesin sigma kalite seviyesi 2.52+1.5=4.02 olarak hesaplanır.

9.4. Kümeleme Kalitesinin Değerlendirilmesi

Altı sigma, ilk olarak özel sektör işletmelerinde uygulanmış, daha sonra akademik dünyada yer bulmuştur. Altı sigma, Motorola tarafından ortaya konan bir kavramdır. Kalite problemleri incelendiğinde aşağıdaki saptamalar yapılmıştır.

Page 163: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

156

• Bölümler arasında işbirliği yok

• Müşteri gereksinimleri dikkate alınmamakta

• Eğitim olmaksızın başlayan yeni çalışanlar, işletme kültürünün zayıflaması

• Sınırlı bir sigmaya sahip olduğunun farkında olmama

Bu doğrultuda; Altı sigmanın tarihsel gelişimi aşağıdaki şekilde özetlenebilir:

1978 Düşük kalite!!! Motorola, TV satışı gerçekleştiriyor. Niçin kalite kötü sorusu?

Pazar payını kaybetme.

1980 Kurumsal kalite çalışanı görevlendirildi. Kalite güvence departmanının sorumluluğu değiştirildi.

1981 Eğitim merkezi kuruldu.

1985 Birim başına toplam kusur ölçülmeye başlandı.

1987 Altı Sigma programını işletme benimsedi, Altı sigma hedefinin 1992’de

başarılması öngörüldü.

1988 Motorola, kurumsal seviyede Malcolm Baldridge ödülünü kazandı.

1990 Altı sigma araştırma enstitüsü kuruldu.

1992 Motorola, Kodak, IBM ve Digital’de gerçekleştirilen uygulamalarda Altı sigma araştırma merkezi tarafından Siyahkuşak altyapısı geliştirildi.

1993 Motorola 40000 yeni çalışan aldı ve 40 saatlik kalite eğitim programı gerçekleştirdi. Ortalama %27 gelir artışı sağlandı.

1994 Motorola kablosuz telefon pazarının %60’ına sahip oldu. Altı sigma akademisi

oluşturuldu.

1998 Motorola kablosuz telefon pazarının %34’üne sahip oldu. Gelir artışı 5%

düzeyinde gerçekleşti.

1995 GE Altı sigma uygulamalarının başlaması.

1997 400 m$ eğitim maliyeti, 600 m$ getiri. Başlangıçta 3 olan kalite düzeyi 22 ayda 3.5, sonrasında 5.6. Kalite maliyetlerinin satışların %20’sinden %10’una düşmesi.

1998 Çalışanların performans değerlendirmesinde 6 kullanımı.

Motorola kaliteyi zor yoldan – büyük zararlar, rekabetçi konumun kaybı, iflasın eşiğine gelme vb. – öğrenen pek çok şirketten sadece biridir. Ancak Motorola’nın buöğrenme

Page 164: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

157

sonrası verimlilik, üretkenlik, karlılık, müşteri tatmini gibi konularda sağladığı olağanüstü başarılaronu diğerlerinden ayırmaktadır. Şirketin 1988 yılındaki Genel Müdürü Bob Galvin’in, Beyaz Sarayda Malcolm Baldrige Kalite Ödülü’nü alırken, bu başarıyı Altı Sigma olarak adlandırdıkları bir yaklaşıma borçlu olduklarını söylemesi, Altı Sigma’yı çok sayıda şirketin ilgi odağı haline getirmiştir.

Bu doğrultuda gerçekleştirilen altı sigma uygulamalarını Anthony (2010) ve Montgomery ve Woodall (2008) 3 nesile ayırmıştır.

1. Nesil – Esas olarak üretimde, varyasyonun azaltılmasına ve hataların elimine edilmesine odaklanılır. 1987-1994 yılları, Motorola örneği.

2. Nesil – 1.nesil’e ek olarak ürün tasarımı iyileştirme ve maliyetleri azaltma çabalarında varyasyonun azaltılması ve hataların ortadan kaldırılması arasındaki ilişkiye odaklanma. 1994-2000 yılları, General Electric örneği.

3. Nesil – 2000’li yıllardan bu yana ek olarak organizasyonlar ve paydaşlar için değer yaratma üzerine odaklanma

Altı Sigma projelerinin yönetimi için bir proje ekibi oluşturulmaktadır. Proje ekibi temel olarak; şampiyon, uzman kara kuşak, kara kuşak, yeşil kuşak ve sarı kuşaklardan oluşmaktadır. Bu farklı seviyeler, proje içerisindeki sorumlulukları, aldıkları eğitim ve bilgi birikimleri ile birbirlerinden ayrılmaktadırlar.

Proje ekibinde hiyerarşik yapıyı öngören altı sigma proje üyelerinin rol ve sorumlulukları aşağıdaki şekilde özetlenebilir:

Kalite konseyi (Yürütme Kurulu)

Altı Sigma’nın nihai başarısı için güdülemeyi, yönlendirmeyi ve gerekli düzenlemeleri sağlar.

1) Altı sigma yönetimini incelemek

2) Altı sigma projeleri ve işletme amaçları arasındaki bağı kurmak

3) Altı sigma projelerinin ilerlemesini sürekli olarak incelemek

İcra Kurulu Üyesi

Bir organizasyonun üst yönetimini oluştururlar.

1) Organizasyon boyunca Altı Sigma yayılımı

2) Altı sigma portföyünü önceliklendirme ve yönetme

3) Altı Sigma projelerine şampiyonları, siyah ve yeşil kuşakları atama

Page 165: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

158

4) Altı Sigma yönetimi için engelleri ortadan kaldırma

5) Altı Sigma yönetimi için kaynakları sağlama

6) Altı Sigma eğitim planlarını hazırlamak

7) Proje seçimi ve takımlarının oluşturulmasında şampiyona yardımcı olmak

Şampiyon

Altı Sigma projelerinin uygulanmasında ve yürütülmesinde çok aktif olup bir sponsorluk ve liderlik rolü üstlenir. Proje seçimini gerçekleştirirler.

1) Organizasyonel dashboardlar üzerinde projeyi belirlemek

2) Proje takımı ve yönetim kurulu arasında iletişim ağını sağlamak

3) Projeler için kaynak bulmak

4) Ekibi üst yönetim önünde temsil etmek ve ekibin savunuculuğunu yapmak

5) Yönlendirme ve rehberlik sağlayarak takımın proje üzerine odaklanmasını sağlamak ve bunu korumak

6) Projede Altı Sigma metotlarının ve araçlarının kullanılmasını güvence altına almak, engelleri kaldırmak

Uzman Kara Kuşak

Altı Sigma prosesinin sorumlusu olarak bir liderlik rolü alır ve iş birimi yöneticilerine ya da yönetime danışmanlık yapar. Altı sigma araçlarını çok iyi bilir. Teknik danışman olarak çalışır.

1) Proje ekiplerine başta istatistik yöntemlerin seçimi ve kullanımı olmak üzere her konuda teknik destek sağlamak

2) Şampiyonlara projelerin tamamlanma sürelerinin belirlenmesinde yardımcı olma

3) Operasyonların ve işlem-bazlı proseslerin her ikisinde Altı Sigma uygulama

4) Yeşil kuşak ve Kara kuşaklara mentörlük yapma, eğitim verme

Kara Kuşak

Tam zamanlı bir değişim temsilcisi ve iyileştirme takımının lideridir. Kara kuşaklar aşağıdaki özelliklere sahip olmalıdır.

1) Teknik ve yönetimsel proses iyileştirme/yenilik yetenekleri

Page 166: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

159

2) Bireylerin ve takımların psikolojisini anlama

3) Üst yönetim tarafından gözü korkutulmayan

4) Müşteri odaklı düşünebilen

5) Altı sigma araçlarını etkin şekilde kullanma

Kara kuşakların sorumlulukları:

1) Projenin ilerlemesi hakkında proses sahibi ve şampiyon ile iletişim

2) İyileştirme projelerine belirleme ve yönetme

3) Takım üyelerine deney tasarlama ve analiz yardımı, iş dağılımı

4) Proje takım üyelerine takım fonksiyonları ve araçlar ile ilgili eğitim sağlama

5) Yeşil kuşaklara önemli projelerde koçluk yapma

Kara kuşaklar, uzman kara kuşak ya da dış eğitim kuruluşları tarafından 4 ay süreli eğitime tabi tutulurlar. Bir hafta eğitim, üç hafta uygulama olmak üzere, dört kez tekrarlanan, toplam dört aylık süre boyunca proje üzerinde aday olarak çalışır. Projeyi/ projeleri başarı ile tamamlayan aday uzman kara kuşak unvanını alır.

Yeşil kuşak

Projelerde yarı zamanlı çalışan bireylerdir. Karmaşık iyileştirme projelerin bir takım üyesi olarak ya da daha basit projelerin proje lideri olarak çalışırlar. Yeşil kuşakların sorumlulukları:

1) Projenin şampiyonu ile proje amacının tanımlamak & gözden geçirmek

2) Projenin tüm evreleri boyunca takımın yükünü hafifletmek

3) Projenin tüm evreleri boyunca veri analizi (İki haftalık eğitim)

4) Projenin tüm evreleri boyunca Altı Sigma araçlarının ve metodlarının kullanımı ile ilgili takım üyelerini eğitmek

Proses Sahibi

Bir prosesin sahibidir. Proses sahibi, alanı ile ilişkili tüm Altı Sigma projelerine dahil

edilmelidir. Proses sahibinin sorumlulukları:

1) En iyi uygulama metodlarını takip etmeleri ve geliştirmeleri için çalışanları yetkilendirmek ve izin vermek

Page 167: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

160

2) Altı Sigma projesinin tamamlanmasından sonra iyileştirilmiş prosesi kabul etmek ve yönetmek

3) Prosesin nasıl çalıştığını, prosesin yeterlililiğini ve organizasyondaki diğer prosesler ile prosesin ilişkisini anlamak

Altı sigma projelerinin uygulanmasında DMAIC olarak adlandırılan bir metodoloji uygulanmaktadır. Bu metodoloji; Define (Tanımlama), Measure (Ölçme), Analysis (Analiz),

Improvement (İyileştirme) ve Control (Kontrol) adımlarından oluşmaktadır. Bu metodolojide;

tanımlama aşamasında problemin kapsamının ne olduğu, ölçme aşamasında kusurların sıklığının ne olduğu, analiz aşamasında kusurların nerede ve niçin oluştuğu, iyileştirme aşamasında prosesin nasıl iyileştirileceği ve kontrol aşamasında ise iyileştirilmiş prosesin nasıl sabitleneceği sorularına yanıt aranmaktadır. DMAIC metodolojisi, Şekil 37’de

özetlenmektedir.

Şekil 37: Altı Sigma DMAIC Metodolojisi

Altı sigma proje ekini eğitimleri de DMAIC evrelerine paralel şekilde gerçekleştmekte. Altı sigma yayılım evresi sonrasındaki haftalar, ölçüm evresi, analiz evresi, iyileştirme evresi ve kontrol evresinden oluşmaktadır.

Bu metodolojinin tanımlama evresinde; süreç haritaları, beyin fırtınası ve kano modeli gibi tekniklerden faydalanılır. Ölçme evresinde sebep-sonuç diyagramlarıi hata türü etkileri analizi, tanımlayıcı istatistikler, pareto analizi, proses yeterlilik indekslerinin hesaplanması ve ölçüm sistemleri analizi gibi kalite yönetim araçları ile proje ilerletilir. Analiz evresinde;

ANOVA analizinden, hipotez testlerinden ve diğer istatistiksel testlerden yararlanılır. İyileştirme evresinde ise çoklu regresyon ve deneysel tasarımı gibi amalizler kullanılırken, kontrol evresinde ise kalite kontrol planlarından ve istatistiksel proses kontrol araçları kullanılır.

Page 168: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

161

Bu Bölümde Ne Öğrendik Özeti

Altı sigma, hammaddeden son ürüne bir işletmedeki her türlü kusurların ve hataların ortadan kaldırılması, kalitenin iyileştirilmesi ve operasyonların düzenlenmesi yoluyla karlılığın önemli ölçüde artmasına olanak sağlayan bir metodolojidir. Altı Sigma metodolojisi; istatistiksel hesaplamalara dayanan, proses değişkenlerine odaklı, proses performansı hakkında bilgi sağlayan bir kalite yönetim aracıdır. Diğer taraftan, altı sigma müşterinin sesini esas almaktadır.

Altı sigma projelerinin uygulanmasında DMAIC olarak adlandırılan bir metodoloji uygulanmaktadır. Bu metodoloji; Define (Tanımlama), Measure (Ölçme), Analysis (Analiz), Improvement (İyileştirme) ve Control (Kontrol) adımlarından oluşmaktadır. Altı sigma; proses yeterliliğinin değerlendirilmesi için milyon fırsatta hata sayısı ve sigma kalite seviyesi gibi ölçütler önermektedir. Hedeflenen kusur sayısı; milyon fırsatta 3.4’tür.

Altı Sigma projelerinin yönetimi için bir proje ekibi oluşturulmaktadır. Proje ekibi temel olarak; şampiyon, uzman kara kuşak, kara kuşak, yeşil kuşak ve sarı kuşaklardan oluşmaktadır. Bu farklı seviyeler, proje içerisindeki sorumlulukları, aldıkları eğitim ve bilgi birikimleri ile birbirlerinden ayrılmaktadırlar.

.

Page 169: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

162

Bölüm Soruları

1) Altı sigma projelerinde yarı zamanlı çalışan ve ağırlıklı olarak veri analizine odaklanan proje üyesi aşağıdakilerden hangisidir?

a) Şampiyon

b) Uzman siyah kuşak

c) Siyah kuşak

d) Yeşil kuşak

e) Proses sahibi

2) Altı sigma yönetim metodolojisi evreleri aşağıdakilerin hangisinde doğru

olarak sıralanmıştır?

a) Tanımlama-Analiz-Ölçme-Kontrol-İyileştirme

b) Tanımlama-Kontrol-Ölçme-Analiz-İyileştirme

c) Tanımlama-Ölçme-Analiz-Kontrol-İyileştirme

d) Tanımlama-Analiz-Ölçme-İyileştirme-Kontrol

e) Tanımlama-Ölçme-Analiz-İyileştirme-Kontrol

3) Altı sigma kalite seviyesi, milyon fırsatta kaç hata yapılmasını hedeflemektedir?

a) 344

b) 34

c) 3.4

d) 0.34

e) 0.034

Page 170: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

163

4) Bir işletmenin lojistik operasyonlarına yönelik bir altı sigma projesi yürütülmektedir. Bu proje kapsamında, mevcut sevkiyat performansı ölçülmek istenmiş ve toplanan veriler sonucunda 20000 adet günlük sevkiyatın 100 adetinin hatalı olduğu belirlenmiştir. Bu değerlere gore, prosesin sigma kalite seviyesini hesaplayınız?

a) 2.58

b) 3.08

c) 3.58

d) 4.08

e) 4.58

5) Bir prosesteki ardışık 3 operasyonun başarı oranları (ilk seferde doğru yapma) sırasıyla %93, %87 ve %98’dir. Bu prosesin toplam süreç verimliliği nedir?

a) % 74

b) % 79

c) % 83

d) % 87

e) % 98

Cevaplar

1)d, 2)e, 3)c, 4)d, 5)b

Page 171: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

164

10. BİRLİKTELİK KURALLARININ TEMEL KAVRAMLARI

Page 172: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

165

Bu Bölümde Neler Öğreneceğiz?

10.1. Birliktelik Kurallarına Giriş ve Yaygın Desen Analizi

10.2. Birliktelik Kurallarının Keşfi ve Destek ve Güven Hesaplamaları

10.3. Nicel Birliktelik Kuralları

10.4. İlgi Çekicilik Ölçüleri

Page 173: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

166

Bölüm Hakkında İlgi Oluşturan Sorular

1) Bir prosesin müşteri spesifikasyonlarına uygun ürün ya da hizmet üretme yeteneği nasıl tespit edilir?

2) Bir prosesin yeterliliğini ölçmek için kullanılan ölçütler nelerdir?

3) Proses yeterlilik analizi nasıl gerçekleştirilir ve elde edilen sonuçlar nasıl yorumlanır?

Page 174: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

167

Bölümde Hedeflenen Kazanımlar ve Kazanım Yöntemleri

Konu Kazanım Kazanımın nasıl elde edileceği veya geliştirileceği

Proses Yeterliliği ve Sigma Kalite Seviyesi

Sigma kalite seviyesi ve

proses yeterliliği arasındaki ilişkiyi kavramak.

Teorik anlatım

Cp, Cpk ve Cpm Proses

Yeterlilik İndeksleri Bir proses için Cp, Cpk ve Cpm yeterlilik indekslerini

hesaplayabilmek.

Teorik anlatım

Proses Yeterlilik Analizi

Metotları

Proses yeterlilik analizinin

adımlarını öğrenmek. Örnek uygulamalar ve problemler

Page 175: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

168

Anahtar Kavramlar

Proses Yeterlilk Analizi

Cp ve Cpk indeksi

Cpm indeksi

Page 176: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

169

Giriş

Bir prosesi sadece sigma kalite seviyesi ile değerlendirmek yeterli değildir. Bu bölümde, bir prosesin yeterliliğini değerlendirmek için kullanılan indeksler açıklanacak ve proses yeterlilik analizinin adımları örnek problemler ile birlikte sunulacaktır.

Page 177: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

170

10.1. Birliktelik Kurallarına Giriş ve Yaygın Desen Analizi

Yeterlilik indeksleri, müşteri gereksinimleri ile ilişkili şekilde proseslerin ne kadar iyi performans gösterdiklerinin değerlendirilmesinde yaygın şekilde kullanılmaktadır. Prosesin müşteri ihtiyaçlarına göre belirlenmiş spesifikasyon limitlerine göre değerlendirilmesi yeterlilik indeksleri ile gerçekleştirilir. Bir önceki bölümde açıkladığımız, sigma kalite seviyesi prosesin değerlendirilmesinde tek başına yeterli değildir. Bu durumu aşağıdaki örnek ile açıklayalım:

Hedef değerin 490 gr ve spesifikasyon limitlerinin 485-495 gr arasında olması gerektiğini belirten bir müşteri için aynı tip şişe üreten 4 proses olduğunu varsayalım. Prosesten alınan düzenli örnekler ile kontrol diyagramları oluşturulduğunda prosesin stabil (varyasyonun özel nedeni yok) olduğunu varsayalım. Proseslerin ortalamaları ve standart sapmaları aşağıdaki tablodaki gibidir:

Üretim Hattı Ortalama Standart Sapma

Hat 1 490 1.5

Hat 2 492 1.5

Hat 3 490 3.0

Hat 4 487 0.9

Tablo 27: Sigma Seviyesi ve Kalite Maliyeti Arasındaki İlişki

Üretim hatlarının milyonda hata sayıları ve sigma kalite seviyeleri verilen ortalama, standart sapma ve spesifikasyon limiti değerlerine göre normal dağılım tablosu kullanılarak hesaplanabilir. Tüm üretim hatları için spesifikasyon dışı ürün üretme olasılıkları; alt spesifikasyon limiti olan 485 gr’dan daha düşük ve üst spesifikasyon limiti olan 495 gr’dan daha büyük parça üretme olasılıklarının toplamına eşittir. Tablo 28’de hesaplama sonucu elde edilen değerler yer almaktadır.

Üretim Hattı Ortalama Standart Sapma ppm Sigma seviyesi

Hat 1 490 1.5 858 4.64

Hat 2 492 1.5 22752 3.50

Hat 3 490 3.0 95580 2.81

Hat 4 487 0.9 13134 3.72

Tablo 28: Şişe Üretimi Hat Performansları

Sigma kalite seviyesi, proses performansını tek bir değerde özetlemektedir. Yalnızca sigma kalite seviyesini kullanarak bir prosesin değerlendirilmesi tehlikelidir. Yalnızca sigma kalite seviyesine güvenme, verilen örnekteki Hat 4’ün yüksek potansiyelli performansını görmemizi engellemektedir. Proses yeterlilik indeksleri, sigma kalite seviyesi gibi müşteri gereksinimlerine göre proses performansını tek bir değerde özetlemektedir. Proses yeterlilik

indeksleri, prosesin sesinin müşterinin sesi ile uyumunu göstermektedir.

Page 178: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

171

10.2. Birliktelik Kurallarının Keşfi ve Destek ve Güven Hesaplamaları

Proses yeterlilik için kullanılan en basit indeks olan Cp, müşteri tolerans aralığının doğal tolerans aralığına oranı olarak tanımlanır ve şu şekilde hesaplanır:

6p

Müşteri toleransı USL ASLC

Doğal tolerans

(74)

Örneğin; Hat 1 için Cp değeri (495-485)/(6*1.5) eşitliğinden 1.11 olarak hesaplanır. Benzer şekilde hesaplama yapılırsa Hat 2, Hat 3 ve Hat 4 için Cp değerleri sırasıyla 1.11, 0.56 ve 1.85 değerleri elde edilir. Burada dikkat çeken önemli bir nokta, Hat 1 ve Hat 2’nin, farklı milyonda kusur sayıları ve sigma kalite seviyelerine rağmen, aynı proses yeterlilik

indekslerine sahip olmasıdır. Bunun nedeni; Cp indeksinin prosesin merkezi konumunu

dikkate almamasıdır. (Hat 2’nin ortalaması hedef değerde değil). Bu noktada, Cp indeksine ek

olarak, prosesin merkezi konumunu dikkate alan Cpk indeksi ortaya konulmuştur. Prosesin

hem merkezi konumunu hem de yayılımını dikkate alan Cpk indeksi aşağıdaki şekilde hesaplanmaktadır.

min , min ,3 3

pk palt püst

ASL USLC C C

(75)

Örneğin; Hat 2 için Cpk proses yeterlilik indeksi aşağıdaki şekilde hesaplanabilir:

492 485 495 492 7 3min , min , 0.67

3(1.5) 3(1.5) 4.5 4.5pkC

Diğer üretim hatları için de benzer şekilde Cpk indeksleri hesaplanırsa; Hat 1 için 1.11, Hat 3 için 0.56 ve Hat 4 için 0.74 değeri elde edilir. Üretim hatlarına ilişkin tüm değerler aşağıdaki tabloda özetlenmektedir.

Üretim Hattı Ortalama Std. Sapma SQL Cp Cpk

Hat 1 490 1.5 4.64 1.11 1.11

Hat 2 492 1.5 3.50 1.11 0.67

Hat 3 490 3.0 2.81 0.56 0.56

Hat 4 487 0.9 3.72 1.85 0.74

Tablo 29: Üretim Hatalarının Proses Yeterlilik İndeksleri

Hedef değer, ASL ve ÜSL’nin tam ortasında ve proses ortalaması hedef değere eşit olduğunda Cp = Cpk olur ve proses merkezileşmiştir. Proses yeterlilik indeksleri olan Cp ve Cpk

ile ilgili aşağıdaki tespitler yapılabilir:

1) Cp = Cpk ise proses merkezidir.

2) Cpk değeri, Cp değerinden her zaman için küçük ya da eşittir.

Page 179: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

172

3) Cp 1 ise, proses yeterli değildir.

4) Cpk 1 ise, proses spesifikasyonlara uygun parça üretmemektedir.

5) Proses merkezi değiştiğinde, Cp değeri değişmeyecektir.

6) Cpk =0 ise, ortalama spesifikasyon limitlerine eşittir.

7) Negatif Cpk değeri ortalamanın spesifikasyon limitlerinin dışında olduğunu göstermektedir.

8) Cpk 1 ise, proses spesifikasyonlara uygun ürün üretmektedir.

Proses yeterliliği açısından Cp ve Cpk değerleri için belirlenen minimum değerler, Tablo 30’da yer almaktadır. Bu değerler; prosesin tek yönlü (sadece alt ya da üst spesifikasyon limiti) ya da çift yönlü spesifikasyon limiti kullanmasına göre farklılık göstermektedir.

Proses Tipi İki Yönlü Tek Yönlü

Mevcut süreç 1.33 1.25

Yeni süreç 1.50 1.45

Güvenlik, kuvvet veya kritik parametreler (mevcut) 1.50 1.45

Güvenlik, kuvvet veya kritik parametreler (yeni) 1.67 1.60

Tablo 30: Proses Yeterlilik İndeksleri için Önerilen Minimum Değerler

Page 180: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

173

Cp Cpk ppm SQL

0.50 0.50 133614 1.5

0.60 0.60 71861 1.8

0.70 0.70 35729 2.1

0.80 0.80 16395 2.4

0.90 0.90 6934 2.7

1.00 1.00 2700 3.0

1.10 1.10 967 3.3

1.20 1.20 318 3.6

1.30 1.30 96 3.9

1.40 1.40 27 4.2

1.50 1.50 6.8 4.5

1.60 1.60 1.6 4.8

1.70 1.70 0.34 5.1

1.80 1.80 0.067 5.4

1.90 1.90 0.012 5.7

2.00 2.00 0.0003 6.0

Tablo 31: Proses Yeterlilik İndeksleri ile Sigma Kalite Seviyesi Arasındaki İlişki

Merkezileşmiş bir proseste Cp ve Cpk indeksleri ile milyon fırsattaki hata sayısı ve sigma kalite seviyesi arasındaki ilişki Tablo 31’de sunulmaktadır.

Cp ve Cpk indeksleri prosesin hedef değere göre konumunu değerlendirmemektedir. Cpk, iki yönlü spesifikasyon limiti söz konusu olduğunda, alt ve üst spesifikasyon limitine göre proses ortalamasının hedef değere göre konumu ile ilgili herhangi bir ölçüm yapmamaktadır. Bu noktada; Cpm indeksi önerilmiştir. Bu indeks değeri aşağıdaki şekilde hesaplanmaktadır.

2 26 ( )pm

USL LSLC

T

(76)

10.3. Nicel Birliktelik Kuralları

Proses yeterlilik indekslerinin hesaplanması için s-metodu ya da R-metodundan biri

kullanılır. s metodunun adımları aşağıdaki şekildedir:

1) Herbir alt grubun standart sapmasını (si) hesapla.

2) Alt grupların standart sapmalarının ortalamasını aşağıdaki eşitlik ile belirle.

Page 181: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

174

1

g

ii

s

sg

(77)

3) Popülasyonun standart sapmasını aşağıdaki eşitlik ile tahmin et. Bu eşitlikte c4

değeri kontrol faktörleri tablosundan elde edilen bir değerdir.

0

4

s

c (78)

4) Proses yeterlilik indekslerini hesapla (Cp, Cpk ve Cpm).

R metodunun adımları ise şu şekilde sıralanabilir:

1) Herbir alt grubun genişliğini (Ri) hesapla.

2) Alt grupların genişliklerinin ortalamasını aşağıdaki eşitlik ile belirle.

1

g

ii

R

Rg

(79)

3) Popülasyonun standart sapmasını aşağıdaki eşitlik ile tahmin et. Bu eşitlikte d2

değeri kontrol faktörleri tablosundan elde edilen bir değerdir.

0

2

R

d (80)

4) Proses yeterlilik indekslerini hesapla (Cp, Cpk ve Cpm).

Örnek Problem 10.1:

Bir vardiyada üretilen ürünlerden, örnek büyüklüğü 5 olacak şekilde 10 alt grup alınarak tartılmış ve gram olarak ağırlıkları aşağıdaki tablodaki gibi kaydedilmiştir. Başlangıçta; üst spesifikasyon limiti 26 gr. ve alt spesifikasyon limiti 23 gr. olarak

belirlenmiştir. Bu verilere göre, prosesin yeterlilik indekslerini hesaplayarak, analiz ediniz?

Alt Grup No X1 X2 X3 X4 X5

1 24.7 25.1 25.8 25.9 25.2

2 24.8 24.9 25 25.3 25.7

3 25.5 25.7 25.4 25.6 25.1

4 24.5 24.9 25.2 25.7 25.8

5 25 25.3 25.6 24.7 24.4

6 25.3 25.8 24.9 24.8 25

7 24.9 24.6 24.8 25.3 25.8

8 25.5 25.9 25.1 25.3 25.6

9 25.2 25.4 25.7 25.6 25.1

10 24.8 25.7 25.4 25.3 25

Tablo 32: Ürün Ağırlık Verisi

Page 182: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

175

İlk olarak, popülasyonun standart sapmasının tahmini için alt grup genişliklerinin hesaplanması gerekmektedir. Daha sonra, alt grupların genişliklerinin ortalaması alınmalıdır. Hesaplanan bu değerler aşağıdaki tablodaki gibidir.

Alt Grup No X1 X2 X3 X4 X5 Ri Ort.

1 24.7 25.1 25.8 25.9 25.2 1.2 25.34

2 24.8 24.9 25 25.3 25.7 0.9 25.14

3 25.5 25.7 25.4 25.6 25.1 0.6 25.46

4 24.5 24.9 25.2 25.7 25.8 1.3 25.22

5 25 25.3 25.6 24.7 24.4 1.2 25

6 25.3 25.8 24.9 24.8 25 1 25.16

7 24.9 24.6 24.8 25.3 25.8 1.2 25.08

8 25.5 25.9 25.1 25.3 25.6 0.8 25.48

9 25.2 25.4 25.7 25.6 25.1 0.6 25.4

10 24.8 25.7 25.4 25.3 25 0.9 25.24

Tablo 33: Alt Grup Genişliklerinin Hesaplanması

1 1.2 0.9 ... 0.6 0.9 9.70.97

10 10

g

ii

R

Rg

X =25.34 25.14 ... 25.4 25.24

25.2510

10.4. İlgi Çekicilik Ölçüleri

Popülasyon standart sapmasının tahmini için; gerekli olan d2 değeri Ek-B’de yer alan kontrol faktörleri tablosundan elde edilir. Bu değer n=5 için 2.326 olarak bulunur. Böylece, popülasyonun standart sapması aşağıdaki gibi hesaplanabilir:

0

2

0.970.417

2.326

R

d

Bu bilgiler doğrultusunda Cp ve Cpk yeterlilik indeksleri şu şekilde hesaplanır:

0

26 231.20

6 6(0.417)p

USL ASLC

25.25 23 26 25.25min , min , min[1.80,0.60] 0.60

3 3 3(0.417) 3(0.417)pk

ASL USLC

Bu değerlere göre; Cpküst değeri 1’den küçük olduğundan, Cpk değeri de 1’den küçüktür. Bu nedenle; proses yetersiz olarak değerlendirilir. Proses yeterlilik indeksleri ve

Page 183: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

176

proses değerlerinin, spesifikasyon limitlerine göre konumunu içeren histogram aşağıdaki şekilde sunulmaktadır.

Şekil 38: Proses yeterlilik analizi sonuçları

25.825.224.624.023.4

LSL USL

LSL 23

Target *

USL 26

Sample Mean 25.252

Sample N 50

StDev (Within) 0.417025

StDev (O v erall) 0.39705

Process Data

C p 1.20

C PL 1.80

C PU 0.60

C pk 0.60

Pp 1.26

PPL 1.89

PPU 0.63

Ppk 0.63

C pm *

O v erall C apability

Potential (Within) C apability

Within

Overall

Page 184: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

177

Bu Bölümde Ne Öğrendik Özeti

Proses yeterlilik analizi, bir prosesin müşteri spesifikasyonlarına uygun parça üretme yeteneğini incelemektedir. Bu noktada; prosesin potansiyel yeterliliğini ortaya koyan Cp

indeksi müşteri tolerans aralığının doğal tolerans aralığına oranını ifade etmektedir. Cp

indeksi prosesin merkezi konumunu dikkate almadığı için Cp indeksine ek olarak, prosesin

hem merkezi konumunu hem de yayılımını dikkate alan Cpk indeksi ortaya konulmuştur. Bu

indekslere ek olarak, proses ortalamasının hedef değere göre konumunu dikkate alan Cpk

indeksi de proses yeterliliğinin değerlendirilmesinde kullanılmıştır.

Bu bölümde, bu yeterlilik indekslerinin nasıl hesaplanacağı ve sonuçların nasıl yorumlanacağı örnek uygulamalar ile sunulmuş ve proses yeterlilik analizinin adımları detaylandırılmıştır.

Page 185: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

178

Bölüm Soruları

İstatististiksel olarak kontrol altında olan bir süreç X = 199 ve R =3.5 ortalama ve

genişlik değerlerine sahiptir. Kontrol diyagramı için alt grup büyüklüğü 4’tür (n=4). Kalite

özelliği için spesifikasyon limitleri 2008’dir ve normal olarak dağılmıştır.

1) Bu sürecin Cp yeterlilik indeksi nedir?

a) 0.97

b) 1.17

c) 1.37

d) 1.57

e) 1.77

2) Bu sürecin Cpk yeterlilik indeksi nedir?

a) 0.97

b) 1.17

c) 1.37

d) 1.57

e) 1.77

3) Bir prosesin ortalaması, müşteri spesifikasyon limitinin dışında ise Cpk

indeksinin değeri aşağıdakilerden hangisi olabilir?

a) -0.5

b) 0

c) 0.5

d) 1

e) 2

Page 186: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

179

4) Bir vardiyada üretilen ürünlerden, örnek büyüklüğü 5 olacak şekilde 10 alt grup

alınarak tartılmış ve gram olarak ağırlıkları aşağıdaki tablodaki gibi kaydedilmiştir. Başlangıçta; üst spesifikasyon limiti 26 gr. ve alt spesifikasyon limiti 23 gr. olarak belirlenmiştir. Bu verilere göre, prosesin Cpk yeterlilik indeksi nedir?

Alt Grup No X1 X2 X3 X4 X5

1 24.1 24.1 24.4 24.2 24.1

2 24.4 24.3 24.7 24.5 24.1

3 24.2 24.3 24.3 24.1 24.4

4 24.3 24.3 24.2 24.2 24.3

5 24.4 24.9 24.7 24.2 24.4

6 24.7 24.3 24.3 24.5 24.2

7 24.6 24.4 24.7 24.6 24.4

8 24.3 24.7 24.7 24.3 24.6

9 24.5 24.2 24.8 24.5 24

10 24.6 24.7 24.7 24.3 24.1

a) 1.43

b) 1.73

c) 2.13

d) 2.53

e) 2.93

5) Proses yeterlilik indeksleri ile ilgili olarak aşağıdaki ifadelerden hangisi yanlıştır?

a) Cp değeri, Cpk değerinden her zaman için küçük ya da eşittir.

b) Cpk =0 ise, ortalama spesifikasyon limitlerine eşittir.

c) Cp 1 ise, proses yeterli değildir

d) Proses merkezi değiştiğinde, Cp değeri değişmez

e) Cp = Cpk ise proses merkezidir.

Cevaplar

1)d, 2)c, 3)a, 4)d, 5)a

Page 187: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

180

11. APPRİORİ ALGORİTMASI İLE BİRLİKTELİK KURALLARI MADENCİLİĞİ

Page 188: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

181

Bu Bölümde Neler Öğreneceğiz?

11.1. Appriori Algoritması İle Yaygın Öğelerin Belirlenmesi

11.2. Birliktelik Kurallarının Oluşturulması

11.3. Kısıt Esaslı Madencilik

Page 189: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

182

Bölüm Hakkında İlgi Oluşturan Sorular

1) Bir prosesteki toplam varyasyonun hangi oranda ölçüm sisteminden kaynaklandığı nasıl belirlenebilir?

2) Ölçüm sisteminden kaynaklı varyasyonun oluşumunda operatör ve ölçüm aletinin etkisi nasıl hesaplanır?

3) Ölçüm sistemi analizi hangi adımlardan oluşmaktadır ve nasıl uygulanmaktadır?

Page 190: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

183

Bölümde Hedeflenen Kazanımlar ve Kazanım Yöntemleri

Konu Kazanım Kazanımın nasıl elde edileceği veya geliştirileceği

Ölçüm Sistemlerinde Varyasyon

Ölçüm sistemlerinde var olan varyasyon kaynaklarını tanımlamak.

Teorik anlatım.

Ölçüm Sistemi Analizinin Adımları

Ölçüm sistemleri analizinin adımlarını öğrenmek.

Teorik anlatım ve uygulama.

R&R Analizi Uygulaması

Bir ölçüm sisteminin güvenilirliğinin analizi için gerekli hesaplamaları yapabilmek

Veri seti ile örnek uygulama.

Page 191: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

184

Anahtar Kavramlar

Ölçüm Sistemleri

Yeniden Üretebilirlik

Tekrarlanabilirlik

Varyasyon

Page 192: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

185

Giriş

İstatistiksel kalite kontrol daha önce sözü edildiği gibi varyasyon üzerine odaklanmaktadır. Bu varyasyon; süreçten ya da ölçüm sisteminden kaynaklanabilir. Bu

bölümden ölçüm sisteminden kaynaklanan varyasyon ele alınacaktır. Bir ölçüm sisteminin güvenirliğinin test edilebilmesi için yapılması gereken analizler ve bu analiz sonuçlarının yorumlanması örnek uygulamalar ile gerçekleştirilecektir.

Page 193: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

186

11.1. Appriori Algoritması ile Yaygın Öğelerin Belirlenmesi

Bir sistemdeki varyasyon; süreçten ya da ölçüm sisteminden kaynaklanabilir. Ölçüm sisteminden kaynaklı varyasyonun temel nedenleri ise ölçüm aleti ve operatördür. Bu noktada; ölçüm sistemleri analizinden; ölçümlere dayanan çalışmaların başlangıç noktasında,

yeni ölçüm aletinin kabulünde, iki ölçüm aletinin karşılaştırılmasında ve kullanılan ölçüm aletinin değerlendirilmesinde faydalanılmaktadır. Toplam varyasyonun ne kadarının ölçüm

sisteminden kaynaklandığı bu analiz ile belirlenebilmektedir.

Hassasiyet, ölçüm cihazı ve ölçümü yapan operatörlerden kaynaklanan varyasyon ile

ilgilidir. Bu durum aşağıdaki eşitlik ile ifade edilebilir:

2 2 2 2

ölçülendeğer gerçekdeğer tekraredilebilirlik tekrarüretilebilirlik (81)

Bu noktada; tekrarlanabilirlik (repeatability), tekrar üretilebilirlik (reproducibility)

kavramlarının açıklanması gerekmektedir. Tekrarlanabilirlik; bir ölçüm aleti ile aynı operatör (değerlendirici) tarafından aynı ölçü için birçok seferde elde edilen ölçümler arasındaki

değişkenliği ifade etmektedir. Tekrar üretilebilirlik ise aynı ölçüm sistemi kullanılarak aynı ölçünün farklı operatörler (değerlendiriciler) tarafından yapılan ölçümlerinin ortalamasındaki varyasyona karşılık gelmektedir.

Ölçüm sisteminin güvenirliliğinin test edilebilmesi için aynı ölçüm cihazı kullanılarak birden fazla operatörün, birden fazla parçayı, birden fazla kere ölçmesi gerekmektedir. Bu verileri toplamak için gerekli adımlar aşağıda verilmiştir:

1) Parçaların numaralandırılması,

2) İlk operatörün önceden numaralanmış tüm parçalardaki belirlenmiş ölçüyü rassal

bir sırada birer kez ölçmesi,

3) Sırasıyla ikinci, üçüncü, operatörlerin önceden numaralanmış tüm parçalardaki belirlenmiş ölçüyü rassal bir sırada birer kez ölçmesi,

4) Tüm operatörlerin ilk ölçümlerini tamamlamalarından sonra, tekrar ölçüm sayısı kadar 2 ve 3. Adımların tekrarlanması.

5) Gerekli varyasyon değerlerinin hesaplanması ve analiz sonuçlarının yorumlanması

11.2. Birliktelik Kurallarının Oluşturulması

m operatör sayısını (i=1,…,m), n ölçülen parça sayısını (j=1,…,n) ve r deneme sayısını (r=1,…,k) (herbir parça için ölçüm sayısını) belirtmek üzere, ölçüm sistemi analizi aşağıdaki adımlardan oluşmaktadır:

Page 194: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

187

1. Herbir operatör i için, ölçüm değerleri ortalamasını Eşitlik (82) ile hesapla.

Burada; Mijk operatör i’nin parça j’yi k. ölçümünde elde ettiği ölçüm değeri belirtmektedir.

( )ijkj k

i

M

xnr

(82)

2. En yüksek ve en düşük ortalamalar arasındaki farkı Eşitlik (83) ile hesapla.

max( ) min( )D i ix x x (83)

3. Herbir operatör ve parça ikilisi için ölçüm değerlerinin genişliğini (Rij) hesapla.

max( ) min( )ij ijk ijkR M M (84)

4. Herbir operatör i için ortalama genişlik değerini hesapla.

ijj

i

R

Rn

(85)

5. Ortalama genişlik değerini hesapla.

ij

R

Rm

(86)

6. Genişlik (Rij) değerleri üzerinde kontrol limitini Eşitlik (87) ile hesapla. Burada,

D4 sabiti, Ek-B’de yer alan kontrol faktörleri tablosundan elde edilmektedir. Burada n değeri yerine deneme sayısı (r) değeri kullanılmalıdır.

4Kontrol Limiti= D R (87)

Kontrol limiti ile her bir genişlik değerini karşılaştır. Herhangi bir genişlik değeri kontrol limitini aşıyor ise, özel varyasyon nedeni araştırılmalıdır. Tipik varyasyon nedenleri,

ölçümlerim doğru olarak kaydedilmemesi ve aralık değerlerinin doğru olarak hesaplanamaması olabilir. Varyasyonun nedeni belirlenebilir ve düzeltilebilirse, düzeltmeleri yap ve Adım 4’e geri dönerek hesaplamaları yenile. Eğer varyasyonun nedeni tespit

edilemiyor ise, kontrol limitinin dışındaki değerleri elimine et ve Adım 1’e geri dönerek hesaplamaları yeniden yap.

7. Ölçüm aleti varyasyonunu (EV), Eşitlik (88) ile hesapla.

1= KEV R (88)

Burada, K1 Tablo 34’de yer alan bir sabittir. Deneme sayısına (r) bağlı olarak belirlenir.

Page 195: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

188

8. Operatör varyasyonunu (OV), Eşitlik (89) ile hesapla.

2 2

2= ( ) ( / )DOV K x EV nr (89)

Burada, K2 operatör sayısına bağlı olarak Tablo 34’den elde edilebilecek bir sabittir.

9. Toplam ölçüm aletinin yeniden üretebilirlik ve tekrarlanabilirlik (RR) varyasyonunu hesapla.

2 2= ( ) (O )RR EV V (90)

Deneme sayısı (r) 2 3 4

K1 4.56 3.05 2.5

Operatör sayısı (m) 2 3 4

K2 3.65 2.7 2.3

Tablo 34: Ölçüm Sistemleri Analizinde Kullanılan Sabitler

11.3. Kısıt Esaslı Madencilik

Ölçüm sistemleri analizinde; operatör varyasyonu (OV), ekipman varyasyonu (EV) ve toplam varyasyon (RR) toplam izin verilen tolerans genişliğinin bir yüzdesi olarak raporlanır. Toplam varyasyonun yüzdesi olarak daha küçük OV, EV ve RR varyasyonlarına sahip bir ölçüm sistemi, daha kusursuzdur. Bu noktada; RR değerinin toleransa oranı;

10% Kabul edilebilir ölçüm sistemi 10% - 30% Uygulamaya, ölçüm aletinin maliyetine ve tamir maliyetine göre kabul

edilebilir.

30% Kabul edilemez. Ölçüm sisteminde iyileştirme gereksinimi vardır. Tablo 35’te yer alan örnek problem verisi ile ölçüm sistemlerinin analizinde kullanılan

hesaplamalar detaylandırılacaktır. Bu örnek problemde; 3 operatör, 10 farklı parçayı ve herbir

parça 2 kez olmak üzere ölçmüştür.

Parça Operatör 1 Operatör 2 Operatör 3

Ölçüm 1 Ölçüm 2 Ölçüm 1 Ölçüm 2 Ölçüm 1 Ölçüm 2

1 0.71 0.69 0.56 0.57 0.52 0.54

2 0.98 1 1.03 0.96 1.04 1.01

3 0.77 0.77 0.76 0.76 0.81 0.81

4 0.86 0.94 0.82 0.78 0.82 0.82

5 0.51 0.51 0.42 0.42 0.46 0.49

6 0.71 0.59 1 1.04 1.04 1

7 0.96 0.96 0.94 0.91 0.97 0.95

8 0.86 0.86 0.72 0.74 0.78 0.78

9 0.96 0.96 0.97 0.94 0.84 0.81

10 0.64 0.72 0.56 0.52 1.01 1.01

Tablo 35: Operatörler Tarafından Gerçekleştirilen Ölçüm Değerleri

Page 196: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

189

1. Herbir operatör i için, ölçüm değerleri ortalamasını Eşitlik (82) ile hesaplanır.

Operatör 1 1

15.960.7980

10 2x

x

Operatör 2 2

15.420.7710

10 2x

x

Operatör 3 3

16.510.8255

10 2x

x

2. En yüksek ve en düşük ortalamalar arasındaki fark Eşitlik (83) ile hesaplanır.

0.8255 0.7710 0.0545Dx

3. Herbir operatör ve parça ikilisi için ölçüm değerlerinin genişliği hesaplanır. Elde edilen değerler Tablo 36’daki gibidir.

Parça Operatör 1 Operatör 2 Operatör 3

Ölç. 1 Ölç. 2 Genişlik Ölç. 1 Ölç. 2 Genişlik Ölç. 1 Ölç. 2 Genişlik

1 0.71 0.69 0.02 0.56 0.57 0.01 0.52 0.54 0.02

2 0.98 1 0.02 1.03 0.96 0.07 1.04 1.01 0.03

3 0.77 0.77 0 0.76 0.76 0 0.81 0.81 0

4 0.86 0.94 0.08 0.82 0.78 0.04 0.82 0.82 0

5 0.51 0.51 0 0.42 0.42 0 0.46 0.49 0.03

6 0.71 0.59 0.12 1 1.04 0.04 1.04 1 0.04

7 0.96 0.96 0 0.94 0.91 0.03 0.97 0.95 0.02

8 0.86 0.86 0 0.72 0.74 0.02 0.78 0.78 0

9 0.96 0.96 0 0.97 0.94 0.03 0.84 0.81 0.03

10 0.64 0.72 0.08 0.56 0.52 0.04 1.01 1.01 0

Ortalama 0.032 Ortalama 0.028 Ortalama 0.017

Tablo 36: Operatörler Bazında Ölçüm Değeri Genişliklerinin Hesaplanması

4. Herbir operatör i için ortalama genişlik değeri Eşitlik (85) ile hesaplanır. Bu değerler Tablo 35’den de görülebileceği gibi sırasıyla 0.032, 0.028 ve 0.017’dir.

5. Ortalama genişlik değeri aşağıdaki şekilde hesaplanır.

0.032 0.028 0.0170.0257

3R

1. Kontrol limitini aşağıdaki gibi hesaplanır. Burada, D4 sabiti olarak, Ek-B’de yer alan kontrol faktörleri tablosundan n =2 değerine (deneme sayısı) karşılık gelen 3.267 değeri kullanılır.

Kontrol limiti=0.0257x3.267=0.08396

Page 197: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

190

Herhangi bir genişlik değeri kontrol limitlerini aşmadığından hesaplamalara devam edilir.

2. Ekipman varyasyonu (EV) aşağıdaki şekilde hesaplanır. Bu hesaplamada, K1

değeri herbir parça için 2 farklı deneme yapıldığı için Tablo 34’den 4.56 olarak belirlenir.

1EV= K 4.56x0.0257 0.1172R

3. Operatör varyasyonunu (OV) Eşitlik (89) kullanılarak hesaplanır. Bu

hesaplamada, K2 değeri 3 operatör olduğu için Tablo 34’den 2.70 olarak belirlenir.

2 2OV= (2.70 x 0.0545) (0.1172 / (10 x 2)) 0.1448

4. Toplam RR varyasyonu aşağıdaki şekilde hesaplanır.

2 2= (0.1172) (0.1448) 0.18619RR

Örnek problem için alt tolerans değerinin 0.49 ve üst tolerans değerinin 0.99 olduğunu düşünelim. Tolerans değeri bu noktada 0.99-0.49=0.50 olarak belirlenir. Ekipman,

operatör ve toplam RR varyasyonunu toleransın yüzdesi olarak aşağıdaki gibi hesaplanabilir:

EV = (0.1172/0.50) x %100 = % 23.44

OV = (0.1448/0.50) x %100 = % 29.0

RR = (0.18619/0.50) x %100 = % 37.2

Burada; %RR değeri %30’un üzerinde olduğu için ölçüm sistemi kabul edilemez ve incelenmesi gerekmektedir.

Page 198: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

191

Bu Bölümde Ne Öğrendik Özeti

Bir sistemdeki varyasyon; süreçten ya da ölçüm sisteminden kaynaklanabilir. Ölçüm sisteminden kaynaklı varyasyonun temel nedenleri ise ölçüm aleti ve operatördür. Bir sistemdeki, toplam varyasyonun ne kadarının ölçüm sisteminden kaynaklandığı bu analiz ile

belirlenebilmektedir.

Bu noktada; tekrarlanabilirlik (repeatability), tekrar üretilebilirlik (reproducibility)

kavramlarının açıklanması gerekmektedir. Tekrarlanabilirlik; bir ölçüm aleti ile aynı operatör (değerlendirici) tarafından aynı ölçü için birçok seferde elde edilen ölçümler arasındaki değişkenliği ifade etmektedir. Tekrar üretilebilirlik ise aynı ölçüm sistemi kullanılarak aynı ölçünün farklı operatörler (değerlendiriciler) tarafından yapılan ölçümlerinin ortalamasındaki varyasyona karşılık gelmektedir. Ölçüm sistemi analizi ile tekrarlanabilirlik ve tekrar üretilebilirlik varyasyonu hesaplanmaktadır.

Bu bölümde ölçüm sistemleri analizinin adımları ve hesaplamaları detaylı olarak sunulmuş ve örnek uygulama ile analizler gerçekleştirilmiştir. Elde edilen sonuçlara göre ölçüm sisteminin güvenilirliğinin nasıl değerlendirileceği ve yorumlanacağı da ortaya konulmuştur.

.

Page 199: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

192

Bölüm Soruları

1) Bir ölçüm aleti ile aynı operatör (değerlendirici) tarafından aynı ölçü için birçok seferde elde edilen ölçümler arasındaki değişkenliği aşağıdakilerden hangisi ifade etmektedir?

a) Hassasiyet

b) Tekrarlanabilirlik

c) Tekrar üretilebilirlik

d) Değişkenlik

e) Yeterlilik

2.-3. soru aşağıdaki problem dikkate alınarak yanıtlanacaktır.

Bir ölçüm sistemi çalışması sonucunda ekipman varyasyonu değeri EV=0.0212 ve operatör varyasyonu değeri OV=0.0925 olarak elde edilmiştir. Bu bilgilere göre;

2) Toplam RR varyasyonu hesaplandığında hangi değer elde edilir?

a) 0.0949

b) 0.0959

c) 0.0969

d) 0.0979

e) 0.0989

3) Ölçüm için belirlenen tolerans değerleri 1.500.25 ise, toleransı %’si olarak %RR değeri nedir?

a) % 18.78

b) % 18.98

c) % 19.18

d) % 19.38

e) % 19.58

Page 200: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

193

4.-5. soru aşağıdaki problem dikkate alınarak yanıtlanacaktır.

Bir ölçüm sistemi çalışması sonucunda elde edilen ölçüm değerleri aşağıdaki tablodaki gibidir. Bu çalışmada; 2 operatör, 10 farklı parçayı ve herbir parça 2 kez olmak üzere ölçmüştür. Ölçüm için tolerans değeri 1.0100.015 olarak belirlenmiştir.

Operatör 1 Operatör 2

Parça Ölçüm 1 Ölçüm 2 Ölçüm 1 Ölçüm 2

1 1.005 1.004 1.004 1.004

2 1.006 1.003 1.003 1.005

3 1.008 1.01 1.009 1.008

4 1.015 1.013 1.012 1.012

5 1.014 1.014 1.012 1.014

6 1.007 1.005 1.006 1.005

7 1.015 1.013 1.015 1.016

8 1.005 1.002 1.004 1.005

9 1.008 1.007 1.008 1.008

10 1.01 1.012 1.014 1.013

Hesaplamalar için gerekli tablo değerleri; K1=4.56 ve K2=3.65.

Bu bilgilere göre ;

4) Ekipman varyasyonu (EV) hesaplandığında hangi değer elde edilir?

a) 0.0057

b) 0.0058

c) 0.0059

d) 0.0060

e) 0.0061

5) Toleransı %’si olarak %RR hesaplandığında hangi değer elde edilir?

a) % 10

b) % 15

c) % 20

d) % 25

e) % 30

C

Page 201: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

194

evaplar

1)b, 2)a, 3)b, 4)e, 5)c

Page 202: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

195

12. FP-AĞACI İLE BİRLİKTELİK KURALLARI MADENCİLİĞİ VE ÇOK SEVİYELİ BİRLİKTELİK KURALLARI

Page 203: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

196

Bu Bölümde Neler Öğreneceğiz?

12.1. FP-Ağacı ile Yaygın Desen Madenciliği

12.2. Çok Seviyeli Birliktelik Kuralları

12.3. Negatif ve Nadir Kurallar

Page 204: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

197

Bölüm Hakkında İlgi Oluşturan Sorular

1) İstatistiksel kalite kontrolü ile ilgili uygulamaların tamamı, bir yazılım ile gerçekleştirilebilir mi?

2) Minitab yazılımı ile bir veri kümesinin histogramı nasıl oluşturulur ve tanımlayıcı istatistikleri nasıl hesaplanır?

3) Minitab yazılımı ile veri kümesinde aykırı değerlerin varlığı nasıl araştırılır?

4) Minitab yazılımı ile serpilme diyagramı nasıl çizilir?

Page 205: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

198

Bölümde Hedeflenen Kazanımlar ve Kazanım Yöntemleri

Konu Kazanım Kazanımın nasıl elde edileceği veya geliştirileceği

Minitab Yazılımına Giriş Minitab yazılımının temel yapısını ve özelliklerini anlamak.

Yazılım uygulamaları

Minitab ile Tanımlayıcı İstatistiklerin Hesaplanması

Minitab yazılımı ile tanımlayıcı istatistikleri hesaplayabilmek.

Yazılım uygulamaları

Minitab ile Histogram

Oluşturma, Minitab ile Serpilme Diyagramı, Minitab ile Kutu Grafiği

Minitab yazılımı ile histogram, serpilme

diyagramı ve kutu grafiği gibi uygulamaları gerçekleştirmek.

Yazılım uygulamaları

Page 206: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

199

Anahtar Kavramlar

Minitab

Tanımlayıcı İstatistikler

Veri Analizi Araçları

Page 207: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

200

Giriş

Minitab, istatistiksel kalite kontrol uygulamalarında yaygın olarak kullanılan bir kullanıcı dostu istatistiksel yazılım paketidir. Bu ders kapsamında anlatılan konuların hepsine ait uygulamalar ve yapılan hesaplamalar, uygulamada Minitab yazılımı kullanılarak gerçekleştirilebilir. Bu doğrultuda; bu bölümde Minitab yazılımına giriş yapılacak ve Minitab ile tanımlayıcı istatistiklerin nasıl hesaplanacağı ve veri analizi araçlarının nasıl kullanılacağı örneklerle gösterilecektir.

,

Page 208: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

201

12.1. FP-Ağacı ile Yaygın Desen Madenciliği

Minitab, veri analizi ve kalite kontrol uygulamalarında yaygın olarak kullanılan bir kullanıcı dostu istatistiksel yazılım paketidir. Bu ders kapsamında anlatılan konuların hepsine ait uygulamalar ve yapılan hesaplamalar, pratikte Minitab yazılımı kullanılarak gerçekleştirilebilir. Minitab, Minitab Inc. tarafından geliştirilmiştir. Son olarak, Minitab 17

sürümü kullanılmaktadır. Daha önce belirtildiği gibi, bu yazılımın deneme sürümü http://it.minitab.com/en-us/products/minitab/free-trial.aspx linki kullanılarak indirilebilir.

Minitab yazılımı ilk açıldığında, çalışma sayfasının yapısı aşağıdaki gibi olacaktır.

Şekil 39: Minitab çalışma sayfası

Oturum penceresi (session window), metin formatında analiz sonuçlarını göstermektedir. İlk olarak hoş geldin mesajı, tarih ve zamanı göstermektedir. Minitab

menülerinin kullanımı yerine, oturum penceresinde (session window) komutlar ile gerekli

işlemleri yapmak olanaklıdır. Veri penceresi (worksheet), tablolama görünümüne benzer bir çalışma sayfası ile açılır. Tek bir proje içinde çok sayıda çalışma sayfasının, grafiğin ve

raporun kullanımı olanaklıdır. Minitab ile çalışırken ya oturum penceresi ya da çalışma sayfası aktif halde olmaktadır (mavi banda tıklanarak). Minitab çalışma sayfalarının uzantıları; .MTW ve Minitab projelerinin uzantıları; .MPJ, Minitab grafiklerinin uzantıları .MGF şeklindedir.

Minitab’de aynı sütunun farklı satırlarında yer alan veriler, aynı veri tipine sahip olmak zorundadır. Bu noktada; üç farklı veri tipi söz konusudur. Metin sütunu –T ile

tanımlanır, tarih sütunu –D ile tanımlanır ve nümerik sütundur. Minitab, sütunda girilen ilk veriye bağlı olarak bir sütun veri tipi oluşturur ve başka bir veri tipinde bir veri girişine izin vermez. Bu veri tipleri; Şekil 40’da yer almaktadır.

Page 209: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

202

Şekil 40: Minitab Veri Penceresi Sütun Düzenleri

Ayrıca, veri penceresinde; veri giriş oku ve sütun isimleri de aşağıdaki şekilde gösterilmektedir.

Şekil 41: Veri Penceresinin Diğer Özellikleri

Minitab, Excel ve Powerpoint gibi MS-Office uygulamaları ile birlikte çalışabilmektedir. Excel-Minitab arasında iki yönlü veri transferi yapılabilmekte, Minitab ile yapılan bir analiz sonucu ya da grafik, MS-Word ve MS-Powerpoint dökümanlarına gönderilebilmektedir.

Page 210: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

203

12.2. Çok Seviyeli Birliktelik Kuralları

Minitab ile tanımlayıcı istatistiklerin hesaplanması örnek bir soru ile gerçekleştirilecektir. Bir üretim hattında, iki farklı makine tarafından üretilen şişelere ait ağırlık değerleri aşağıdaki tabloda yer almaktadır. Hedef değer 490 gr’dır.

Makine Ağırlık (gr)

P 488.3

P 491.9

P 489.6

P 487.7

P 492.5

Q 490.1

Q 490.2

Q 488.8

Q 491.6

Q 489.3

Tablo 36: Makine Bazlı Şişe Ağırlıkları

Bu makinelere ait tanımlayıcı istatistikler aşağıdaki şekilde Minitab yazılımı kullanılarak aşağıdaki şekilde hesaplanabilir.

Tanımlayıcı istatistikleri elde edebilmek için Minitab menüsünden Şekil 42’den görülebileceği gibi Stat → Basic Statistics → Display Descriptive Statistics işlemleri seçilir. Bu işlemler sonucunda karşımıza çıkan ekran formunda, variables kısmı için ağırlık (gr) değişkeni (ölçülen değişken) ve by variables kısmında ise makine değişkeni seçilir. By variables kısmı için bir değişken seçimi zorunlu olmayıp, bu alanda tanımlanan değişkene göre istatistiklerin hesaplanmasını sağlar. Bu örnekte, by variables kısmında makinenin seçilmesi P ve Q makinelerinin istatistiklerinin ayrı şekilde hesaplanmasını sağlamaktadır. Eğer; bu alana herhangi bir veri girilmez ise, makine ayrımı olmaksızın Tablo 36’da yer alan 10 veriye ait istatistikler Minitab tarafından hesaplanır. Bu ekran formunda, statistics kısmı işaretlendiğinde tanımlayıcı istatistiklerin tümünün yer aldığı bir form çıkacaktır. Bu form üzerinde hesaplanması ve görüntülenmesi istenen tanımlayıcı istatistikler seçilebilir. Minitab ile hesaplanabilen tanımlayıcı istatistikler; mean (ortalama), SE of mean (ortalamanın standart hatası), standart deviation (standart sapma), variance (varyans), coefficient of variation (varyasyon katsayısı), sum (toplam), minimum, maksimum, range (aralık), N nonmissing

(sağlıklı veri sayısı), N missing (kayıp veri sayısı), N total (toplam veri sayısı), percent (veri yüzdesi), first quartile (1.çeyrek değeri), median (medyan), third quartile (3.çeyrek değeri), mode (mod), interquartile range (3.çeyrek-1.çeyrek değeri), skewness (çarpıklık) ve kurtosis (basıklık) değerleridir.

Page 211: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

204

Şekil 42: Minitab ile Tanımlayıcı İstatistikler Ekran Formunun Açılması

Şekil 43: Minitab ile Tanımlayıcı İstatistiklerin Hesaplanması için Veri Kaynağının Tanımlanması

Page 212: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

205

Örnek uygulamada; tanımlayıcı istatistikler olarak mean (ortalama), standart deviation (standart sapma), variance (varyans), coefficient of variation (varyasyon katsayısı), minimum, maksimum, range (aralık), N nonmissing (sağlıklı veri sayısı), N missing (kayıp veri sayısı), first quartile (1.çeyrek değeri), median (medyan), third quartile (3.çeyrek değeri) seçilmiştir. Bu istatistiklere ait hesaplanan değerler Şekil 44’de sunulmaktadır.

Şekil 44: Minitab ile Tanımlayıcı İstatistiklerin Elde Edilmesi

12.3. Negatif ve Nadir Kurallar

Veri analizinde kullanılan önemli araçlardan biri olan histogramların, Minitab yazılımı ile nasıl oluşturulacağı aşağıdaki örnek ile açıklanacaktır.

Yiyecek paketleme endüstrisinde faaliyet gösteren bir işletme için şişe ağırlığı, anahtar bir proses çıktısıdır. Proses için belirlenen hedef ağırlık değeri 490 gramdır. Alt spesifikasyon

limiti 485 gram ve üst spesifikasyon limiti ise 495 gram olarak belirlenmiştir. 15 dakika

aralıklarla herbir örneklemde bir şişe ölçümü yapılmaktadır. 12 saatlik üretim için elde edilen değerler aşağıdaki tabloda sunulmaktadır.

Örnek Ağırlık Örnek Ağırlık Örnek Ağırlık Örnek Ağırlık Örnek Ağırlık

1 488.1 6 493.1 11 490.5 16 489.7 21 490.2

2 493.4 7 487.4 12 492.2 17 488.5 22 489.8

3 488.7 8 488.4 13 490.6 18 493.6 23 486.1

4 484.4 9 488.6 14 490.8 19 489.1 24 487.0

5 491.8 10 485.9 15 486.7 20 489.4 25 485.4

Tablo 37: Şişe Ağırlık Verisi

Page 213: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

206

Veriler Minitab çalışma sayfasına girildikten sonra, veri kümesinin histogramının çizilebilmesi için Şekil 45’de görülebileceği gibi Graph menüsünden Histogramın seçilmesi gerekmektedir.

Şekil 45: Minitab ile Histogram Grafiği

Bu seçim sonrasında, karşımıza çıkan ekran formunda histogramın oluşturulması için farklı seçenekler söz konusu olacaktır. Burada, simple seçeneği basit bir şekilde histogramın oluşturulması sağlarken, with fit seçeneğinin işaretlenmesi histogram ile birlikte veriyi en iyi şekilde temsil eden eğrinin de histogram üzerinde çizilmesini sağlayacaktır. Groups seçeneği, belirli bir değişkene göre aynı anda çok sayıda histogramın çizilmesini sağlayacaktır. Örneğin; Tablo 36’daki gibi makine değişkenine göre verinin histogramı çizilmek istendiğinde (P ve Q makineleri için ayrı histogramlar) Groups seçeneğinin işaretlenmesi gerekmektedir.

Örnek problem için with fit seçeneğini tercih ettiğimizi varsayalım. Bu seçim sonrası, ekran formunda graph variables kısmına hangi sütunda yer alan veriye göre histogramın çizileceğinin tanımlanması gerekmektedir. Bu amaçla; değişkenlerin yer aldığı soldaki panelden ağırlık verisi Şekil 46’daki gibi seçilmelidir. Daha sonra, OK kısmı tıklandığında Şekil 47’deki gibi verinin histogramı çizilmiş olacaktır.

Şekil 47’de görülebileceği gibi, verinin histogramı ile birlikte veriyi en iyi temsil eden eğri, histogram ile birlikte çizilmiştir. Ayrıca; veri sayısı, ortalama ve standart sapma gibi tanımlayıcı istatistikler de sağdaki panelde yer almaktadır. Veri kümesinin kaç sınıfa ayrılacağı Minitab tarafından otomatik olarak belirlenmektedir. Ancak, kullanıcı tarafından

Page 214: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

207

istenilen sınıf sayısı da tanımlanabilmektedir. Her bir sınıfın alt ve üst sınır değerleri ve sınıfta yer alan veri sayısı, sınıfların üzerine gelindiğinde otomatik olarak gösterilir.

Şekil 46: Minitab ile Histogram Değişkeninin Tanımlanması

Şekil 47: Minitab ile Histogram Dağılımının Oluşturulması

494492490488486484

5

4

3

2

1

0

Ağırlık

Fre

ka

ns

Mean 489.2

StDev 2.509

N 25

Normal

Şişe ağırlık histogramı

Page 215: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

208

Histogram üzerinde belirlenen alt ve üst spesifikasyon limitleri gösterilerek, verinin spesifikasyon limitlerine göre konumu analiz edilebilir. Bu amaçla; Şekil 48’deki gibi histogram üzerinde iken sağ tıklanarak Add→Reference Lines seçeneğinin işaretlenmesi gerekmektedir.

Şekil 48: Histogram Üzerinde Spesifikasyon Limitlerinin Tanımlanması

Şekil 49: Histogram Üzerinde Spesifikasyon Limitlerinin Gösterilmesi

Page 216: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

209

Daha sonra, Add reference lines ekran formunda Show reference lines at data values

kısmına aralarında boşluk bırakılarak alt ve üst spesifikasyon limitleri olan 485 495 değerlerinin girilip, OK seçeneğinin işaretlenmesi gerekmektedir. Bu işlemler sonucunda, Şekil 49’daki gibi spesifikasyon limitleri histogram üzerinde yer alacaktır.

Bu veriden de görülebileceği gibi, üst spesifikasyon limitinin üzerinde herhangi bir ağırlık değeri yoktur. Ancak, alt spesifikasyon limitinin altında yer alan ölçümler söz konusudur.

Veri analizinde kullanılan bir diğer araç olan serpilme diyagramı, iki değişken arasındaki sebep-sonuç ilişkisini belirlemede kullanılmaktadır. Bu alt bölümde, Tablo 8’de yer alan sıcaklık-çap verisini kullanarak, Minitab yazılımı ile serpilme diyagramının nasıl çizildiğini açıklanacaktır. Bu veri seti, bir üretim prosesinde farklı ortam sıcaklığına bağlı olarak üretilen parçaların mil çapını içermektedir.

Serpilme grafiğinin çizilebilmesi için Minitab’e verilerin girilmesinden (ya da Excel üzerinden aktarılabilir) sonra, Şekil 50’deki gibi Graph menüsünden Scatterplot seçimi yapılmalıdır. Bu seçim sonrasında karşımıza çıkan ekran formunda serpilme diyagramı için farklı seçenekler mevcuttur. Simple seçeneği sadece iki değişkenin değerlerini x ve y ekseninde gösteren basit bir serpilme diyagramının çizilmesini sağlarken, with regression seçeneği serpilme diyagramının üzerinde değişkenler arasındaki ilişkiyi gösteren regresyon denkleminin de çizilmesini sağlamaktadır. Bir değişkene bağlı olarak çok sayıda serpilme diyagramının aynı anda çizilmesi istendiğinde, with groups seçeneğinin tercih edilmesi gerekmektedir. Serpilme diyagramında veri kümesindeki herbir nokta çiftinin birleştirilerek yer alması istendiğinde ise with connect line seçimi yapılmalıdır.

Şekil 50: Minitab ile Serpilme Diyagramının Oluşturulması

Page 217: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

210

With regression seçeneğini işaretleyip, OK butonuna bastığımızı varsayalım. Bir sonraki Scatter plot – With Regression ekran formunda kullanıcının Y (bağımlı değişken) ve X (bağımsız değişken) değişkenlerini tanımlaması istenmektedir. Bu örnekte; mil çapı sıcaklık değerine bağlı olarak değiştiğinden, bağımlı değişkenimiz çap bağımsız değişkenimiz ise sıcaklıktır. Bu nedenle ekran formunda, Y variables kısmında değişkenlerin yer aldığı soldaki panel kullanılarak çap verisinin yer aldığı sütun, X variables kısımında ise sıcaklık verisinin yer aldığı sütun seçilmelidir. Şekil 51’de bu seçim işleminin nasıl yapılacağı gösterilmektedir. Bu işlem sonrası OK butonuna basıldığında regresyon doğrusu ile birlikte serpilme diyagramı çizilmiş olacaktır. Regresyon doğrusunun üzerine gelindiğinde ise çap ve sıcaklık arasında bulunan ilişkinin denklemi de Şekil 52’deki gibi görülebilmektedir. Bu veri seti ile bulunan regresyon denklemi; Çap = 100.3 – 0.01545 Sıcaklık şeklindedir.

Şekil 51: Serpilme Diyagramında Bağımlı ve Bağımsız Değişkenlerin Tanımlanması

Minitab ile değişkenler arasındaki ilişkiyi göstermek için ikinci ya da üçüncü dereceden regresyon denklemleri kullanılabilir. Bunun için, bir önceki diyalog kutusunda data view seçeneği işaretlenerek, regression sekmesinden quadratic (ikinci dereceden) ya da cubic

(üçüncü dereceden) seçeneklerinin işaretlenmesi gerekmektedir.

Daha önce söz edildiği gibi, kutu grafiği (Box-plot); veriyi özetlemede ve veri kümesi için sağlıklı hesaplamalar yapmayı engelleyen olağan dışı noktaları belirlemede kullanılan önemli veri analizi araçlarından biridir. Bu alt bölümde; kutu grafiğinin Minitab yazılımı ile birlikte nasıl oluşturulduğu gösterilecektir.

Page 218: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

211

Şekil 52: Serpilme Diyagramının ve Doğrusal Regresyon Denkleminin Oluşturulması

Bu amaçla; Tablo 9’da sunulan ve hava durumuna göre (Kuru ve Yağmurlu) iki şehir arasında farklı zamanlarda gerçekleşen seyahat sürelerini içeren veri kümesi kullanılacaktır. Bu veri kümesi, Minitab çalışma sayfasına Tarih, Süre, Hava Durumu ve Hkodu sütunları şeklinde girilmiştir. Hkodu sütununda 1 değeri, havanın kuru olma durumunu 2 değeri ise havanın yağmurlu olma durumunu ifade etmektedir.

Kutu grafiğinin çizilebilmesi için Graph sekmesinde Boxplot seçeneğinin Şekil 53’deki gibi seçilmesi gerekmektedir.

Daha sonra, karşımıza çıkan Boxplots diyalog kutusunda tek ya da çok sayıda değişkene göre kutu grafiğinin çizilmesi durumuna göre seçim yapılması gerekmektedir. Örnek problem ele alındığında, sadece süre değişkenine göre kutu grafiği çizileceğinden diyalog kutusunda One Y seçeneğinin tercih edilmesi gerekecektir. Burada; hava durumu değişkenine göre (kuru ya da yağmurlu) kutu grafik çizileceği için simple yerine with groups seçeneğinin Şekil 54’deki gibi seçilmesi gerekmektedir.

Kutu grafiği türü seçildikten sonra, hangi çalışma sayfası sütunu kullanılarak kutu grafiğinin çizileceği ve hangi sütuna göre kutu grafiğinin farklılaştırılacağının tanımlanması gerekmektedir. Bu doğrultuda; Şekil 55’deki gibi ekran formunda graph variables kısmında soldaki panelden süre sütununun seçilmesi, categorical variables for grouping kısmında ise soldaki panelden Hava Durumu değişkeninin seçilmesi gerekmektedir. Bu seçimler sonrası OK butonuna basıldığında, Şekil 56’daki gibi hava durumu değişkenine göre seyahat süresinin kutu grafiği çizilecektir. Ayrıca, kutu grafiğinin üzerine gelindiğinde kutu grafiğinin Xmin, Q1, Medyan, Q3, Xmax değerleri görülebilecektir. Kutu grafiklerinden de görülebileceği

Page 219: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

212

gibi, kuru hava durumunda aykırı değer yok iken, yağmurlu hava durumunda kutu grafiğinin dışında kalan 35 değeri aykırı değer olarak görülebilmektedir.

Şekil 53: Minitab ile Kutu Grafiğinin Çizilmesi

Şekil 54: Veri Yapısına Göre Kutu Grafiği Türünün Seçilmesi

Page 220: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

213

Şekil 55: Kutu Grafiğinde Değişkenlerin Tanımlanması

Şekil 56: Kutu Grafiğinin Çizilmesi ve Aykırı Değerlerin Belirlenmesi

Page 221: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

214

Bu Bölümde Ne Öğrendik Özeti

Bu bölümde, ilk olarak veri analizi ve istatistiksel kalite kontrol çalışmalarında gerek akademik çalışmalarda gerekse özel sektör işletmelerinde yaygın olarak kullanılan Minitab yazılımının yapısı ortaya konulmuştur. Daha sonra; Minitab yazılımı ile veri analizi

uygulamaları gerçekleştirilmiştir. Bu doğrultuda; temel istatistiklerin nasıl hesaplanacağına, bir veri kümesinin histogramının ve kutu grafiğinin nasıl oluşturulacağına ve aykırı değerlerin varlığının nasıl araştırılacağına ve iki değişken arasındaki ilişkiyi gösteren serpilme diyagramının nasıl çizileceğine yönelik örnekler yapılmıştır. Böylece; Minitab yazılımı ile temel veri analizi araçlarını kullanım becerisinin kazanılması hedeflenmiştir.

Page 222: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

215

Bölüm Soruları

1) Aşağıdaki tabloda, 10 farklı araç için, araç ağırlığı (ton) ve yakıt tüketimi (kilometre/litre) değerleri yer almaktadır. Bu bilgilere göre; Minitab yazılımı kullanarak, araç ağırlığı ve yakıt tüketimi arasındaki ilişkinin serpilme diyagramını regrasyon doğrusu ile birlikte çiziniz?

Kütle x

.27 .68 .63 .45 .86 .18 .63 .54 .72 .22

Yakıt kullanımı y .1 .3 .5 .8 .2 .3 .6 .5 .5

2.-5. sorular aşağıdaki problem verisi kullanılarak yanıtlanacaktır.

30 adet borunun et kalınlığı mm olarak ölçülmüş ve değerleri aşağıda verilmiştir. Bu değerler küçükten büyüğe sıralanmış olarak aşağıda yer almaktadır. Alt ve üst spesifkasyon limitleri 5 mm ve 6 mm’dir.

4.45 4.85 5.05 5.24 5.25 5.35 5.44 5.55 5.65 5.85

4.65 4.95 5.05 5.25 5.25 5.44 5.44 5.55 5.65 6.15

4.84 4.95 5.05 5.25 5.25 5.44 5.55 5.55 5.75 6.25

2) Minitab yazılımını kullanarak verinin histogramını çiziniz?

3) Spesifikasyon limitlerini histogram üzerinde gösteriniz? Verinin spesifikasyon

limitlerini karşılama durumunu analiz ediniz?

4) Minitab yazılımı ile verinin ortalama, aralık, standart sapma, mod, medyan gibi tanımlayıcı istatistiklerini hesaplayınız ve histogramın şeklini yorumlayınız?

5) Minitab yazılımı ile verinin kutu grafiğini çiziniz ve aykırı nokta analizini gerçekleştiriniz?

Page 223: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

216

13. SIRALI DESEN MADENCİLİĞİ

Page 224: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

217

Bu Bölümde Neler Öğreneceğiz?

13.1. Sıralı Desen Madenciliğine Giriş

13.2. Appriori All Algoritması ile Sıralı Desen Madenciliği

13.3. GSP – Genelleştirilmiş Sıralı Desen Madenciliği Algoritması

Page 225: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

218

Bölüm Hakkında İlgi Oluşturan Sorular

1) Minitab yazılımı ile tekil ölçümler için kontrol diyagramları nasıl oluşturulmaktadır?

2) Minitab yazılımı ile ölçülebilen değişkenler için kontrol diyagramları otomatik olarak nasıl çizilmektedir?

3) Minitab yazılımı ile ölçülemeyen özellikler için kontrol diyagramları nasıl oluşturulmaktadır?

4) Gerçek hayattaki büyük veri kümeleri için kontrol diyagramlarının oluşturulması ve kontrol testlerinin uygulanması bir yazılım ile hızlı şekilde nasıl yapılabilir?

Page 226: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

219

Bölümde Hedeflenen Kazanımlar ve Kazanım Yöntemleri

Konu Kazanım Kazanımın nasıl elde edileceği veya geliştirileceği

Minitab ile Tekil Ölçümler için Kontrol Diyagramları

Tekil ölçümler için kontrol diyagramlarının, Minitab ile

nasıl oluşturulacağını öğrenmek.

Yazılım uygulamaları.

Minitab ile Ölçülebilen Değişkenler için Kontrol Diyagramları

Ölçülebilen değişkenler için kontrol diyagramlarının Minitab ile nasıl oluşturulacağını anlamak.

Yazılım uygulamaları.

Minitab ile Ölçülemeyen Özellikler için Kontrol Diyagramları

Ölçülemeyen özellikler için kontrol diyagramlarının Minitab ile nasıl oluşturulacağını kavramak.

Yazılım uygulamaları

Page 227: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

220

Anahtar Kavramlar

Minitab

Kontrol Diyagramları

Page 228: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

221

Giriş

Bu bölümde; Minitab yazılımı kullanılarak tekil ölçümler, ölçülebilir değişkenler ve ölçülemeyen özellikler için kontrol diyagramlarının nasıl oluşturulduğu ve sonuçlarının nasıl analiz edildiği ile ilgili örnek uygulamalar gerçekleştirilecektir.

Page 229: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

222

13.1. Sıralı Desen Madenciliğine Giriş

Kontrol diyagramlarının kullanımı ve veri yapısına göre hangi kontrol diyagramının

seçilmesi gerektiği konularında Minitab → Assistant → Control Charts seçeneği rehberlik sağlamaktadır. Bu noktada; veri tipine, alt grup biçiminde veri toplanmasına ve alt grup büyüklüğüne göre uygun kontrol diyagramı kullanıcı tarafından seçilebilir.

. Şekil 57: Minitab ile Uygun Kontrol Diyagramının Seçilmesi

Bölüm 6’da Tablo 11’de yer alan nişasta sıcaklık verisi ile I-MR kontrol diyagramı için gerekli hesaplamalar yapılmış, kontrol diyagramı oluşturulmuş ve elde edilen sonuçları yorumlanmıştı. Aynı veri kümesi ile I kontrol diyagramının, Minitab yazılımını kullanarak nasıl çizileceği bu bölümde ele alınacaktır.

Bu amaçla, veriyi Minitab çalışma sayfasına girdikten sonra ilk olarak, I kontrol diyagramını çizelim. Bunun için Stat → Control Charts → Variables Charts for Individuals →

Individuals seçimi Şekil 58’deki gibi gerçekleştirilir.

I kontrol diyagramı seçildikten sonra, karşımıza çıkan ekran formunda variables kısmında kontrol diyagramının hangi değişkene göre çizileceğinin belirtilmesi gerekmektedir. Bu noktada sıcaklık sütunu seçilmelidir. Daha sonra, kontrol diyagramının X ekseninin saat sütunundan oluşması için ekran formunda Scale seçeneğinin işaretlenmesi ve Stamp columns kısmında ise Zaman sütununun belirtilmesi gerekmektedir. Bu işlemler, Şekil 59’da gösterilmektedir. Ayrıca, I Chart Options kısmı seçildiğinde kontrol diyagramına ait detay tanımlamalar yapılabilmektedir. Örneğin; Estimate sekmesi seçildiğinde, hangi alt grupların hesaplamada dikkate alınacağı ve hareketli aralık değerinin ne olacağı gibi tanımlamalar yapılabilmektedir.

Page 230: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

223

Şekil 58: Minitab ile I Kontrol Diyagramının Çizilmesi

Şekil 59: I Kontrol Diyagramında Eksen Değerlerinin Tanımlanması

Page 231: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

224

Bu noktada; önemli bir konu da Tests sekmesi seçildiğinde karşımıza çıkacaktır. Bu sekme, ölçülebilir ve ölçülemeyen tüm kontrol diyagramları için varyasyonun özel nedeninin tespitinde hangi kontrol testlerinin uygulanacağının kullanıcı tarafından belirlenebilmesine olanak tanımaktadır. Şekil 60’da görülebileceği gibi Minitab yazılımında varsayılan ayar olarak, sadece ortalamanın 3 standart sapmasının dışında kalan noktanın varlığını araştıran 1.test uygulanır. Bölüm 7’de belirtilen ölçülebilen özelliklerin kontrol diyagramlarında kullanılan diğer 7 kontrol testi de bu ekran ile seçilebilir.

Şekil 60: Ölçülebilir Değişkenler için Kontrol Testlerinin Belirlenmesi

Bu seçimler sonrası, OK butonuna basıldığında Şekil 61’deki gibi I kontrol diyagramı çizilebilir. Herhangi bir kontrol dışılık durumu söz konusu ise Session kısmında hangi verilerin kontrol dışılık oluşturduğu yönelik detaylı bilgi yer alır ve bu noktalar kırmızı renk ile diyagram üzerinde belirtilmektedir.

I kontrol diyagramı incelendiğinde herhangi bir kontrol dışılık durumu Minitab tarafından belirtilmemiştir. Ayrıca; kontrol limitlerinin grafik yanında gösterimi için Tools →

Options → Control Charts and Quality Tools → Other seçeneği sonrası Display contol limit/center line labels for all stages işaretlenmelidir.

MR kontrol diyagramı da I kontrol diyagramına benzer şekilde Stat → Control Charts

→ Variables Charts for Individuals → Moving Range seçeneği kullanılarak oluşturulabilir.

Page 232: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

225

Şekil 61: Minitab ile I Kontrol Diyagramının Oluşturulması

13.2. Appriori All Algoritması ile Sıralı Desen Madenciliği

Bu bölümde, X-R kontrol diyagramının Minitab yazılımı uygulaması, Tablo 13’de yer alan 25 alt grup halinde toplanmış mil çapı derinliği verisi kullanılanılarak gerçekleştirilecektir. Bu amaçla, her alt grupta alınan 4 örnek Minitab çalışma sayfasına girilmiştir. Daha sonra, Stat → Control Charts → Variables Charts for Subgroups → Xbar-R

seçimi Şekil 62’deki gibi gerçekleştirilir.

X bar – R chart ekran formunda, alt gruplara ait verilerin Minitab’e nasıl girildiğine bağlı olarak iki seçimden birinin yapılması gerekmektedir. Eğer tüm gözlem değerleri bir sütunda ise, All observations for a chart are in one column seçilmelidir. Eğer bir alt grup için gözlemler sütunlarda satırlar şeklinde yer alıyor ise Observations for a subgroup are in one row of columns seçeneğinin işaretlenmesi gerekmektedir.

Tablo 13’de yer alan veride, her alt grup için gözlemler 4 sütunda yer aldığı ve her bir satır farklı bir alt grubu ifade ettiği için, Şekil 63’deki gibi Observations for a subgroup are in one row of columns seçeneğinin işaretlenmesi gerekmektedir. Daha sonra, aynı ekran formunda verinin yer aldığı X1, X2, X3 ve X4 sütunlarının seçilmesi gerekmektedir.

X-R diyagramında da uygulanacak testler, I-MR kontrol diyagramlarında olduğu gibi belirtilebilir. Son olarak OK tuşuna basıldığında, kontrol diyagramı Şekil 64’deki gibi çizilecek ve session kısmında test sonuçları yer alacaktır.

Şekil 64’de X kontrol diyagramında, kontrol dışı 4, 16 ve 20 nolu alt grupların kırmızı dolgu ile işaretlendiği görülmektedir. Benzer durum R kontrol diyagramında 18 nolu alt grup

Page 233: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

226

için de geçerlidir. Bu test sonuçları ve kontrol dışı alt grupların bilgileri, metin olarak detaylı şekilde session kısmında yer almaktadır.

Şekil 62: Minitab ile X-R Kontrol Diyagramının Oluşturulması

Şekil 63: X-R Diyagramında Veri Kümesinin Tanımlanması

Page 234: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

227

Şekil 64: X-R Diyagramının Oluşturulması ve Test Sonuçlarının Gözlenmesi

13.3. GSP-Genelleştirilmiş Sıralı Desen Madenciliği Algoritması

Ölçülemeyen özellikler için kontrol diyagramlarının Minitab yazılımı ile nasıl oluşturulacağı, p diyagramı örneği ile ortaya konulacaktır. Bu doğrultuda; Tablo 17’de yer alan 20 haftalık zaman dilimi için hatalı faturaları kontrol etmek amacı ile 200 faturalık rassal örneklerle oluşturulan veri kullanılacaktır. Bu işlemler Şekil 65’de sunulmaktadır.

X-R kontrol diyagramında yer alan 8 testin ilk 4’ü p grafiği içinde kullanılabilir. Hangi testlerin uygulanacağı P chart options →Tests seçeneği ile belirlenebilir. Minitab yazılımında

P kontrol diyagramını çizmek için hatalı oranını ayrı bir sütunda hesaplamaya gerek yoktur.

Hata sayısının ve örneklem büyüklüğünün tanımlanması yeterlidir. p kontrol diyagramı çizildiğinde, Şekil 66’da yer alan kontrol diyagramı elde edilir. Kontrol diyagramı incelendiğinde, kontrol dışı herhangi bir verinin olmadığı görülmektedir.

Ölçülemeyen özellikler için np, c ve u kontrol diyagramları da p kontrol diyagramına benzer şekilde Minitab yazılımı ile kolaylıkla oluşturulabilir.

Page 235: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

228

Şekil 65: p Kontrol Diyagramında Verinin Tanımlanması

Şekil 66: Minitab ile p Kontrol Diyagramının Oluşturulması

Page 236: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

229

Bu Bölümde Ne Öğrendik Özeti

Bu bölümde, Minitab yazılımı kullanılarak kontrol diyagramları ile ilgili uygulamalar gerçekleştirilmiştir. Bu doğrultuda; tekil ölçümler, ölçülebilir değişkenler ve ölçülemeyen özellikler için kontrol diyagramları oluşturulurken, Minitab yazılımında veri kümesinin nasıl tanımlanacağı, kontrol testlerinin nasıl uygulanacağı ve kontrol diyagramları oluşturulduktan sonra elde edilen sonuçların nasıl değerlendirileceği detaylı olarak incelenmiştir.

Page 237: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

230

Bölüm Soruları

1) Halı yapımında kullanılan , kumaş üretim prosesinde malzeme yüzeyleri görsel olarak kontrol edilmektedir. Farklı büyüklüklerde halılar olmasından dolayı, birim alan başına kusur sayısı kullanılmaktadır. 6 farklı örnekten elde edilen değerler aşağıdaki tablodaki gibidir:

Malzeme Malzeme Hata

Sayısı1 180 1

2 120 0

3 150 2

4 120 1

5 200 3

6 200 3

Minitab yazılımı kullanılarak, u kontrol diyagramını oluşturunuz ve tüm kontrol testlerini uygulayarak elde edilen sonuçları yorumlayınız?

2) Bir çelik alaşımın sertlik testi için ardışık 15 tekil ölçüm gerçekleştirilmiştir. Ölçüm verisi sırasıyla 52, 51, 54, 55, 50, 52, 50, 51, 58, 51, 54, 59, 53, 54, 55 şeklindedir. Bu veri kümesi için I-MR kontrol diyagramını Minitab ile çizerek prosesin istatistiksel olarak kontrol altında olup olmadığını yorumlayınız?

3.-4. sorular aşağıdaki problemin veri seti kullanılarak yanıtlanacaktır.

Bir analist bir üretim vardiyasında herbiri 200 üründen oluşan 10 farklı örneklem almış ve herbir örneklemdeki hatalı parça sayısını belirleyerek kaydetmiştir. Hata sayıları aşağıdaki tablodaki gibidir.

Örnek Hatalı sayısı 1 5

2 3

3 7

4 2

5 1

6 4

7 10

8 4

9 1

10 6

3) Minitab yazılımı ile p kontrol diyagramını çiziniz, kontrol testlerini uygulayarak

prosesteki varyasyonu yorumlayınız?

4) Minitab yazılımı ile np kontrol diyagramını çiziniz, kontrol testlerini uygulayarak prosesin istatistiksel olarak kontrol olma durumunu analiz ediniz?

Page 238: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

231

5) Aşağıda saat 8’den 12’ye kadar geçen sürede üretilip torbalanan çimento ağırlıkları ile ilgili tartımlar (kg) numuneler çekilerek belirlenmiştir. Alınan 5 adet numuneye ait ağırlık sonuçları aşağıdaki tablodaki gibidir. X ve R kontrol şemalarını Minitab yazılımı ile çiziniz ve prosesin istatistiksel olarak kontrol olup olmadığını yorumlayınız?

Grup. No 1 2 3 4 5

1 50.1 50.2 50.4 50.1 50.1

2 50.1 50.5 50.7 50.3 50.4

3 50.2 50.3 50.3 50.3 50.2

4 49.8 49.9 49.7 49.7 49.5

5 50.4 50.2 49.7 50.9 50.4

Page 239: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

232

14. WEKA YAZILIMI İLE VERİ MADENCİLİĞİ UYGULAMALARI

Page 240: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

233

Bu Bölümde Neler Öğreneceğiz?

14.1. WEKA Yazılımına Giriş

14.2. WEKA ile Veri Önişleme Uygulamaları

14.3. WEKA ile Sınıflandırma Uygulamaları

Page 241: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

234

Bölüm Hakkında İlgi Oluşturan Sorular

1) Proses yeterlilik indeksleri yeterlilik analizi, bir yazılım kullanılarak nasıl gerçekleştirilebilir?

2) Proses, sigma kalite seviyesi gibi değerler otomatik olarak nasıl hesaplanır?

3) Manuel hesaplamanın olanaksız olduğu büyük veri kümelerini içeren proseslerin yeterlilik analizi nasıl yapılabilir?

Page 242: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

235

Bölümde Hedeflenen Kazanımlar ve Kazanım Yöntemleri

Konu Kazanım Kazanımın nasıl elde edileceği veya geliştirileceği

Minitab ile Proses Yeterlilik

Analizi

Minitab ile proses yeterlilik

analizini gerçekleştirmek Yazılım uygulamaları

Proses Yeterlilik Analizi

Sonuçlarının Yorumlanması Minitab ile yeterlilik

indekslerini ve sigma kalite

seviyesini hesaplayabilmek

ve elde edilen sonuçları yorumlayabilmek

Yazılım uygulamaları

Page 243: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

236

Anahtar Kavramlar

Minitab

Proses Yeterlilik Analizi

Sigma Kalite Seviyesi

Page 244: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

237

Giriş

Bu bölümde Minitab yazılımı kullanılarak bir prosesin yeterlilik analizinin nasıl gerçekleştirileceği, yeterlilik indekslerinin ve sigma kalite seviyesinin nasıl hesaplanacağı konuları ele alınacaktır.

Page 245: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

238

14.1. WEKA Yazılımına Giriş

Proses yeterlilik analizi ile ilgili Minitab uygulaması için Tablo 32’de yer alan ürün ağırlık verisi kullanılacaktır. Bu veri Minitab yazılımın aktarıldıktan sonra, verinin normal dağılıma uyduğu varsayımı ile Şekil 67’deki gibi Stat → Quality Tools → Capability Analysis → Normal seçimi ile proses yeterlilik analizine başlanır.

Şekil 67: Minitab ile Proses Yeterlilik Analizinin Gerçekleştirilmesi

Daha sonra, karşımıza çıkan Capability Analysis ekran formunda veri kaynağının ve proses ile ilgili bazı tanımlamaların belirtilmesi gerekmektedir. İlk olarak; Data arranged as kısmında veri tek sütunda bulunuyor ise Single Column seçeneğinin, eğer alt gruplara ait gözlemler sütunlarda yer alıyor ise Subgroup across rows of seçeneğinin belirtilmesi

gerekmektedir. Tablo 32’den de görülebileceği gibi alt gruplara ait gözlemler sütunlarda yer aldığı için Subgroup across rows of seçeneğinin işaretlenmesi ve X1, X2, X3, X4 ve X5 sütunlarının seçilmesi gerekmektedir. Aynı ekran formunda, alt ve üst spesifikasyon

limitlerininin tanımlanması da ayrıca gerekmektedir. Eğer proseste tek yönlü bir spesifikasyon limiti söz konusu ise sadece alt ve üst spesifikasyon limitinin girilmesi ve diğer alanın boş bırakılması gerekmektedir. Örnek problemin spesifikasyon limitleri olan 23 gram

ve 26 gram değerleri bu alana girilmelidir. Veri kaynağının ve spesifikasyon limitlerinin tanımlanması ile ilgili sözü edilen bu tanımlamaların tamamı, Şekil 68’de sunulmaktadır.

Proses yeterlilik analizinin detaylandırıldığı 10.bölümde belirtilen X-R yöntemi ile yeterlilik indekslerinin hesaplanması için Estimate butonu tıklanarak standart sapmanın tahmini için metotlar kısmında (Methods for estimating within subgroup standart deviation)

Rbar Şekil 69’daki gibi seçilmelidir.

Page 246: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

239

Şekil 68: Proses Yeterlilik Analizinde Veri Kaynağının ve Spesifikasyon Limitlerinin

Tanımlanması

Şekil 69: Proses Yeterlilik Analizi Yönteminin Belirlenmesi

Page 247: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

240

Ayrıca, Cpm indeksinin hesaplanabilmesi için gerekli olan hedef değeri, Options butonu tıklanarak karşımıza çıkan ekran formunda Target kısmına Şekil 70’deki gibi hedef değer girilmelidir. Örnek problem için hedef değer 24.5 gr olarak alınmıştır. Ayrıca, bu ekran formunda Benchmark Z’s seçeneği işaretlendiğinde prosesin sigma kalite seviyesi de Minitab

tarafından hesaplanabilmektedir. Bu seçimler sonrasında, OK butonuna tıklandığında proses yeterlilik analizi sonuçları Şekil 71’deki gibi görüntülenecektir.

Şekil 70: Cpm İndeksi için Proses Hedef Değerinin Tanımlanması

Şekil 71: Minitab ile Proses Yeterlilik Analizi Sonuçları

Page 248: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

241

14.2. WEKA ile Veri Önişleme Uygulamaları

Minitab proses yeterliliği ile ilgili önemli analiz sonuçlarını çıktı olarak vermektedir. Şekil 71’de yer alan yeterlilik analizi sonuçları aşağıdaki gibi yorumlanabilir. Analiz sonuçlarının sol panelinde process data kısmında prosesin alt spesifikasyon ve üst spesifikasyon limitleri, hedef değeri, örneklem ortalaması, örneklem veri sayısı ve standart sapma değerleri yer almaktadır. Burada, Stdev (Within) ve Stdev (Overall) olmak üzere iki farklı standart sapma değeri yer almaktadır. Stdev (Within) değeri X-R yöntemi ile (80) eşitliği kullanarak hesaplanan standart sapma değerini ifade etmektedir. Bu hesaplamalarda verinin altgruplar halinde düzenlendiği kabul edilmektedir. Stdev (Overall) değeri ise verinin alt gruplar halinde toplanma durumunu dikkate almadan 50 gözlem değerinin, Eşitlik (8)

kullanılarak hesaplanan standart sapma değerini ifade etmektedir.

Proses yeterlilik analizinde verinin histogramı ile birlikte, dağılım eğrisi yer almakta

ve histogram üzerinde alt ve üst spesifikasyon değerleri ile birlikte hedef değeri dikey çizgiler ile belirtilmektedir.

Sağdaki panelde ise Cp, Cpl, Cpu ve Cpk yeterlilik indekslerinin değerleri yer almaktadır. Bu indeks değerlerinin, 10.bölümde hesaplanan değerler ile aynı olduğu görülmektedir ve proses yeterli değildir. Analiz sonuçlarının alt kısmında yer alan panellerinde ise Altı sigma projelerinin önemli bir performans göstergesi olan bir milyon fırsattaki kusur sayıları (ppm) yer almaktadır. Alt kısımda en solda yer alan panelde, gözlenen değerlere göre bir milyon üründe alt ve üst spesifikasyon limitlerinin dışında ürün üretilme adeti verilmektedir. Gözlem değerlerin içerisinde, alt spesifikasyon limiti olan 23 gramdan düşük ve üst spesifikasyon limiti olan 26 gramdan daha yüksek bir gözlem yer almadığı için burada her iki değer de 0 olarak görülmektedir. Örneğin; 1 adet gözlem değeri üst spesifikasyon limitinin üzerinde olsaydı, 50 gözlemde 1 adet gözlemin 1 milyon gözlemdeki karşılık gelen değeri 20000 olacağı için PPM USL değeri kısmında 20000 yazacaktı.

Alt bölümün ortadaki panelinde, bir milyonda kusur sayıları beklenen proses performansına göre yer almaktadır. Burada; prosesin hesaplanan ortalama ve standart sapma değeri kullanılarak normal dağılım ile prosesin alt spesifikasyon limiti olan 23 gramdan daha düşük ağırlığa sahip parça üretme olasılığı hesaplanmakta ve bu değer bir milyon ile çarpılmaktadır. Benzer şekilde, prosesin üst spesifikasyon limiti olan 26 gramdan daha büyük ağırlığa sahip parça üretme olasılığı normal dağılım ile hesaplanmaktadır ve bu değer bir milyon ile çarpılarak milyonda kusurlu sayıları bulunmaktadır. Bu panelden de görülebileceği gibi, bir milyon üretimde alt spesifikasyon değerinin altında üretilen ürün adetinin beklenen değeri 0.03 adettir. Bir milyon üretimde üst spesifikasyon değerinin üzerinde üretilen ürün adetinin beklenen değeri ise 36433.91 adettir. Toplamda prosesin, bir milyon üretimde spesifikasyon limitleri dışında üreteceği ürünün beklenen değeri ise 36433.94 adettir.

Alt bölümün en sağında yer alan panelde de, ortadaki panele benzer şekilde bir milyonda kusur sayıları beklenen proses performansına göre yer almaktadır. Tek farklılık, standart sapma değeri olarak Stdev (Within) değeri yerine verinin alt gruplar halinde

Page 249: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

242

toplanma durumunu dikkate almadan hesaplanan Stdev (Overall) değerini kullanmasıdır. Prosesin sigma kalite seviyesi de Options bölümünden Benchmark Z’s seçeneği işaretlenerek görülebilir. Bu sigma kalite seviyesi değeri; 1.79+1.5 = 3.29’dur.

14.3. WEKA ile Sınıflandırma Uygulamaları

Proses yeterlilik analizi detaylı şekilde gerçekleştirildiğinde, aşağıdaki adımlardan oluşmaktadır.

1. X-R (ya da X-S) kontrol diyagramının oluşturulması

2. Normal olasılık grafiğinin çizilmesi

3. Normal dağılım eğrisi ve spesifikasyon limitleri ile histogramın çizilmesi

4. Proses yeterlilik indekslerinin hesaplanması

Minitab ile bu analiz adımlarının tamamı Stat → Quality Tools → Capability Sixpack → Normal seçimi sonrası gerekli tanımlamalar yapılarak gerçekleştirilebilir. Böylece; X ve R kontrol diyagramları, verinin histogramı, normal olasılık grafiği ve normallik testi ve proses

yeterlilik indeksleri Şekil 72’deki gibi eşzamanlı olarak gözlenebilmektedir.

Şekil 72: Minitab ile Detaylı Proses Yeterlilik Analizinin Gerçekleştirilmesi

10987654321

25.8

25.2

24.6

Sa

mp

le M

ea

n

__X=25.252

UCL=25.811

LCL=24.693

10987654321

2

1

0

Sa

mp

le R

an

ge

_R=0.97

UCL=2.051

LCL=0

108642

25.5

25.0

24.5

Sample

Va

lue

s

25.825.224.624.023.4

LSL USL

LSL 23

USL 26

Specifications

262524

Within

O v erall

Specs

StDev 0.4170

Cp 1.20

Cpk 0.60

PPM 36433.94

Within

StDev 0.3971

Pp 1.26

Ppk 0.63

Cpm *

PPM 29789.80

Overall

Process Capability Sixpack

Xbar Chart

R Chart

Last 10 Subgroups

Capability Histogram

Normal Prob PlotA D: 0.529, P: 0.169

Capability Plot

Page 250: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

243

Bu Bölümde Ne Öğrendik Özeti

Bu bölümde; istatistiksel kalite kontrolünün önemli konularından biri olan proses yeterlilik analizi Minitab yazılımı ile gerçekleştirilen örnek uygulamalar ile ele alınmıştır. Bu doğruştuda; Minitab yazılımı kullanılarak, bir proses verisinin yeterlilik analizi yapılmak için nasıl hazırlanacağı, prosese ait farklı yeterlilik indekslerinin nasıl hesaplanacağı ve elde edilen sonuçların nasıl yorumlanacağı öğrenilmiştir. Proses yeterlilik indeksleri ile birlikte önemli bir indeks olan sigma kalite seviyesinin ve milyonda hata sayısının bir proses için Minitab yazılımı ile nasıl hesaplanacağı gösterilmiştir.

Page 251: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

244

Bölüm Soruları

1.-5. sorular aşağıdaki problem verisi kullanılarak yanıtlanacaktır.

Bir vardiyada üretilen ürünlerden, örnek büyüklüğü 5 olacak şekilde 10 alt grup

alınarak tartılmış ve gram olarak ağırlıkları aşağıdaki tablodaki gibi kaydedilmiştir. Üst

spesifikasyon limiti 26 gr. ve alt spesifikasyon limiti 23 gr. olarak belirlenmiştir. Hedef değer ise 24.5 gr’dır.

Alt Grup No X1 X2 X3 X4 X5

1 24.1 24.1 24.4 24.2 24.1

2 24.4 24.3 24.7 24.5 24.1

3 24.2 24.3 24.3 24.1 24.4

4 24.3 24.3 24.2 24.2 24.3

5 24.4 24.9 24.7 24.2 24.4

6 24.7 24.3 24.3 24.5 24.2

7 24.6 24.4 24.7 24.6 24.4

8 24.3 24.7 24.7 24.3 24.6

9 24.5 24.2 24.8 24.5 24

10 24.6 24.7 24.7 24.3 24.1

Bu bilgilere göre;

1. Proses yeterlilik analizini gerçekleştiriniz ?

2. Prosesin Cp, Cpk ve Cpm yeterlilik indekslerinin hesaplayınız?

3. Prosesin sigma kalite seviyesini ve milyonda hata sayılarını hesaplayınız?

4. Prosesin yeterli olup olmadığını yorumlayınız?

5. Proses verisinin histogramını ve X-R kontrol diyagramı da içerecek şekilde detay proses yeterlilik analizini gerçekleştiriniz ve elde ettiğiniz sonuçları yorumlayınız?

Page 252: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

245

EK-A Standart Normal Dağılım Tablosu

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359

0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753

0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141

0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517

0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879

0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224

0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549

0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852

0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133

0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389

1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621

1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830

1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015

1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177

1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319

1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441

1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545

1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633

1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706

1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767

2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817

2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857

2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890

2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916

2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936

2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952

2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964

2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974

2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981

2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986

z 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9

p 0.9987 0.999 0.9993 0.9995 0.9997 0.9998 0.9998 0.9999 0.9999 1

Page 253: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

246

EK-B Kontrol Diyagramları için Faktör Değerleri

Page 254: VERİ MADENCİLİĞİauzefkitap.istanbul.edu.tr/kitap/endustrimuhlt_ue/verimadenciligi.pdfsunulacaktır. Sekizinci bölümde, kümeleme problemlerinin çözümünde kullanılan k-ortalamalar

247

KAYNAKÇA

Besterfield, D. H. (2013). Quality Improvement 9e.

Henderson, G.B. (2011). Six Sigma Quality Improvement with Minitab 2e.

Montgomery, D. C. (2013). Statistical Quality Control: A Modern Introduction 7e.

Sower, V.E. (2010). Essentials of Quallity with Cases and Experiential Exercises 1e.

Baray, A. (2008). Üretimde Varyasyon.

Akın, B., (1996). ISO 9000 Uygulamasında İşletmelerde İstatistik Proses Kontrol –İPK- Teknikleri

Oakland, J. (2007). Statistical Process Control 6e.

Ryan T. P. (2011). Statistical Methods for Quality Imprıvement 3e

Fitzsimmons, J.A. ve Fitzsimmons, M. J. (2011). Service Management Operations,

Strategy, Information Technology 7e.