Veri Tabanı, Veri Ambarı, Veri Madenciliği Keşfi Aşamaları Apriori … · 2015. 12. 28. ·...

Preview:

Citation preview

1

Veri Tabanı, Veri Ambarı, Veri Madenciliği

Bilgi Keşfi Aşamaları

Apriori Algoritması

Veri Madenciliği Yöntemleri

Problemler

Veri Madenciliği Uygulama Alanları2

Bir bilgisayarda sistematik şekilde saklanmış, programlarca istenebilecek veri yığınıdır.

Veri Tabanı Yönetim Sistemi

Information Science

3

4

Veri tabanında asıl önemli kavram, kayıt yığını ya da bilgi parçalarının tanımlanmasıdır.

Buna ŞEMA adı verilir.

Şema veri tabanında kullanılacak bilgi tanımlarının nasıl modelleneceğini gösterir.

Buna DATA MODEL denir.

En yaygın olan data model İLİŞKİSEL MODEL’dir.

5

6

Veri tabanı yazılımları ise verileri sistematik bir biçimde depolayan yazılımlardır.

Birçok yazılım bilgi depolayabilir ancak aradaki fark ,veri tabanının bu bilgiyi verimli ve hızlı bir şekilde yönetip değiştirebilmesidir.

7

8

Veri ambarı ilişkili verilerin sorgulanabildiği ve analizlerin yapılabildiği bir depodur.

Başlangıçta farklı kaynaklardan gelen verinin üzerinde daha etkili ve daha kolay sorguların yapılmasını sağlamaktadır.

9

10

Off-Line çalışır. Veri değişiminden çok

sorgulama yapılır. Eski veriler saklandığı

için veri miktarı çok. Üst yönetim ve

analistler kullanır.(kullanıcı sayısı az)

Veri madenciliği gibi uzun süreçler sonucunda analizler yapılır.

On- Line çalışır. Veri değişimi işlemleri

yoğunluktadır. Güncel veriler saklandığı

için veri miktarı daha az. Veriye ulaşmak ve

değiştirmek isteyen her kullanıcıya hitap eder.(kullanıcı sayısı çok)

Sorgularla istenilen sonuçlara anında ulaşılabilir.

11

12

Veri madenciliği en basit şekilde büyük miktarda veri içerisinden gelecekle ilgili tahmin yapmamızı sağlayacak modellerin veya bağlantıların oluşturulmasıdır.

13

Riski az olan tüm kredi kartı başvurularını bul

Harcama alışkanlığı benzer olan kredi kartı sahiplerini bul

DVD ile birlikte sıkça satılan ürünü bul

14

Veri madenciliği yazılımı, genellikle ilgisiz olarak görülen çok büyük hacimlerdeki verilerden anlamlı örnekleri çıkarır.

15

1950• İlk bilgisayarlar

1960• Veri tabanı ve verilerin depolanması

1970

• İlişkisel veri tabanı yönetim sistemleri

• Basit kurallara dayanan uzman sistemler ve makine öğrenimi

1980• Büyük miktarda veri içeren veri tabanları

1990

• Veri tabanlarında bilgi keşfi

• Veri madenciliği için ilk yazılım

2000• Tüm alanlar için veri madenciliği uygulamaları

16

17

Veri tabanlarında bilgi keşfi işlemleri, son yıllarda veri tabanına sahip çevrelerde büyük ilgi toplamaktadır.

Bilgi keşfinin birkaç aşaması vardır.

18

Veri madenciliği buradaki modelin kurulması ve modelin değerlendirilmesi aşamalarından meydana gelmektedir.

Şekil 1

Veri madenciliği

19

Problemin tanımlanması: Uygulamanın hangi

işletme amacı için kullanılacağı belirlenir.

Veri hazırlanması: Kendi içinde toplama ,değer biçme,birleştirme ve temizleme,seçme ve dönüştürme olarak ayrılır.

20

21

Model kurulması: Yapılacak uygulama için en

güvenilir ve güçlü modeli bulmak gerekir. Model çeşitleri ;

sınıflama,

kümeleme,

birliktelik kuralı.

Modelin kullanılması: Modeller birçok alanda kullanılıyor.

Modelin izlenmesi: Değişen şartlara göre güncelleme yapılmalıdır.

22

Veri madenciliğinde ,birliktelik kuralı çıkarım algoritmaları içerisinde en fazla kullanılan algoritmadır.

24

Bu algoritmada temel yaklaşım, “eğer k-öğe kümesi minimum destek kriterini sağlıyorsa, bu kümenin alt kümeleri de minimum destek kriterini sağlar. ” şeklindedir.

Bir veya daha çok öğeden oluşan küme – k-öğe kümesidir.

25

Destek kriteri, veride öğeler arasındaki bağıntının ne

kadar sık olduğunu belirtir.

X ve Y için destek her alışverişte birlikte bulunmalarıdır.

Güven kriteri ise Y ürününün hangi olasılıkla X ürünü ile beraber olacağını söyler.

26

Apriori algoritmasına örnek

27

Minimum destek ve güven değeri

belirlenir

Öğeler kümesi içerisindeki her öğenin destek

değeri bulunur

Minimum değerden küçük olanlar alınmaz

İkili birliktelikler oluşturulur

Minimum destek değerinden küçük

öğe kümeleri çıkarılır

Üçlü birliktelikler oluşturulur.

Üçlü birlikteliklerden destek değerini

geçenler çıkarılır.

28

*TAHMİNİ YÖNTEMLER

*TAMAMLAYICI YÖNTEMLER

En Yakın KomşuYapay Sinir Ağları

Karar Ağaçları

Tahmini yöntemler Tamamlayıcı yöntemler

Regresyon

Sınıflandırma

Kümeleme

Birliktelik Kuralı

1.

2.

3.

30

Bellek tabanlı bir tekniktir.

1. • Yeni gelen birey sınıfa eklenir.

2.• k komşusuna bakılır.

3.

• Çeşitli uzaklık fonksiyonları kullanılarakuzaklık hesaplanır.

4.• En yakın neresi ise birey oraya atanır.

31

*YSA ile basit biyolojik

sinir sisteminin çalışma

şekli taklit edilir.

*Nöron sisteminin çeşitli

şekilde bağlanarak

oluşturduğu ağlar öğrenme, hafızaya alma ve veriler arasındaki ilişkiyi ortaya çıkarma kapasitesine sahiptirler.

32

Karar ağaçları ile ağaç oluşturulduktan sonra, köktenyaprağa doğru inilerek kurallar yazılabilir.

33

• Karar düğümü: Veriye uygulanacak test tanımlanır.

• Dal:Testin sonucunu gösterir.

• Yaprak:Dalın sonucunda bir sınıflandırma elde edilebiliyorsa yaprak elde edilmiş olur.

34

Regresyon analizi, iki ya da daha çok değişken arasındaki ilişkiyi ölçmek için kullanılan analiz metodudur.

Örneğin;

Bir ziraatçi için buğday verimi ve gübre miktarıarasındaki ilişki

Bir mühendis için basınç ve sıcaklık ilişkisi

35

Amaç, küme üyelerinin birbirlerine çok benzediği, ancak özellikleri birbirlerinden çok farklı olankümelerin bulunması ve veri tabanındaki kayıtlarınbu farklı kümelere bölünmesidir.

36

Veriler arasındaki ilginç birlikteliklerin, ilişkilerin ve bağıntıların kurallar halinde bulunması işlemidir.

Numara

Ürünler

1 Ekmek, kola, süt

2 Meyve suyu, ekmek

3 Meyve suyu, kola, çocuk bezi, süt

4 Meyve suyu, ekmek, çocuk bezi, süt

5 Kola, çocuk bezi, süt

Bulunan Kurallar;

Süt KolaÇocuk bezi, Süt Meyve suyu

37

1-)Riski az olan tüm kredi kartı başvurularını bul (sınıflandırma)

2-)Harcama alışkanlığı benzer olan kredi kartı sahiplerini bul

(kümeleme)

3-)DVD birlikte sıkça satın alınan ürünü bul (birliktelik kuralı)

38

PROBLEMLER

Artık Veri

Belirsizlik

Boş Veri

Dinamik Veri

Gürültü ve Kayıp Değerler

Veritabanı Boyutu

Artık veri:

Problemde istenilen sonucu elde etmek için kullanılan örneklem kümesindeki gereksiz niteliklerdir.

Belirsizlik:

Yanlışlıkların şiddeti ve verideki gürültünün

derecesi ile ilgilidir.

Gürültülü ve kayıp değerler:

Veri girişi veya veri toplanması esnasında

oluşan sistem dışı hatalara gürültü denir.

40

Boş veri:

Boş değer, kendisi de dâhil olmak üzere

hiçbir değere eşit olmayan değerdir.

Dinamik veri:

Kurumsal çevrim içi veri tabanları dinamiktir ve içeriği sürekli olarak değişir.

Veritabanı boyutu:

Büyük bir hızla artan veri tabanı boyutları küçük örneklemleri ele alabilecek boyuttaki veri tabanı algoritmalarını zorlar.

41

Büyük hacimde veri bulunan her yerde veri madenciliği kullanmak mümkündür.

Kaynaklar incelendiğinde veri madenciliğinin en çok kullanıldığı alan olarak tıp, biyoloji ve genetik görülmektedir.

43

Taşımacılık ve ulaşım

Turizm ve otelcilik

Belediyeler

Eğitim

Bilim ve mühendislik

İnternet

Pazarlama

Bankacılık

Sigortacılık

Elektronik Ticaret

Telekomünikasyon

Tıbbi Araştırmalar

Bunlar kullanım yerlerine göre aşağıdaki gibi sınıflandırılmıştır:

44

Bu alanda en çok başvurulan veri

madenciliği yaklaşımı sepet analizidir.

Müşterilerinin satın alma

alışkanlıklarının belirlenmesi

Mevcut müşterilerin elde tutulması,

yeni müşterilerin kazanılması

Müşteri ilişkileri yönetimi

Müşteri değerlendirme

Satış tahmini

45

Kredi kartı dolandırıcılıklarının tespiti

Kredi kartı harcamalarına göre müşteri guruplarının belirlenmesi

Kredi taleplerinin değerlendirilmesi

• Yeni poliçe talep edecek müşterilerin tahmin edilmesi

• Sigorta dolandırıcılıklarının tespit edilmesi

• Riskli müşteri guruplarının belirlenmesi

46

Saldırıların çözümlenmesi

e-CRM uygulamalarının yönetimi

WEB sayfalarına yapılan ziyaretlerinin çözümlenmesi

Kullanıcı davranışlarına göre web sitesinin yenilenmesi

47

İletişim ağlarında sorunlu bölgelerin tespiti

Kaçak hat kullanımlarının belirlenmesi

Kullanıcı davranışlarının belirlenmesi

Müşteri davranışlarına göre yeni hizmet-

lerin sunulması

• DNA içerisindeki genlerin sıralarının belirlenmesi

• Protein analizlerinin yapılması

• Hastalık haritalarının hazırlanması

• Hastalık tanıları

• Sağlık politikalarına yön verilmesi48

Verilerin anlamlandırılması

Üretim sistemlerinin benzetimi

Simülasyon ve sistem kullanımının

arttırılması

Kalite kontrol uygulamaları

Deprem verilerinin analizi ile deprem ve etkilerinin tahmini

İnternet ve web üzerindeki veriler hem hacim hem de karmaşıklık olarak hızla artmaktadır. Web madenciliği özetle internetten faydalı bilginin keşfi olarak tanımlanabilir.

Örneğin internet üzerinden kitap satan Amazon şirketi BookMatcher adlı programıyla müşterilerine okudukları ve sevdikleri kitaplara göre satın almaları için kitap tavsiye etmektedir.

49

Rms

Büyüklük

Derinlik

0

2

4

6

8

10

12

Bingöl Çanakkale Amasya Erzurum

04/12/2015 Tarihli Depremler

Rms Büyüklük Derinlik

DEPREM VERİLERİNİN ANALİZ ÖRNEĞİ

50

51

Ulaş Baran Baloğlu tarafından 2006 yılında

gerçekleştirilen uygulamada, DNA veri kümesinde bulunan biyolojik sıralar üzerinde veri madenciliği yapılarak tekrarlı örüntüler ve potansiyel motifler çıkartılmıştır. Önerilen yöntem yukarıdan-aşağı veri madenciliği ve genetik algoritma tabanlı hibrit bir çözümdür.

52

Feridun Cemal Özçakır ve A. Yılmaz Çamurcu

(2007) tarafından gerçekleştirilen bir çalışmada, bir firmanın pastane satış verileri üzerinde veri madenciliği uygulamak için birliktelik kuralları ile bir yazılım tasarlanmıştır. Genelde aynı ürün grubuna ait ürünlerin, en sık birlikte satın alınan ürünler olduğu görülmüştür.

53

• BAŞAK ÇOBAN• MERVE SARITAŞ• AZİME AKÇAÖZ• BÜŞRA AYDEMİR 54

Recommended