38
Mehmet AKŞAHİN Bilgisayar Mühendisliği Yüksek Lisans Öğrencisi

Web Mining Nedir Genel Bilgilendirme

Embed Size (px)

Citation preview

Page 1: Web Mining Nedir Genel Bilgilendirme

Mehmet AKŞAHİN

Bilgisayar Mühendisliği Yüksek Lisans Öğrencisi

Page 2: Web Mining Nedir Genel Bilgilendirme

WEB MİNİNG

WEB MADENCİLİĞİ NEDİR?NERELERDE KULLANILIR?

Page 3: Web Mining Nedir Genel Bilgilendirme

GİRİŞ

• Web Madenciliği; birçok mühendisin görüşüne göre ilk kez Etzioni tarafından 1996’da ortaya atılmıştır[1]

• Web Madenciliği, Veri Madenciliğinin alt dalıdır.

• Veri Madenciliğinden yola çıkarak, Web Madenciliği, Metin Madenciliği gibi alt dallar ortaya çıkmıştır.

Page 4: Web Mining Nedir Genel Bilgilendirme

GİRİŞ

• Veri toplamanın önemini kavrayan her firma , kamu kuruluşu ve benzeri kuruluşlar, verileri depolayarak onlardan sonuçlar çıkarmaktadır.

• Ancak veri tabanlarından sorgular yardımı ile elde edilen bilgiler sadece sorgu bazlı bilgiler olup en üst düzeyde faydaya ulaşılamamaktadır. Verilerden en yüksek şekilde faydalanabilmenin yolu veri madenciliğinden geçmektedir.

Page 5: Web Mining Nedir Genel Bilgilendirme

Veri, Metin ve Web Madenciliği

• Veri Madenciliği yerine göre alt dallara ayrılmaktadır.

• Veri madenciliği mevcut veriden anlamlı bilgileri, ilişkileri çıkarmada kullanılan tekniklere verilen genel isimdir. Veri madenciliği yapısal veriyi analiz edebilmekte iken; metin ve web madenciliği yapısal olmayan verinin, veri madenciliğinde kullanılmak üzere, yapısal hale dönüştürülmesinde kullanılmaktadır.

Page 6: Web Mining Nedir Genel Bilgilendirme

Veri, Metin ve Web Madenciliği

• Farklı birçok alanda kullanılabilen veri madenciliğinin alt alanlarından Metin ve Web Madenciliği; yapısal olmayan verinin metin ve web madenciliği yöntemleri ile yapısal hale dönüştürülmesi ile başlar ve teknik işlemlerle devam eder.

• Ancak her şeyden önce; yapısal olmayan verinin, veri,web veya metin madenciliğinde kullanılabilecek bir yapısal veri haline gelmesi gerekmektedir.

Page 7: Web Mining Nedir Genel Bilgilendirme

Yapısal ve Yapısal Olmayan Veriler

• Yapısal veri, bir yapı içerisinde organize edilebilen ve bundan dolayı tanımlanabilen veri için kullanılan bir terimdir. Yapısal veri, içerikteki veri tipine göre organize edilebilen ve arama yapılabilen veridir.

• En yaygın kullanılan yapısal veri kaynakları SQL (Structured Query Language) ve Access gibi veri kaynaklarıdır. SQL kaynaklar için Oracle, PostgreSQL, Microsoft SQL Server gibi yardımcı database programları kullanılabilir.

Page 8: Web Mining Nedir Genel Bilgilendirme

Yapısal ve Yapısal Olmayan Veriler

• Buna karşın yapısal olmayan verinin tanımlanabilir bir yapısı yoktur.

• En çok bilinen yapısal olmayan veri türleri; resim dosyaları, pdf, word ve text gibi metin dosyaları, web üzerinde tutulan log dosyaları ve epostalardır. Excel gibi hücre yapısına sahip veri türleri yapısal olmasına rağmen halen yapısal olma ve olmama konusundaki yeri tartışmalıdır.

Page 9: Web Mining Nedir Genel Bilgilendirme

Veri Madenciliğinin Metin ve Web Madenciliğindeki Rolü

• Veri madenciliği çözümleri ve algoritmalar metin veya web verisindeki kalıplar bulmadan veya model oluşturmadan önce metin veya web verisinin yapısal olması gerekmektedir.

• Metin ve Web madenciliği işlemleri, veri madenciliğinde kullanılacak yapısal veriye ulaşmak için kullanılan araçlar olarak tanımlanabilir

Page 10: Web Mining Nedir Genel Bilgilendirme

Metin ve Web Madenciliği

• Metin ve web madenciliği son yıllarda oldukça fazla çalışılan birbiri ile ilişkili alanlardır. Metin madenciliği, çok büyük belgelerin analizi ve metin tabanlı verinin içerisindeki gizli kalıpların elde edilmesidir.

• Web madenciliği ise, web içerikleri, sayfa yapıları ve web bağlantı istatistiklerinin de içinde olduğu web ile ilişkili olan verinin analizini içermektedir [10].

Page 11: Web Mining Nedir Genel Bilgilendirme

Metin Madenciliği

• Kısaca Metin Madenciliğinden bahsedersek;

• Metin verisindeki anlamın ortaya çıkarılabilmesi için kullanılan yöntem metin madenciliğidir.

• Metin yazımında standart kurallar olmadığından dolayı bilgisayar bunları anlayamamaktadır.

Page 12: Web Mining Nedir Genel Bilgilendirme

Metin Madenciliği

• Yapısal olmayan bilgiden içerik çıkarmak için kullanılan geleneksel yöntemler; dilbilimsel olmayan yöntemlerdir.

• Bu yöntemler, hem sorgudaki hem de metindeki kelimelerin karakterlerini karşılaştıran bir temele dayanır. Bundan dolayı içeriği açıklayıcı sonuçlar elde edemez.

Page 13: Web Mining Nedir Genel Bilgilendirme

Metin Madenciliği

• Dili anlamanın temeli dilbilimsel yollara dayanır ve bu Natural Language Processing (NLP) olarak ifade edilir.

• NLP’yi içeren bir sistemde, karmaşık yapıların bulunduğu ifadeler (örneğin; duştan akan soğuk su ile içilen soğuk su arasındaki fark gibi) akıllı olarak çıkarabilmekte ve terimleri sınıflayarak; ürünler, organizasyonlar veya kişiler gibi sınıflara atamaktadır.

Page 14: Web Mining Nedir Genel Bilgilendirme

Web Madenciliği Giriş

• Tüm bu özetlerden sonra asıl konumuz olan Web Madenciliğine giriş yapacağız.

• Başta da belirtildiği gibi Web Madenciliğini anlayabilmek için Veri Madenciliğini anlamak ve Metin Madenciliği hakkında yüzeysel bilgi sahibi olmak gerekmektedir.

Page 15: Web Mining Nedir Genel Bilgilendirme

Web Madenciliği

• Web kullanım madenciliği, bir veya birçok web sunucusundan kullanıcı erişim desenlerinin otomatik keşfinin ve analizin yapıldığı bir tip veri madenciliği etkinliğidir.

• Birçok kuruluş pazar analizleri için geliştirdikleri stratejileri ziyaretçi bilgilerine dayanarak yerine getirir. Kuruluşlar günlük operasyonlarla her gün yüzlerce MB veri toplamaktadır.

Page 16: Web Mining Nedir Genel Bilgilendirme
Page 17: Web Mining Nedir Genel Bilgilendirme

Web Madenciliği

• Bu bilgilerin çoğu web sunucuların otomatik olarak tuttuğu günlük dosyalarından elde edilir. Günlük dosyaları, istemciden sunucuya gönderilen her bir isteğin bir kayıt olarak eklenmesi ile meydana gelir.

• Günlük dosyalarının analizi, müşterilerin ilgi alanları, ürünler üzerinden pazar stratejileri oluşturma, promosyon kampanyalarının etkisi gibi hususlarda, kurumlara karar süreçlerinde yardımcı olur.

Page 18: Web Mining Nedir Genel Bilgilendirme

Web Madenciliği

• Sunucu erişim kayıtlarının ve kullanıcı kaydı verilerinin analizi, aynı zamanda kurumun daha etkili bir sunumunun yapılabilmesi için Web sitesini nasıl daha iyi hale getirebileceği hakkında değerli bilgiler sağlar.

• İntranet teknolojilerini kullanan kurumlarda, bu tür analizler çalışma grubu iletişimi ve kurumsal altyapının daha iyi işletilmesine ışık tutabilir.

Page 19: Web Mining Nedir Genel Bilgilendirme

Web Madenciliği

• Son olarak, World Wide Web üzerinden reklam yapan kurumlar için kullanıcı erişim desenlerini analiz etmek, reklamların belirli bir kullanıcı grubuna yönlendirilmesine yardımcı olur

• Web madenciliği alanları ve web kullanım madenciliği aşamaları şeması bir sonraki slaytta verilmiştir.

Page 20: Web Mining Nedir Genel Bilgilendirme

Web Madenciliği

Web İçerik Madenciliği

Web Yapı Madenciliği

Web Kullanım Madenciliği

Web Sayfa İçerik

Madenciliği

Arama Sonuç

Madenciliği

Genel Web Kullanım

Madenciliği

Site Güncelleme Sistemleri

Sistem İyileştirme Kişiselleştirme

Page 21: Web Mining Nedir Genel Bilgilendirme

Web Madenciliği

Web İçerik Madenciliği

Web Yapı Madenciliği

Web Kullanım Madenciliği

Erişilebilir web kaynaklarından faydalı bilgi bulmaya çalışır

Web sitesi ve sayfalarının yapısal olarak özetini çıkarmaya çalışır

Kullanıcı erişimleri esnasında oluşan hareket verisinden anlamlı ve faydalı paternler bulmaya çalışır

Page 22: Web Mining Nedir Genel Bilgilendirme

1. Web İçerik Madenciliği

• Web içerik madenciliği ile web sayfalarının içerikleri incelenir ve kullanışlı bilgi çıkarımı sağlanır.

• Web içerik madenciliği kullanarak web sayfalarının başlıklar, içerisinde geçen kelimeler, resimler veya müzik dosyalar incelenir. Bulunan içeriklere göre web siteleri belirli sınıflara veya kümelere ayrılabilir

Page 23: Web Mining Nedir Genel Bilgilendirme

1. Web İçerik Madenciliği

• Web içerik madenciliği web kaynaklarından otomatik bilgi arama tekniklerini tanımlar. Verinin farklı tiplerde oluşu ve yapısal olmayışı bu konudaki tekniklere daha karışık yaklaşımlar kazandırır.

• İki tip veri madenciliği stratejisi olabilir; metin içeriklerini doğrudan arama ya da arama motorları gibi araçların aramalarını yardımcı alan.

Page 24: Web Mining Nedir Genel Bilgilendirme

2. Web Yapı Madenciliği

• Web erişim araçlarının çoğu çok değerli olabilecek bağlantı(link) verisini gözardı ederek sadece text verisine ulaşır, Web yapı madenciliğinin amacı web sitesi ve web sayfası hakkında bağlantı verisine bakarak bilgi üretmektir.

• Teknik olarak, Web içerik madenciliği dökümanın içeriğine, yapı madenciliği ise dökümanlar arası bağlantılara yoğunlaşır

Page 25: Web Mining Nedir Genel Bilgilendirme

2. Web Yapı Madenciliği

• Yani web yapı madenciliği ile internetin temel yapısını oluşturan web siteleri, web sayfaları arası ya da web sayfasındaki bağlantılar arasındaki ilişkiler incelenir.

Page 26: Web Mining Nedir Genel Bilgilendirme

3. Web Kullanım Madenciliği

• Web kullanım madenciliği ile web sunucularında tutulan kullanıcı erişim kayıtları incelenerek anlamlı ve faydalı kalıplar bulunabilir. Web kullanım madenciliği yöntemleri uygulanarak web sitelerini ziyaret eden kişilerin davranış ve tutumları belirlenebilir

Page 27: Web Mining Nedir Genel Bilgilendirme

3. Web Kullanım Madenciliği

• Web kullanım madenciliği kullanıcıların web’de dolaşırken yaptıkları erişim hareketlerince oluşturulan veriden bilgi üretmeyi hedefler.

• Bu konudaki çalışmalar Genel Web Kullanım Madenciliği, Site Güncelleme Sistemleri, Sistem İyileştirme ve Kişiselleştirme başlıkları altında toplanabilir.

Page 28: Web Mining Nedir Genel Bilgilendirme

3. Web Kullanım Madenciliği1. Genel Web Kullanım Madenciliği Sistemleri kullanıcıların genel

davranış biçimerini bilinen ya da önerilen veri madenciliği algoritmalarını sunucu erişim dosyalarındaki veriye uygulayarak bulmaya çalışır.

2. Site Günçelleştirme Sistemlerinin hedefi ise site içerik ve yapısında yapılması gereken tadilatları bulmaktır.

3. Sistem İyileştirme üzerine yapılan araştırmalar web kullanım verisini kullanarak trafiği etkinleştirmeyi hedefler.

4. Son olarak, kişiselleştirme çalışmaları bireysel taleplere gore değişen siteler oluşturmaya çalışır

Page 29: Web Mining Nedir Genel Bilgilendirme

Patern Bulma Teknikleri

• Her web madenciliği işlemi çeşitli araştırma alanlarından uyarlanan patern bulma tekniğine ihtiyaç duyar.

Page 30: Web Mining Nedir Genel Bilgilendirme

Veri Temizleme

Veri Entegrasyonu

İlgiliVeri

Seçim

Veri Madenciliği Patern Tespiti

Patern Değerlendirme

Veritabanı

Anlamlı Bilgi

Page 31: Web Mining Nedir Genel Bilgilendirme

Patern Bulma Teknikleri

• Tanımsal İstatistik : Web sitesindeki veriyi tanımlamakta ve bilgi elde etmekte kullanılan en güçlü teknikler istatistik metodlardır. Analist farklı değişkenleri baz alan tanımlayıcı istatistik analizler yapabilir.

Page 32: Web Mining Nedir Genel Bilgilendirme

Patern Bulma Teknikleri

• İlişkilendirme Kuralları (Association Rules): Web alanında beraber kullanılan sayfalar ilşkilendirme kuralları uygulanarak bulunup aynı sunucuya konulabilirler. İlişkilendirme kuralları genelllikle veri tabanındaki veriler arasındaki ilşkileri tespit etmeye çalışır.

Page 33: Web Mining Nedir Genel Bilgilendirme

Patern Bulma Teknikleri

• Gruplama (Clustering) : Gruplama(kümeleme) analizi veriler arasında benzer karakteristik değerler taşıyanları bir araya getirerek gruplar oluşturmayı hedefler.

• Sınıflandırma (Classification) : Bu teknikler verileri ait oldukları tanımlı sınıflara koymaya çalışır..

Page 34: Web Mining Nedir Genel Bilgilendirme

Patern Bulma Teknikleri

• Sıralı Paternler : Zamana yayılan veri kümeleri arasında benzer paternler bulmaya çalışılır.

• Bağımlılık Modellemesi : Web değikenleri arasındaki bağımlılıkları ortaya çıkaran modeler oluşturmak hedeflenir.

Page 35: Web Mining Nedir Genel Bilgilendirme

SONUÇ

• Web madenciliğinin günümüzde birçok alanda kullanılmasının en önemli sebebi; kişilerin web sayfalarında göstermiş oldukları davranışların, hareketlerin ve yapmış oldukları işlem bilgilerinin var olan iş süreçlerine entegrasyonunu sağlayarak müşterinin en iyi şekilde anlaşılmasını sağlayan müşteri odaklı bir sistem oluşturmasıdır.

Page 36: Web Mining Nedir Genel Bilgilendirme

Örnek

2002-01-06 13:45:24 65.116.145.138 - 193.255.141.93 80 GET /dersler/grafik/Notes/default.html - 200 Mozilla/4.0+(compatible;+MSIE+5.0;+Windows+98;+DigExt)

Page 37: Web Mining Nedir Genel Bilgilendirme

Örnek

Page 38: Web Mining Nedir Genel Bilgilendirme

Kaynaklar• [1] Chakrabarti, S. (2003), Mining the Web: Discovering Knowledge from Hypertext Data, Morgan Kaufmann• Publishers, San Francisco.• [2] Dolgun, M.Ö. (2006), Büyük Al$veri$ Merkezleri Kçin Veri Madencilii Uygulamalar, Yüksek Lisans Tezi,• Hacettepe Üniversitesi Fen Bilimleri Enstitüsü, Ankara.• [3] Han, J., Kamber, M. (2001), Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers, San• Francisco.• [4] Hearst, M. (2009), What is text mining, http://www.sims.berkeley.edu/~hearst/textmining.html.• [5] Introduction to Text Mining (2008), SPSS Inc.• [6] Liu, B. (2007), Web Data Mining: Exploring Hyperlinks, Contents and Usage Data, Springer.• [7] Özdemir Güzel, T., Dolgun, M.Ö., Patr, U., Delilolu, S., Korkmaz, H.E. (2007), 2005 Yl Örenci Seçme• Snav (ÖSS) Verileri Kullanlarak Örenci Profilinin Belirlenmesi, 5. +statistik Kongresi, Antalya.• [8] Shapiro-Piatetsky, G., Steingold, S. (2000), Measuring Lift Quality in Database Marketing, ACM SIGKDD• Explorations Newsletter, 2(2), 76-80.• [9] Sholom M.W., Indurkhya N., Zhang T., Damerau F. (2004), Text Mining: Predictive Methods for• Analyzing Unstructured Information, Springer.• [10] Tan, A.H., Yu, P.S. (2004), Guest Editorial: Text and Web Mining, Applied Intelligence 18, 239-241,• Kluwer Academic Publisher.• [11] Unstructured data (2009), http://en.wikipedia.org/wiki/Unstructured_data.• [12] W. Fan, L. Wallace, S. Rich, Z. Zhang. (2006), Tapping into the power of text mining, Communications of• ACM, 49(9), 76-82.