WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ

Preview:

DESCRIPTION

WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ. Işıl ÇINAR, Muhammet Serkan ÇINAR, Hasan Şakir BİLGE isil.cinar@gazi.edu.tr , mscinar@hacettepe.edu.tr , bilge@gazi.edu.tr. İÇERİK. Veri Madenciliği ve Web Madenciliği Kullanılan Teknikler Literatürdeki Yaklaşımlar - PowerPoint PPT Presentation

Citation preview

Işıl ÇINAR,Muhammet Serkan ÇINAR,Hasan Şakir BİLGEisil.cinar@gazi.edu.tr, mscinar@hacettepe.edu.tr, bilge@gazi.edu.tr

Veri Madenciliği ve Web Madenciliği Kullanılan Teknikler Literatürdeki Yaklaşımlar Web Madenciliği Uygulama Sistem Mimarisi Önişleme Adımları Karşılaşılan Problemler WEKA’da Analiz Sonuç

2

Veri madenciliği basit ve açık olmayan, önceden bilinmeyen ve yararlı olan örüntülerin ya da bilginin çok büyük miktarlardaki veriden çıkarılmasıdır.

Web madenciliği ise veri madenciliği tekniklerinin kullanılarak web belgelerinden ve servislerinden bilginin ayıklanması, ortaya çıkarılması ve tahlil edilmesidir.

3

4

İstatistik Sınıflandırma (Classification) Kümeleme (Clustering) Birliktelik (Association) Regresyon(Regression) Tahmin Etme (Forecasting) Sıralı Desen

5

Literatür çalışmaları 2 açıdan ele alınmıştır.

Web sunucu loglarının analizi, veri madenciliği ve web madenciliği uygulamaları, çıkarılan istatistiksel sonuçlar

Log analizinde saldırıların tespit edilmesi, saldırı çeşitleri ve kullanılan yöntemler

 

6

7

1) Web log dosyalarının sınıflandırılması ve önişleme2) Web içerik ve web kullanım madenciliği

tekniklerinin entegrasyonu ile oluşmuş bir veri tabanından yararlanma

3) E-ticaret alanında web log madenciliği4) World Wide Web Sunucuları için Durum Tabanlı

Saldırı Tespit Sistemi5) Web Uygulamalarında Güvenlik Modeli Kullanılarak

Anomali Tespiti6) Web günlükleri aracılığıyla web kullanım desen

analizi

8

Sistem mimarisi aşağıdaki gibidir :

18

Temizlenen Sunucu Erişim Dosyası

Sunucu Erişim Dosyası

Sunucu Hata Dosyası

WEB MADENCİLİĞİ ALG.

UYGULAMALARI

WEB MADENCİLİĞİ ALG.

UYGULAMALARI

Verinin Alanlara Ayrılması Verinin Alanlara Ayrılması

Veri Seçimi ve EntegrasyonuVeri Seçimi ve Entegrasyonu

WEKA WEKA

Veri TemizlemeVeri Temizleme ExcelConvert Programı ile Arff formatına dönüşüm

ExcelConvert Programı ile Arff formatına dönüşüm

Temizlenen Sunucu Hata Dosyası

Genel olarak kaydedilen verinin miktarına göre değişen iki format mevcuttur: “Common Log Format” ve “Combined Log Format”.

10

IPNO TARİH VE SAAT ISTEKURL DURUM

BOYUT

BASVYER

TARAYICI

66.x.71.181 [26/Aug/2012:06:51:59 +0300]

GET /10957-alt-- HTTP/1.1

200 18512 - Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

66.x.71.181 [26/Aug/2012:06:54:10 +0300]

GET /11001-arnavutkoy-balikcisi HTTP/1.1

200 18693 - Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

213.x.127.13 [26/Aug/2012:06:54:13+0300]

GET /istanbul-restoranlari?start=40 HTTP/1.1

200 18793 - Mozilla/5.0 (compatible; AhrefsBot/3.1; +http://ahrefs.com/robot/)

11

Erişim Dosyasının Özellikleri

Dosyanın Adı Access_websitesi.log.1

Dosyanın Boyutu 313.413.409 KB

Tarih Aralığı 01.10.2012-29.11.2012

Erişim Sayısı 575.576

Hata Günlüğü Dosyasının Özellikleri

Dosyanın Adı error_websitesi.log

Dosyanın Boyutu 86.6 KB

Tarih Aralığı 01.10.2012-29.11.2012

Hata Sayısı 430

Log dosyası Common Log Formatına Göre Excel’e aktarılmıştır.

Identity ve user alanlarında veri olmadığı için bu alanlar silinmiştir.

Zamanla ilgili alanlar birleştirilmiştir. Önişlemeyi daha hassas gerçekleştirebilmek üzere veriler

Access veritabanına aktarılmıştır.

12

Resim ve diğer bağlı olan dosyalar olmadan kaç ziyaret olduğunu tespit etmek amacıyla .gif, .jpg, .css,.js, .png, javascript uzantılı dosyalar silinmiştir.

13

14

Arff Convertor programı ile dönüşüm yapıldığı sırada dosyanın içeriğine arff formatına uymayan yabancı karakterler eklendiği görülmüştür ve bu karakterler temizlenmiştir. Hataların diğer sebepleri arasında arff formatında tek tırnak (‘), noktalı virgül (;), boşluk( ) gibi karakterlerin bulunması yer almaktadır.

15

İşlenen verinin çok büyük olmasından kaynaklanan bellek yetersizliği hatası alınmıştır.

16

Bu hatayı gidermek için Weka’nın kullandığı bellek miktarı artırılmıştır.

17

18

19

Erişimler

Toplam Veri 575.576

Önişlemden Sonra Veri Sayısı 58.988

Günlük Ortalama Erişim 983.13

Ziyaretçi Başına Ortalama Erişim 8.02

Başarılı İstek Sayısı 53.209

Ziyaretçi

Toplam Ziyaretçi 7347

Ortalama Günlük Ziyaretçi 122.45

20

21

22

23

24

Sayfaya ait robots.txt dosyasında yasaklanmış olan url’ler aşağıdaki gibidir:

  User-agent: *Disallow: /administrator/ Disallow: /cache/ Disallow: /components/

Disallow: /images/ Disallow: /includes/ Disallow: /installation/

Disallow: /language/ Disallow: /libraries/ Disallow: /media/ ...

25

Bu çalışma ile web günlük iz bilgileri üzerinde web madenciliği konusunda yapılabilecekler hakkında bilgi verilerek uygulama ile bir prototip oluşturulmuştur.

Veri madenciliğinde bulunan veri ön işleme, veri tanımlama, veri madenciliği teniklerinin uygulanması ve sonuçların sunulması adımlarından oluşan web madenciliği sistem mimarisi sunulmuştur.

26

TEŞEKKÜRLER.

27

Recommended