Veri madenciliği ve ids

Preview:

DESCRIPTION

Veri madenciliği teknikleri ile saldırı tespiti üzerine bir çalışma A study on data mining based intrusion detection

Citation preview

Veri Madenciliği ve IDS

Hazırlayan ve Sunan

Hidayet TAKCI

htakci@bilmuh.gyte.edu.tr

VERİ MADENCİLİĞİ

Veri madenciliği nedir?

Anlamlı desenler ve kurallar bulmak için büyük miktardaki verinin analiz ve keşfidir.

Verinin faydalı özetinin ortaya çıkarılmasıdır.  Çok büyük veritabanlarındaki gizli kalmış global desenler

ve hasta verileri ile onların  teşhis verileri arasındaki ilişkiler gibi ilişkilerin taranıp bulunmasıdır.

Veri madenciliği verinin analizi ve veri kaynaklarındaki benzerlik ve desenleri bulmak için  kullanılan yazılım teknikleri ile ilgilidir.   

Veri madenciliği analizleri veriden işe güvenilir karar ve sonuçlara varmak için verinin dönüşümü ile ilgilidir

Aşamaları nelerdir?

Seçim: Madenciliği yapılacak veri belli kriterlere göre seçilir veya bölümlere ayrılır.

İlk İşlem: Bu aşama veri temizleme aşamasıdır, gereksiz görülen bilgi silinir, mesela gebelik testinde cinsiyet bilgisinin silinmesi gibi.

Dönüşüm: Veri sadece bir yerden bir yere taşınmaz, veri kullanılabilir ve yönetilebilir hale getirilir.

Veri Madenciliği: Bu aşama verideki desenlerin açığa çıkarılması ile ilgili aşamadır.

Yorum ve Biçimlendirme: Bu aşamada insani karar verme, tahmin ve sınıflama işleri, veritabanının içerik özeti ve bilgiye çevrilen desenler sistem tarafından tanımlanır.

Problemleri nelerdir?

Limitli Bilgi Gürültü ve Kayıp Değerler Belirsizlik Boyut, güncelleme ve ilişkisiz sahalar

Geri planında hangi disiplinler bulunur?

Makine öğrenimi Uzman sistemler İstatistik Veritabanları Görselleştirme

Uygulamaları nelerdir?

1. Bağıntı (Assocation) (Ör: Sepet Analizi)

2. Sınıflandırma (Classification)

3. Regrasyon (Ör: Kredi Skorlama)

4. Zaman içinde sıralı örüntüler (Sequence patterns in time)

5. Benzer zaman sıraları (time series)

6. İstisnalar (Ör: Fark Saptanması)

7. Doküman madenciliği (Web Mining)

Teknikleri nelerdir?

1. İstatistiksel Yöntemler (Statistical Methods)

2. Bellek Tabanlı Yöntemler (Memory Based Reasioning)

3. Sinir Ağları (Neural Networks) 4. Karar Ağaçları (Decision Trees)

Örnek bir çalışma

Yaklaşık üç ay boyunca web sunucusu üzerinde toplanan günlük verileri analiz için seçildi (seçim).

Sunucu dosyası içindeki analiz değeri olmayan (resim dosyası istekleri vs.) kayıtlar elendi (ilk işlem)

Veriler dosyalardan veritabanına aktarıldı ve bazı veriler üzerinde dönüşümler yapıldı (tarih ve saat gibi) (dönüşüm)

Eğitilmeye hazır hale gelen veriler sınıflandırma işlemine tabi tutuldu, bu işlemi yaparken karar ağaçları tekniğinden faydalanıldı. (veri madenciliği)

Sınıflandırma sonrasında saldırı yapan ve normal kullanıcıların profilleri ortaya çıkarıldı. (yorum biçim)

SALDIRI TESPİT SİSTEMLERİ

Saldırı nedir?

Bilgisayar sistemleri için güvenlik hedefleri; güvenilirlik, bütünlük ve kullanılabilirliktir.

Bu güvenlik hedeflerini tehlikeye atmaya çalışan etkilere saldırı adı verilir.

Saldırı engelleme için kullanılan doğrulama, şifreleme ve benzeri teknikler yeterli değildir. Bu yüzden saldırı tespit sistemi bir ihtiyaçtır.

Saldırı tespit sistemi nedir?

Saldırı tespit sistemleri, İnternet veya yerel ağdan gelebilecek ve ağdaki sistemlere zarar verebilecek, çeşitli paket ve verilerden oluşabilen saldırıları fark etmek üzere tasarlanmış sistemlerdir. Temel amaçları belirlenen kurallar çerçevesinde bu saldırıları tespit ederek mail , sms , snmp mesajları gibi araçlarla haber vermek ve gerekliyse bu saldırıyı önlemektir.

Saldırı tipleri nelerdir?

Bir sisteme yapılan saldırılar genellikle; Harici ataklar Bir başkası gibi görünme İmtiyazı kötüye kullanma Gizli kullanıcılar

şekillerinde ortaya çıkmaktadırlar. Saldırıları etkisiz hale getirmek için ise

engelleme, ele geçirme, caydırma, biçim bozma ve bulma gibi teknikler kullanılabilir.

Saldırı tespiti metotları nelerdir?

Anormallik Tabanlı: normal ve normal olmayan kullanıcılar için tipik desenler tespit edilir ve kullanılır.

İmza Tabanlı: önceki atakların ve eşleşen desenlerin imzası modellenir.

Otomatik Kurallar: tarihsel bilgi kullanılarak normal ve saldırı trafiği modellenir.

Kural Merkezli Politika: kurallar uzmanlar tarafından belirlenir.

Saldırı tespiti yaklaşımları nelerdir?

Kötüye Kullanım Tespiti: saldırıları tanımak için çok iyi bilinen desenlerden faydalanılır.

Problemi:saldırı desenleri elle kodlanır ve ilk kez yapılan saldırılar tanınamaz.

Anormallik Tespiti: normal kullanım desenlerinden faydalanılarak normal olmayan (saldırı) desenler bulunur.

Problemi: olaylar arasındaki ilişkilerin yakalanması mümkün olamamaktadır.

Veri Madenciliği Yaklaşımı

Saldırı tespiti için bir başka yaklaşım veri madenciliği yaklaşımıdır.

Öğrenim ve tespit ajanları bulunur. Akıllı ajan tabanlı bir yaklaşımdır.

Öğrenim ajanları tespit modelleri ile devamlı eğitilirler, tespit ajanları ise saldırıların tespiti için güncellenmiş modeller sunarlar.

SALDIRI TESPİTİ VE VERİ MADENCİLİĞİ

Saldırı Tespitinde Veri Madenciliği

Saldırı tespitinde veri madenciliği kullanımının sebepleri şunlardır; Denetleme(audit) verisi üzerinde normal ve

saldırı etkinlikleri kanıt bırakırlar. Veri merkezli bakış açısından bakıldığında

veri saldırı tespiti bir veri analiz işidir. İstisna saptanması ve hata yönetimi gibi

başarılı uygulamalarla aynı etki alanı içerisindedir.

Amaç

Web günlük dosyalarını kullanarak saldırı tespiti yapma. Böylece IIS açıklarını görerek önlem alınması.

Araç

Web sunucu günlüklerindeki verilerden saldırı tespiti yapmak için araç olarak veri madenciliği teknikleri kullanılacak.

Bu tekniklerden özellikle sınıflandırma, kümeleme ve uyum kuralları üzerinde durulacak.

Yöntem

Karar ağacı yöntemi ile kullanıcılar normal ve anormal olmak üzere iki sınıfa ayrılacak.

Uyum kuralları sayesinde, saldırı yapan kullanıcıların sistemden hangi dosyaları birlikte istedikleri bulunmaya çalışılacak.

Kümeleme sayesinde de kullanıcılar üç boyutlu bir uzay sayesinde birbirine yakınlık ve uzaklıklarına göre normal veya anormal olarak tespit edilecek.

ÇALIŞMAMIZ

Önce veriler(günlük verisi)

Üzerinde saldırı tespiti yapılacak veri; web sunucu günlük dosyalarında bulunmaktadır.

Seçim aşaması

Günlük verileri 86 günlük bir aralıktan seçilmiştir.

Temizleme aşaması

Günlük verileri arasında resim dosyaları ile ilgili kayıtlar analiz değeri olmayan kayıtlar oldukları için temizlenmiştir.

Dönüşüm aşaması

Bu aşamada günlük verilerinden soyutlamalar yoluyla istatistiksel bilgiler elde edilmiştir. Bu bilgiler daha çok hit bilgileri şeklindedir.

Bu işlem ile günlük verileri üzerinde çalışılabilir hale gelmiştir.

Dönüştürülmüş kayıtlar

Veri madenciliği aşaması

Bu aşamada; Sınıflandırma Uyum kuralları Kümeleme gibi temel veri madenciliği

teknikleri kullanılmıştır.

Sınıflandırma

Sınıflandırma uygulamasında amaç dosya tiplerine göre ortalama dosya isteklerinin dağılımını bulmaktır, böylece dosya tipi ve ortalamalar arasındaki ilişki bulunmaya çalışılmaktadır.

Sınıflandırma uygulaması

Elde edilen sonuçlar

(default.ida) dosyası; code red virüsü ve kurdu tarafından istenen dosya, özellikle her bir bağlantıda tek istekte bulunmakta.

(.asp ve .htm) dosyaları; ortalama istek adetleri 16’dan daha düşük olmakta.

(.exe ve .dll) dosyaları; istek ortalamaları daha çok 16’dan daha büyük olmakta.

Uyum kuralları

Uygulamamızda uyum kurallarını zararlı dosya istekleri arasındaki uyumu bulmakta kullandık.

Uyum kuralları uygulaması

Uyum kuralları-görsel

Elde edilen sonuçlar

EXE ve DLL uzantılı dosya istekleri arasında yüksek derecede bir uyum bulundu.

ASP ve HTM uzantılı dosya istekleri arasında da yüksek dereceli bir uyum bulundu.

IDA uzantılı dosya isteklerinin diğer dosya istekleri ile arasında bir uyum olmadığı görüldü.

Bir problem ve çözümü

Sınıflandırma ve uyum kuralları teknikleri ile kısmen ida uzantılı dosyaların saldırı dosyası olduğu bulunsa dahi kimi zaman normal dosya istekleri gibi davrandığı (asp) görülmüştür.

IDA uzantılı dosya isteklerinin bu tekniklerle bulunamaması üzerine başka bir yöntem ile tespite çalışılmıştır.

Bu yöntem şudur; durum kodları ile metotları saymak.

Yöntemin sonuçları

Bu yöntem uygulandığı zaman; Durum kodu oranları incelendiğinde (ASP-%80, IDA-%79,

HTM-%77, EXE-%22, DLL-%21) gibi değerler bulunmakta ve yine IDA uzantısı kamufle olmaktadır.

Metot kullanım sıklıkları ise (ASP-%20 POST, HTM-%20 POST,

EXE-%2 POST, DLL-%0 POST, IDA-%2 POST) şeklindedir. Bu sonuçlara göre sınıflandırma ve uyum

kuralları yeterli gelmediğinde ek yöntemlerle saldırı davranışının tespit edilebileceği görülmüştür.

Sonuç

Web günlük verilerin sayılması veya istatistiksel yöntemlerle özetinin çıkarılması bizlere saldırı tespiti konusunda faydalı bilgi sağlamaktadır.

Bu çalışmada sınıflandırma, uyum kuralları ve istatistiksel yöntemler kullanarak saldırı davranışını modellemeye çalıştık.

Bu şekilde saldırı davranışını modellediğimiz zaman saldırı dosyasının uzantısı ne olursa olsun onu tanımak mümkün hale gelecektir.

Recommended