Veri madenciliği ve ids

Veri Madenciliği ve IDS

Hazırlayan ve Sunan

Hidayet TAKCI

htakci@bilmuh.gyte.edu.tr

VERİ MADENCİLİĞİ

Veri madenciliği nedir?

Anlamlı desenler ve kurallar bulmak için büyük miktardaki verinin analiz ve keşfidir.

Verinin faydalı özetinin ortaya çıkarılmasıdır. Çok büyük veritabanlarındaki gizli kalmış global desenler

ve hasta verileri ile onların teşhis verileri arasındaki ilişkiler gibi ilişkilerin taranıp bulunmasıdır.

Veri madenciliği verinin analizi ve veri kaynaklarındaki benzerlik ve desenleri bulmak için kullanılan yazılım teknikleri ile ilgilidir.

Veri madenciliği analizleri veriden işe güvenilir karar ve sonuçlara varmak için verinin dönüşümü ile ilgilidir

Aşamaları nelerdir?

Seçim: Madenciliği yapılacak veri belli kriterlere göre seçilir veya bölümlere ayrılır.

İlk İşlem: Bu aşama veri temizleme aşamasıdır, gereksiz görülen bilgi silinir, mesela gebelik testinde cinsiyet bilgisinin silinmesi gibi.

Dönüşüm: Veri sadece bir yerden bir yere taşınmaz, veri kullanılabilir ve yönetilebilir hale getirilir.

Veri Madenciliği: Bu aşama verideki desenlerin açığa çıkarılması ile ilgili aşamadır.

Yorum ve Biçimlendirme: Bu aşamada insani karar verme, tahmin ve sınıflama işleri, veritabanının içerik özeti ve bilgiye çevrilen desenler sistem tarafından tanımlanır.

Problemleri nelerdir?

Limitli Bilgi Gürültü ve Kayıp Değerler Belirsizlik Boyut, güncelleme ve ilişkisiz sahalar

Geri planında hangi disiplinler bulunur?

Makine öğrenimi Uzman sistemler İstatistik Veritabanları Görselleştirme

Uygulamaları nelerdir?

1. Bağıntı (Assocation) (Ör: Sepet Analizi)

2. Sınıflandırma (Classification)

3. Regrasyon (Ör: Kredi Skorlama)

4. Zaman içinde sıralı örüntüler (Sequence patterns in time)

5. Benzer zaman sıraları (time series)

6. İstisnalar (Ör: Fark Saptanması)

7. Doküman madenciliği (Web Mining)

Teknikleri nelerdir?

1. İstatistiksel Yöntemler (Statistical Methods)

2. Bellek Tabanlı Yöntemler (Memory Based Reasioning)

3. Sinir Ağları (Neural Networks) 4. Karar Ağaçları (Decision Trees)

Örnek bir çalışma

Yaklaşık üç ay boyunca web sunucusu üzerinde toplanan günlük verileri analiz için seçildi (seçim).

Sunucu dosyası içindeki analiz değeri olmayan (resim dosyası istekleri vs.) kayıtlar elendi (ilk işlem)

Veriler dosyalardan veritabanına aktarıldı ve bazı veriler üzerinde dönüşümler yapıldı (tarih ve saat gibi) (dönüşüm)

Eğitilmeye hazır hale gelen veriler sınıflandırma işlemine tabi tutuldu, bu işlemi yaparken karar ağaçları tekniğinden faydalanıldı. (veri madenciliği)

Sınıflandırma sonrasında saldırı yapan ve normal kullanıcıların profilleri ortaya çıkarıldı. (yorum biçim)

SALDIRI TESPİT SİSTEMLERİ

Saldırı nedir?

Bilgisayar sistemleri için güvenlik hedefleri; güvenilirlik, bütünlük ve kullanılabilirliktir.

Bu güvenlik hedeflerini tehlikeye atmaya çalışan etkilere saldırı adı verilir.

Saldırı engelleme için kullanılan doğrulama, şifreleme ve benzeri teknikler yeterli değildir. Bu yüzden saldırı tespit sistemi bir ihtiyaçtır.

Saldırı tespit sistemi nedir?

Saldırı tespit sistemleri, İnternet veya yerel ağdan gelebilecek ve ağdaki sistemlere zarar verebilecek, çeşitli paket ve verilerden oluşabilen saldırıları fark etmek üzere tasarlanmış sistemlerdir. Temel amaçları belirlenen kurallar çerçevesinde bu saldırıları tespit ederek mail , sms , snmp mesajları gibi araçlarla haber vermek ve gerekliyse bu saldırıyı önlemektir.

Saldırı tipleri nelerdir?

Bir sisteme yapılan saldırılar genellikle; Harici ataklar Bir başkası gibi görünme İmtiyazı kötüye kullanma Gizli kullanıcılar

şekillerinde ortaya çıkmaktadırlar. Saldırıları etkisiz hale getirmek için ise

engelleme, ele geçirme, caydırma, biçim bozma ve bulma gibi teknikler kullanılabilir.

Saldırı tespiti metotları nelerdir?

Anormallik Tabanlı: normal ve normal olmayan kullanıcılar için tipik desenler tespit edilir ve kullanılır.

İmza Tabanlı: önceki atakların ve eşleşen desenlerin imzası modellenir.

Otomatik Kurallar: tarihsel bilgi kullanılarak normal ve saldırı trafiği modellenir.

Kural Merkezli Politika: kurallar uzmanlar tarafından belirlenir.

Saldırı tespiti yaklaşımları nelerdir?

Kötüye Kullanım Tespiti: saldırıları tanımak için çok iyi bilinen desenlerden faydalanılır.

Problemi:saldırı desenleri elle kodlanır ve ilk kez yapılan saldırılar tanınamaz.

Anormallik Tespiti: normal kullanım desenlerinden faydalanılarak normal olmayan (saldırı) desenler bulunur.

Problemi: olaylar arasındaki ilişkilerin yakalanması mümkün olamamaktadır.

Veri Madenciliği Yaklaşımı

Saldırı tespiti için bir başka yaklaşım veri madenciliği yaklaşımıdır.

Öğrenim ve tespit ajanları bulunur. Akıllı ajan tabanlı bir yaklaşımdır.

Öğrenim ajanları tespit modelleri ile devamlı eğitilirler, tespit ajanları ise saldırıların tespiti için güncellenmiş modeller sunarlar.

SALDIRI TESPİTİ VE VERİ MADENCİLİĞİ

Saldırı Tespitinde Veri Madenciliği

Saldırı tespitinde veri madenciliği kullanımının sebepleri şunlardır; Denetleme(audit) verisi üzerinde normal ve

saldırı etkinlikleri kanıt bırakırlar. Veri merkezli bakış açısından bakıldığında

veri saldırı tespiti bir veri analiz işidir. İstisna saptanması ve hata yönetimi gibi

başarılı uygulamalarla aynı etki alanı içerisindedir.

Web günlük dosyalarını kullanarak saldırı tespiti yapma. Böylece IIS açıklarını görerek önlem alınması.

Web sunucu günlüklerindeki verilerden saldırı tespiti yapmak için araç olarak veri madenciliği teknikleri kullanılacak.

Bu tekniklerden özellikle sınıflandırma, kümeleme ve uyum kuralları üzerinde durulacak.

Yöntem

Karar ağacı yöntemi ile kullanıcılar normal ve anormal olmak üzere iki sınıfa ayrılacak.

Uyum kuralları sayesinde, saldırı yapan kullanıcıların sistemden hangi dosyaları birlikte istedikleri bulunmaya çalışılacak.

Kümeleme sayesinde de kullanıcılar üç boyutlu bir uzay sayesinde birbirine yakınlık ve uzaklıklarına göre normal veya anormal olarak tespit edilecek.

ÇALIŞMAMIZ

Önce veriler(günlük verisi)

Üzerinde saldırı tespiti yapılacak veri; web sunucu günlük dosyalarında bulunmaktadır.

Seçim aşaması

Günlük verileri 86 günlük bir aralıktan seçilmiştir.

Temizleme aşaması

Günlük verileri arasında resim dosyaları ile ilgili kayıtlar analiz değeri olmayan kayıtlar oldukları için temizlenmiştir.

Dönüşüm aşaması

Bu aşamada günlük verilerinden soyutlamalar yoluyla istatistiksel bilgiler elde edilmiştir. Bu bilgiler daha çok hit bilgileri şeklindedir.

Bu işlem ile günlük verileri üzerinde çalışılabilir hale gelmiştir.

Dönüştürülmüş kayıtlar

Veri madenciliği aşaması

Bu aşamada; Sınıflandırma Uyum kuralları Kümeleme gibi temel veri madenciliği

teknikleri kullanılmıştır.

Sınıflandırma

Sınıflandırma uygulamasında amaç dosya tiplerine göre ortalama dosya isteklerinin dağılımını bulmaktır, böylece dosya tipi ve ortalamalar arasındaki ilişki bulunmaya çalışılmaktadır.

Sınıflandırma uygulaması

Elde edilen sonuçlar

(default.ida) dosyası; code red virüsü ve kurdu tarafından istenen dosya, özellikle her bir bağlantıda tek istekte bulunmakta.

(.asp ve .htm) dosyaları; ortalama istek adetleri 16’dan daha düşük olmakta.

(.exe ve .dll) dosyaları; istek ortalamaları daha çok 16’dan daha büyük olmakta.

Uyum kuralları

Uygulamamızda uyum kurallarını zararlı dosya istekleri arasındaki uyumu bulmakta kullandık.

Uyum kuralları uygulaması

Uyum kuralları-görsel

Elde edilen sonuçlar

EXE ve DLL uzantılı dosya istekleri arasında yüksek derecede bir uyum bulundu.

ASP ve HTM uzantılı dosya istekleri arasında da yüksek dereceli bir uyum bulundu.

IDA uzantılı dosya isteklerinin diğer dosya istekleri ile arasında bir uyum olmadığı görüldü.

Bir problem ve çözümü

Sınıflandırma ve uyum kuralları teknikleri ile kısmen ida uzantılı dosyaların saldırı dosyası olduğu bulunsa dahi kimi zaman normal dosya istekleri gibi davrandığı (asp) görülmüştür.

IDA uzantılı dosya isteklerinin bu tekniklerle bulunamaması üzerine başka bir yöntem ile tespite çalışılmıştır.

Bu yöntem şudur; durum kodları ile metotları saymak.

Yöntemin sonuçları

Bu yöntem uygulandığı zaman; Durum kodu oranları incelendiğinde (ASP-%80, IDA-%79,

HTM-%77, EXE-%22, DLL-%21) gibi değerler bulunmakta ve yine IDA uzantısı kamufle olmaktadır.

Metot kullanım sıklıkları ise (ASP-%20 POST, HTM-%20 POST,

EXE-%2 POST, DLL-%0 POST, IDA-%2 POST) şeklindedir. Bu sonuçlara göre sınıflandırma ve uyum

kuralları yeterli gelmediğinde ek yöntemlerle saldırı davranışının tespit edilebileceği görülmüştür.

Sonuç

Web günlük verilerin sayılması veya istatistiksel yöntemlerle özetinin çıkarılması bizlere saldırı tespiti konusunda faydalı bilgi sağlamaktadır.

Bu çalışmada sınıflandırma, uyum kuralları ve istatistiksel yöntemler kullanarak saldırı davranışını modellemeye çalıştık.

Bu şekilde saldırı davranışını modellediğimiz zaman saldırı dosyasının uzantısı ne olursa olsun onu tanımak mümkün hale gelecektir.

Veri madenciliği ve ids

Education

Veri madenciliği teknikleri ile öğrenci segmentasyonu

GÖRSEL VERİ MADENCİLİĞİ TEKNİKLERİNİN KÜMELEME

VERİ MADENCİLİĞİ VE TÜRKİYE’DEKİ UYGULAMA ÖRNEKLERİ · Veri Görselliği, Yapay Sinir Ağları, İstatistik, Yapay Öğrenme, vb. gibi disiplinler bulunmaktadır. İstanbul

Sivas Erzincan Kalkınma Projesi (SEKP) Verilerinin Veri · 2014-06-25 · Sivas Erzincan Kalkınma Projesi (SEKP) Verilerinin Veri madenciliği ile Sınıflandırılması ve Kümelenmesi

VERİ MADENCİLİĞİ - kergun.baun.edu.tr

Yapay Zeka Teknikleriyle Tıbbi Verilerin İşlenmesi: VERİ MADENCİLİĞİ

VERİ MADENCİLİĞİ · 2016. 6. 22. · Veri Azaltma Veri miktarı çok fazla olduğu zaman veri madenciliği algoritmalarının çalışması ve sonuç üretmesi çok uzun sürebilir

Veri Tabanı, Veri Ambarı, Veri Madenciliği Keşfi …abl.gtu.edu.tr/hebe/AblDrive/80782032/w/Storage/104_2010...•Veri tabanı ve verilerin depolanması 1970 •İlişkisel veri

BİLGİYİ YÖNETMESAP BI, IBM Cognos, Oracle BI… Veriden Karara Güncel Veri (YBS ve KDS’den) Trend Analizi (Alışkanlık ve Eğilimler) Veri Kalitesi > Veri Madenciliği Analiz

VERİ MADENCİLİĞİ SÜRECİ KULLANILARAK PORTFÖY ... · ii ÖZET VERİ MADENCİLİĞİ SÜRECİ KULLANILARAK PORTFÖY PERFORMANSININ DEĞERLENDİRİLMESİ VE İMKB HİSSE SENETLERİ

PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI · 2018-06-28 · işleme Veri Madenciliği Veri Son işleme Girdi Bilgi Veri Özellik Seçimi Boyut İndirme Normalizasyon Veri Altkümeleme

VERİ MADENCİLİĞİ - Başkent Üniversitesimail.baskent.edu.tr/~20410964/DM_1.pdf · VTBK, verinin nasıl depolanıp erişileceğinden, ... VERİ MADENCİLİĞİ NEDİR? Veri madenciliği

Sosyal Bilimlerde Veri Madenciliği...Prof. Dr. Necati CEMALOĞLU - Ayhan DUYKULUOĞLU SOSYAL BİLİMLERDE VERİ MADENCİLİĞİ ISBN 978-605-037-010-2 DOI 10.14527/9786050370102 Kitap

İş Ortağı Sunumu · Derin Öğrenme Makine Öğrenimi Siber Güvenlik Kuantum Mekaniği Sistem ve Network Teknoloji Uzmanlığı Veri Analizi Veri Madenciliği Yapay Zeka Kriptoloji

VERİ MADENCİLİĞİkergun.baun.edu.tr › veri_madenciligi_hafta5.pdf · Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi. Örnek Balıkesir

Veri Madenciliği - Kümeleme Analizi

Veri Madenciliği - Akademik Bilişim · Veri Dönüştürme: Verinin kullanılacak modele göre içeriğini koruyarak şeklinin dönüştürülmesi işlemidir. Dönüştürme işlemi

VERİ MADENCİLİĞİ TEKNİKLERİ İLE BİR KOZMETİK MARKANIN

VERİ MADENCİLİĞİ VE İSTATİSTİK · alarak gelecekteki davranışların tahminine yönelik karar-verme modelleri yaratmaktır (Koyuncugil, 2007: 1). Veri madenciliği müşteri

VERİ TABANLARINDA BİLGİ KEŞFİ VERİ MADENCİLİĞİ · analizi (Anaîysing Changes) ve anomal tespiti (Detectingi Anonıaly) gibi farklı bir ço teknik k yaklaşımı kapsam