Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
Zamana Baglı Degerler Zamansal Veri Madenciligi Veri Temsil Yontemleri Anomali Tespiti Uygulama Referanslar
Zamansal Veri Madenciligi ve Anomali Tespitiicin Bir Uygulama
Mehmet Yavuz ONAT
Yrd.Doc.Dr.Engin YILDIZTEPE
Dokuz Eylul Universitesi, Istatistik Bolumu
Akademik Bilisim 2015, Anadolu Universitesi, Eskisehir
6 Subat, 2015
Zamansal Veri Madenciligi ve Anomali Tespitiicin Bir Uygulama
M.Y. Onat & E.Yıldıztepe
AB2015
16 Subat 2015
M.Y. Onat & E.Yıldıztepe AB2015
Zamansal Veri Madenciligi ve Anomali Tespiti icin Bir Uygulama
Zamana Baglı Degerler Zamansal Veri Madenciligi Veri Temsil Yontemleri Anomali Tespiti Uygulama Referanslar
Calısmanın Amacı
I Kesit anomalilerin tespiti
I Uygulama: Euro-Dolar paritesi verilerinde anomali tespiti
M.Y. Onat & E.Yıldıztepe AB2015
Zamansal Veri Madenciligi ve Anomali Tespiti icin Bir Uygulama
Zamana Baglı Degerler Zamansal Veri Madenciligi Veri Temsil Yontemleri Anomali Tespiti Uygulama Referanslar
Sunum Planı
I Zamana Baglı Degerler
I Zamansal Veri Madenciligi
I Veri Temsil Yontemleri
I Anomali Tespiti
I Uygulama
I Referanslar
M.Y. Onat & E.Yıldıztepe AB2015
Zamansal Veri Madenciligi ve Anomali Tespiti icin Bir Uygulama
Zamana Baglı Degerler Zamansal Veri Madenciligi Veri Temsil Yontemleri Anomali Tespiti Uygulama Referanslar
Zamana Baglı Degerler
I Zaman Serileri
I Zamana Baglı Diziler (Temporal Sequences)
I Anlamsal Zamana Baglı Degerler (Semantic Temporal Data)
Zamansal veri madenciligi zamana baglı degerlerden olusan bir veriseti ile veya bu veri setlerinden olusan bir veritabanı ile ilgilenir.(Mitsa, 2010)
M.Y. Onat & E.Yıldıztepe AB2015
Zamansal Veri Madenciligi ve Anomali Tespiti icin Bir Uygulama
Zamana Baglı Degerler Zamansal Veri Madenciligi Veri Temsil Yontemleri Anomali Tespiti Uygulama Referanslar
Zamansal Veri Madenciligi
I Zamansal veri madenciligi, veri madenciligi temelleri icerisinde zaman
serilerinin karakterlerine uygun yontemleri kullanır.
I Zamansal veri madenciligi istatistiksel yontemlerdeki varsayımlara ge-
rek duymadan zamana baglı veriler icerisinden anlamlı bilgiler cıkarmayı
amaclar.
I Zaman serilerinden olusan bir veri tabanında benzer zaman serileri-
nin bulmayı veya bir zaman serisi icerisinde geceklesen olagan dısı
desenleri belirlemeyi hedefler.
M.Y. Onat & E.Yıldıztepe AB2015
Zamansal Veri Madenciligi ve Anomali Tespiti icin Bir Uygulama
Zamana Baglı Degerler Zamansal Veri Madenciligi Veri Temsil Yontemleri Anomali Tespiti Uygulama Referanslar
Zamansal Veri Madenciligi Yontemleri
I Endeksleme (Indexing - Query by Content)
I Sınıflama (Classification)
I Kumeleme (Clustering)
I Anomali Tespiti (Anomaly Detection)
M.Y. Onat & E.Yıldıztepe AB2015
Zamansal Veri Madenciligi ve Anomali Tespiti icin Bir Uygulama
Zamana Baglı Degerler Zamansal Veri Madenciligi Veri Temsil Yontemleri Anomali Tespiti Uygulama Referanslar
Veri Temsil Yontemleri
Zaman Serisi Temsil Yontemleri (Keogh ve ark., 2005)
I Piecewise Aggregate Approximation (PAA)
I Symbolic Aggregate approXimation (SAX)
M.Y. Onat & E.Yıldıztepe AB2015
Zamansal Veri Madenciligi ve Anomali Tespiti icin Bir Uygulama
Zamana Baglı Degerler Zamansal Veri Madenciligi Veri Temsil Yontemleri Anomali Tespiti Uygulama Referanslar
Piecewise Aggregate Approximation
PAA Temsil Yontemi
I Zaman serisini sabit uzunluktaki kesitlere ayırarak, her bir kesitiortalaması ile temsil etmeyi amaclar. (Keogh ve ark., 2001 )
M.Y. Onat & E.Yıldıztepe AB2015
Zamansal Veri Madenciligi ve Anomali Tespiti icin Bir Uygulama
Zamana Baglı Degerler Zamansal Veri Madenciligi Veri Temsil Yontemleri Anomali Tespiti Uygulama Referanslar
Symbolic Aggregate approXimation
SAX Temsil Yontemi
I PAA uzerinden gelistirilen SAX, vektor halindeki temsil edilmis veriyisembollere donusturmeyi amaclar. (Lin ve ark, 2003)
I SAX temsil yonteminin izledigi adımlarI NormallestirmeI PAA ile boyut indirgemeI Sembolik donusum
M.Y. Onat & E.Yıldıztepe AB2015
Zamansal Veri Madenciligi ve Anomali Tespiti icin Bir Uygulama
Zamana Baglı Degerler Zamansal Veri Madenciligi Veri Temsil Yontemleri Anomali Tespiti Uygulama Referanslar
Symbolic Aggregate approXimation
Standart Normal Dagılım ve Kesme Noktaları
I ci = PAA ile elde edilen ortalama degerleri
I β = (β1, β2) secilen 3 karakter icin elde edilen kesme noktaları
Sembol =
a; ci < β1
b; β1 < ci < β2
c; ci > β2
M.Y. Onat & E.Yıldıztepe AB2015
Zamansal Veri Madenciligi ve Anomali Tespiti icin Bir Uygulama
Zamana Baglı Degerler Zamansal Veri Madenciligi Veri Temsil Yontemleri Anomali Tespiti Uygulama Referanslar
Kesit Anomaliler
I Bir zaman serisinin kesitleri icerisinden kendisi ile eslesmeyen en yakın
komsusuna en buyuk uzaklıga sahip olan kesit uyumsuz-anomali ola-
rak belirlenir.(Keogh ve arkadasları, 2006)
I Literaturde kesit anomali tespiti uzerine bir cok calısma bulunmak-tadır;
I ”Online novelty detection on temporal sequences”(SVR-Based), Ma
ve Perkins, 2003.I “Finding the most unusual time series subsequence: algorithms and
applications”(HOT-SAX), Keogh ve ark., 2006.I ”Finding Time Series Discords Based on Haar Transform”(WAT), Fu
ve ark., 2007.
M.Y. Onat & E.Yıldıztepe AB2015
Zamansal Veri Madenciligi ve Anomali Tespiti icin Bir Uygulama
Zamana Baglı Degerler Zamansal Veri Madenciligi Veri Temsil Yontemleri Anomali Tespiti Uygulama Referanslar
HOT-SAX Algoritması
I Heuristically Ordered Time series using Symbolic Aggregate approXimation.
(Keogh ve ark., 2006)
I Ihtiyac duyulan tek parametre arastırılacak olan kesitin buyuklugudur.
I HOT-SAX bruteforce kullanarak, zaman serisi icerisinde gozlemlenen
her kesiti kendisi ile eslesmeyen butun kesitlerle karsılastırır.
I Zaman serisinin icerisindeki tum kesitlerin benzerlik olcumlerini yapa-
rak anomali tespiti yapmaya calısır.
M.Y. Onat & E.Yıldıztepe AB2015
Zamansal Veri Madenciligi ve Anomali Tespiti icin Bir Uygulama
Zamana Baglı Degerler Zamansal Veri Madenciligi Veri Temsil Yontemleri Anomali Tespiti Uygulama Referanslar
HOT-SAX Algoritması
I HOT-SAX temsil yontemi alttaki adımları izlerI Zaman serisi SAX yontemi ile temsil edilir.I Kesitlere verilen sembollerden desenler elde edilir.I Olusan desenlerden en az sayıda olanlar anomali adayı olarak
secilir.I Secilen adayların kendisi ile eslesmeyen butun kesitlere olan
uzaklıgı hesaplanır.I En yakın komsusuna olan uzaklıgı en fazla olan kesit anomali
olarak belirlenir.
Kendisi ile eslesmeyen kesitler (non-self match): M ve K bir zamanserisinden secilen m boyutunda kesitler ve baslangıc noktaları p ve qolsun. M K ’nın kendisi ile eslesmeyen kesiti ise | p − q |≥ m olmasıbeklenir.
M.Y. Onat & E.Yıldıztepe AB2015
Zamansal Veri Madenciligi ve Anomali Tespiti icin Bir Uygulama
Zamana Baglı Degerler Zamansal Veri Madenciligi Veri Temsil Yontemleri Anomali Tespiti Uygulama Referanslar
Uygulama
Aralık 2003 – Aralık 2014 tarihleri arasındaki Euro-Dolar parite degerleri
I Zaman serisi “European Central Bank” web sayfasından gunluk (is
gunu) kaydedilen verilerden alınmıstır.
I 2820 gunluk Euro/Dolar parite degeri incelenmistir.
I R istatistiksel proglamlama dili kullanılmıstır.
M.Y. Onat & E.Yıldıztepe AB2015
Zamansal Veri Madenciligi ve Anomali Tespiti icin Bir Uygulama
Zamana Baglı Degerler Zamansal Veri Madenciligi Veri Temsil Yontemleri Anomali Tespiti Uygulama Referanslar
Uygulama
I Zaman serisinin sembolik gosterimi icin dort karakter (a,b,c,d)tercih edilmistir.
I PAA icin genislik 10 gun secilmistir.
I Her uc alt kesitin bir donemi temsil ettigi belirlenmistir.
I SAX temsil yontemi sonrasında her 30 gunluk donem 3 karakterile temsil edilmistir.
M.Y. Onat & E.Yıldıztepe AB2015
Zamansal Veri Madenciligi ve Anomali Tespiti icin Bir Uygulama
Zamana Baglı Degerler Zamansal Veri Madenciligi Veri Temsil Yontemleri Anomali Tespiti Uygulama Referanslar
Uygulama
I Zaman serisinden 8373 alt kesit elde edilmis ve 2791 donemHOT-SAX algoritması ile incelenmistir.
Tum Donemler
Desen Tekrar Sayısı
aaa 524ddd 515cbb 86aac 1bac 1
Anomali Adayları
Desen Baslangıc Bitis
aac 16.02.2009 27.03.2009bac 13.02.2009 26.03.2009
I Anomali adaylarının en yakın komsularına olan uzaklıkları he-saplanmıs ve aac deseni anomali olarak belirlenmistir.
M.Y. Onat & E.Yıldıztepe AB2015
Zamansal Veri Madenciligi ve Anomali Tespiti icin Bir Uygulama
Zamana Baglı Degerler Zamansal Veri Madenciligi Veri Temsil Yontemleri Anomali Tespiti Uygulama Referanslar
Uygulama
2009 yılına ait degerler ve bulunan anomali
I Bulunan anomali kesiti 2009 yılı icerisinde doların en yuksek oldugu zamanaralıgını icermektedir.
M.Y. Onat & E.Yıldıztepe AB2015
Zamansal Veri Madenciligi ve Anomali Tespiti icin Bir Uygulama
Zamana Baglı Degerler Zamansal Veri Madenciligi Veri Temsil Yontemleri Anomali Tespiti Uygulama Referanslar
Anomali Aralıgında Gerceklesen Ekonomik Olaylar
Anomali olarak belirlenen desen
I Uluslararası finansal kriz karsısında ulkeler tarafından alınan onlemler ince-lenmistir.
I 15 Mart 2009 haftasında FED beklenmeyen bir kararla 6 ay icinde, hukumet-ten 300 milyar dolara kadar uzun donemli borc tahvili alacagını acıklamıstır.
M.Y. Onat & E.Yıldıztepe AB2015
Zamansal Veri Madenciligi ve Anomali Tespiti icin Bir Uygulama
Zamana Baglı Degerler Zamansal Veri Madenciligi Veri Temsil Yontemleri Anomali Tespiti Uygulama Referanslar
Referanslar
Chandola, V., Grumbach, A., Kumar, C., “Anomaly Detection: A survey”, ACMComputing Surveys, 41(3), (2009).
Esling, P., Agon, C., “Time-series data mining”, ACM Computing Surveys,45(1),(2012).
European Central Bank Web Site, https://www.ecb.europa.eu/stats, Erisim ta-rihi: 10.12.2014.
Fu, T., “A review on time series data mining”, Engineering Applications ofArtificial Intelligence, 24, 164:181(2011).
Fu, A.W., Leung, O.T., Keogh, E., Lin, J.,”Finding Time Series Discords Ba-sed on Haar Transform”, Advanced Data Mining and Applications, 4093,31:41(2007).
Keogh, E., Chakrabarti, K., Pazzani, M., and Mehrotra, S., “Dimensionalityreduction for fast similarity search in large time series databases”, Knowledgeand Information Systems, 3(3), 263:286(2001).
M.Y. Onat & E.Yıldıztepe AB2015
Zamansal Veri Madenciligi ve Anomali Tespiti icin Bir Uygulama
Zamana Baglı Degerler Zamansal Veri Madenciligi Veri Temsil Yontemleri Anomali Tespiti Uygulama Referanslar
Referanslar
Keogh, E., Lin, J., Lee, S.H., Herle, H.V., “Finding the most unusual time se-ries subsequence: algorithms and applications”, Knowledge and InformationSystems, 11(1), 1:27(2006).
Lin, J., Keogh, E., Leonardi, S., and Chiu, B., “A symbolic representation oftime series, with implications for streaming algorithms”, In Proceedings of the8th ACM SIGMOD Workshop on Research Issues in Data Mining and Kno-wledge Discovery,2:11(2003).
Lin, J.,Keogh, E., Wei, L., Lonardi, S., “Experiencing SAX: a novel symbolicrepresentation of time series”, Data Mining and Knowledge Discovery, 15(2),107:144(2007).
Ratanamahatana, C. A., Lin, J., Gunopulos, D., Keogh, E., “Mining time seriesdata”, Data Mining and Knowledge Discovery Handbook, 1069:1103(2005).
Turkiye Bankalar Birligi, Bankacılık ve Arastırma Grubu, ”Uluslararası Finan-sal Kriz Karsısında Ulkeler Tarafından Alınan Onlemler Kronolojisi”, BankacılarDergisi, 69, 86:93(2009).
M.Y. Onat & E.Yıldıztepe AB2015
Zamansal Veri Madenciligi ve Anomali Tespiti icin Bir Uygulama
Zamana Baglı Degerler Zamansal Veri Madenciligi Veri Temsil Yontemleri Anomali Tespiti Uygulama Referanslar
Tesekkurler!
M.Y. Onat & E.Yıldıztepe AB2015
Zamansal Veri Madenciligi ve Anomali Tespiti icin Bir Uygulama