38
GİRİŞ ÖN BİLGİLER SİSTEM MODELİ BENZETİM SONUÇLARI SONUÇ Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü 17 Mayıs 2015 Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmala

Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

Embed Size (px)

Citation preview

Page 1: Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

GİRİŞÖN BİLGİLER

SİSTEM MODELİBENZETİM SONUÇLARI

SONUÇ

Rassal Bölümlenmiş Veri Üzerinde Aşırı ÖğrenmeMakinesi ve Topluluk Algoritmaları ile Sınıflandırma

Dr. Ferhat Özgür ÇATAK

TÜBİTAK - BİLGEMSiber Güvenlik Enstitüsü

17 Mayıs 2015

Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

Page 2: Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

GİRİŞÖN BİLGİLER

SİSTEM MODELİBENZETİM SONUÇLARI

SONUÇ

İçindekiler1 GİRİŞ

Konunun ÖnemiÇalışmanın Katkıları

2 ÖN BİLGİLERİleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce

3 SİSTEM MODELİTemel FikirModelin Gerçekleştirimi

4 BENZETİM SONUÇLARIDeneysel KurulumVeri setlerinin Standart AÖM ile sonuçlarıSonuçlar

5 SONUÇSonuç

Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

Page 3: Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

GİRİŞÖN BİLGİLER

SİSTEM MODELİBENZETİM SONUÇLARI

SONUÇ

Konunun ÖnemiÇalışmanın Katkıları

İçindekiler1 GİRİŞ

Konunun ÖnemiÇalışmanın Katkıları

2 ÖN BİLGİLERİleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce

3 SİSTEM MODELİTemel FikirModelin Gerçekleştirimi

4 BENZETİM SONUÇLARIDeneysel KurulumVeri setlerinin Standart AÖM ile sonuçlarıSonuçlar

5 SONUÇSonuç

Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

Page 4: Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

GİRİŞÖN BİLGİLER

SİSTEM MODELİBENZETİM SONUÇLARI

SONUÇ

Konunun ÖnemiÇalışmanın Katkıları

GİRİŞ

Şekil: Veri Bilimi kelime bulutu.Konunun Önemi

Yüksek boyutlu verinintahmin modellerindekullanılmında artış,Öğrenme algoritmalarınıneğitim karmaşıklığındaartış,Topluluk metotları vesınıflandırma algoritmalarınıbirleştiren makineöğrenme yöntemlerineihtiyaç

Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

Page 5: Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

GİRİŞÖN BİLGİLER

SİSTEM MODELİBENZETİM SONUÇLARI

SONUÇ

Konunun ÖnemiÇalışmanın Katkıları

Çalışmanın Katkıları

Çalışmanın KatkılarıGenelleştirilmiş MapReduce tekniği temelli AdaBoost, Aşırı ÖğrenmeMakinesi (AÖM) sınıflandırma algoritması ile daha hızlı ve daha iyisınıflandırma performansına sahip model elde edilmektedir.Bu çalışmanın önerdiği yeni öğrenme yöntemi ile elde edilen paralel vedağıtık eğitim, yüksek boyutlu veri setlerinin öğrenme için kullandığıhesaplama zamanını azaltmaktadır.Eğitim esnasında kullanılan her bir düğüm (node) diğerinden bağımsızolmasından dolayı veri haberleşmesi azalmaktadır.

Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

Page 6: Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

GİRİŞÖN BİLGİLER

SİSTEM MODELİBENZETİM SONUÇLARI

SONUÇ

İleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce

İçindekiler1 GİRİŞ

Konunun ÖnemiÇalışmanın Katkıları

2 ÖN BİLGİLERİleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce

3 SİSTEM MODELİTemel FikirModelin Gerçekleştirimi

4 BENZETİM SONUÇLARIDeneysel KurulumVeri setlerinin Standart AÖM ile sonuçlarıSonuçlar

5 SONUÇSonuç

Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

Page 7: Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

GİRİŞÖN BİLGİLER

SİSTEM MODELİBENZETİM SONUÇLARI

SONUÇ

İleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce

İleri Yayılımlı Yapay Sinir Ağları - Toplam

Şekil: İleri Yayılımlı Yapay SinirAğları - Toplam

Gizli Düğümlerin Çıktısı

G(ai , bi , x) = g(ai .x + bi) , ai ∈ Rd , bi ,∈ R (1)

ai : i . gizli düğüm ile girdi düğümlerini birleştirenağırlık vektörü.bi : i . gizli düğümün eşik değeri.g : gizli düğüm aktivasyon fonksiyonu.

İleri Yayılımlı Yapay Sinir Ağları Çıktısı

fL(x) =L∑

i=1βiG(ai , bi , x) (2)

βi : i . gizli düğüm ile çıktı düğümlerini birleştirenağırlık vektörü

Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

Page 8: Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

GİRİŞÖN BİLGİLER

SİSTEM MODELİBENZETİM SONUÇLARI

SONUÇ

İleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce

İleri Yayılımlı Yapay Sinir Ağları - Radyal

Şekil: İleri Yayılımlı Yapay SinirAğları - Radyal

Gizli Düğümlerin Çıktısı

G(ai , bi , x) = g(bi ||x− ai ||) , ai ∈ Rd , bi ,∈ R (3)

ai : i . gizli düğüm ile girdi düğümlerini birleştirenağırlık vektörü.bi : i . gizli düğümün eşik değeri.g : gizli düğüm aktivasyon fonksiyonu.

İleri Yayılımlı Yapay Sinir Ağları Çıktısı

fL(x) =L∑

i=1βiG(ai , bi , x) (4)

βi : i . gizli düğüm ile çıktı düğümlerini birleştirenağırlık vektörü

Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

Page 9: Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

GİRİŞÖN BİLGİLER

SİSTEM MODELİBENZETİM SONUÇLARI

SONUÇ

İleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce

Yapay Sinir Ağlarında Fonksiyon Kestirimi

Şekil: İleri Yayılımlı Yapay Sinir AğlarıMatematik ModeliHerhangi bir hedef f (x) fonksiyonu,değiştirilebilir gizli düğümler aracılığı ilekestirimi yapılabilir. Farklı bir ifade ile,yeterli sayıda gizli düğüm, (L), veherhangi bir küçük pozitif tam sayı, εolması durumunda,

||fl(x)− f (x)|| < ε (5)

Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

Page 10: Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

GİRİŞÖN BİLGİLER

SİSTEM MODELİBENZETİM SONUÇLARI

SONUÇ

İleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce

Yapay Sinir Ağlarında Öğrenme Yöntemleri

Şekil: İleri Yayılımlı Yapay Sinir AğlarıÖğrenme Yöntemleri

Birçok öğrenme yöntemi Gradyentabanlı (Gradient Descent) veyayinelemeli (iterative) yaklaşımlarşeklindedir.Geri yayılımlı (Back-Propagation)en çok popüler yöntemlerden biridir.Radyal tabanlı fonksiyon, (RBF),için en küçük kareler yöntemikullanılmaktadır.

Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

Page 11: Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

GİRİŞÖN BİLGİLER

SİSTEM MODELİBENZETİM SONUÇLARI

SONUÇ

İleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce

Aşırı Öğrenme Makinesi

Yinelemeli Güncelleme Olmadan ÖğrenmeAll these hidden node parameters can be randomly generated without theknowledge of the training data. That is, for any continuous target function fand any randomly generated sequencelimL→∞ ||f (x)− fL(x)|| = limL→∞ ||f (x)−

∑Li=1 βiG(ai , bi , x)|| = 0 holds

with probability one if βi is chosen to minimize ||f (x)− fL(x)||,∀iGizli katman parametreleri için herhangibir ayarlama gerekmemektedir.

G.-B. Huang, et al., “Universal approximation using incremental constructivefeedforward networks with random hidden nodes,” IEEE Transactions on NeuralNetworks, vol. 17, no. 4, pp. 879-892, 2006.

G.-B. Huang, et al., “Convex incremental extreme learning machine,”Neurocomputing, vol. 70, pp. 3056-3062, 2007.

G.-B. Huang, et al., “Enhanced random search based incremental extremelearning machine,” Neurocomputing, vol. 71, pp. 3460-3468, 2008.

Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

Page 12: Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

GİRİŞÖN BİLGİLER

SİSTEM MODELİBENZETİM SONUÇLARI

SONUÇ

İleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce

Aşırı Öğrenme Makinesi

Şekil: İleri Yayılımlı Yapay Sinir AğlarıMatematik Modeli

N adet rassal seçilmiş örneklemuzayı, (xi , ti) ∈ Rn × Rm, "İleriYayılımlı Yapay Sinir Ağları" için Ladet gizli düğüm ve her bir gizlidüğüm için çıktı fonksiyonuG(ai , bi , x) olmak üzere model şuşekilde ifade edilir:

L∑i=1

βiG(ai , bi , xj) = tj , j = 1, ...,N

(6)(ai , bi): gizli düğüm parametreleriβi : i . gizli düğüm ile çıktıdüğümünü bağlayan ağırlık vektörü.

Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

Page 13: Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

GİRİŞÖN BİLGİLER

SİSTEM MODELİBENZETİM SONUÇLARI

SONUÇ

İleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce

Aşırı Öğrenme Makinesi

Matematik Modeli∑Li=1 βiG(ai , bi , xj) = tj , j = 1, ...,N ifadesi aynı şekilde Hβ = T ifade edilebilir.h(x1)

...h(xN)

=

G(a1, b1, x1) · · · G(aL, bL, x1)...

. . ....

G(a1, b1, xN) · · · G(aL, bL, xN)

N×L

(7)

β =

βT1...βT

L

L×m

ve T =

tT1...

tTN

N×m

(8)

H, sinir ağının gizli katman çıktı matrisi, H matrisinin i . kolonu ise, x1, ..., xngirdilerinin i . gizli katman çıktılarını göstermektedir.

Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

Page 14: Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

GİRİŞÖN BİLGİLER

SİSTEM MODELİBENZETİM SONUÇLARI

SONUÇ

İleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce

Aşırı Öğrenme Makinesi

Üç Aşamalı Öğrenme ModeliD = {(xi , ti)|xi ∈ Rn, ti ∈ Rm, i = 1, · · · ,N} veri seti, gizli düğüm çıktıfonksiyonu G(a, b, x) ve L adet gizli düğüm olsun.

1 Rassal gizli düğüm parametrelerini atama işlemi. (ai , bi), i = 1, · · · , L.2 Gizli katman çıktı matrisi, H, hesapla.3 Çıktı ağırlık vektörünü hesapla, β = HtT.

Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

Page 15: Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

GİRİŞÖN BİLGİLER

SİSTEM MODELİBENZETİM SONUÇLARI

SONUÇ

İleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce

Aşırı Öğrenme Makinesi

Belirgin ÖzelliklerAÖM, basit matematik bilgisiyle, üç adımlı öğrenme algoritmasıdır.AÖM’nin öğrenme hızı oldukça yüksektir.Destek Vektör Makinesi veya Yapay Sinir Ağları gibi geleneksel öğrenmeyöntemlerinin aksine, AÖM oldukça basit bir yöntemdir.

Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

Page 16: Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

GİRİŞÖN BİLGİLER

SİSTEM MODELİBENZETİM SONUÇLARI

SONUÇ

İleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce

AdaBoost Algoritması

AlgoritmaAdaBoost algoritması "zayıf"sınıflandırma hipotezlerinin doğrusalkombinasyonu ile güçlü sınıflandırmahipotezi oluşturmaktadır.

H(x) = sign(f (x)) = sign( T∑

t=1αtht(x)

)(9)

Zayıf sınıflandırma hipoteziht(x) : X→ {−1,+1}.

ÖzellikleriBir Meta-Algoritma’dır. Diğeröğrenme algoritmaları ilekullanılarak performanslarınıartırmaktadır.Sırasıyla, her bir sınıflandırıcıhipotezin kendinden öncekihipotezlerin hatalarını kullanarakkendini güçlendirmesidir.Girdi uzayından örneklem almakyerine, bütün uzayı tekrarağırlıklandırır.Girdi uzayında yer alan herbirörneğe bir ağırlık atamasıyapılmaktadır.

Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

Page 17: Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

GİRİŞÖN BİLGİLER

SİSTEM MODELİBENZETİM SONUÇLARI

SONUÇ

İleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce

AdaBoost Algoritması

Algoritma

Algorithm 1: AdaBoost Algoritması Sözde Kodu.Data: D = {{(xi , yi) | i = 1, ..., n}, xi ∈ Rp, yi ∈ {−1,+1}}m

i=1(Xn, yn)← Vfor t = 1..T do

ht ← AOM(Xn, yn)ypred , εt ← ht(Xn)αt ← 1

2 ln1−εt

εt

Dt+1 = Dt×exp(−αt yi ht (xi ))Zt

end forOutput: hm = sign

(∑Tt=1 αtht(x)

)

Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

Page 18: Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

GİRİŞÖN BİLGİLER

SİSTEM MODELİBENZETİM SONUÇLARI

SONUÇ

İleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce

MapReduce

Şekil: Anahtar/Değer VeriTipi

Genel BilgilerMapReduce, yüksek boyutlu veri setlerininişlenmesine olanak sağlayan, ayrıca Googletarafından da oldukça sık kullanılan birprogramlama modeli.Kullanıcılar tarafından tanımlanan Map ve Reducefonksiyonları ve bu fonksiyonlara girdi değeri olarakverilen anahtar/değer dizileri (Key/Value pairs)kullanılmaktadır.Uygulama alanları:

Bir web sayfasının adresi anahtar, HTML içeriği isedeğerGraf tabanlı veri modellerinde düğüm bilgisi (id)anahtar, kendisine komşu olan düğümleri anahtar

Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

Page 19: Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

GİRİŞÖN BİLGİLER

SİSTEM MODELİBENZETİM SONUÇLARI

SONUÇ

İleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce

MapReduce

Şekil: Mapreduce mimarisi.MimariMap fonksiyonu paralel olarak girdi veri setinde bulunanher ikiliye uygulanmaktadır. Fonksiyon bir veri alanındabulunan veri çiftlerini alarak bunları farklı bir alana veriçift listesi olarak vermektedir.

Map(a1,d1)→ liste(a2,d2) (10)

Reduce fonksiyonu ise yine paralel olarak Mapfonksiyonu tarafından ilişkilendirilmiş anahtar değeryapısına uygulayarak yeni değerler listesioluşturmaktadır.

Reduce(a2, liste(d2))→ liste(a3,d3) (11)

MapReduce çatısının anahtar/değer şeklindeki çiftlerdenoluşan listeyi değerler listesi şekline çevirmektedir.

Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

Page 20: Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

GİRİŞÖN BİLGİLER

SİSTEM MODELİBENZETİM SONUÇLARI

SONUÇ

Temel FikirModelin Gerçekleştirimi

İçindekiler1 GİRİŞ

Konunun ÖnemiÇalışmanın Katkıları

2 ÖN BİLGİLERİleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce

3 SİSTEM MODELİTemel FikirModelin Gerçekleştirimi

4 BENZETİM SONUÇLARIDeneysel KurulumVeri setlerinin Standart AÖM ile sonuçlarıSonuçlar

5 SONUÇSonuç

Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

Page 21: Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

GİRİŞÖN BİLGİLER

SİSTEM MODELİBENZETİM SONUÇLARI

SONUÇ

Temel FikirModelin Gerçekleştirimi

Temel Fikir

Sistem ModeliAdaBoost temelli AÖMsınıflandırma algoritmasınınhesaplanması aşamasınınDağıtık ve Paralel halegetirilmesi bu çalışmanın esasgörevidir.Önerilen yöntemin temel fikri,sınıflandırma toplulukfonksiyonlarının rassal veriparçaları

(Xm,Ym)

kullanılarak paralel olarakhesaplanmasıdır.

Tablo: Sık kullanılan değişkenler ve notasyonlar.

Notasyon Açıklama Notasyon Açıklama

MVeri parçabölümlemeuzunluğu

T AdaBoost Tboyutu

h Sınıflandırmafonksiyonu nh

AÖM’dekullanılan gizlidüğüm sayısı

Xm

Veri seti, D,girdi

değerlerinin mveri parçası

DoğSınıflandırmahipotezinindoğruluğu

Ym

Veri seti, D,çıktı

değerlerinin mveri parçası

H. Hassasiyet

ε Hata oranı G.C. Geri Çağırım

Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

Page 22: Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

GİRİŞÖN BİLGİLER

SİSTEM MODELİBENZETİM SONUÇLARI

SONUÇ

Temel FikirModelin Gerçekleştirimi

Modelin Gerçekleştirimi

Modelin Gerçekleştirimi - Map AşamasıMap metodu:

Girdi değeri: x, eğitim veri kümesiD’nin bir satırıÇıktı değeri: < rassalBolumId , x >anahtar/değer ikilisiReduce aşamasına transfer

Sözde Kod

Algorithm 2: AdaBoostAÖM::MapData: (x, y) ∈ D, M1: k ← rand(0,M)2: Output(k, (x, y))

Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

Page 23: Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

GİRİŞÖN BİLGİLER

SİSTEM MODELİBENZETİM SONUÇLARI

SONUÇ

Temel FikirModelin Gerçekleştirimi

Modelin Gerçekleştirimi

Modelin Gerçekleştirimi - ReduceAşamasıMap metodu:

Girdi değeri:< rassalBolumId , list(x) >Çıktı değeri: Hipotez kümesi: Ht

Sözde Kod

Algorithm 3: AdaBoostAÖM::ReduceData: Anahtar k, Deger V , TResult: hm = sign

(∑Tt=1 αtht(x)

)1: (Xn, yn)← V2: for t = 1..T do3: ht ← AOM(Xn, yn)4: ypred , εt ← ht(Xn)5: αt ← 1

2 ln1−εt

εt

6: Dt+1 = Dt×exp(−αt yi ht (xi ))Zt

7: end for

Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

Page 24: Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

GİRİŞÖN BİLGİLER

SİSTEM MODELİBENZETİM SONUÇLARI

SONUÇ

Temel FikirModelin Gerçekleştirimi

Modelin Gerçekleştirimi

Şekil: Genel Mimari.

Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

Page 25: Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

GİRİŞÖN BİLGİLER

SİSTEM MODELİBENZETİM SONUÇLARI

SONUÇ

Deneysel KurulumVeri setlerinin Standart AÖM ile sonuçlarıSonuçlar

İçindekiler1 GİRİŞ

Konunun ÖnemiÇalışmanın Katkıları

2 ÖN BİLGİLERİleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce

3 SİSTEM MODELİTemel FikirModelin Gerçekleştirimi

4 BENZETİM SONUÇLARIDeneysel KurulumVeri setlerinin Standart AÖM ile sonuçlarıSonuçlar

5 SONUÇSonuç

Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

Page 26: Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

GİRİŞÖN BİLGİLER

SİSTEM MODELİBENZETİM SONUÇLARI

SONUÇ

Deneysel KurulumVeri setlerinin Standart AÖM ile sonuçlarıSonuçlar

Deneysel Kurulum

Tablo: Kullanılan veri setlerinin bilgileri.

Veri seti # Eğitim # Test # Sınıf # Öz nitelikPendigit 7495 3498 10 64Skin 220543 24507 2 4

Statlog 43500 25000 10 7Page-blocks 4500 973 5 10

Kullanılan Altyapı64bit Python 2.7MrJOB (MapReduceStreaming)Sckit-Learn MakineÖğrenme KütüphanesiScientific Python(SciPy), NumericPython (NumPy)

Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

Page 27: Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

GİRİŞÖN BİLGİLER

SİSTEM MODELİBENZETİM SONUÇLARI

SONUÇ

Deneysel KurulumVeri setlerinin Standart AÖM ile sonuçlarıSonuçlar

Veri setlerinin Standart AÖM ile sonuçları

Ön Bilgilernh değeri, 1 – 500 arasında değişmektedir. Performans ölçümleri için doğruluk,hassasiyet, geri çekilme ve F1 değerleri kullanılmıştır.

Tablo: Veri setlerinin standart AÖM sonuçları.

Veri S. nh. Doğ. H. G.C. F1

Pendigit 149 0,8404 0,8393 0,8416 0,8407Skin 98 0,9754 0,9956 0,9583 0,9894

Statlog 249 0,8871 0,8556 0,9237 0,9757Page Blocks 498 0,9873 0,9794 0,9988 0,9977

Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

Page 28: Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

GİRİŞÖN BİLGİLER

SİSTEM MODELİBENZETİM SONUÇLARI

SONUÇ

Deneysel KurulumVeri setlerinin Standart AÖM ile sonuçlarıSonuçlar

Model Ölçümü

Sınıflandırıcı Hipotez Model ÖlçümüOrtalama doğrulukOrtalama hassasiyet: Hassasiyet = Dogru

Dogru+Hata ,Hassasiyetort = 1

nsinif

∑nsinif−1i=0 Hassasiyeti ,

Ortalama geri çekim: Geri Cekilme = DogruDogru+Kayip ,

Geri Cekilmeort = 1nsinif

∑nsinif−1i=0 GeriCekilmei

F1 ölçümü: F1 = 2× Hassasiyetort×GeriCekilmeortHassasiyetort +GeriCekilmeort

Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

Page 29: Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

GİRİŞÖN BİLGİLER

SİSTEM MODELİBENZETİM SONUÇLARI

SONUÇ

Deneysel KurulumVeri setlerinin Standart AÖM ile sonuçlarıSonuçlar

Model Ölçüm Sonuçları

Tablo: Veri setlerinin en iyi performans sonuçları.

Veri S. # C. T # H.N. Doğ. H. G.C. F1Pendigit 20 10 21 0,8256 0,8369 0,8234 0,8301Skin 21 5 21 0,9892 0,9773 0,9913 0,9842

Statlog 11 2 21 0,9103 0,7486 0,5069 0,6045Page Blocks 1 1 340 0,9404 0,9027 0,5756 0,7030

Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

Page 30: Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

GİRİŞÖN BİLGİLER

SİSTEM MODELİBENZETİM SONUÇLARI

SONUÇ

Deneysel KurulumVeri setlerinin Standart AÖM ile sonuçlarıSonuçlar

Model Ölçüm Sonuçları

M

T

3 5 7 9 11 13 15 17 19 21

2

3

4

5

6

7

8

9

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

(a) Bölümleme veadaboost T boyu

M

nh

3 5 7 9 11 13 15 17 19 21

1

3

5

7

9

11

13

15

17

19

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

(b) Bölümleme ve gizlidüğüm sayısı.

T

nh

2 3 4 5 6 7 8 9

1

3

5

7

9

11

13

15

17

19

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

(c) AdaBoost T boyu vegizli düğüm sayısı.

Şekil: Statlog veri kümesi ısı haritası.

Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

Page 31: Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

GİRİŞÖN BİLGİLER

SİSTEM MODELİBENZETİM SONUÇLARI

SONUÇ

Deneysel KurulumVeri setlerinin Standart AÖM ile sonuçlarıSonuçlar

Model Ölçüm Sonuçları

M

T

2 4 6 8 10 12 14 16 18 20

1

2

3

4

5

6

7

8

9

10

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

(a) Bölümleme veadaboost T boyu

M

nh

2 4 6 8 10 12 14 16 18 20

1

3

5

7

9

11

13

15

17

19

21

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

(b) Bölümleme ve gizlidüğüm sayısı.

T

nh

1 2 3 4 5 6 7 8 9 10

1

3

5

7

9

11

13

15

17

19

21

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

(c) AdaBoost T boyu vegizli düğüm sayısı.

Şekil: Pendigit veri kümesi ısı haritası.

Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

Page 32: Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

GİRİŞÖN BİLGİLER

SİSTEM MODELİBENZETİM SONUÇLARI

SONUÇ

Deneysel KurulumVeri setlerinin Standart AÖM ile sonuçlarıSonuçlar

Model Ölçüm Sonuçları

M

T

1 3 5 7 9 11 13 15 17 19 21

1

2

3

4

5

6

7

8

9

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

(a) Bölümleme veadaboost T boyu

M

nh

1 3 5 7 9 11 13 15 17 19 21

1

3

5

7

9

11

13

15

17

19

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

(b) Bölümleme ve gizlidüğüm sayısı.

T

nh

1 2 3 4 5 6 7 8 9

1

3

5

7

9

11

13

15

17

19

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

(c) AdaBoost T boyu vegizli düğüm sayısı.

Şekil: Skin veri kümesi ısı haritası.

Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

Page 33: Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

GİRİŞÖN BİLGİLER

SİSTEM MODELİBENZETİM SONUÇLARI

SONUÇ

Deneysel KurulumVeri setlerinin Standart AÖM ile sonuçlarıSonuçlar

Model Ölçüm Sonuçları

M

T

1 3 5 7 9

1

2

3

4

5

6

7

8

9

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

(a) Bölümleme veadaboost T boyu

M

nh

1 3 5 7 9 11 13 15 17 19 21

20

40

60

80

100

120

140

160

180

200

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

(b) Bölümleme ve gizlidüğüm sayısı.

T

nh

1 2 3 4 5 6 7 8 9

20

40

60

80

100

120

140

160

180

200

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

(c) AdaBoost T boyu vegizli düğüm sayısı.

Şekil: Page blocks veri kümesi ısı haritası.

Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

Page 34: Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

GİRİŞÖN BİLGİLER

SİSTEM MODELİBENZETİM SONUÇLARI

SONUÇ

Deneysel KurulumVeri setlerinin Standart AÖM ile sonuçlarıSonuçlar

Sınıflandırma Modeli Stabilite Analizi

Number of Mappers0 2 4 6 8 10 12 14 16 18 20

Standart

Sapma

0

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

pageblocks

pendigits

skin

statlog

waveform

(a) Mapper M.

AdaBoost T0 1 2 3 4 5 6 7 8 9 10 11

Standart

Sapma

0

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

pageblocks

pendigits

skin

statlog

waveform

(b) AdaBoost T .

Şekil: Sınıflandırma modeli stabilite analizi

Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

Page 35: Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

GİRİŞÖN BİLGİLER

SİSTEM MODELİBENZETİM SONUÇLARI

SONUÇ

Sonuç

İçindekiler1 GİRİŞ

Konunun ÖnemiÇalışmanın Katkıları

2 ÖN BİLGİLERİleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce

3 SİSTEM MODELİTemel FikirModelin Gerçekleştirimi

4 BENZETİM SONUÇLARIDeneysel KurulumVeri setlerinin Standart AÖM ile sonuçlarıSonuçlar

5 SONUÇSonuç

Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

Page 36: Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

GİRİŞÖN BİLGİLER

SİSTEM MODELİBENZETİM SONUÇLARI

SONUÇ

Sonuç

SONUÇ

SonuçAmaç: MapReduce temelli AdaBoost AÖM algoritması uygulaması, yüksekboyutlu veri setlerinin eğitilmesi için önerilmiştir.Girdi matrisini parçalara ayırarak, AÖM sınıflandırmasının eğitim aşamasınınkarmaşıklığı azaltılmaktadır.Sınıflandırma performans azalması için AdaBoost ile desteklenmiştir.Sadece eğitim karmaşıklığı azalmamakta, geleneksel AÖM sınıflandırmaperformansı artmaktadır.

Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

Page 37: Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

GİRİŞÖN BİLGİLER

SİSTEM MODELİBENZETİM SONUÇLARI

SONUÇ

Sonuç

SONUÇ

SonuçDeneysel sonuçlar: M ve T , nh’a göre sınıflandırma performansına olanetkisi daha fazlaTablo 5 ve Tablo 6 karşılaştırıldığında, model karmaşıklık göstergesi olarakdüşünülen, nh sayısında azalma olduğu görülmektedir. Sadece girdi matrisikarmaşıklığı değil, model karmaşıklığıda azalmaktadır.

Tablo: Standart AÖM.

Veri S. nh.Pendigit 149Skin 98

Statlog 249Page Blocks 498

Tablo: Önerilen Yöntem.

Veri S. nh.Pendigit 21Skin 21

Statlog 21Page Blocks 340

Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

Page 38: Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma

GİRİŞÖN BİLGİLER

SİSTEM MODELİBENZETİM SONUÇLARI

SONUÇ

Sonuç

SORULAR

SORULAR

Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma