Upload
dr-ferhat-ozgur-catak
View
469
Download
5
Embed Size (px)
Citation preview
GİRİŞÖN BİLGİLER
SİSTEM MODELİBENZETİM SONUÇLARI
SONUÇ
Rassal Bölümlenmiş Veri Üzerinde Aşırı ÖğrenmeMakinesi ve Topluluk Algoritmaları ile Sınıflandırma
Dr. Ferhat Özgür ÇATAK
TÜBİTAK - BİLGEMSiber Güvenlik Enstitüsü
17 Mayıs 2015
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma
GİRİŞÖN BİLGİLER
SİSTEM MODELİBENZETİM SONUÇLARI
SONUÇ
İçindekiler1 GİRİŞ
Konunun ÖnemiÇalışmanın Katkıları
2 ÖN BİLGİLERİleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce
3 SİSTEM MODELİTemel FikirModelin Gerçekleştirimi
4 BENZETİM SONUÇLARIDeneysel KurulumVeri setlerinin Standart AÖM ile sonuçlarıSonuçlar
5 SONUÇSonuç
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma
GİRİŞÖN BİLGİLER
SİSTEM MODELİBENZETİM SONUÇLARI
SONUÇ
Konunun ÖnemiÇalışmanın Katkıları
İçindekiler1 GİRİŞ
Konunun ÖnemiÇalışmanın Katkıları
2 ÖN BİLGİLERİleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce
3 SİSTEM MODELİTemel FikirModelin Gerçekleştirimi
4 BENZETİM SONUÇLARIDeneysel KurulumVeri setlerinin Standart AÖM ile sonuçlarıSonuçlar
5 SONUÇSonuç
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma
GİRİŞÖN BİLGİLER
SİSTEM MODELİBENZETİM SONUÇLARI
SONUÇ
Konunun ÖnemiÇalışmanın Katkıları
GİRİŞ
Şekil: Veri Bilimi kelime bulutu.Konunun Önemi
Yüksek boyutlu verinintahmin modellerindekullanılmında artış,Öğrenme algoritmalarınıneğitim karmaşıklığındaartış,Topluluk metotları vesınıflandırma algoritmalarınıbirleştiren makineöğrenme yöntemlerineihtiyaç
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma
GİRİŞÖN BİLGİLER
SİSTEM MODELİBENZETİM SONUÇLARI
SONUÇ
Konunun ÖnemiÇalışmanın Katkıları
Çalışmanın Katkıları
Çalışmanın KatkılarıGenelleştirilmiş MapReduce tekniği temelli AdaBoost, Aşırı ÖğrenmeMakinesi (AÖM) sınıflandırma algoritması ile daha hızlı ve daha iyisınıflandırma performansına sahip model elde edilmektedir.Bu çalışmanın önerdiği yeni öğrenme yöntemi ile elde edilen paralel vedağıtık eğitim, yüksek boyutlu veri setlerinin öğrenme için kullandığıhesaplama zamanını azaltmaktadır.Eğitim esnasında kullanılan her bir düğüm (node) diğerinden bağımsızolmasından dolayı veri haberleşmesi azalmaktadır.
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma
GİRİŞÖN BİLGİLER
SİSTEM MODELİBENZETİM SONUÇLARI
SONUÇ
İleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce
İçindekiler1 GİRİŞ
Konunun ÖnemiÇalışmanın Katkıları
2 ÖN BİLGİLERİleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce
3 SİSTEM MODELİTemel FikirModelin Gerçekleştirimi
4 BENZETİM SONUÇLARIDeneysel KurulumVeri setlerinin Standart AÖM ile sonuçlarıSonuçlar
5 SONUÇSonuç
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma
GİRİŞÖN BİLGİLER
SİSTEM MODELİBENZETİM SONUÇLARI
SONUÇ
İleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce
İleri Yayılımlı Yapay Sinir Ağları - Toplam
Şekil: İleri Yayılımlı Yapay SinirAğları - Toplam
Gizli Düğümlerin Çıktısı
G(ai , bi , x) = g(ai .x + bi) , ai ∈ Rd , bi ,∈ R (1)
ai : i . gizli düğüm ile girdi düğümlerini birleştirenağırlık vektörü.bi : i . gizli düğümün eşik değeri.g : gizli düğüm aktivasyon fonksiyonu.
İleri Yayılımlı Yapay Sinir Ağları Çıktısı
fL(x) =L∑
i=1βiG(ai , bi , x) (2)
βi : i . gizli düğüm ile çıktı düğümlerini birleştirenağırlık vektörü
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma
GİRİŞÖN BİLGİLER
SİSTEM MODELİBENZETİM SONUÇLARI
SONUÇ
İleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce
İleri Yayılımlı Yapay Sinir Ağları - Radyal
Şekil: İleri Yayılımlı Yapay SinirAğları - Radyal
Gizli Düğümlerin Çıktısı
G(ai , bi , x) = g(bi ||x− ai ||) , ai ∈ Rd , bi ,∈ R (3)
ai : i . gizli düğüm ile girdi düğümlerini birleştirenağırlık vektörü.bi : i . gizli düğümün eşik değeri.g : gizli düğüm aktivasyon fonksiyonu.
İleri Yayılımlı Yapay Sinir Ağları Çıktısı
fL(x) =L∑
i=1βiG(ai , bi , x) (4)
βi : i . gizli düğüm ile çıktı düğümlerini birleştirenağırlık vektörü
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma
GİRİŞÖN BİLGİLER
SİSTEM MODELİBENZETİM SONUÇLARI
SONUÇ
İleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce
Yapay Sinir Ağlarında Fonksiyon Kestirimi
Şekil: İleri Yayılımlı Yapay Sinir AğlarıMatematik ModeliHerhangi bir hedef f (x) fonksiyonu,değiştirilebilir gizli düğümler aracılığı ilekestirimi yapılabilir. Farklı bir ifade ile,yeterli sayıda gizli düğüm, (L), veherhangi bir küçük pozitif tam sayı, εolması durumunda,
||fl(x)− f (x)|| < ε (5)
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma
GİRİŞÖN BİLGİLER
SİSTEM MODELİBENZETİM SONUÇLARI
SONUÇ
İleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce
Yapay Sinir Ağlarında Öğrenme Yöntemleri
Şekil: İleri Yayılımlı Yapay Sinir AğlarıÖğrenme Yöntemleri
Birçok öğrenme yöntemi Gradyentabanlı (Gradient Descent) veyayinelemeli (iterative) yaklaşımlarşeklindedir.Geri yayılımlı (Back-Propagation)en çok popüler yöntemlerden biridir.Radyal tabanlı fonksiyon, (RBF),için en küçük kareler yöntemikullanılmaktadır.
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma
GİRİŞÖN BİLGİLER
SİSTEM MODELİBENZETİM SONUÇLARI
SONUÇ
İleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce
Aşırı Öğrenme Makinesi
Yinelemeli Güncelleme Olmadan ÖğrenmeAll these hidden node parameters can be randomly generated without theknowledge of the training data. That is, for any continuous target function fand any randomly generated sequencelimL→∞ ||f (x)− fL(x)|| = limL→∞ ||f (x)−
∑Li=1 βiG(ai , bi , x)|| = 0 holds
with probability one if βi is chosen to minimize ||f (x)− fL(x)||,∀iGizli katman parametreleri için herhangibir ayarlama gerekmemektedir.
G.-B. Huang, et al., “Universal approximation using incremental constructivefeedforward networks with random hidden nodes,” IEEE Transactions on NeuralNetworks, vol. 17, no. 4, pp. 879-892, 2006.
G.-B. Huang, et al., “Convex incremental extreme learning machine,”Neurocomputing, vol. 70, pp. 3056-3062, 2007.
G.-B. Huang, et al., “Enhanced random search based incremental extremelearning machine,” Neurocomputing, vol. 71, pp. 3460-3468, 2008.
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma
GİRİŞÖN BİLGİLER
SİSTEM MODELİBENZETİM SONUÇLARI
SONUÇ
İleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce
Aşırı Öğrenme Makinesi
Şekil: İleri Yayılımlı Yapay Sinir AğlarıMatematik Modeli
N adet rassal seçilmiş örneklemuzayı, (xi , ti) ∈ Rn × Rm, "İleriYayılımlı Yapay Sinir Ağları" için Ladet gizli düğüm ve her bir gizlidüğüm için çıktı fonksiyonuG(ai , bi , x) olmak üzere model şuşekilde ifade edilir:
L∑i=1
βiG(ai , bi , xj) = tj , j = 1, ...,N
(6)(ai , bi): gizli düğüm parametreleriβi : i . gizli düğüm ile çıktıdüğümünü bağlayan ağırlık vektörü.
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma
GİRİŞÖN BİLGİLER
SİSTEM MODELİBENZETİM SONUÇLARI
SONUÇ
İleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce
Aşırı Öğrenme Makinesi
Matematik Modeli∑Li=1 βiG(ai , bi , xj) = tj , j = 1, ...,N ifadesi aynı şekilde Hβ = T ifade edilebilir.h(x1)
...h(xN)
=
G(a1, b1, x1) · · · G(aL, bL, x1)...
. . ....
G(a1, b1, xN) · · · G(aL, bL, xN)
N×L
(7)
β =
βT1...βT
L
L×m
ve T =
tT1...
tTN
N×m
(8)
H, sinir ağının gizli katman çıktı matrisi, H matrisinin i . kolonu ise, x1, ..., xngirdilerinin i . gizli katman çıktılarını göstermektedir.
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma
GİRİŞÖN BİLGİLER
SİSTEM MODELİBENZETİM SONUÇLARI
SONUÇ
İleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce
Aşırı Öğrenme Makinesi
Üç Aşamalı Öğrenme ModeliD = {(xi , ti)|xi ∈ Rn, ti ∈ Rm, i = 1, · · · ,N} veri seti, gizli düğüm çıktıfonksiyonu G(a, b, x) ve L adet gizli düğüm olsun.
1 Rassal gizli düğüm parametrelerini atama işlemi. (ai , bi), i = 1, · · · , L.2 Gizli katman çıktı matrisi, H, hesapla.3 Çıktı ağırlık vektörünü hesapla, β = HtT.
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma
GİRİŞÖN BİLGİLER
SİSTEM MODELİBENZETİM SONUÇLARI
SONUÇ
İleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce
Aşırı Öğrenme Makinesi
Belirgin ÖzelliklerAÖM, basit matematik bilgisiyle, üç adımlı öğrenme algoritmasıdır.AÖM’nin öğrenme hızı oldukça yüksektir.Destek Vektör Makinesi veya Yapay Sinir Ağları gibi geleneksel öğrenmeyöntemlerinin aksine, AÖM oldukça basit bir yöntemdir.
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma
GİRİŞÖN BİLGİLER
SİSTEM MODELİBENZETİM SONUÇLARI
SONUÇ
İleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce
AdaBoost Algoritması
AlgoritmaAdaBoost algoritması "zayıf"sınıflandırma hipotezlerinin doğrusalkombinasyonu ile güçlü sınıflandırmahipotezi oluşturmaktadır.
H(x) = sign(f (x)) = sign( T∑
t=1αtht(x)
)(9)
Zayıf sınıflandırma hipoteziht(x) : X→ {−1,+1}.
ÖzellikleriBir Meta-Algoritma’dır. Diğeröğrenme algoritmaları ilekullanılarak performanslarınıartırmaktadır.Sırasıyla, her bir sınıflandırıcıhipotezin kendinden öncekihipotezlerin hatalarını kullanarakkendini güçlendirmesidir.Girdi uzayından örneklem almakyerine, bütün uzayı tekrarağırlıklandırır.Girdi uzayında yer alan herbirörneğe bir ağırlık atamasıyapılmaktadır.
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma
GİRİŞÖN BİLGİLER
SİSTEM MODELİBENZETİM SONUÇLARI
SONUÇ
İleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce
AdaBoost Algoritması
Algoritma
Algorithm 1: AdaBoost Algoritması Sözde Kodu.Data: D = {{(xi , yi) | i = 1, ..., n}, xi ∈ Rp, yi ∈ {−1,+1}}m
i=1(Xn, yn)← Vfor t = 1..T do
ht ← AOM(Xn, yn)ypred , εt ← ht(Xn)αt ← 1
2 ln1−εt
εt
Dt+1 = Dt×exp(−αt yi ht (xi ))Zt
end forOutput: hm = sign
(∑Tt=1 αtht(x)
)
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma
GİRİŞÖN BİLGİLER
SİSTEM MODELİBENZETİM SONUÇLARI
SONUÇ
İleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce
MapReduce
Şekil: Anahtar/Değer VeriTipi
Genel BilgilerMapReduce, yüksek boyutlu veri setlerininişlenmesine olanak sağlayan, ayrıca Googletarafından da oldukça sık kullanılan birprogramlama modeli.Kullanıcılar tarafından tanımlanan Map ve Reducefonksiyonları ve bu fonksiyonlara girdi değeri olarakverilen anahtar/değer dizileri (Key/Value pairs)kullanılmaktadır.Uygulama alanları:
Bir web sayfasının adresi anahtar, HTML içeriği isedeğerGraf tabanlı veri modellerinde düğüm bilgisi (id)anahtar, kendisine komşu olan düğümleri anahtar
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma
GİRİŞÖN BİLGİLER
SİSTEM MODELİBENZETİM SONUÇLARI
SONUÇ
İleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce
MapReduce
Şekil: Mapreduce mimarisi.MimariMap fonksiyonu paralel olarak girdi veri setinde bulunanher ikiliye uygulanmaktadır. Fonksiyon bir veri alanındabulunan veri çiftlerini alarak bunları farklı bir alana veriçift listesi olarak vermektedir.
Map(a1,d1)→ liste(a2,d2) (10)
Reduce fonksiyonu ise yine paralel olarak Mapfonksiyonu tarafından ilişkilendirilmiş anahtar değeryapısına uygulayarak yeni değerler listesioluşturmaktadır.
Reduce(a2, liste(d2))→ liste(a3,d3) (11)
MapReduce çatısının anahtar/değer şeklindeki çiftlerdenoluşan listeyi değerler listesi şekline çevirmektedir.
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma
GİRİŞÖN BİLGİLER
SİSTEM MODELİBENZETİM SONUÇLARI
SONUÇ
Temel FikirModelin Gerçekleştirimi
İçindekiler1 GİRİŞ
Konunun ÖnemiÇalışmanın Katkıları
2 ÖN BİLGİLERİleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce
3 SİSTEM MODELİTemel FikirModelin Gerçekleştirimi
4 BENZETİM SONUÇLARIDeneysel KurulumVeri setlerinin Standart AÖM ile sonuçlarıSonuçlar
5 SONUÇSonuç
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma
GİRİŞÖN BİLGİLER
SİSTEM MODELİBENZETİM SONUÇLARI
SONUÇ
Temel FikirModelin Gerçekleştirimi
Temel Fikir
Sistem ModeliAdaBoost temelli AÖMsınıflandırma algoritmasınınhesaplanması aşamasınınDağıtık ve Paralel halegetirilmesi bu çalışmanın esasgörevidir.Önerilen yöntemin temel fikri,sınıflandırma toplulukfonksiyonlarının rassal veriparçaları
(Xm,Ym)
kullanılarak paralel olarakhesaplanmasıdır.
Tablo: Sık kullanılan değişkenler ve notasyonlar.
Notasyon Açıklama Notasyon Açıklama
MVeri parçabölümlemeuzunluğu
T AdaBoost Tboyutu
h Sınıflandırmafonksiyonu nh
AÖM’dekullanılan gizlidüğüm sayısı
Xm
Veri seti, D,girdi
değerlerinin mveri parçası
DoğSınıflandırmahipotezinindoğruluğu
Ym
Veri seti, D,çıktı
değerlerinin mveri parçası
H. Hassasiyet
ε Hata oranı G.C. Geri Çağırım
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma
GİRİŞÖN BİLGİLER
SİSTEM MODELİBENZETİM SONUÇLARI
SONUÇ
Temel FikirModelin Gerçekleştirimi
Modelin Gerçekleştirimi
Modelin Gerçekleştirimi - Map AşamasıMap metodu:
Girdi değeri: x, eğitim veri kümesiD’nin bir satırıÇıktı değeri: < rassalBolumId , x >anahtar/değer ikilisiReduce aşamasına transfer
Sözde Kod
Algorithm 2: AdaBoostAÖM::MapData: (x, y) ∈ D, M1: k ← rand(0,M)2: Output(k, (x, y))
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma
GİRİŞÖN BİLGİLER
SİSTEM MODELİBENZETİM SONUÇLARI
SONUÇ
Temel FikirModelin Gerçekleştirimi
Modelin Gerçekleştirimi
Modelin Gerçekleştirimi - ReduceAşamasıMap metodu:
Girdi değeri:< rassalBolumId , list(x) >Çıktı değeri: Hipotez kümesi: Ht
Sözde Kod
Algorithm 3: AdaBoostAÖM::ReduceData: Anahtar k, Deger V , TResult: hm = sign
(∑Tt=1 αtht(x)
)1: (Xn, yn)← V2: for t = 1..T do3: ht ← AOM(Xn, yn)4: ypred , εt ← ht(Xn)5: αt ← 1
2 ln1−εt
εt
6: Dt+1 = Dt×exp(−αt yi ht (xi ))Zt
7: end for
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma
GİRİŞÖN BİLGİLER
SİSTEM MODELİBENZETİM SONUÇLARI
SONUÇ
Temel FikirModelin Gerçekleştirimi
Modelin Gerçekleştirimi
Şekil: Genel Mimari.
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma
GİRİŞÖN BİLGİLER
SİSTEM MODELİBENZETİM SONUÇLARI
SONUÇ
Deneysel KurulumVeri setlerinin Standart AÖM ile sonuçlarıSonuçlar
İçindekiler1 GİRİŞ
Konunun ÖnemiÇalışmanın Katkıları
2 ÖN BİLGİLERİleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce
3 SİSTEM MODELİTemel FikirModelin Gerçekleştirimi
4 BENZETİM SONUÇLARIDeneysel KurulumVeri setlerinin Standart AÖM ile sonuçlarıSonuçlar
5 SONUÇSonuç
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma
GİRİŞÖN BİLGİLER
SİSTEM MODELİBENZETİM SONUÇLARI
SONUÇ
Deneysel KurulumVeri setlerinin Standart AÖM ile sonuçlarıSonuçlar
Deneysel Kurulum
Tablo: Kullanılan veri setlerinin bilgileri.
Veri seti # Eğitim # Test # Sınıf # Öz nitelikPendigit 7495 3498 10 64Skin 220543 24507 2 4
Statlog 43500 25000 10 7Page-blocks 4500 973 5 10
Kullanılan Altyapı64bit Python 2.7MrJOB (MapReduceStreaming)Sckit-Learn MakineÖğrenme KütüphanesiScientific Python(SciPy), NumericPython (NumPy)
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma
GİRİŞÖN BİLGİLER
SİSTEM MODELİBENZETİM SONUÇLARI
SONUÇ
Deneysel KurulumVeri setlerinin Standart AÖM ile sonuçlarıSonuçlar
Veri setlerinin Standart AÖM ile sonuçları
Ön Bilgilernh değeri, 1 – 500 arasında değişmektedir. Performans ölçümleri için doğruluk,hassasiyet, geri çekilme ve F1 değerleri kullanılmıştır.
Tablo: Veri setlerinin standart AÖM sonuçları.
Veri S. nh. Doğ. H. G.C. F1
Pendigit 149 0,8404 0,8393 0,8416 0,8407Skin 98 0,9754 0,9956 0,9583 0,9894
Statlog 249 0,8871 0,8556 0,9237 0,9757Page Blocks 498 0,9873 0,9794 0,9988 0,9977
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma
GİRİŞÖN BİLGİLER
SİSTEM MODELİBENZETİM SONUÇLARI
SONUÇ
Deneysel KurulumVeri setlerinin Standart AÖM ile sonuçlarıSonuçlar
Model Ölçümü
Sınıflandırıcı Hipotez Model ÖlçümüOrtalama doğrulukOrtalama hassasiyet: Hassasiyet = Dogru
Dogru+Hata ,Hassasiyetort = 1
nsinif
∑nsinif−1i=0 Hassasiyeti ,
Ortalama geri çekim: Geri Cekilme = DogruDogru+Kayip ,
Geri Cekilmeort = 1nsinif
∑nsinif−1i=0 GeriCekilmei
F1 ölçümü: F1 = 2× Hassasiyetort×GeriCekilmeortHassasiyetort +GeriCekilmeort
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma
GİRİŞÖN BİLGİLER
SİSTEM MODELİBENZETİM SONUÇLARI
SONUÇ
Deneysel KurulumVeri setlerinin Standart AÖM ile sonuçlarıSonuçlar
Model Ölçüm Sonuçları
Tablo: Veri setlerinin en iyi performans sonuçları.
Veri S. # C. T # H.N. Doğ. H. G.C. F1Pendigit 20 10 21 0,8256 0,8369 0,8234 0,8301Skin 21 5 21 0,9892 0,9773 0,9913 0,9842
Statlog 11 2 21 0,9103 0,7486 0,5069 0,6045Page Blocks 1 1 340 0,9404 0,9027 0,5756 0,7030
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma
GİRİŞÖN BİLGİLER
SİSTEM MODELİBENZETİM SONUÇLARI
SONUÇ
Deneysel KurulumVeri setlerinin Standart AÖM ile sonuçlarıSonuçlar
Model Ölçüm Sonuçları
M
T
3 5 7 9 11 13 15 17 19 21
2
3
4
5
6
7
8
9
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
(a) Bölümleme veadaboost T boyu
M
nh
3 5 7 9 11 13 15 17 19 21
1
3
5
7
9
11
13
15
17
19
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
(b) Bölümleme ve gizlidüğüm sayısı.
T
nh
2 3 4 5 6 7 8 9
1
3
5
7
9
11
13
15
17
19
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
(c) AdaBoost T boyu vegizli düğüm sayısı.
Şekil: Statlog veri kümesi ısı haritası.
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma
GİRİŞÖN BİLGİLER
SİSTEM MODELİBENZETİM SONUÇLARI
SONUÇ
Deneysel KurulumVeri setlerinin Standart AÖM ile sonuçlarıSonuçlar
Model Ölçüm Sonuçları
M
T
2 4 6 8 10 12 14 16 18 20
1
2
3
4
5
6
7
8
9
10
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
(a) Bölümleme veadaboost T boyu
M
nh
2 4 6 8 10 12 14 16 18 20
1
3
5
7
9
11
13
15
17
19
21
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
(b) Bölümleme ve gizlidüğüm sayısı.
T
nh
1 2 3 4 5 6 7 8 9 10
1
3
5
7
9
11
13
15
17
19
21
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
(c) AdaBoost T boyu vegizli düğüm sayısı.
Şekil: Pendigit veri kümesi ısı haritası.
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma
GİRİŞÖN BİLGİLER
SİSTEM MODELİBENZETİM SONUÇLARI
SONUÇ
Deneysel KurulumVeri setlerinin Standart AÖM ile sonuçlarıSonuçlar
Model Ölçüm Sonuçları
M
T
1 3 5 7 9 11 13 15 17 19 21
1
2
3
4
5
6
7
8
9
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
(a) Bölümleme veadaboost T boyu
M
nh
1 3 5 7 9 11 13 15 17 19 21
1
3
5
7
9
11
13
15
17
19
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
(b) Bölümleme ve gizlidüğüm sayısı.
T
nh
1 2 3 4 5 6 7 8 9
1
3
5
7
9
11
13
15
17
19
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
(c) AdaBoost T boyu vegizli düğüm sayısı.
Şekil: Skin veri kümesi ısı haritası.
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma
GİRİŞÖN BİLGİLER
SİSTEM MODELİBENZETİM SONUÇLARI
SONUÇ
Deneysel KurulumVeri setlerinin Standart AÖM ile sonuçlarıSonuçlar
Model Ölçüm Sonuçları
M
T
1 3 5 7 9
1
2
3
4
5
6
7
8
9
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
(a) Bölümleme veadaboost T boyu
M
nh
1 3 5 7 9 11 13 15 17 19 21
20
40
60
80
100
120
140
160
180
200
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
(b) Bölümleme ve gizlidüğüm sayısı.
T
nh
1 2 3 4 5 6 7 8 9
20
40
60
80
100
120
140
160
180
200
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
(c) AdaBoost T boyu vegizli düğüm sayısı.
Şekil: Page blocks veri kümesi ısı haritası.
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma
GİRİŞÖN BİLGİLER
SİSTEM MODELİBENZETİM SONUÇLARI
SONUÇ
Deneysel KurulumVeri setlerinin Standart AÖM ile sonuçlarıSonuçlar
Sınıflandırma Modeli Stabilite Analizi
Number of Mappers0 2 4 6 8 10 12 14 16 18 20
Standart
Sapma
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
pageblocks
pendigits
skin
statlog
waveform
(a) Mapper M.
AdaBoost T0 1 2 3 4 5 6 7 8 9 10 11
Standart
Sapma
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
pageblocks
pendigits
skin
statlog
waveform
(b) AdaBoost T .
Şekil: Sınıflandırma modeli stabilite analizi
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma
GİRİŞÖN BİLGİLER
SİSTEM MODELİBENZETİM SONUÇLARI
SONUÇ
Sonuç
İçindekiler1 GİRİŞ
Konunun ÖnemiÇalışmanın Katkıları
2 ÖN BİLGİLERİleri Yayılımlı Yapay Sinir AğlarıAşırı Öğrenme MakinesiAdaBoostMapReduce
3 SİSTEM MODELİTemel FikirModelin Gerçekleştirimi
4 BENZETİM SONUÇLARIDeneysel KurulumVeri setlerinin Standart AÖM ile sonuçlarıSonuçlar
5 SONUÇSonuç
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma
GİRİŞÖN BİLGİLER
SİSTEM MODELİBENZETİM SONUÇLARI
SONUÇ
Sonuç
SONUÇ
SonuçAmaç: MapReduce temelli AdaBoost AÖM algoritması uygulaması, yüksekboyutlu veri setlerinin eğitilmesi için önerilmiştir.Girdi matrisini parçalara ayırarak, AÖM sınıflandırmasının eğitim aşamasınınkarmaşıklığı azaltılmaktadır.Sınıflandırma performans azalması için AdaBoost ile desteklenmiştir.Sadece eğitim karmaşıklığı azalmamakta, geleneksel AÖM sınıflandırmaperformansı artmaktadır.
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma
GİRİŞÖN BİLGİLER
SİSTEM MODELİBENZETİM SONUÇLARI
SONUÇ
Sonuç
SONUÇ
SonuçDeneysel sonuçlar: M ve T , nh’a göre sınıflandırma performansına olanetkisi daha fazlaTablo 5 ve Tablo 6 karşılaştırıldığında, model karmaşıklık göstergesi olarakdüşünülen, nh sayısında azalma olduğu görülmektedir. Sadece girdi matrisikarmaşıklığı değil, model karmaşıklığıda azalmaktadır.
Tablo: Standart AÖM.
Veri S. nh.Pendigit 149Skin 98
Statlog 249Page Blocks 498
Tablo: Önerilen Yöntem.
Veri S. nh.Pendigit 21Skin 21
Statlog 21Page Blocks 340
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma
GİRİŞÖN BİLGİLER
SİSTEM MODELİBENZETİM SONUÇLARI
SONUÇ
Sonuç
SORULAR
SORULAR
Dr. Ferhat Özgür ÇATAK TÜBİTAK - BİLGEM Siber Güvenlik Enstitüsü Rassal Bölümlenmiş Veri Üzerinde Aşırı Öğrenme Makinesi ve Topluluk Algoritmaları ile Sınıflandırma