14
Behatolási adatok feldolgozása gépi tanulás és MapReduce segítségével Készítette: Brunner Csaba

Brunner Csaba: Behatolási adatok feldolgozása gépi tanulás és MapReduce segítségével

Embed Size (px)

Citation preview

Behatolási adatok feldolgozása gépi tanulás és MapReduce segítségévelKészítette: Brunner Csaba

Információrendszerek Tanszék

Miről lesz szó?§ Kutatási kérdések§ A behatolás detektálás kihívásai§ Gépi tanulás§ MapReduce§ Kutatási módszertan

– Az adatbázis– Mintavételezés

§ Eredmények értékelése– Modellek értékelése– Teljesítmény

Készítette: Brunner Csaba

Információrendszerek Tanszék

Kutatási probléma, kutatási kérdések§ Behatolás detektálás támogatása párhuzamosított gépi tanulási eljárásokkal§ Kutatási kérdések

– Milyen gépi tanulási eljárások alkalmazhatók a behatolásdetektálás területén– Milyen párhuzamosítást érdemes alkalmazni ahhoz, hogy az adatbányászati modell

legalább elfogadható teljesítményt nyújtson az adathalmazon§ Hipotézisek:

– 1.: az adatbányászati modell legalább elfogadható teljesítményt nyújt az adathalmazon.– 2.: A párhuzamosításnak köszönhetően javulás várható a műveletvégrehajtási időben.

§ A hipotézisek vizsgálatára kísérletet végeztem el egy adatbázison, melynek feldolgozására egy saját programkódot írtam.

Készítette: Brunner Csaba

Információrendszerek Tanszék

A behatolás detektálás kihívásai, behatolás detektálási rendszer (IDS)§ AzIDSrouterekéstűzfalakmellettműködvefigyeliahálózathasználatábantapasztaltanomáliákat.– Kategóriái:

• HálózatalapúIDS• HosztalapúIDS

– Típusai:• Szignatúraalapú• Statisztikaalapú• Neurálishálózattaltámogatott

Készítette: Brunner Csaba

Információrendszerek Tanszék

Gépi tanulás (Machine learning)§ Machine learning – Gépi tanulás

– „Célja annak a hipotézisnek a keresése, amely a legjobban illeszkedik a kiindulásul vett adatokra – azzal az elvárással, hogy az így megtanult minta vagy összefüggés alkalmazható legyen előre nem látott adatok esetére is.” (Sántáné-Tóth et al., 2008)

§ Tanuló algoritmusok kategóriái:– Felügyelt tanulás

• Regresszió• Osztályozás

– Nem-felügyelt tanulás§ A választásom végül a Döntési fa algoritmusok közül az ID3 algoritmusra

esett.

Készítette: Brunner Csaba

Információrendszerek Tanszék

A MapReduce

§ MapReduce– Lényege: nagy mennyiségű adatot oszt fel párhuzamosan működő

feldolgozó egységek között, majd az eredményeket valamilyen művelet segítségével összegzi

Készítette: Brunner Csaba

Információrendszerek Tanszék

Kutatási módszertan – a feldolgozott adatbázis

§ A már bemutatott behatolás detektálási feladatra választott adatbázis:– KDD Cup 1999-es versenyének adatbázisa– 41 változó ~5 millió adata a tréning, és további ~2 millió a teszt állományban– A könnyebb feldolgozhatóság érdekében a biztosított 10%-os tréning és teszt

mintákkal dolgoztam– Célváltozó: túl részletes volt, ezért egy fogalmi hierarchiát alkalmaztam

Készítette: Brunner Csaba

Információrendszerek Tanszék

Kutatási módszertan – mintavételezés

§ Túl sok volt még így is az adatsor, mintavételezést kellett használni.

§ Egy további változó jellemző az volt, hogy 2, 4 vagy 8 feldolgozási szálon futott a program.

§ Mindent egybevetbe 28 kísérleti futtatásra került sor.Készítette: Brunner Csaba

Információrendszerek Tanszék

Eredmények értékelése – modell teljesítménye 5 osztályon1g4sz

2g8sz

Készítette: Brunner Csaba

Információrendszerek Tanszék

Eredmények értékelése –modell teljesítménye 2 osztályon

Készítette: Brunner Csaba

Információrendszerek Tanszék

Eredmények értékelése - teljesítmény

Készítette: Brunner Csaba

Információrendszerek Tanszék

Eredmények értékelése - teljesítmény

Készítette: Brunner Csaba

Információrendszerek Tanszék

Eredmények értékelése - teljesítmény

Készítette: Brunner Csaba

Információrendszerek Tanszék

Konklúzió

§ A hipotézisek:– 1.: az adatbányászati modell legalább elfogadható teljesítményt nyújt az

adathalmazon? - beigazolódott– 2.: A párhuzamosításnak köszönhetően javulás várható a

műveletvégrehajtási időben. – beigazolódott§ Javaslatok a további kutatásra:

– Adatok tárolása– Pontosabb előrejelzések– Összegzett teljesítmény

Készítette: Brunner Csaba