Upload
informatikai-intezet
View
82
Download
2
Embed Size (px)
Citation preview
Információrendszerek Tanszék
Miről lesz szó?§ Kutatási kérdések§ A behatolás detektálás kihívásai§ Gépi tanulás§ MapReduce§ Kutatási módszertan
– Az adatbázis– Mintavételezés
§ Eredmények értékelése– Modellek értékelése– Teljesítmény
Készítette: Brunner Csaba
Információrendszerek Tanszék
Kutatási probléma, kutatási kérdések§ Behatolás detektálás támogatása párhuzamosított gépi tanulási eljárásokkal§ Kutatási kérdések
– Milyen gépi tanulási eljárások alkalmazhatók a behatolásdetektálás területén– Milyen párhuzamosítást érdemes alkalmazni ahhoz, hogy az adatbányászati modell
legalább elfogadható teljesítményt nyújtson az adathalmazon§ Hipotézisek:
– 1.: az adatbányászati modell legalább elfogadható teljesítményt nyújt az adathalmazon.– 2.: A párhuzamosításnak köszönhetően javulás várható a műveletvégrehajtási időben.
§ A hipotézisek vizsgálatára kísérletet végeztem el egy adatbázison, melynek feldolgozására egy saját programkódot írtam.
Készítette: Brunner Csaba
Információrendszerek Tanszék
A behatolás detektálás kihívásai, behatolás detektálási rendszer (IDS)§ AzIDSrouterekéstűzfalakmellettműködvefigyeliahálózathasználatábantapasztaltanomáliákat.– Kategóriái:
• HálózatalapúIDS• HosztalapúIDS
– Típusai:• Szignatúraalapú• Statisztikaalapú• Neurálishálózattaltámogatott
Készítette: Brunner Csaba
Információrendszerek Tanszék
Gépi tanulás (Machine learning)§ Machine learning – Gépi tanulás
– „Célja annak a hipotézisnek a keresése, amely a legjobban illeszkedik a kiindulásul vett adatokra – azzal az elvárással, hogy az így megtanult minta vagy összefüggés alkalmazható legyen előre nem látott adatok esetére is.” (Sántáné-Tóth et al., 2008)
§ Tanuló algoritmusok kategóriái:– Felügyelt tanulás
• Regresszió• Osztályozás
– Nem-felügyelt tanulás§ A választásom végül a Döntési fa algoritmusok közül az ID3 algoritmusra
esett.
Készítette: Brunner Csaba
Információrendszerek Tanszék
A MapReduce
§ MapReduce– Lényege: nagy mennyiségű adatot oszt fel párhuzamosan működő
feldolgozó egységek között, majd az eredményeket valamilyen művelet segítségével összegzi
Készítette: Brunner Csaba
Információrendszerek Tanszék
Kutatási módszertan – a feldolgozott adatbázis
§ A már bemutatott behatolás detektálási feladatra választott adatbázis:– KDD Cup 1999-es versenyének adatbázisa– 41 változó ~5 millió adata a tréning, és további ~2 millió a teszt állományban– A könnyebb feldolgozhatóság érdekében a biztosított 10%-os tréning és teszt
mintákkal dolgoztam– Célváltozó: túl részletes volt, ezért egy fogalmi hierarchiát alkalmaztam
Készítette: Brunner Csaba
Információrendszerek Tanszék
Kutatási módszertan – mintavételezés
§ Túl sok volt még így is az adatsor, mintavételezést kellett használni.
§ Egy további változó jellemző az volt, hogy 2, 4 vagy 8 feldolgozási szálon futott a program.
§ Mindent egybevetbe 28 kísérleti futtatásra került sor.Készítette: Brunner Csaba
Információrendszerek Tanszék
Eredmények értékelése – modell teljesítménye 5 osztályon1g4sz
2g8sz
Készítette: Brunner Csaba
Információrendszerek Tanszék
Eredmények értékelése –modell teljesítménye 2 osztályon
Készítette: Brunner Csaba
Információrendszerek Tanszék
Konklúzió
§ A hipotézisek:– 1.: az adatbányászati modell legalább elfogadható teljesítményt nyújt az
adathalmazon? - beigazolódott– 2.: A párhuzamosításnak köszönhetően javulás várható a
műveletvégrehajtási időben. – beigazolódott§ Javaslatok a további kutatásra:
– Adatok tárolása– Pontosabb előrejelzések– Összegzett teljesítmény
Készítette: Brunner Csaba