25

MATINE tutkimusseminaari - Puolustusministeriö · 2019. 12. 13. · CICIDS2017 CICIDS2017 97.11% CICIDS2017 Our TLS anomalies 99.48% CICIDS2017 CICIDS2017 + Our TLS anomalies 96.81%

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: MATINE tutkimusseminaari - Puolustusministeriö · 2019. 12. 13. · CICIDS2017 CICIDS2017 97.11% CICIDS2017 Our TLS anomalies 99.48% CICIDS2017 CICIDS2017 + Our TLS anomalies 96.81%
Page 2: MATINE tutkimusseminaari - Puolustusministeriö · 2019. 12. 13. · CICIDS2017 CICIDS2017 97.11% CICIDS2017 Our TLS anomalies 99.48% CICIDS2017 CICIDS2017 + Our TLS anomalies 96.81%

MATINE tutkimusseminaari 21.11.2019

+35850 438 5317

FT Tero Kokkonen

[email protected]

Page 3: MATINE tutkimusseminaari - Puolustusministeriö · 2019. 12. 13. · CICIDS2017 CICIDS2017 97.11% CICIDS2017 Our TLS anomalies 99.48% CICIDS2017 CICIDS2017 + Our TLS anomalies 96.81%

Hankkeen perustiedot• Hanke: Tekoälyn käy>ö poikkeamapohjaiseen tunkeutumisten

havainnoinFin verkkoliikenteestä • Toteu>aja: Jyväskylän ammaHkorkeakoulu, IT-insFtuuH• Hankkeen kokonaisrahoitus 125 836€– MATINE rahoitus: 91 888€

Page 4: MATINE tutkimusseminaari - Puolustusministeriö · 2019. 12. 13. · CICIDS2017 CICIDS2017 97.11% CICIDS2017 Our TLS anomalies 99.48% CICIDS2017 CICIDS2017 + Our TLS anomalies 96.81%

Taustaa• Verkotettujen tietojärjestelmien määrän kasvun, sekä kiihtyvän

digitalisaation myötä yhteiskuntamme on täysin riippuvainen tietoverkoista ja niiden turvallisuudesta

• Tämä koskettaa myös Puolustusvoimia ja kaikkia yhteiskunnan turvallisuusviranomaisia, joiden (johtamis)järjestelmät ovat riippuvaisia toimivista tietoverkoista ja tietojärjestelmistä

• Erilaisten verkko- ja kyberhyökkäysten tai yleisemmin tunkeutumisten määrä kriittisiä järjestelmiä kohtaan kasvaa jatkuvasti, mikä kasvattaa tarvetta tunkeutumisten havainnointijärjestelmän (IDS) kehitykselle

Page 5: MATINE tutkimusseminaari - Puolustusministeriö · 2019. 12. 13. · CICIDS2017 CICIDS2017 97.11% CICIDS2017 Our TLS anomalies 99.48% CICIDS2017 CICIDS2017 + Our TLS anomalies 96.81%

Tehtävänasettelu ja tavoitteet • Vuoden 2018 aikana tehtiin samalla otsikolla tutkimus, joka tuolloin

suunniteltiin kaksivuotiseksi. Vuoden 2018 aikana tehty tutkimus osoitti erittäin lupaavia tuloksia tekoälyn hyödyntämiselle kyseisen ongelman ratkaisussa.

• Vuoden 2019 osuudessa tekoälyyn ja koneoppimiseen perustuvan tunkeutumisten havainnointijärjestelmäsovelluksen suorituskykyä parannettiin uusilla koneoppimisalgoritmeilla tulosten kattavuuden lisäämiseksi.

• Tämän lisäksi tulosten visualisoinnilla parannettiin tilannekuvaa havaituista tunkeutumisista ja koneoppimismallin toiminnasta.

Page 6: MATINE tutkimusseminaari - Puolustusministeriö · 2019. 12. 13. · CICIDS2017 CICIDS2017 97.11% CICIDS2017 Our TLS anomalies 99.48% CICIDS2017 CICIDS2017 + Our TLS anomalies 96.81%

Tieteellinen merkittävyys • Tekoälykehitykseen ja tutkimukseen panostetaan

maailmanlaajuisesF suuria määriä rahaa ja resursseja– Kyberturvallisuus on nopeasF kehi>yvä tekoälytutkimuksen

sovellusalue

Page 7: MATINE tutkimusseminaari - Puolustusministeriö · 2019. 12. 13. · CICIDS2017 CICIDS2017 97.11% CICIDS2017 Our TLS anomalies 99.48% CICIDS2017 CICIDS2017 + Our TLS anomalies 96.81%

Tulosten hyödyntämismahdollisuudet• Tutkimusten tulokset ovat soFlaallisen maanpuolustuksen ja yhteiskunnan

kokonaisturvallisuuden kehi>ämisen kannalta eri>äin tärkeitä ja sovelle>avissa au>amaan kaikkien Fetoverkoista riippuvien järjestelmien turvaamisessa

• Puolustushallinnon strategiset valinnat kuten verko>unut puolustusratkaisu ja toisaalta koko sodan kuvan laajeneminen kasva>avat verkon kau>a tapahtuvia vaikutusmahdollisuuksia Puolustusvoimia ja koko modernia yhteiskuntaa vastaan

• Tämän vuoksi Fetoverkossa tapahtuvien ilmiöiden ymmärtäminen ja johtamisen perustana tarvi>ava Flannekuva, sekä Flannekuvan pohjana oleva havainnoinF-ja sensorikyky ovat tärkeässä asemassa

• Tutkimustuloksia voivat hyödyntää Puolustusvoimat ja muut turvallisuusviranomaiset, sekä yleisemmin kaikki organisaaFot joiden toiminta on riippuvaista verkotetuista järjestelmistä

Page 8: MATINE tutkimusseminaari - Puolustusministeriö · 2019. 12. 13. · CICIDS2017 CICIDS2017 97.11% CICIDS2017 Our TLS anomalies 99.48% CICIDS2017 CICIDS2017 + Our TLS anomalies 96.81%

Tutkimusorganisaatio• Hankkeen vastuullinen johtaja– FT Tero Kokkonen

• Asiantuntijat – FT Petri Mutka– FM Samir Puuska – Ins Janne Alatalo – Ins Eppu Heilimo– Ins Antti Mäkelä

Page 9: MATINE tutkimusseminaari - Puolustusministeriö · 2019. 12. 13. · CICIDS2017 CICIDS2017 97.11% CICIDS2017 Our TLS anomalies 99.48% CICIDS2017 CICIDS2017 + Our TLS anomalies 96.81%

Tutkimuksen suoritus• Tutkimusmetodologiana käytettiin konstruktiivista tutkimusta– lähtökohtana on rakentaa konstruktio, jolla pyritään vastaamaan

tosielämän ongelmaan

• Mallia testattiin RGCE Cyber Range –ympäristössä (www.jyvsectec.fi/rgce)

– moderni ja realistinen uhkatoimijaprofiili/hyökkäysliikenne, sekä monipuoliset verkkotopologiat

– KYHA18 –harjoituksen verkkoliikennetaltioita tutkimuksen käytössä(https://www.defmin.fi/ajankohtaista/tiedotteet?9_m=9314)

Page 10: MATINE tutkimusseminaari - Puolustusministeriö · 2019. 12. 13. · CICIDS2017 CICIDS2017 97.11% CICIDS2017 Our TLS anomalies 99.48% CICIDS2017 CICIDS2017 + Our TLS anomalies 96.81%

Kehitetty sovellus

Page 11: MATINE tutkimusseminaari - Puolustusministeriö · 2019. 12. 13. · CICIDS2017 CICIDS2017 97.11% CICIDS2017 Our TLS anomalies 99.48% CICIDS2017 CICIDS2017 + Our TLS anomalies 96.81%

Malli• Tavoitteena oli kyetä tunnistamaan poikkeamia TLS-salatusta Internet

liikenteestä– Salaamaton Internet käytännössä katoamassa– Haittaohjelmilla salattu ja yleisesti käytetty verkkoliikenne on luonnollinen valinta

komentokanavaksi– Salaus rajoittaa näkyvyyttä eri analyysimenetelmissä

• Vuonna 2018 syväoppimiseen käytettiin Haar Wavelet -muunnosta ja Adversarial Autoencoder –neuroverkkoa

• Uudessa parannetussa mallissa käytetään WaveNet-arkkitehtuuriin perustuvaa syväoppimisalgoritmia

Page 12: MATINE tutkimusseminaari - Puolustusministeriö · 2019. 12. 13. · CICIDS2017 CICIDS2017 97.11% CICIDS2017 Our TLS anomalies 99.48% CICIDS2017 CICIDS2017 + Our TLS anomalies 96.81%

WaveNet• van den Oord , et. al, 2016, WaveNet: A Generative Model for Raw Audio

https://arxiv.org/pdf/1609.03499.pdf

• WaveNet soveltuu vuoden 2018 mallia paremmin dynaamisten aikasarjojen analysointiin– Verkkoyhteyksien pituudet vaihtelevat– Vain aikaisemmat aikasarjan havainnot vaikuttavat seuraavaan havaintoon– Mallin tehokas suorituskyky mahdollistaa paremman reaaliaikaisuuden– > Sopii paremmin verkkoliikenteelle kuin vuoden 2018 malli

• Kaksiulotteinen WaveNet sisältää monta ominaisuutta/havainto– Verkkoyhteyksien paketit sisältävät useita ominaisuuksia

Page 13: MATINE tutkimusseminaari - Puolustusministeriö · 2019. 12. 13. · CICIDS2017 CICIDS2017 97.11% CICIDS2017 Our TLS anomalies 99.48% CICIDS2017 CICIDS2017 + Our TLS anomalies 96.81%

WaveNet

Anomaly Detection Applying WaveNet 5

potential to observe long term temporal dependencies. Dilation of convolutionsis only performed along the time axis of the data, as the receptive fields are ex-ceedingly large and thus not optimal for the relatively small fixed length featureaxis. The causality aspect of the convolutions is used to assert an ordered time-dependency on the input data: predicted samples may only depend on precedinginput samples. We implemented the causality by padding the beginning of thesequence by the filter size in the first layer and by (filter size�1)⇥dilation rate inthe subsequent layers, e↵ectively shifting the convolution operations. The causallayer stack is visualized in Figure 1.

Fig. 1: Visualization of the models two-dimensional dilated causal layers and thefirst causal layer.

The input variables are quantized to n bins, continuous and discrete variablesalike, matching the practice used in WaveNet [15] as well as PixelRNN [16]. Asthe length of the input data varies with each example, a special end of sequencevalue is used to represent sequence termination. The network utilizes a dis-cretized mixture of logistic distributions, as described in PixelCNN++ [21] andParallel WaveNet [17]. We found this to perform slightly better when comparedto a more classical soft-max layer.

The individual residual layers follow closely the structure present in WaveNet.Unlike the WaveNet architecture, we included a dropout layer before each dilatedconvolution layer as shown in Figure 2. Applying dropout inside each residuallayer has been previously explored in PixelCNN++ [21] and Wide ResidualNetworks [30].

To distinguish anomalous data from benign data, an anomaly score is quan-tified from the network outputs with a single forward pass, e↵ectively avoidingthe downside of slow sampling of the WaveNet model. In our approach, we com-puted the training loss contributions for each sample in the input sequence. Theoverall anomaly score of the whole sequence was the mean of these loss values,with samples past the end of sequence marker masked out to account for di↵erentlength of sequences.

6 T. Kokkonen, S. Puuska, J. Alatalo, E. Heilimo, A. Makela

Fig. 2: The architecture is similar to the original WaveNet [15], with the exceptionof a dropout layer between all dilation layers and exclusive weights betweenresidual and skip connections.

3 Experimental Results

For the numerical results, we created receiver operating characteristic (ROC)curves by plotting the true positive rate (TPR) to y-axis and false positive rate(FPR) to x-axis. As a comparable score we also calculated the area under curve(AUC) from the ROC.

Training Dataset Evaluation Dataset AUCCICIDS2017 CICIDS2017 97.11%CICIDS2017 Our TLS anomalies 99.48%CICIDS2017 CICIDS2017 + Our TLS anomalies 96.81%FNCSE2018 FNCSE2018 91.61%

Table 1: Area under curve scores for four di↵erent evaluation dataset combina-tions.

In order to model an anomaly detector we split the clean data from CI-CIDS2017 and FNCSE2018 datasets into training and evaluation parts using

As the convolutional filter slides over the data, it looks into the futureas well as the past. Causal convolution ensures that the output at time t derives only from inputs from time t - 1

Dilation means that the filter only accesses every nth element

Page 14: MATINE tutkimusseminaari - Puolustusministeriö · 2019. 12. 13. · CICIDS2017 CICIDS2017 97.11% CICIDS2017 Our TLS anomalies 99.48% CICIDS2017 CICIDS2017 + Our TLS anomalies 96.81%

Testi- ja opetusdata• Kansallisen kyberharjoituksen (KYHA2018) verkkoliikennetaltio

• Lisäksi verrokkina paljon käytetty vapaasti saatava testidatasetti:University of New Brunswick, Canadian Institute for Cybersecurity: Intrusion Detection Evaluation Dataset (CICIDS2017). https://www.unb.ca/cic/datasets/ids-2017.html– Ei tarpeeksi TLS salattua haittaliikennettä, joten generoitiin omassa ympäristössä

haittaliikennettä käyttäen seuraavia työkaluja• Empire PowerShell post-exploitation agent https://www.powershellempire.com/ • Cobalt Strike https://www.cobaltstrike.com/

Page 15: MATINE tutkimusseminaari - Puolustusministeriö · 2019. 12. 13. · CICIDS2017 CICIDS2017 97.11% CICIDS2017 Our TLS anomalies 99.48% CICIDS2017 CICIDS2017 + Our TLS anomalies 96.81%

Käytetyt OpenSource komponenMt• Toteutuksessa käytettiin seuraavia OpenSource komponentteja– Suricata IDS/IPS/NMS –ohjelmistoa (https://suricata-ids.org/) käytettiin

pakettidatan parsimiseen ja ominaisuuksien valintaan verkkoliikennedatasta (feature extraction)• packet direction (transmitted/received) • time difference to next received packet• time difference to next transmitted packet• packet size

– TensorFlow Machine Learning Framework:a (https://www.tensorflow.org/) käytettiin WaveNet osuuden toteutukseen• Hankkeen loppuvaiheessa tutustuttiin myös uuteen 2.0 versioon ja sen mahdollisuuksiin,

mutta toteutuksessa käytettiin vanhempaa versiota.

Page 16: MATINE tutkimusseminaari - Puolustusministeriö · 2019. 12. 13. · CICIDS2017 CICIDS2017 97.11% CICIDS2017 Our TLS anomalies 99.48% CICIDS2017 CICIDS2017 + Our TLS anomalies 96.81%

Tulokset

6 T. Kokkonen, S. Puuska, J. Alatalo, E. Heilimo, A. Makela

Fig. 2: The architecture is similar to the original WaveNet [15], with the exceptionof a dropout layer between all dilation layers and exclusive weights betweenresidual and skip connections.

3 Experimental Results

For the numerical results, we created receiver operating characteristic (ROC)curves by plotting the true positive rate (TPR) to y-axis and false positive rate(FPR) to x-axis. As a comparable score we also calculated the area under curve(AUC) from the ROC.

Training Dataset Evaluation Dataset AUCCICIDS2017 CICIDS2017 97.11%CICIDS2017 Our TLS anomalies 99.48%CICIDS2017 CICIDS2017 + Our TLS anomalies 96.81%FNCSE2018 FNCSE2018 91.61%

Table 1: Area under curve scores for four di↵erent evaluation dataset combina-tions.

In order to model an anomaly detector we split the clean data from CI-CIDS2017 and FNCSE2018 datasets into training and evaluation parts using

Anomaly Detection Applying WaveNet 7

80/20 ratio. We took 256 first packets from each flow and trained a model with9 dilation layers (receptive field of 256), vertical filter size of 3 and horizontal2, 128 filters each layer for ⇠ 15 epochs while evaluating the model using theevaluation part of the dataset to keep the model from over-fitting. During andafter the training we ran an evaluation where we included the anomaly data tovalidate the anomaly detection capability of the model. Since the CICIDS2017dataset lacks TLS anomalies we ran the evaluation three times to validate themodel against the included CICIDS2017 anomalies, our TLS anomalies and amixture of both. The resulting AUC scores are listed in Table 1. The FNCSE2018training and evaluation datasets include only TLS encrypted connections.

(a) CICIDS2017 Anomalies (b) Our TLS Anomalies

(c) CICIDS2017 and TLS Anomalies (d) FNCSE2018

Fig. 3: Receiver operating characteristic curves on the four datasets we used toevaluate the model.

From the results in Figure 3 we concluded that the model is capable of detect-ing anomalies in both datasets, while also retaining the capability of detectinganomalous connection with TLS encryption. The model also performs signifi-cantly better than our earlier model [19], which had 80% AUC whereas the newmodel got 91.61% AUC on the same dataset.

CICIDS2017: Canadian Institute for Cybersecurity: Intrusion DetectionEvaluation Dataset

FNCSE2018: Finnish National CyberSecurity Exercise data

Page 17: MATINE tutkimusseminaari - Puolustusministeriö · 2019. 12. 13. · CICIDS2017 CICIDS2017 97.11% CICIDS2017 Our TLS anomalies 99.48% CICIDS2017 CICIDS2017 + Our TLS anomalies 96.81%

Visualisointi tilannekuvan parantamiseksi• Web-pohjainen sovellus prosessoidun flow-datan visualisointiin ja

mallin hyvyyden arviointiin• Toimii osana dataputkea– Testattu vuoden 2018 MATINE projektissa toteutetussa testiympäristössä

• Toteutettu käyttäen avoimen lähdekoodin työkaluja ja ohjelmistoja– PostgreSQL– Hasura– Käyttöliittymä (React, Apollo, Material-UI, Plotly.js)

Page 18: MATINE tutkimusseminaari - Puolustusministeriö · 2019. 12. 13. · CICIDS2017 CICIDS2017 97.11% CICIDS2017 Our TLS anomalies 99.48% CICIDS2017 CICIDS2017 + Our TLS anomalies 96.81%

Visualisointisovelluksen ominaisuudet• Reaaliaikainen flow listaus ja haku• Reaaliaikainen flow karttanäkymä• Anomaly score -arvojen visualisointi• Dynaaminen 3D scatterplot visualisaatio flowien arvoille• Prioriteettiarvon asetus verkkolaitteille• Yksittäisen flowin arvojen visualisointi

Page 19: MATINE tutkimusseminaari - Puolustusministeriö · 2019. 12. 13. · CICIDS2017 CICIDS2017 97.11% CICIDS2017 Our TLS anomalies 99.48% CICIDS2017 CICIDS2017 + Our TLS anomalies 96.81%

VisualisoinMsovellus

Page 20: MATINE tutkimusseminaari - Puolustusministeriö · 2019. 12. 13. · CICIDS2017 CICIDS2017 97.11% CICIDS2017 Our TLS anomalies 99.48% CICIDS2017 CICIDS2017 + Our TLS anomalies 96.81%

Visualisointisovellus

Page 21: MATINE tutkimusseminaari - Puolustusministeriö · 2019. 12. 13. · CICIDS2017 CICIDS2017 97.11% CICIDS2017 Our TLS anomalies 99.48% CICIDS2017 CICIDS2017 + Our TLS anomalies 96.81%

Yhteenveto ja jatkokehityskohteet• Tulokset lupaavia, vaatii kuitenkin sopivien koneoppimismallien

tutkimista, optimointia ja jatkokehitystä • OpenSource sovelluksilla saadaan kehitettyä tekoälyyn

perustuvaa poikkeamien tunnistukseen perustuvaa sensorimallia– Testiympäristö ja testidata tärkeässä roolissa

• Jatkokehityskohteena mallin parantaminen ja toisaalta mallin ”väärinopettamisen” sekä huijaamisen tutkiminen

Page 22: MATINE tutkimusseminaari - Puolustusministeriö · 2019. 12. 13. · CICIDS2017 CICIDS2017 97.11% CICIDS2017 Our TLS anomalies 99.48% CICIDS2017 CICIDS2017 + Our TLS anomalies 96.81%

Tutkimuksen tuottamat tieteelliset julkaisut• Kokkonen, T., Puuska, S., Alatalo, J., Heilimo, E., Mäkelä, A., ”Network

Anomaly Detection Based on WaveNet”, In: Galinina O., Andreev S., Balandin S., Koucheryavy Y. (eds) Internet of Things, Smart Spaces, and Next Generation Networks and Systems. NEW2AN 2019, ruSMART 2019. Lecture Notes in Computer Science, vol 11660. Springer, Cham

• Puuska, S., Kokkonen, T., Mutka, P., Alatalo, J., Heilimo, E., Mäkelä, A., ”Statistical Evaluation of Artificial Intelligence -based Intrusion Detection System”, Submitted for 8th World Conference on Information Systems and Technologies. If accepted, will be published in Advances in Intelligent Systems and Computing, Springer

Page 23: MATINE tutkimusseminaari - Puolustusministeriö · 2019. 12. 13. · CICIDS2017 CICIDS2017 97.11% CICIDS2017 Our TLS anomalies 99.48% CICIDS2017 CICIDS2017 + Our TLS anomalies 96.81%

1. Lausunto tuloksistaLausunto ei ole julkinen, mutta sen osalta voidaan sanoa että lausuja näkee ratkaisun hyödyn ja uskoo, että tämän tyyppinen lähestyminen on tulevaisuuden IDS järjestelmien kannalta välttämätöntä, varsinkin kun tekoälyratkaisut kehittyvät. Ratkaisumallin hyöty valvomotoiminnassa, tekoälyn hyödynnettävyys analysoinnissa sekä liikenteen trendien autonomisoimisessa on selkeä.

Page 24: MATINE tutkimusseminaari - Puolustusministeriö · 2019. 12. 13. · CICIDS2017 CICIDS2017 97.11% CICIDS2017 Our TLS anomalies 99.48% CICIDS2017 CICIDS2017 + Our TLS anomalies 96.81%

2. Lausunto tuloksistaPuolustusministeriön Fetohallintoyksikkö on tutustunut JAMK:ntutkimushankkeeseen ja pitää sitä onnistuneena. Hankkeessa toteute>u sensorikehitys ja haitallisen liikenteen visualisoinFratkaisu kehi>ävät kansallisen kyberpuolustuksen kannalta oleellista osaamista ja hanke on puolustusministeriönjulkaisemien kyberpuolustuksen kehi>ämisen strategisten linjausten mukainen.

Page 25: MATINE tutkimusseminaari - Puolustusministeriö · 2019. 12. 13. · CICIDS2017 CICIDS2017 97.11% CICIDS2017 Our TLS anomalies 99.48% CICIDS2017 CICIDS2017 + Our TLS anomalies 96.81%

Meidät tavoitatwww.jyvsectec.fi

[email protected]

Seuraa meitäTwitterissä @JYVSECTEC,

LinkedInissä ja YouTubessa