58
Budapest University of Technology and Economics Department of Measurement and Information Systems Budapest University of Technology and Economics Fault Tolerant Systems Research Group Mintavételezés, szűrés, outlierek detektálása Salánki Ágnes [email protected]

Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Budapest University of Technology and EconomicsDepartment of Measurement and Information Systems

Budapest University of Technology and EconomicsFault Tolerant Systems Research Group

Mintavételezés, szűrés, outlierekdetektálása

Salánki Ágnes

[email protected]

Page 2: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Alapfogalmak

Az alapfeladat ugyanaz

Az aspektus más

Page 3: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Alapfogalmak

Az alapfeladat ugyanaz

Az aspektus más

Page 4: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

MINTAVÉTELEZÉS

Page 5: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés

SRS

Stratified Sample

Cluster sample

Page 6: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés

SRS

o Simple Random Sample

o random mintavétel

Stratified Sample

Cluster sample

Page 7: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés

SRS

o Simple Random Sample

Stratified Sample

o Homogén „réteg”

oMindegyikből random m.

Cluster sample

Page 8: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés

SRS

o Simple Random Sample

Stratified Sample

o Homogén „réteg”

oMindegyikből random m.

Cluster sample

Page 9: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés

SRS

o Simple Random Sample

Stratified Sample

o Homogén „réteg”

oMindegyikből random m.

Cluster sample

Page 10: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés

SRS

o Simple Random Sample

Stratified Sample

Cluster sample

o ~azonos méretű klaszterek

o Azokból random m.

Page 11: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés

SRS

o Simple Random Sample

Stratified Sample

Cluster sample

o ~azonos méretű klaszterek

o Azokból random m.

Page 12: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés

SRS

o Simple Random Sample

Stratified Sample

Cluster sample

o ~azonos méretű klaszterek

o Azokból random m.

Page 13: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Idősoroknál

Page 14: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Idősoroknál

Outlierek?Random sampling size mondjuk

𝑝 = 0.001-nél?Lásd még „imbalanced” adatsorok

Page 15: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben

Pl. „az elmúlt héten hány egyedi lekérdezés jött?”megválaszolása 𝑛% minta alapján

Page 16: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Random mintavételezés

1/3-os mintavételezés

o egyedi lekérdezések aránya: 3/9

o egyedi lekérdezések aránya egy kiválasztott mintában?

Page 17: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Random mintavételezés

1/3-os mintavételezés

o egyedi lekérdezések aránya: 3/9

o egyedi lekérdezések aránya egy kiválasztott mintában?

1 32 12 3 2 13

Page 18: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Random mintavételezés

1/3-os mintavételezés

o egyedi lekérdezések aránya: 3/9

o egyedi lekérdezések aránya egy kiválasztott mintában?

1 32 12 3 2 13

Page 19: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Random mintavételezés

1/3-os mintavételezés

o egyedi lekérdezések aránya: 3/9

o egyedi lekérdezések aránya egy kiválasztott mintában?

1 32 12 3 2 13

Page 20: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Random mintavételezés

1/3-os mintavételezés

o egyedi lekérdezések aránya: 3/9

o egyedi lekérdezések aránya egy kiválasztott mintában?

1 32 12 3 2 13

Page 21: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Random mintavételezés

1/3-os mintavételezés

o egyedi lekérdezések aránya: 3/9

o egyedi lekérdezések aránya egy kiválasztott mintában?

1 32 12 3 2 13

𝑝 = 1.0 𝑝 = 1.0 𝑝 = 1.0

Page 22: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben

Random mintavételezés 10 vödörrel

o Ha tényleg egyedi a streamben, p = 0.1 a mintában (egy adott megfigyelt vödörben)

o Ha kétszer fordul elő, a mintába p = 0.18 valószínűséggel kerül csak egy stb.

Page 23: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben

Random mintavételezés 10 vödörrel

o Ha tényleg egyedi a streamben, p = 0.1 a mintában (egy adott megfigyelt vödörben)

o Ha kétszer fordul elő, a mintába p = 0.18 valószínűséggel kerül csak egy stb.

Nem tudunk a minta alapján általánosítani a teljes streamre

Page 24: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben: Hash

Pl. „az elmúlt héten hány egyedi lekérdezés jött?”megválaszolása 𝑛% minta alapján

Érték alapján szűrünk

o Pl. hash függvény 0-9 közé

• Az azonosak azonos vödörbe kerülnek

o Feltételezések

• A hash egyenletes az értékek 1/10-e kerül be a 0-ba

Page 25: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben: hash

1/3-os mintavételezés

Page 26: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben: hash

1/3-os mintavételezés

Page 27: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben: hash

1/3-os mintavételezés

1

Page 28: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben: hash

1/3-os mintavételezés

1

Page 29: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben: hash

1/3-os mintavételezés

1 1

Page 30: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben: hash

1/3-os mintavételezés

1 1

Page 31: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben: hash

1/3-os mintavételezés

1 1 1

Page 32: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben: hash

1/3-os mintavételezés

1 1 1

Page 33: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben: hash

1/3-os mintavételezés

2 1 1 1

Page 34: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben: hash

1/3-os mintavételezés

2 1 1 1

Page 35: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben: hash

1/3-os mintavételezés

22 1 1 1

Page 36: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben: hash

1/3-os mintavételezés

22 1 1 1

Page 37: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben: hash

1/3-os mintavételezés

3 22 1 1 1

Page 38: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben: hash

1/3-os mintavételezés

3 33 22 1 1 12

Page 39: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben: hash

1/3-os mintavételezés

3 33 22 1 1 12

𝑝 = 1/3 𝑝 = 1/3 𝑝 = 1/3

Page 40: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben: hash

1/3-os mintavételezés

3 33 22 1 1 12

𝑝 = 1/3 𝑝 = 1/3 𝑝 = 1/3

Nagyobb biztonsággal tudunk becsülni

Mintavételezés típusa?

Page 41: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

OUTLIER DETEKTÁLÁS

Page 42: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Outlier

„An outlier is an observation which deviates so much from the other observations as to arouse suspicions that it was generated by a different mechanism” (Hawkins 1980)

Page 43: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Outlier

„An outlier is an observation which deviates so much from the other observations as to arouse suspicions that it was generated by a different mechanism” (Hawkins 1980)

Page 44: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Outlier

„An outlier is an observation which deviates so much from the other observations as to arouse suspicions that it was generated by a different mechanism” (Hawkins 1980)

Page 45: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Outlier

„An outlier is an observation which deviates so much from the other observations as to arouse suspicions that it was generated by a different mechanism” (Hawkins 1980)

Page 46: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Használati esetek

Kép forrása: http://www.csoonline.com/article/592776/the-ddos-attack-survival-guide-

Page 47: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Használati esetek

Képek forrása: http://www.szon.hu/

Page 48: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Használati esetek

Képek forrása: http://www.szon.hu/

Page 49: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Használati esetek

Képek forrása: http://www.szon.hu/

Page 50: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Használati esetek

Page 51: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Használati esetek

Page 52: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Használati esetek

Page 53: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Alapfogalmak

anomaly

surprise

rare eventnovelty

outlierexception

aberration

peculiarity

discordant observations

Page 54: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Definíció

Kevés van belőlük

„Gyanús”, hogy más a generáló folyamat/forrás

Page 55: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Definíció

Kevés van belőlük

„Gyanús”, hogy más a generáló folyamat/forrás

o Все счастливые семьи похожи друг на друга, каждая несчастливая семья несчастлива по-своему.

Page 56: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Definíció

Kevés van belőlük

„Gyanús”, hogy más a generáló folyamat/forrás

o Все счастливые семьи похожи друг на друга, каждая несчастливая семья несчастлива по-своему.

o Happy families are all alike;every unhappy family is unhappy in its own way.

o A boldog családok mind hasonlók egymáshoz, minden boldogtalan család a maga módján az.

Page 57: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Definíció

Kevés van belőlük

„Gyanús”, hogy más a generáló folyamat/forrás

o Все счастливые семьи похожи друг на друга, каждая несчастливая семья несчастлива по-своему.

o Happy families are all alike;every unhappy family is unhappy in its own way.

o A boldog családok mind hasonlók egymáshoz, minden boldogtalan család a maga módján az.

(Tolsztoj: Anna Karenina)

Page 58: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Hivatkozásjegyzék

[1] Stream Processing, filtering: Mining of MassiveData Sets

o Alapmű: http://infolab.stanford.edu/~ullman/mmds/book.pdf

o Coursera tárgy: https://www.coursera.org/course/mmds

[2] Outlier Detection

o Varun Chandola, Arindam Banerjee, and Vipin Kumar. Anomaly detection: A survey. ACM Computing Surveys(CSUR), 41(3):15, 2009