74
Duomenų vizualizavimas Duomenys Aušra Mackutė-Varoneckienė Tomas Krilavičius 1

Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

Duomenų vizualizavimas

Duomenys

Aušra Mackutė-Varoneckienė Tomas Krilavičius

1

Page 2: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

Apie duomenis

• Duomenų tipai – Duomenų aibės gali skirtis įvairiais aspektais

• pvz., objektus aprašantys požymiai gali būti kokybiniai arba kiekybiniai.

– ir pasižymėti tam tikromis charakteristikomis • pvz., duomenų aibės susietos su laiko eilutėmis arba duomenų aibės objektai

tam tikrais ryšiais susiję vieni su kitais.

– Duomenų tipai apibrėžia kokie analizės įrankiai ir metodai gali būti naudojami duomenų analizei

– Duomenų tyrybos (angl. Data mining) mokslas plečiasi ir juda į priekį dažniausiai dėl atsirandančių naujų/netyrinėtų taikomųjų sričių ir iš jų gaunamų naujų duomenų rinkinių

2 pagal: P. N. Tan, M. Steinbach, V. Kumar, “Introduction to Data Mining”, Addison-Wesley (2006)

Page 3: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

Apie duomenis

• Duomenų kokybė – Duomenys retai būna nepriekaištingi ir puikiai paruošti.

Daugelis duomenų tyrybos metodų toleruoja tam tikro laipsnio duomenų neišbaigtumą, tačiau mėginimas suvokti duomenis ir pagerinti duomenų kokybę dažniausiai pagerina ir duomenų analizės kokybę. Duomenų kokybę galima apibūdinti keletu aspektų:

– triukšmai ir ekstremalios, gerokai nutolę nuo vidurkio, reikšmės (angl. outliers)

– trūkstami, nenuoseklūs ar dubliuoti duomenys – neobjektyvūs ir neprezentatyvūs (atipiniai) duomenys

3

Page 4: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

Apie duomenis

• Duomenų, tinkamų duomenų tyrybos procesui, paruošimas • Dažniausiai, prieš pradedant analizuoti duomenis juos reikia

apdoroti/sutvarkyti. Pirminio duomenų apdorojimo tikslai: • Pagerinti duomenų kokybę • Paruošti duomenis tokia forma, kuri tinkamiausia konkrečiam

duomenų tyrybos metodui arba įrankiui. • Pvz., tam, kad taikyti tam tikrą analizės metodą, objektus aprašančius tolydžius

požymius, pvz., ilgį, gali prisireikti transformuoti į diskrečių požymių kategorijas, pvz., trumpas, vidutinis ar ilgas.

• Duomenų analizės metodai efektyvesni, kai duomenis aprašo sąlyginai mažesnis požymių skaičius.

4

Page 5: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

Apie duomenis

• Duomenų analizė jų sąryšių aspektu • Vienas iš duomenų analizės metodų yra surasti ryšius tarp

duomenų objektų ir tada vykdyti tolesnę analizę naudojant ir surastus/nustatytus ryšius ir tuos duomenų objektus.

• Pavyzdžiui, galima apskaičiuoti panašumus ar atstumus tarp objektų porų ir tada analizuoti – klasterizuoti, klasifikuoti ar remiantis apskaičiuotais panašumais ar atstumais surasti anomalijas duomenyse.

• Yra įvairiausių panašumų ar atstumų matų ir jų parinkimas priklauso nuo duomenų tipo ir konkretaus taikymo.

5

Page 6: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

Duomenys – kas tai? • Duomenų aibė – tai duomenų

objektų rinkinys • Duomenų objektus aprašo atributai • Atributais aprašomos objekto

ypatybės ar charakteristikos • Pvz. , žmogaus akių spalva, kūno

temperatūra ir t.t. • Atributas taip pat gali būti

vadinamas kintamuoju, sritimi, charakteristika, dimensija ar požymiu

• Atributų rinkinys apibūdina objektą • Duomenų objektas taip pat gali būti

vadinamas įrašu, tašku, faktu, imtimi ar pavyzdžiu

6

Stu

d i

d

Kur

sas

Stud

ijų

prog

ram

a

1 se

mes

tro

vidu

rkis

2 se

mes

tro

vidu

rkis

Ben

dras

vi

durk

is

mif0111 1 MAT 8.6 8.2 8.4

mif0014 2 INF 7.3 8.1 7.7

mif0003 2 MAT 10.0 10.0 10.0

mif0104 1 INF 9.8 10.0 9.9

mif0008 2 INF 8.8 8.6 8.7

mif0106 1 INF 7.9 8.5 8.2

mif0109 1 MAT 8.5 7.7 8.1

mif0122 1 INF 8.5 8.1 8.3

mif0019 2 MAT 9.1 9.5 9.3

mif0010 2 MAT 7.8 8.0 7.9 10

Attributai

Objektai

Page 7: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

Atributų reikšmės • Atributų reikšmės yra skaičiai ar simboliai priskirti konkrečiam

atributui • Atributais aprašomos objekto savybės ar charakteristikos gali kisti

keičiantis objektams, taip pat gali kisti laike • Pvz., atributas “akių spalva” gali keistis peržiūrint vieną objektą po kito, o

objekto temperatūra kinta bėgant laikui. Čia akių spalvą apibrėžia nedidelė galimų reikšmių aibė {ruda, mėlyna, žalia, pilka, t.t.}, o temperatūra yra skaitinis atributas su (beveik) nelimituota reikšmių aibe.

• Atributų skirtumai ir atributų reikšmės • Kai kurie atributai gali būti išreikšti skirtingomis atributų reikšmėmis

• Pvz., aukštis gali būti matuojamas ir metrais, ir pėdomis

• Skirtingi atributai gali būti išreikšti tomis pačiomis reikšmių aibėmis • Pvz., atributų reikšmės aprašančios ID ir amžių yra sveikieji skaičiai • Tačiau atributų reikšmių savybės gali skirtis

• Pvz., ID reikšmės neribotos, o pvz. amžius dažniausiai turi minimalią ir maksimalią reikšmes. 7

Page 8: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

Ilgio matavimas • Taip kaip nustatinėjate/įvertinate/pamatuojate atributą

nebūtinai atitinka jo savybes

8

1

2

3

5

5

7

8

15

10 4

A

B

C

D

E

Page 9: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

Atributų rūšys

• Yra keletas atributų rūšių • Nominalūs

• Pvz., ID numeriai, akių spalva, pašto kodai

• Ordinalūs • Pvz., rangavimas (pvz., bulvių traškučių skonio vertinimo skalė nuo 1 iki 10),

pažymiai, aukščio matavimai (pvz., aukštas, vidutinio aukščio, mažas)

• Intervaliniai • Pvz., kalendorinės datos, temperatūros matavimai Celsijaus laipsniais ar

Farenheitais

• Santykiniai • Pvz., temperatūra Kelvinais, ilgis, laikas, skaičiavimai

9

Page 10: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

Atributų reikšmių savybės

• Atributo rūšis priklauso nuo to kokiomis savybėmis (operacijomis) jis pasižymi

• Aiškumas/suvokiamumas = ≠ • Eiliškumas/išsidėstymo tvarka < > • Papildymas + - • Dauginimas * /

• Nominalūs atributai: aiškumas/suvokiamumas • Ordinalūs atributai: aiškumas/suvokiamumas ir eiliškumas • Intervaliniai atributai: aiškumas/suvokiamumas, eiliškumas ir

papildymas • Santykiniai atributai: visos keturios savybės

10

Page 11: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

Atributo rūšis

Apibūdinimas

Pavyzdžiai

Galimi veiksmai

Nominalūs

Nominalių atributų reikšmės yra tiesiog skirtingi vardai, pvz., nominalūs atributai turi pakankamai informacijos, kad galėtumėm atskirti vieną objektą nuo kito (=, ≠)

Pašto kodai, darbuotojų ID numeriai, akių spalva, lytis {vyriška, moteriška}

Moda, entropija, požymių dažnumų koreliacija (angl. contingency correlation), χ2 testas Ordinalūs

Pagal ordinalių atributų reišmes galima nustatyti objektų eiliškumą (<, >)

Mineralų kietumas, rangavimas {geras, geresnis, geriausias}, pažymiai, namų numeriai

Mediana, percentiliai, rango koreliacija, ...

Intervaliniai

Intervalinių atributų skirtumai tarp reikšmių yra labai svarbūs, t.y., egzistuoja matavimo vienetai (+, - )

Kalendorinės datos, temperatūros matavimai Celsijaus laipsniais ar Farenheitais

Vidurkis, standartinis nuokrypis, Pearson koreliacija, t ir F testai

Santykiniai

Santykiniai kintamieji pasižymi tuo, kad labai svarbūs ir skitumai tarp reikšmių ir santykis (*, /)

Temperatūra Kelvinais, piniginiai kiekiai, skaičiavimai, amžius, svoris, ilgis, elektros srovė

Geometrinis vidurkis, harmoninis vidurkis, procentiniai nuokrypiai

Page 12: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

Atributai

• Bendrai nominalius ir ordinalius atributus galima vadinti kategoriniais arba kokybiniais atributais

• Kokybinių atributų skaitinės reikšmės dažnai neturi visų savybių kokiomis pasižymi skaičiai

• Bendrai intervalinius ir santykinius atributus galima vadinti kiekybiniais arba skaitiniais atributais.

• Kiekybiniai atributai išreikšti skaičiais turi visas skaičiams būdingas savybes

• Kiekybinių atributų reikšmės gali būti tiek sveikieji, tiek realūs skaičiai

12

Page 13: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

Atributo rūšis

Galimos atributų reikšmių transformacijos

Komentarai

Nominalūs

Bet kokie pakeitimai

Jei visų darbuotojų ID numeriai būtų priskirti iš naujo, ar kas nors nuo to pasikeistų?

Ordinalūs

Eiliškumą išlaikantys reikšmių pakeitimai, t.y., nauja_reikšmė = f(sena_reikšmė) čia f - monotoninė funkcija

Atributas apibrėžiantis kokybės sąvoką tiek pat gerai bus perteikiamas reikšmėmis {1, 2, 3}, tiek reikšmėmis { 0.5, 1, 10}.

Intervaliniai

nauja_reikšmė = a * sena_reikšmė + b, čia a ir b – konstantos

Farenheito ir Celsijaus temperatūrų skalės skiriasi nulinės reikšmės pozicija ir matavimo vieneto dydžiu (laipsniu)

Santykiniai

nauja_reikšmė = a * sena_reikšmė

Ilgis gali būti matuojamas tiek metrais, tiek pėdomis

Page 14: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

Diskretūs ir tolydūs atributai

• Diskretūs atributai • Turi baigtinę reikšmių aibę • Tokie atributai gali būti kategoriniai, pvz., pašto kodai, įvairūs suskaičiavimai,

konkrečiuose dokumentuose naudojamų žodžių aibė • Atributų reikšmės dažniausiai sveikieji skaičiai • Pastaba: binariniai atributai yra diskrečių atributų atskiras atvejis ir turi tik dvi

reikšmes, pvz.: true/false, taip/ne, vyras/moteris, arba 0/1 • Tolydūs atributai

• Atributų reikšmės yra realūs skaičiai • Pvz., temperatūra, aukštis ar svoris • Praktikoje, realios reikšmės matuojamos ir pateikiamos naudojant baigtinį kiekį

skaičių • Tolydūs atributai dažniausiai pateikiami naudojant slankaus kablelio

kintamuosius

14

Page 15: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

Diskretūs ir tolydūs atributai

• Nominalių, ordinalių, intervalinių ir santykinių atributų reikšmės gali būti tiek diskrečios, tiek tolydžios, tiek binarinės.

• Tačiau kai kurie atributų ir jų reikšmių deriniai būna arba labai reti arba neturi ypatingos reikšmės

• Nominalių ir ordinalių atributų reikšmės dažniausiai būna binarinės ar diskrečios, o intervalinių ir santykinių atributų reikšmės – tolydžios

• Tačiau, skaičiuojamieji atributai, kurių reikšmės diskrečios, yra santykiniai atributai

15

Page 16: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

Duomenų aibių rūšys

• Įrašai • Duomenų matricos • Dokumentų duomenys • Transakcijų duomenys

• Grafai • World Wide Web • Molekulinės struktūros

• Sutvarkyti (ordered) • Erdviniai duomenys • Laikini duomenys • Išplaukiantys duomenys • Genetinių sekų duomenys

16

Page 17: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

Struktūrizuotų duomenų svarbiausios charakteristikos

• Dimensionalumas: Duomenų aibės dimensioanalumas – tai atributų aprašančių duomenų objektus skaičius. Duomenys turintys mažiau dimensijų dažnai būna kokybiškesni. Dėl to pirminiame apdorojime labai svarbus duomenų dimensijų sumažinimo procesas

• Išmėtymas (angl., sparsity): Kai kuriose duomenų aibėse, ypatingai kuriose daugelis atributų įgyja reikšmes lygias nuliui, lieka tik apie 1% nenulinių įrašų. Todėl būtent išmėtymas yra privalumas, nes lieka tik nenulinės reikšmės. Taip taupomi ir laiko , ir kompiuteriniai resursai apdorojant duomenis

• Rezoliucija: Duomenų struktūros priklauso nuo skalių. Dažnai galima gauti duomenis su skirtingomis rezoliucijomis. Pvz., žemės paviršius bus labai gruoblėtas jei rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros nesimatys ar “paskęs” triukšme, jei rezoliucija per didelė, struktūra gali iš vis pranykti 17

Page 18: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

Duomenų įrašai

• Duomenis sudaro įrašų rinkinys. Kiekvieną įrašą aprašo fiksuota atributų aibė

• Nėra ypatingų ryšių tarp įrašų

• Dažniausiai saugomi failuose ar DB

• Duomenų įrašų tipai • Duomenų matricos

• Dokumentų duomenys (retos

duomenų matricos)

• Transakcijų duomenys 18

Stu

d i

d

Kur

sas

Stud

ijų

prog

ram

a

1 se

mes

tro

vidu

rkis

2 se

mes

tro

vidu

rkis

Ben

dras

vi

durk

is

mif0111 1 MAT 8.6 8.2 8.4

mif0014 2 INF 7.3 8.1 7.7

mif0003 2 MAT 10.0 10.0 10.0

mif0104 1 INF 9.8 10.0 9.9

mif0008 2 INF 8.8 8.6 8.7

mif0106 1 INF 7.9 8.5 8.2

mif0109 1 MAT 8.5 7.7 8.1

mif0122 1 INF 8.5 8.1 8.3

mif0019 2 MAT 9.1 9.5 9.3

mif0010 2 MAT 7.8 8.0 7.9 10

Page 19: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

Duomenų matricos • Jei duomenų objektai turi fiksuotą aibę skaitinių atributų, tada duomenų objektai

gali būti traktuojami kaip taškai daugiamatėje erdvėje, kur kiekviena dimensija atitinka konkretų atributą.

• Tokios duomenų aibės gali būti atvaizduojamos m x n matricose, kai yra m eilučių – po vieną kiekvienam objektui, ir n stulpelių – po vieną kiekvienam atributui

• Duomenų matricos yra naudojamos kaip duomenų formato standartas statistiniams duomenims

19

Fisher's Iris Data

Sepal Length Sepal Width Petal Length Petal Width Species

5.1 3.5 1.4 0.2 setosa

4.7 3.2 1.3 0.2 Setosa

6.6 3.0 4.4 1.4 versicolor

6.8 2.8 4.8 1.4 versicolor

7.2 3.6 6.1 2.5 virginica

6.5 3.2 5.1 2.0 Virginica

...

Page 20: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

Dokumentų duomenys

• Tai specialus duomenų matricų atvejis, kai atributų reikšmės yra tokio pačio tipo ir svarbios tik nenulinės atributų reikšmės.

• Kiekvienas dokumentas tampa “terminų” vektoriumi • Kiekvienas terminas yra vektoriaus komponentas (atributas)

• Kiekvieno atributo reikšmė yra termino pasikartojimų skaičius dokumente

20

Document 1

season

timeout

lost

win

game

score

ball

play

coach

teamDocument 2

Document 3

3 0 5 0 2 6 0 2 0 2

0

0

7 0 2 1 0 0 3 0 0

1 0 0 1 2 2 0 3 0

Page 21: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

Transakcijų duomenys

• Atskiras įrašų duomenų atvejis, kai: • Kiekvienas įrašas (transakcija) apima aibę elementų

• Pvz., įsivaizduokite maisto prekių parduotuvę. Vieno pirkėjo pirkti produktai vieno apsipirkimo metu sudaro transakciją. Kiekvienas nupirktas produktas yra elementas.

21

ID Produktai

1 Duona, Pienas, Sūris

2 Alus, Duona

3 Pienas Kiaušiniai, Varškė, Sultys

4 Sultys, Duona, Sūris, Pienas

5 Pienas, Šokoladas, Sausainiai

Page 22: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

Grafų duomenys

• Pvz., Grafai ir HTML linkai

22

5

2

1 2

5

<a href="papers/papers.html#bbbb">Data Mining </a><li><a href="papers/papers.html#aaaa">Graph Partitioning </a><li><a href="papers/papers.html#aaaa">Parallel Solution of Sparse Linear System of Equations </a><li><a href="papers/papers.html#ffff">N-Body Computation and Dense Linear System Solvers

Page 23: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

Cheminiai duomenys

• Pvz., benzolo molekulė: C6H6

23

Page 24: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

Sutvarkyti (ordered) duomenys: nuoseklūs duomenys • Atributai susiję ryšiais, kurie sudaro tam tikrą tvarką laiko

ar edvės atžvilgiu

• Transakcijų sekos

24

Sekos elementai

Elementai/įvykiai

Laiko momentas Pardavėjas Nupirkti produktai

t1 C1 A, B

t2 C3 A, C

t2 C1 C, D

t3 C2 A, D

t4 C2 E

t5 C1 A, E

Pardavėjas Laikas ir nupirkti produktai

C1 (t1: A, B) (t2: C, D) (t3: A,E)

C2 (t3: A, D) (t4: E)

C3 (t2: A, C)

Page 25: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

Sutvarkyti (ordered) duomenys: sekos duomenys • Sekos duomenis sudaro duomenų aibė sudaryta iš individualių

elementų, pvz., žodžių ar raidžių seka. Panašu į nuoseklias sekas, bet čia nėra susiejimo su laiku. Vietoj to labai svarbi elemento pozicija sutvarkytoje sekoje.

• Pvz., genomo sekos duomenys – Sudaryta iš keturių nukleotidų

A, T, G ir C

25

GGTTCCGCCTTCAGCCCCGCGCCCGCAGGGCCCGCCCCGCGCCGTCGAGAAGGGCCCGCCTGGCGGGCGGGGGGAGGCGGGGCCGCCCGAGCCCAACCGAGTCCGACCAGGTGCCCCCTCTGCTCGGCCTAGACCTGAGCTCATTAGGCGGCAGCGGACAGGCCAAGTAGAACACGCGAAGCGCTGGGCTGCCTGCTGCGACCAGGG

Page 26: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• Laiko eilučių duomenys, tai atskiras nuoseklių duomenų atvejis, kai kiekvienas įrašas yra laiko eilutė, t.y., eilė matavimų atliktų tam tikrame laiko intervale

• Pvz., finansiniai duomenys dali būti sudaryti iš objektų –laiko eilučių aprašančių kiekvienos dienos akcijų biržų kainas

• Pvz., laiko eilutės aprašančios vidutinę mėnesio temperatūrą

• Metinė oro tempera-

tūra Vilniuje

1778-2010 m.

Sutvarkyti (ordered) duomenys: laiko eilutės

26

Page 27: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

Sutvarkyti (ordered) duomenys: Erdviniai–laikini duomenys • Kai kurie objektai turi erdvinius atributus nurodančius pozicijas ar

sritis

• Pvz., meteorologiniai duomenys( krituliai, temperatūra, slėgis), kurie fiksuojami daugybėje vietų

2011 09 22 Maksimali oro temperatūra Europoje

27

Page 28: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• Kokios problemos kyla dėl duomenų kokybės? • Kaip galime aptikti problemas susijusias su duomenimis? • Kaip iškilusias problemas galime spręsti?

• Problemų dėl duomenų kokybės pavyzdžiai

• Triukšmai ir taškai atsiskyrėliai • Prarastos/negautos reikšmės • Nenuoseklios reikšmės • Dubliuoti duomenys

Duomenų kokybė

28

Page 29: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• Triukšmas – modifikuotos originalios reikšmės • Pvz., trukdžiai kalbant telefonu, ar “snieguotas“ vaizdas TV ekrane

Dvi sinusinės kreivės Dvi sinusinės kreivės + triukšmas

Triukšmai

29

Page 30: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• Taškai atsiskyrėliai tai tokie duomenų objektai, kurių charakteristikos kardinaliai skiriasi nuo kitų duomenų aibės duomenų objektų

Taškai atsiskyrėliai

30

Page 31: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• Priežastys dėl kurių kartais trūksta duomenų • Nebuvo surinkta informacija

• Pvz., respondentai nesutiko pasakyti savo amžių ir svorį

• Ne visi atributai gali būti taikomi visais atvejais • Pvz., metinis uždarbis negali būti taikomas vaikams

• Ką daryti kai trūksta duomenų? • Eliminuoti duomenų objektus • Apytikriai apskaičiuoti/įvertinti trūkstamas reikšmes • Ignoruoti tokias reikšmes vykdant analizę • Pakeisti galimomis reikšmėmis

Trūkstamos reikšmės

31

Page 32: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• Duomenų aibėse gali būti esminių neatitikimų

• Pvz., tarkim turime adresą nusakančius atributus – du iš jų miestas ir miesto kodas, tačiau įvesta miestą nusakančio atributo reikšmė neatitinka pagal įvesto kodo atributo reikšmę

• Kartais nenuoseklumą nesudėtinga nustatyti

• Pvz., žmogaus ūgis negali būti neigiamas, arba įvestas žmogaus ūgis 2 m, svoris 4 kg ir pan.

Nenuoseklios reikšmės

32

Page 33: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• Duomenų aibėje gali pasitaikyti dubliuotų duomenų, ar beveik vienas kito objektų dublikatų

• Tai dažniausiai nutinka sujungiant duomenis iš įvairių šaltinių

• Pvz.: • Tas pats asmuo su įvairiais epašto adresais

• Duomenų valymas • Procesas, kurio metu tvarkomi dubliuoti duomenų objektai

Dubliuoti duomenys

33

Page 34: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• Agregavimas

• Pavyzdžių surinkimas / Imties sudarymas

• Matavimų erdvės skaičiaus (dimensionalumo) sumažinimas

• Požymių poaibio atrinkimas

• Požymių kūrimas

• Diskretizavimas ir binarizavimas

• Atributų trasformavimas

Duomenų pirminis apdorojimas

34

Page 35: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• Dviejų ar daugiau atributų (arba objektų) sujungimas

• Tikslas • Duomenų kiekio mažinimas

• Sumažinamas atributų arba objektų skaičius

• Skalės keitimas • Miestai agreguojami į regionus, šalis ir pan.

• Gaunami “stabilesni” duomenys • Agreguoti duomenys turi mažesnius nukrypimus

Agregavimas

35

Page 36: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• Kritulių kiekio kitimas Australijoje

Vidutinio mėnesinio kritulių Vidutinio metinio kritulių kiekio standartinis nuokrypis kiekio standartinis nuokrypis

Agregavimas

36

Page 37: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• Imties sudarymas tai metodika, kuria atrenkami duomenys • Tai dažnai naudojama ir premilinariam duomenų aibės

tyrinėjimui, ir galutinei duomenų aibės analizei

• Imties sudarymas duomenų gavyboje naudojamas dar ir todėl, kad visos duomenų aibės apdorojimas dažniausiai yra brangus ar užtrunka labai daug laiko

Pavyzdžių surinkimas/Imties sudarymas

37

Page 38: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• Pagrindiniai dalykai, dėl kurių sudaryta imtis bus gera

• Jei imtis bus representatyvi, dirbant su imtimi bus gaunami

beveik tokie patys rezultatai, kaip ir su visa duomenų aibe

• Imtis yra representatyvi jei ji pasižymi apytikriai tokiomis pačiomis savybėmis, kaip ir originali duomenų aibė

Pavyzdžių surinkimas/Imties sudarymas

38

Page 39: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• Atsitiktinis duomenų išrinkimas į imtį • Kiekvienas duomenų aibės objektas turi tokią pačią tikimybę būti atrinktas į

imtį • Imties sudarymas be pasikartojimų

• Kiekvienas atrinktas duomenų aibės objektas į imtį pašalinamas iš populiacijos (duomenų aibės)

• Imties sudarymas su pasikartojimais • Objektas nepašalinamas iš populiacijos, kai patenka į imtį

• Imties sudaryme su pasikartojimais, tas pats duomenų objektas gali būti atrinktas daugiau nei vieną kartą

• Sluoksniuotas imties sudarymas • Duomenų aibė dalinama į kelias lygias dalis, tada iš kiekvienos dalies

pavyzdžiai į imtį atrenkami atsitiktinai

Imties sudarymo būdai

39

Page 40: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

8000 taškų 2000 taškų 500 taškų

Imties dydis

40

Page 41: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• Koks turėtų būti imties dydis norint surinkti bent po vieną objektą iš kiekvienos iš 10 grupių

Imties dydis

41

Page 42: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• Kai matavimų skaičiaus erdvė didėja, duomenys nagrinėjamoje erdvėje labiau išsisklaido

• Taškų tankumas, bei atstumai tarp taškų labai svarbūs norint duomenis klasterizuoti ir aptikti taškus atsiskyrėlius

• Atsitiktinai sugeneruoti 500 taškų • Apskaičiuoti skirtumai tarp taškų porų max ir min atstumų

Dimensionalumas

42

Page 43: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• Tikslas – Išvengti problemų kylančių dėl didelio dimensijų skaičiaus – Sumažinti laiko ir atminties resursų poreikį reikalingą apdorojant

duomenis duomenų tyrybos metodais – Kad būtų lengviau vizualizuoti – Taip gali būti pašalinami nereikšmingi požymiai ar sumažinamas

triukšmas

• Metodai – Principle Component Analysis – Singular Value Decomposition – Kiti: supervised and non-linear techniques

Matavimų skaičiaus erdvės (dimensionalumo) mažinimas

43

Page 44: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• Kitas būdas kaip sumažinti duomenų dimensionalumą yra požymių poaibio išskyrimas

• Pertekliniuose požymiuose – daug pasikartojimų/dubliavimo arba visa pagrindinė informacija

būna kituose požymiuose – Pvz., produkto pardavimo kaina ir pridėtinės vertės mokestis

• Nereikšminguose požymiuose – nėra informacijos, kuri būtų naudinga vykdant duomenų gavybos

užduotį – Pvz., pacientų ID dažniausiai būna nereikšmingi duomenys, kai

norima nustatyti /prognozuoti ligą

Požymių poaibio išrinkimas

44

Page 45: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• Metodai – “Jėgos” (Brute-force) metodas

• Duomenų gavybos metodais analizuojami visi galimi poaibiai

– Embedded metodas • Vykdant duomenų analizę požymių atrinkimas vykdomas natūraliai –

kaip dalis duomenų gavybos proceso

– Filtro metodas • Požymiai išrenkami prieš pradedant vykdyti duomenų analizę

– Aplanko (Wrapper) metodas • Naudojami duomenų gavybos metodai kaip juodos dėžės, kurios

išrenka geriausius atributų poaibius

Požymių poaibio išrinkimas

45

Page 46: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• Sukurti naujus atributus, kuriais būtų perteikiama žymiai svarbesnė informacija nei ta, kurią perteikia esami atributai.

• Trys pagrindinės metodologijos: – Požymių ištraukimas (feature extraction)

• Požymių, charakteringų nagrinėjamai sričiai ištraukimas

– Duomenų atvaizdavimas į naują erdvę

– Požymių konstravimas • Apjungiant požymius

Požymių kūrimas

46

Page 47: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• Furjė transformacija (Fourier transform)

• Vilnelių transformacija (Wavelet transform)

Dvi laiko eilutės Laiko eilutės su triukšmu Spektro galia

Duomenų atvaizdavimas į naują erdvę

47

Hz

Page 48: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

Duomenys Vienodi intervalai

Vienodi dažniai K-vidurkių metodas

Diskretizavimas nenaudojant klasių

48

Page 49: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

Trys klasės pagal x ir y Penkios klasės pagal x ir y

Diskretizavimas naudojant klases

49

Page 50: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• Funkcija, kuri atvaizduoja visos aibės konkretaus atributo reikšmes į naują keičiamųjų reikšmių aibę taip, kad kiekviena ankstesnė reikšmė gali būti identifikuojama pagal vieną iš naujų reikšmių

– Funkcijos: xk, log(x), ex, |x| – Standartizavimas ar normalizavimas. Tikslas – duomenų aibės reikšmėms

suteikti konkrečią savybę • Jei mx yra atributo reikšmių vidurkis, o sx – standartinis nuokrypis, tada

transformacija x’ = (x – mx) / sx padaro naują kintamąjį su vidurkiu 0 ir standartiniu nuokrypiu 1.

• Kai duomenų aibėje egzistuoja taškai atsiskyrėliai, tada standartizavimas vykdomas vidurkį keičiant mediana, o standartinį nuokrypį absoliutiniu standartiniu nuokrypiu

- arba vidurkis, arba mediana, xi – i-tasis kintamasis, m – objektų sk.

Atributų transformacija

50

µ

µσ ∑ =−=

m

i iA x1

Page 51: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• Panašumai – Skaitinis matas nurodantis kiek panašūs du duomenų objektai – Matas yra didesnis, kai objektai labiau panašūs – Panašumo mato reikšmės dažniausia būna iš intervalo [0, 1]

• Nepanašumai – Skaitinis matas nurodantis kiek skirtingi du duomenų objektai – Matas yra mažesnis, kai objektai yra labiau panašūs – Nepanašumo mato minimumas dažniausiai =0 – Viršutinė nepanašumo mato riba kintanti

• Objektų artimumą nurodo arba panašumo matas, arba nepanašumo matas

Panašumai ir nepanašumai

51

Page 52: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

p ir q yra atributų reikšmės dviems duomenų objektams (objektai turi po vieną atributą)

Panašumo ir nepanašumo matų apskaičiavimas paprastiems atributams

52

Atributo rūšis Nepanašumai Panašumai

Nominalūs

Ordinalūs Reikšmės atvaizduojamos į sveikųjų skaičių seką nuo 0 iki n-1, čia n reikšmių kiekis

Intervaliniai ir santykiniai

≠=

=qpjeiqpjei

d,1,0

≠=

=qpjeiqpjei

s,0,1

1−−

=n

qpd

11

−−

−=n

qps

qpd −=

dd

dds

arbad

sds

minmaxmin1

11,

−−

−=

+=−=

Page 53: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• Euklido atstumas:

• Čia n dimensijų skaičius (atributų kiekis), pk ir qk yra atitinkamai duomenų objektų p ir q, k-tasis atributas

• Jei atributų skalės skiriasi - būtinas standartizavimas

Euklido atstumas

53

( )∑=

−=n

kkk qpdist

1

2

Page 54: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

Atstumų matrica

Euklido atstumas

54

0

1

2

3

0 1 2 3 4 5 6

p1

p2

p3 p4

point x yp1 0 2p2 2 0p3 3 1p4 5 1

p1 p2 p3 p4p1 0 2.828 3.162 5.099p2 2.828 0 1.414 3.162p3 3.162 1.414 0 2p4 5.099 3.162 2 0

Page 55: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• Minkovskio atstumas yra Euklido atstumo apibendrinimas:

• Čia r yra parametras, n – dimensijų (atributų) skaičius, pk ir qk yra atitinkamai duomenų objektų p ir q, k-tasis atributas

Minkovskio atstumas

55

rn

k

rkk qpdist

1

1

−= ∑

=

Page 56: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• r=1: Miesto kvartalų (City block, Manhattan, taxicab, L1 norm) atstumas

– Pvz., Hamingo atstumas, kuris nurodo dvejuose binariniuose vektoriuose esančių skirtingų bitų kiekį

• r=2: Euklido atstumas

• r=∞: “supremum” (Lmaxnorm, L∞norm) atstumas – Tai yra maksimalus atstumas tarp bet kurių vektorių komponentų

• Nepainiokite r ir n, t.y. visi šie atstumai skaičiuojami su visu dimensijų kiekiu

Minkovskio atstumas: pavyzdžiai

56

Page 57: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

Atstumų matrica

Minkovskio atstumas

57

point x yp1 0 2p2 2 0p3 3 1p4 5 1

L1 p1 p2 p3 p4p1 0 4 4 6p2 4 0 2 4p3 4 2 0 2p4 6 4 2 0

L2 p1 p2 p3 p4p1 0 2.828 3.162 5.099p2 2.828 0 1.414 3.162p3 3.162 1.414 0 2p4 5.099 3.162 2 0

L∞ p1 p2 p3 p4p1 0 2 3 5p2 2 0 1 3p3 3 1 0 2p4 5 3 2 0

Page 58: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• Mahalanobis atstumas: • Σ – duomenų X kovariacinė matrica:

Euklido atstumas tarp raudonų taškų yra 14.7, Mahalanobis atstumas – 6.

Mahalanobis atstumas

58

( ) ( ) ( )TMahal qpqpqpdist −∑−= −1,

∑=

−−−

=Σn

ikikjijkj XXXX

n 1, ))((

11

Page 59: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

Mahalanobis atstumas

59

( )( )( )

( )( ) 4,

5,

5.1,5.11,0

5.0,5.0

3.02.02.03.0

==

===

=∑

CAdistBAdist

CBA

Mahal

Mahal

Page 60: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• Atstumai, pvz., Euklido atstumas, pasižymi tokiomis savybėmis – d(p, q) ≥ 0 visiems p ir q, o d(p, q) = 0, tik tada, kai p = q

– d(p, q) = d(q, p) visiems p ir q – d(p, r) ≤ d(p, q) + d(q, r) visiems p, q ir r

Čia d(p, q) yra atstumas (nepanašumas) tarp p ir q taškų (duomenų objektų)

• Atstumas, kuris tenkina šias savybes – vadinamas metrika

Bendros atstumų savybės

60

Page 61: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• Panašumai, pasižymi tokiomis savybėmis – s(p, q) = 1 tik tada, kai p = q

– s(p, q) = s(q, p) visiems p ir q (simetriškumas)

Čia s(p, q) yra panašumas tarp p ir q taškų (duomenų objektų)

Bendros panašumų savybės

61

Page 62: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• Panaši situacija yra kai objektai p ir q sudaryti iš binarinių atributų • Panašumai apskaičiuojami naudojant tokius dydžius:

– M01 = atributų, kai p yra 0 ir q yra 1, skaičius – M10 = atributų, kai p yra 1 ir q yra 0, skaičius – M00= atributų, kai p yra 0 ir q yra 0, skaičius

– M1 1 = atributų, kai p yra 1 ir q yra 1, skaičius

• Atitikimo (simple matching) ir Jaccard koeficientai – SMC = atitikimų skaičius / atributų skaičius = (M1 1 + M00) / (M0 1 + M10 + M1 1 + M00) – J = 1-1 atitikimų skaičius / ne 0-0 atitikimų skaičius = (M1 1 ) / (M0 1 + M10 + M1 1 )

Binarinių vektorių panašumas

62

Page 63: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• p = 1 0 0 0 0 0 0 0 0 0 • q = 0 0 0 0 0 0 1 0 0 1

• M01 = 2 (atributų, kai p yra 0 ir q yra 1, skaičius) • M10 = 1 (atributų, kai p yra 1 ir q yra 0, skaičius) • M00= 7 (atributų, kai p yra 0 ir q yra 0, skaičius) • M1 1 = 0 (atributų, kai p yra 1 ir q yra 1, skaičius)

• SMC = (M1 1 + M00) / (M0 1 + M10 + M1 1 + M00) = (0+7) / (2+1+0+7) = 0.7 • J = (M1 1 ) / (M0 1 + M10 + M1 1 ) = 0 / (2 + 1 + 0) = 0

Atitikimo ir Jaccard koeficientai: pavyzdys

63

Page 64: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• Jei d1 ir d2 yra dokumentų vektoriai tai cos( d1, d2 ) = (d1 •d2) / ||d1|| ||d2|| , čia • žymi vektorių daugybą panariui (dot product), ||d|| yra

vektoriaus d ilgis (norma) • Pvz.,

d1 = 3 2 0 5 0 0 0 2 0 0 d2 = 1 0 0 0 0 0 0 1 0 2 d1 • d2= 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0 + 0*2 = 5 ||d1|| = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0)0.5 = (42) 0.5 = 6.481 ||d2|| = (1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2) 0.5 = (6) 0.5 = 2.245 cos( d1, d2 ) = .3150

Kosinusinis panašumas

64

Page 65: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• Jaccard koeficiento pakeitimas tolydiems ir suskaičiuojamiems atributams

Išplėstas Jaccard koeficientas (Tanimoto)

65

( )qpqp

qpqpT•−+

•= 22,

Page 66: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• Koreliacija nustato tiesinę priklausomybę tarp objektų

• Koreliacija skaičiuojama pirmiausia standartizuojant duomenų objektus p ir q , sudauginant panariui (dot product)

p’k = (pk – mean(p)) / std(p) q’k = (qk – mean(q)) / std(q) corr(p, q) = p’ • q’

Koreliacija

66

Page 67: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• Paveikslai parodo panašumą nuo -1 iki 1

Vizualus koreliacijos įvertinimas

67

Page 68: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• Kartais atributai būna labai skirtingų rūšių, tačiau bendras panašumo matas vistiek reikalingas

– k-tąjam atributui apskaičiuojame panašumą sk (gaunama reikšmė iš intervalo [0, 1]

– Nustatomas indikatorinis kintamasis δk kiekvienam k-tąjam atributui:

jei k-tasis atributas binariškai nesimetrinis ir abu objektai turi reikšmes =0, arba jei vienas iš objektų turi trūkstamas reikšmes k-tąjame atribute

kitais atvejais

– Apskaičiuojame bendrą panašumą tarp dviejų objektų:

Panašumų apjungimo metodas

68

=

,1

,0

( )∑∑

=

== n

k k

n

k kk sqpsimilarity

1

1,δ

δ

Page 69: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• Kai dalis atributų būna svarbesi už kitus. Tada naudojami svoriai wk iš intervalo [0, 1] ir svorių suma = 1

Svorių naudojimas apjungiant panašumus

69

( )∑

∑=

== n

k k

n

k kkk swqpsimilarity

1

1,δ

δ

( )rn

k

rkkk qpwqpdistance

1

1,

−= ∑

=

Page 70: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• Kartais klasterizavimui reikia nustatyti duomenų tankumą

• Pvz., – Euklido tankumas

• Euklido tankumas = taškų patenkančių į vienetinį tūrį skaičius

– Tikimybinis tankumas

– Grafiškai nustatomas tankumas

Tankumas

70

Page 71: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• Paprasčiausias būdas yra sudalinti sritį į vienodo dydžio stačiakampius

Euklido tankumas

71

Page 72: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• Kitas būdas yra suskaičiuoti taškus patenkančius į tam tikrą apskritimu apibrėžtą sritį

Euklido tankumas

72 P. N. Tan, M. Steinbach, V. Kumar, “Introduction to Data Mining”, Addison-Wesley (2006)

Page 73: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

• Naudojantis trečiosios paskaitos medžiaga detaliai aprašykite savo pasirinktus duomenis:

– Kokio tipo duomenų aibė

– Kokios rūšies atributai aprašo duomenų aibės objektus

Trečias laboratorinis darbas

73

Page 74: Duomenų vizualizavimas Duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros

74

RowID

Distillery

Body

Sweetness

Smoky

Medicinal

Tobacco

Honey

Spicy

Winey

Nutty

Malty

Fruity

Floral

Postcode

Latitude

Longitude

01 Aberfeldy 2 2 2 0 0 2 1 2 2 2 2 2 PH15 2EB 286580 749680

02 Aberlour 3 3 1 0 0 4 3 2 2 3 3 2 AB38 9PJ 326340 842570

03 AnCnoc 1 3 2 0 0 2 0 0 2 2 3 2 AB5 5LI 352960 839320