Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
Duomenų vizualizavimas
Duomenys
Aušra Mackutė-Varoneckienė Tomas Krilavičius
1
Apie duomenis
• Duomenų tipai – Duomenų aibės gali skirtis įvairiais aspektais
• pvz., objektus aprašantys požymiai gali būti kokybiniai arba kiekybiniai.
– ir pasižymėti tam tikromis charakteristikomis • pvz., duomenų aibės susietos su laiko eilutėmis arba duomenų aibės objektai
tam tikrais ryšiais susiję vieni su kitais.
– Duomenų tipai apibrėžia kokie analizės įrankiai ir metodai gali būti naudojami duomenų analizei
– Duomenų tyrybos (angl. Data mining) mokslas plečiasi ir juda į priekį dažniausiai dėl atsirandančių naujų/netyrinėtų taikomųjų sričių ir iš jų gaunamų naujų duomenų rinkinių
2 pagal: P. N. Tan, M. Steinbach, V. Kumar, “Introduction to Data Mining”, Addison-Wesley (2006)
Apie duomenis
• Duomenų kokybė – Duomenys retai būna nepriekaištingi ir puikiai paruošti.
Daugelis duomenų tyrybos metodų toleruoja tam tikro laipsnio duomenų neišbaigtumą, tačiau mėginimas suvokti duomenis ir pagerinti duomenų kokybę dažniausiai pagerina ir duomenų analizės kokybę. Duomenų kokybę galima apibūdinti keletu aspektų:
– triukšmai ir ekstremalios, gerokai nutolę nuo vidurkio, reikšmės (angl. outliers)
– trūkstami, nenuoseklūs ar dubliuoti duomenys – neobjektyvūs ir neprezentatyvūs (atipiniai) duomenys
3
Apie duomenis
• Duomenų, tinkamų duomenų tyrybos procesui, paruošimas • Dažniausiai, prieš pradedant analizuoti duomenis juos reikia
apdoroti/sutvarkyti. Pirminio duomenų apdorojimo tikslai: • Pagerinti duomenų kokybę • Paruošti duomenis tokia forma, kuri tinkamiausia konkrečiam
duomenų tyrybos metodui arba įrankiui. • Pvz., tam, kad taikyti tam tikrą analizės metodą, objektus aprašančius tolydžius
požymius, pvz., ilgį, gali prisireikti transformuoti į diskrečių požymių kategorijas, pvz., trumpas, vidutinis ar ilgas.
• Duomenų analizės metodai efektyvesni, kai duomenis aprašo sąlyginai mažesnis požymių skaičius.
4
Apie duomenis
• Duomenų analizė jų sąryšių aspektu • Vienas iš duomenų analizės metodų yra surasti ryšius tarp
duomenų objektų ir tada vykdyti tolesnę analizę naudojant ir surastus/nustatytus ryšius ir tuos duomenų objektus.
• Pavyzdžiui, galima apskaičiuoti panašumus ar atstumus tarp objektų porų ir tada analizuoti – klasterizuoti, klasifikuoti ar remiantis apskaičiuotais panašumais ar atstumais surasti anomalijas duomenyse.
• Yra įvairiausių panašumų ar atstumų matų ir jų parinkimas priklauso nuo duomenų tipo ir konkretaus taikymo.
5
Duomenys – kas tai? • Duomenų aibė – tai duomenų
objektų rinkinys • Duomenų objektus aprašo atributai • Atributais aprašomos objekto
ypatybės ar charakteristikos • Pvz. , žmogaus akių spalva, kūno
temperatūra ir t.t. • Atributas taip pat gali būti
vadinamas kintamuoju, sritimi, charakteristika, dimensija ar požymiu
• Atributų rinkinys apibūdina objektą • Duomenų objektas taip pat gali būti
vadinamas įrašu, tašku, faktu, imtimi ar pavyzdžiu
6
Stu
d i
d
Kur
sas
Stud
ijų
prog
ram
a
1 se
mes
tro
vidu
rkis
2 se
mes
tro
vidu
rkis
Ben
dras
vi
durk
is
mif0111 1 MAT 8.6 8.2 8.4
mif0014 2 INF 7.3 8.1 7.7
mif0003 2 MAT 10.0 10.0 10.0
mif0104 1 INF 9.8 10.0 9.9
mif0008 2 INF 8.8 8.6 8.7
mif0106 1 INF 7.9 8.5 8.2
mif0109 1 MAT 8.5 7.7 8.1
mif0122 1 INF 8.5 8.1 8.3
mif0019 2 MAT 9.1 9.5 9.3
mif0010 2 MAT 7.8 8.0 7.9 10
Attributai
Objektai
Atributų reikšmės • Atributų reikšmės yra skaičiai ar simboliai priskirti konkrečiam
atributui • Atributais aprašomos objekto savybės ar charakteristikos gali kisti
keičiantis objektams, taip pat gali kisti laike • Pvz., atributas “akių spalva” gali keistis peržiūrint vieną objektą po kito, o
objekto temperatūra kinta bėgant laikui. Čia akių spalvą apibrėžia nedidelė galimų reikšmių aibė {ruda, mėlyna, žalia, pilka, t.t.}, o temperatūra yra skaitinis atributas su (beveik) nelimituota reikšmių aibe.
• Atributų skirtumai ir atributų reikšmės • Kai kurie atributai gali būti išreikšti skirtingomis atributų reikšmėmis
• Pvz., aukštis gali būti matuojamas ir metrais, ir pėdomis
• Skirtingi atributai gali būti išreikšti tomis pačiomis reikšmių aibėmis • Pvz., atributų reikšmės aprašančios ID ir amžių yra sveikieji skaičiai • Tačiau atributų reikšmių savybės gali skirtis
• Pvz., ID reikšmės neribotos, o pvz. amžius dažniausiai turi minimalią ir maksimalią reikšmes. 7
Ilgio matavimas • Taip kaip nustatinėjate/įvertinate/pamatuojate atributą
nebūtinai atitinka jo savybes
8
1
2
3
5
5
7
8
15
10 4
A
B
C
D
E
Atributų rūšys
• Yra keletas atributų rūšių • Nominalūs
• Pvz., ID numeriai, akių spalva, pašto kodai
• Ordinalūs • Pvz., rangavimas (pvz., bulvių traškučių skonio vertinimo skalė nuo 1 iki 10),
pažymiai, aukščio matavimai (pvz., aukštas, vidutinio aukščio, mažas)
• Intervaliniai • Pvz., kalendorinės datos, temperatūros matavimai Celsijaus laipsniais ar
Farenheitais
• Santykiniai • Pvz., temperatūra Kelvinais, ilgis, laikas, skaičiavimai
9
Atributų reikšmių savybės
• Atributo rūšis priklauso nuo to kokiomis savybėmis (operacijomis) jis pasižymi
• Aiškumas/suvokiamumas = ≠ • Eiliškumas/išsidėstymo tvarka < > • Papildymas + - • Dauginimas * /
• Nominalūs atributai: aiškumas/suvokiamumas • Ordinalūs atributai: aiškumas/suvokiamumas ir eiliškumas • Intervaliniai atributai: aiškumas/suvokiamumas, eiliškumas ir
papildymas • Santykiniai atributai: visos keturios savybės
10
Atributo rūšis
Apibūdinimas
Pavyzdžiai
Galimi veiksmai
Nominalūs
Nominalių atributų reikšmės yra tiesiog skirtingi vardai, pvz., nominalūs atributai turi pakankamai informacijos, kad galėtumėm atskirti vieną objektą nuo kito (=, ≠)
Pašto kodai, darbuotojų ID numeriai, akių spalva, lytis {vyriška, moteriška}
Moda, entropija, požymių dažnumų koreliacija (angl. contingency correlation), χ2 testas Ordinalūs
Pagal ordinalių atributų reišmes galima nustatyti objektų eiliškumą (<, >)
Mineralų kietumas, rangavimas {geras, geresnis, geriausias}, pažymiai, namų numeriai
Mediana, percentiliai, rango koreliacija, ...
Intervaliniai
Intervalinių atributų skirtumai tarp reikšmių yra labai svarbūs, t.y., egzistuoja matavimo vienetai (+, - )
Kalendorinės datos, temperatūros matavimai Celsijaus laipsniais ar Farenheitais
Vidurkis, standartinis nuokrypis, Pearson koreliacija, t ir F testai
Santykiniai
Santykiniai kintamieji pasižymi tuo, kad labai svarbūs ir skitumai tarp reikšmių ir santykis (*, /)
Temperatūra Kelvinais, piniginiai kiekiai, skaičiavimai, amžius, svoris, ilgis, elektros srovė
Geometrinis vidurkis, harmoninis vidurkis, procentiniai nuokrypiai
Atributai
• Bendrai nominalius ir ordinalius atributus galima vadinti kategoriniais arba kokybiniais atributais
• Kokybinių atributų skaitinės reikšmės dažnai neturi visų savybių kokiomis pasižymi skaičiai
• Bendrai intervalinius ir santykinius atributus galima vadinti kiekybiniais arba skaitiniais atributais.
• Kiekybiniai atributai išreikšti skaičiais turi visas skaičiams būdingas savybes
• Kiekybinių atributų reikšmės gali būti tiek sveikieji, tiek realūs skaičiai
12
Atributo rūšis
Galimos atributų reikšmių transformacijos
Komentarai
Nominalūs
Bet kokie pakeitimai
Jei visų darbuotojų ID numeriai būtų priskirti iš naujo, ar kas nors nuo to pasikeistų?
Ordinalūs
Eiliškumą išlaikantys reikšmių pakeitimai, t.y., nauja_reikšmė = f(sena_reikšmė) čia f - monotoninė funkcija
Atributas apibrėžiantis kokybės sąvoką tiek pat gerai bus perteikiamas reikšmėmis {1, 2, 3}, tiek reikšmėmis { 0.5, 1, 10}.
Intervaliniai
nauja_reikšmė = a * sena_reikšmė + b, čia a ir b – konstantos
Farenheito ir Celsijaus temperatūrų skalės skiriasi nulinės reikšmės pozicija ir matavimo vieneto dydžiu (laipsniu)
Santykiniai
nauja_reikšmė = a * sena_reikšmė
Ilgis gali būti matuojamas tiek metrais, tiek pėdomis
Diskretūs ir tolydūs atributai
• Diskretūs atributai • Turi baigtinę reikšmių aibę • Tokie atributai gali būti kategoriniai, pvz., pašto kodai, įvairūs suskaičiavimai,
konkrečiuose dokumentuose naudojamų žodžių aibė • Atributų reikšmės dažniausiai sveikieji skaičiai • Pastaba: binariniai atributai yra diskrečių atributų atskiras atvejis ir turi tik dvi
reikšmes, pvz.: true/false, taip/ne, vyras/moteris, arba 0/1 • Tolydūs atributai
• Atributų reikšmės yra realūs skaičiai • Pvz., temperatūra, aukštis ar svoris • Praktikoje, realios reikšmės matuojamos ir pateikiamos naudojant baigtinį kiekį
skaičių • Tolydūs atributai dažniausiai pateikiami naudojant slankaus kablelio
kintamuosius
14
Diskretūs ir tolydūs atributai
• Nominalių, ordinalių, intervalinių ir santykinių atributų reikšmės gali būti tiek diskrečios, tiek tolydžios, tiek binarinės.
• Tačiau kai kurie atributų ir jų reikšmių deriniai būna arba labai reti arba neturi ypatingos reikšmės
• Nominalių ir ordinalių atributų reikšmės dažniausiai būna binarinės ar diskrečios, o intervalinių ir santykinių atributų reikšmės – tolydžios
• Tačiau, skaičiuojamieji atributai, kurių reikšmės diskrečios, yra santykiniai atributai
15
Duomenų aibių rūšys
• Įrašai • Duomenų matricos • Dokumentų duomenys • Transakcijų duomenys
• Grafai • World Wide Web • Molekulinės struktūros
• Sutvarkyti (ordered) • Erdviniai duomenys • Laikini duomenys • Išplaukiantys duomenys • Genetinių sekų duomenys
16
Struktūrizuotų duomenų svarbiausios charakteristikos
• Dimensionalumas: Duomenų aibės dimensioanalumas – tai atributų aprašančių duomenų objektus skaičius. Duomenys turintys mažiau dimensijų dažnai būna kokybiškesni. Dėl to pirminiame apdorojime labai svarbus duomenų dimensijų sumažinimo procesas
• Išmėtymas (angl., sparsity): Kai kuriose duomenų aibėse, ypatingai kuriose daugelis atributų įgyja reikšmes lygias nuliui, lieka tik apie 1% nenulinių įrašų. Todėl būtent išmėtymas yra privalumas, nes lieka tik nenulinės reikšmės. Taip taupomi ir laiko , ir kompiuteriniai resursai apdorojant duomenis
• Rezoliucija: Duomenų struktūros priklauso nuo skalių. Dažnai galima gauti duomenis su skirtingomis rezoliucijomis. Pvz., žemės paviršius bus labai gruoblėtas jei rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros nesimatys ar “paskęs” triukšme, jei rezoliucija per didelė, struktūra gali iš vis pranykti 17
Duomenų įrašai
• Duomenis sudaro įrašų rinkinys. Kiekvieną įrašą aprašo fiksuota atributų aibė
• Nėra ypatingų ryšių tarp įrašų
• Dažniausiai saugomi failuose ar DB
• Duomenų įrašų tipai • Duomenų matricos
• Dokumentų duomenys (retos
duomenų matricos)
• Transakcijų duomenys 18
Stu
d i
d
Kur
sas
Stud
ijų
prog
ram
a
1 se
mes
tro
vidu
rkis
2 se
mes
tro
vidu
rkis
Ben
dras
vi
durk
is
mif0111 1 MAT 8.6 8.2 8.4
mif0014 2 INF 7.3 8.1 7.7
mif0003 2 MAT 10.0 10.0 10.0
mif0104 1 INF 9.8 10.0 9.9
mif0008 2 INF 8.8 8.6 8.7
mif0106 1 INF 7.9 8.5 8.2
mif0109 1 MAT 8.5 7.7 8.1
mif0122 1 INF 8.5 8.1 8.3
mif0019 2 MAT 9.1 9.5 9.3
mif0010 2 MAT 7.8 8.0 7.9 10
Duomenų matricos • Jei duomenų objektai turi fiksuotą aibę skaitinių atributų, tada duomenų objektai
gali būti traktuojami kaip taškai daugiamatėje erdvėje, kur kiekviena dimensija atitinka konkretų atributą.
• Tokios duomenų aibės gali būti atvaizduojamos m x n matricose, kai yra m eilučių – po vieną kiekvienam objektui, ir n stulpelių – po vieną kiekvienam atributui
• Duomenų matricos yra naudojamos kaip duomenų formato standartas statistiniams duomenims
19
Fisher's Iris Data
Sepal Length Sepal Width Petal Length Petal Width Species
5.1 3.5 1.4 0.2 setosa
4.7 3.2 1.3 0.2 Setosa
6.6 3.0 4.4 1.4 versicolor
6.8 2.8 4.8 1.4 versicolor
7.2 3.6 6.1 2.5 virginica
6.5 3.2 5.1 2.0 Virginica
...
Dokumentų duomenys
• Tai specialus duomenų matricų atvejis, kai atributų reikšmės yra tokio pačio tipo ir svarbios tik nenulinės atributų reikšmės.
• Kiekvienas dokumentas tampa “terminų” vektoriumi • Kiekvienas terminas yra vektoriaus komponentas (atributas)
• Kiekvieno atributo reikšmė yra termino pasikartojimų skaičius dokumente
20
Document 1
season
timeout
lost
win
game
score
ball
play
coach
teamDocument 2
Document 3
3 0 5 0 2 6 0 2 0 2
0
0
7 0 2 1 0 0 3 0 0
1 0 0 1 2 2 0 3 0
Transakcijų duomenys
• Atskiras įrašų duomenų atvejis, kai: • Kiekvienas įrašas (transakcija) apima aibę elementų
• Pvz., įsivaizduokite maisto prekių parduotuvę. Vieno pirkėjo pirkti produktai vieno apsipirkimo metu sudaro transakciją. Kiekvienas nupirktas produktas yra elementas.
21
ID Produktai
1 Duona, Pienas, Sūris
2 Alus, Duona
3 Pienas Kiaušiniai, Varškė, Sultys
4 Sultys, Duona, Sūris, Pienas
5 Pienas, Šokoladas, Sausainiai
Grafų duomenys
• Pvz., Grafai ir HTML linkai
22
5
2
1 2
5
<a href="papers/papers.html#bbbb">Data Mining </a><li><a href="papers/papers.html#aaaa">Graph Partitioning </a><li><a href="papers/papers.html#aaaa">Parallel Solution of Sparse Linear System of Equations </a><li><a href="papers/papers.html#ffff">N-Body Computation and Dense Linear System Solvers
Cheminiai duomenys
• Pvz., benzolo molekulė: C6H6
23
Sutvarkyti (ordered) duomenys: nuoseklūs duomenys • Atributai susiję ryšiais, kurie sudaro tam tikrą tvarką laiko
ar edvės atžvilgiu
• Transakcijų sekos
24
Sekos elementai
Elementai/įvykiai
Laiko momentas Pardavėjas Nupirkti produktai
t1 C1 A, B
t2 C3 A, C
t2 C1 C, D
t3 C2 A, D
t4 C2 E
t5 C1 A, E
Pardavėjas Laikas ir nupirkti produktai
C1 (t1: A, B) (t2: C, D) (t3: A,E)
C2 (t3: A, D) (t4: E)
C3 (t2: A, C)
Sutvarkyti (ordered) duomenys: sekos duomenys • Sekos duomenis sudaro duomenų aibė sudaryta iš individualių
elementų, pvz., žodžių ar raidžių seka. Panašu į nuoseklias sekas, bet čia nėra susiejimo su laiku. Vietoj to labai svarbi elemento pozicija sutvarkytoje sekoje.
• Pvz., genomo sekos duomenys – Sudaryta iš keturių nukleotidų
A, T, G ir C
25
GGTTCCGCCTTCAGCCCCGCGCCCGCAGGGCCCGCCCCGCGCCGTCGAGAAGGGCCCGCCTGGCGGGCGGGGGGAGGCGGGGCCGCCCGAGCCCAACCGAGTCCGACCAGGTGCCCCCTCTGCTCGGCCTAGACCTGAGCTCATTAGGCGGCAGCGGACAGGCCAAGTAGAACACGCGAAGCGCTGGGCTGCCTGCTGCGACCAGGG
• Laiko eilučių duomenys, tai atskiras nuoseklių duomenų atvejis, kai kiekvienas įrašas yra laiko eilutė, t.y., eilė matavimų atliktų tam tikrame laiko intervale
• Pvz., finansiniai duomenys dali būti sudaryti iš objektų –laiko eilučių aprašančių kiekvienos dienos akcijų biržų kainas
• Pvz., laiko eilutės aprašančios vidutinę mėnesio temperatūrą
• Metinė oro tempera-
tūra Vilniuje
1778-2010 m.
Sutvarkyti (ordered) duomenys: laiko eilutės
26
Sutvarkyti (ordered) duomenys: Erdviniai–laikini duomenys • Kai kurie objektai turi erdvinius atributus nurodančius pozicijas ar
sritis
• Pvz., meteorologiniai duomenys( krituliai, temperatūra, slėgis), kurie fiksuojami daugybėje vietų
2011 09 22 Maksimali oro temperatūra Europoje
27
• Kokios problemos kyla dėl duomenų kokybės? • Kaip galime aptikti problemas susijusias su duomenimis? • Kaip iškilusias problemas galime spręsti?
• Problemų dėl duomenų kokybės pavyzdžiai
• Triukšmai ir taškai atsiskyrėliai • Prarastos/negautos reikšmės • Nenuoseklios reikšmės • Dubliuoti duomenys
Duomenų kokybė
28
• Triukšmas – modifikuotos originalios reikšmės • Pvz., trukdžiai kalbant telefonu, ar “snieguotas“ vaizdas TV ekrane
Dvi sinusinės kreivės Dvi sinusinės kreivės + triukšmas
Triukšmai
29
• Taškai atsiskyrėliai tai tokie duomenų objektai, kurių charakteristikos kardinaliai skiriasi nuo kitų duomenų aibės duomenų objektų
Taškai atsiskyrėliai
30
• Priežastys dėl kurių kartais trūksta duomenų • Nebuvo surinkta informacija
• Pvz., respondentai nesutiko pasakyti savo amžių ir svorį
• Ne visi atributai gali būti taikomi visais atvejais • Pvz., metinis uždarbis negali būti taikomas vaikams
• Ką daryti kai trūksta duomenų? • Eliminuoti duomenų objektus • Apytikriai apskaičiuoti/įvertinti trūkstamas reikšmes • Ignoruoti tokias reikšmes vykdant analizę • Pakeisti galimomis reikšmėmis
Trūkstamos reikšmės
31
• Duomenų aibėse gali būti esminių neatitikimų
• Pvz., tarkim turime adresą nusakančius atributus – du iš jų miestas ir miesto kodas, tačiau įvesta miestą nusakančio atributo reikšmė neatitinka pagal įvesto kodo atributo reikšmę
• Kartais nenuoseklumą nesudėtinga nustatyti
• Pvz., žmogaus ūgis negali būti neigiamas, arba įvestas žmogaus ūgis 2 m, svoris 4 kg ir pan.
Nenuoseklios reikšmės
32
• Duomenų aibėje gali pasitaikyti dubliuotų duomenų, ar beveik vienas kito objektų dublikatų
• Tai dažniausiai nutinka sujungiant duomenis iš įvairių šaltinių
• Pvz.: • Tas pats asmuo su įvairiais epašto adresais
• Duomenų valymas • Procesas, kurio metu tvarkomi dubliuoti duomenų objektai
Dubliuoti duomenys
33
• Agregavimas
• Pavyzdžių surinkimas / Imties sudarymas
• Matavimų erdvės skaičiaus (dimensionalumo) sumažinimas
• Požymių poaibio atrinkimas
• Požymių kūrimas
• Diskretizavimas ir binarizavimas
• Atributų trasformavimas
Duomenų pirminis apdorojimas
34
• Dviejų ar daugiau atributų (arba objektų) sujungimas
• Tikslas • Duomenų kiekio mažinimas
• Sumažinamas atributų arba objektų skaičius
• Skalės keitimas • Miestai agreguojami į regionus, šalis ir pan.
• Gaunami “stabilesni” duomenys • Agreguoti duomenys turi mažesnius nukrypimus
Agregavimas
35
• Kritulių kiekio kitimas Australijoje
Vidutinio mėnesinio kritulių Vidutinio metinio kritulių kiekio standartinis nuokrypis kiekio standartinis nuokrypis
Agregavimas
36
• Imties sudarymas tai metodika, kuria atrenkami duomenys • Tai dažnai naudojama ir premilinariam duomenų aibės
tyrinėjimui, ir galutinei duomenų aibės analizei
• Imties sudarymas duomenų gavyboje naudojamas dar ir todėl, kad visos duomenų aibės apdorojimas dažniausiai yra brangus ar užtrunka labai daug laiko
Pavyzdžių surinkimas/Imties sudarymas
37
• Pagrindiniai dalykai, dėl kurių sudaryta imtis bus gera
• Jei imtis bus representatyvi, dirbant su imtimi bus gaunami
beveik tokie patys rezultatai, kaip ir su visa duomenų aibe
• Imtis yra representatyvi jei ji pasižymi apytikriai tokiomis pačiomis savybėmis, kaip ir originali duomenų aibė
Pavyzdžių surinkimas/Imties sudarymas
38
• Atsitiktinis duomenų išrinkimas į imtį • Kiekvienas duomenų aibės objektas turi tokią pačią tikimybę būti atrinktas į
imtį • Imties sudarymas be pasikartojimų
• Kiekvienas atrinktas duomenų aibės objektas į imtį pašalinamas iš populiacijos (duomenų aibės)
• Imties sudarymas su pasikartojimais • Objektas nepašalinamas iš populiacijos, kai patenka į imtį
• Imties sudaryme su pasikartojimais, tas pats duomenų objektas gali būti atrinktas daugiau nei vieną kartą
• Sluoksniuotas imties sudarymas • Duomenų aibė dalinama į kelias lygias dalis, tada iš kiekvienos dalies
pavyzdžiai į imtį atrenkami atsitiktinai
Imties sudarymo būdai
39
8000 taškų 2000 taškų 500 taškų
Imties dydis
40
• Koks turėtų būti imties dydis norint surinkti bent po vieną objektą iš kiekvienos iš 10 grupių
Imties dydis
41
• Kai matavimų skaičiaus erdvė didėja, duomenys nagrinėjamoje erdvėje labiau išsisklaido
• Taškų tankumas, bei atstumai tarp taškų labai svarbūs norint duomenis klasterizuoti ir aptikti taškus atsiskyrėlius
• Atsitiktinai sugeneruoti 500 taškų • Apskaičiuoti skirtumai tarp taškų porų max ir min atstumų
Dimensionalumas
42
• Tikslas – Išvengti problemų kylančių dėl didelio dimensijų skaičiaus – Sumažinti laiko ir atminties resursų poreikį reikalingą apdorojant
duomenis duomenų tyrybos metodais – Kad būtų lengviau vizualizuoti – Taip gali būti pašalinami nereikšmingi požymiai ar sumažinamas
triukšmas
• Metodai – Principle Component Analysis – Singular Value Decomposition – Kiti: supervised and non-linear techniques
Matavimų skaičiaus erdvės (dimensionalumo) mažinimas
43
• Kitas būdas kaip sumažinti duomenų dimensionalumą yra požymių poaibio išskyrimas
• Pertekliniuose požymiuose – daug pasikartojimų/dubliavimo arba visa pagrindinė informacija
būna kituose požymiuose – Pvz., produkto pardavimo kaina ir pridėtinės vertės mokestis
• Nereikšminguose požymiuose – nėra informacijos, kuri būtų naudinga vykdant duomenų gavybos
užduotį – Pvz., pacientų ID dažniausiai būna nereikšmingi duomenys, kai
norima nustatyti /prognozuoti ligą
Požymių poaibio išrinkimas
44
• Metodai – “Jėgos” (Brute-force) metodas
• Duomenų gavybos metodais analizuojami visi galimi poaibiai
– Embedded metodas • Vykdant duomenų analizę požymių atrinkimas vykdomas natūraliai –
kaip dalis duomenų gavybos proceso
– Filtro metodas • Požymiai išrenkami prieš pradedant vykdyti duomenų analizę
– Aplanko (Wrapper) metodas • Naudojami duomenų gavybos metodai kaip juodos dėžės, kurios
išrenka geriausius atributų poaibius
Požymių poaibio išrinkimas
45
• Sukurti naujus atributus, kuriais būtų perteikiama žymiai svarbesnė informacija nei ta, kurią perteikia esami atributai.
• Trys pagrindinės metodologijos: – Požymių ištraukimas (feature extraction)
• Požymių, charakteringų nagrinėjamai sričiai ištraukimas
– Duomenų atvaizdavimas į naują erdvę
– Požymių konstravimas • Apjungiant požymius
Požymių kūrimas
46
• Furjė transformacija (Fourier transform)
• Vilnelių transformacija (Wavelet transform)
Dvi laiko eilutės Laiko eilutės su triukšmu Spektro galia
Duomenų atvaizdavimas į naują erdvę
47
Hz
Duomenys Vienodi intervalai
Vienodi dažniai K-vidurkių metodas
Diskretizavimas nenaudojant klasių
48
Trys klasės pagal x ir y Penkios klasės pagal x ir y
Diskretizavimas naudojant klases
49
• Funkcija, kuri atvaizduoja visos aibės konkretaus atributo reikšmes į naują keičiamųjų reikšmių aibę taip, kad kiekviena ankstesnė reikšmė gali būti identifikuojama pagal vieną iš naujų reikšmių
– Funkcijos: xk, log(x), ex, |x| – Standartizavimas ar normalizavimas. Tikslas – duomenų aibės reikšmėms
suteikti konkrečią savybę • Jei mx yra atributo reikšmių vidurkis, o sx – standartinis nuokrypis, tada
transformacija x’ = (x – mx) / sx padaro naują kintamąjį su vidurkiu 0 ir standartiniu nuokrypiu 1.
• Kai duomenų aibėje egzistuoja taškai atsiskyrėliai, tada standartizavimas vykdomas vidurkį keičiant mediana, o standartinį nuokrypį absoliutiniu standartiniu nuokrypiu
- arba vidurkis, arba mediana, xi – i-tasis kintamasis, m – objektų sk.
Atributų transformacija
50
µ
µσ ∑ =−=
m
i iA x1
• Panašumai – Skaitinis matas nurodantis kiek panašūs du duomenų objektai – Matas yra didesnis, kai objektai labiau panašūs – Panašumo mato reikšmės dažniausia būna iš intervalo [0, 1]
• Nepanašumai – Skaitinis matas nurodantis kiek skirtingi du duomenų objektai – Matas yra mažesnis, kai objektai yra labiau panašūs – Nepanašumo mato minimumas dažniausiai =0 – Viršutinė nepanašumo mato riba kintanti
• Objektų artimumą nurodo arba panašumo matas, arba nepanašumo matas
Panašumai ir nepanašumai
51
p ir q yra atributų reikšmės dviems duomenų objektams (objektai turi po vieną atributą)
Panašumo ir nepanašumo matų apskaičiavimas paprastiems atributams
52
Atributo rūšis Nepanašumai Panašumai
Nominalūs
Ordinalūs Reikšmės atvaizduojamos į sveikųjų skaičių seką nuo 0 iki n-1, čia n reikšmių kiekis
Intervaliniai ir santykiniai
≠=
=qpjeiqpjei
d,1,0
≠=
=qpjeiqpjei
s,0,1
1−−
=n
qpd
11
−−
−=n
qps
qpd −=
dd
dds
arbad
sds
minmaxmin1
11,
−−
−=
+=−=
• Euklido atstumas:
• Čia n dimensijų skaičius (atributų kiekis), pk ir qk yra atitinkamai duomenų objektų p ir q, k-tasis atributas
• Jei atributų skalės skiriasi - būtinas standartizavimas
Euklido atstumas
53
( )∑=
−=n
kkk qpdist
1
2
Atstumų matrica
Euklido atstumas
54
0
1
2
3
0 1 2 3 4 5 6
p1
p2
p3 p4
point x yp1 0 2p2 2 0p3 3 1p4 5 1
p1 p2 p3 p4p1 0 2.828 3.162 5.099p2 2.828 0 1.414 3.162p3 3.162 1.414 0 2p4 5.099 3.162 2 0
• Minkovskio atstumas yra Euklido atstumo apibendrinimas:
• Čia r yra parametras, n – dimensijų (atributų) skaičius, pk ir qk yra atitinkamai duomenų objektų p ir q, k-tasis atributas
Minkovskio atstumas
55
rn
k
rkk qpdist
1
1
−= ∑
=
• r=1: Miesto kvartalų (City block, Manhattan, taxicab, L1 norm) atstumas
– Pvz., Hamingo atstumas, kuris nurodo dvejuose binariniuose vektoriuose esančių skirtingų bitų kiekį
• r=2: Euklido atstumas
• r=∞: “supremum” (Lmaxnorm, L∞norm) atstumas – Tai yra maksimalus atstumas tarp bet kurių vektorių komponentų
• Nepainiokite r ir n, t.y. visi šie atstumai skaičiuojami su visu dimensijų kiekiu
Minkovskio atstumas: pavyzdžiai
56
Atstumų matrica
Minkovskio atstumas
57
point x yp1 0 2p2 2 0p3 3 1p4 5 1
L1 p1 p2 p3 p4p1 0 4 4 6p2 4 0 2 4p3 4 2 0 2p4 6 4 2 0
L2 p1 p2 p3 p4p1 0 2.828 3.162 5.099p2 2.828 0 1.414 3.162p3 3.162 1.414 0 2p4 5.099 3.162 2 0
L∞ p1 p2 p3 p4p1 0 2 3 5p2 2 0 1 3p3 3 1 0 2p4 5 3 2 0
• Mahalanobis atstumas: • Σ – duomenų X kovariacinė matrica:
Euklido atstumas tarp raudonų taškų yra 14.7, Mahalanobis atstumas – 6.
Mahalanobis atstumas
58
( ) ( ) ( )TMahal qpqpqpdist −∑−= −1,
∑=
−−−
=Σn
ikikjijkj XXXX
n 1, ))((
11
Mahalanobis atstumas
59
( )( )( )
( )( ) 4,
5,
5.1,5.11,0
5.0,5.0
3.02.02.03.0
==
===
=∑
CAdistBAdist
CBA
Mahal
Mahal
• Atstumai, pvz., Euklido atstumas, pasižymi tokiomis savybėmis – d(p, q) ≥ 0 visiems p ir q, o d(p, q) = 0, tik tada, kai p = q
– d(p, q) = d(q, p) visiems p ir q – d(p, r) ≤ d(p, q) + d(q, r) visiems p, q ir r
Čia d(p, q) yra atstumas (nepanašumas) tarp p ir q taškų (duomenų objektų)
• Atstumas, kuris tenkina šias savybes – vadinamas metrika
Bendros atstumų savybės
60
• Panašumai, pasižymi tokiomis savybėmis – s(p, q) = 1 tik tada, kai p = q
– s(p, q) = s(q, p) visiems p ir q (simetriškumas)
Čia s(p, q) yra panašumas tarp p ir q taškų (duomenų objektų)
Bendros panašumų savybės
61
• Panaši situacija yra kai objektai p ir q sudaryti iš binarinių atributų • Panašumai apskaičiuojami naudojant tokius dydžius:
– M01 = atributų, kai p yra 0 ir q yra 1, skaičius – M10 = atributų, kai p yra 1 ir q yra 0, skaičius – M00= atributų, kai p yra 0 ir q yra 0, skaičius
– M1 1 = atributų, kai p yra 1 ir q yra 1, skaičius
• Atitikimo (simple matching) ir Jaccard koeficientai – SMC = atitikimų skaičius / atributų skaičius = (M1 1 + M00) / (M0 1 + M10 + M1 1 + M00) – J = 1-1 atitikimų skaičius / ne 0-0 atitikimų skaičius = (M1 1 ) / (M0 1 + M10 + M1 1 )
Binarinių vektorių panašumas
62
• p = 1 0 0 0 0 0 0 0 0 0 • q = 0 0 0 0 0 0 1 0 0 1
• M01 = 2 (atributų, kai p yra 0 ir q yra 1, skaičius) • M10 = 1 (atributų, kai p yra 1 ir q yra 0, skaičius) • M00= 7 (atributų, kai p yra 0 ir q yra 0, skaičius) • M1 1 = 0 (atributų, kai p yra 1 ir q yra 1, skaičius)
• SMC = (M1 1 + M00) / (M0 1 + M10 + M1 1 + M00) = (0+7) / (2+1+0+7) = 0.7 • J = (M1 1 ) / (M0 1 + M10 + M1 1 ) = 0 / (2 + 1 + 0) = 0
Atitikimo ir Jaccard koeficientai: pavyzdys
63
• Jei d1 ir d2 yra dokumentų vektoriai tai cos( d1, d2 ) = (d1 •d2) / ||d1|| ||d2|| , čia • žymi vektorių daugybą panariui (dot product), ||d|| yra
vektoriaus d ilgis (norma) • Pvz.,
d1 = 3 2 0 5 0 0 0 2 0 0 d2 = 1 0 0 0 0 0 0 1 0 2 d1 • d2= 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0 + 0*2 = 5 ||d1|| = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0)0.5 = (42) 0.5 = 6.481 ||d2|| = (1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2) 0.5 = (6) 0.5 = 2.245 cos( d1, d2 ) = .3150
Kosinusinis panašumas
64
• Jaccard koeficiento pakeitimas tolydiems ir suskaičiuojamiems atributams
Išplėstas Jaccard koeficientas (Tanimoto)
65
( )qpqp
qpqpT•−+
•= 22,
• Koreliacija nustato tiesinę priklausomybę tarp objektų
• Koreliacija skaičiuojama pirmiausia standartizuojant duomenų objektus p ir q , sudauginant panariui (dot product)
p’k = (pk – mean(p)) / std(p) q’k = (qk – mean(q)) / std(q) corr(p, q) = p’ • q’
Koreliacija
66
• Paveikslai parodo panašumą nuo -1 iki 1
Vizualus koreliacijos įvertinimas
67
• Kartais atributai būna labai skirtingų rūšių, tačiau bendras panašumo matas vistiek reikalingas
– k-tąjam atributui apskaičiuojame panašumą sk (gaunama reikšmė iš intervalo [0, 1]
– Nustatomas indikatorinis kintamasis δk kiekvienam k-tąjam atributui:
jei k-tasis atributas binariškai nesimetrinis ir abu objektai turi reikšmes =0, arba jei vienas iš objektų turi trūkstamas reikšmes k-tąjame atribute
kitais atvejais
– Apskaičiuojame bendrą panašumą tarp dviejų objektų:
Panašumų apjungimo metodas
68
=
,1
,0
kδ
( )∑∑
=
== n
k k
n
k kk sqpsimilarity
1
1,δ
δ
• Kai dalis atributų būna svarbesi už kitus. Tada naudojami svoriai wk iš intervalo [0, 1] ir svorių suma = 1
Svorių naudojimas apjungiant panašumus
69
( )∑
∑=
== n
k k
n
k kkk swqpsimilarity
1
1,δ
δ
( )rn
k
rkkk qpwqpdistance
1
1,
−= ∑
=
• Kartais klasterizavimui reikia nustatyti duomenų tankumą
• Pvz., – Euklido tankumas
• Euklido tankumas = taškų patenkančių į vienetinį tūrį skaičius
– Tikimybinis tankumas
– Grafiškai nustatomas tankumas
Tankumas
70
• Paprasčiausias būdas yra sudalinti sritį į vienodo dydžio stačiakampius
Euklido tankumas
71
• Kitas būdas yra suskaičiuoti taškus patenkančius į tam tikrą apskritimu apibrėžtą sritį
Euklido tankumas
72 P. N. Tan, M. Steinbach, V. Kumar, “Introduction to Data Mining”, Addison-Wesley (2006)
• Naudojantis trečiosios paskaitos medžiaga detaliai aprašykite savo pasirinktus duomenis:
– Kokio tipo duomenų aibė
– Kokios rūšies atributai aprašo duomenų aibės objektus
Trečias laboratorinis darbas
73
74
RowID
Distillery
Body
Sweetness
Smoky
Medicinal
Tobacco
Honey
Spicy
Winey
Nutty
Malty
Fruity
Floral
Postcode
Latitude
Longitude
01 Aberfeldy 2 2 2 0 0 2 1 2 2 2 2 2 PH15 2EB 286580 749680
02 Aberlour 3 3 1 0 0 4 3 2 2 3 3 2 AB38 9PJ 326340 842570
03 AnCnoc 1 3 2 0 0 2 0 0 2 2 3 2 AB5 5LI 352960 839320