32
Redukcija podataka Nenad Miti´ c Matematiˇ cki fakultet [email protected]

Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog

Redukcija podataka

Nenad MiticMatematicki fakultet

[email protected]

Page 2: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog

UvodZašto redukcija podataka

Podela tehnika zaredukciju podataka

Dimenziona redukcija

Smanjenje brojnosti uzorka

Smanjenje kardinalnostirazvrstavanjem

DimenzionaredukcijaProkletstvodimenzionalnosti

Analiza glavnih komponenti

Analiza faktora

Multidimenzionalnoskaliranje

Lokalno linearnougnježdenje

Smanjenjebrojnosti uzorkaUzorkovanje podataka

Grupisanje podataka

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

7.2

Zašto redukcija podataka

• Neke karakteristike mogu da budu nevažne zakonkretan problem

• Stvarana dimenzionalnost može da budemanja od broja karakteristka

• Potrebno je vizuelno predstavitimultidimenzione podatke

• Manja kolicina podataka - efikasnija primenaalgoritama

• Manja kolicina podataka - mogucnost primeneveceg broja algoritama

• ...

Page 3: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog

UvodZašto redukcija podataka

Podela tehnika zaredukciju podataka

Dimenziona redukcija

Smanjenje brojnosti uzorka

Smanjenje kardinalnostirazvrstavanjem

DimenzionaredukcijaProkletstvodimenzionalnosti

Analiza glavnih komponenti

Analiza faktora

Multidimenzionalnoskaliranje

Lokalno linearnougnježdenje

Smanjenjebrojnosti uzorkaUzorkovanje podataka

Grupisanje podataka

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

7.3

Podela tehnika za redukciju podataka

• Dimenziona redukcija• Smanjenje brojnosti uzorka• Smanjenje kardinalnosti

razvrstavanjem

Page 4: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog

UvodZašto redukcija podataka

Podela tehnika zaredukciju podataka

Dimenziona redukcija

Smanjenje brojnosti uzorka

Smanjenje kardinalnostirazvrstavanjem

DimenzionaredukcijaProkletstvodimenzionalnosti

Analiza glavnih komponenti

Analiza faktora

Multidimenzionalnoskaliranje

Lokalno linearnougnježdenje

Smanjenjebrojnosti uzorkaUzorkovanje podataka

Grupisanje podataka

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

7.4

Dimenziona redukcija

Smanuje broj atributa/slucajnih promenljivihu ulaznom materijalu

• Transformacija i projekcija podataka u manjiprostor

• PCA (eng. Principal Component Analysis)• Analiza faktora (eng. Factor Analysis)• Multidimenziono skaliranje (eng.

MultiDimensional Scaling)• Lokalno linearno ugnježdenje (eng.

Locally Linear Embedding)

• Izbor karakteristika (eng. Feature Selection)

Page 5: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog

UvodZašto redukcija podataka

Podela tehnika zaredukciju podataka

Dimenziona redukcija

Smanjenje brojnosti uzorka

Smanjenje kardinalnostirazvrstavanjem

DimenzionaredukcijaProkletstvodimenzionalnosti

Analiza glavnih komponenti

Analiza faktora

Multidimenzionalnoskaliranje

Lokalno linearnougnježdenje

Smanjenjebrojnosti uzorkaUzorkovanje podataka

Grupisanje podataka

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

7.5

Smanjenje brojnosti uzorkaOriginalni podaci se zamenjuju sa manjimbrojem reprezentativnih uzoraka• Parametarske metode

• Vrše procenu kako se model uklapa uoriginalne podatke koristeci parametre zapredstavljanje podataka umestokorišcenja originalnih podataka

• Bliske su tehnikama Istraživanja podataka(regresiji i logaritamskim linearnimmodelima)

• Neparametarske metode - rade direktno sapodacima i vracaju reprezentativne podatke saslicnom strukturom• Uzorkovanje podataka• Grupisanje podataka• Izbor (izdvajanje) instanci

Page 6: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog

UvodZašto redukcija podataka

Podela tehnika zaredukciju podataka

Dimenziona redukcija

Smanjenje brojnosti uzorka

Smanjenje kardinalnostirazvrstavanjem

DimenzionaredukcijaProkletstvodimenzionalnosti

Analiza glavnih komponenti

Analiza faktora

Multidimenzionalnoskaliranje

Lokalno linearnougnježdenje

Smanjenjebrojnosti uzorkaUzorkovanje podataka

Grupisanje podataka

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

7.6

Smanjenje kardinalnosti razvrstavanjem

Razlicite vrste transformacija za dobijanjesmanjenog skupa reprezentativnihpodataka• Razvrstavanje u kolekcije (eng.

binning)• Diskretizacija

Page 7: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog

UvodZašto redukcija podataka

Podela tehnika zaredukciju podataka

Dimenziona redukcija

Smanjenje brojnosti uzorka

Smanjenje kardinalnostirazvrstavanjem

DimenzionaredukcijaProkletstvodimenzionalnosti

Analiza glavnih komponenti

Analiza faktora

Multidimenzionalnoskaliranje

Lokalno linearnougnježdenje

Smanjenjebrojnosti uzorkaUzorkovanje podataka

Grupisanje podataka

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

7.7

Prokletstvo dimenzionalnosti

• Dimenzionalnost - broj atributa kojeposeduje objekat iz skupa podataka

• Prokletstvo dimenzionalnosti – teškocepri analizi podataka sa velikim brojemdimenzija

Metode za dimenzionu redukciju• Linearne (PCA, Analiza faktora)• Nelinearne (LLE, ISOMAP (eng.

ISOmetric MAPping)

Page 8: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog

UvodZašto redukcija podataka

Podela tehnika zaredukciju podataka

Dimenziona redukcija

Smanjenje brojnosti uzorka

Smanjenje kardinalnostirazvrstavanjem

DimenzionaredukcijaProkletstvodimenzionalnosti

Analiza glavnih komponenti

Analiza faktora

Multidimenzionalnoskaliranje

Lokalno linearnougnježdenje

Smanjenjebrojnosti uzorkaUzorkovanje podataka

Grupisanje podataka

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

7.8

Principal Component Analysis

• Osnovna ideja: naci skup linearnihtransformacija koji opisuje najveci deo varijansiu originalnim podacima upotrebom što jemoguce manjeg broja promenljivih

• Traži se k n-dimenzionih ortogonalnih vektorakoji najbolje predstavljaju podatke

• Novi sistem sa osama zavisi od korelacijeizmedju atributra

• PCA se (najcešce ) primenjuje posleoduzimanja srednje vrednosti od svake tacke

Page 9: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog

UvodZašto redukcija podataka

Podela tehnika zaredukciju podataka

Dimenziona redukcija

Smanjenje brojnosti uzorka

Smanjenje kardinalnostirazvrstavanjem

DimenzionaredukcijaProkletstvodimenzionalnosti

Analiza glavnih komponenti

Analiza faktora

Multidimenzionalnoskaliranje

Lokalno linearnougnježdenje

Smanjenjebrojnosti uzorkaUzorkovanje podataka

Grupisanje podataka

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

7.9

Principal Component Analysis (nastavak)

Željena transformacija treba da ima sledeceosobine:

1 Svaki par novodobijenih atributa imakovarijansu 0

2 Atributi su uredjeni u odnosu na velicinuvarijanse (u opadajucem redosledu) koja jepokrivena od strane atributa

3 Zahteva se ortogonalnost izmedju atributa,tako da svaki naredni atribut pokriva što jemoguce veci broj preostalih varijansi

Page 10: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog

UvodZašto redukcija podataka

Podela tehnika zaredukciju podataka

Dimenziona redukcija

Smanjenje brojnosti uzorka

Smanjenje kardinalnostirazvrstavanjem

DimenzionaredukcijaProkletstvodimenzionalnosti

Analiza glavnih komponenti

Analiza faktora

Multidimenzionalnoskaliranje

Lokalno linearnougnježdenje

Smanjenjebrojnosti uzorkaUzorkovanje podataka

Grupisanje podataka

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

7.10

Principal Component Analysis (nastavak)

• Za matricu podataka D reda m × n može da seformira matrica kovarijansi C sa elementimacij = cov(d∗i ,d∗j) (cij je kovarijansa i-te i j-tekolone (atributa) podataka)

• Kovarijansa je mera kako se atributi menjaju uparu. Ako je i = j tada je kovarijnsa jednakavarijansi atributa.

• Ako se matrica D prethodno pripremi tako da jesrednja vrednost svakog od atributa jednaka 0,tada je C = DT D

Page 11: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog

UvodZašto redukcija podataka

Podela tehnika zaredukciju podataka

Dimenziona redukcija

Smanjenje brojnosti uzorka

Smanjenje kardinalnostirazvrstavanjem

DimenzionaredukcijaProkletstvodimenzionalnosti

Analiza glavnih komponenti

Analiza faktora

Multidimenzionalnoskaliranje

Lokalno linearnougnježdenje

Smanjenjebrojnosti uzorkaUzorkovanje podataka

Grupisanje podataka

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

7.11

Principal Component Analysis (nastavak)

Transformacija se vrši upotrebomsopstvenih vrednosti matrice kovarijansi

1 Neka su λi (nenegativne) sopstvene vrednostiCm uredjene u redosleduλ1 ≥ λ2 ≥ ...λm−1 ≥ λm

2 Neka je U = [u1, ...,un] matrica sopstvenihvektora od C uredjena tako da i-ti vektorodgovara i-toj najvecoj sopstvenoj vrednosti

3 Neka je matrica D prethodno pripremljena takoda je srednja vrednost svakog od atributajednaka 0

Page 12: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog

UvodZašto redukcija podataka

Podela tehnika zaredukciju podataka

Dimenziona redukcija

Smanjenje brojnosti uzorka

Smanjenje kardinalnostirazvrstavanjem

DimenzionaredukcijaProkletstvodimenzionalnosti

Analiza glavnih komponenti

Analiza faktora

Multidimenzionalnoskaliranje

Lokalno linearnougnježdenje

Smanjenjebrojnosti uzorkaUzorkovanje podataka

Grupisanje podataka

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

7.12

Principal Component Analysis (nastavak)

1 Matrica D′ = DU je tražena transformisanamatrica podataka

2 Novi atribut je linearna kombinacija starihatributa: težine linearne kombinacije i-togatributa su komponenete i-tog sopstvenogvektora.

3 Varijansa novog i-tog atributa je λi . Zbirvarijansi originalnih atributa je jednak zbiruvarijansi novih atributa

Page 13: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog

UvodZašto redukcija podataka

Podela tehnika zaredukciju podataka

Dimenziona redukcija

Smanjenje brojnosti uzorka

Smanjenje kardinalnostirazvrstavanjem

DimenzionaredukcijaProkletstvodimenzionalnosti

Analiza glavnih komponenti

Analiza faktora

Multidimenzionalnoskaliranje

Lokalno linearnougnježdenje

Smanjenjebrojnosti uzorkaUzorkovanje podataka

Grupisanje podataka

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

7.13

Principal Component Analysis (nastavak)

1 Novi atributi se nazivaju glavne komponente;prvi novi atribut je prva glavna komponenta, itd.

2 Prvih nekoliko komponenti obicno sadrže bar95% varijansi pocetnog skupa podataka

3 Umesto varijani može da se koristi i korelacijaatributa

4 Graficka reprezentacija algoritama redukcije -https://www.renecutura.eu/viscoder/

Page 14: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog

UvodZašto redukcija podataka

Podela tehnika zaredukciju podataka

Dimenziona redukcija

Smanjenje brojnosti uzorka

Smanjenje kardinalnostirazvrstavanjem

DimenzionaredukcijaProkletstvodimenzionalnosti

Analiza glavnih komponenti

Analiza faktora

Multidimenzionalnoskaliranje

Lokalno linearnougnježdenje

Smanjenjebrojnosti uzorkaUzorkovanje podataka

Grupisanje podataka

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

7.14

Principal Component Analysis (nastavak)

Page 15: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog

UvodZašto redukcija podataka

Podela tehnika zaredukciju podataka

Dimenziona redukcija

Smanjenje brojnosti uzorka

Smanjenje kardinalnostirazvrstavanjem

DimenzionaredukcijaProkletstvodimenzionalnosti

Analiza glavnih komponenti

Analiza faktora

Multidimenzionalnoskaliranje

Lokalno linearnougnježdenje

Smanjenjebrojnosti uzorkaUzorkovanje podataka

Grupisanje podataka

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

7.15

Singular Value Decomposition

1 Identican je PCA ako je srednja vrednostsvakog atributa matrice jednaka 0

2 Formalno, matrica D dimenzije m × n može dase predstavi kao D = UΣPT , gde je U matricareda n × n levo singularnih vektora ui , Σ jen ×m dijagonalna matrica singularnihvrednosti, i P je m ×m matrica desnosingularnih vektora.

3 SVD dekompozicija matrice podatakazadovoljava sledece osobine

Page 16: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog

UvodZašto redukcija podataka

Podela tehnika zaredukciju podataka

Dimenziona redukcija

Smanjenje brojnosti uzorka

Smanjenje kardinalnostirazvrstavanjem

DimenzionaredukcijaProkletstvodimenzionalnosti

Analiza glavnih komponenti

Analiza faktora

Multidimenzionalnoskaliranje

Lokalno linearnougnježdenje

Smanjenjebrojnosti uzorkaUzorkovanje podataka

Grupisanje podataka

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

7.16

Singular Value Decomposition (nastavak)

1 Obrasci u atributima su obuhvaceni desnosingularnim vektorima. Kolone matrice Q suortonormirani sopstveni vektori od DDT .

2 Obrasci u objektima su obuhvaceni levosingularnim vektorima. Kolone matrice P suortonormirani sopstveni vektori od DT D.

3 Neka su podaci na dijagonali u Σ uredjeni uopadajucem redosledu, a kolone u P i Q suuredjene u skladu sa tim.

Page 17: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog

UvodZašto redukcija podataka

Podela tehnika zaredukciju podataka

Dimenziona redukcija

Smanjenje brojnosti uzorka

Smanjenje kardinalnostirazvrstavanjem

DimenzionaredukcijaProkletstvodimenzionalnosti

Analiza glavnih komponenti

Analiza faktora

Multidimenzionalnoskaliranje

Lokalno linearnougnježdenje

Smanjenjebrojnosti uzorkaUzorkovanje podataka

Grupisanje podataka

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

7.17

Singular Value Decomposition (nastavak)

4 Neka su Pk i Qk skracene m× k i n× k matriceizdvajanjem prvioh k kolona, i neka je Σkmatrica reda k × k koja sadrži k najvecihsingularnih vrednosti.

5 Tada SVD faktorizacija aproksimirareprezentaciju m dimenzionalnih podatakapocetnog skupa D formulom D ≈ Qk ΣkPT

k

Page 18: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog

UvodZašto redukcija podataka

Podela tehnika zaredukciju podataka

Dimenziona redukcija

Smanjenje brojnosti uzorka

Smanjenje kardinalnostirazvrstavanjem

DimenzionaredukcijaProkletstvodimenzionalnosti

Analiza glavnih komponenti

Analiza faktora

Multidimenzionalnoskaliranje

Lokalno linearnougnježdenje

Smanjenjebrojnosti uzorkaUzorkovanje podataka

Grupisanje podataka

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

7.18

Analiza faktora

• Slicno kao i PCA teži otkrivanju manjeg skupapromenljivih koje dovoljno dobro opisujuponašanje pocetnog skupa

• Ne rade se transformacije podataka vec setraže skirveni faktori u postojecim promenljivim

• Pretpostavka je da u originalnim podacimapostoje neotkriveni faktori zj , j = 1, .., k , kojiudruženi mogu linearnim transformacijama dagenerišu originalne podatke

• Cilj je odrediti zavisnosti izmedu promenljivihpomocu što je moguce manjeg broja faktora.

Page 19: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog

UvodZašto redukcija podataka

Podela tehnika zaredukciju podataka

Dimenziona redukcija

Smanjenje brojnosti uzorka

Smanjenje kardinalnostirazvrstavanjem

DimenzionaredukcijaProkletstvodimenzionalnosti

Analiza glavnih komponenti

Analiza faktora

Multidimenzionalnoskaliranje

Lokalno linearnougnježdenje

Smanjenjebrojnosti uzorkaUzorkovanje podataka

Grupisanje podataka

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

7.19

Analiza faktora (nastavak)

Za dati skup atributa a1,a2, ...,am i njihove srednje vrednostiµ1, µ2, ..., µm analiza faktora pokušava da odredi skupzajednickih faktora f1, f2, ..., fk tako da važi

a1 − µ1 = l11f1 + l12f2 + ...+ l1k fk + εa2 − µ2 = l21f1 + l22f2 + ...+ l2k fk + ε... ...am − µm = lm1f1 + lm2f2 + ...+ lmk fk + ε

gde su

• ε1, ε2, ..., εm, do sada neuoceni delovi atributa nazvanispecificni faktori

• Termi lij , i = 1, ...,m, j1, ...k predstavljaju opterecenja(eng. loadings)

Page 20: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog

UvodZašto redukcija podataka

Podela tehnika zaredukciju podataka

Dimenziona redukcija

Smanjenje brojnosti uzorka

Smanjenje kardinalnostirazvrstavanjem

DimenzionaredukcijaProkletstvodimenzionalnosti

Analiza glavnih komponenti

Analiza faktora

Multidimenzionalnoskaliranje

Lokalno linearnougnježdenje

Smanjenjebrojnosti uzorkaUzorkovanje podataka

Grupisanje podataka

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

7.20

Analiza faktora (nastavak)

• Zapis prethodnog sistema jednacina u matricnom oblikuje A− µ = LF + ε

• Ogranicenja za L i F

• Svi faktori su nezavisni sa srednjom vrednošcu ivarijansom 0

• Svi termi koji oznacavaju grešku su takodenezavisni sa sa srednjom vrednošcu 0 ikonstantnom varijansom

• Greške su nezavisne od faktora

• Više metoda za rešavanje: metodom maksimalneverovatnoce (ocekivanja, (eng.likelihood)), metodomglavnih komponenti

Page 21: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog

UvodZašto redukcija podataka

Podela tehnika zaredukciju podataka

Dimenziona redukcija

Smanjenje brojnosti uzorka

Smanjenje kardinalnostirazvrstavanjem

DimenzionaredukcijaProkletstvodimenzionalnosti

Analiza glavnih komponenti

Analiza faktora

Multidimenzionalnoskaliranje

Lokalno linearnougnježdenje

Smanjenjebrojnosti uzorkaUzorkovanje podataka

Grupisanje podataka

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

7.21

Poredenje PCA i AF

• Analiza faktora podrazumeva pastojanje skrivenestrukture u podacima

• PCA linearnim transformacijama rotira originalni skuppromenljivih. AF formira nove promenljive zapredstavljanje kovarijanse i korelacije posmatranihpromenljivih

• U FA modeli za razlicit skup promenljivih su razliciti; uPCA su slicni (pocetne promenljive suidenticne)

• PCA je brži i pravolinijski se izvršava. AF ima razlicitealternative koje se izvršavaju razlicitom brzinom i imajurazlicite zahteve za resursima

• Primer: SPSS modeler

Page 22: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog

UvodZašto redukcija podataka

Podela tehnika zaredukciju podataka

Dimenziona redukcija

Smanjenje brojnosti uzorka

Smanjenje kardinalnostirazvrstavanjem

DimenzionaredukcijaProkletstvodimenzionalnosti

Analiza glavnih komponenti

Analiza faktora

Multidimenzionalnoskaliranje

Lokalno linearnougnježdenje

Smanjenjebrojnosti uzorkaUzorkovanje podataka

Grupisanje podataka

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

7.22

Multidimenzionalno skaliranje

Osnovne pretpostavke

• Za n tacaka poznata su rastojanja dij ,∀i , j = 1, ...n

• Nisu poznate precizne koordinate tacaka

• Nije poznata dimenzionalnost tacaka

• Nije poznat nacin kako su rastojanja izracunata

Multidimenzionalno skaliranje (MDS) je metoda koja smeštaovakve tacke u prostor manje dimenzije tako da je rastojanjeizmedu slika tacaka mereno nekom od klasicnih mera zarastojanje (npr. Ekulidskim rastojanjem) što je moguce bliže dij

Detalje metode pogledati u literaturi

Page 23: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog

UvodZašto redukcija podataka

Podela tehnika zaredukciju podataka

Dimenziona redukcija

Smanjenje brojnosti uzorka

Smanjenje kardinalnostirazvrstavanjem

DimenzionaredukcijaProkletstvodimenzionalnosti

Analiza glavnih komponenti

Analiza faktora

Multidimenzionalnoskaliranje

Lokalno linearnougnježdenje

Smanjenjebrojnosti uzorkaUzorkovanje podataka

Grupisanje podataka

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

7.23

Lokalno linearno ugnježdenje

Osnovna ideja

• Globalna nelinearna struktura se posmatra kao unijakomponenti (žakrpa") koje se lokalno uklapaju ustrukturu

• Intuitivna geometrijska interpretacija: svaka površ(mnogostrukost) može da se aproksimira malimdelovima u kojima svaka tacka i njeni bliski susedi leže ilisu jako blizu površien sa linearnom strukturom

• Za dovoljan broj tacaka svaka tacka može da sepredstavi kao težinska linearna kombinacija suseda

Page 24: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog

UvodZašto redukcija podataka

Podela tehnika zaredukciju podataka

Dimenziona redukcija

Smanjenje brojnosti uzorka

Smanjenje kardinalnostirazvrstavanjem

DimenzionaredukcijaProkletstvodimenzionalnosti

Analiza glavnih komponenti

Analiza faktora

Multidimenzionalnoskaliranje

Lokalno linearnougnježdenje

Smanjenjebrojnosti uzorkaUzorkovanje podataka

Grupisanje podataka

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

7.24

Lokalno linearno ugnježdenje (nastavak)

• Neka se podaci sastoje od N realnih vektora Xi ,dimenzije D koji su izdvojeni iz nekog glatkog dela površii predstavljaju jednu zakrpu

• Lokalna geometrija zakrpe je predstavljena prekolinearnih koeficijenata koje rekonstruišu svaku tackupreko njenih suseda

• U najprostijoj varijanti, za tacku se procenjuje KNNpomocu Euklidskog rastojanja

• Greška rekonstrukcije se odreduje pomocu funkcije

ε(W ) =∑

i

|Xi −∑

j

WijXj |2

gde težine Wij predstavljaju doprinos tacke j urekonstrukciji tacke i

Page 25: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog

UvodZašto redukcija podataka

Podela tehnika zaredukciju podataka

Dimenziona redukcija

Smanjenje brojnosti uzorka

Smanjenje kardinalnostirazvrstavanjem

DimenzionaredukcijaProkletstvodimenzionalnosti

Analiza glavnih komponenti

Analiza faktora

Multidimenzionalnoskaliranje

Lokalno linearnougnježdenje

Smanjenjebrojnosti uzorkaUzorkovanje podataka

Grupisanje podataka

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

7.25

Lokalno linearno ugnježdenje (nastavak)

Za odredivanje Wij potrebno je minimizovati funkciju greške uzigranicenja

• Svaka tacka Xi se rekonstruiše iskljucivo pomocu njenihsuseda forsiranjem Wij = 0 ako Xj nije u skupu suseda

• Zbir svakog reda matrice težina je jednak 1:∑

jWij = 1

Optimalne vrednosti Wij uz prethodna ogranicenja se odreduju

rešavanjem problema najmanjih kvadrata.

Page 26: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog

UvodZašto redukcija podataka

Podela tehnika zaredukciju podataka

Dimenziona redukcija

Smanjenje brojnosti uzorka

Smanjenje kardinalnostirazvrstavanjem

DimenzionaredukcijaProkletstvodimenzionalnosti

Analiza glavnih komponenti

Analiza faktora

Multidimenzionalnoskaliranje

Lokalno linearnougnježdenje

Smanjenjebrojnosti uzorkaUzorkovanje podataka

Grupisanje podataka

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

7.26

Lokalno linearno ugnježdenje (nastavak)

• Ovako odredene težine su invarijantne u odnosu narotaciju, sklairanje i translaciju tacaka i njihovih suseda

• Ako podaci leže na glatkoj linearnoj mnogostrukostidimenzionalnosti d � D da bi aproksimacija bila dobramora da postoji linearno preslikavanje svake tacke injenih suseda u koordinate na mnogostrukosti sa vecomdimenzijom

• Prema konstrukciji Wij reflektuju geometrijske osobinepodataka koje su invarijantne na takve transformacije ikarakteristike lokalne geometrije u originalnom prostorupodataka su važece i za zakrpe u mnogostrukostima

• Iste težine Wij koje se koriste za rekonstrukciju i-te tackeu D dimenzionom prostoru mogu da se koriste i zarekonstrukciju u delovima mnogostrukosti dimenzije d

Page 27: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog

UvodZašto redukcija podataka

Podela tehnika zaredukciju podataka

Dimenziona redukcija

Smanjenje brojnosti uzorka

Smanjenje kardinalnostirazvrstavanjem

DimenzionaredukcijaProkletstvodimenzionalnosti

Analiza glavnih komponenti

Analiza faktora

Multidimenzionalnoskaliranje

Lokalno linearnougnježdenje

Smanjenjebrojnosti uzorkaUzorkovanje podataka

Grupisanje podataka

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

7.27

Lokalno linearno ugnježdenje (nastavak)

U drugoj fazi algoritma

• Svaki višedimenzioni vektor Xi se preslikava u vektormanje dimenzije Yi koji predstavlja globalnu internukoordinatu na mnogostrukosti

• Yi u d dimnzionom prostoru se odreduje minimizacijomugnježdene funkcije

Φ(Y ) =∑

i

|Yi −∑

j

WijYj |2

gde su težine Wij i izracunate u prethodnom koraku

• Minimizacija se vrši rešavanjem problema retke N × Nmatrice gde donjih d ne-nula sopstvenih vektorapredstavljaju skup ortogonalnih koordinata centriranih uodnosu na pocetne podatke

Page 28: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog

UvodZašto redukcija podataka

Podela tehnika zaredukciju podataka

Dimenziona redukcija

Smanjenje brojnosti uzorka

Smanjenje kardinalnostirazvrstavanjem

DimenzionaredukcijaProkletstvodimenzionalnosti

Analiza glavnih komponenti

Analiza faktora

Multidimenzionalnoskaliranje

Lokalno linearnougnježdenje

Smanjenjebrojnosti uzorkaUzorkovanje podataka

Grupisanje podataka

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

7.28

Smanjenje brojnosti uzorka

• Uzorkovanje se koristi radi olakšavanja analizei modeliranja velikih skupova podataka.

• U IP se koristi za

• Smanjenje broja instanci u IP algoritmima• Podrška za izdvajanje samo onih karakteristika za

koje je odgovor relativno homogen• Balansiranje podataka u slucaju retkih

podskupova• Podelu skupa na delove radi kasnije analize IP

aloritmima

Page 29: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog

UvodZašto redukcija podataka

Podela tehnika zaredukciju podataka

Dimenziona redukcija

Smanjenje brojnosti uzorka

Smanjenje kardinalnostirazvrstavanjem

DimenzionaredukcijaProkletstvodimenzionalnosti

Analiza glavnih komponenti

Analiza faktora

Multidimenzionalnoskaliranje

Lokalno linearnougnježdenje

Smanjenjebrojnosti uzorkaUzorkovanje podataka

Grupisanje podataka

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

7.29

Nacini uzimanja uzoraka

• Jednostavan slucajni uzorak (jednakaverovatnoca za izbor bilo koje slucajne stavke)

• Sa i bez vracanja (duplikata iz originalnogskupa)

• Pristrasno uzorkovanje (neki podaci su važnijiod drugih)

• Blanasirano uzorkovanje

• Stratifikovano uzorkovanje (uzorkovanje saraslojavanjem)

• Uzorkovanje na osnovu klasterovanja

Page 30: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog

UvodZašto redukcija podataka

Podela tehnika zaredukciju podataka

Dimenziona redukcija

Smanjenje brojnosti uzorka

Smanjenje kardinalnostirazvrstavanjem

DimenzionaredukcijaProkletstvodimenzionalnosti

Analiza glavnih komponenti

Analiza faktora

Multidimenzionalnoskaliranje

Lokalno linearnougnježdenje

Smanjenjebrojnosti uzorkaUzorkovanje podataka

Grupisanje podataka

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

7.30

Grupisanje podataka

1 Kondenzacija podataka (smanjivanje brojaatributa ili objekata)

2 Agregiranje podataka i primena statistickeanalize na komprimovane podatke

3 ’Stabilniji’ podaci (agregirani podaci imajutendenciju da imaju manja odstupanja)

4 Klasterovanje i uzimanje reprezentativnihpodataka za klastere

5 ...

Page 31: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog

UvodZašto redukcija podataka

Podela tehnika zaredukciju podataka

Dimenziona redukcija

Smanjenje brojnosti uzorka

Smanjenje kardinalnostirazvrstavanjem

DimenzionaredukcijaProkletstvodimenzionalnosti

Analiza glavnih komponenti

Analiza faktora

Multidimenzionalnoskaliranje

Lokalno linearnougnježdenje

Smanjenjebrojnosti uzorkaUzorkovanje podataka

Grupisanje podataka

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

7.31

Smanjenje kardinalnosti razvrstavanjem

• Razvrstavanje u kolekcije (eng. binning) jeproces konvertovanja neprekidnih promenljivihu interval

• Sve vrednosti u intervalu se posmatraju kaokategorija, uz mogucnost njihovog uredenja uželjeni redosled

• Smanjenje kardinalnosti nominalnih i rednihatributa se satoji u kombinovanju dve ili višekategorija u novu kategoriju

Page 32: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog

UvodZašto redukcija podataka

Podela tehnika zaredukciju podataka

Dimenziona redukcija

Smanjenje brojnosti uzorka

Smanjenje kardinalnostirazvrstavanjem

DimenzionaredukcijaProkletstvodimenzionalnosti

Analiza glavnih komponenti

Analiza faktora

Multidimenzionalnoskaliranje

Lokalno linearnougnježdenje

Smanjenjebrojnosti uzorkaUzorkovanje podataka

Grupisanje podataka

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije

7.32

Smanjenje kardinalnosti razvrstavanjem

Obe vrste transformacija imaju za cilj

• Smanjenje složenosti odnoca nezavisnih i mogucezavisnih atributa

• Povecanje prediktivne mocui atributa pažljivimgrupisanjem kategorija radi modeliranja zavisnosti ciljnepromenljive u klasifikacionim problemima

Cesto se razvrstavanje svrstava u diskretizaciju; usuštini to je samo jedan od oblika diskretizacije kojivrši diskretizaciju promenljivih na jednostavan nacin

Razvrstavanje u SPSS modeleru?