48
Pr Pr íznaky íznaky Znižovanie dimenzie: • viac príznakov => viac informácie, vyššia presnosť • viac príznakov => zložitejšia extrakcia • viac príznakov => zložitejší tréning klasifikátora The curse of dimensionality Riešenie: zníženie počtu príznakov

Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning

Embed Size (px)

Citation preview

Page 1: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning

PrPríznakyíznaky

Znižovanie dimenzie: • viac príznakov => viac informácie, vyššia presnosť

• viac príznakov => zložitejšia extrakcia

• viac príznakov => zložitejší tréning klasifikátora

The curse of dimensionality

Riešenie: zníženie počtu príznakov

Page 2: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning
Page 3: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning

Výber príznakov: vyberieme podmnožinu

Redukcia príznakov: transformujeme pôvodnú množinu do menej-dimenzionálnej

Page 4: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning

Zoradenie príznakov podľa vhodnosti

- ohodnotenie jednotlivých príznakov

identifikácia relevantných príznakov, nevyhodnocuje sa nadbytočnosť príznakov

Hľadanie vhodnej podmnožiny

- ohodnotenie podmnožín príznakov

identifikácia minimálnej podmnožiny príznakov, implicitne sa vyhodnocuje nadbytočnosť príznakov

2d podmnožín d príznakov

Typy algoritmov

Page 5: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning

�Filter Separating feature selection from classifier learningRelying on general characteristics of data (information, distance, dependence, consistency)No bias toward any learning algorithm, fast

Výber príznakov

Page 6: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning

Zoradenie príznakov podľa vhodnosti

ohodnotenie jednotlivých príznakovvýber najlepšíchVýhody

EfektívnosťĽahká implementácia

Nevýhodyťažko určiť vhodný prahneuvažuje sa vzťah medzi príznakmi

Page 7: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning

Výber vhodných príznakov

Forward1: N príznakov s najvyšším skóre

Forward2:

1. vyber príznak s najvyšším skóre

2. – prerátaj skóre zvyšných príznakov

– opakuj, kým nevyberieš N príznakov

Page 8: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning

Výber príznakov

Backward1: Z množiny príznakov odstráň N príznakov s najnižším skóre

Backward2:

1. Z množiny príznakov odstráň príznak s najnižším skóre

2. – prerátaj skóre zvyšných príznakov

– opakuj, kým neodstrániš N príznakov

Page 9: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning

Hodnotiace miery

Miery vhodnosti príznakov

Filter: -Konzistencia-Medzitriedna vzdialenosť-Štatistická závislosť-Informačno-teoretické miery

Wrapper: Prediktívna schopnosť množiny trénovacích príznakov (kvalita rozpoznávania pre testovacie dáta)

krížová validácia

Page 10: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning

Konzistencia Konzistencia Podmnožina príznakov musí separovať triedy tak

konzistentne ako celá množina

Nekonzistencia, ak objekty s rovnakými príznakmi patria rôznym triedam

Page 11: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning

Štatistická závislosťŠtatistická závislosť

Korelačný keoficient

Závislosť → štatistická nadbytočnosť zdrojových dát

Nekorelovanosť ≠ nezávislosť

Iba ak X a Y majú normálne rozdelenie

Page 12: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning
Page 13: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning
Page 14: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning

-p*log(p)-(1-p)*log(1-p)

IInformanformačnočno-teoretic-teoretickéké mierymiery

Page 15: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning

Entropia Entropia

H(X) = 1.5

H(Y) = 1

X = College Major

Y = Likes “XBOX”

XX YY

MathMath YesYes

HistoryHistory NoNo

CSCS YesYes

MathMath NoNo

MathMath NoNo

CSCS YesYes

HistoryHistory NoNo

MathMath YesYes

log2

Page 16: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning

Špecifická podmienená entropia Špecifická podmienená entropia

X = College Major

Y = Likes “XBOX”

XX YY

MathMath YesYes

HistoryHistory NoNo

CSCS YesYes

MathMath NoNo

MathMath NoNo

CSCS YesYes

HistoryHistory NoNo

MathMath YesYes

H(Y |X=v) = entropia len týchY , X =v

H(Y|X=Math) = 1

H(Y|X=History) = 0

H(Y|X=CS) = 0

Page 17: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning

Podmienená entropia Podmienená entropia

X = College Major

Y = Likes “XBOX”

XX YY

MathMath YesYes

HistoryHistory NoNo

CSCS YesYes

MathMath NoNo

MathMath NoNo

CSCS YesYes

HistoryHistory NoNo

MathMath YesYes

H(Y|X) = priemerná špecifická podmienená entropia Y

= Σj P(X=vj) H(Y | X = vj)

vvjj Prob(X=vProb(X=vjj)) H(YH(Y | | X = vX = vjj))

MathMath 0.50.5 11

HistoryHistory 0.250.25 00

CSCS 0.250.25 00

H(Y|X) = .5

Page 18: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning
Page 19: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning

Vzájomná informácia Vzájomná informácia

H(Y) = 1H(Y|X) = 0.5I(Y|X) = 0.5

X = College Major

Y = Likes “XBOX”

XX YY

MathMath YesYes

HistoryHistory NoNo

CSCS YesYes

MathMath NoNo

MathMath NoNo

CSCS YesYes

HistoryHistory NoNo

MathMath YesYes

Ako sa znížia nároky (počet bitov) na prenos informácie Y, ak odosielateľ aj prijímateľ poznajú X?

I(Y|X) = H(Y) - H(Y |X)

Page 20: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning
Page 21: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning

WrapperRelying on a predetermined classification algorithmUsing predictive accuracy as goodness measureHigh accuracy, computationally expensive

Výber príznakov

Page 22: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning

Wrapper

Learning algorithm is a black boxcomputes objective function OF(s)Účelová funkcia

Exhaustive search 2d possible subsets

Greedy search is common and effectiveGenetic algorithms…

Page 23: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning

Hľadanie optimálnej podmnožiny

Backward elimination tends to find better modelstoo expensive to fit the large sets at the beginning of

search

Both can be too greedy.

Backward elimination

Initialize s={1,2,…,n}Do:

remove feature from swhich improves OF(s) most

While OF(s) can be improved

Forward selection

Initialize s={}Do:

Add feature to swhich improves OF(s) most

While OF(s) can be improved

Page 24: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning

Ohodnotenie podmnožiny

We’re not ultimately interested in training error; we’re interested in test error (error on new data).

We can estimate test error by pretending we haven’t seen some of our data.

Keep some data aside as a validation set. If we don’t use it in training, then it’s a fair test of our model.

Page 25: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning

K-fold cross validation

Rozdeľ dáta na K skupínKaždú skupinu použi na validáciuZisti priemernú chybu

X1

LearnX2

X3X4

X5

X6

X7

test

Page 26: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning

X1

LearnX2

X3X4

X5

X6

X7

test

K-fold cross validation

Rozdeľ dáta na K skupínKaždú skupinu použi na validáciuZisti priemernú chybu

Page 27: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning

X1

…Learn

X2

X3X4

X5

X6

X7

test

K-fold cross validation

Rozdeľ dáta na K skupínKaždú skupinu použi na validáciuZisti priemernú chybu

Page 28: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning

X1

LearnX2

X3X4

X5

X6

X7

K-fold cross validation

Rozdeľ dáta na K skupínKaždú skupinu použi na validáciuZisti priemernú chybu

OF

Page 29: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning

Feature Reduction AlgorithmsFeature Reduction Algorithms

Unsupervised (minimize the information loss)Latent Semantic Indexing (LSI): truncated SVDIndependent Component Analysis (ICA)Principal Component Analysis (PCA)Manifold learning algorithms (a manifold is a topological space which is locally Euclidean) - Nonlinear

Supervised (maximize the class discrimination)Linear Discriminant Analysis (LDA)Canonical Correlation Analysis (CCA)Partial Least Squares (PLS)

Page 30: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning

Principal Component Analysis (PCA)

Karhunen-Loeve or K-L method

PCA finds the best “subspace” that captures as much data variance as possibleBased on eigen-decomposition of data covariance matrixVery simple! Data can be represented as linear combination of features

Page 31: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning

PCAPCA

otočí súradnicovú sústavu tak, aby prvá os otočí súradnicovú sústavu tak, aby prvá os bola v smere najväčšej variability a ďalšie bola v smere najväčšej variability a ďalšie boli na ňu kolmé v smeroch najväčšej boli na ňu kolmé v smeroch najväčšej zvyšnej variability.zvyšnej variability.

nová ortonormálna báza

Page 32: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning

Very Nice When Initial Dimension Not Too Big

What if very large dimensional data?

Images e.g., (d ~104)

Problem:

Covariance matrix Σ is size (d x d)

d=104 | Σ | = 108

Singular Value Decomposition (SVD) to the rescue!

Page 33: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning

SVDSVD

Singulárne číslo a singulárne vektory matice

pre reálne matice

Page 34: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning

Vzťah medzi PCA a SVDVzťah medzi PCA a SVD

použitie SVD namiesto PCA

Page 35: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning

ICA (Independent Components Analysis)

Relaxes the constraint of orthogonality but keeps the linearity. Thus, could be more flexible than PCA in finding patterns.

Page 36: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning

PCA is not always an optimal dimensionality-reduction procedure for classification purposes.

PCA is based on the sample covariance which characterizes the scatter of the entire data set, irrespective of class-membership.

The projection axes chosen by PCA might not provide good discrimination power.

Page 37: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning

Linear Discriminant Analysis Linear Discriminant Analysis (LDA)(LDA)

What is the goal of LDA?Perform dimensionality reduction “while preserving as

much of the class discriminatory information as possible”.

Seeks to find directions along which the classes are best separated.

Takes into consideration the scatter within-classes but also the scatter between-classes.

Page 38: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning

Fisherova lineárna disriminačná Fisherova lineárna disriminačná analýzaanalýza

riadená metódariadená metódavyužíva informáciu o klasifikačných triedachvyužíva informáciu o klasifikačných triedach

Page 39: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning
Page 40: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning

Variability premietnutých príznakov

Page 41: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning
Page 42: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning
Page 43: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning

PCA is first applied to the data set to reduce its dimensionality.

LDA is then applied to find the most discriminative directions:

Page 44: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning

Case Study: PCA versus LDAA. Martinez, A. Kak, "PCA versus LDA", IEEE Transactions on Pattern

Analysis and Machine Intelligence, vol. 23, no. 2, pp. 228-233, 2001.

Is LDA always better than PCA?There has been a tendency in the computer vision community to prefer LDA

over PCA.

This is mainly because LDA deals directly with discrimination between classes while PCA does not pay attention to the underlying class structure.

Main results of this study:

(1) When the training set is small, PCA can outperform LDA.

(2) When the number of samples is large and representative for each class, LDA outperforms PCA.

Page 45: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning

LDA is a parametric method since it assumes unimodal Gaussian likelihoods

If the distributions are significantly non-Gaussian, the LDA projections will not be able to preserve any complex structure of the data, which may be needed for classification

LDA will fail when the discriminatory information is not in the mean but rather in the variance

Nevýhody LDA?

Page 46: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning
Page 47: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning
Page 48: Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning

Deficiencies of Linear Methods

Data may not be best summarized by linear combination of features