Download pdf - 2: p.d.f. BASED MODELS · 2 Tema 1 Introducción al tema 2 CLASSIFICATION: ω 12, ,...,ωω C Nature or Source Signal Pre-Processing C states or classes Real Channel Measures

1

2: p.d.f. BASED MODELSCLASIFICACIÓN DE PATRONES (CLP)P07Profesores: M. Cabrera, J. Vidal

ETSETB-UPCOptativa de 2º ciclo

(Some figures of this document are obtained from the reference book: “Pattern Classification” 2nd Edition by Duda, Hart and Stork, Ed. Wiley)

2

Tema 1Introducción al tema 2

CLASSIFICATION:

1 2, ,..., Cω ω ω

Nature orSource

Signal Pre-Processing

C states or classes

Real

ChannelMeasures

3


CLASSIFICATION:

d∈xSignal Pre-Processing

DecisionMachine,

FeatureExtraction

State orClass ??

îω

4


CLASSIFICATION:Vision in this course:

1 2, ,..., Cω ω ω

Nature orSource

DecisionMacine

C states or classes

Discrete

Channeld∈x State,

Class ??

îω

5


Designing the Decision Machine?

Data Base:

Vector set.Coordinates or features

If The Data Base is organized in classes, categories, symbols or types. (Supervised Learning), we are lucky.

1 2, ,..., Nx x x1 2, ,...,N N M+ +x x x

1 2, ,...,M M L+ +x x x

C1:ω1 C2:ω2

C3:ω3

6


Steps to design the classifier:Data Base

Divided into

Train andTest

Training thealgorithm ordeterminingthe function

ChooseAlgorithm

Evaluating

The

Classifier

Reducing the space dimension d: Feature Selection (IndependentAlgorithm Machine Learning)

7

Tipos de Clasificadores

• MODELOS BASADOS en f.d.p.

• (ANÁLISIS DE COMPONENTES)

• TECNICAS NO basadas en f.d.p. APRENDIZAJE SUPERVISADO

• APRENDIZAJE NO SUPERVISADO

• (APRENDIZAJE INDEPENDIENTE DEL ALGORITMO)

8

Tema 2: Models with known Probability

Density Funtion:

2.1 Bayesian Decision Theory: MAP2.2 Maximum Likelihood ML andBayesian Parameter Estimation

9

INDICE:Bayesian Decision Theory: MAP

1 INTRODUCCIÓN2 REGLA DE DECISIÓN DE BAYES (MAP)3 CLASIFICADORES DE MÍNIMO RIESGO4 FUNCIONES DISCRIMINANTES Y REGIONES DE

DECISIÓN5 f.d.p. NORMAL O GAUSSIANA6 FUNC. DISCRIMINANTES: f.d.p. NORMAL7 ROC: Característica de Operación del Receptor8 VECTOR DE CARACTERÍSTICAS DE VALORES

DISCRETOS9 CONCLUSIONES

10


1 2, ,..., Cω ω ω

Nature orSource

DecisionMacine

C states or classes

Discrete

Channeld∈x State or

class ??

îω{ }Pr iω { }Pr iω x

11

1 INTRODUCCIÓN

• Measures DimensionVector d

• Nature State (RandomVector, C classes): Salmon or Sea Bass

• A priori probabilities.• Class conditional p.d.f.• Posterior Probabilities• Evidence

1

2

LightnessLength

dxx

⎛ ⎞ ⎛ ⎞= = ∈⎜ ⎟ ⎜ ⎟

⎝ ⎠⎝ ⎠x

1 22 ;C ω ω= ⇒

{ } { }1 2Pr ;Prω ω { }1

Pr 1C

ii

ω=

=∑

( ) ( )1 2;f fω ωx xx x

( ) ( ) ( )( )

PrPr

j jj

f

f

ω ωω =

x

x

xx

x

( ) ( ) { }11

PrC

ji

f f ω ω=

=∑x xx x

12

1 INTRODUCCIÓN

( ) ( ) ( )( )

PrPr

j jj

f

f

ω ωω =

x

x

xx

x

.LIKELIHOOD PRIORPOSTERIOREVIDENCE

=

{ }1

Pr 1C

ii

ω=

=∑ x

13

1 INTRODUCCIÓN• PRIOR: Conocimiento a priori del estado, en

ocasiones denominado Prejuicio.• POSTERIOR: Probabilidad de que el estado

de la naturaleza sea uno determinado cuando ya se han recibido los datos.

• LIKELIHOOD: Agrupa características que son comunes a todos los datos de una categoría determinada. Representa el modelo que el diseñador tiene sobre el comportamiento de la naturaleza.

• EVIDENCE: Factor de escala, no influye en las decisiones.

14

2 REGLA DE DECISIÓN DE BAYES (MAP)

Two Category Case• Decision Rule: Vector Data x.

( ) ( )1

2

1 2Pr Prω

ω

ω ω><

x x

1Z 2Z

15


• Probabilidad de error condicionada a x.

• Probabilidad de error promedio.

( )( )

1 1 2

2 2 1

ˆ PrPr( )

ˆ Pre

ZP error

Z

ω ω ω

ω ω ω

⎧ ∈ =⎪= = ⎨∈ =⎪⎩

x xx

x x

( )( ) ( )

1 22 1

Pr( )

Pr( ) Pr( )

Pr( ) Pr( )

e

Z Z

error P

E error error f d

f d f dω ω

= =

⎡ ⎤ = =⎣ ⎦

+

∫∫ ∫

x

x x

x x x x

x x x x x x

16


MAP

Mínima Probabilidad de error.

( ) ( )1

2

1 2Pr Prω

ω

ω ω><

x x

( ) ( ) ( ) ( )1

2

1 1 2 2Pr Prf fω

ω

ω ω ω ω><x xx x

17


• If for some x, … particular observation give us no information about the state of nature

• If ……………. the decision is based entirely on the likelihoods.

( ) ( ) ( ) ( )0 1 0 2 0Pr Pr Pr Pri iω ω ω ω= ⇒ =x x x

( ) ( )1

2

1 2 1 2Pr( ) Pr( ); Pr Prω

ω

ω ω ω ω>

= ⇒<

x x

18


• General Case (Continuous Features):• C Classes

( ){ } ( ) ( ){ }ˆ max Pr max Pri ii i i ifω ωω ω ω ω= = xx x

19

2.2 REGLA DE DECISIÓN DE BAYES (MAP)

• Caso General:• El criterio MAP es equivalente a minimizar la

Probabilidad de error en el clasificador:• Demostración:

{ } { } { }1

Pr Pr 1 PrC

i j ijj i

e Z ω ω=≠

∈ = = −∑x x x

20


{ } { } ( ) { } ( )

{ }( ) ( )

( ) { } ( )

( ) { } ( )

{ } ( )

1

1

1 1

1

1

Pr Pr Pr

1 Pr

Pr

Pr

1 Pr

di

i

i i

di

i

C

iR Zi

C

iZi

C C

iZ Zi i

C

iR Zi

C

iZi

e e f d e Z f d

f d

f d f d

f d f d

f d

ω

ω

ω

ω

=

=

= =

=

=

= = ∈ =

− =

− =

− =

−

∑∫ ∫

∑∫

∑ ∑∫ ∫

∑∫ ∫

∑∫

x x

x

x x

x x

x

x x x x x x

x x x

x x x x x

x x x x x

x x x

21


1 21

...C

dC i

i

i j

R Z Z Z Z

Z Z=

= =

= ∅

∪ ∪

∩

∪

{ }1 1max : Pr Zω ⇒x

22


• Permitir o Realizar acciones distintas a la toma de decisiones

• Se define una función de coste en función de estas acciones.

1,..., aα α

23


Ejemplos• Bases de datos biomédicas ¿Penalizo por

igual los errores 1) sano/enfermo 2) enfermo/sano?

• SPAM• OCR ¿Penalizo por igual error en

consonante que error en vocal?• RADAR

24

3 CLASIFICADORES DE MÍNIMO RIESGO

• Pérdida que genera la decisión i cuando el estado verdadero es j

• Pérdida asociada a la acción i, Riesgo condicional

• Riesgo Total• Mínimo Riesgo,

equivale a elegir

( )i jλ α ω

( ) ( ) ( )1

PrC

i i j jj

R α λ α ω ω=

=∑x x

( ) ( )1

a

ii

R R f dα=

=∑∫ Xx x x

( )( )mini iRα α⇒ x

25


• C = 2 categorías:

• Riesgo Condicional

• Regla de Decisión:

( )1 1

2 2

: decidir : decidir ij i j

α ωλ λ α ω

α ω⎞⇒ =⎟

⎠

( ) ( ) ( )( ) ( ) ( )

1 11 1 12 2

2 21 1 22 2

Pr Pr

Pr Pr

R

R

α λ ω λ ω

α λ ω λ ω

= +

= +

x x x

x x x

( ) ( )2

1

1 2R Rα

α

α α><

x x

26


• LIKELIHOOD Ratio

Umbral o Thresholdindependiente de x

( )( )

( )( )

1

2

1 212 22

21 11 12

PrPr

ff

α

α

ω ωλ λ γλ λ ωω

> ⎛ ⎞−=⎜ ⎟< −⎝ ⎠

x

x

xx

27

2.3 CLASIFICADORES DE MÍNIMO RIESGO

• LIKELIHOOD Ratio• Mínima Pr(error):

MAP

( )( )

( )( )

1

2

1 2

12

PrPr

ff

α

α

ω ωγ

ωω>

=<

x

x

xx

01ij

i ji j

λ=⎧

= ⎨ ≠⎩

28

2.3 CLASIFICADORES DE MÍNIMO RIESGO

• Mínimo Riesgo = Mínima Probabilidad de error

01ij

i ji j

λ=⎧

= ⎨ ≠⎩

( ) ( ) ( )

( ) ( )1

1,

Pr

Pr 1 Pr

C

i i j jj

C

j ij i

R α λ α ω ω

ω ω

=

= ≠

=

= = −

∑

∑

x x

x x

29


Otros Criterios: • MINIMAX:

– Tiene sentido cuando no se conocen las probabilidades a priori.

– Minimiza el Máximo Riesgo, eligiendo las regiones de decisión para que la función de riesgo no dependa de las probabilidades a priori.

– Ejemplo para C=2 Categorías

30


• MINIMAX: Ejemplo para C=2 Categorías

( ) ( )( )( ) ( )( )( ) ( )

( ) ( ) ( )( )

1

2

1 2

1

2 1

11 1 1 12 2 2

21 1 1 22 2 2

1 2

1 1

22 12 22 2

1 11 22 21 11 1 22 12 2

Pr ( ) Pr ( )

Pr ( ) Pr ( )

Pr Pr 1

( ) ( ) 1

( ) ( )

Pr ( ) ( )

Z

Z

Z Z

Z

Z Z

R f f d

f f d

f d f d

f d

f d f d

λ ω ω λ ω ω

λ ω ω λ ω ω

ω ω

ω ω

λ λ λ ω

ω λ λ λ λ ω λ λ ω

= + +

+ =

⎧ + = ⎫⎪ ⎪⎨ ⎬+ =⎪ ⎪⎩ ⎭

+ − +

− + − + −

∫∫

∫ ∫∫

∫ ∫

x x

x x

x x

x

x x

x x x

x x x

x x x x

x x

x x x x

( )1 1 2 1 2 1 2( , ) Pr ( , )R K Z Z K Z Zω= +

31



1minimax 22 12 22 2( ) ( )

ZR f dλ λ λ ω= + − ∫ x x x

( )1 1 2 1 2 1 2 1 1 2

2 1 2

( , ) Pr ( , ) ( , )( , ) 0

R K Z Z K Z Z K Z ZK Z Z

ω= + =

=

32


• MINIMAX: Ejemplo para C=2 Categorías y mínima probabilidad de error

( ) ( )2 1

11 22 21 11 1 22 12 2( ) ( ) 0Z Z

f d f dλ λ λ λ ω λ λ ω− + − + − =∫ ∫x xx x x x

2 11 2( ) ( ) 0

Z Zf d f dω ω− =∫ ∫x xx x x x

01ij

i ji j

λ=⎧

= ⎨ ≠⎩

33



( )1 1 2 1 2 1 2( , ) Pr ( , )R K Z Z K Z Zω= +

34


Otros Criterios: • NEYMAN PEARSON:

– Se minimiza el riesgo total sujeto a alguna restricción.

( ) cteiR dα <∫ x x

35

2.4 FUNCIONES DISCRIMINANTES Y REGIONES DE DECISIÓN

• Caso de múltiples categorías C:

36

4 FUNCIONES DISCRIMINANTES Y REGIONES DE DECISIÓN

• Definición de Función Discriminante (gi): – El clasificador asigna una clase ωi a un vector

de características x.– Criterio de clasificación.

( ) ( ) i jg g j i> ∀ ≠x x

37


• Casos Particulares: – MAP (Equivalente a mínima probabilidad de

error)

– Mínimo Riesgo.

( )( ) Pri ig ω=x x

( )( )i ig R α= −x x

38


• Casos Particulares: MAP – Un mismo criterio puede realizarse mediante

diferentes funciones discriminantes:


( ) ( )( )( ) ln ( ) ln Pri i ih f ω ω= +xx x

( )( ) ln ( )h g=x xLn (logneperiano)esuna función convexa

39


• Casos C=2 Categorías: DICOTOMIZADOR

• Ejemplos – Comunicaciones Binarias BPSK, 2FSK – Detección de Enfermedades SI/NO

1

2

1 2( ) ( ) ( ) 0g g gα

α

>≡ −

<x x x

40


• Casos C=2 Categorías: DICOTOMIZADOR

41

5 f.d.p. NORMAL O GAUSSIANA

• UNIVARIABLE

( ){ }2

221 1

22( ) exp x

xf x μ

σπσ

−= −

[ ] ( )22; x xμ σ μ⎡ ⎤= = −⎣ ⎦E E

42

5 f.d.p. NORMAL O GAUSSIANA

• MULTIVARIABLE– Momentos estadísticos

– La matriz de covarianza es definida positiva (Autovalores reales y positivos)

– f.d.p. del vector x:

[ ] ( )( ); ; d d dxdx x x xμ μ⎡ ⎤∈ = ∈ = − − ∈⎣ ⎦

Tx μ E x Σ E x x

( ) ( ) ( ){ }1/ 2/ 211 1

22( ) expd

xx x xf

πμ μ−= − − −T

x Σx x Σ x

: ( , )x xNx μ Σ

43

5 f.d.p. NORMAL O GAUSIANA

• MULTIVARIABLE– Las transformaciones lineales de v.a.gausianas

presentan distribución normal

; dxk k∈ ∈TA y = A x

[ ] [ ]⎡ ⎤= = = =⎣ ⎦T T T

y xμ E y E A x A E x A μ

( )( )

( )( ) ( )( ) x

⎡ ⎤= − − =⎢ ⎥⎣ ⎦⎡ ⎤ ⎡ ⎤− − = − − =⎢ ⎥ ⎣ ⎦⎣ ⎦

T

y y y

T TT T T T T Tx x x x

Σ E y μ y μ

E A x A μ A x A μ E A x μ x μ A A Σ A

44


• MULTIVARIABLE– Blanqueo a partir de la

diagonalización de la matriz de covarianza:

– Matriz de Autovectores, ortonormales entre sí

– Valores Propios– Transformación:

x= = TΣ Σ UΛU

( )1 2, ,.., ; d= TU v v v UU = I

1 2( , ,..., )ddiag λ λ λ=Λ

i i iλ=Σv v

1/ 2 1/ 21 2; (1/ ,1/ ,...,1/ )ddiag λ λ λ− −= =A UΛ Λ

45


• MULTIVARIABLE– Media:

– Matriz de Covarianza:

1/ 2−= =T Ty x xμ A μ Λ U μ

1/ 2 1/ 2

1/ 2 1/ 2

x− −

− −

= =

= =

T T TyΣ A Σ A Λ U UΛU UΛ

Λ ΛΛ I

= =T Ty x xμ A μ U μ

x= = =T T TyΣ A Σ A U UΛU U Λ

46


• MULTIVARIABLE– f.d.p

( )( ) ( ){ }

( ) ( ) ( ){ }1/ 2/ 2

/ 2

11 122

1 122

1

( ) exp

exp ( )

: ( ,1)

d

d i

d

y ii

i i

f

f y

y N

π

π

μ μ

μ μ

μ

−

=

= − − − =

− − − =∏

y

T

y y y yΣ

T

y y

y y Σ y

y y

: ( , )i i iy N μ λ

47


• MULTIVARIABLE– Las muestras de una población normal se agrupan en

clusters alrededor de la media μ– Los ejes principales de los hiper-elipsoides son los

autovectores de la matriz de covarianza.– La distancia cuadrática de Mahalanobis constituye el

término del exponente de la f.d.p., ayuda a evaluar i/o interpretar los clusters

– Blanqueo convierte hiper-elipsoides en hiper-esferas– Si A=U los clusters mantienen la forma de elipsoides con

semi-ejes paralelos a los ejes de coordenadas.

( ) ( )2 1Md μ μ−= − −Tx Σ x

48


• CLUSTERS:

0 5 0 0.5 1-1

0

1

2-3

-2

-1

0

1

2

3

49

6 FUNC. DISCRIMINANTES: f.d.p. NORMAL

• f.d.p. Condicionada:• Probabilidad a Priori• Función discriminante

MAP

( ) ( )( )( ) ( ) ( ) ( ) ( )( )11 1

2 2 2

( ) ln ( ) ln Pr

ln 2 ln ln Pr

i i i

di i i i i

g f ω ω

π ω−

= + =

− − − − − +

x

T

x x

x μ Σ x μ Σ

( )( ) : ,i i if Nωx x μ Σ

( )Pr iω

50


• 3 Casos respecto a la Matriz de covarianza

– Caso 1

– Caso 2

– Caso 3

2

Arbitrario

i

i

i

σ=

=

Σ I

Σ Σ

Σ

51

6 F. DISCRIMINANTES: f.d.p. NORMAL

Caso 1• La función discriminante:

– depende de la distancia euclídea

– Es LINEAL con el vector de datos recibido:

– Las Fronteras de decisión son HIPERplanos:

2i σ=Σ I

( ) ( ) ( )( )21

2( ) ln Pri i i ig

σω= − − − +Tx x μ x μ

( )( )2 21 1

02( ) ln Pri i i i i i ih w

σ σω= + − + = +T T Tx μ x μ μ w x

( )0( ) ( ) 0i jh h= ⇒ − =Tx x w x x

52


Caso 1• Las Fronteras de decisión son HIPERplanos:

2i σ=Σ I

( )0( ) ( ) 0i jh h= ⇒ − =Tx x w x x

( ) ( )( )( ) ( )2

2

Pr10 2 Pr

;

ln i

ji j

i j

i j i jωσω−

= −

= + − −μ μ

w μ μ

X μ μ μ μ

53


• Caso 1 2i σ=Σ I

54


• Caso 1 2i σ=Σ I

55


• Caso 1– Categorías equiprobables:– Clasificador de Mínima Distancia Euclídea

2i σ=Σ I

( ) 1Pr i Cω =

56


Caso 2• La función discriminante:

– Es LINEAL con el vector de datos recibido:

– Las Fronteras de decisión son HIPERplanos:

i =Σ Σ

( ) ( ) ( )( )112( ) ln Pri i i ig ω−= − − − +Tx x μ Σ x μ

( )0( ) ( ) 0i jh h= ⇒ − =Tx x w x x

( ) ( )( )1 1102( ) ln Pri i i i i i ih wω− −= − + = +

T T Tx Σ μ x μ Σ μ w x

57


Caso 2• Las Fronteras de decisión son HIPERplanos:

i =Σ Σ

( )0( ) ( ) 0i jh h= ⇒ − =Tx x w x x

( )( ) ( )( ) ( )( )

( ) ( ) ( )1

1

ln Pr ln Pr10 2

;

i j

i j i j

i j

i j i jω ω

−

−

−

− −

= −

= + − −Tμ μ Σ μ μ

w Σ μ μ

X μ μ μ μ

58


Caso 2

59


Caso 3

• Las superficies que separan 2 zonas son hiperquadráticas:– Hiperplanos– Hiperesferas– Hiperelipsoides– Hiperparaboloides– hiperhiperboloides

arbitrarioiΣ

( ) ( )( )1 1 11 1 12 2 2

( )

ln ln Pri

i i i i i i i i

g

ω− − −

=

− + − − +T T T

x

x Σ x μ Σ x μ Σ μ Σ

60

6 F. DISCRIMINANTES: f.d.p. NORMALCaso 3• Cálculo de las superficies que separan 2

zonas

arbitrarioiΣ

( ) ( )( )( ) ( )( )

( ) ( )( )( )

1 1 11 1 12 2 2

1 1 11 1 12 2 2

1 1 1 11 12 2

1 11 1 12 2 2

( ) ( )

ln ln Pr

ln ln Pr 0

Prln ln 0

Pr

i j

i i i i i i i i

j j j j j j j j

j i i i j j

i ii i i j j j

j j

g g

ω

ω

ωω

− − −

− − −

− − − −

− −

= ⇒

− + − − +

+ − + + − =

⇒

− + −

⎛ ⎞⎛ ⎞⎜ ⎟⎜ ⎟− + − + =

⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠

T T T

T T T

T T T

T T

x x



x Σ Σ x μ Σ μ Σ x

Σμ Σ μ μ Σ μ

Σ

( ) ( ) ( ) 0i jh g g e⇒ = − = + + =T Tx x x x Ax v x

61

7 ROC: Característica de Operación del Receptor

• Caso Binario y escalar (d=1,C=2)• El clasificador utiliza un umbral γ• Los experimentadores no conocen el umbral γ,

ni los parámetros de la distribución, pero tienen acceso a medir las 4 probabilidades.– Hit– Falsa Alarma– Pérdida– Rechazo Correcto

• Medida de Discriminabilidad

( )( )

21 1

22 2

: ,

: ,

x N

x N

ω μ σ

ω μ σ

( )( )( )( )

2

1

2

1

Pr

Pr

Pr

Pr

x x

x x

x x

x x

γ ω

γ ω

γ ω

γ ω

> ∈

> ∈

< ∈

< ∈

2 1'd μ μσ−=

62


• La ROC es la representación de la probabilidad de acierto (Hit) respecto a la probabilidad de falsa alarma y en general depende de la discriminabilidad.

yμ2μ1

1σγ

2σ

63


• Caso Gaussiano:

( ) ( )( ) ( ) ( )2 1

2 12 1Pr 1 ; PrHit P Q FA PQμ γ γ μσ σ− −= − =

1 2μ μ γ< <( ) ( ) ( ) ( )2 1

2 12 1Pr ; PrHit P Q FA PQγ μ γ μσ σ− −= =

1

1 2

2

0

0

μ

μ γ μ

μ

<

< <

<

( ) ( )( ) ( ) ( )( )2 22 12 22 2

2 12 1

1 12 12 22 2

Pr exp ; Pr expy yHit P dy FA P dyμ μ

σ σπσ πσγ γ

+∞ +∞− −= − = −∫ ∫

1 2γ μ μ< < ( ) ( )( ) ( ) ( )( )2 1

2 12 1Pr 1 ; Pr 1Hit P Q FA P Qμ γ μ γσ σ− −= − = −

64


• Para el caso multidimiensional para un valor dado de Probabilidad de Hit existen diferentes posibles valores de la Probabilidad de Falsa Alarma.

• Propuesta sencilla de medida de discriminabilidad.

– Distancia de Mahalanobis entre

( ) ( )( )

( )( ), ji d d

i jd di j d

D c c σ σ= −

μμ

( ),M i jd μ μ

65

8 VECTOR DE CARACTERÍSTICAS DE VALORES DISCRETOS

• Las componentes del vector x, son de valores binarios o enteros

• Caso binario de C=dos categorías y dimensión d

• Componentes estadísticamente independientes entre sí.

1

:

d

x

x

⎛ ⎞⎜ ⎟= ⎜ ⎟⎜ ⎟⎝ ⎠

x

( ) ( )( ) ( )

1 1

2 2

Pr 1 1 Pr 0

Pr 1 1 Pr 0i i i

i i i

p x x

q x x

ω ω

ω ω

= = = − =

= = = − =

( ) ( ) ( )

( ) ( ) ( )

11

1

12

1

Pr 1

Pr 1

i i

i i

dx x

i iid

x xi i

i

p p

q q

ω

ω

−

=

−

=

= −

= −

∏

∏

x

x

66


• Likelihood ratio

• Función discriminante LINEAL con xi

( )( ) ( ) ( )11 1

112

PrPr

i ii i

i i

d x xp pq q

i

ωω

−−−

=

=∏xx

( ) ( ) ( )( ) ( )( )

1 11

1 2

Pr( ) ln 1 ln ln

Pri i

i i

dp p

i iq qi

g x xωω

−−

=

= + − +∑x

1

2

1 2( ) ln(Pr( )) ln(Pr( )) 0g x x xω

ω

ω ω>

≡ −<

67


• Dado que la función discriminante para el caso de C=2 categorías y d dimensiones estadísticamente independientes resulta lineal, determine el valor del vector y del escalar que determinan dicha función:

( )g w= +Tx w x

68

9 CONCLUSIONES

• Interesan funciones de discriminación lineales

• Podemos encontrarnos con vectores de características híbridas en cuanto a valores continuos/valores discretos

69

• Se maximiza una función Discriminante:

– MAP (Equivalente a mínima probabilidad de error)

– Mínimo Riesgo.


( )( )i ig R α= −x x

9 CONCLUSIONES

{ }ˆ max ( ) ; 1..i i ig i Cω = =x

70

9 CONCLUSIONES

• Interesan funciones lineales con los datos:– C Categorías:

– Regiones de decisión son hiperplanos(dimensión: d-1).

0( )i i ih w= +Tx w x

( )0( ) ( ) 0i jh h= ⇒ − =Tx x w x x