1
2: p.d.f. BASED MODELSCLASIFICACIÓN DE PATRONES (CLP)P07Profesores: M. Cabrera, J. Vidal
ETSETB-UPCOptativa de 2º ciclo
(Some figures of this document are obtained from the reference book: “Pattern Classification” 2nd Edition by Duda, Hart and Stork, Ed. Wiley)
2
Tema 1Introducción al tema 2
CLASSIFICATION:
1 2, ,..., Cω ω ω
Nature orSource
Signal Pre-Processing
C states or classes
Real
ChannelMeasures
3
Tema 1Introducción al tema 2
CLASSIFICATION:
d∈xSignal Pre-Processing
DecisionMachine,
FeatureExtraction
State orClass ??
ˆiω
4
Tema 1Introducción al tema 2
CLASSIFICATION:Vision in this course:
1 2, ,..., Cω ω ω
Nature orSource
DecisionMacine
C states or classes
Discrete
Channeld∈x State,
Class ??
ˆiω
5
Tema 1Introducción al tema 2
Designing the Decision Machine?
Data Base:
Vector set.Coordinates or features
If The Data Base is organized in classes, categories, symbols or types. (Supervised Learning), we are lucky.
1 2, ,..., Nx x x1 2, ,...,N N M+ +x x x
1 2, ,...,M M L+ +x x x
C1:ω1 C2:ω2
C3:ω3
6
Tema 1Introducción al tema 2
Steps to design the classifier:Data Base
Divided into
Train andTest
Training thealgorithm ordeterminingthe function
ChooseAlgorithm
Evaluating
The
Classifier
Reducing the space dimension d: Feature Selection (IndependentAlgorithm Machine Learning)
7
Tipos de Clasificadores
• MODELOS BASADOS en f.d.p.
• (ANÁLISIS DE COMPONENTES)
• TECNICAS NO basadas en f.d.p. APRENDIZAJE SUPERVISADO
• APRENDIZAJE NO SUPERVISADO
• (APRENDIZAJE INDEPENDIENTE DEL ALGORITMO)
8
Tema 2: Models with known Probability
Density Funtion:
2.1 Bayesian Decision Theory: MAP2.2 Maximum Likelihood ML andBayesian Parameter Estimation
9
INDICE:Bayesian Decision Theory: MAP
1 INTRODUCCIÓN2 REGLA DE DECISIÓN DE BAYES (MAP)3 CLASIFICADORES DE MÍNIMO RIESGO4 FUNCIONES DISCRIMINANTES Y REGIONES DE
DECISIÓN5 f.d.p. NORMAL O GAUSSIANA6 FUNC. DISCRIMINANTES: f.d.p. NORMAL7 ROC: Característica de Operación del Receptor8 VECTOR DE CARACTERÍSTICAS DE VALORES
DISCRETOS9 CONCLUSIONES
10
Tema 1Introducción al tema 2
1 2, ,..., Cω ω ω
Nature orSource
DecisionMacine
C states or classes
Discrete
Channeld∈x State or
class ??
ˆiω{ }Pr iω { }Pr iω x
11
1 INTRODUCCIÓN
• Measures DimensionVector d
• Nature State (RandomVector, C classes): Salmon or Sea Bass
• A priori probabilities.• Class conditional p.d.f.• Posterior Probabilities• Evidence
1
2
LightnessLength
dxx
⎛ ⎞ ⎛ ⎞= = ∈⎜ ⎟ ⎜ ⎟
⎝ ⎠⎝ ⎠x
1 22 ;C ω ω= ⇒
{ } { }1 2Pr ;Prω ω { }1
Pr 1C
ii
ω=
=∑
( ) ( )1 2;f fω ωx xx x
( ) ( ) ( )( )
PrPr
j jj
f
f
ω ωω =
x
x
xx
x
( ) ( ) { }11
PrC
ji
f f ω ω=
=∑x xx x
12
1 INTRODUCCIÓN
( ) ( ) ( )( )
PrPr
j jj
f
f
ω ωω =
x
x
xx
x
.LIKELIHOOD PRIORPOSTERIOREVIDENCE
=
{ }1
Pr 1C
ii
ω=
=∑ x
13
1 INTRODUCCIÓN• PRIOR: Conocimiento a priori del estado, en
ocasiones denominado Prejuicio.• POSTERIOR: Probabilidad de que el estado
de la naturaleza sea uno determinado cuando ya se han recibido los datos.
• LIKELIHOOD: Agrupa características que son comunes a todos los datos de una categoría determinada. Representa el modelo que el diseñador tiene sobre el comportamiento de la naturaleza.
• EVIDENCE: Factor de escala, no influye en las decisiones.
14
2 REGLA DE DECISIÓN DE BAYES (MAP)
Two Category Case• Decision Rule: Vector Data x.
( ) ( )1
2
1 2Pr Prω
ω
ω ω><
x x
1Z 2Z
15
2 REGLA DE DECISIÓN DE BAYES (MAP)
• Probabilidad de error condicionada a x.
• Probabilidad de error promedio.
( )( )
1 1 2
2 2 1
ˆ PrPr( )
ˆ Pre
ZP error
Z
ω ω ω
ω ω ω
⎧ ∈ =⎪= = ⎨∈ =⎪⎩
x xx
x x
( )( ) ( )
1 22 1
Pr( )
Pr( ) Pr( )
Pr( ) Pr( )
e
Z Z
error P
E error error f d
f d f dω ω
= =
⎡ ⎤ = =⎣ ⎦
+
∫∫ ∫
x
x x
x x x x
x x x x x x
16
2 REGLA DE DECISIÓN DE BAYES (MAP)
MAP
Mínima Probabilidad de error.
( ) ( )1
2
1 2Pr Prω
ω
ω ω><
x x
( ) ( ) ( ) ( )1
2
1 1 2 2Pr Prf fω
ω
ω ω ω ω><x xx x
17
2 REGLA DE DECISIÓN DE BAYES (MAP)
• If for some x, … particular observation give us no information about the state of nature
• If ……………. the decision is based entirely on the likelihoods.
( ) ( ) ( ) ( )0 1 0 2 0Pr Pr Pr Pri iω ω ω ω= ⇒ =x x x
( ) ( )1
2
1 2 1 2Pr( ) Pr( ); Pr Prω
ω
ω ω ω ω>
= ⇒<
x x
18
2 REGLA DE DECISIÓN DE BAYES (MAP)
• General Case (Continuous Features):• C Classes
( ){ } ( ) ( ){ }ˆ max Pr max Pri ii i i ifω ωω ω ω ω= = xx x
19
2.2 REGLA DE DECISIÓN DE BAYES (MAP)
• Caso General:• El criterio MAP es equivalente a minimizar la
Probabilidad de error en el clasificador:• Demostración:
{ } { } { }1
Pr Pr 1 PrC
i j ijj i
e Z ω ω=≠
∈ = = −∑x x x
20
2 REGLA DE DECISIÓN DE BAYES (MAP)
{ } { } ( ) { } ( )
{ }( ) ( )
( ) { } ( )
( ) { } ( )
{ } ( )
1
1
1 1
1
1
Pr Pr Pr
1 Pr
Pr
Pr
1 Pr
di
i
i i
di
i
C
iR Zi
C
iZi
C C
iZ Zi i
C
iR Zi
C
iZi
e e f d e Z f d
f d
f d f d
f d f d
f d
ω
ω
ω
ω
=
=
= =
=
=
= = ∈ =
− =
− =
− =
−
∑∫ ∫
∑∫
∑ ∑∫ ∫
∑∫ ∫
∑∫
x x
x
x x
x x
x
x x x x x x
x x x
x x x x x
x x x x x
x x x
21
2 REGLA DE DECISIÓN DE BAYES (MAP)
1 21
...C
dC i
i
i j
R Z Z Z Z
Z Z=
= =
= ∅
∪ ∪
∩
∪
{ }1 1max : Pr Zω ⇒x
22
2 REGLA DE DECISIÓN DE BAYES (MAP)
• Permitir o Realizar acciones distintas a la toma de decisiones
• Se define una función de coste en función de estas acciones.
1,..., aα α
23
2 REGLA DE DECISIÓN DE BAYES (MAP)
Ejemplos• Bases de datos biomédicas ¿Penalizo por
igual los errores 1) sano/enfermo 2) enfermo/sano?
• SPAM• OCR ¿Penalizo por igual error en
consonante que error en vocal?• RADAR
24
3 CLASIFICADORES DE MÍNIMO RIESGO
• Pérdida que genera la decisión i cuando el estado verdadero es j
• Pérdida asociada a la acción i, Riesgo condicional
• Riesgo Total• Mínimo Riesgo,
equivale a elegir
( )i jλ α ω
( ) ( ) ( )1
PrC
i i j jj
R α λ α ω ω=
=∑x x
( ) ( )1
a
ii
R R f dα=
=∑∫ Xx x x
( )( )mini iRα α⇒ x
25
3 CLASIFICADORES DE MÍNIMO RIESGO
• C = 2 categorías:
• Riesgo Condicional
• Regla de Decisión:
( )1 1
2 2
: decidir : decidir ij i j
α ωλ λ α ω
α ω⎞⇒ =⎟
⎠
( ) ( ) ( )( ) ( ) ( )
1 11 1 12 2
2 21 1 22 2
Pr Pr
Pr Pr
R
R
α λ ω λ ω
α λ ω λ ω
= +
= +
x x x
x x x
( ) ( )2
1
1 2R Rα
α
α α><
x x
26
3 CLASIFICADORES DE MÍNIMO RIESGO
• LIKELIHOOD Ratio
Umbral o Thresholdindependiente de x
( )( )
( )( )
1
2
1 212 22
21 11 12
PrPr
ff
α
α
ω ωλ λ γλ λ ωω
> ⎛ ⎞−=⎜ ⎟< −⎝ ⎠
x
x
xx
27
2.3 CLASIFICADORES DE MÍNIMO RIESGO
• LIKELIHOOD Ratio• Mínima Pr(error):
MAP
( )( )
( )( )
1
2
1 2
12
PrPr
ff
α
α
ω ωγ
ωω>
=<
x
x
xx
01ij
i ji j
λ=⎧
= ⎨ ≠⎩
28
2.3 CLASIFICADORES DE MÍNIMO RIESGO
• Mínimo Riesgo = Mínima Probabilidad de error
01ij
i ji j
λ=⎧
= ⎨ ≠⎩
( ) ( ) ( )
( ) ( )1
1,
Pr
Pr 1 Pr
C
i i j jj
C
j ij i
R α λ α ω ω
ω ω
=
= ≠
=
= = −
∑
∑
x x
x x
29
3 CLASIFICADORES DE MÍNIMO RIESGO
Otros Criterios: • MINIMAX:
– Tiene sentido cuando no se conocen las probabilidades a priori.
– Minimiza el Máximo Riesgo, eligiendo las regiones de decisión para que la función de riesgo no dependa de las probabilidades a priori.
– Ejemplo para C=2 Categorías
30
3 CLASIFICADORES DE MÍNIMO RIESGO
• MINIMAX: Ejemplo para C=2 Categorías
( ) ( )( )( ) ( )( )( ) ( )
( ) ( ) ( )( )
1
2
1 2
1
2 1
11 1 1 12 2 2
21 1 1 22 2 2
1 2
1 1
22 12 22 2
1 11 22 21 11 1 22 12 2
Pr ( ) Pr ( )
Pr ( ) Pr ( )
Pr Pr 1
( ) ( ) 1
( ) ( )
Pr ( ) ( )
Z
Z
Z Z
Z
Z Z
R f f d
f f d
f d f d
f d
f d f d
λ ω ω λ ω ω
λ ω ω λ ω ω
ω ω
ω ω
λ λ λ ω
ω λ λ λ λ ω λ λ ω
= + +
+ =
⎧ + = ⎫⎪ ⎪⎨ ⎬+ =⎪ ⎪⎩ ⎭
+ − +
− + − + −
∫∫
∫ ∫∫
∫ ∫
x x
x x
x x
x
x x
x x x
x x x
x x x x
x x
x x x x
( )1 1 2 1 2 1 2( , ) Pr ( , )R K Z Z K Z Zω= +
31
3 CLASIFICADORES DE MÍNIMO RIESGO
• MINIMAX: Ejemplo para C=2 Categorías
1minimax 22 12 22 2( ) ( )
ZR f dλ λ λ ω= + − ∫ x x x
( )1 1 2 1 2 1 2 1 1 2
2 1 2
( , ) Pr ( , ) ( , )( , ) 0
R K Z Z K Z Z K Z ZK Z Z
ω= + =
=
32
3 CLASIFICADORES DE MÍNIMO RIESGO
• MINIMAX: Ejemplo para C=2 Categorías y mínima probabilidad de error
( ) ( )2 1
11 22 21 11 1 22 12 2( ) ( ) 0Z Z
f d f dλ λ λ λ ω λ λ ω− + − + − =∫ ∫x xx x x x
2 11 2( ) ( ) 0
Z Zf d f dω ω− =∫ ∫x xx x x x
01ij
i ji j
λ=⎧
= ⎨ ≠⎩
33
3 CLASIFICADORES DE MÍNIMO RIESGO
• MINIMAX: Ejemplo para C=2 Categorías
( )1 1 2 1 2 1 2( , ) Pr ( , )R K Z Z K Z Zω= +
34
3 CLASIFICADORES DE MÍNIMO RIESGO
Otros Criterios: • NEYMAN PEARSON:
– Se minimiza el riesgo total sujeto a alguna restricción.
( ) cteiR dα <∫ x x
35
2.4 FUNCIONES DISCRIMINANTES Y REGIONES DE DECISIÓN
• Caso de múltiples categorías C:
36
4 FUNCIONES DISCRIMINANTES Y REGIONES DE DECISIÓN
• Definición de Función Discriminante (gi): – El clasificador asigna una clase ωi a un vector
de características x.– Criterio de clasificación.
( ) ( ) i jg g j i> ∀ ≠x x
37
4 FUNCIONES DISCRIMINANTES Y REGIONES DE DECISIÓN
• Casos Particulares: – MAP (Equivalente a mínima probabilidad de
error)
– Mínimo Riesgo.
( )( ) Pri ig ω=x x
( )( )i ig R α= −x x
38
4 FUNCIONES DISCRIMINANTES Y REGIONES DE DECISIÓN
• Casos Particulares: MAP – Un mismo criterio puede realizarse mediante
diferentes funciones discriminantes:
( )( ) Pri ig ω=x x
( ) ( )( )( ) ln ( ) ln Pri i ih f ω ω= +xx x
( )( ) ln ( )h g=x xLn (logneperiano)esuna función convexa
39
4 FUNCIONES DISCRIMINANTES Y REGIONES DE DECISIÓN
• Casos C=2 Categorías: DICOTOMIZADOR
• Ejemplos – Comunicaciones Binarias BPSK, 2FSK – Detección de Enfermedades SI/NO
1
2
1 2( ) ( ) ( ) 0g g gα
α
>≡ −
<x x x
40
4 FUNCIONES DISCRIMINANTES Y REGIONES DE DECISIÓN
• Casos C=2 Categorías: DICOTOMIZADOR
41
5 f.d.p. NORMAL O GAUSSIANA
• UNIVARIABLE
( ){ }2
221 1
22( ) exp x
xf x μ
σπσ
−= −
[ ] ( )22; x xμ σ μ⎡ ⎤= = −⎣ ⎦E E
42
5 f.d.p. NORMAL O GAUSSIANA
• MULTIVARIABLE– Momentos estadísticos
– La matriz de covarianza es definida positiva (Autovalores reales y positivos)
– f.d.p. del vector x:
[ ] ( )( ); ; d d dxdx x x xμ μ⎡ ⎤∈ = ∈ = − − ∈⎣ ⎦
Tx μ E x Σ E x x
( ) ( ) ( ){ }1/ 2/ 211 1
22( ) expd
xx x xf
πμ μ−= − − −T
x Σx x Σ x
: ( , )x xNx μ Σ
43
5 f.d.p. NORMAL O GAUSIANA
• MULTIVARIABLE– Las transformaciones lineales de v.a.gausianas
presentan distribución normal
; dxk k∈ ∈TA y = A x
[ ] [ ]⎡ ⎤= = = =⎣ ⎦T T T
y xμ E y E A x A E x A μ
( )( )
( )( ) ( )( ) x
⎡ ⎤= − − =⎢ ⎥⎣ ⎦⎡ ⎤ ⎡ ⎤− − = − − =⎢ ⎥ ⎣ ⎦⎣ ⎦
T
y y y
T TT T T T T Tx x x x
Σ E y μ y μ
E A x A μ A x A μ E A x μ x μ A A Σ A
44
5 f.d.p. NORMAL O GAUSIANA
• MULTIVARIABLE– Blanqueo a partir de la
diagonalización de la matriz de covarianza:
– Matriz de Autovectores, ortonormales entre sí
– Valores Propios– Transformación:
x= = TΣ Σ UΛU
( )1 2, ,.., ; d= TU v v v UU = I
1 2( , ,..., )ddiag λ λ λ=Λ
i i iλ=Σv v
1/ 2 1/ 21 2; (1/ ,1/ ,...,1/ )ddiag λ λ λ− −= =A UΛ Λ
45
5 f.d.p. NORMAL O GAUSIANA
• MULTIVARIABLE– Media:
– Matriz de Covarianza:
1/ 2−= =T Ty x xμ A μ Λ U μ
1/ 2 1/ 2
1/ 2 1/ 2
x− −
− −
= =
= =
T T TyΣ A Σ A Λ U UΛU UΛ
Λ ΛΛ I
= =T Ty x xμ A μ U μ
x= = =T T TyΣ A Σ A U UΛU U Λ
46
5 f.d.p. NORMAL O GAUSIANA
• MULTIVARIABLE– f.d.p
( )( ) ( ){ }
( ) ( ) ( ){ }1/ 2/ 2
/ 2
11 122
1 122
1
( ) exp
exp ( )
: ( ,1)
d
d i
d
y ii
i i
f
f y
y N
π
π
μ μ
μ μ
μ
−
=
= − − − =
− − − =∏
y
T
y y y yΣ
T
y y
y y Σ y
y y
: ( , )i i iy N μ λ
47
5 f.d.p. NORMAL O GAUSIANA
• MULTIVARIABLE– Las muestras de una población normal se agrupan en
clusters alrededor de la media μ– Los ejes principales de los hiper-elipsoides son los
autovectores de la matriz de covarianza.– La distancia cuadrática de Mahalanobis constituye el
término del exponente de la f.d.p., ayuda a evaluar i/o interpretar los clusters
– Blanqueo convierte hiper-elipsoides en hiper-esferas– Si A=U los clusters mantienen la forma de elipsoides con
semi-ejes paralelos a los ejes de coordenadas.
( ) ( )2 1Md μ μ−= − −Tx Σ x
48
5 f.d.p. NORMAL O GAUSIANA
• CLUSTERS:
0 5 0 0.5 1-1
0
1
2-3
-2
-1
0
1
2
3
49
6 FUNC. DISCRIMINANTES: f.d.p. NORMAL
• f.d.p. Condicionada:• Probabilidad a Priori• Función discriminante
MAP
( ) ( )( )( ) ( ) ( ) ( ) ( )( )11 1
2 2 2
( ) ln ( ) ln Pr
ln 2 ln ln Pr
i i i
di i i i i
g f ω ω
π ω−
= + =
− − − − − +
x
T
x x
x μ Σ x μ Σ
( )( ) : ,i i if Nωx x μ Σ
( )Pr iω
50
6 FUNC. DISCRIMINANTES: f.d.p. NORMAL
• 3 Casos respecto a la Matriz de covarianza
– Caso 1
– Caso 2
– Caso 3
2
Arbitrario
i
i
i
σ=
=
Σ I
Σ Σ
Σ
51
6 F. DISCRIMINANTES: f.d.p. NORMAL
Caso 1• La función discriminante:
– depende de la distancia euclídea
– Es LINEAL con el vector de datos recibido:
– Las Fronteras de decisión son HIPERplanos:
2i σ=Σ I
( ) ( ) ( )( )21
2( ) ln Pri i i ig
σω= − − − +Tx x μ x μ
( )( )2 21 1
02( ) ln Pri i i i i i ih w
σ σω= + − + = +T T Tx μ x μ μ w x
( )0( ) ( ) 0i jh h= ⇒ − =Tx x w x x
52
6 F. DISCRIMINANTES: f.d.p. NORMAL
Caso 1• Las Fronteras de decisión son HIPERplanos:
2i σ=Σ I
( )0( ) ( ) 0i jh h= ⇒ − =Tx x w x x
( ) ( )( )( ) ( )2
2
Pr10 2 Pr
;
ln i
ji j
i j
i j i jωσω−
= −
= + − −μ μ
w μ μ
X μ μ μ μ
53
6 FUNC. DISCRIMINANTES: f.d.p. NORMAL
• Caso 1 2i σ=Σ I
54
6 FUNC. DISCRIMINANTES: f.d.p. NORMAL
• Caso 1 2i σ=Σ I
55
6 FUNC. DISCRIMINANTES: f.d.p. NORMAL
• Caso 1– Categorías equiprobables:– Clasificador de Mínima Distancia Euclídea
2i σ=Σ I
( ) 1Pr i Cω =
56
6 F. DISCRIMINANTES: f.d.p. NORMAL
Caso 2• La función discriminante:
– Es LINEAL con el vector de datos recibido:
– Las Fronteras de decisión son HIPERplanos:
i =Σ Σ
( ) ( ) ( )( )112( ) ln Pri i i ig ω−= − − − +Tx x μ Σ x μ
( )0( ) ( ) 0i jh h= ⇒ − =Tx x w x x
( ) ( )( )1 1102( ) ln Pri i i i i i ih wω− −= − + = +
T T Tx Σ μ x μ Σ μ w x
57
6 F. DISCRIMINANTES: f.d.p. NORMAL
Caso 2• Las Fronteras de decisión son HIPERplanos:
i =Σ Σ
( )0( ) ( ) 0i jh h= ⇒ − =Tx x w x x
( )( ) ( )( ) ( )( )
( ) ( ) ( )1
1
ln Pr ln Pr10 2
;
i j
i j i j
i j
i j i jω ω
−
−
−
− −
= −
= + − −Tμ μ Σ μ μ
w Σ μ μ
X μ μ μ μ
58
6 F. DISCRIMINANTES: f.d.p. NORMAL
Caso 2
59
6 F. DISCRIMINANTES: f.d.p. NORMAL
Caso 3
• Las superficies que separan 2 zonas son hiperquadráticas:– Hiperplanos– Hiperesferas– Hiperelipsoides– Hiperparaboloides– hiperhiperboloides
arbitrarioiΣ
( ) ( )( )1 1 11 1 12 2 2
( )
ln ln Pri
i i i i i i i i
g
ω− − −
=
− + − − +T T T
x
x Σ x μ Σ x μ Σ μ Σ
60
6 F. DISCRIMINANTES: f.d.p. NORMALCaso 3• Cálculo de las superficies que separan 2
zonas
arbitrarioiΣ
( ) ( )( )( ) ( )( )
( ) ( )( )( )
1 1 11 1 12 2 2
1 1 11 1 12 2 2
1 1 1 11 12 2
1 11 1 12 2 2
( ) ( )
ln ln Pr
ln ln Pr 0
Prln ln 0
Pr
i j
i i i i i i i i
j j j j j j j j
j i i i j j
i ii i i j j j
j j
g g
ω
ω
ωω
− − −
− − −
− − − −
− −
= ⇒
− + − − +
+ − + + − =
⇒
− + −
⎛ ⎞⎛ ⎞⎜ ⎟⎜ ⎟− + − + =
⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠
T T T
T T T
T T T
T T
x x
x Σ x μ Σ x μ Σ μ Σ
x Σ x μ Σ x μ Σ μ Σ
x Σ Σ x μ Σ μ Σ x
Σμ Σ μ μ Σ μ
Σ
( ) ( ) ( ) 0i jh g g e⇒ = − = + + =T Tx x x x Ax v x
61
7 ROC: Característica de Operación del Receptor
• Caso Binario y escalar (d=1,C=2)• El clasificador utiliza un umbral γ• Los experimentadores no conocen el umbral γ,
ni los parámetros de la distribución, pero tienen acceso a medir las 4 probabilidades.– Hit– Falsa Alarma– Pérdida– Rechazo Correcto
• Medida de Discriminabilidad
( )( )
21 1
22 2
: ,
: ,
x N
x N
ω μ σ
ω μ σ
( )( )( )( )
2
1
2
1
Pr
Pr
Pr
Pr
x x
x x
x x
x x
γ ω
γ ω
γ ω
γ ω
> ∈
> ∈
< ∈
< ∈
2 1'd μ μσ−=
62
7 ROC: Característica de Operación del Receptor
• La ROC es la representación de la probabilidad de acierto (Hit) respecto a la probabilidad de falsa alarma y en general depende de la discriminabilidad.
yμ2μ1
1σγ
2σ
63
7 ROC: Característica de Operación del Receptor
• Caso Gaussiano:
( ) ( )( ) ( ) ( )2 1
2 12 1Pr 1 ; PrHit P Q FA PQμ γ γ μσ σ− −= − =
1 2μ μ γ< <( ) ( ) ( ) ( )2 1
2 12 1Pr ; PrHit P Q FA PQγ μ γ μσ σ− −= =
1
1 2
2
0
0
μ
μ γ μ
μ
<
< <
<
( ) ( )( ) ( ) ( )( )2 22 12 22 2
2 12 1
1 12 12 22 2
Pr exp ; Pr expy yHit P dy FA P dyμ μ
σ σπσ πσγ γ
+∞ +∞− −= − = −∫ ∫
1 2γ μ μ< < ( ) ( )( ) ( ) ( )( )2 1
2 12 1Pr 1 ; Pr 1Hit P Q FA P Qμ γ μ γσ σ− −= − = −
64
7 ROC: Característica de Operación del Receptor
• Para el caso multidimiensional para un valor dado de Probabilidad de Hit existen diferentes posibles valores de la Probabilidad de Falsa Alarma.
• Propuesta sencilla de medida de discriminabilidad.
– Distancia de Mahalanobis entre
( ) ( )( )
( )( ), ji d d
i jd di j d
D c c σ σ= −
μμ
( ),M i jd μ μ
65
8 VECTOR DE CARACTERÍSTICAS DE VALORES DISCRETOS
• Las componentes del vector x, son de valores binarios o enteros
• Caso binario de C=dos categorías y dimensión d
• Componentes estadísticamente independientes entre sí.
1
:
d
x
x
⎛ ⎞⎜ ⎟= ⎜ ⎟⎜ ⎟⎝ ⎠
x
( ) ( )( ) ( )
1 1
2 2
Pr 1 1 Pr 0
Pr 1 1 Pr 0i i i
i i i
p x x
q x x
ω ω
ω ω
= = = − =
= = = − =
( ) ( ) ( )
( ) ( ) ( )
11
1
12
1
Pr 1
Pr 1
i i
i i
dx x
i iid
x xi i
i
p p
q q
ω
ω
−
=
−
=
= −
= −
∏
∏
x
x
66
8 VECTOR DE CARACTERÍSTICAS DE VALORES DISCRETOS
• Likelihood ratio
• Función discriminante LINEAL con xi
( )( ) ( ) ( )11 1
112
PrPr
i ii i
i i
d x xp pq q
i
ωω
−−−
=
=∏xx
( ) ( ) ( )( ) ( )( )
1 11
1 2
Pr( ) ln 1 ln ln
Pri i
i i
dp p
i iq qi
g x xωω
−−
=
= + − +∑x
1
2
1 2( ) ln(Pr( )) ln(Pr( )) 0g x x xω
ω
ω ω>
≡ −<
67
8 VECTOR DE CARACTERÍSTICAS DE VALORES DISCRETOS
• Dado que la función discriminante para el caso de C=2 categorías y d dimensiones estadísticamente independientes resulta lineal, determine el valor del vector y del escalar que determinan dicha función:
( )g w= +Tx w x
68
9 CONCLUSIONES
• Interesan funciones de discriminación lineales
• Podemos encontrarnos con vectores de características híbridas en cuanto a valores continuos/valores discretos
69
• Se maximiza una función Discriminante:
– MAP (Equivalente a mínima probabilidad de error)
– Mínimo Riesgo.
( )( ) Pri ig ω=x x
( )( )i ig R α= −x x
9 CONCLUSIONES
{ }ˆ max ( ) ; 1..i i ig i Cω = =x
70
9 CONCLUSIONES
• Interesan funciones lineales con los datos:– C Categorías:
– Regiones de decisión son hiperplanos(dimensión: d-1).
0( )i i ih w= +Tx w x
( )0( ) ( ) 0i jh h= ⇒ − =Tx x w x x