62
Medidas de incertidumbre e información en problemas de decisión estadística por Pedro Ángel Gil Alvarez PRESENTADO POR EL ACADÉMICO NUMERARIO D. SIXTO Ríos INTRODUCCIÓN El presente trabajo está dividido en tres grandes apartados en los que se estudian ciertas medidas de información matemática en. relación con diversos problemas de la Teoría Estadística de la De- cisión. Es evidente que en este orden de problemas debe hacerse inter- venir la información y de hecho siempre aparece, aunque no se la cite explícitamente o ni siquiera se la reconozca por carecer de una. medida adecuada que permita su identificación. La oportunidad de la medida de Shannon frente a otras medidas- de información se hace particularmente patente en el estudio de los- problemas estadísticos desde el punto de vista bayesiano. Al análisis y comparación de estas medidas está dedicado el primero de los ca- pítulos de este trabajo. Se exponen en él resultados referentes a los estimadores suficientes y algunas posibles aplicaciones al diseño de muéstreos. Por otro lado, se muestra la ineficacia de dicha medida en rela- ción con diversos problemas de contraste de hipótesis y situaciones- de decisión en las que los resultados correspondientes a una expe- riencia llevan aneja una utilidad. En el segundo capítulo se intenta salvar alguno de estos incon-

Medidas de incertidumbre e información en problemas de decisión … · LA INFORMACIÓN DE SHANNON EN LOS PROBLEMAS DE MUESTREO 1.0. Sumario La cantidad de información de Shannon

  • Upload
    leminh

  • View
    216

  • Download
    0

Embed Size (px)

Citation preview

Medidas de incertidumbre e informaciónen problemas de decisión estadística

por

Pedro Ángel Gil Alvarez

PRESENTADO POR EL ACADÉMICO NUMERARIO D. SIXTO Ríos

INTRODUCCIÓN

El presente trabajo está dividido en tres grandes apartados enlos que se estudian ciertas medidas de información matemática en.relación con diversos problemas de la Teoría Estadística de la De-cisión.

Es evidente que en este orden de problemas debe hacerse inter-venir la información y de hecho siempre aparece, aunque no se lacite explícitamente o ni siquiera se la reconozca por carecer de una.medida adecuada que permita su identificación.

La oportunidad de la medida de Shannon frente a otras medidas-de información se hace particularmente patente en el estudio de los-problemas estadísticos desde el punto de vista bayesiano. Al análisisy comparación de estas medidas está dedicado el primero de los ca-pítulos de este trabajo. Se exponen en él resultados referentes a losestimadores suficientes y algunas posibles aplicaciones al diseño demuéstreos.

Por otro lado, se muestra la ineficacia de dicha medida en rela-ción con diversos problemas de contraste de hipótesis y situaciones-de decisión en las que los resultados correspondientes a una expe-riencia llevan aneja una utilidad.

En el segundo capítulo se intenta salvar alguno de estos incon-

— 55° —

venientes mediante la introducción de tina función de informaciónpuntual a la que se hace aparecer como subyacente en algunos re-sultados clásicos de estimación y contraste de hipótesis estadísticas.La simplicidad de esta medida puntual no impide la obtención deresultados que consideramos interesantes.

Por último, el tercero de los capítulos es un intento de definiruna medida de incertidumbre en la que intervenga la utilidad y estu-diar sus primeras propiedades, pretendiendo con ella ampliar el cam-po de aplicabilidad de la entropía de Shannon, haciendo así que éstasea una restricción a dicho campo de la función que proponemos.

1. LA INFORMACIÓN DE SHANNON EN LOS PROBLEMAS DE MUESTREO

1.0. Sumario

La cantidad de información de Shannon es el único de los con-ceptos matemáticos de información que se adapta (y al mismo tiem-po necesita) al punto de vista bayesiano. Podría en este caso el es-tadístico prescindir de su «información» apriorística y emplear lascantidades de información de Kullback o Fisher, pero parece másrazonable aprovechar el conocimiento de la distribución de proba-bilidad a priori.

Hay, además, otras razones que influyen en. la elección de estacantidad de información sobre las otras. Las cantidades de Fisher yKullback tienen la gran ventaja de ser aditivas en variables indepen-dientes (tal es el caso del muestreo aleatorio simple), pero es estamisma aditividad la que hace que estas cantidades no justifiquen sunombre de «información» ; por ella se obtiene el crecimiento ilimi-tado de la información contenida en una muestra, mientras que pa-rece más correcto suponer que la máxima información obtenible enuna muestra sobre el valor de un parámetro sea aquella que nos in-dique (con probabilidad unidad) cuál es el valor justo de dicho pará-metro, es decir, aquella que deshaga la incertidumbre existente sobreel espacio paramétrico antes de dar comienzo al muestreo. Y estaincertidumbre no puede ser, ni en el peor de los casos, infinita. (En

— 551 —

realidad ocurriría lo mismo si se considerase a la entropía comomedida de información.)

El presente tema comienza con la exposición de los resultadosreferentes a las cantidades de información de Kullback y Fisher para.una muestra y los estimadores obtenidos de ella. Algunas de las de-mostraciones son originales, aunque los resultados ya se hubieran.obtenido por otros métodos en las publicaciones de otros autores.

Después se da el teorema que lleva a idénticas conclusiones quelos anteriores, pero con el empleo de la cantidad de información de.Shannon. Es curioso notar, que mientras con las cantidades de Kull-.back y Fisher se obtienen los resultados por medio de una caracte-rización «ordinaria» de los estimadores suficientes (como es el teo-rema de factorización u otra similar), con la cantidad de Shannon¡el resultado se expresa a través de la caracterización bayesiana delos estimadores suficientes.

Posteriormente se dan unas relaciones entre las tres cantidades<de información citadas y por último se analizan las posibilidades de.empleo de la cantidad de Shannon en el diseño de muéstreos.

En todo el desarrollo se emplean variables aleatorias de tipo con-tinuo, si bien los resultados son igualmente válidos para el caso dis-•creto.

1.1. Estimadores suficientes

Muy diversas son las condiciones que permiten caracterizar un•estimador suficiente. Pasamos a continuación revista a algunas de•ellas, indicando las referencias bibliográficas en que pueden ser con-sultadas. Las notaciones fundamentales que se emplearán en este•capítulo y el próximo son las siguientes :

1.1.1. Notaciones.

? : variable aleatoria unidimensional cuya distribución se estudia.*X = (#j, ^2, ..., xn) : muestra aleatoria simple particular de \ de ta-

maño n_.

í = (Ui» ?2, • - . , un) : variable aleatoria «-dimensional cuyas compo-nentes tienen todas la misma distribución y son (condicionalmen-te en el caso bayesiano) independientes.

— 552 —

R : dominio en el que toma valores £.6 : parámetro del cual depende la función de probabilidad o densi-

dad de \.ü : espacio de variación del parámetro 6.f ( # ; 6): función de probabilidad o densidad de la variable \.V (xv, Xy, ..., xn; 6) = V (X ; 6): función de probabilidad o densi-

dad de la variable w-dimensional \.t = t (X) : función medible -de la muestra X seleccionada como esti-

mador del parámetro 6.t (Í!, \2, ..., !•„) = T: variable aleatoria unidimensional cuyos valo-

res son los del estimador.g (í ; 6) : función de probabilidad o densidad de la variable T.E : operador esperanza matemática.D2 : operador varianza.

1.1.2. Definiciones equivalentes de la suficienciade un estimador.

1.1.2.1. Definición fisheriana.

T es un estimador suficiente para 6 si y sólo si para cualquierotro estimador R de la misma muestra, la distribución de R condi-cionada por T no depende de 6. (Wilks, pág. 351.)

1.1.2.2. Definición de Neyman.

T es un estimador suficiente para 6 si y sólo si se puede haceruna descomposición factorial como la siguiente :

V? (X ; O) = k (t ; 6) . h (X),

donde h (X) no depende de 6. (Wilks, pág. 356 ; Halmos & Savage,,págs. 225-241.)

1.1.2.3.

T es un estadístico suficiente para 6 si y sólo si es posible la des-composición siguiente :

^ (X ; 6) = g (t ; 6) . h (X),

— 553 —

donde h (X) no depende de 6, y g ( t ; 6) es la función de densidadde T. (Fourgeaud & Fuchs, págs. 183-184; Zacks, pág. 92.)

1.1.2.4.

T es un estadístico suficiente para 6 si y sólo si la función dedensidad de la variable ? condicionada por T = t no depende de ô.(Wilks, pág. 335.)

1.1.2.5. Definición bayesiana.

Si 6 es una variable aleatoria con función de densidad conocidaa priori « (6), T es un estadístico suficiente para 6 si y sólo si se ve-rifica la igualdad entre las funciones de densidad a posteriorico (6/X) y co (6/Í), siendo í = t (X). (De Groot, pág. 156 ; Zacks,pág. 90.)

1.2. Los estimadores suficientes y otras cantidades de información

1.2.1. Cantidad de información de Fisher.

Se llama cantidad de información de Fisher dada por la variablealeatoria \ sobre el parámetro 6 a la cantidad, si existe, dada por

MM) = E [(^.n/(,;,))]

1.2.2. Algunas propiedades de la cantidad de informaciónde Fisher.

1.2.2.1.

Si el dominio de valores de la variable, aleatoria I no depende' delos valores de 6 y se satisfacen las condiciones de Wolfoitiits de re-gularidad, la cantidad de información de Fishe-r se puede escribir bajolas dos formas siguientes:

I p (É ,0 ) = D'[-^-ln/(*;tf)] =-E [^1»/^)]

- 554 -

En efecto ; por ser / (x ; 6) una función de densidad, se tiene

j f ( x ; 0 ) d x = í, V «C aR

Entonces, por ser R independiente de 6, se puede permutar laderivación respecto a fi con la integración, de donde

ò o /'<".•»" -/-£•=>

ò ò/ (x : ô) d x = I .-= O =C>

Ò ô ò "

In / (x ; ff) \ f (x ; 6) d x =0=r^/(,;^ = J[^-ln/(,;*)]

B R

= E[-¿- ,„/(,;,)].

Por tanto, —— (n / (x; 6) es una variable aleatoria de media nulaâ o

y así resulta

E [(-^-ta, (,;«)'] =D^-^-In/(,;,)] = IF «,,).

Derivando ahora nuevamente respecto a 6, se tiene

ò2 r r ò2 ò21ò 02

l f ( X ; e - ) d x = Ç-^-f(x;9)d* =ò &2

= 0=0

• I n / ( * ; < • ) / (*;o)

ò i r òl n / (*;«) hrr ln/(*;*) l d * =

r ò2 / - O T O i^ 0 = jT^ y (^ e )^ = jT7[T7 ln / (^ö)J

R R

"/[:Ã~ l l l / (*:tf)] / í lr:9)<'* + /["^Ill/(lr:í)][R K

-E[-^-In / ( jr : f l )] + /[-^-In/(* : f l )][-^- ta/ (* ; t f )] /Cr: í )

R

==El-^- to/(* : f l)]+E[(·^r ln/(* ; í0) i]=0:..

d^r =

]

dx =

— ..55:5 -

luego

·*>-E[(-^- I a><* ; f l>) t]--E[ ·IP (Ê, 0) =ò2

In / (x, i

1.2.2.2.

ADITIVIDAD : En las mismas condiciones del enunciado anteriorse cumple

I, «E!, t? -, £„)• * = I, (í, 0) = » • i, (É.

En efecto ; por tratarse de muestreo aleatorio simple se cum-ple que

V ( X ; f l ) = |J/(*,;*).¡ = 1

Derivando ambos miembros dos veces respecto a 6 después detomar logaritmos, resulta

^lnT(X;í)=¿-^-In><*' ;' )-í— 1

Y aplicando ahora el operador E cambiando el signo

-*[^**™] = ¿[-*&tefw)]

lo que expresa la igualdad del enunciado, pues todos los sumandosdel segundo miembro son idénticos a IF (I, 6).

1.2.2.3.

i, (í, «) > o

Es evidente por su propia definición como esperanza de un cua-drado. ,

- 556 -

1.2.3. TEOREMA.

La cantidad de información de Fisher sobre el parâmetro 6 dadapor um estimador T de una muestra (?!, Sz, ..., in) de \ está acotadasuperiormente por la cantidad de información dada por dicha mues-tra, alcansádose la cota si y sólo si T es im estimador suficiente.

En efecto ; siempre puede escribirse

1Ï1 (X ; 0) = £ (í ; <9) • h (K/t ; 6), í = í (X).

Derivando esta expresión dos veces respecto a 6 después de to-mar logaritmos, se tiene

o2 ó2 o2

In \p (X ; 8) = In g (t ; 0) + In h (X/t ; ff).ò 02 ò #2

Cambiando de signo y aplicando el operador E a ambos miem-bros, resulta

_ r ò2 n r ò2 i ^ r ò2 i

-"L^^^J—^T^'H l^ta*ÍX/':^

es decir,

IF Ç, O} = IF (T, 0) - E f—— In  (X/í ; ô) l[_ O 02 J

Pêro no olvidemos que h (X/í ; <6) representa una función de~densidad y por tanto

-E[~^T ln*(X/í ; í)

es una cantidad de información de Fisher que es no negativa. Enconsecuencia,

IF (5. ") > JF (T. «)•

Veamos ahora cómo puede obtenerse la igualdad :

- 557 -

Sea T un estimador suficiente para 6. Por la condición 1.1.2.3 sese puede escribir

IF (X; 6) = g (t; 6 ) - h (K),

•donde h (X) es independiente de 0. Entonces, bajo las hipótesis delas propiedades del apartado anterior, si derivamos dos veces conrespecto a 6 en ambos miembros, resulta (tomando previamente lo-garitmos) :

o2 ó2 ó2

In IF (X ; 0) = i„ g(t;6)+ In h (X).ò f?2 ò #2 õ f>2

Pero si h (X) es independiente de 6, también lo es In h (X) ypor consiguiente

-1« h (X) = o,õ 02

de donde

o2 o2

In W (X; 6) = ——In ¿ ( t ;Õí»2 Ò í>2

Y aplicando el operador E después de cambiar de signo en ambosmiembros :

~E[^ I n X F ( X ; Ö )]=-E[-^- l n^ i ; Ö )]

o lo que es lo mismo :

IF ({, e) = i, (T, e).

Por otra pai,., ^ s£ da la igualdad anterior se debe a que

— E [-£- in *cx/*;*) ] = E [(^ ln MX/(; 0) y j ^.

- 558-

con lo cual

In h (X/í; 6)

es una variable aleatòria de media y varianza nulas, lo que significaque toma el valor cero con probabilidad 1 ; por tanto

• In h (X/í ; (?) = O,

salvo en conjuntos de medida nula. Y en consecuencia, h (X/í ; 6)1

es independiente de 6, lo cual es equivalente a la suficiencia del es-timador T.

1.2.4. Cantidad de información de Kullback.

Supongamos que el parámetro 6 puede únicamente tomar dos va-lores, es decir, que ü = {61; 62}.

Se llama cantidad de información de Kullback dada por la varia-ble \ en favor de 6j contra 62 a la cantidad, si existe, dada por

ME;9!-"*)» f ^;Vn, /(*;«,)

/(*;«,)- d x

Análogamente puede definirse la cantidad de información de Kull-back en favor de 62 contra 6j :

IK (£;«,.«!)•

1.2.5. Algunas propiedades de la cantidad de informaciónde. Kullback.

1.2.5.1. Lema de Gibbs:

Se cumple SK (? ; 81, 9o) > O, dándose la igualdad si y sólo si. esf (y f a ¡J = f (x; 6,-) sah-o en conjuntos de medida nula.

— 559 —

En efecto ; se da la desigualdad In z < z — l para cualquier nú-mero positivo 2, con igualdad si y sólo si es s = 1.

/(*;OTomemos £ = •—— que es positivo por ser cociente entre

/(*;Vdos funciones de densidad (para evitar situaciones anómalas se su-pone la continuidad absoluta mutua entre las medidas engendradaspor ambas densidades). Se tiene

f ( x ; 6 ) /O;<gln —^ 1.

/ ( * ;« ) - f(¿;*¿

Multiplicando ambos miembros por / (x ; 8j) resulta.

/(*;«,)/(*;V l n <t(*;8¿-t(?;6¿, V * € R

M*; v

con la igualdad si y sólo si es

/ (* ;« 2 )=/ (* ;« , ) •

Integrando ahora en R (no olvidemos que es independiente de 6) :

/

/ (x ; e} r C/(*;«,) In — d*< f(x:0)dx- I / ( ^ ; ô ) d ^ = 0,

f ( x - O , ) J JR R

o lo que es lo mismo

/(*;« , )T H*;OJ) j/ / ( ^ ; « ) l n l_dj :>0J l /(*;«„).

con la igualdad si y sólo si es / (x ; 6J = / (,r ; 62) salvo conjuntosde medida nula, c. q. d.

Obsérvese que la condición /(.*•; :6[) = f (x; 92) garantiza igual-mente que IK (t; 92, Ô!) = O, es decir, o las dos cantidades de in-formación de Kuliback son nulas o no lo es ninguna de ellas.

— 56° —

1.2.5.2.

Sea {Ri}i,,i,ì,.. una- partición de R por elementos de la a-alge-bra é8R engendrada en R por la de Borei; entonces

Mí ;«!•«,)> 2 pi W InP, («,)p? (Äi)

donde Pl y P2 son las medidas de probabilidad asociadas con las den-sidades f (x;^) 3; f (x;62), respectivamente.

En efecto ; para cada valor de i podemos considerar la probabi-lidad condicionada a R, y de este modo se obtienen las densidades

/(*;<>,) /(*;<y*(-;«,)—ÏT^-, *<"«.>=ir<ïfr

para las que se puede escribir,, por la propiedad anterior,

/gt(*;*¿

^:*i)In^(^rr>0

con la igualdad si y sólo si

g¡(*;6¿ = s¡ (*••»,),

salvo en conjuntos de medida nula.

Sustituyendo las funciones g¡ resulta

/R,

/(*;V / ( ^ ; ^ ) - P 2 ( R , ) __^ / . - . / l \ T» / T ) \

:=í:^P^R,) / ( j r í í^ .P^R, )

= ^ p i f f /(*;«!) P, (R«) C l;7RrlJ/(^)ln7^^+lni^rJ '^^ á *J>°^"j

/ (*;»,) P! (R,)=>J /(* ; 6 l ) ln ,,,.;, ^>P 1 (R, ) ln/C-;o 2 ) ^ 1 X " Pa(R.)

R,

- s«' -

Sumando ahora los resultados correspondientes a cada índice i:

^ r /(*;«,) f /(*;«,)

?J /(^)ln7W'^ J '^"Tc^r**

^ pi w>• > P (R.) In— ̂ i * - .' p ( • £ > • )

I 2 v ''

con la igualdad si y sólo «i es

/ (A- ;^) P, (R)

/(*; 6,) P, (R,)V* t R , V i = l, 2, ...,

La interpretación de esta propiedad es sumamente ilustrativa paranuestro estudio : al efectuar una partición y agrupar bajo um o solotodos los elementos de cada clase, se pierde información. Pero hayun caso en que esta información no es desperdiciada: el caso en quese da la igualdad entre los cocientes anteriores, situación que pasa-mos a estudiar a continuación.

1.2.6. TEOREMA.

La cantidad de información de. Kullback dada por la muestraí = (£T, \2, ..., En) en favor de 6X sobre 62. acota superiormente a la,cantidad de información dada por un estimador T de dicha muestrasobre los mismos valores del parámetro, alcanzándose la cota, si ysólo si T es un estimador suficiente.

En efecto ; se sabe que

iF(X;e) = £ ( « ; 0 ) . / í ( X / í ; 0 ) , í = « (X)

lu«go^ (X;e , ) = í ' ( < ; « , ) • A (x/ í ;e a)

V(,X;0,) = s ( í ; 0 2 ) - A ( X / i ; 0 2 )

•de donde

TF(X;<g £ ( í ; 6 T ) MX/í;^)

iF(X;02) = í(í;8,) A(X/í;62) =í>

TÍX;*,) * ( « ; « , ) MX/Í;^)=>ln .„ .. = l n ^ + l n

g(t;^ A(X/í;82)

— 5*>2 —

Y tomando esperanzas en ambos miembros bajo la hipótesis deque 6 = 6j, esperanzas que designaremos por E1; resulta

f ì F ( X ; o ) i r g(t;^)-\ f h (X/i; 6 ) ]E In = E In — + E In —

L V ( X ; « 2 ) J M. £ ( í ; 6 2 ) J l l * (X/í; 9,) |

Identificando ahora estas expresiones, se tiene

IK 'í : «i- "P = IK ('r : «i ' <V + lv W ' V <y'

y por tanto

rv « ¡ « i - « « ) ^MT;^)'

ya que IK (4/*> öi> 8z) > O (1.2.5.1), dándose la igualdad entre las in-formac'^nes de la muestra y el estimador si y sólo si

1^/';^) = °>

esto es, si

¿(X/f ;^) = Ã(X/ í ;o 2 )

salvo en conjuntos de medida nula, lo cual expresa que h (X/í ; 6)es independiente de 6 y esto equivale (1.1.2.4) a que T sea un esti-mador suficiente, c. q. d.

1.2.7. Divergencia.

Se llama divergencia (de Kullback) entre los valores 9a y 62 del:

parámetro a la cantidad

Jító^i-e,) =iK( í ;^ . .62) +i K (£ ;0 2 , ¿> 1 )

Es fácil probar que la divergencia es simétrica respecto a los dosvalores de 9 y que una. expresión particular de ella es.

r f(*;üjJK (€ ! \, 6,) = / (/ (* : 92) -/(*:«,) )hi — ?- á *.

J /(•*•;*,)

- 503 -

1.3. La cantidad de información de Shannon y los estimadoressuficientes

1.3.1. Entropia de Shannon.

Sea Ç una variable aleatoria cualquiera cuya función de densidado probabilidad es h (x) ; la entropía de Shannon correspondiente ala variable Ç es, si existe, la cantidad

H (0 = E [- log h (x)] = -lh(") log h (x) d x

siendo R el conjunto de puntos en que h (x) > 0.

1.3.2 Entropía condicionada.

Sean Ç y T dos variables aleatorias con funciones de densidadrespectivas h (x) y K (y), y función de densidad conjunta f (x, y).Se llama entropìa de T condicionada por Ç a la cantidad, si existe,

H (r/D = E [H (r/ç = *)]~//-

y) log K (yjx) d y d x

siendo K (y/x} le densidad de la variable T condicionada por Ç = x.

1.3.3. Información de Shannon.,

Se llama información de Shannon contenida en la variable Ç so-bre la variable T a la cantidad

Is (Ç, r) = H (r) - H (r/î)

es decir, a la disminución media de entropía originada en T con elconocimiento de Ç.

564 -

1.3.4. Algunas propiedades de la información de Shannon.

1.3.4.1. Comentario.

La cantidad de información de Shannon no se define, como ocu-rre con las de Fisher y Kullback, como una medida sobre la infor-mación contenida en una variable respecto de un parámetro del cualdepende su distribución de probabilidad. Esto permite que dicha can-tidad sea utilizable en multitud de problemas ajenos al de estimación.

Por otra parte, teniendo en cuenta que la entropía posee unaspropiedades que permiten considerarla (ver, por ej., ASH) comouna medida de «incertidumbre» en el sentido ordinario de esta pa-labra, resulta que la cantidad de Shannon no sólo tiene una defini-ción matemática coherente, sino que posee además una significaciónintuitiva de la que carecen las otras medidas citadas.

1.3.4.2. Distintas expresiones.

La información contenida en una -variable Ç sobre otra T se pue^de expresar de los siguientes modos:

Is (Ç, r) = H (r) - H (rA) = H (r) + H (J) - H (J, r) = H «) - H (J/r) = !„ (r, Q

por lo cual es simètrica respecto a las dos variables.

La demostración de la igualdad entre estas expresiones se basaen la propiedad

H (Í, r) = H (Q + H (r/0 = H (r) + H (Ç/r),

cuya demostración puede verse en cualquiera de los libros de carác-ter general que se citan en la bibliografía.

1.3.4.3.

/s (Ç, T) > O con la igualdad si y sólo si Ç y T sonvariables alea-torias independientes.

- 565 -

En efecto ; aplicando el lema de Gibbs a las funciones / (x, y) yh (x) • K (y) resulta

- / / / (*, y) log / (*, y) d * d y < - i I t(x,y)l0g[h(x).K(y)]dxdyr

R R' B K'

es decir,

H (l r) < H (0 + H (r) =£> H (ö + H (r) - H (Z,, r) > 0, c. q. d.

con la igualdad si y sólo si

/ (x, y) = h (*) • K (y),

es decir, si y sólo si las dos variables son independientes.

1.3.5. TEOREMA.

La cantidad de información de Shannon da-da por una muestraí, sobre ei espacio paramétrico û es mayor o igual (fue la informa-ción dada por un estimador T de dicha muestra, dándose la igualdad'si y sólo si T es un estimador suficiente.

Antes de proceder a la demostración, hagamos notar que para,el empleo de la cantidad de información de Shannon es preciso con-siderar ñ como una variable aleatoria que toma los valores 6 conuna probabilidad a priori <a (6), lo cual lleva a situarse en el puntode vista bayesiano.

De aquí que pretendamos establecer una demostración en la cualse llegue a la suficiencia del estimador a través de la definición ba-yesiana, aunque puedan hacerse otras demostraciones -—incluso mássimples— del mismo resultado por otros caminos.

Pasemos ahora a demostrar lo propuesto : por el lema de Gibbsse puede escribir :

«. (Ô/X) In o, (0/X) d 6 > I o, (9/X) In o, (0/i) d Q, t = t (X)./ ,o («/X) In o, (Ô/X) d 6 > /• ' •/ã s

Multiplicando ambos miembros por la densidad marginal de la-.

- 566 -

nïuestra, que designaremos por W (X), e integrando en R" (espa-cio muestral) resulta

/ IF (X) « (e/x) in » (e/X) d e d x > - / ip (x) « (e/x) in w (#/<) d e ¿x.

R" x s R" x ô

Pero el segundo miembro de esta igualdad es la esperanza

E [In « (e/í (X))]

y çl primero

E [In M (Ö/X)]

que se identifican, respectivamente, con — H (ú/T) y — H (Q/í), dedonde

H (n/è_) < H (Ü/T)

y por tanto,

H(íi)-H(0/£) > H (O) -H (O/T),

es decir,

I8(*,ÍÏ)>IS(T,0).

Además, salvo conjuntos de medida nula, el lema de Gibbs ga-rantiza la igualdad de las expresiones anteriores si y sólo si

» (e/x.) = u (e/í), t = í (X),

lo cual constituye (1.1.2.5) la definición bayesiana de la suficienciadel estimador T, c. q. d,

1.4. Relaciones entre las distintas cantidades de información

Todos los conceptos de información estudiados tienen bastanteen común. Parece como si, al decir de Philip Jourdain, de una ideaMatemática (con mayúscula) se hubieran desgajado las distintas

- 567 -

ideas matemáticas (con minúscula). Buena prueba de ello es la coin-cidencia de las mismas en ciertas condiciones como muestran los si-guientes resultados.

1.4.1. TEOREMA.

Si 6± y 62 son dos valores del parámetro suficientemente próxi-mos (O! = 6, 6,2 = 6 + A 6), las cantidades de información de Fishery KuHback verifican la siguiente relación:

1IK (í ; e, e + A e) = — IF (£, e) • A 0* + o (A o2).

En efecto,

i,«;M + A « ) = | / ( * ; * ) i o g /(/:(;;*Ae)

áx!-I / U ; 0 ) [log f O;0 + A 6) — log / (# ;<?) ] d x.

Y si log j (x; 6) cumple las condiciones de regularidad suficientes,obtenemos mediante un desarrollo de Taylor

l o g / O ; ô + A<O = log / (* ;0 )+ dl°sf(*'6) _ó »

1 O 2 l o g / ( ^ ; e )+ T ^ A ^ + 0 ( A ^ )

de donde

ò log / (x ; o)I K (£ ;M + Aö) = - f /í*; fi) I — A « +- I /(*;«) ["-

E

1 o2 log/(*; 0) T+ 1 ôoï ' - A ^ + O Í A e » ) á*.

- 568 —

Pero si se da la condición de ser R independiente de 6, como es-tamos suponiendo en este estudio, resulta

f ò log f (x; 6) r ò l o g / ( A T ; « ) ~lJ X"«' ^ A6^ = A « . E [ J = 0

R

f Ò» log/(*;*) f ô2log/(*;0) l- ] / ( * ;* ) • ^ *, = -E|^ _ J=IF (^

de donde

T K (í ; o, o + A 6) = J r. (í, é) • A «2 + O (A 02), c. q. d.

1.4.2. TEOREMA.

A' el parámetro O puede únicamente tomar dos valores, 6X y 02;,COM probabilidades a priori /> (Oj) = p y P (82) = 1 — p, respectiva-te, y se coïncidera la información de Shannon como función de p, su-relación con la de Kullback es la siguiente.:

r a is (€• °) l f * Js (í. o) iHT—L •'•íí:<->J¡l-»T—L, —•«^•-'·En efecto,

ls (|. O) = H(íi)-H(n/í); H (O) = — p \ o g p — (i — p)iog(i — p)

P f (x; 6) (i-#)/(*;«a) -P (o A) = ; P (6 Ix) =1 # / ( * ; « , ) + (i-»/(*;ís)

2 í / (* ;« , )+ (i-#)/(*;»2)

Pongamos

/W = í / (^ ;e i ) + (i-#)/(*;«2)

— S69 —

Entonces,

f \ Pt(*;«¿ Pt(x;6¿H^)=-J f^[-T^r^-j^-+

(i. —p) f (x; e2) (i-?)/(*;«2n_j_ Jog lli X =

/(*) /(*) J

= _ rR

-/'-

P f (*-,6,) log -P ï (x; 6J

/W

(!-#)/(*;«„)#)/(*; <y log -— rf ^ =

r r /(*;« t): — I Pí^-.e^logpdx- I # / (* ;<? x ) log —^—— d^r —

- / (!-*)/(*; í,) log (!-#)<**- í (!-#)/(*;«,) log

/(*)

/(*;«.)/W

•</*•.

IS(í'n) =-/• log í-(1-í) log (!-/>) +/ . log / - / í(X;6l)dx +

B

> f f (*; 0,)R

C /(f-.ej r' l /(^^log -——dx-+(l-p)log(l-p) I f ( X ; 9 2 > d x +

k

C /(*;«,)+ (!-/•) / f (*; «J hg d x,

B

es decir,

/(*;«.)/* /(*;« t) rI8(5.°) = # / /C ' ï^ log ¿^ + (!-/•) / /(*;«.,) log

/(*)B

- 570

Derivando respecto a p:

'"ò I8 (Ç, O) r f (*; S•)

" "')log-^T<" + '=//<,:«,

r f-[/(*;«,)-/(*;<>,)]/(*; ̂ ) /(*;«,)!J >(" «4 -70 -̂ "-Tw-T"R

f(*;8¿/(*)-2) log TTTf- d * + (1 — í J-//(.;,

R

-[/(*; ̂ ) - / (*; «,)] / (* ; «,) / (* ; «2.).//(,;«,)[- / W2 ' / O)

<** =

/* ... /í*;^) /• /(*;«. ,)- /(*;<»!)-J/^^iog-^-^ + íJ ^ /(*;-,)-*-

B R

r /(^;o2) Ç f ( x ; e ¿ - f ( * ; * ¿-I f (*;0j \og-jj-j-d*+ (l-fl j —y^ f(*;9jd*.

Dando ahora a /> los valores cero y uno, resulta

a) p = O => f ( x } = f ( x ; 62) :

f o I 8 ( ï , f l ) T r /í*;^)

—íí~J... -/"•"•""-/uív-"**-B

Ç f(*;6¿ -1(*;J /(*;«,)

í ( X · , e i ) d x -

- /"/(*;•/C*; O

; S ) log =— ci ̂ + 1/(*;«,)

B

rn*;V-t\.:'j . f ( f . , , f ) ¿ , = W,w.J f(x;62}

— 57« —

b) p = 1 => j (x) = f (x; 6,):

ò I8 (Ç, Ü)I ò I8 (Ç, O) 1 /• f(*;0¿I—^fi-J^^T^**1-

/

/• /(*:*,)-/(*:<>!)J TíT^)

R

T /(*;02)-J /(*;«,) lo* -^—

B

/(*;«,)-/(*;«!)

•f(x;6Jdx —

d x + O

/(*;«,)/ ( * ;<gd* = -IK(ê;02,íT),

1.4.3. Otras relaciones:

Entre las cantidades de información de Kullback y Shannon, res-petando las hipótesis del teorema 3.4.2, y representando por 6* unvalor ficticio del parámetro que correspondería a la función de den-sidad marginal de la variable \ :

f(x;0*) = pf(x; 0,) + q f (x ; 0¿, 3=1-?.

se pueden señalar muchas relaciones, las más importantes de las cua-les se reseñan en los siguientes teoremas.

1.4.3.1. TEOREMA.

i8(É,o) = # i K ( € ; 9 J ( n + « I K «;»,-*•)

En efecto,

P f ^ - . e j Pf(x;0t)A Pf(*;(>,}f(jf.e*) lo^ •' .-~r +

qf(x;6¿ qf(x;0,)H—r,—L^~ l°s —/(*;«*) /(*;«•)

j/í*;^

/(*;«*)

• )d* =

~ 57* —

/= — p log p — q log q 4- / P f (x ; ̂ ) log p d x +

r f (*; e,)+J*/(^)log7(^n^ +

B

/

/* f ( <V ' fì ~\

9f(*;0jlogqd*+ / ?/(*;«,) log ' '- d*.I t(*,<> )

R R

Y por ser / (x ; 6X) y / (x ; 92) funciones de densidad, resulta

Is (£> n) = — P l°e P — 1 !°g' ? + P Io8' # • l + P I f (x; <V/C*;^)

) log —7^ 77- í¿Jtr +f(x;6*)

C /(*;«,)+ ? log ? • 1 + s / / (*; 0) log -———- ¿^r =

/ í (.«;<>)R

f í (x; o,) r i(x-= P \ / (^J^log -,. , dx + q \ /(*;fl2)log ——-

j / ( . * > " ; ^ / ^ >

/(^;^

*)d^ =

= #i K ( í ; f l i · < l *)+ (?iK( í ;92' t f*) '

1.4.3.2. TEOREMA.

ò Is (g, O)

òT = IK.(í ;«!,«*) -iK(é;«a .n

En efecto,

ò I8 (í.. Ü) T /(*;V T= / 7 (*;«!> log — — rf*- / /(*,-«,) log /(*;0

+/ò# / ' x J ° /(*;**) ./ a /(*;n

[/ (* ; 9 J -f (x; 9J1 f(*;6¿-p+ [f (x; 9¿ -f (x; 6J] f (x ; »j (1 - p)

_ /(*;*")

d^ +

(¿4: =

= I K (£ ; «j, n - i K (£ ;^ 2 , n +

— 573 —

/

/ (x-.ej f (x; 02) - p -p t (x- e¿* + f (* ; <>2)2 - p f (*; 02)2 -

- í(x;6^f(x-e2) + P í (x; »,} j (x; e,)/>70-*)

= IK (í: «i'«*)- IK (É ; "2. **) + L-

<¿* =

Y se tiene

-/R

-/

P \f(x;6¿f(x;(>¿-f(x;{>y-f(x;62y + / ( * ; < > , ) / ( * ; 02)] +

+ /(*;0 2 ) 2 - / (*;0 1 ) / (*;<g

/(*;«*)

-í [/(^;ô2) —/^;«!)]2 + /(*;e2) [/(*; 02)-/(*; ̂ )] d^r =

f

/(*;«•)

[/(^;^)-/^;^)] [ í^;oJ- /> ( / (* ; O-/(*;«,))]

•/

/(*;«*)

[ /(^;ö2) — / ( ^ ; ö , ) ] L ? / ( ^ ; e 2 ) + ? / ( ^ ; e i ) ]

- d * =

-//(*;O

[/ (^; e2) — f (x; et)] d * = o,

Del teorema anterior se obtiene fácilmente la relación 1.4.2 alparticularizar la derivada en los puntos p = O y p = 1.

1.4.3.3. TEOREMA.

p JK (£;«!• **) + i JK (í; *,. **) = f ï J* (í ; ̂ . fia)

- 574 -

En efecto,

JK (é ! «!• «*) = IK (£;«,, tf») + IK (f ; fi*, tf,) =

f / (*;*,) /• /(*;«*)=J /(^)log 7^dx+_) /("<•>"* Tc^T"-

= 1 [/'(*; 0*)-/C*;^)] log -——d*.f (*; e*)T^Te^

Pero

ttx-.e^-f^-.ej = pf(x;8¿ + qf(x;6¿—i(x;<>¿ =

= ?/(*;02)-(i-/ ')/(*;01) =î[ / (^;o2 . ) - / (^;«1)] ,

de donde

ÏK (í;0! .«*) = 3 / [/(*;*,)-/(*;«)] log — d^-J - ,, ,,

f (x; e*)

í(xTõ^

Análogamente,

f (x; e*)JK (É;«„.»*) = -# í [/(*;«,)-/í*;^)] log

/(-;*,)•¿r.

Y así resulta

il* (É ;«!•«*) + î i T K (f ;«,,«*) =

í ? = / [/(^;e2) — í(x;6¿] ]0gf(x;tì*)dx -

R

~pq I U(*;62i-i(x;0^ log-/ (x; O J d x -

n

— Pi [/ (x ; <g — / (x ; ôj)] log / (JT ; ô*) d x 4-

— 575 —

+ pg i [ / (* ;e 2 ) - / (^ ;« 1 ) ] iog/ (*;« 2 )¿ár =J

r / (*;«2)Pi l [ / (^¡^-/(^Jö^log — — àx = p qJK(è;61,6î),

J I Ve ' v

1.5. La cantidad de información de Shannon y el muestreo

Vamos a exponer en este apartado algunas ideas relativas al es-tudio de la información en el muestreo. Expondremos en primer lu-gar el problema, aún sin solución conocida por nosotros, cuya re-solución puede dar lugar a los resultados posteriores, para acabarcon unas indicaciones generales sobre el empleo de la cantidad deinformación de Shannon en estos problemas.

1.5.1. Problema abierto.

Es indudable que la cantidad de información de Shannon conte-nida en una muestra de tamaño n de la variable ? sobre el valor delparámetro 6 debe ser una función creciente con n.

Una función que, además, debe respetar la acotación de esta can-tidad de información por la entropía del espacio paramétrico. Lostrabajos de Rényi corroboran esta afirmación dando las acotaciones-correspondientes para la «cantidad de información despreciada», di-ferencia entre H (û) e Is (l, Q).

Los teoremas de Rényi garantizan en ciertas condiciones la con-vergencia de Ia (Ç, u) hacia H (ü), pero adolecen de ser unas aco-taciones en las que no se da una auténtica medida de esta conver-gencia, esto es, no se expresa explícitamente la disminución de laincertidumbre residual del espacio paramétrico.

Este era nuestro objetivo con los teoremas anteriores, aprovecharla aditividad de la información de Kullback para conseguir la ex-presión de Is (ï, Q) en función del tamaño muestral, objetivo queno nos ha sido posible lograr.

Pero suponiendo resuelto este problema, pasemos a pensar lo quecon su solución se podría hacer.

576 -

1.5.2. Planes de muestreo.

La valoración de la incertidumbre residual depende de la magni-tud de la incertidumbre inicial de cada problema en concreto. Aquíaparece un elemento subjetivo : la cantidad de esta incertidumbre queel estadístico está dispuesto a admitir como aceptable.

Definido este nivel de información (o nivel de incertidumbre re-sidual) como

H(0)-I8(£,0) ^ I8(í,n)H (iî) H (n)

«1 estadístico podría fijar un valor arbitrario o. que esté dispuesto aadmitir como margen de error en la información recibida. En esteaspecto no hay diferencias importantes con el clásico nivel de s:g-Tiificación.

Entonces se buscaría el tamaño muestral óptimo de forma que elnivel real calculado fuera menor que el valor a tolerado. Esto per-mitiría un diseño del muestreo que, intuitivamente, es al menos tanadecuado como el- indicado por la precisión del estimador u otrogmétodos.

Otro sistema aplicable sería el siguiente : valorar la información•que cada muestra concreta aporta sobre el espacio paramétrico ü(ésta no dependería del tamaño muestral, sino de los resultados apa-recidos) y detener el muestreo cuando el nivel d información des-preciada fuera inferior al f i jado de antemano, con lo cual obtendría-mos la regla de detención para un muestreo secuencial.

Si en lugar de manejar un nivel de incertidumbre residual seconsiderara una función de probabilidad de error asociada con las•decisiones aconsejadas por la información recibida, se podría defi-nir esta probabilidad como

_ Is & "}

P = 2~ H(Cl,n

•donde la base 2 se debe a pensar en el caso discreto, en el cual coin-cide con la base de los logaritmos empleados para medir !a informa-ción. Esta función cumple las siguientes propiedades :

- 577 —

1) Si la información de la muestra sobre el parámetro es com-pléta, la probabilidad de error es nula :

Is ({. il)Is (j-, Ü) = H (£i) =£> H (n/£) = 0 ~^> = oo =£> P = 2-- = 0.

H (n/j.)

2) Si la información de la muestra sobre el parámetro es nula,la probabilidad de error es la unidad :

Ig (Ç, n) = O => H (n/lp = H (O) =í> P = 2« = 1.

3) Si la incertidumbre sobre el espacio paramétrico se reduce ala mitad, la probabilidad de error es 1/2:

H (iì/a;) = H (O) =í> Is Q, O) = H (Cl/Ç) =£> P = 2-i =¿ z

Limitando esta probabilidad de error se llegarla, como antes, aobtener un tamaño óptimo de muestreo o un criterio de detención•de un muestreo secuencial.

2. INFORMACIÓN PUNTUAL

2.0. Sumario

En el presente capítulo pretendemos analizar los problemas quela cantidad de información de Shannon presenta, debidos a su defi-nición como valor medio, lo cual conduce a veces a interpretaciones•erróneas, pues puede ser que pensando que aún no se ha obtenidosuficiente información se prosiga un muestreo, cuando en realidad lainformación conseguida supera al valor medio calculado ; o bien quecreyendo que un cierto valor del parámetro contiene más informa-ción sobre la muestra que los demás valores posibles se le aceptecomo verdadero, cuando en realidad no se están teniendo en cuentapara nada las muestras reales obtenidas, sino nuevamente unos va-lores medios extendidos a todas las posibles muestras.

Estos problemas nos han llevado a la conideración de una infor-mación más particularizada, la informa-don pwif.ua.1, cuya defin:ción•es singularmente sencilla, pero que no por ello deja de tener una

- 578 -

serie de propiedades que la hacen válida en el estudio de diversos-problemas. En particular hemos estudiado las relaciones de dicha in-formación puntual con problemas clásicos del muestreo y la estima-ción para tratar de dar un significado a dicha medida y al mismo-tiempo obligar a que ella nos ayude a interpretar en términos intui-tivos alg'unos enunciados de carácter puramente matemático cuyavalidez no es discutible, pero que carecen hasta ahora de un valorheurístico que consideramos importante en una rama como la Es-tadística Matemática.

Con estas propiedades aquí señaladas no se pretende rematar elestudio de esta función, sino todo lo contrario ; abrir un camino porel que pueden seguir ulteriores estudios que conduzcan a resultadosmás importantes.

Sólo nos resta decir que hemos seguido empleando, como en eïprimer capítulo de este trabajo, la terminología relativa al caso con-tinuo, si bien los resultados son idénticos en el caso de variables alea-torias discretas.

2.1. Por qué la información de. Shannon no es útil en un testde hipótesis y alternativa simples

La cantidad de informacón Is (?, O) puede considerarse como va-lor medio de dos tipos de información :

a) Como valor medio extendido a todos los valores de la varia-ble ? (muestras) de las informaciones contenidas en cada uno de ellos-sobre el espacio paramétrico O :

= ris ç, n) = j w (x) [H (n) - H (n/x)] d x.

b) Como valor medio extendido a todos los valores del paráme-tro 6 de las informaciones contenidas en cada uno de ellos sobre lavariable ? :

ls (¡c, n) = / a , (9) [H C) - H (í/e}-] d e.

n

- 579 —

Nos interesa esta última expresión que vamos a considerar enrelación con un espacio paramétrico Ú formado únicamente por dos•elementos, 9t y 62, y siendo la distribución a priori w (6J = p,to (e,) = l — p.

De acuerdo con lo visto podemos considerar las informaciones•que cada uno de los valores del paràmetro contiene sobre lamuestra £:

Is («!• $ = H ($ - H (r/«,)

Is(^0 = H(í)-H(ï/e2)

Si comparamos ahora estas informaciones con la intención de•elegir como verdadero valor del parámetro aquel que contenga másinformación sobre la muestra, tendremos, por ejemplo, lo siguiente :

IS («!• ï) > IB («,. ï) <=> H (Ç) - H O^) > H (Q - H (Ç/é>2) <£>

<1> - H (£/<y > - H Ç/É>2) <£> H (^) < H a/02).

•Como, por otra partCj es

H (f/e J =nH (g/^) ; H (Ç/02) = n H (£/e2),

Tesu'tará que decidimos en favor de dl si y sólo si

H (É/^) < H (£/e2),

lo cual resulta poco ortodoxo en un problema de este tipo, puestoque no interviene para nada el tamaño muestral ni la muestra con-•creta obtenida, ya que las entropías a comparar son exclusivamentedependientes de la función de densidad o probabilidad de la varia-"ble originai \ para los dos valores del parámetro.

Lo que ocurre para que se provoque esta situación es muy senci-llo : las informaciones de Shannon son valores medios de unas in-formaciones mucho más «individuales» que las que hemos compara-•do ; en éstas no se puede evitar la intervención de la muestra enforma genérica, y por ello se hace preciso definir una medida de in-certidumbre e información más particularizada.

— S8° —

2.2. Entropía puntual (o autoinformación)

Sea i\ una variable aleatoria cualquiera cuya función de densidado probabilidad representaremos por g (y). Para cada valor y<, de lavariable -n se define como entropía puntual del va!or yc (o autoin-formación del valor y0) a

J Ou = — log g (y.)

La base de los logaritmos puede ser cualquiera, aunque por res-petar las normas de la teoría de Shannon se considerará, en general,,binaria para el caso discreto y natural para el caso continuo.

Obsérvese que la entropía (1.3.1) de una variable aleatoria no es-sino el valor medio de las entropías puntuales de cada uno de losvalores de la variable.

Es fácil probar que una función J dependiente de la probabilidad!de una variable aleatoria que cumple las condiciones

a) J 00 está definida en el dominio O < p < 1 y es diferen-ciable ;

b) J ( p q ) = ] 00 + J (?) ;

c) J (1/2) = les necesariamente la entropía puntual (ver, por ej., Finch).

2.3. Información puntual

Sean T, y T dos variables aleatorias cuyas funciones de densidad*representaremos por g {y} y h (tj, respectivamente. Para cada pa-reja de valores yl0, t0 de cada una de las variables se define como»información puntual contenida en y0 sobre ta a la expresión

IP Ov ¿o) = -r « o > --J(W

- S8i -

2.4. Primeras propiedades de la entropía e información puntual

2.4.1.

La entropía puntual correspondiente a todas las parejas de valo-res y0, t0 de dos variables aleatorias, *r\ y -i, es igual a la suma delas entropías puntuales de- ambos valoras aislados si y sólo si las'dos variables son independientes.

En efecto ; sea / (y„, Í0) la función de densidad conjunta de TIy T. Si las variables son independientes, se tiene

J Ü».. ¿0) = - !°g / (3-0. *,) = - log [g ty0) • h (<0)] =

= - log g (y„) - log: * (í0) = J <jr0) + J (t0).

Y si se da la igualdad

J (y,,) + J (*„) = J (3V í0), V y« -1 , ̂ >

=£> — log / (3V Í0) = — log g (yo) — log à (íoi = — log [g (yo) • h (<0)]

=£>/(?„,*„) = *(«„)•*(* . ) , V.y0,*8,

luego -n y T son independientes, c. q. d.

2.4.2.

La información puntual es simètrica:

IP (-V ¿o) = ïp C*0, y,)-

En efecto,

 (í /y )v ü-'·^o^TP CVo- *o) = - log Ä (Í0) + log h (ia/y¡) =*«.)

y por la fórmula de Bayes se tiene

, „ . . *(*,)• g (y0/«0)

"(W—TOO—

- s«* -

.con lo que resulta

r i A(g-*(Vg 'Ivg ogl^g'~^J—J °s& O'o/g

IP (y . í ) = log I —"-— I = log —— =p v<>' o' ° I /. /, N „ f.. \ I ° " (v )

= — !°g £ Ü1») + tog g (Vg = IP (V- 3O. c. q. d.

:2.4.3.

La cantidad de información de Shannon entre dos variables alea-torias ti, T y la cantidad de información puntual entre los valones yfl,,t0 de las mismas, verifican la relación siguiente :

'8 (i-') = V [/p (yc, gì,

.donde E^^ representa la esperanza matemática relativa al espacioproducto que corresponde a la variable bídimensional (i\, T).

En efecto ; de acuerdo con las notaciones anteriores podemos es-.crlbir

IP GV í0) = — log /i (Í0) + log A (ío/3/o) = — log- £ ü>0) + log g Cyo/í0)

E„ t [p (y0- *«)] = / / / K- g f- lo£ e (y«) + lo§' « Cv^gid -vod '»'k R'

ísiendo R y R' los dominios en que las funciones g (y„) y h (i„) sonjno nulas. Desarrollando la expresión anterior podemos poner

E, t [IP (y,, t.)] = - f f / (y0, í •) log g 00 ¿ y0 á t +-i) t L>P uv "o /J - | l / ^ o ' "fl^ IUS S U'n/ •* J'o o

re R'

r r= ~J Jre R'

+ f l / ô», g ^g.? (vg d3'o í i ío =R R'

= -J log á- (y0) l^ j / Cv0, ¿p d í0 J d y0 +R R'

+ \ h(¿»)[ / ' s (3 ' „ / g l o &*(y^g d y a l d «o =R' K

= - / g CV0) log ¿ (y0) d yo + /" * (tc) [- H (,/ío)] d ¿0 =

R R

= HM-H.OíA) = ]sO,,r), c. q. d.

- 58j -

Este resultado constituye una justificación para el nombre de «in-formación puntual» empleado.

2.5. La información puntual en el muestre o

Son muchas las propiedades de la información puntual que làhacen apta para ser empleada en los problemas de muestreo ; nos li-mitaremos a dar los resultados más significativos para acabar, comoen el tema anterior, con un comentario sobre posibles estud os pos-teriores.

2.5.1. La decisión óptima en ufi problema- de estimación.

Trabemos de seguir la siguiente regla de decisión en un test dehipótesis simple y alternativa simple : adoptar como valor correcto•del parámetro aquel que suministra mayor información puntual so-bre la muestra obtenida ot en virtud de la simetría, el valor del pa-rámetro sobre el que posee más información la muestra concretaaparecida.

Se tiene

IP (X, e¿ = — log u, (0,) + log o> (0/X)

IP (X, 02) = — log » oy + log o, (02/x).

Y al comparar, por ejemplo,

c o ( ö / X ) o,(ö,/X)ir (x, <y > ip (x, 02) <£> log —— > •

>(«,) «(«„i

y siendo el logaritmo una función creciente, la desigualdad se veri-ficará si y sólo si

w (e/X) co (<yx)

<•> iöj) « («„)

lo que, en contra de la decisión usual de elegir el valor del paráme-tro con mayor probabilidad, a posteriori presenta una comparación•entre los cocientes de las probabilidades a posteriori y a priori, si-

- 584 -

tuación que permite corregir nuestra valoración errónea de la pro-babilidad a priori debida a una excesiva subjetivación de los datosconocidos.

Además este resultado es trasladable directamente al caso de másde dos valores paramétricos : se elige como verdadero valor del pa-rámetro aquel ein,, el cual es mayor el cociente ent.e las probabilida-des a posteriori y a priori.

Por otra parte, si los valores del parámetro son únicamente dos,,6j y 63, se tienen las siguientes relaciones :

«> (<y = ! — <•> (V ; « (yx) = 1 — M (yx).

Y entonces,

u (o /X) 1 - «, (O /X)ip (X, v > ip (x,. e¿<z> ,TT->—¡ T^T ̂u, (6J 1 — w (y

» (e /X) [i - », (o )] » (e /x) - « (o /x> (« )<S> J : >1<Í> ^ —>!<=>

„.(^[i-o.xvx)] «.(fi ,)-«'^)»^/«)«. («,) — « (vx) < • > ( « , ) + » (Vx) - •" (ö,)<=> —i i— > i <¿>

«(e,) —«.(Voyx)« (vx) — o, (^) o, (vx) — M (V

<:=> 1 + » (e,) e1 - » (Vx)] > ] <í> tó ^i)[1 - "' (ei/x)] > '

lo cual, salvo en casos triviales,

(M (v = o, u (vx) = i ) .

se reduce a

«. (VX) > « (V,

criterio que coincidiría con el de la máxima probabilidad a posteriorisi la distribución a priori fuera

«> (<y = <» (02) = 1/2.

Por si estas relaciones no bastaran para justificar el empleo de lainformación puntual, se tiene el siguiente resultado :

El criterio de la máxima información puntual coincide con el de lamáxima verosimilitud.

- 585 -

En efecto ; hemos llegado a decidir que el valor correcto (esti-mación) del parámetro es el 6* que cumple

JP(O* . X ) > I p ( a , X) , Va=M*.

Y esta relación se traduce en

i (6*/X) oí (ô/X)-> ;~.— .- V a * â*.

O) (0*) O) (ó)

Pero si empleamos la expresión simétrica de la información pun-tual, lo anterior se convierte en

W (X/â*) w (X/â); > , V 0 * â* <í>ií-(x) ^ IF (X) ',

<í> ir (X/ô*) > \r (X/â), V ô * ô*.

Y basta recordar que W (X/6) representa la verosimilitud de Iamuestra cuando el valor del parámetro es 6, para probar lo enun-ciado.

2.5.2. Región crítica óptima en un test de hipótesis simpley aternatïva simple.

La búsqueda de la mejor región crítica para contrastar la hipó-tesis 6 = 6, frente a 6 = 62 puede hacerse a través de la informaciónpuntual del siguiente modo :

Sea k un número real cualquiera dependiente del nivel de signi-ficación fijado a. Si existe una región 5\ del espacio muestral talque se cumple

If (X, â,2) > /p (X, ej + K, VX £ S1

1F (x, â2) < /p (x, e ¿ + K, VXQS^,

entonces S^ es la región crítica correspondiente al test de máximapotencia entre los de nivel -í. para contrastar 6 = 8j frente a 6 •= 62.

— 5»6 -

En efecto,

<£>

IP (X, «g > Ip (X, ̂ ) + K, V X € S<^bf\>

LP (x, e j < ip (x, et) + K, v x 3 s,

¥ (x/<y if (x/0 )!°g - „ .... - > '»g -T^^ + K> V X € S1

log

if (X)

T (X/<y

W (X)<

iF (X)

^(X/fl,)

V (X)+ K, V X $ S i ;

lo que poniendo k = log C (lo cual es posible por ser k '€ R y ase-gura que es C > 0) se reduce a

W (X/e2) F (x/«,)

T (X)

W (X/é>2.)

ITf ÍY1

^ lOg L •

- < log I C •

V (X)

W (X/«t)1TP CV\

1 . V ̂ 'fc •=!

1, V X ^ S 1V (X)

Y por ser el logaritmo función creciente, lo anterior es equiva-lente a que

W (X/02) ir (X/öj)->c- .,. ,Y, . vx es;\F (X)

IF (x/02) < c

T (X)

W (X/flj), v x ^ s1

<=>

iji-(x) - - ip(x)W (X/g > C • IF (X/0,), V X € Sx

<íí>ip (X/tf,) < C - IF (X/fl,), V X ^ Slf

con lo cual, tomando C como el valor dado en el teorema de Neyman-Pearson (ver, por ej., Ríos), se obtiene el resultado que queríamosprobar.

Desde luego el anterior resultado carece de importancia práctica,pues es más cómoda la aplicación directa del teorema de Neyman,-Pearson para la obtención de las regiones críticas correspondientesa tests de máxima potencia, pero nos permite dar una interpretaciónde dicho teorema en términos de la información puntual.

- 5»7 -

Consideremos para ello la expresión de esta información :

Ip (6, X) = log-ai (a/X)

'(«T

El enunciado anterior garantiza que si existe un número real Kque cumpla

o. (vx) o, oyx)log ,— > log 7— + K, V X € St»oy

.«.(VX)

co (¿g

_ . « (yx)log —- < log -—- + K, V X g S1 ;

w (02) <o (^)

entonces Sj es la región crítica óptima e nel sentido de la máximapotencia al nivel de significación fijado a.

O lo que es lo mismo, que si existe un número real positivo Cque cumple

« (yx^«(¿y

^oyx)«(O

>c' (yx)co (^)

^o ( yx)«(«,)

, v x e sn

, v x ^ s i ;

entonces Sj es la mejor región crítica para efectuar el contraste6 = 6, frente a 6 = 62.

Por tanto, entre los cocientes de las probabilidades a posteriori ya priori existe una relación homotética. Los puntos muéstrales per-tenecientes a la región crítica son los puntos «exteriores» en la rela-ción de homotecia, y los puntos «interiores» de dicha relación co-rresponden a la región de aceptación.

Esto permite dar una idea intuitiva del teorema de Neyman-Pearson que no da el propio teorema, pues en él se relacionan dosregiones que, salvo ser disjuntas, no poseen ninguna otra relaciónrespecto al valor de 6 ; en cambio, con esta expresión obtenemos esasensación de «proximidad» que debe corresponder a la idea de re-gión de aceptación. v

— 588 -

Además, esa proximidad se traduce en buscar un «entorno» dela información puntual, lo cual indica que la región crítica es aque-lla en la que no se ha conseguido la suficiente información para de-cidir en favor de una cierta hipótesis.

\\\v2.5.3. El método Bayes con función de ganancia igual

a la información puntual.

Si la función de pérdida elegida en un problema de estimación esigual al opuesto de la información puntual, log w (6) —• log o) (6/T)para cada muestra X obtenida, se tiene, para el estimador Bayesque minimiza la pérdida media

B (T) = -/*<x>/Rn fi

> (0/X) Ip (T, 6) d 6 d X =

-//W (X, 6) Ip (T, 0) d e d X = — Is (T, O),

R* x n

lo que supone que la pérdida media mínima (B (T)) corresponde ala información de Shannon Is (T, £i) màxima y por tanto si existeun estimador suficiente (1.3.5) se puede enunciar:

- 5»9 -

El estimador Bayes con función de pérdida igual al opuesto de la•información puntual es, si existe, un estimador suficiente.

. Si este estimador suficiente no existe, el estimador Bayes con lafunción de pérdida dada es el que más se aproxima a la máxima in-formación que es posible obtener.

¿ A qué se debe esta información máxima ? ¿ Qué ocurre entre los•estimadores suficientes y la información puntúa ? Gracias a la sime-tría de la información puntual es fácil probar el siguiente

2.5.4. TEOREMA.

La inform·ación puntual contenida': en una muestra- sobre cada•valor del parámetro coincide con la información puntual contenidaen un estimador de dicha muestra sobre el mismo valor del parámetroJÍ y sólo si el estimador es suficiente.

En efecto ; si el estimador es suficiente, según el criterio baye-.siano (1.1.2.5) se tiene

w (0/x) = u (o/t), t = t (X), v 9 € n

y por tanto

•a (e) — w (e/x) = « («) — « (e/f), t = t (x), v s e n.

es decir,

ip (x., e) = ip (t, 6), v 6 ça.

Recíprocamente, si es

<o (e/XiTp (X, 6) = Ip (t, 0). V « € H =í> log

•W

<•' (o/í)= log => o. (e/x) = «. (e/t), í = * (xv v e € n.u (e)

"Luego T es suficiente para 6, c. q. d.

2.5.5. Algunas ideas.

Vamos a intentar exponer posibles aplicaciones de la informaciónpuntual en relación con problemas de muestreo, en especial con los

— 590 —

problemas en los que, en el pasado capítulo, indicamos que era posi-ble el empleo de la cantidad de información de Shannon.

Se puede definir un nivel de información puntual residual cuyovalor máximo a fijará el estadístico y regular la detención de unmuestreo secuencial del siguiente modo :

Detener el muestreo cuando la información puntual correspon-diente a un cierto valor 6* del parámetro sea tal que la diferencia

I p ( X , f l * ) - J p ( X , e )

convenientemente normalizada (por ej., dividida por —log o> (6*))supere el valor 1 — a, lo cual significaría que la información puntualcontenida en 6* y otro valor cualquiera 6 sobre la misma muestra,están lo suficientemente alejadas como para que la decisión se in-cline a favor de 6*.

En cuanto a una medida de la probabilidad de error asociada ala decisión aconsejada por la información puntual recibida, podríapensarse en algo análogo a lo dado para informaciones de Shannon,con !o cual dicha probabilidad vendrf'a medida por

P = 2'p'x ' 91/log(» 6 'XÍ

Pero las propiedades no se prestan a una interpretación d'recta ;por ejemplo, si P = O resulta <o (6/X) = O, lo cual no parece muycorrecto, aparte de que sería preciso definir una probabilidad deerror para cada valor posible del parámetro.

Hemos visto que la información puntual y sus métodos tienenrelación con los métodos de la verosimilitud máxima ; un problemaa estudiar podría ser la interpretación en términos de la informaciónpuntual del test de razón de verisimilitudes. Otro estudio podría di-rigirse a los tests de hipótesis y alternativa compuestas, definiendouna cantidad de'información que tuviera en cuenta los distintos va-lores del parámetro que intervienen en cada hipótesis o, simplemen-te, una esperanza de la información puntual correspondiente a estosvalores, ponderada con unos coeficientes que sería preciso definir.

Por último, queremos señalar que se podría introducir un estu-dio para una información puntual que tuviera en cuenta las utilida-des de los resultados, de modo similar a la incertidumbre útil queintroducimos en el próximo capítulo, y desarrollar con ella un estu-dio paralelo al realizado en este trabajo.

— 591 —

3. INFORMACIÓN Y UTILIDAD

3.0. Sumario

Ya hace bastantes años que Yaglom señaló en la obra que se citaen la bibliografía un ejemplo claro en que la medida de Shannon no-resultaba convincente ; su valor era el mismo frente a las dos expe-riencias siguientes : la primera, un tratamiento médico que conducíaa curación completa en el 90 por 100 de los casos y a una mejoravisible en el 10 por 100 restante ; la segunda, otro tratamiento mé-dico que conducta a una mejora en el 10 por 100 de los casos y adesenlace fatal en el 90 por 100 restante.

La explicación de este «fallo» en la medida de la incertidumbreestriba en el origen de la función entropía: fue creada para resolverciertos problemas de la transmisión de mensajes .en los cuales sólo-se pretendía reducir el tiempo de transmisión (y así su coste) pres-cindiendo por completo del «contenido» del mensaje en cuestión.

Pero el hecho es que en la vida real los resultados de una expe-riencia llevan aneja una utilidad (que puede ser subjetiva del decisor)y que una persona cualquiera no tiene la misma perplejidad ante laganancia de un millón de pesetas o la pérdida de la misma cantidadcon probabilidades 0,9 y 0,1, respectivamente, que frente a la ga-nancia de un millón o mil pesetas con el mismo sistema de proba-bilidades.

Y sin embargo, la literatura científica apenas se ocupa de esteproblema. Solamente el artículo de Guiasu y el libro de Picard hanllegado hasta nuestras manos.

En el presente capítulo nos ocupamos de definir una función deincertidumbre que tenga en cuenta la utilidad asociada a los resul-tados y de exponer sus primeras propiedades junto a una interpre-tación de las mismas.

No consideramos con ello resuelto totalmente el problema, pero-a' esperamos que sea una contribución de la cual puedan surgir nue-vas posibilidades.

592 —

3.1. In certidumbre puntual útil

Sea A un conjunto de n resultados posibles, Alt A,, ..., A,, conprobabilidades

n

p^p^-.pn' PL >°. y p, = i>

a los que se puede asignar una utilidad ult u2, ..., un, respectiva-mente.

Supondremos que es u¡ > O, V i = 1, 2, ..., w, lo cual no repre-senta restricción alguna empleando, por ejemplo, utilidades en elsentido de von Neumann, ya que la transformación por homoteciaso traslaciones da lugar a funciones de utilidad equivalentes (ver. porejemplo, De Groot, pág. 91), o utilidades del tipo R — z (Ríos, 1967)cuando se consideran ganancias.

Se llama in certidumbre puntual útil (o autoinformación útil) co-rrespondiente al resultado ¿-esimo, a la expresión

Jtf""')=-Tiír lo*>'

siendo

E M = £ Pt

es decir, la utilidad media de A.

Con esta definición hacemos que la autoinformación útil suminis-trada por un resultado sea proporcional al cociente entre su utilidady la utilidad esparada, y no sólo a la utilidad, pues en este segundo•caso se daría lugar a una gran incertidumbre en una situación enque todas las utilidades fueran grandes aunque idénticas. Este es undefecto del que adolece la medida de Belis y Guiasu (Picard, pági-na 119; Guiasu, pág. 236).

- 593

3.2. Incertidumbre útil

3.2.1. Definición.

Se llama in certidumbre útil de un conjunto A de resultados.Aj, A2, ..., An con probabilidades />,, p2, ..., pn y utilidades wlt uz,...., u.n, respectivamente; a la expresión

H U (A)=-¿>,E [«]

- I°g />;

La incertidumbre útil permite dos interpretaciones correctas :1) Se trata del valor medio de las incertidumbres puntuales úti-

les de los resultados de A. En este sentido, la utilidad de los resul-tados interviene en la incertidumbre puntual como parte integrante•de la misma :

H U (A) = V p, [J (p,, «,)]. J (tt, u,) =¿-J E M • log p

2) Se trata de un valor medio de las incertidumbres puntuales'definidas en 2.2 de los resultados de A ; entonces la utilidad no in-terviene en la incertidumbre puntual, sino en los coeficientes de pon-•deración :

H U (A) = V / (p , «,) [J (#,)], J (pt) = - log f„¿-J

•siendo

/ ( / > , » , ) = P¡ E[«]

tal que

" *.«.y ' ( « , # - ) = y-^^— =1.Z, ^ " r'' Á E [«]

- 594 -

Quizá sea más adecuada esta segunda interpretación : la incerti-dumbre individual de cada resultado no contiene como parte activaa la utilidad ; ésta aparece como un «peso» para dar fuerza a la in-certidumbre local frente a las incertidumbres de los restantes resul-tados. Por otra parte, la intervención de la utilidad esperada haceque no sea posible asociar una incertidumbre puntual útil sin el co-nocimiento de todos los resultados de la experiencia, lo cual siguehaciendo más aconsejable esta segunda interpretación (que vigorizala de 2.2). Y aún más : en algunos de los resultados que expondre-mos más adelante aparecen coeficientes de ponderación similares a los.que ahora empleamos, lo cual ayuda a la justificación de los mismos,

3.2.2. Primeras propiedades.

3.2.2.1. Coincidencia con la entropía de Shannon.

Si la utilidad de todos los resultados es la misma (u4 = A i=l...n),la incertidumbre útil coincide con la entropía de Shannop. del siste-ma de probabilidades {Pi}i_! n-

En efecto ; por ser u, = u, V i resulta también

E M = ^T ?, u :--- u,t = i

con lo cual los cocientes «¡/E [w] son todos ellos iguales a la uni-dad. Y en consecuencia :

H U (A) = - Jr pt log Pí = H (A).

La interpretación de este resultado puede verse por medio deun ejemplo : supongamos que para un decisor representan la mismautilidad los siguientes sucesos : ganar un piso, ganar un gran cocheo ganar un millón de pesetas; y que se plantea la situación siguiente:lanzar un dado correcto para decidir, según el número -aparecido,cuál de los tres premios será suyo. Entonces la incertidumbre de!decisor debe depender solamente de las probabilidades con que pue-

— 595 —

•da obtener cada premio y en absoluto de la utilidad puesto que éstala tiene garantizada con probabilidad unidad.

Además, de este modo, la incertidumbre útil resulta una exten-sión de la entropía de Shannon a situaciones más complejas que las•que admiten el empleo de ésta : transmisión de mensajes, adivina-•ción de números, por ejemplo, o incluso el muestreo en el que no.•se hace intervenir para nada la utilidad de los resultados.

3.2.2.2. LEMA (análogo al de Gibbs).

Sea A = {Alt A2, ..., A^} un conjunto de- resultados con utilida-•des respectivamente iguales a u1; u2, ..., un. Sean {pi}^! n y•{qt}i = 1 n dos distribuciones de probabilidad sobre A que verificanla condición

u u

^Pi11! = 2" liui = E M-i= 1 i= J

Entonces se cumple

n U¡ n Uj— >^ p. log u. << — %' loe q.

4-1 ' E [u] • ' ̂ ¿L £ [u] & 'i = l ' i = i L J

•con la igualdad si y sólo si coinciden las dos distribuciones, esto es,

P, = q¡. V i = i, 2,..., n.

En efecto ; la función log x verifica la condición log x <, x — l«on la igualdad si y sólo si es x = 1. Aplicada esta igualdad a los•cocientes q¡/p¡ se tiene

2¡ ?ìlog < 1, y¿

Pt Pt

con la igualdad si y sólo si

- 59t> —

Multiplicando los dos miembros de la desigualdad por p¡ '-— (la.£[«]

cual no cambia el sentido de la misma por ser

Pi > O, itt > O, Ë [«] > o,

resulta

ui 1í 91 »i P i aip, log < — , V * = l, —,«n E [«] p . ~ E [«] E [«]

respetándose la misma condición de igualdad anterior.

Sumando ahora todas las desigualdades correspondientes a cadavalor del índice i:

" M . a. » (7. M. " * «.y>. —!_ iog-l!_< y_?i_i__ y ^i^_l4l E W Ä A, ~ f^L E W ^ E W

siendo el segundo miembro igual a cero por la condición impuesta eriel enunciado. Así, pues,

" "f ?¡y ^ „ r , log —^— < Ofri E C«] /"i

con la igualdad si y sólo si pi = c,¡, V i, e. q. d.

Observemos cómo este resultado nos inclina nuevamente a pen-sar en la intervención de la utilidad en los coeficientes de pondera-ción, ya que es la igualdad de la suma de éstos la exigida en el lema,de Gibbs, y lo mismo ocurre en este caso.

3.2.2.3.

Sea A un conjunto de resultados Av A2, ..., A^ con utilidades-iguales a UT , u2, ..., UB, respectivamente. Si {Pi}i = i « es ufla dis-tribución de probabilidad sobre' A tal que

n l n

£[u]=^ P l u, = —2«,.

— 597 —

su incertidumbre útil está acotada por la entropía máxima de Shan--non para up, conjunto de n resultados, que coïncide en las condicio-nes anteriores con la incertidumbre útil de dicho conjunto.

En efecto ; con las condiciones del enunciado, se obtiene corno-caso particular del lema anterior que

n ut " »¡ l- V PI - ' n iogr pt < - V p log —¡¿j E [«] .¿J E [«] «

o lo que es lo mismo

" W¡ 1 " M¡ 1

- V í, „ r _, iqg />¡ < — log — y PI "VTT" = — los — = lo& «'^_j E [«] n ¿-t E [M] n

que es la entropia de Shannon correspondiente a una variable con wresultados equiprobables. Además, para • una variable tal, se tiene

" l u. l lH U = - V — log = - log = log n,

4—j n K- [M] n n

lo que concluye la demostración.

Hagamos un pequeño comentario : aparentemente nuestra «in-certidumbre útil» resulta «inútil» (valga la paradoja) frente a resul-tados equiprobables, pues en este caso no interviene la utilidad enla expresión final. Pero observemos que ésta no es la incertidumbre-máxima posible frente a un sistema doble de probabilidades y utili-dades ; de este modo, aunque para cualquier conjunto del mismo nú-mero de resultados equiprobables se tenga la misma incertidumbreútil, en cada situación (dependiendo de las utilidades) dicha incerti-dumbre ocupará distinto lugar en la escala de incertidumbres útilesasociadas. Es, en cierto modo, como si la incertidumbre asociada alas probabilidades fuera de tal magnitud que careciera de importan-cia la utilidad correspondiente.

.3.2.3. Maximisación de la incertidumbre útil.

3.2.3.1.

Fijado un sistema de utilidades ult u2) ..., un para un conjunto Ade resultados A1; Az, ..., Aa, la incertidumbre útil mâxin-.a se alcan-za para la-s probabilidades p¡ = e~ a E c u i / u , - , siendo v. la máxivna in-¿ertidumbre útil determinada por la condición

y e - K E [u]/n,. = 1.^_w

En efecto ; maximizar la función

-Z^TÍÍT10^'

sujeta a la restricción

i-¿>,=o,i = l

«s equivalente, según el método de Lagrange a maximizar la función

-¿><-ËT;^- I O g >< + a [ 1 - î>< ] = H U ( A ) + a - a ¿ # ,¡=1 L J L ¡=! J ,=!

lo cual equivale a hacer máxima la función

H U ( A ) - a = - V ^ T *' log » , + « ] =fri L E w J

= -¿" />( j log [/> «,- /E [«] • ett] = ̂ 1 />í lo8T [#,-*.' /E ttt] • e~ax].

— 599 -

Ahora bien, por ser log x < x — 1, resulta

H u (A) — « = V ¿¡logr^-V3:«) • <-"];< V i, [Ar"« ' / E [ u l - í -* — !]•*—' -̂*,i = i

con la igualdad si y sólo si

/,.-«,-y E [K] • e-x = 1, V «,

«s decir,

¿.«(. /E [B] = e-"- =£> p. = e- *E íu}l"¡

•que debe satisfacer la relación

V/.. = e~a·E m t",- = i

j para la cual es

H U (A) — a = O => H U (A) = a, c. q. d.

Como caso particular resulta el correspondiente a la entropía deShannon: si todos los resultados poseen la misma utilidad, la incer-tidumbre útil coincide con la entropía y en este caso se cumple

' E[«]p. = e- K E [«] /«,. =C> log p¡ = — a. =^>

E [M] .. l ..a = log p = cte. »; = E [K], V « =î> « = log /• = cte. =S> p, = — , V ¡

«¡ ' n

Observemos que la aparición del nùmero e se debe a considerarlos logaritmos en base natural; en otro caso este nùmero sería sus-tituido por la base empleada.

3.2.3.2.

Para un sistema de utilidades ui; ua, ..., nn de un conjunto A de•resultados Alt /42, ..., A*, si se fija la esperanza E [u] de la utili-

— 6oo —

dad, la in certidumbre útil máxima se alcanza con el sistema de pro-habilidades p¡ = e - t t E t u í / u - "»[»J , siendo * + § E [u] dicha incer-íidutnbre útil máxima y estando a y fi determinados por las condi-ciones

y e- a E [»]/"! — " E C"] =1¿—i

V1 u . e- a E [»]/"¡ — P E C»] = £ [u].1ÉÍ '

Es efecto ; maximizar

* M.- y >, P ' ]°E A,¡¿•í E [«]

sujeta a las restricciones

« «1-^^=0, E M - ^/.,«,= O,

¡ = i ¡ = i

es equivalente a maximizar la función

H u (A) + a h - V p. | + ß \E [«] - ̂ pt u. JL ¡; - t J L ¡ = l J

donde a y ß son los multiplicadores de Lagrange.Entonces se tiene

u. l

Hu(A)-a- / íE[ ,o=2>. -È7Ír1^T~~a^''~/?·2#'f'' =/ = l ' J ^¿ i = l i s= l

>i n

= ̂ Pi [ i ogy> r « , - / E r» ] - a - /3 M ¡ ] = 2" ^iogC^-V5!:«] .« -«-"« , - ] <i = l ¿ = 1

íí .

:<^ í¡ [/T"i /E [u] ' c" tt"ß ".-• - ^- •

— 6oi —

dándose la igualdad si y sólo si

p.«,-/E[«] = „-*-»„. t Vi¡

es decir.

< a - ß i / f )E [u]log p. = — a —/3.M. =>/>. = e "¡T = c- a E I«]/»,- - » E ["J.

EM '

y en este caso es

H U (A) — a — ß E [M] = O =£> H U (A) = a + jS E [wj.

Los multiplicadores a y ß deben satisfacer las relaciones

"V/> .= "V" í- *E [Zl]/« |. - ß E [K] = J

^—J ' 4¿_jí = 1 ¡ = l

V 1 / > . « . = V1 ». e - ^ E [K]/^. - H E [«] = E [«]¡ = 1 ¡ = l

determinadas por las restricciones iniciales.Como caso particular resulta 3.2.2.3.Este estudio es, desde luego, ampliable a diversos tipos de res-

tricciones, a la manera de Clough y Tribus.

3.3. El caso bidimensiofiftl

3.3.1. Presentación del problema.

Consideremos el conjunto de pares de resultados (A¡, B;-) del pro-ducto cartesiano de -A = {A,, A2, ..., AH} por B = {B,, B2, ..., Bm}sobre el que está definido un sistema de utilidades u¡¡ y de probabi-lidades ptj. Emplearemos las siguientes notaciones :

m

pt.: • probabilidad marginal de A¡ ; />¡ = ̂ P, ,•• ' - /=.1 •. •

n

q¡: probabilidad marginal de B; ; q¡ = ̂ p¡ ¡•'- , - • ' ¡ = i

ÒO2

r l j · . probabilidad de By condicionado por A¡ ; r¡¡ =——P,

r j i : probabilidad de A¡ condicionado por By ; r¡ ¡ = ''l¡

y las que se deducen de la siguiente

3.3.2. DEFINICIÓN.

Se llama utilidad marginal del resultado A¡ y se representa porMI al valor medio de las utilidades w¡,- respecto a la distribución deB condicionada por A, :

.«. =m

Z'"7 = 1«,,

Análogamente, la utilidad marginal ií¡ del resultado B; vienedada por

"j =n

Z'><i = 1"./

De este modo se tiene

E [», ,] = 2 ¿ P< i u< i = E [«-] = 2" Pi ui = E ["/I = ¿ 1¡ ui = E C«l'i- = 1 7 = 1

por lo que escribiremos simplemente E [«].

3.3.3. DEFINICIÓN.

Se llama incertidwmbre útil del conjunto B de resultados Blt

B2, ..., Bm condicionada por el conjunto

A = { A 1 , A I , . . . , A „ }

— *>o3 —

a la expresión

«• m u.

HUCB/A^-^I^^r10^i — l l — li = l ; = l

¿ Qué significado tiene la expresión anterior ? Alguno puede pen-sar que se trata de una definición «preparada» para poder obtenerlos resultados que siguen. Pero no es éste el caso ; el camino se-guido para llegar a dicha expresión es el siguiente :

Fijado un resultado Aj del primer conjunto A, queda determina-do en el conjunto de resultados B la distribución condicional de pro-babilidades r¡ ; cuyas utilidades correspondientes son u¡ ¡ de media

m

21r" «u = «,•; = i

La incertidumbre útil de este campo (B/A¡) será, pues,

» u. .H U (B/A.) = - V1 rt} '- log rt,.

i = i "'

Y con estas incertidumbres útiles podemos formar un valor me-dio a la manera en que se construye la entropía condicionada, perosustituyendo los coeficientes de ponderación que en ésta venían da-dos por las probabilidades, por esos coeficientes de ponderación quehacen intervenir la utilidad y de los que ya hemos hablado amplia-mente. Estos coeficientes son los valores

1 E [«,] E [«]

y con ellos se tiene

H U (B/A) = V p J' H U (B/A,) = -^ E [«]

71 m ti u n m u

-^'.Ts-v'"h"'-^'"T^rto""que es la definición dada.

— 6o4 —

3.3.4. TEOREMA.

La incertidumbre útil del conjunto de resultados A x B es igual•a la suma de to incertidumbre útil de uno de ellos más la incertidum-bre útil del otro condicionada por el primero.

H U (A x B) = H U (A) + H U (B/A) = H U (B) + H U (A/B)

En efecto :

u. .HmAxB)—^,,,-^-^,

í = l / = l

" '" U. .

.. ^T^log[^"-] =¡ = i s = i

•yyp- —— log- pi - y y pí, —>J— ̂Z Z,/" E [«.] ' ^ Z;/'^ E [«]

El segundo término del último miembro es, según «3.3.3, igual ala incertidumbre útil de B condicionada por A. Y el primero

» m U. . n m u

_ y y p .—L!_ log /- -=- V log/, . V # . .—^—=^_j ^.j '; E [w] ' >-J 4-1 ' E [it]i = . l ; = l < = 1 7 = 1

:-¿?'-i¿rIog-^Í:'-^--=-¿^ T?tr!og^ = H U ( A ) '

lo que concluye la demostración, pues la otra igualdad del enunciadoresulta por simetría.

3.3.5. TEOREMA.

Si los conjuntos de resultados

A ={A.í,Ai,...,An} y B = {Bi,B„,...,Bm}

— 6o5 —

•a los que se halla asociado el sistema de utilidades

uu, i = 1,2, ..., n; j =1,2,..., m,

-Son probabilisticamente independientes, se verifica

HU (A x B) = H U (A) + H U (B).

En efecto ; la independencia probabilistica es equivalente a que

Pi, = P t - 9,.

y en este caso

"i/H u (A x B) = — y y p.,. —-¿Li ¿Li " E [«i _ i ; _. -i L1=1 j=1

!og Pi, = —

-¿¿'•'inír10*1''-''3-í = 1 j = l L J

Tl fíl ' ai 11 TH %

"XT^IF^^-XZ^TTT-10*«/-.¿-J ¿~> ' K [M] ^-J .¿-J y li [«J ': — l i — < L J i — l i — l L - ii = l y = l i = t ; = l

Y por el razonamiento del teorema anterior, los- dos términosfinales son, respectivamente, iguales a H U (A) y H U (B), c. q. d.

Con este resultado se respeta una propiedad fundamental de la•entropía de Shannon y de las demás medidas de información : la adi-tividad en variables independientes. La diferencia está en que conla incertidumbre útil no se garantiza el recíproco ; veamos qué sepuede decir al respecto con los siguientes teoremas :

3.3.6. TEOREMA. :

Si las esperanzas de utilidad de las distribuciones condicionadascoinciden con las de la, marginal correspondiente ; la incertidumbreútil de un campo

B = {BltB3 *„} . .:

— 6o6 —

coalicionada por otro campo

A =iAí,Ãí,...,An} .

es menor o igual que la incertidumbre útil marginal del campo Bf

dándose la igualdad sólo y cuando ambos campos son probabilistica-mente independientes.

En efecto ; de acuerdo con las condiciones del enunciado se sa-tisface la hipótesis

£líuU = 2r'Ju>J-; = i

del lema 3.2.2.2 para cada valor de i = 1, 2, ..., ,«., por lo cual se.puede escribir

m u . m u . j

-£r» ~^-loer''<-2ri' vlos?''con igualdad si y sólo si es rtj = q¡, V j.

Si las utilidades ut¡ no son negativas, tampoco lo son las ut niE [M], y así no cambia de sentido la desigualdad anterior al ser mul-

uitiplicados ambos miembros por p¡E M

'M. "• li . u. "• m¿ .•

-^^^Zj'^10^'^-*'-^-^*'^10^'-con igualdad en las mismas condiciones anteriores.

Y puesto que las desigualdades anteriores son válidas para cadavalor de i, podemos sumar todas ellas, obteniendo

_ Vli '"• 1/1 U U •

Z>. -iiJr^'"-r-'...<-£'• -^T^'-^"-lo que, operando, se convierte en

n m U. U. j ' " m U, tl¡.

2Zp'-~^^'r'·'-^-loe>'^<~ZZp'-^r'rí'~^losqi'¡ = l y = l J . ' ¡ = l y = 1 J '

— 6o7 —

o lo que es lo mismo

" "" ìi . "- W . :

-ZZ^^r^r"<-ZZ^^ér10*^i = 1 j = 1 L J i -- J ; = 1

desigualdad cuyos miembros son, respectivamente iguales a

H U (B/A) y H U (B).

Además, la igualdad se dará si y sólo si se cumple

r, j = <?;, V-j, V¿,

lo que expresa la independencia probabilistica de los campos A y Br

c. q. d.

3.3.7. COROLARIO.

En las condiciones del teorema anterior, la incertidumbre útil del'conjunto A x B es menor o igual que la suma de las incertidumbresutìles de los campos jactares, con igualdad si y sólo si ambos sovprobabilisticamente independientes.

Es inmediato en virtud de 3.3.4, 3.3.5 y 3.3.6.

3.4. Algunas ideas para posteriores estudios

El concepto de incertidumbre útil que acaba de ser estudiado na-na sido, ni con mucho, tratado exhaustivamente.

En primer lugar, es fácil ver que, por su propia definición, es tras-ladable automáticamente al caso continuo. Una de las funciones queestudiamos con anterioridad a la aquí reseñada hacía intervenir el«total» de utilidad del conjunto de resultados, cuyo traspaso al casocontinuo sería más complicado por exigir condiciones de integrabi-lidad que no se cumplen frecuentemente.

Por el contrario, en nuestro caso podemos definir para un con-

— 6o8 —

junto de resultados dado por R caracterizados por una función d«densidad / (x) y una de utilidad u (x], la incertidumbre útil

-- ÍJ»(x)

H U (A) = - 1 (x) log /O) Ax,E M

•donde

E [«] = | u(x)f(x)dx

/-

representa, como en el caso discreto, la esperanza de utilidad.

No han sido aún estudiadas las posibles diferencias de este caso•continuo con el discreto, pero aparte de no cumplirse la no negati-vidad de la incertidumbre útil (situación que también nos encontra-mos en el estudio de la entropía) no parece que se presenten gran-

•des discrepancias en el resto del estudio.

Por otra parte, establecidos los conceptos de incertidumbre útile incertidumbre útil condicionada, y gracias al resultado 3.3.6, esposible hablar de una disminución de incertidumbre útil o, lo que eslo mismo, de una información útil entre dos campos de resultados•cuyo estudio, aun sin haber sido iniciado, parece prometedor. Por dede pronto, de la anteriormente expuesto, se deduce fácilmente la no.negatividad y la simetría respeto a ambos campos de la expresión

I U (A, B) = H U (B) — H U (B/A).

Esta información útil podría, además, ser empleada como una-medida en términos de utilidades de la información conseguida en unexperimento con respecto a un problema de decisión estadística.

Para terminar, quiero agradecer a D. Sixto Ríos la dirección de-este trabajo, y a la Fundación Juan March la ayuda prestada parala realización del mismo.

— 6o9 —

BIBLIOGRAFÍA

ARIMOTO, S. : The Basis of Seqiiential Estimation Process from theViewpoint of Information Theory. «Ing. Proc. in Japan», volu-men 9, 1969.'

ASH, R. B. : Information Theory. Interscience J. Wiley, 1965..BLACKWELL, D. y GIRSHICK, M. A. : Theory of Games and Statisti-

cal Decisions, j. Wiley, 1954.•CLOUGH, D. J. : Application of the Principle of maximising Entropy

in the Formulation of Hypotheses. «C. O. R. S. Journal», vol. 2,num. 2, diciembre 1964.

THOMAS DE RAULY, D. : L'estimation statistique. Gauthier Villars,1968.

.FANO, R. M. : Transmission of Information. M. I. T. J. Wiley, 1961,FINCH, P. D. : The Theory of Information, and Statistica-I Inference.

I. «Journal of Applied Probability», vol. 1, junio 1964.TORTE, B. : Measures of information: The General Axiomatic Theo-

ry. R. I. R. O. R-2, Ì969.;FOURGEAUD, C. y FUCHS, A. Statistique. Dunod, 3967..FUCHS, A. y LETTA, G. : L'inégalité de Kullback. Application à la

théorie de l'estimation. Séminaire de Probabilités IV. Springer,1970.

:DE GROOT, M. H. : Optimal Statistical Decisions. Mc Graw Hill,1970.

<jUiAsu, S. : Informational model for the Learning Theory. Collo-quium on Inf. Th. János Bolyai Math. Soc., 1968.

-GuiAsu, S. y THEODORESCU, R. : La théorie niatcmatique de Vin-formation. Dunod, 1968.

KAMPÉ DE FÉRIET, J. : Mesure- de l'informati'on fournie par un évé-nement. C. N. R. S., 1970.

.KHINTCHIN, A. 1. : Mathematical Foundations of Information Theo-ry. Dover, 1957.

..KOTZ, S. : Recent Results in Information Theory. «Journal of Ap-plied Probability», vol. 3, num. 1, junio 1966.

KULLBACK. S. : Information Theory and Statistics. Dover, 1968..NEMETZ, T.: Information .Theory and the Testing of a Hypothesis.

Colloquium on Inf. Th. János Bolyai Math. Soc., 1968..PICARD, C. F. : Graphes et questionnaires, Tome 2. Gauthier Villars,

1972.RAJSKI, C. : Entropy and Metric Spaces. Inf. Th. edited by Colin

Cherry, 1961.On the Normed Info-rmation Rate of Discrete Random Va-

riables. Tras, of the third Praga Congress, 1964.RENYI, A. : On the Amount of Information in a frequency count.

«Bull. Int. Stat. Institute», vol. 46, II, 1965.

— 6io —

RENYI, A. : On some basic problems of Statistics from the point ofview of Information Theory. «Proc. Fifth Berkeley Symp.», vol. I,.1967.

•—• — On some problems of Statistics from the point of view of In-formation Theory. Colloquium on Inf. Th. János Bolyai Math..Soc., 1968.

Ríos, S. : Métodos estadístics. Mc. Graw Huí, 1967.Procesos dinámicos de decisión en concurrencia. «Real Aca-

demia de Ciencias, 1967.TRIBUS, M. : Decisiones rationnelles dans l'incertain. Masson & Cie.,,

1972.WATANABE, S. : Knowing and Guessing. J. Wiley, 1969.WiLKS, S. S. : Mathematical Statistics. J .Wiley, 1962.YAGLOM, A. M. y YAGLOM, I. M. : Probabilité et information. Du-

nod, 1969.ZACKS, S. : The Theory of Statistical Inference. ]. Wiley, 1971.