View
2
Download
0
Category
Preview:
Citation preview
UNIVERSIDAD DE GRANADA
E.T.S. DE INGENIERÍA
INFORMÁTICA
Departamento de Cien ias de la Computa ión
e Inteligen ia Arti ial
MEDIDAS DE ENTROPÍA Y DISTANCIA EN CONJUNTOS
CONVEXOS DE PROBABILIDAD: DEFINICIONES Y
APLICACIONES
TESIS DOCTORAL
Joaquín Abellán Mulero
Granada, O tubre de 2002
MEDIDAS DE ENTROPÍA Y DISTANCIA EN CONJUNTOS
CONVEXOS DE PROBABILIDAD: DEFINICIONES Y APLICACIONES
MEMORIA QUE PRESENTA
JOAQUÍN ABELLÁN MULERO
PARA OPTAR AL GRADO DE DOCTOR EN MATEMÁTICAS
OCTUBRE 2002
DIRECTOR
SERAFÍN MORAL CALLEJÓN
DEPARTAMENTO DE CIENCIAS DE LA COMPUTACIÓN
E INTELIGENCIA ARTIFICIAL
E.T.S. DE INGENIERÍA INFORMÁTICA UNIVERSIDAD DE GRANADA
La memoria titulada Medidas de entropía y distan ia en onjuntos onvexos de pro-
babilidad: deni iones y apli a iones, que presenta D. Joaquín Abellán Mulero para optar
al grado de DOCTOR, ha sido realizada en el Departamento de Cien ias de la Computa ión
e Inteligen ia Arti ial de la Universidad de Granada bajo la dire ión del Do tor D. Serafín
Moral Callejón.
Granada, O tubre de 2002
El do torando El dire tor
Joaquín Abellán Mulero Serafín Moral Callejón
AGRADECIMIENTOSEn primer lugar he de mostrar mi más profundo agrade imiento al do tor
D. Serafín Moral Callejón dire tor de esta memoria por su apoyo onstante.
Sin su ayuda, esfuerzo y dedi a ión nun a habría sido apaz de realizar
este trabajo. También quiero agrade er al Dr. D. Andrés Cano Utrera por
el apoyo prestado en todo momento y en espe ial en la elabora ión del
formato de esta memoria, así omo a todos los miembros de los grupos de
investiga ión que hi ieron posible el proye to Elvira, de uyas herramientas
me he servido para las pruebas de los métodos de lasi a ión que se
presentan. Finalmente no quiero olvidar el agrade er a mi esposa Loli su
ayuda y sobre todo pa ien ia.
A la memoria de mi padre
y
a Loli
MEDIDAS DE ENTROPÍA Y DISTANCIA EN CONJUNTOS
CONVEXOS DE PROBABILIDAD: DEFINICIONES Y APLICACIONES
JOAQUÍN ABELLÁN MULERO
Índi e general
Introdu ión general y objetivos. 1
1. Representa ión de la informa ión a través de probabilidades impre isas 9
1.1. Introdu ión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2. Conjuntos onvexos de distribu iones de probabilidad . . . . . . . . . . . . . . . 12
1.2.1. Representa ión de onjuntos onvexos de distribu iones de probabilidad 13
1.2.1.1. Representa ión a través de puntos extremos . . . . . . . . . . . 14
1.2.1.2. Representa ión a partir de restri iones lineales . . . . . . . . . 16
1.2.2. Opera iones on onjuntos onvexos de distribu iones de probabilidad . 17
1.2.3. Esperanzas superiores e inferiores . . . . . . . . . . . . . . . . . . . . . . 19
1.3. Capa idades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.4. Probabilidades inferiores oherentes . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.5. Capa idades de orden 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.5.1. Capa idades de orden n > 2 . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.6. Intervalos de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.6.1. Fun iones de reen ia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.6.2. Rela ión on otros modelos . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.6.3. Posibilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
1.6.4. In lusión, marginaliza ión e independen ia de fun iones de reen ia . . . 36
2. Trabajos previos sobre in ertidumbre 39
2.1. Introdu ión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.2. Teoría lási a de la informa ión . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.2.1. Medidas lási as de in ertidumbre . . . . . . . . . . . . . . . . . . . . . 42
i
ii Índice general
2.2.1.1. Medida de informa ión de Hartley . . . . . . . . . . . . . . . . 42
2.2.1.2. Entropía de Shannon . . . . . . . . . . . . . . . . . . . . . . . 45
2.2.2. Prin ipios de in ertidumbre . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.3. In ertidumbre en la teoría de la eviden ia . . . . . . . . . . . . . . . . . . . . . 56
2.3.1. Tipos de in ertidumbre en la teoría de la eviden ia . . . . . . . . . . . . 57
2.3.2. Medidas de in ertidumbre . . . . . . . . . . . . . . . . . . . . . . . . . . 61
2.3.2.1. Medidas de no-espe i idad . . . . . . . . . . . . . . . . . . . . 61
2.3.2.2. Medidas de aleatoriedad . . . . . . . . . . . . . . . . . . . . . . 66
2.3.2.3. Medidas de in ertidumbre total . . . . . . . . . . . . . . . . . . 71
2.3.3. Medida de in ertidumbre total de Maeda e I hihashi . . . . . . . . . . . 72
2.3.4. El fa tor de Kulba k . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
2.3.4.1. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
2.4. Con lusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
3. Medidas de in ertidumbre para onjuntos onvexos de distribu iones de
probabilidad 87
3.1. Introdu ión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
3.2. Tipos de in ertidumbre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
3.3. Medidas entrópi as . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
3.3.1. Entropía del entro de masas y entropía media de los vérti es de un
onjunto onvexo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
3.3.2. El máximo de la entropía de Shannon para onjuntos onvexos . . . . . 102
3.3.2.1. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
3.4. Un algoritmo de máxima entropía para intervalos de
probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
3.5. Medidas de no-espe i idad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
3.5.1. El volumen omo medida de no-espe i idad . . . . . . . . . . . . . . . 112
3.5.2. Máxima diferen ia de entropías . . . . . . . . . . . . . . . . . . . . . . . 116
3.5.2.1. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
3.5.3. Amplia ión de la U-un ertainty . . . . . . . . . . . . . . . . . . . . . . . 120
3.5.3.1. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
3.6. Aditividad de las fun iones de in ertidumbre . . . . . . . . . . . . . . . . . . . . 133
Índice general iii
3.7. Medidas de in ertidumbre total para onjuntos onvexos . . . . . . . . . . . . . 138
3.8. Con lusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
3.9. Apéndi es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
3.9.1. Apéndi e A: Propiedades del operador diferen ias su esivas . . . . . . . 143
3.9.2. Apéndi e B: Cál ulo del volumen del poliedro probabilísti o . . . . . . . 148
4. Distan ias y medidas de in lusión sobre onjuntos onvexos de distribu iones
de probabilidad 153
4.1. Introdu ión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
4.2. Distan ias entre dos probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . 155
4.3. Aproxima ión de un onjunto onvexo de distribu iones de probabilidad por
una distribu ión de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . 155
4.4. Distan ia de in onsisten ia entre dos onjuntos onvexos de distribu iones de
probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
4.5. Índi e de in lusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
4.6. Distan ia informativa entre dos onjuntos onvexos de distribu iones de proba-
bilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
4.7. Rela iones y propiedades generales . . . . . . . . . . . . . . . . . . . . . . . . . 163
4.8. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
4.9. Con lusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
5. Constru ión de árboles de lasi a ión utilizando probabilidades impre i-
sas 167
5.1. Introdu ión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
5.2. Exposi ión de los métodos de lasi a ión . . . . . . . . . . . . . . . . . . . . . 174
5.2.1. El modelo de Diri hlet impre iso . . . . . . . . . . . . . . . . . . . . . . 174
5.2.2. Nota iones y herramientas previas . . . . . . . . . . . . . . . . . . . . . 176
5.3. Obten ión del árbol de lasi a ión . . . . . . . . . . . . . . . . . . . . . . . . . 178
5.3.1. Método simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
5.3.2. Método doble . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
5.3.3. De isión en las hojas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
5.4. Experimenta ión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
5.4.1. Las bases de datos utilizadas . . . . . . . . . . . . . . . . . . . . . . . . 190
iv Índice general
5.4.2. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
5.4.2.1. Resultados del método simple . . . . . . . . . . . . . . . . . . . 192
5.4.2.2. Resultados del método doble . . . . . . . . . . . . . . . . . . . 198
5.5. Con lusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
Con lusiones y trabajos futuros 205
Bibliografía 210
Índi e de guras
1.1. Rela iones de generalidad entre teorías basadas en probabilidades impre isas . . 11
1.2. Representa ión de una distribu ión de probabilidad sobre IR3. . . . . . . . . . 15
1.3. Conjunto onvexo del ejemplo 1.2 . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4. Conjunto onvexo aso iado a la a.b.p. del ejemplo 1.13 . . . . . . . . . . . . . . 33
2.1. Tipos de in ertidumbre en ontradas en las distintas teorías . . . . . . . . . . . . 58
2.2. Conjunto onvexo aso iado a m del ejemplo 2.7 . . . . . . . . . . . . . . . . . . 74
2.3. Conjunto onvexo aso iado a m′del ejemplo 2.7 . . . . . . . . . . . . . . . . . . 75
3.1. Conjunto onvexo aso iado a m1del ejemplo 3.1 . . . . . . . . . . . . . . . . . 91
3.2. Conjunto onvexo aso iado a m2del ejemplo 3.1 . . . . . . . . . . . . . . . . . 91
3.3. Conjunto onvexo aso iado a m3del ejemplo 3.2 . . . . . . . . . . . . . . . . . 92
3.4. Conjunto onvexo aso iado a m4del ejemplo 3.2 . . . . . . . . . . . . . . . . . 93
3.5. Conjuntos onvexos aso iados a m5y m6
del ejemplo 3.3 . . . . . . . . . . . . . 94
3.6. Conjuntos onvexos aso iados a m1 y m2 del ejemplo 3.5 . . . . . . . . . . . . . 99
3.7. Conjunto onvexo aso iado a m3 del ejemplo 3.5 . . . . . . . . . . . . . . . . . 99
3.8. Conjunto onvexo aso iado a m4 del ejemplo 3.6 . . . . . . . . . . . . . . . . . 100
3.9. Conjuntos onvexos aso iado a los onvexos C1 y C2 del ejemplo 3.7 . . . . . . 102
3.10. Conjunto onvexo aso iado al onvexo C del ejemplo 3.8 . . . . . . . . . . . . . 103
3.11. Conjunto onvexo aso iado a m1y m2
del ejemplo 3.10 . . . . . . . . . . . . . . 111
3.12. Conjuntos onvexos aso iado a los onvexos C1 y C2 del ejemplo 3.11 . . . . . . 113
3.13. Conjunto onvexo C . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
3.14. Conjuntos onvexos aso iados a los onvexos C1y C2
del ejemplo 3.13 . . . . . 122
3.15. Conjuntos onvexos aso iados a los onvexos C3y C4
del ejemplo 3.13 . . . . . 123
3.16. Conjuntos onvexos aso iado a los onvexos C ′2y C ′4
del ejemplo 3.14 . . . . . 124
v
vi Índice de figuras
3.17. Conjuntos onvexos aso iado a los onvexos C y Cmdel ejemplo 3.19 . . . . . . 129
3.18. Conjuntos onvexos aso iado a los onvexos C1 y C2 del ejemplo 3.21 . . . . . . 140
4.1. Conjuntos onvexos on distintos grados de in onsisten ia . . . . . . . . . . . . 157
4.2. Conjuntos onvexos oherentes on el ejemplo del fútbol . . . . . . . . . . . . . 164
5.1. Base de datos Cán er . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
5.2. Obten ión de un árbol de lasi a ión . . . . . . . . . . . . . . . . . . . . . . . 169
5.3. Clasi a ión de un nuevo individuo . . . . . . . . . . . . . . . . . . . . . . . . . 169
5.4. Red de reen ia del naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
5.5. Representa ión del onjunto onvexo del ejemplo 5.2 . . . . . . . . . . . . . . . 178
5.6. Situa ión de partida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
5.7. Situa ión obtenida apli ando el método simple . . . . . . . . . . . . . . . . . . 186
5.8. Situa ión obtenida apli ando el método doble . . . . . . . . . . . . . . . . . . . 188
5.9. Situa ión obtenida apli ando los métodos simple y doble a la rama T=a0 . . . 189
Índi e de tablas
1.1. Vérti es del onvexo aso iado a una a.b.p. de dimensión 3 . . . . . . . . . . . . 33
2.1. Valores de la distribu ión onjunta de X1 y X2 . . . . . . . . . . . . . . . . . . 53
2.2. Resultados de las probabilidades de la simpli a ión S1 . . . . . . . . . . . . . 54
2.3. Resultados de las probabilidades de la simpli a ión S2 . . . . . . . . . . . . . 54
2.4. Valores de la entropías resultantes de las simpli a iones S1 y S2 . . . . . . . . 54
2.5. Medidas de in ertidumbre en la teoría de la eviden ia . . . . . . . . . . . . . . . 71
5.1. Des rip ión de las bases de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 191
5.2. Por entajes de otros métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
5.3. Resultados método simple para TU1 on domina ia fuerte . . . . . . . . . . . . 193
5.4. Resultados método simple para TU2 on domina ia fuerte . . . . . . . . . . . . 194
5.5. Resultados método simple para TU3 on domina ia fuerte . . . . . . . . . . . . 195
5.6. Resultados método simple para TU4 on domina ia fuerte . . . . . . . . . . . . 195
5.7. Resultados método simple para TU5 on domina ia fuerte . . . . . . . . . . . . 196
5.8. Número de hojas de los árboles de lasi a ión obtenidos on el método simple
y ada una de las fun iones de in ertidumbre . . . . . . . . . . . . . . . . . . . 197
5.9. Resultados, para ada una de las fun iones de in ertidumbre, del método simple
on lasi a ión ompleta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
5.10. Resultados método doble para TU1 on domina ia fuerte . . . . . . . . . . . . . 198
5.11. Resultados método doble para TU2 on domina ia fuerte . . . . . . . . . . . . . 199
5.12. Resultados método doble para TU3 on domina ia fuerte . . . . . . . . . . . . . 199
5.13. Resultados método doble para TU4 on domina ia fuerte . . . . . . . . . . . . . 200
5.14. Resultados método doble para TU5 on domina ia fuerte . . . . . . . . . . . . . 200
vii
viii Índice de tablas
5.15. Resultados, para ada una de las fun iones de in ertidumbre, del método doble
on lasi a ión ompleta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
5.16. Número de hojas de los árboles de lasi a ión obtenidos on el método doble
y ada una de las fun iones de in ertidumbre . . . . . . . . . . . . . . . . . . . 201
5.17. Por entajes de los métodos C4.5 e ingenuo Bayes sobre Monks1 . . . . . . . . . 202
5.18. Por entajes de los métodos de in ertidumbre simple y doble sobre Monks1 on
TU1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
5.19. Por entajes sobreMonks1 de los métodos simple y doble para todas la fun iones
de in ertidumbre y on dominan ia fuerte . . . . . . . . . . . . . . . . . . . . . 202
5.20. Por entajes sobreMonks1 de los métodos simple y doble para todas la fun iones
de in ertidumbre on lasi a ión ompleta . . . . . . . . . . . . . . . . . . . . 203
Introdu ión general y objetivos
Hasta ha e unos años, para representar la informa ión disponible o la ausen ia de ésta,
se utilizaba omo herramienta fundamental la teoría de la probabilidad, donde se estable ía
de forma ja la probabilidad de un su eso determinado. Gra ias al teorema de Bayes y al
teorema de la probabilidad total, era posible la a tualiza ión de esta probabilidad uando se
obtiene un aporte nuevo de informa ión. Este punto de vista lási o no se ha dese hado, pues
en determinadas situa iones es fundamental su uso, pero, en nuestra opinión, es insu iente
en otras.
Para las situa iones donde el uso de la teoría de la probabilidad no es totalmente oherente
han apare ido nuevas teorías, algunas de las de ellas se basan en probabilidades impre isas.
Entre las más ono idas pueden itarse las siguientes: teoría de la eviden ia, onjuntos de
intervalos de probabilidad, apa idades de orden 2, probabilidades superiores e inferiores o
onjuntos onvexos de distribu iones de probabilidad.
La más general de estas teorías es la de onjuntos onvexos de distribu iones de probabi-
lidad. Fue Dempster [25 el primero que empezó a uestionar el sentido del uso de la teoría
de la probabilidad en determinadas situa iones y ya enton es omenzó a onsiderar onjuntos
onvexos de distribu iones de probabilidad. Pero quizá omo autor mas importante en la lí-
nea de la justi a ión del uso de onjuntos onvexos tenemos que itar a Walley [96. Otros
trabajos importantes en la línea del anterior surgen en el mismo año, tales omo los trabajos
de Cano, Moral y Verdegay-López [12 y de Moral y de Campos [74.
Es ierto que la tenden ia humana, para dar la redibilidad que tenemos de que un su eso
o urra, es la de intervalos de probabilidad. A un experto, en un determinado ampo tal omo la
medi ina, astronomía, botáni a, e onomía, et ..., le es más fá il de ir que el su eso S tiene una
probabilidad entre un a% y un b% de o urrir. A favor de la teoría que modeliza este tipo de
situa iones, onjuntos de intervalos de probabilidad, tenemos que existen importantes herra-
1
2 Introducción general y objetivos
mientas para trabajar on la informa ión que nos representan, tales omo ondi ionamiento y
marginaliza ión, que nos permiten a tualizar la informa ión en el sistema que nos en ontremos
(de Campos, Huete y Moral [10). Pero en ontra de ella, tenemos que no siempre, el uso de
probabilidades intervalares, nos va a permitir utilizar orre tamente la informa ión disponible.
En el aso de que tengamos un sistema on tres valores posibles y tengamos informa ión para
onsiderar el onjunto de distribu iones de probabilidad que sean una ombina ión onvexa de
las distribu iones de probabilidad (1, 0, 0) y (0, 0.5, 0.5), el usar probabilidades intervalares nos
lleva a la amplia ión del onjunto de probabilidades, teniendo, en este ejemplo, que onsiderar
el onvexo determinado por las probabilidades anteriores y además (0.5, 0, 0.5) y (0.5, 0.5, 0).
En ambio, la teoría de onjuntos onvexos de distribu iones de probabilidad pade e de
problemas tales omo la apari ión de varios puntos de vista, ada uno válido en su ontexto,
para la a epta ión de on eptos importantes tales omo los de la independen ia ([23) y el
ondi ionamiento ([32). A n de uni ar riterios dentro del ampo de las probabilidades
impre isas, surgen los ongresos ISIPTA (International Symposium on Impre ise Probabilities
and Their Appli ations) en los últimos años (1999, 2001).
Una vez utilizada una teoría para representar la informa ión, podemos pensar en la in er-
tidumbre, o falta de informa ión, que esa representa ión onlleva. Originalmente el estudio
de la in ertidumbre surge en los sistemas de tele omuni a ión. Fue Hartley [41 el primero en
estable er una medida de la in ertidumbre en este ampo, que posteriormente fue adaptada a
otros, basándose en la teoría de onjuntos. Pero Shannon [90 fue el que estable ió, en base a
la teoría de la probabilidad, la medida de entropía, que es el punto de ini io de lo que poste-
riormente se ha llamado estudio de la in ertidumbre basada en la informa ión, en teorías más
generales a la de la probabilidad. Esta medida umple una serie de propiedades similares a las
de la teoría de la probabilidad, lo que le ha overtido en el punto de referen ia del estudio de
la in ertidumbre en teoría más generales. En esta línea tenemos que desta ar sobre todo los
trabajos realizados en la teoría de la eviden ia por Klir de forma individual ([50, 51, 53, 54)
o on otros autores ([55, 56, 57, 58, 59, 61, 62, 94).
Klir [54 re oge los llamados prin ipios de in ertidumbre: de mínima in ertidumbre, de
máxima in ertidumbre y de in ertidumbre invariante. Éstos los podemos onsiderar omo
prin ipios para la entropía, pues están planteados en base a la entropía de Shannon, aunque
los plantea de forma general para ualquier teoría. Son on eptos esen iales a tener en uenta
en ualquier teoría sustituyendo la entropía de Shannon por una medida similar en ada una.
3
El estudio de la in ertidumbre en la teoría de la eviden ia omienza on la uestión de qué
tipo o tipos de in ertidumbre nos en ontramos en esta teoría. Se plantea si la in ertidumbre
de tipo entrópi o, en el sentido de la entropía de Shannon, es la úni a magnitud que hay que
onsiderar para medir la falta de informa ión. La amplia ión de la teoría de la probabilidad
por la teoría de la eviden ia da lugar a situa iones en la el planteamiento sólo entrópi o es
insu iente. Así surgen en los años 90 una gran antidad de trabajos en esta línea. Se pretende
uanti ar dos tipos de in ertidumbre en ontrada en la teoría de la eviden ia: entropía y no-
espe i idad. Fueron Lamata y Moral [65 los primeros en estable er una medida global de
ambos tipos de in ertidumbre en la teoría de la eviden ia. Posteriormente surgen distintos
trabajos donde se pretende medir un tipo u otro de in ertidumbre así omo el estable er una
medida global, a los itados anteriormente de Klir y Lamata y Moral tenemos que añadir los
de Yager [109, Ramer [83, 84, Maeda, Nguyen e I hihashi [70, Dubois y Prade [29 y sobre
todo Maeda e I hihashi [69 que estable en una medida de in ertidumbre total, basándose
en medidas bien estable idas para ada tipo de in ertidumbre, que es apaz de umplir las
propiedades esen iales de una medida para tal n. Estas propiedades tienen su origen en las
que veri a la entropía de Shannon para probabilidades y ha sido el punto de referen ia para
a eptar o dese har de alguna forma, a otras medidas dentro de la teoría de la eviden ia. La
propiedad bási a, dentro de la teoría de la eviden ia, de la subaditividad ha sido el talón de
Aquiles para mu has de ellas.
El desarrollo de la teoría de onjuntos onvexos de intervalos de probabilidad, nos ha lle-
vado a ampliar el estudio de la in ertidumbre a éstos, teniendo omo punto de partida el
amplio estudio de la in ertidumbre en la teoría de la eviden ia. Hemos analizado los tipos de
in ertidumbre en ontrados y hemos medidas para ada uno de ellos.
La lasi a ión es un importante problema en el que la teoría lási a de la probabilidad
ha sido usada de forma extensiva. Se parte del objetivo de obtener un método para prede-
ir el valor de un atributo (variable a lasi ar) de un individuo en base a un onjunto de
otros atributos. Tenemos un onjunto de datos on todos los atributos de los individuos y
queremos obtener un onjunto de leyes para asignar a ada nueva observa ión un valor de la
variable a lasi ar. La lasi a ión tiene notables apli a iones en medi ina, físi a, re ono i-
miento de ara teres, astronomía, e onomía, et ...Con objetivos tales omo re ono imiento de
enfermedades, predi iones meteorológi as, on esiones de prestamos, et ...
Los métodos de lasi a ión, normalmente, se basan en un modelo grá o que ayuda a
4 Introducción general y objetivos
representar el ono imiento obtenido de los datos. Existen múltiples formas de representar
este ono imiento tales omo redes neuronales, redes de reen ia, árboles, et ...
Las redes de reen ia, también llamadas bayesianas, han demostrado, en los últimos años,
ser una herramienta muy potente para representar las rela iones entre las variables de una
base de datos a partir de éstos. No es fá il de obtener es un método de lasi a ión a partir
de una red de reen ia, pues en prin ipio representan a unos datos en on reto y no tiene en
uenta a la variable a lasi ar de forma individual. A id [6 utiliza redes de reen ia para
obtener métodos de lasi a ión, obteniendo buenos resultados. El método de lasi a ión del
ingenuo Bayes obtiene muy buenos resultados basándose en una red de reen ia simple, Duda
y Hart [28.
Una herramienta más simple que las redes de reen ia, son los árboles de lasi a ión,
que su origen en el algoritmo ID3 de Quinlan, Quinlan [81. Son las estru turas sen illas que
nosotros utilizaremos para estable er nuestros métodos de lasi a ión.
El gran problema, tanto de las redes de reen ia bayesianas omo de los árboles de lasi-
a ión, es determinar ómo de omplejas deben de ser los modelos indu idos para un problema
on reto. Modelos muy sen illos dan lugar a una pérdida de informa ión (ignoramos rela iones
entre las variables dato y las variables a lasi ar). Modelos muy omplejos produ en sobrea-
juste (hay demasiados parámetros para el tamaño de la muestra on la que estimamos). Ambas
situa iones dan lugar a altas tasas de error uando lasi amos nuevos asos omo test.
En esta memoria pretendemos mostrar la utilidad de las medidas de in ertidumbre en la
determina ión de la omplejidad de los modelos. En primer lugar adoptamos el modelo de
Diri hlet impre iso propuesto por Walley [97 para estimar un sistema de intervalos de proba-
bilidad para la variable a lasi ar, en lugar de un úni o valor de probabilidad. Estos intervalos
tendrán mayor amplitud uando el tamaño de la muestra se ha e más pequeño. Proponemos
omo riterio para elegir un modelo el sele ionar aquel que propor ione mayor informa ión
para la variable a lasi ar. Modelos muy omplejos darán lugar a que los parámetros se es-
timen on muestras muy redu idas, lo que produ e intervalos muy amplios que serán po o
informativos. Estos modelos no serán sele ionados y se evitará el problema del sobreajuste.
5
Objetivos
En general, nuestro objetivo bási o es estudiar medidas de in ertidumbre en onjuntos
onvexos de distribu iones de probabilidad y demostrar su utilidad en la onstru ión de
árboles de lasi a ión. De manera más detallada nuestros objetivos se pueden estable er en
los siguientes tres:
· Analizar los estudios de la in ertidumbre en la teoría de la eviden ia. Puntualizaremos
en la justi a ión de los tipos de in ertidumbre en ontrados y en las medidas propuestas
para tal n, así omo en las propiedades que debe tener ada medida para uanti ar un
tipo de in ertidumbre. Queremos estudiar el omportamiento de estas medidas, tanto de
forma intuitiva (que midan lo que deben medir) omo de forma matemáti a (que umplan
las propiedades de deben umplir). Una vez en ontremos la que o las que mejor ompor-
tamiento tengan, veremos que en o asiones tendremos que onsiderar modi a iones de
las mismas.
· Partiendo de estudio anterior, queremos denir medidas de in ertidumbre para onjuntos
onvexos de distribu iones de probabilidad. Estudiaremos qué tipo o tipos de in ertidum-
bre nos vamos a en ontrar y qué propiedades deben veri ar las medidas propuestas para
tal n. Queremos determinar una medida de in ertidumbre total para onjuntos onve-
xos, pro urando que sea amplia ión, si es posible, de las determinadas para la teoría de
la eviden ia y así tener presente el prin ipio de in ertidumbre invariante.
Dentro del estudio sobre onjuntos onvexos, queremos también estable er medidas om-
parativas de éstos uando es posible obtener distintas representa iones a partir de la mis-
ma informa ión. Queremos estable er ompara iones desde varios puntos de vista: medir
la mayor o menor in onsisten ia entre dos representa iones in onsistentes, medir qué
parte de la informa ión que representa un onvexo está englobada en la que representa
el otro y medir la similitud entre dos representa iones onsistentes.
· Apli ar las medidas de in ertidumbre que en ontremos para estable er un método de
lasi a ión utilizando probabilidades impre isas y árboles de lasi a ión.
6 Introducción general y objetivos
Des rip ión por apítulos
En el apítulo primero presentaremos diferentes teorías de probabilidades impre isas en
un orden de mayor a menor generalidad. Haremos una breve des rip ión de algunas de ellas,
delimitando unas de otras a partir de ejemplos. Nos entraremos en las que luego nos servirán
para umplir los objetivos de esta memoria: la teoría de la eviden ia, teoría de onjuntos de
intervalos de probabilidad y onjuntos onvexos de distribu iones de probabilidad. Denire-
mos, en la primera y en la última, las opera iones bási as ne esarias para trabajar on las
propiedades de las medidas de in ertidumbre que posteriormente se presentarán, opera iones
tales omo ombina ión, marginaliza ión e independen ia.
En el segundo apítulo se expondrá el origen de las medidas de in ertidumbre dentro de
la teoría de onjuntos y de la teoría de la probabilidad. Veremos qué propiedades tienen las
fun iones mejor estable idas en di has teorías. Veremos la amplia ión que se ha e, del estudio
de la in ertidumbre, en la teoría de la eviden ia. Hablaremos de las fun iones que mejor miden
ada uno de los aspe tos de la in ertidumbre en ontrados en esta teoría y analizaremos sus
propiedades. Nos entraremos en la que mejor umple los requisitos intuitivos y matemáti os
e intentaremos arreglar los problemas que nos surjan on ella.
En el apítulo ter ero estudiamos la amplia ión de las fun iones de in ertidumbre mejor
estable idas en la teoría de la eviden ia, para onjuntos onexos de distribu iones de pro-
babilidad. Para ello, a partir de ejemplos, justi aremos la existen ia de los mismo tipos de
in ertidumbre en esta teoría. Analizaremos las propiedades que deben umplir las medidas de
in ertidumbre de ada tipo que se nos presenta en esta teoría. Veremos que, las fun iones que
mejor nos sirven para medir los dos aspe tos de la in ertidumbre en esta teoría son amplia ión
de las que teníamos en la teoría de la eviden ia y veri an un onjunto similar de propieda-
des bási as al que veri aban en la teoría de la eviden ia. Obtendremos pro edimientos para
al ular, de forma e iente, estos valores uando estamos en un tipo espe ial de onjuntos
onvexos, los onjuntos de intervalos de probabilidad, que se utilizaran en el último apítulo.
En el uarto apítulo estable emos riterios de ompara ión entre dos representa iones de
onjuntos onvexos de distribu iones de probabilidad, obtenidas a partir de la misma informa-
ión. Estable eremos una distan ia de in onsisten ia, un índi e de in lusión y una distan ia
informativa. Veremos la rela ión existente entre estas fun iones.
En el quinto apítulo expondremos dos métodos de lasi a ión a partir de árboles de lasi-
7
a ión. Veremos un método simple y otro al que llamaremos doble. Utilizaremos la distribu ión
de Diri hlet impre isa para determinar un onjunto onvexo de distribu iones de probabilidad
a partir de una muestra, que realmente será un onjunto de intervalos de probabilidad. Sobre
los anteriores apli aremos las fun iones de in ertidumbre del apítulo ter ero para obtener
un árbol ompleto. Realizaremos experimentos para omparar los resultados que obtienen,
sobre las mismas, métodos bien estable idos: el ingenuo bayes y el C4.5. Utilizaremos, en la
experimenta ión, distintas fun iones de in ertidumbre total.
8 Introducción general y objetivos
Capítulo 1
Representa ión de la informa ión a
través de probabilidades impre isas
1.1. Introdu ión
Existen múltiples modelos matemáti os para representar la informa ión disponible en una
determinada situa ión. Ninguno de ellos es, en general, mas justi able que otro, sino que ada
uno es más útil que los demás en situa iones on retas. Walley [96, re opila la mayoría de los
modelos matemáti os para representar la ausen ia de informa ión a través de probabilidades
impre isas. En la gura 1.1 representamos los modelos más usados que utilizan probabilidades
impre isas, así omo la rela ión de generalidad que se puede estable er entre ellos.
Walley [96, expone una gran variedad de situa iones que motivan el uso de probabilidades
impre isas. Entre los asos en los que pare e apropiado el uso de probabilidades impre isas se
pueden desta ar los siguientes:
(1) Situa iones on es asa informa ión para determinar una probabilidad, Walley [96, 97, 99.
(2) Situa iones on falta de espe i idad, omo uando extraemos bolas de una urna on un
número jo de bolas en la que de una antidad de ellas no se sabe on retamente qué
olor tienen. Como por ejemplo en el aso de tener una urna on 10 bolas, de la que
sabemos que 5 son rojas y otras 5 son blan as o negras, pero no se sabe nada sobre la
propor ión entre ellas, Dempster [25, Shafer [88, Klir y Folger [55.
(3) En Robustez Estadísti a uando queremos representar des ono imiento sobre la distri-
9
10 Capítulo 1. Representación de la información a través de probabilidades imprecisas
bu ión a priori, Berger [7, DeRobertis y Hartigan [27.
(4) Para representar oni tos entre expertos o fuentes de informa ión: mayores in onsisten-
ias deben de dar lugar a informa iones más impre isas, Walley [101, Moral y Sagrado
[75.
Hasta ahora se está intentando uni ar en una sola teoría todas las investiga iones que en
este ampo se realizan desde ha e algunos años. Los ongresos Isipta (International Sympo-
sium on Impre ise Probabilities and Their Appli ations) tienen omo n prin ipal di ha meta.
Algunos de estos modelos poseen un amplio onjunto de operadores muy interesantes para
modelizar el ujo de la informa ión. Existen herramientas tales omo ombina ión, marginali-
za ión y ondi ionamiento, prin ipalmente, que nos permiten, omo aspe to más importante,
a tualizar el ono imiento una vez que se obtiene nueva informa ión.
También es ierto que se a usa a algunos de estos modelos, que generalizan a la teoría de la
probabilidad, de are er de justi a ión ne esaria aunque tenga un apoyo matemáti o fuerte.
Todavía queda mu ho por trabajar para obtener una teoría que utili e probabilidades im-
pre isas y que sea apaz de modelizar todos los tipos de in ertidumbre o falta de ono imiento.
In luso, aunque Walley [100 expone una brillante rela ión de estos modelos, más amplia que
la que podemos ver en la gura 1.1, la mayoría de los más generales no pare en estar total-
mente a eptados por mu hos investigadores, en ontrándose mu has ontroversias debido a la
omplejidad de estos o a la falta de justi a ión de su existen ia.
Lo interesante de un modelo general, aparte de su apa idad de representa ión en ual-
quier situa ión, justi a ión y herramientas matemáti as, debe ser que en él se hallan denido
on eptos bási os para manejar la informa ión sobre todo on el ondi ionamiento, pues éste
permite la a tualiza ión del ono imiento en el momento en que obtengamos nuevas observa-
iones. Dire tamente rela ionado on este último está el on epto de independen ia. En Couso,
Moral y Walley [23 podemos ver diversos on eptos de independen ia bajo distintos puntos
de vista. Veremos en futuros apítulos que es posible ha er varias deni iones oherentes de
este on epto, donde ada uno en aja bien en una determinada situa ión. La importan ia de
este on epto ha sido lo que ha llevado al estudio de este amplio abani o de situa iones. Igual
que en Walley [100, vamos a denir de forma breve algunos de los modelos matemáti os que
utilizan probabilidades impre isas, así omo sus rela iones, gura 1.1. En los apartados 1.2, 1.3
y 1.4 hablaremos de forma mas detallada de los modelos que vamos a utilizar de esta memoria.
1.1. Introducción 11
Capacidades Conjuntos convexos
Probabili dades superiores e inferiores
Capacidades de orden 2
Capacidades de orden n
Funciones de creencia
Intervalos de probabili dades
Probabili dades Posibili dades
Donde A B significa que el modelo A es menos general que el B y A B significa que A y B son igualmente generales
Esperanzas inferiores
Figura 1.1: Relaciones de generalidad entre teorías basadas en probabilidades imprecisas
12 Capítulo 1. Representación de la información a través de probabilidades imprecisas
Para jar nota ión, representaremos el espa io de posibles estados de una variable X a
onsiderar, omo ΩX . Por ejemplo, en el aso del lanzamiento de un dado tendríamos ΩX =
1, 2, 3, 4, 5, 6. A ve es, para simpli ar nota ión, hablaremos dire tamente de valores de X.
1.2. Conjuntos onvexos de distribu iones de probabilidad
Para omenzar on los modelos matemáti os para representar la informa ión, vamos a in-
trodu ir el que onsideramos más general, aunque también, omo di e Walley [100, tiene una
interpreta ión más problemáti a si se onsidera dire tamente y no a través del modelo de es-
peranzas inferiores, equivalente a éste omo se puede apre iar en la gura 1.1. El modelo de
probabilidades superiores e inferiores es uno de los más naturales para representar la informa-
ión probabilísti a. Es lógi o que un experto use probabilidades intervalares para espe i ar
su redibilidad de la o urren ia de un su eso determinado. En ambio, hay algunas rela iones
entre probabilidades de los elementos de un onjunto que no se representan ade uadamente por
medio de intervalos. Lo que o urre es que éste es un modelo que no es lo su ientemente gene-
ral y el resultado de operar on intervalos de probabilidad no siempre es siempre representable
por intervalos. Por lo que, a ve es, interesa generalizar para representar de forma oherente la
informa ión, lo que nos llevaría a un modelo basado en onjuntos onvexos de distribu iones
de probabilidad, entendiendo omo tal a un polítopo o poliedro onvexo de distribu iones de
probabilidad.
Nosotros entenderemos omo onjuntos onvexos de distribu iones de probabilidad a políto-
pos errados del espa io n-dimensional, que bien pueden determinarse a partir de un onjunto
de restri iones lineales o enumerando el onjunto de sus vérti es. Un interesante desarrollo de
la determina ión de un onjunto onvexo de distribu iones de probabilidad lo tenemos en la
tesis de Verdegay-López [95. Cada una de las dos formas anteriores de representar el onvexo
es más interesante según el n para el que lo utili emos. Por ejemplo, si ne esitamos ombinar
dos onjuntos onvexos será más interesante el uso de restri iones lineales y si ne esitamos
utilizarlos en algoritmos de propaga ión en grafos de dependen ias, Cano [13, ne esitaremos
su determina ión en puntos extremos.
En adelante nos referiremos a onjuntos onvexos omo onjuntos onvexos de distribu-
iones de probabilidad para a ortar su men ión. No habrá ningún problema puesto que sólo
trabajamos on probabilidades del espa io n-dimensional.
1.2. Conjuntos convexos de distribuciones de probabilidad 13
Existe una di ultad en ontrada en la literatura sobre los trabajos on opera iones on
onjuntos onvexos y es que para determinadas opera iones, omo es el aso de la independen-
ia, existen varias deni iones que no son equivalentes, en ontrándose algunas de ellas que ni
siquiera generalizan a la lási a independen ia probabilísti a. En esta se ión veremos algunas
para onjuntos onvexos y en el apítulo 3 trabajaremos on ellas y veremos que rela ión tienen
on las medidas de informa ión.
En esta se ión, empezaremos viendo las dos formas de determinar un onvexo basándonos
sobre todo en la exposi ión que ha e Verdegay-López [95. A ontinua ión hablaremos de las
opera iones bási as on onjuntos onvexos que más adelante se ne esitaran. Quedará para las
siguientes se iones la distin ión, a partir de ejemplos, de este modelo on los menos generales,
según la gura 1.1.
1.2.1. Representa ión de onjuntos onvexos de distribu iones de probabi-
lidad
Partiremos, omo haremos siempre desde ahora, de una variable X que toma valores en el
onjunto ΩX = x1, x2, ..., xn.Previamente vamos a denir el on epto de onvexo en IRn
Deni ión 1.1 Dado un onjunto H de IRn, se le llamará onvexo si veri a que para ua-
lesquiera p, q ∈ H y α ∈ [0, 1] que:
αp + (1− α)q ∈ H.
Notaremos omo P(ΩX) o P(X) al onjunto de todas las distribu iones de probabilidad
sobre X. Si n es el numero de elementos de X, también se llamará a este poliedro PPn, en
próximos apítulos.
Si p ∈ P(ΩX), enton es al valor p(xi) lo notaremos omo pi.
En general, las informa iones se representarán mediante onjuntos onvexos de distribu io-
nes de probabilidad.
Una situa ión real de uso de onjuntos onvexos la podemos ver en el siguiente ejemplo de
Cano [13:
Ejemplo 1.1 Supongamos una urna que ontiene bolas de tres olores: blan as (B), rojas
(R) y negras (N). Hay 10 bolas en la urna y la úni a informa ión que tenemos es que 5 son
14 Capítulo 1. Representación de la información a través de probabilidades imprecisas
blan as, 2 son rojas y de las otras 3 no sabemos nada, pueden ser de ualquiera de los tres
olores. Tenemos que realizar el experimento de sa ar una bola al azar.
Esta falta de informa ión sólo nos permite distinguir entre valores extremos de la probabi-
lidad de ada su eso, de la siguiente forma:
P (∅) = 0, P (B) ∈ [0.5, 0.8], P (R) ∈ [0.2, 0.5], P (N) ∈ [0, 0.3],
P (B,R) ∈ [0.7, 1], P (B,N) ∈ [0.5, 0.8], P (R,N) ∈ [0.2, 0.5],
P (B,R,N) = 1
El onjunto de probabilidades aso iado ontiene, entre otras a las siguientes distribu iones
de probabilidad en B,R,N
p1(B) = 0.5, p1(R) = 0.2, p1(N) = 0.3
p2(B) = 0.8, p2(R) = 0.2, p2(N) = 0
p3(B) = 0.6, p3(R) = 0.3, p3(N) = 0.1
1.2.1.1. Representa ión a través de puntos extremos
Vamos a onsiderar siempre onjuntos onvexos on un número nito de puntos extremos.
Son los que se determinan omo poliedros onvexos y errados de IRn, que al pertene er al
subespa io probabilísti o son a su vez a otados. Podemos denirlos omo los onjuntos del tipo
H de IRntales que:
H = p ∈ IRn : p = α1p1 + α2p
2 + ... + αmpm;∑
i
pji = 1;
∑
i
αi = 1; pji , αi ≥ 0, i ∈ 1, 2, ...,m; j ∈ 1, 2, ..., n,
que también notaremos omo
H = CH(p1, p2, . . . , pm),
on CH la láusula onvexa (el mínimo onvexo que ontiene a un onjunto dado).
Se nos podría plantear el aso en los que todos los pino fuesen probabilidades extremas,
estas se determinarían utilizando algunos algoritmos existentes en la literatura para tal n,
1.2. Conjuntos convexos de distribuciones de probabilidad 15
tales omo los de Edelsbrumer [33 y Preparata y Shamos [80. Se puede ver en el siguiente
ejemplo de Verdegay-López [95, el uso de los algoritmos anteriores.
Ejemplo 1.2 Sea el onjunto de probabilidades siguiente sobre ΩX = x1, x2, x3:
(0.4, 0.3, 0.3); (0.1, 0.5, 0.4); (0, 0.5, 0.5); (0.2, 0.6, 0.2); (0.4, 0.6, 0); (0.2, 0.8, 0); (0, 1, 0),
donde (r1, r2, r3) indi an las probabilidades (p(x1), p(x2), p(x3)). Apli ando los algoritmos i-
tados anteriormente, el onvexo que se obtiene de las ombina iones onvexas de las probabi-
lidades anteriores es el mismo que tiene las siguientes probabilidades extremas:
(0.4, 0.3, 0.3); (0.4, 0.6, 0); (0, 1, 0); (0, 0.5, 0.5)
Los onjuntos anteriores se pueden ver en una sen illa y muy utilizada representa ión en
IR3, a través de un triángulo equilátero, donde se puede representar ualquier distribu ión de
probabilidad de IR3, en el que ada vérti e orresponde a un valor de la variable. En el triángulo,
on alturas igual a la unidad, ada punto representa el una distribu ión de probabilidad en la
que pi es la distan ia de éste al lado opuesto al vérti e i. Por ejemplo en la gura 1.2 podemos
ver la representa ión de la distribu ión de probabilidad (0.5, 0.3, 0.2)
x2x1
x3
0.5
0.3
0.2
.
Figura 1.2: Representación de una distribución de probabilidad sobre IR3
16 Capítulo 1. Representación de la información a través de probabilidades imprecisas
Así pues, el onvexo que se obtiene del ejemplo 1.2 anterior sería el de la gura 1.3.
Esta representa ión será muy usada en todo nuestro trabajo, puesto que es muy útil para
ilustrar ideas bási as a partir de ejemplos en IR3.
1.2.1.2. Representa ión a partir de restri iones lineales
La otra alternativa a la representa ión de poliedros onvexos de probabilidades es la de un
sistema de restri iones lineales en IRnque genéri amente podemos determinar de la siguiente
forma:
H = p ∈ IRn : Ap ≤ b;∑
i
pi = 1; pi ≥ 0
donde A es una matriz de dimensión m× n y b es de dimensión m× 1.
Este onjunto está a otado al onsiderar el espa io probabilísti o.
Veamos un ejemplo de este tipo de representa ión, Verdegay-López [95:
Ejemplo 1.3 El siguiente onjunto de restri iones lineales da lugar al onvexo determinado
por los puntos extremos del ejemplo 1.2
p1 + 2p2 ≥ 1
x2x1
x3
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
A
B
C
D
Figura 1.3: Conjunto convexo del ejemplo 1.2
1.2. Conjuntos convexos de distribuciones de probabilidad 17
p2 + p3 ≥ 0.6
p1 + p2 + p3 = 1
pi ≥ 0,∀i ∈ 1, 2, 3
En el aso de tener restri iones redundantes, o mejor di ho, restri iones uyo umplimien-
to se dedu e de otras restri iones del problema, se puede apli ar un método de elimina ión
omo los de Karwan [48, Rubin [87, et ...
En Verdegay-López [95 hay un trabajo interesante sobre la transforma ión de estos dos
tipos de representa iones para que utili emos la más ade uada dependiendo de nuestro objetivo.
Expresa una serie de algoritmos apa es de obtener el onjunto de restri iones de un poliedro
onvexo dado por un onjunto de puntos extremos. Además, se ha e una enumera ión de los
métodos y algoritmos que obtienen el onjunto de puntos extremos de un poliedro onvexo
determinado por un onjunto de restri iones, desta ando el estudio omparativo que ha en
Mattheiss y Rubin [71 sobre estos algoritmos.
1.2.2. Opera iones on onjuntos onvexos de distribu iones de probabili-
dad
Como ya itamos los onjuntos onvexos de distribu iones de probabilidad son poliedros
onvexos de IRny omo tales podemos denir desde un punto de vista matemáti o una serie
de opera iones sobre ellos tales omo las siguientes:
Deni ión 1.2 Dados los onjunto onvexos C1, C2 sobre una variable X, que toma valores
en ΩX = x1, x2, ..., xn, diremos que C1 ⊆ C2 si toda probabilidad extrema de C1 se puede
poner omo ombina ión onvexa de las probabilidades extremas de C2
Deni ión 1.3 Sea C un onjunto onvexo sobre X × Y on valores en ΩX × ΩY , siendo
ΩX = x1, x2, ..., xn y ΩY = y1, y2, ..., ym respe tivamente. Llamaremos onvexo marginal
de C sobre X al onjunto onvexo siguiente:
CX = (pX) ∈ P (ΩX) : ∃p ∈ C | pXi =
∑
yj∈ΩY
pij ;∀i ∈ 1, .., n
donde pXi = pX(xi) y pij = p(xi, yj).
18 Capítulo 1. Representación de la información a través de probabilidades imprecisas
Es de ir, el onjunto de las distribu iones marginales sobre X de todas las distribu iones
de probabilidad de C. De forma análoga deniríamos CY
Si C viene denido por las probabilidades extremas p1, p2, ..., pr enton es CX viene de-
nido por pX1 , pX
2 , ..., pXr , siendo pX
i la proye ión de pi sobre X, donde no todas las distribu-
iones marginales tienen porque ser extremas, es de ir
C = CHpX1 , pX
2 , ..., pXr ,
donde omo ya se dijo, on CH expresamos todas las ombina iones onvexas de ese onjunto
de probabilidades, es de ir, el as o onvexo de ese onjunto de distribu iones (el menor onvexo
que las ontiene).
Deni ión 1.4 Dado CX onjunto onvexo sobre X on valores en ΩX = x1, x2, ..., xny CY onjunto onvexo sobre Y on valores en ΩY = y1, y2, ..., ym, llamaremos onjunto
onvexo ombina ión de CX y CY sobre X × Y al onjunto siguiente:
C = CHpX1 · qY
1 , pX1 · qY
2 , ..., pXr1· qY
r2,
siendo pXi y qY
j las probabilidades extremas de CX y CY , on i ∈ 1, 2, ..., r1 y j ∈ 1, 2, ..., , r2,respe tivamente.
También notaremos a este onjunto omo C = CH(CX × CY ), entendiendo omo CH al
as o onvexo del onjunto
CX × CY = (g) ∈ IRn·m|g = pX · qY ; pX ∈ CX , qY ∈ CY
(menor onjunto onvexo que ontiene a pXi · qY
j i,j).
Como se omentó, un aspe to problemáti o sobre las opera iones on onjuntos onvexos es
el de la deni ión de independen ia. En Couso, Moral y Walley [23 se ha e una exposi ión
re opilatoria de las deni iones más relevantes.
Deni ión 1.5 Sea C un onjunto onvexo sobre las variables X,Y,Z on valores en ΩX ,ΩY ,ΩZ
respe tivamente. Se dirá que hay independen ia marginal de X e Y dado Z si y sólo si
C = CX,Z ∩ CY,Z
donde CX,Z y CY,Z son los onjuntos marginales en ΩX × ΩZ y ΩY × ΩZ respe tivamente.
1.2. Conjuntos convexos de distribuciones de probabilidad 19
En Couso, Moral y Walley [23 se justi a esta deni ión a través de ejemplos, así omo
la siguiente:
Deni ión 1.6 Sea C un onjunto onvexo sobre X × Y que toman valores sobre ΩX ×ΩY ,
se di e que existe independen ia fuerte de X e Y si y sólo si se veri a que
C = CHpiqj; i ∈ 1, ..., r1; j ∈ 1, ..., r2,
siendo CX la marginal de C sobre X y CY la marginal sobre Y y además pi | i ∈ 1, ..., r1,qj | j ∈ 1, ..., r2 son los puntos extremos de CX y CY respe tivamente
Ésta es la generaliza ión dire ta de la deni ión probabilísti a que tendrá bastante impor-
tan ia en nuestro trabajo, ya que será la que utili emos por ello.
Otra deni ión usada sobre todo en la propaga ión de grafos dirigidos a í li os, es la dada
por De Campos y Moral [11:
Deni ión 1.7 Sea CXY Z un onjunto onvexo sobre X × Y ×Z que toma valores en ΩX ×ΩY ×ΩZ, diremos que existe independen ia ondi ional fuerte de X e Y dada Z si y sólo
si CXY Z = CH(C1×C2), donde C1 es un onjunto onvexo sobre ΩX×ΩZ y C2 es un onjunto
onvexo sobre ΩY × ΩZ , sin ne esidad de que sean onjuntos marginales o ondi ionales de
CXY Z
1.2.3. Esperanzas superiores e inferiores
Se trata de un modelo tan general omo el de los onjuntos onvexos de distribu iones de
probabilidad. De he ho se demuestra que existe una biye ión entre ellos, Walley [100.
Según Walley, los onjuntos onvexos tienen una interpreta ión algo problemáti a, puesto
que no es fá il admitir que, en una determinada situa ión, la informa ión de la que disponemos
se puede representar dire tamente mediante el onjunto de las ombina iones onvexas de
determinadas probabilidades. El modelo de esperanzas inferiores es equivalente, pero on una
justi a ión más sen illa.
Se introdu e en términos de apuestas, o sea, de variables aleatorias a otadas X : ΩX → IR,
que se pueden interpretar omo juegos donde si se obtiene de resultado el valor xs ∈ ΩX ,
enton es se obtiene la re ompensa X(xs).
20 Capítulo 1. Representación de la información a través de probabilidades imprecisas
Dene la esperanza inferior, E(X), omo el pre io más alto de ompra para un juego, o
di ho de otra forma, el máximo valor que una persona estaría dispuesta a pagar por ese juego
X. Análogamente dene la esperanza superior E(X) omo el mínimo pre io de venta para el
juego X. Teniendo que
E(X) = −E(−X).
Además dene la oheren ia en este onjunto de la siguiente forma:
Deni ión 1.8 Diremos que una esperanza inferior es oherente si existe un onjunto de
distribu iones de probabilidad C tal que
E(X) = inf Ep(X)|p ∈ C,
para ualquier juego X, donde se entiende por Ep(X) a la esperanza de X respe to a p,
Ep(X) =∑
xs∈ΩXX(xs)p(xs).
Las esperanzas inferiores oherentes se ara terizan on el siguiente teorema, Walley [100:
Teorema 1.1 Sea K un espa io lineal de fun iones X de ΩX en IR (es de ir si X ∈ K, Y ∈ K,λ ∈ IR enton es λX ∈ K,X + Y ∈ K). Enton es E es una esperanza inferior oherente si y
sólo si satisfa e para todo X,Y ∈ K:
1. E(X) ≥ inf X(xs) : xs ∈ ΩX
2. E(λX) = λE(X) uando λ > 0
3. E(X + Y ) ≥ E(X) + E(Y )
A partir del siguiente teorema demuestra que las esperanzas inferiores oherentes son tan
generales omo los onjuntos onvexos de distribu iones de probabilidad, tal y omo tenemos
en la gura 1.1, siendo la rela ión de uno a uno.
Teorema 1.2 Existe una orresponden ia uno a uno entre las esperanzas inferiores oherentes
E (donde E se dene para todas las fun iones X de ΩX en IR) y los onjuntos onvexos de
distribu iones de probabilidad C.
E determina de forma úni a un onjunto onvexo C mediante:
C = p ∈ P(ΩX ) : Ep(X) ≥ E(X)
para todas las fun iones X de ΩX en IR
1.3. Capacidades 21
C determina de forma úni a una esperanza inferior oherente E, mediante
E(X) = mınEp(X) : p ∈ C
para todas las fun iones X de ΩX en IR
1.3. Capa idades
También llamadas "medidas difusas", Wang y Klir [102, Grabish et al. [38. Una apa idad
es una fun ión µ : ℘(ΩX)→ [0, 1], on X nito, tal que
1.- 0 ≤ µ(A) ≤ 1, ∀A ⊆ ℘(ΩX)
2.- µ(∅) = 0 y µ(ΩX) = 1
3.- Si A ⊆ B enton es µ(A) ≤ µ(B), ∀A,B ⊆ ℘(ΩX)
Como podemos ver son un onjunto de propiedades muy débiles.
Con el siguiente ejemplo vamos a ver que denen a onjuntos de fun iones distintos a los
de los onjuntos onvexos de distribu iones de probabilidad.
Ejemplo 1.4 Sea la siguiente fun ión µ : ℘(ΩX) → [0, 1], on ΩX = x1, x2, x3, x4, x5denida de la siguiente forma:
µ(xi) = 0,
µ(xi, xj) = 0.4,
µ(xi, xj, xk) = 0.5,
µ(xi, xj , xk, xl) = 0.9
y
µ(ΩX) = 1,∀i, j, k, l ∈ 1, 2, 3, 4, 5.
Enton es µ es una fun ión apa idad ( umple las propiedades anteriores), pero no existe pro-
babilidad o onjunto de probabilidades que veriquen tales ondi iones, pues para toda pro-
babilidad p que las veri ara, tendríamos que p(xi) = 0 y p(xj , xk) = 0.4 impli an que
p(xi, xj, xk) = 1.2, para ualesquiera i, j, k distintos.
22 Capítulo 1. Representación de la información a través de probabilidades imprecisas
En la siguiente se ión veremos que existen onjuntos onvexos de distribu iones de pro-
babilidad que no se pueden expresar a partir de apa idades ni de probabilidades superiores e
inferiores.
1.4. Probabilidades inferiores oherentes
Nos basaremos en las probabilidades superiores e inferiores, denidas de la siguiente forma:
Deni ión 1.9 A un par de apa idades, P y P , se le llaman probabilidades superior e infe-
rior respe tivamente, si veri an las siguientes propiedades:
1.- P (A) + P (Ac) = 1, donde Aces el ontrario de A
2.- P (A ∪B) ≥ P (A) + P (B) uando A ∩B = ∅
3.- P (A ∪B) ≤ P (A) + P (B)
Tenemos que omo 1 − P (Ac) = P (A), sólo ne esitamos ono er una, por ejemplo P (A),
por lo que al modelo se le puede denominar sólo omo de probabilidades inferiores o de proba-
bilidades superiores.
Se veri a fá ilmente de las propiedades anteriores que
P (A) ≥ 1− P (Ac) = P (A)
A un par P y P le podemos aso iar un onjunto onvexo, M , de las distribu iones de
probabilidad p tales que veriquen
P (A) ≤∑
x∈A
p(x) ≤ P (A)
Podemos ver en Walley [100 que este onjunto onvexo puede ser va ío, lo que denomina
omo "pérdida segura"en términos de apuestas. Es posible anular la perdida segura introdu-
iendo más propiedades para la pareja de probabilidades superior e inferior, lo que también nos
lleva a una mejor interpreta ión de ambas.
Un par de apa idades (P ,P ) se di en oherentes si existe un onjunto no va ío, C, de
distribu iones de probabilidad tal que
P (A) = mınp(A) : p ∈ C
1.4. Probabilidades inferiores coherentes 23
que podemos añadir omo propiedad 4, que impli a a las otras e impli a la anula ión de la
perdida segura. En este aso se di e que los intervalos de probabilidad son al anzables.
Al onjunto de probabilidades que veri an las propiedades (1), (2), (3) y (4) se le llama de
probabilidades inferiores oherentes o de probabilidades superiores oherentes, que es simple-
mente un onjunto de probabilidades superior e inferior on la garantía de que es no va ío, es
de ir, que al menos ontiene a una distribu ión de probabilidad y on intervalos de probabilidad
al anzables.
Walley [100, diferen ia el modelo de probabilidades superiores e inferiores en dos: uno
general, donde no tiene que veri arse la propiedad (4) y no tiene por qué originar un onjunto
onvexo de distribu iones de probabilidad (en realidad es un tipo on reto de apa idades) y
otro en el que si se veri a la propiedad (4) y origina un tipo on reto de onjuntos onvexos.
Veamos unos ejemplos que nos permiten ilustrar los on eptos anteriores:
Ejemplo 1.5 Si no onsideramos la propiedad 4 anterior es posible obtener un onjunto
va ío de probabilidades.
Supongamos el aso de un partido de fútbol donde los posibles resultados son G=ganar,
E=empatar y R=perder on Ω = G,E,R.Supongamos que armamos que
P (G) = 0.65, P (E) = 0.25, P (R) = 0.4,
P (G) = 0.6, P (E) = 0.2, P (R) = 0.35.(1.1)
El onjunto de probabilidades p tal que P (A) ≤ ∑x∈A p(x) ≤ P (A) es va ío, pues se
puede obtener:
∑
x∈Ω
P (x) > 1
y no hay probabilidad que verique tal ondi ión. Aunque se veriquen las propiedades 1− 3,
es ne esaria la 4 para asegurar la anula ión de la pérdida segura y la oheren ia.
Ejemplo 1.6 Supongamos ahora, en el aso del ejemplo anterior, que tenemos el sistema
siguiente:
24 Capítulo 1. Representación de la información a través de probabilidades imprecisas
P (G) = 0.52, P (E) = 0.61, P (R) = 0.31,
P (G) = 0.27, P (E) = 0.27, P (R) = 0.21.(1.2)
Tenemos que la probabilidad p = (0.27, 0.52, 0.21) pertene e a M , pero todas las probabili-
dades extremas no son al anzables pues no existe una probabilidad p′ tal que p′(E) = 0.61 =
P (E). Pues si existiera tendríamos que:
p′(Ec) = p′(G) + p′(R) ≥ 0.27 + 0.21 = 0.48
pero
p′(Ec) = 1− p′(E) = 1− 0.61 = 0.39,
lo ual no tiene sentido.
Ejemplo 1.7 Siguiendo on el aso del ejemplo anterior, supongamos ahora el sistema si-
guiente:
P (G) = 0.52, P (E) = 0.52, P (R) = 0.31,
P (G) = 0.27, P (E) = 0.27, P (R) = 0.21.(1.3)
Con sólo modi ar el valor de P (E), hemos onseguido un sistema on todas las probabili-
dades extremas al anzables.
El ejemplo [? nos sirve también para distinguir entre la teoría de apa idades y la de
onjuntos de probabilidades inferiores oherentes.
Ahora, on el siguiente ejemplo vamos a distinguir entre esta teoría y la más general de
onjuntos onvexos de distribu iones de probabilidad. Además también nos sirve omo ejemplo
para distinguir esta última de la también general teoría de apa idades.
Ejemplo 1.8 El siguiente onjunto onvexo de distribu iones de probabilidad C, sobre ΩX =
x1, x2, x3, denido por sus puntos extremos, no se puede obtener a partir de un onjunto de
probabilidades inferiores ni tampo o de una fun ión apa idad:
C = CH((1, 0, 0); (0, 0.5, 0.5)),
1.5. Capacidades de orden 2 25
pues denirían unas probabilidades inferiores de:
P (xi) = 0,∀i ∈ 1, 2, 3
P (x1, x2) = 0.5, P (x1, x3) = 0.5, P (x2, x3) = 0,
P (ΩX) = 1.
Éstas denen un onjunto de probabilidades que ontienen a la probabilidad (0.5, 0, 0.5) que
no está en C. Análogamente, si una fun ión apa idad fuese apaz de denir un onjunto
de probabilidades omo éste, tendría que tener aso iada el mismo onjunto de probabilidades
inferiores, on lo que o urriría lo mismo.
1.5. Capa idades de orden 2
Se denen omo un onjunto de probabilidades superior e inferior P ,P o sólo P que
veri a:
P (A ∪B) + P (A ∩B) ≥ P (A) + P (B), ∀A,B ⊆ ℘(ΩX)
Las apa idades de orden 2 son siempre oherentes, Walley [100.
Además, no todas las probabilidades superiores e inferiores son apa idades de orden 2,
omo se puede ver en siguiente ejemplo:
Ejemplo 1.9 Consideremos el siguiente sistema de probabilidades inferiores sobre el onjun-
to nito ΩX = x1, x2, x3, x4:
P (xi) = 0, ∀i ∈ 1, 2, 3, 4
P (x1, x2) = 0, P (xl, x3) = 0.5, P (xl, x5) = 0.5, ∀l ∈ 1, 2,
P (xi, xj , xk) = 0.5, ∀i, j, k ∈ 1, 2, 3, 4
P (ΩX) = 1.
No es una apa idad de orden dos pues si llamamos A = x1, x3 y Bx1, x4 tenemos que
P (A ∪B) + P (A ∩B) = P (x1, x3, x4) + P (x1) = 0.5 < P (A) + P (B) = 1.
26 Capítulo 1. Representación de la información a través de probabilidades imprecisas
1.5.1. Capa idades de orden n > 2
Diremos que una apa idad P es de orden n o n-monótona si se veri a que
P (A1 ∪A2 ∪ . . . ∪An) ≥n∑
i=1
P (Ai)−∑
i
∑
j>i
P (Ai ∩Aj) + . . .
+ . . . +∑
i
∑
j>i
∑
k>j
P (Ai ∩Aj ∩Ak)− . . . + (−1)n+1P (n⋂
i=1
Ai)
para ualesquiera A1, A2, ..., An ∈ ℘(ΩX)
1.6. Intervalos de probabilidad
En el trabajo de de Campos, Huete y Moral [10, podemos en ontrar una ex elente exposi ión
de las opera iones bási as para trabajar on intervalos de probabilidad, así omo su rela ión
on otros modelos tales omo los de probabilidades superiores e inferiores, apa idades de orden
2 y fun iones de reen ia.
La ara terísti a prin ipal de este modelo es que son posibles mu has interesantes opera io-
nes entre onjuntos de intervalos de probabilidad sin tener que salirnos del modelo, es de ir,
que dan omo resultado otro onjunto de intervalos de probabilidad.
Se pueden des ribir de la siguiente manera: Sea X una variable que toma valores en
ΩX = x1, x2, . . . , xn. Un sistema de intervalos de probabilidad es una familia de intervalos
L = [li, ui]; i ∈ 1, 2, . . . veri ando que 0 ≤ li ≤ ui ≤ 1. Enton es al sub onjunto M de
todas las distribu iones de probabilidad sobre ΩX , P(ΩX), denido omo
M = p ∈ P(ΩX)|li ≤ pi ≤ ui,∀i,
expresando a pi omo p(xi), se le denomina onjunto onvexo aso iado al onjunto de in-
tervalos de probabilidad L.
Una ondi ión para que esta onjunto sea no va ío (se evite la pérdida segura) es que
∑
i
li ≤ 1 ≤∑
i
ui.
1.6. Intervalos de probabilidad 27
Es más, es posible ara terizar la oheren ia, tal y omo fue denida, de un onjunto de
intervalos de probabilidad, a través de la ondi ión de intervalos de probabilidad al anzables
que son aquellos que veri an las ondi iones:
∑
j 6=i
lj + ui ≤ 1
∑
j 6=i
uj + li ≥ 1,
para ualquier i. Con lo que existirán probabilidades enM que tengan omo valores a los li y uj
para ualesquiera omponentes i, j ∈ 1, . . . , n. La oheren ia es ompletamente equivalente
a tener un sistema de intervalos al anzables. Si no tenemos asegurada la oheren ia es posible
obtenerla según la siguiente propiedad:
Proposi ión 1.1 Dado un onjunto de intervalos de probabilidad L = [li, ui]; i ∈ 1, 2, . . . , nel onjunto L′ = [l′i, u′
i]; i ∈ 1, 2, . . . , n donde
l′i = maxili, 1−
∑
i6=j
uj
u′i = mın
iui, 1−
∑
i6=j
lj,
determinan el mismo onjunto de probabilidades, M = M′, siendo este último onjunto de
intervalos al anzable.
En algunas situa iones, omo en la búsqueda de métodos de propaga ión de onjuntos on-
vexos en redes ausales, Cano [13, puede interesarnos ono er uál es el onjunto de proba-
bilidades extremas tal que su ombina ión onvexa nos determine el onjunto de intervalos de
probabilidad. Es de ir, omo sabemos que se trata de un onjunto onvexo de distribu iones
de probabilidad, uál es el onjunto de vérti es aso iado. Para ello, podemos usar el algorit-
mo expuesto en De Campos, Huete y Moral [10, donde utilizan un árbol de búsqueda donde
ada nodo es una probabilidad par ial y ada nodo hijo de éste es un renamiento de padre
in rementado en una omponente pi. El algoritmo usa una lista, Prob, de probabilidades ex-
tremas ya en ontradas y otra, Expl de índi es explorados, así omo λ un valor real. Además,
las probabilidades p son tales que no tiene por qué darse que
∑i pi = 1, aunque, por supuesto
al nal del algoritmo si umplen di ha ondi ión. El algoritmo, para intervalos de probabilidad
al anzables, se puede des ribir de la siguiente forma:
28 Capítulo 1. Representación de la información a través de probabilidades imprecisas
Algoritmo 1.1 Búsqueda de las probabilidades extremas
1. Ini ializa ión:
Prob← ∅Expl← ∅λ← 1−∑i≤n li
For i = 1 to n do
pi ← li
2. Llamar a Getprob(p, λ,Expl) que al ula y añade las probabilidades extremas a Prob
3. Getprob(p,λ,Expl)
For i = 1 to n do
If not belongs (i,Expl)
then if λ ≤ ui − li
then
v ← pi;
pi ← pi + λ;
If not belongs (p, Prob)
then
Add(p, Prob);
pi ← v
Else
v ← pi;
pi ← ui;
GetProb(p, λ− ui + li, Expl ∪ i);pi ← v;
En el siguiente ejemplo podemos ver el resultado de la apli a ión del algoritmo anterior
sobre un onjunto de intervalos de probabilidades.
1.6. Intervalos de probabilidad 29
Ejemplo 1.10 Sea el siguiente onjunto de intervalos de probabilidad:
L = [0, 0.3]; [0.4, 0.8]; [0.1, 0.5]; [0, 0.4],
sobre ΩX = x1, x2, x3, x4. Por el algoritmo anterior este onjunto tiene omo probabilidades
extremas las siguientes:
(0.3, 0.5, 0.1, 0.1); (0.3, 0.4, 0.2, 0.1); (0.3, 0.4, 0.1, 0.2); (0, 0.5, 0.4, 0.1);
(0, 0.5, 0.1, 0.4); (0, 0.4, 0.5, 0.1); (0.1, 0.4, 0.1, 0.4); (0, 0.4, 0.2, 0.4).
El formalismo de los intervalos de probabilidades es altamente e iente desde el punto de
vista omputa ional pues omo podemos ver basta on trabajar on 2n valores. En de Campos,
Huete y Moral [10, podemos en ontrar el desarrollo de las prin ipales herramientas para este
modelo. La mayoría se basan en que es un tipo on reto de probabilidades superiores e inferiores
y así se trabaja para obtener ombina ión, marginaliza ión y ondi ionamiento.
Nosotros utilizaremos los onjuntos de intervalos de probabilidad, y nos aprove haremos de
su fa ilidad opera ional uando los obtengamos omo aso parti ular de onjuntos onvexos
que se obtienen al trabajar on la distribu ión de Diri hlet impre isa, Walley [97.
Los intervalos de probabilidad son un aso on reto de probabilidades inferiores y superiores,
puesto que dado un onjunto de intervalos de probabilidad L se puede obtener un par P ,Pde probabilidades superiores e inferiores, ha iendo
P (A) = inf p∈P (Ω)p(A), P (A) = sup p∈P (Ω)p(A),
∀A ⊆ ℘(Ω). En ambio, el inverso no es ierto, pues si tenemos, por ejemplo, un onjunto de
restri iones del tipo
pi + pj ≤ αij,
pi + pj + pk ≥ βijk,∑
i
pi = 1,
dan lugar a un onjunto de probabilidades superiores e inferiores pero en general no dan lugar
a un onjunto de intervalos de probabilidad.
Además es posible demostrar los intervalos son siempre un tipo de apa idad de orden 2 (de
Campos, Huete y Moral [10).
30 Capítulo 1. Representación de la información a través de probabilidades imprecisas
1.6.1. Fun iones de reen ia
La teoría de la eviden ia o teoría de Dempster-Shafer, Dempster [25, Shafer [88, tienen
realmente su origen en los trabajos sobre probabilidades superiores e inferiores de Dempster
[25 .
Se basa en fun iones m : ℘(ΩX)→ [0, 1], on X onjunto nito, tales que
m(∅) = 0
∑
A⊆℘(ΩX)
m(A) = 1.
A este tipo de fun iones se les llama asigna iones bási as de probabilidad, que nosotros abre-
viaremos omo a.b.p. A los elementos A ⊆ ℘(ΩX) tales que m(A) 6= 0 se les llama elementos
fo ales de m. Al onjunto de los elementos fo ales de una a.b.p. m lo denotaremos omo Fm.
El valor m(A) representa el grado de reen ia sobre un onjunto A, es de ir indi a la reen ia
de que la variable en estudio X toma valor en A, pero no distingue sobre la reen ia de los
distintos elementos de A, omo haría una distribu ión de probabilidad en la lási a teoría de
la probabilidad.
Sobre lo que se denomina un uerpo de eviden ia, un par (Fm,m), se puede denir un par
de medidas: una medida de reen ia bel y una medida de plausibilidad pl que se determinan
sobre todos los onjuntos A ⊆ ℘(ΩX) de la siguiente forma:
bel(A) =∑
B⊆A
m(B)
pl(A) =∑
B∩A 6=∅m(B).
Podemos interpretar a bel(A) omo el grado seguro de reen ia de que el verdadero valor de
la variable X está en A y a pl(A) omo el mayor grado de reen ia de que el verdadero valor de
X esté en A. Son realmente unas probabilidades superior e inferior de A omo originalmente
fueron introdu idas por Dempster [25.
Además
pl(A) = 1− bel(Ac),
por lo que son medidas duales. Lo que nos origina, al ser pl(A) ≥ bel(A), un intervalo de
reen ia sobre ada sub onjunto A: [bel(A), pl(A)].
También podemos onsiderar a bel(A) omo el menor grado de apoyo a A y a pl(A) omo
el mayor grado de apoyo a A, Smets [92.
1.6. Intervalos de probabilidad 31
Ejemplo 1.11 Sea m a.b.p. sobre X = x1, x2, x3 determinada por
m(x1) = m(x2) = m(x3) = 0.2
m(x1, x2, x3) = 0.4
Los intervalos de reen ia anteriores para ada sub onjunto de ΩX serían:
· Para ada x1, x2, x3 tendríamos: [0.2, 0.6]
· Para xi, xj, on i, j ∈ 1, 2, 3 serían: [0.4, 0.8]
Según vemos la masa que se le da al elemento x1 no es suma de m(x1) más
13m(x1, x2, x3)
omo sería lógi o en la teoría de la probabilidad. Aunque veremos que si habrá probabilidades
ontenidas on esta a.b.p. que tendrán ese valor para x1. Para simpli ar nota ión utilizaremos
más adelante mi ≡ m(xi), mij ≡ m(xi, xj) y m123 ≡ m(x1, x2, x3), para los ejemplos
en dimensión 3 y análogamente para dimensiones mayores.
1.6.2. Rela ión on otros modelos
Según omprobó Shafer [88, las eviden ias son apa idades de orden innito, es de ir,
veri an la siguiente propiedad ∀n ≥ 0:
pl(A1 ∩A2 ∩ . . . ∩An) ≤∑
i
pl(Ai)−∑
i<j
pl(Ai ∩Aj) + . . . + (−1)n+1pl(A1 ∪A2 ∪ . . . ∪An).
Una propiedad dual se veri a para bel.
Podemos ver el par (bel, pl) omo un sistema de intervalos de probabilidad que al ser siem-
pre apa idades de orden 2 son también oherentes. Como tales, siempre podemos al ular el
onvexo aso iado (Dempster [25):
Proposi ión 1.2 Cada a.b.p. m sobre X nito tiene aso iado un onjunto onvexo de distri-
bu iones de probabilidad C de la siguiente forma:
C = p ∈ ℘(ΩX)|bel(A) ≤∑
x∈A
p(x) ≤ pl(A);∀A ⊆ ℘(ΩX)
y viene determinado por los siguientes vérti es:
32 Capítulo 1. Representación de la información a través de probabilidades imprecisas
Sea Sn el espa io de las permuta iones de n elementos, (σi) ∈ Sn, on i ∈ 1, 2, . . . , n!, ada una de ellas y σj
i su omponente j−ésima. Enton es tenemos un total de n! vérti es, uno
para ada permuta ión, estable idos de la siguiente forma: (Dempster [25, de Campos [9):
σi → (pσ1i, pσ2
i, . . . , pσn
i)
donde
pσ1i
=∑
A|σ1i ∈A
m(A),
pσ2i
=∑
A|σ2
i∈ A
σ1
i/∈ A
m(A),
. . . . . . . . . . . .
pσn−1i
=∑
A|σn−1
i∈ A
σn−2
i/∈ A
. . .
σ1
i/∈ A
m(A),
pσni
= m(xσni).
En los siguientes apítulos veremos de la importan ia de esta ara teriza ión para trabajar
en el espa io IRnen la búsqueda de fun iones que nos midan la in ertidumbre que una a.b.p.
onlleva.
Ejemplo 1.12 Consideremos ΩX = x1, x2, x3, tenemos que para ualquier a.b.p. m sobre
X obtenemos el onjunto onvexo aso iado determinado por las siguientes probabilidades, una
para ada permuta ión, expresadas en ada la de la tabla 1.1
Con la nota ión anteriormente expuesta.
Ejemplo 1.13 Apli ando la tabla 1.1 a la a.b.p. m siguiente
m1 = 0.2, m13 = 0.7
1.6. Intervalos de probabilidad 33
m123 = 0.1
tenemos el onjunto delimitado por los vérti es:
(1, 0, 0); (0.9, 0.1, 0); (0.2, 0.1, 0.7); (0.2, 0, 0.8),
que podemos ver en la gura 1.4
x2x1
x3
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
Figura 1.4: Conjunto convexo asociado a la a.b.p. del ejemplo 1.13
Esta rela ión es uno a uno, es de ir, por ejemplo en dimensión 3, para ualquier onjunto
de vérti es de la forma de la tabla 1.1 existe una sola a.b.p. de la que pro ede. Igualmente para
ualquier dimensión n.
σi p1 p2 p3
(1, 2, 3) m1 + m12 + m13 + m123 m2 + m23 m3
(1, 3, 2) m1 + m12 + m13 + m123 m2 m3 + m23
(2, 1, 3) m1 + m13 m2 + m12 + m23 + m123 m3
(2, 3, 1) m1 m2 + m12 + m23 + m123 m3 + m13
(3, 1, 2) m1 + m12 m2 m3 + m13 + m23 + m123
(3, 2, 1) m1 m2 + m12 m3 + m13 + m23 + m123
Tabla 1.1: Vértices del convexo asociado a una a.b.p. de dimensión 3
34 Capítulo 1. Representación de la información a través de probabilidades imprecisas
Las eviden ias no generalizan a los onjuntos de intervalos de probabilidad, tampo o se
veri a el re ípro o omo se puede ver en los ejemplos 1.14 y 1.15 siguientes:
Ejemplo 1.14 Para ΩX = x1, x2, x3 sea el siguiente onjunto de intervalos de probabilidad
L = [0, 0.5]; [0, 0.5]; [0, 0.5].
No existe una a.b.p. que tenga el mismo onvexo aso iado.
Tenemos que di ho onjunto de intervalos dan lugar al onvexo on vérti es
(0, 0, 0.5); (0, 0.5, 0); (0.5, 0, 0)
por lo que di ha a.b.p. m debería veri ar que
m1 + m12 + m13 + m123 = 0.5
m2 + m12 + m23 + m123 = 0.5
m3 + m13 + m23 + m123 = 0.5
m1 = m2 = m3 = 0
m2 + m23 = 0
m3 + m23 = 0
m1 + m13 = 0
m3 + m13 = 0
m1 + m12 = 0
m2 + m12 = 0,
ualquier otra op ión da lugar a una ontradi ión.
Quedando que mi = 0 y mij = 0 por lo que m123 = 0.5!!, lo que ontradi e que para una
a.b.p. la suma de todas las masas debe ser 1.
1.6. Intervalos de probabilidad 35
Ejemplo 1.15 Consideremos la siguiente eviden ia m sobre ΩX = x1, x2, x3, x4 denida omo:
m(x1, x2) = 0.5, m(x3, x4) = 0.5,
dene el siguiente onjunto de intervalos de probabilidades:
L = [0, 0.5]; [0, 0.5]; [0, 0.5]; [0, 0.5],
que ontienen a la distribu ión de probabilidad (0.5, 0.5, 0, 0) que no pertene e al onvexo de-
nido por m.
Es sen illo ver que las eviden ias generalizan a las distribu iones de probabilidad por todo lo
visto. De todas formas, para ada distribu ión de probabilidad p sobre X nito no tendríamos
más que onsiderar la a.b.p. m sobre X siguiente: mi = pi y m(A) = 0, ∀A ⊆ ℘(ΩX) tal que
|A| ≥ 2
1.6.3. Posibilidades
Formalmente, se pueden denir omo un tipo de fun iones de reen ia donde los onjuntos
fo ales son en ajados, es de ir, si Fm = A1, A2, · · · , Am enton es Ai1 ⊆ Ai2 ⊆ · · · ⊆ Aim ,
para alguna permuta ión σ = i1, i2, · · · , im on∑
i m(Ai) = 1.
En términos de probabilidades superiores e inferiores, una apa idad o probabilidad superior
P denida en ΩX para X nito, es una posibilidad si existe una fun ión π : ΩX → [0, 1] tal
que
P (A) = sup π(xi);xi ∈ A,
para todo A ⊆ ΩX .
A π se le llama distribu ión de posibilidad de P y veri a que si ΩX = x1, x2, · · · , xnexiste una permuta ión σ ∈ Sn tal que
1 = π(xi1) ≥ π(xi2) ≥ · · · ≥ π(xin),
siendo σ = (i1, i2, · · · , in). Además, tendrá aso iada la siguiente a.b.p.
mπ(A) =
π(xij )− π(xij+1) si A = xi1 , xi2 , · · · , xijπ(xin) si A = ΩX
0 en otro caso
36 Capítulo 1. Representación de la información a través de probabilidades imprecisas
Evidentemente son distintas a las distribu iones de probabilidad, pues no existe una pro-
babilidad p tal que p(xi) = 1 y p(xj) > 0, on j 6= i, y en ambio esto si es posible para
posibilidades.
La medida dual de una posibilidad P (A) = 1− P (Ac), se llama medida de ne esidad.
En Dubois y Prade [31 podemos ver unas interesantes propiedades de las posibilidades:
(i) P (A ∪B) = maxP (A), P (B)
(ii) P(⋃
γ∈Γ Aγ
)= sup P (Aγ)|γ ∈ Γ
(iii) P (A ∩B) = mınP (A), P (B)
(iv) P (A) = 0 o P (A) = 1 para todo A ⊆ ΩX
1.6.4. In lusión, marginaliza ión e independen ia de fun iones de reen ia
Ne esitaremos denir estos on eptos puesto que tendremos que trabajar on ellos mas ade-
lante uando nos entremos en las fun iones de in ertidumbre en los siguientes apítulos.
Utilizaremos la deni ión de in lusión que dieron Delgado y Moral [24, que estable e una
rela ión de orden en el onjunto de todas las a.b.p. sobre un onjunto nito X.
Deni ión 1.10 Sean m,m′dos a.b.p. sobre un onjunto nito X, diremos que m está on-
tenida en m′(m ⊆ m′
) si y solo si existe una apli a ión tA : ℘(ΩA)→ [0, 1] para ada A ⊆ X
que veri a:
m(A) =∑
B|B⊆A
tA(B),∀A ⊆ X
m′(B) =∑
A|A⊇B
tA(B),∀B ⊆ X
Está laro que si m ⊆ m′todas las probabilidades aso iadas a m′
son también aso iadas
a m aunque no se da la inversa. Es de ir si Cm y Cm′son los onvexos aso iados a m y m′
respe tivamente, enton es Cm′ ⊆ Cm.
La a.b.p. marginal de una dada la deniremos de la siguiente forma:
Deni ión 1.11 Sea m una a.b.p. sobre X × Y , on X,Y onjuntos nitos. Deniremos la
a.b.p. marginal de m sobre X omo
mX(A) =∑
R|A=RX
m(R),∀A ⊆ X,
1.6. Intervalos de probabilidad 37
donde RX es la proye ión del onjunto R ⊆ X × Y sobre X.
De forma análoga se deniría
mY (B) =∑
R|A=RY
m(R),∀B ⊆ Y,
La siguiente deni ión de independen ia, llamada independen ia de masas, será base para
trabajar on las propiedades de las fun iones que estudiaremos en el siguiente apítulo:
Deni ión 1.12 Sea m a.b.p. sobre X×Y , on X,Y onjuntos nitos, on proye iones mX
y mY sobre X e Y respe tivamente. Diremos que se produ e independen ia de masas bajo
m si y sólo si
m(A×B) = mX(A) ·mY (B),∀A ⊆ X,B ⊆ Y
Esta deni ión impli a que:
pl(A×B) = plX(A) · plY (B)
bel(A×B) = belX(A) · belY (B)
m(C) > 0 =⇒ ∃A ⊆ X,B ⊆ Y tal que C = A×B
Podemos denir también la ombina ión de dos a.b.p. mX ,mY sobre los onjuntos nitos
X,Y omo
m(A×B) = mX(A) ·mY (B),∀A×B ⊆ X × Y
m(R) = 0,∀R 6= A×B
produ iendo de forma evidente la independen ia de masas bajo m. Notaremos a esta m omo
mX ×mY . Que oin ide on el resultado de la ono ida regla de Dempster [25.
38 Capítulo 1. Representación de la información a través de probabilidades imprecisas
Capítulo 2
Trabajos previos sobre in ertidumbre
2.1. Introdu ión
El término in ertidumbre proviene de la lási a teoría de la informa ión (llamada también
teoría matemáti a de la informa ión para diferen iarla de la teoría de la informa ión rela io-
nada on el mundo de la omuni a ión periodísti a) basada en la teoría de la probabilidad y
la podemos entender omo el grado de des ono imiento del valor de la variable del fenómeno
que estamos estudiando. Cuando utilizamos un modelo, del tipo de los que hemos visto en el
apítulo anterior, para representar la informa ión in ompleta sobre la variable que estamos
estudiando, la fun ión que utili emos debe dar las probabilidades, o onjunto de ellas, de ada
uno de los posibles asos o estados de la variable. Sobre estos posibles onjuntos sería intere-
sante uanti ar on un valor real de qué manera el ono imiento al que representa nos permite
ono er el verdadero valor de la variable en estudio. Para ello, deberíamos estable er previa-
mente, de a uerdo on el modelo utilizado, qué tipo o tipos de in ertidumbre se nos presentan,
para después poder denir fun iones que sean apa es de medir éstos.
Este valor de in ertidumbre nos puede permitir, en una manera bási a, estable er qué fun-
ión de las que modelizan la informa ión, es más informativa, es de ir, presenta una menor
in ertidumbre.
El on epto de informa ión está íntimamente ligado al de in ertidumbre. Esta rela ión está
basada en la de ien ia informativa debido a las situa iones en la que ésta es in ompleta,
impre isa, fragmentada, vaga, ontradi toria o de iente en un aspe to u otro. El aumento de
la informa ión produ irá una disminu ión de la in ertidumbre.
39
40 Capítulo 2. Trabajos previos sobre incertidumbre
No debemos onfundir el on epto de informa ión on el que apare e en la teoría de la
omputabilidad, totalmente independiente del término in ertidumbre. En ésta, la antidad de
informa ión que representa un objeto se uanti a omo la longitud del programa más or-
to posible es rito en un lenguaje estandar determinado. A la informa ión de este tipo se le
denomina "informa ión des riptiva", aunque quizá es mas ono ida omo "informa ión algo-
rítmi a", Kolmogorov [63, Chaitin [16.
La teoría objeto de estudio en esta memoria se puede denominar omo teoría de la "infor-
ma ión basada en la in ertidumbre", Klir y Wierman [61, y está basada en los términos de
la lási a teoría de onjuntos estable ida por Hartley [41 y posteriormente en la teoría de la
probabilidad, por Shannon [89. La primera siempre se ha visto omo un aso espe ial de la
segunda. Posteriormente, estas ideas se han intentado trasladar a otras teorías más modernas
omo la teoría de de la posibilidad y la teoría de la eviden ia. En ésta última, en los años
90 se produjo un fru tífero desarrollo de medidas apa es de uanti ar un tipo u otro de las
in ertidumbres en ontradas, que veremos en este apítulo.
Aquí, pretendemos exponer, de forma resumida, los on eptos bási os de la lási a teoría de
la informa ión, así omo las propiedades de la medida original de la in ertidumbre, denominada
omo entropía de Shannon, Shannon [89. Después analizaremos la in ertidumbre en la teoría
de la eviden ia, donde veremos que apare en otros tipos de in ertidumbre que no se en ontraban
al trabajar on probabilidades pre isas. Hablaremos de las fun iones más interesantes que se
han utilizado en la teoría de la eviden ia desde un punto de vista omparativo on la entropía
de Shannon, referen ia ne esaria en la teoría de la probabilidad.
Al ser la teoría de la eviden ia una generaliza ión de la teoría de la probabilidad, se pre-
tende el estudio de la in ertidumbre en la primera omo una generaliza ión del de la segunda,
onsiderando omo mejores fun iones aquellas que veriquen propiedades similares a las que
veri a la entropía de Shannon para probabilidades.
Se ha bus ado una medida de in ertidumbre total, que englobe en un sólo valor todos los tipos
anteriores, umpliendo una serie de propiedades mínimas ne esarias. Nosotros evaluaremos
distintas propuestas onsiderando a la planteada por Maeda e I hihashi [69 omo la medida
de ele ión entre todas las existentes, aunque ellos no exponen dire tamente di ha fun ión,
sino que la omponen partiendo de dos fun iones previamente bien estable idas. De todas
formas, analizaremos su omportamiento en ontrando que en determinadas situa iones no
es intuitivamente orre to, omo veremos, por lo que añadiremos un fa tor que es apaz de
2.2. Teoría clásica de la información 41
arreglar los problemas en ontrados y que tiene una serie de interesantes propiedades, basándose
también en la teoría lási a de la informa ión, on retamente en la distan ia de Kullba k [64.
El apítulo lo dividiremos en dos se iones. En la primera estable eremos on eptos previos
de la teoría lási a de la informa ión, ne esarios para la buena omprensión de los trabajos
posteriores. En la segunda se ión, haremos un estudio de las medidas de in ertidumbre en la
teoría de la eviden ia y propondremos nuestro fa tor de orre ión a la de Maeda e I hihashi.
2.2. Teoría lási a de la informa ión
Los primeros estudios sobre teoría de la informa ión se deben a Nyguist [77, 78 y a Hartley
[41, que se entran en problemas rela ionados on la trasmisión, alma enaje y genera ión de
la informa ión. Aunque fue Hartley él que estable e una primera medida uantitativa de la
informa ión deniendo el ritmo de trasmisión de informa ión en un sistema de omuni a ión,
omo el logaritmo del total de posibles mensajes equiprobables que se pueden estable er a través
de ese sistema.
Wiener [106, 107, desarrolla lo que se denomina ibernéti a, estudio de la losofía general
y el ontrol de la omuni a ión. Estable e que las señales pertene ientes a un onjunto que
se denomina de señales orre tas y las que no pertene es, llamadas interferen ias o ruidos,
se pueden estable er omo pro esos aleatorios en fun ión de sus probabilidades. Teniendo en
uenta esto, Shannon [89, 90 realiza diversos trabajos en los que introdu e el on epto de
entropía y apa idad de un anal en los sistemas de omuni a ión. Aunque no fue el úni o in-
vestigador en ese ampo, se le puede onsiderar omo el reador de la teoría de la informa ión.
Otros investigadores omo Fano [35, realizan trabajos similares en esa misma épo a, aunque
las on lusiones y enfoques de Shannon fueron más ompletos.
En nuestro país, tenemos que desta ar el libro, que a prin ipios de los 80 presenta Gil [37,
donde expone sin ex esivo desarrollo, los fundamentos bási os de la teoría de la informa ión y
su onexión on otras teorías omo la de la omuni a ión, de isión, grafos, et ...
A ontinua ión vamos a ver los aspe tos fundamentales de la medida de Hartley y de la
entropía de Shannon, orígenes de nuestras a tuales medidas de in ertidumbre.
42 Capítulo 2. Trabajos previos sobre incertidumbre
2.2.1. Medidas lási as de in ertidumbre
El término de entropía, de origen quími o, denía un grado de desorden que se puede medir
en los gases. Shannon lo adoptó, no entraremos en la fortuna de di ho a oplamiento, a la
teoría de la informa ión para denominar a su medida de in ertidumbre. Probablemente pensó
en la similitud matemáti a que tenía su medida on respe to a la entropía denida en iertas
formulas de me anismos estadísti os apli ado a las molé ulas de los gases.
La medida de Hartley [41, anterior a la entropía de Shannon, se formula en términos de
la lási a teoría de onjuntos a diferen ia de la segunda que se estable e en términos de la
probabilidad, aunque ambas miden algún aspe to distinto de la in ertidumbre. La medida de
Hartley uanti a lo que posteriormente denominaremos omo no-espe i idad, in ertidumbre
proveniente de la ardinalidad del onjunto en el que sabemos está el verdadero valor de la
variable que se estudia. La medida de Shannon uanti a el grado de oni to que se estable e
entre los elementos individuales.
2.2.1.1. Medida de informa ión de Hartley
Hartley [41, espresa su medida de in ertidumbre utilizando la teoría de onjuntos nitos,
quizás la forma mas simple de estudiarla. Supongamos que el verdadero valor de una variable
pertene e a sub onjunto de símbolos del total en un sistema determinado de omuni a ión.
Partimos del ono imiento de que el verdadero valor está en ese sub onjunto, pero no se sabe
nada sobre qué valor on reto de ese onjunto es. Para eliminar la in ertidumbre que esto
representa, Hartley estable e la siguiente rela ión on respe to a la informa ión: "la antidad
de in ertidumbre que onlleva nuestro problema debe ser igual a la antidad de informa ión
ne esaria para eliminar di ha in ertidumbre".
Matemáti amente pro ede de la siguiente manera: onsideramos un onjunto nito de sím-
bolos A, que ontiene el valor que bus amos en un ontexto relativo a un sistema de omu-
ni a ión. Sabemos que podemos formar se uen ias de los elementos de A ha iendo su esivas
sele iones. Sele ionando m elementos tendríamos un total de |A|m posibles se uen ias, tam-
bién podríamos llamarlas palabras. La antidad de informa ión ne esaria para eliminar la
in ertidumbre aso iada on las palabras de tamaño m debe ser propor ional a m, es de ir, si
llamamos IH(|A|m) a la informa ión ne esaria, enton es
IH(|A|m) = k(|A|)m
2.2. Teoría clásica de la información 43
donde k(|A|) es una onstante dependiente de (|A|).Considerando los onjuntos A,B tales que |A| 6= |B|, si al ulamos palabras de tamaño
m1 en A y de tamaño m2 en B, y suponemos que existe el mismo número de palabras en
ambos asos, enton es en ambos asos ne esitaríamos la misma antidad de informa ión para
eliminar la in ertidumbre aso iada, por lo que:
|A|m1 = |B|m2
y
k(|A|)m1 = k(|B|)m2.
Apli ando logaritmos en la primera tenemos que
m2
m1=
logb |A|logb |B|
,
lo que produ e
k(|A|)k(|B|) =
logb |A|logb |B|
,
que sólo se satisfa e si
k(|A|) ∼ log2|A|,
entendiendo el símbolo ∼ omo propor ional. Esto determina k(|A|) salvo una onstante de
propor ionalidad. Podemos onsiderar k(|A|) = log2 |A| y enton es de imos que estamos uan-
ti ando la in ertidumbre en bits. Formalmente si trabajamos on un onjunto universal nito
X, tenemos que IH es una fun ión denida
IH : ℘(ΩX)→ IR+,
on rango
0 ≤ IH(A) ≤ log2 |X|.
Renyi [85 la ara teriza de la siguiente manera: teniendo en uenta sólo el número de
elementos del onjunto A de ℘(Ω), IH se puede onsiderar omo una fun ión de IN en IR+.
De esta forma, Renyi, ara teriza a esta fun ión on los siguientes axiomas:
(i) IH(n ·m) = IH(n) + IH(m) (Aditividad)
(ii) IH(n) ≤ IH(n + 1) (Monotonía)
44 Capítulo 2. Trabajos previos sobre incertidumbre
(iii) IH(2) = 1 (Normaliza ión)
donde el primer axioma impli a que ualquier onjunto on n ·m elementos se puede dividir en
n sub onjuntos de m elementos. El segundo representa que uanto mayor es el onjunto mayor
es la informa ión ne esaria para eliminar la in ertidumbre aso iada. Y el ter ero es ne esario
para trabajar en bits.
Renyi, fortale e on estos axiomas a la fun ión de Hartley, demostrando a partir de ellos
el siguiente teorema:
Teorema 2.1 La fun ión IH(n) = log2(n) es la úni a que satisfa e los axiomas (i), (ii) y
(iii).
Si onsideramos dos universales nitos X,Y y una rela ión R ⊂ X × Y , en el mismo
ontexto anterior. Suponiendo que R tiene dominio sobre los onjuntos RX ⊆ X y RY ⊆ Y ,
Hartley [41 dene análogamente fun iones de in ertidumbre marginale y onjuntas de la forma
IH(X) = log2|RX |
IH(Y ) = log2|RY |
IH(X,Y ) = log2(R)
También dene las in ertidumbres ondi ionadas:
IH(X/Y ) = log2
|R||RY |
IH(Y/X) = log2|R||RX |
Higashi y Klir [42 generalizan la fun ión de Hartley de la lási a teoría de onjuntos a la
teoría de onjuntos difusos y a la de la posibilidad. En esta última, si tenemos una distribu ión
de posibilidad π(π1, π2, . . . , πn) tal que
1 = π1 ≥ π2 ≥ . . . ≥ πn,
denen lo que denominan U-un ertainty de π omo:
U(π) =
n∑
i=2
(πi − πi+1) log2 i =
n∑
i=2
πi log2
i
i− 1
2.2. Teoría clásica de la información 45
Si lo expresáramos en términos de la asigna ión bási a de probabilidad orrespondiente a
π, tendríamos:
U(m) =n∑
i=2
m(x1, x2, . . . , xi) log2 i,
expresión que, omo veremos en apartados posteriores, utilizarán Dubois y Prade [29 para
denir su fun ión de no-espe i idad en la teoría de la eviden ia, aprove hando las buenas
propiedades de esta fun ión, omo medida de informa ión e in ertidumbre en la teoría de la
posibilidad. Es más Klir y Mariano [56, demuestran que esta fun ión es la úni a medida de
no-espe i idad posibilísti a apaz de veri ar los axiomas anteriores.
2.2.1.2. Entropía de Shannon
Shannon [89 dedu e una medida de in ertidumbre de informa ión formulada en términos
de la teoría de la probabilidad, llamándola entropía, en base al siguiente razonamiento: si
partimos de un universal nito X y ono emos que la probabilidad de que el experimento
(generalizamos el uso de los sistemas de omuni a ión que es lo que realmente utiliza Shannon),
que realizamos, nos de el valor xs ∈ X es alta, enton es en el aso de que o urra xs nos
sorprenderíamos po o, por lo que nuestra in ertidumbre sobre el experimento sería mínima. Por
el ontrario, si la probabilidad de xs es muy pequeña nos sorprendería bastante la o urren ia de
xs, por lo que la in ertidumbre sobre nuestro pronósti o xs sería bastante grande y por tanto,
también la informa ión que obtendríamos si o urre xs. Por onsiguiente, una fun ión que nos
exprese nuestra in ertidumbre en el pronósti o que hagamos debe ser una fun ión de re iente
on respe to al valor de la probabilidad de ada aso aislado, de ada xs.
Esta fun ión que se puede denir para ada xs ∈ X on probabilidad p(xs) la podemos
expresar omo
u : [0, 1]→ [0,∞)
on u(a) > u(b) para a < b puesto que p(xs) ∈ [0, 1]
Para observa iones independientes en sentido probabilísti o, debería veri arse que
u(p(x, y)) = u(p(x)) + u(p(y))
uando p(x, y) = p(x)p(y).
Partiendo de esta ono ida e ua ión de Cau hy, la solu ión a nuestro problema es
u(x) = k logb(x),
46 Capítulo 2. Trabajos previos sobre incertidumbre
donde k es una onstante que debe ser negativa, puesto que la fun ión logarítmi a es re iente
y nuestra fun ión u debe ser de re iente.
Además, análogamente a la fun ión de Hartley, si uanti amos la informa ión en bits,
tendríamos que b = 2 y añadiendo el requerimiento de la normaliza ión omo u(1/2) = 1
obtendríamos que k = −1 y
u(x) = − log2(x).
Si onsideramos el onjunto ompleto de los valores de X, del experimento, on p(xs) las
probabilidades para ada xs ∈ X, el valor esperado de nuestra fun ión de in ertidumbre sería
igual a la siguiente esperanza matemáti a:
u = E(u) = −∑
x∈X
p(x) log2 p(x).
Esta fun ión es la que Shannon dene omo entropía de una distribu ión de probabilidad p,
denotandola omo H(p) = −∑x∈X p(x) log2 p(x).
La rela ión de esta fun ión on la anterior de Hartley tiene ierta ontroversia. Por un
lado el valor de medida de Hartley se obtiene de la entropía de Shannon ha iendo todos los
elementos xs equiprobables, on probabilidad 1/|X|. Pero, de he ho, la entropía de Shannon y la
medida de informa ión de Hartley miden aspe tos distintos sobre in ertidumbre e informa ión.
Para ara terizar a una medida de in ertidumbre,
H : ℘(ΩX)→ [0,∞),
siendo ℘(ΩX), el onjunto de todas las distribu iones de probabilidad sobre los elementos de
ΩX , se puede utilizar en la teoría de la probabilidad, Klir y Folger [55, el umplimiento de la
siguiente axiomáti a:
(H1) Expansibilidad
Cuando se añade un omponente on probabilidad ero la in ertidumbre no debe ambiar.
Formalmente
H(p1, p2, . . . , pn) = H(p1, p2, . . . , pn, 0)
para todo (p1, p2, . . . , pn) ∈ ℘(ΩX)
(H2) Simetría
2.2. Teoría clásica de la información 47
La in ertidumbre debe permane er invariante on respe to a ualquier permuta ión de
las probabilidades de una distribu ión de probabilidad. Es de ir,
H(p) = H(σ(p))
siendo σ(p) permuta ión de las probabilidades de p
σ(p) = (pi1, pi2 , . . . , pin),
on
p = (p1, p2, . . . , pn)
(H3) Continuidad
La fun ión H debe ser ontinua en todos sus argumentos p1, p2, . . . , pn (a menudo se
sustituye esta ondi ión por una más débil: que H(q, 1 − q) sea ontinua en q en el
intervalo [0, 1]).
(H4) Máximo
H debe obtener su máximo uando todos los elementos de X sean equiprobables. Es de ir,
H(p) ≤ H(1
n,1
n, . . . ,
1
n),
para todo p ∈ ℘(ΩX), on |X| = n
(H5) Subaditividad
La in ertidumbre de una distribu ión de probabilidad onjunta no debe ser mayor que la
suma de las in ertidumbres de sus orrespondientes distribu iones marginales. Formal-
mente
H(p11, p12, . . . , p1m, p21, p22, . . . , p2m, . . . , pn1, pn2, . . . , pnm) ≤
≤ H(m∑
i=1
pi1,m∑
i=1
pi2, . . . ,m∑
i=1
pin) + H(n∑
j=1
p1j ,n∑
j=1
p2j , . . . ,n∑
j=1
pmj)
para ualquier distribu ión onjunta de ℘(ΩX×Y ) on |X| = n y |Y | = m
(H6) Aditividad
Con la nota ión anterior, para dos distribu iones marginales, sobre X e Y respe tiva-
mente, la in ertidumbre aso iada a su distribu ión onjunta, si se da la independen ia,
debe ser igual a la suma de las in ertidumbres de las distribu iones marginales:
48 Capítulo 2. Trabajos previos sobre incertidumbre
H(pp′) = H(p) + H(p′),
donde p ∈ ℘(ΩX)), p′ ∈ ℘(ΩY ) y pp′ ∈ ℘(ΩX×Y ).
A ve es sólo se requiere esta propiedad de forma débil: onsiderando la anterior igualdad
on p y p′ las distribu iones uniformes sobre X e Y , respe tivamente.
(H7) Monotonía
Para las distribu iones equiprobables la in ertidumbre debe aumentar uando aumenta n
H(n) ≤ H(n + 1).
Entendiendo omo H(n) a la entropía de la distribu ión uniforme para onjuntos de
ardinal n.
(H8) Rami a ión
Dada una distribu ión de probabilidad sobre un onjunto nito X, la antidad de in er-
tidumbre debería ser la misma si se al ula de forma global o lo al. Entendiéndose omo
ál ulo lo al aquel que se realiza en dos etapas: en la primera al ularíamos la in ertidum-
bre de una familia de sub onjuntos disjuntos y exhaustivos de X y en la segunda al ula-
ríamos la in ertidumbre relativa a esos sub onjuntos. Es de ir, sean A = x1, x2, . . . , xsy Bxs+1, . . . , xn on A ∩B = ∅ y A ∪B = X. Denotando omo
PA =
s∑
i=1
pi
y
PB =
n∑
i=s+1
pi,
este axioma se puede espe i ar por la e ua ión
H(p1, p2, . . . , pn) = H(PA, PB) + PA ·H(p1
PA,
p2
PA, . . . ,
ps
PA) + PB ·H(
ps+1
PB, . . . ,
pn
PB).
(H9) Normaliza ión
Si queremos uanti ar la in ertidumbre en bits, enton es se debe umplir que H(1/2, 1/2) =
1.
2.2. Teoría clásica de la información 49
Como podemos ver en toda la literatura de la teoría lási a de la informa ión, para a-
ra terizar una medida probabilísti a de in ertidumbre no es ne esario el onjunto ompleto de
los nueve axiomas anteriores (Klir y Folger [55). Cualquiera de las siguientes ole iones de
axiomas se han demostrado omo su ientes para ara terizar di ha medida:
1.- H3, aditividad débil, H7, H8 y H9
2.- H1, H3, H4, H8 y H9
3.- H2, H3, H8 y H9
4.- H1, H2, H3, H5, H6 y H9
Klir y Wierman [61 demuestran que la entropía de Shannon es la úni a fun ión que veri a
el primer onjunto de axiomas anterior. Esto le da una mayor importan ia a esta fun ión. El
resto de propiedades también son veri adas por la entropía de Shannon omo se puede ver en
la amplia literatura sobre este tema en la teoría de la informa ión.
Interesantes apli a iones tienen también las entropías onjuntas, marginal y ondi ional,
denidas a partir de dos onjuntos nitos X e Y . Vamos a denirlas, utilizando la nota ión de
Klir y Folger [55, donde utilizan H(X) en lugar de H(p(x)|x ∈ X) o H(p1, p2, . . . , pn). Para
simpli ar la nota ión, se utilizarán p(x) y p(y) para referirnos a las probabilidades marginales
sobre X e Y respe tivamente y p(x, y) a la probabilidad onjunta sobre X×Y . Finalmente nos
referiremos omo p(x/y) y p(y/x) a las distribu iones ondi ionales.
Ahora, dados dos onjuntos nitos X e Y tenemos las siguientes entropías:
1. Dos entropías simples basadas en las distribu iones marginales
H(X) = −∑
x∈X
p(x) log2 p(x)
H(Y ) = −∑
y∈Y
p(y) log2 p(y)
2. Una entropía onjunta denida en términos de la la distribu ión onjunta sobre X × Y
H(X,Y ) = −∑
(x,y)∈X×Y
p(x, y) log2 p(x, y)
50 Capítulo 2. Trabajos previos sobre incertidumbre
3. Dos entropías ondi ionales denidas en términos de las probabilidades ondi ionales de
X sobre Y y vi eversa.
H(X/Y ) = −∑
y∈Y
p(y)∑
x∈X
p(x/y) log2 p(x/y)
H(Y/X) = −∑
x∈X
p(x)∑
y∈Y
p(y/x) log2 p(y/x)
Se pueden demostrar, Klir y Folger [55, las siguientes propiedades sobre las fun iones
entrópi as anteriores
I. H(X/Y ) = H(X,Y )−H(Y ) (análogamente H(Y/X) = H(X,Y )−H(X))
II. H(X,Y ) ≤ H(X) + H(Y )
III. H(X) ≥ H(X/Y ) (análogamente H(Y ) ≥ (Y/X))
Para a abar on este apartado, y volviendo a nuestra nota ión, vamos a introdu ir aquí
resultados interesantes para nuestro trabajo, que han sido estable idas dentro de la teoría de la
informa ión.
Un teorema muy importante en la teoría de la informa ión, esen ial para la demostra ión
de gran antidad de propiedades de la entropía de Shannon, es el llamado Teorema de Gibbs
o Desigualdad de Gibbs. Es una desigualdad altamente utilizada omo herramienta que no
sólo es útil para las propiedades de la entropía de Shannon, sino, omo veremos, también la
utilizaremos nosotros para demostrar propiedades de fun iones similares a ésta.
Teorema 2.2 Para dos ualesquiera distribu iones de probabilidad p, q sobre un onjunto -
nito X, se veri a que
−∑
i
pi log2 pi ≤ −∑
i
pi log2 qi
y la igualdad se veri a uando pi = qi, ∀i ∈ 1, 2, . . . , n on |X| = n
Este teorema ha sido ampliamente demostrado. Nosotros daremos, en el Apéndi e C del
apítulo 3, una demostra ión propia.
De forma rápida, podemos utilizar este resultado para demostrar que el máximo de la en-
tropía de Shannon es el valor que se obtiene para la distribu ión uniforme:
−∑
i
pi log2 pi ≤ −∑
i
pi log2
1
n= − log2
1
n
∑
i
pi = log2 n = −∑
i
1
nlog2
1
n,
2.2. Teoría clásica de la información 51
luego H(p) ≤ log2 n on |X| = n y p distribu ión de probabilidad sobre X.
Otro interesante on epto es el ono ido omo entropía ruzada o "distan ia"de Kullba k
[64, introdu ida en la teoría de la informa ión para medir la divergen ia de dos distribu iones
de probabilidad tomando omo base la entropía de Shannon, por lo que se ono e también omo
entropía ruzada de Shannon.
Deni ión 2.1 Dadas dos distribu iones de probabilidad p, q sobre un onjunto nito X,
denimos
K(p, q) =∑
x∈X
p(x) log
(p(x)
q(x)
)= −
∑
x∈X
p(x) log q(x) +∑
x∈X
p(x) log p(x),
donde el valor 0/0 se onsidera 0 y si para algún x tal que q(x) = 0 y p(x) 6= 0 enton es
de imos que K(p, q) diverge.
Es fá il ver que está denida positiva (suponiendo que 0 log(0) = 0), simplemente apli ando
la desigualdad de Gibbs.
No tiene todas las propiedades de una distan ia, aunque se la denomine así. Es una fun ión
similar a una medida de informa ión y se le puede onsiderar omo una medida de "divergen ia
dire ta", Kullba k [64.
Normalmente se ha empleado omo medida del grado en que una distribu ión de probabilidad
estimada q se aproxima a la distribu ión p. Algunas de las apli a iones de esta entropía ruzada
las podemos ven en el libro de Klir y Folger [55. Nosotros la utilizaremos para denir una
medida de in ertidumbre en el siguiente apítulo.
Una de sus ventajas respe to a otras distan ias entre distribu iones de probabilidad, omo la
eu lídea, es que pondera más las diferen ias de probabilidad en valores pequeños que en valores
intermedios, omo podemos ver en el siguiente ejemplo:
Ejemplo 2.1 Sean las distribu iones de probabilidad sobre X = x1, x2, x3 siguientes
p(0.2, 0.2, 0.6); q(0.1, 0.1, 0.8)
y sea t = 1/2(p + q) = (0.15, 0.15, 0.7). Llamando d a la distan ia eu lídea sobre IR3tenemos
que
d(p, q) = 0.24, K(p, q) = 0.14,
d(p, t) = 0.12, K(p, t) = 0.03,
52 Capítulo 2. Trabajos previos sobre incertidumbre
y
d(q, t) = 0.12, K(q, t) = 0.19.
Donde hemos utilizado logaritmos en base 2.
Entre p y t, mientras que on la distan ia eu lídea, al tomar la probabilidad intermedia
entre dos, obtenemos la mitad de la distan ia, on la Kullba k no es así bajando hasta un 20%
ésta. Observemos que entre q y t las distan ia de Kullba k es mayor que entre p y t al ser los
valores de q más extremos.
2.2.2. Prin ipios de in ertidumbre
Debido a la rela ión que existe entre in ertidumbre e informa ión, éstos se pueden denomi-
nar omo prin ipios de informa ión. Son prin ipios lógi os que tienen un origen motivado en
el buen fun ionamiento y uni idad de la entropía de Shannon omo medida de in ertidumbre
en la teoría de la probabilidad y omo veremos, se podrán extender a otras teorías que genera-
li en a ésta. Desde un punto de vista prá ti o, suponen unas reglas bási as para la apli a ión
de estas medidas en situa iones on retas. Vamos a ha er una breve des rip ión de ellos.
Prin ipio de mínima in ertidumbre
Bási amente nos di e que entre todas las alternativas posibles, en problemas que onlleven
in ertidumbre y en las que halla una pérdida de informa ión, debemos elegir aquellas en las que
la in ertidumbre sea mínima. Se puede onsiderar omo una versión del prin ipio de simpli-
a ión que estable e que uando queremos redu ir la omplejidad de un sistema redu iéndolo
a otros más simples y tenemos varias formas de realizarlo debemos sele ionar aquella op ión
en la que la pérdida de la informa ión sea mínima, o lo que es lo mismo, la que el aumento de
in ertidumbre sea mínimo. Este prin ipio surge omo una regla que nos ayuda a de idir qué
simpli a iones tenemos que tomar en determinadas situa iones. Aunque la apli a ión de este
prin ipio a los problemas de simpli a ión no es la úni a, quizás si sea la más importante.
Otra apli a ión de este prin ipio es en el área de los problemas de oni to-resolu ión, Klir
[52.
En Christensen [19, 20, 21 y en Watanabe [104, 105 tenemos referen ias del uso de este
prin ipio en la teoría de la probabilidad, aunque también se ha apli ado fuera de ella sobre
todo por Klir (Cavallo y Klir [14, Klir [49, 53, Klir y Parviz [57, Klir y Way [60).
2.2. Teoría clásica de la información 53
Veamos un ejemplo de apli a ión de este prin ipio
Ejemplo 2.2 Supongamos que tenemos dos variables X1 y X2 rela ionadas, X2 depende de
X1, donde ΩX1 = bajo,medio, alto y ΩX2 = bajo, alto. Supongamos que tenemos una
distribu ión onjunta dada por la tabla 2.1
X1 X2 p(X1,X2)
Bajo Bajo 0.2
Bajo Alto 0.2
Medio Bajo 0.15
Medio Alto 0.05
Alto Bajo 0.1
Alto Alto 0.3
Tabla 2.1: Valores de la distribución conjunta de X1 y X2
La in ertidumbre relevante la expresará la entropía ondi ional, on la nota ión usada an-
teriormente para el aso, H(X2/X1), obteniendo:
H(X2/X1) = −2 · 0.2 log2 0.2− 0.15 log2 0.15 − 0.5 log2 0.5− 0.1 log2 0.1 − 0.3 log2 0.3 = 2.41
H(X1) = −2 · 0.4 log2 0.4− 0.2 log2 0.2 = 1.52
H(X2/X1) = H(X1/X2)−H(X1) = 0.89
Ahora, queremos ha er una simpli a ión del sistema a alguno de los siguientes:
S1 : In luimos el estado "Medio"de X1 en "Bajo".
S2 : In luimos el estado "Medio"de X1 en .
A
lto".
Se puede ver el resultado de las probabilidades, en las distintas simpli a iones, en las tablas
2.2 y 2.3:
En la tabla 2.4 podemos ver las entropías resultantes en ada uno de los sistemas.
Lo que, obviamente, nos lleva a elegir la simpli a ión 1 por tener menor in ertidumbre.
54 Capítulo 2. Trabajos previos sobre incertidumbre
X1 X2 p(X1,X2)
Bajo Bajo 0.35
Bajo Alto 0.25
Alto Bajo 0.1
Alto Alto 0.3
Tabla 2.2: Resultados de las probabilidades de la simplificación S1
X1 X2 p(X1,X2)
Bajo Bajo 0.2
Bajo Alto 0.2
Alto Bajo 0.25
Alto Alto 0.35
Tabla 2.3: Resultados de las probabilidades de la simplificación S2
S1 S2
H1(X1,X2) = 1.88 H2(X1,X2) = 1.96
H1(X1) = 0.97 H2(X1) = 0.97
H1(X2/X1) = 0.91 H2(X2/X1) = 0.99
Tabla 2.4: Valores de la entropías resultantes de las simplificaciones S1 y S2
2.2. Teoría clásica de la información 55
Prin ipio de máxima entropía
Es un prin ipio dual del anterior. Nos garantiza que toda nuestra falta de informa ión se
tiene que tener en uenta uando reali emos un renamiento de nuestro ono imiento, no
podemos añadir más informa ión a nuestro ono imiento. Se puede expresar de la siguiente
manera: no se debe usar más informa ión de la que dispongamos. En términos probabilísti os,
nos expresa que entre todas las distribu iones de probabilidad posibles a elegir, debemos tomar
aquella que, estando de a uerdo on los datos de nuestro problema, onlleve la mayor in er-
tidumbre. Por ejemplo, en aquellos asos en los que no tenemos ninguna eviden ia, o di ho
de otra forma: somos ignorantes en la materia según la informa ión disponible, este prin ipio
nos haría elegir omo solu ión la distribu ión de probabilidad uniforme.
Matemáti amente la formula ión de este prin ipio sería la siguiente: dado un onjunto
nito de n elementos, debemos de determinar la distribu ión de probabilidad que maximi e
la entropía de Shannon sujeto a las restri iones que representa la eviden ia disponible. En
general se trataría de resolver un problema de optimiza ión no lineal.
En Klir y Folger [55 podemos ver ejemplos de apli a iones de este prin ipio.
Estos dos prin ipios se pueden onsiderar omo prin ipios ligados a la medida de entropía
de Shannon evidentemente, puesto que es la herramienta utilizada. Ahora, uando utili emos
modelos más generales, tendremos situa iones en los que se nos pueden plantear otros tipos de
in ertidumbre y tendremos que utilizarlos a través de otras medidas de in ertidumbre.
Los trabajos sobre el prin ipio de máxima entropía son bastante numerosos. Estable ido
por Jaynes [45, tenemos un gran número de apli a iones en Christensen [19, 20, 21, Kapur
[46, 47 y Tribus [93.
Este prin ipio se puede generalizar on el prin ipio de mínima entropía ruzada, Williams
[108, Shore y Johnson [91, donde se utiliza la expresión de Kullba k anteriormente vista. Se
pueden ver justi a iones y expli a iones de este prin ipio en el libro de Klir y Wierman [61.
Prin ipio de in ertidumbre invariante
Debido a la gran antidad de modelos matemáti os que son apa es de representar la in er-
tidumbre, tales omo los que vimos en el apítulo 1, se nos plantea la ne esidad de tratar on
distintas representa iones de la misma informa ión.
Cuando una informa ión representada según un modelo la omparamos on la representa-
ión en otro modelo distinto, la antidad de in ertidumbre o informa ión debería de mantener-
56 Capítulo 2. Trabajos previos sobre incertidumbre
se. Esto es lo que estable e el prin ipio de in ertidumbre invariante: el medio de formaliza ión
no debe añadir o eliminar in ertidumbre o informa ión.
Este prin ipio introdu ido por Klir [50, 51 nos obliga a uni ar las distintas medidas para
la uanti a ión de la in ertidumbre apli adas a los distintos modelos matemáti os de repre-
senta ión. Como expli amos al omienzo de este trabajo, ésta es la línea bási a de nuestros
esfuerzo. Esta idea nos lleva a omenzar on el estudio de las medidas de in ertidumbre en la
teoría de la eviden ia, que veremos en la siguiente se ión. Estas medidas serán estudiadas y se
propondrán modi a iones de las mismas. Cuando en onjuntos onvexos denamos medidas
de in ertidumbre, trataremos de generalizar las onsideradas en la teoría de la eviden ia.
2.3. In ertidumbre en la teoría de la eviden ia
Puesto que estamos estudiando la in ertidumbre en una teoría que generaliza a la teoría de
la probabilidad, lo primero que debemos pensar, de a uerdo on el prin ipio de in ertidumbre
invariante, es que las medidas propuestas aquí deben generalizar a la entropía de Shannon,
veri ando un onjunto de propiedades similares a los que ésta veri a en la teoría de la
probabilidad. En la dé ada de los 90 se desarrolló una importante serie de trabajos sobre la
medi ión de la in ertidumbre en la teoría de la eviden ia, en los que tenemos que desta ar los
trabajos que Klir y otros investigadores realizaron, Klir y Folger [55, Klir y Ramer [59, Klir
y Parviz [58, Harmane y Klir [39, Klir y Wierman [61 y Ramer [83, Maeda e I hihashi
[69, Lamata y Moral [65, Yager [109 y Dubois y Prade [29 entre otros.
Lo primero que debemos de analizar es qué tipos de in ertidumbre nos vamos a en ontrar en
esta teoría, puesto que ahora no sólo trabajamos on elementos individuales, sino que tenemos
que tener en uenta los valores de las probabilidades de los onjuntos de ardinalidad mayor
que uno, pues una asigna ión bási a de probabilidad puede asignar masa positiva dire tamente
a este tipo de onjuntos y es lo que onstituye su diferen ia fundamental on la teoría de la
probabilidad. Por lo tanto, hay una nueva dimensión para la ignoran ia: la impre isión.
Debemos delimitar exa tamente qué tipos de in ertidumbre vamos a tener, para justi ar
posteriormente su medi ión. Las medidas expuestas para tal n deberían, de forma matemáti a,
ser tan onsistentes omo la entropía de Shannon.
El prin ipal es ollo estriba en que queremos omparar una medida basada en más de un
tipo de in ertidumbre on la entropía de Shannon que se basa en probabilidades simples, por lo
2.3. Incertidumbre en la teoría de la evidencia 57
que el valor de la in ertidumbre debe ampliarse on otro fa tor. Luego al medir varios tipos de
in ertidumbre, alguno similar al entrópi o, el rango de la in ertidumbre total puede ser mayor
que el de la entropía de Shannon para probabilidades.
Estudiaremos las medidas planteadas en la teoría de la eviden ia, teniendo en uenta su
justi a ión intuitiva y matemáti a y en ontraremos fun iones apa es de veri ar una an-
tidad de propiedades similar a las que veri aba la entropía de Shannon para probabilidades.
Nos entraremos en la que tiene mejor omportamiento en ambos aspe tos y haremos nota
de alguna in ongruen ia en su apli a ión, que arreglaremos on la introdu ión de un nuevo
fa tor.
En la subse ión 2.2.1 estable eremos, qué tipos de in ertidumbre nos vamos a en ontrar, lo
que nos llevará a justi ar el estudio de su medi ión. Así mismo, omentaremos las propiedades
que una fun ión de in ertidumbre debe umplir, ya sea para medir un aspe to de in ertidumbre
o para medir la in ertidumbre de una forma global. En la subse ión 2.2.2 analizaremos las
medidas que se han propuesto para medir las in ertidumbres expuestas en el apartado anterior.
En la subse ión 2.2.3 omentaremos los problemas en ontrados en la medida de in ertidum-
bre total que mejor fun iona intuitiva y matemáti amente en este modelo. Finalmente, en la
subse ión 2.2.4 deniremos un nuevo fa tor de orre ión que modi a la medida anterior y
demostraremos sus propiedades.
2.3.1. Tipos de in ertidumbre en la teoría de la eviden ia
Klir y Wierman [61 dan un ex elente resumen de los tipos de in ertidumbre que nos po-
demos en ontrar en la teoría lási a de onjuntos, teoría de onjuntos difusos, teoría de la
probabilidad y teoría de la eviden ia. Determinan tres tipos laramente diferen iados:
· Borroso o vago, que resulta de la impre isión en las espe i a iones de los onjuntos
difusos.
· No-espe i idad o impre isión, que está rela ionada on las ardinalidades o tamaños de
los onjuntos relevantes.
· Aleatoriedad o dis ordia, que expresa el oni to entre los onjuntos de varias altenativas.
En la gura 2.1 vemos un esquema de las in ertidumbres anteriores.
58 Capítulo 2. Trabajos previos sobre incertidumbre
INCERTIDUMBRE
VAGUEDAD AMBIGUEDAD
ALEATORIEDAD NOESPECIFICIDAD
Figura 2.1: Tipos de incertidumbre encontradas en las distintas teorías
Evidentemente, en ada teoría no tenemos por qué en ontrarnos on todos esos tipos de
in ertidumbre, aunque también es posible que próximos trabajos sean apa es de dete tar otros
tipos de in ertidumbres en algún modelo.
Otros términos que están rela ionados on los anteriores son los siguientes:
- Vaguedad: turbio, os uro, nebuloso, indistinguible.
- Aleatoriedad: disonan ia, in ongruen ia, dis repan ia, oni to, dis ordia.
- No-espe i idad: variedad, generalidad, diversidad, equivo a ión, impre isión.
Como vemos, distinguiremos de forma general en dos tipos de in ertidumbre, entendiendo
por ambigüedad la in ertidumbre general que se estable e uando hay rela iones de uno a
mu hos.
Si nos entramos en la teoría de la eviden ia lási a no podemos hablar de vaguedad en
uanto a la delimita ión de los onjuntos relevantes de ésta, onjuntos fo ales, por lo que sólo
podemos hablar de in ertidumbre de tipo ambiguo. Luego, omo justi a Yager [109, en la
teoría de la eviden ia nos vamos a en ontrar sólo on dos tipos in ertidumbre, aleatoriedad,
entendida omo el desa uerdo en la ele ión entre varias alternativas y no-espe i idad, omo
in ertidumbre produ ida uando la eviden ia no nos permite elegir entre las alternativas de un
onjunto de ardinal mayor que uno. Veamos on el siguiente ejemplo el signi ado de estos
tipos de in ertidumbre.
2.3. Incertidumbre en la teoría de la evidencia 59
Ejemplo 2.3 Sean m1,m2 dos asigna iones bási as de probabilidad sobre el onjunto X =
x1, x2, x3, x4 tal que
m1(x1) = 0.3,m1(x2) = 0.4,m1(x3) = 0.1,m1(x4) = 0.2
y
m2(x1, x2, x3) = 0.7,m2(x4) = 0.3
Como podemos ver en m1 la úni a in ertidumbre que se nos plantea es la de elegir entre
los elementos individuales xs, puesto que éstos son los úni os elementos fo ales. Tendríamos
una in ertidumbre de tipo oni to o dis ordia entre los elementos, que denominamos ante-
riormente omo aleatoriedad y omo vemos se debe a que esta a.b.p. es de tipo probabilísti o,
es de ir, representa una distribu ión de probabilidad. Una medida de in ertidumbre para este
tipo de a.b.p. sería de forma natural la entropía de Shannon que podemos apli ar sin mayor
problema ambiando las p(xi) de su expresión por las m(xi) orrespondientes. En ambio, no
podemos ha er lo mismo on m2, pues se nos plantea una impre isión uando se nos indi a
que m2(x1, x2, x3) = 0.7, puesto que no sabemos nada sobre la probabilidad que tendría a-
da elemento en parti ular, aunque si ono emos el onjunto de probabilidades aso iada a esta
a.b.p. Por tanto, nos apare e otro tipo de in ertidumbre distinta a la primera y al que nosotros
llamaremos no-espe i idad. En este aso también es ierto que nos apare e el tipo primero de
in ertidumbre, puesto que tenemos un onjunto on distribu iones de probabilidad. Apli ando
el prin ipio de máxima entropía podríamos tomar omo medida de aleatoriedad el máximo de
la entropía de Shannon en este onjunto, omo veremos más adelante.
A abamos de justi ar, en términos intuitivos, los tipos de in ertidumbre que nos en ontramos
en la teoría de la eviden ia. Ahora vamos a expresar en términos matemáti os que debe ve-
ri ar una fun ión que sea apaz de medir alguna de las in ertidumbres anteriores. Debemos
estable er, pensando en teorías menos generales, qué propiedades debe veri ar.
Al igual que o urría en la teoría de la probabilidad, sólo será ne esario que verique un on-
junto redu ido de propiedades axiomáti as. Nosotros vamos a estable er aquí, qué propiedades
deben veri a nuestras medidas de in ertidumbre, ya sean de aleatoriedad, no-espe i idad o
global (la suma de los dos valores de los distintos tipos de in ertidumbre).
60 Capítulo 2. Trabajos previos sobre incertidumbre
Sea B el onjunto de todas las a.b.p. sobre el onjunto nito X y sea ϕ una fun ión de
in ertidumbre sobre B
ϕ : B→ [0,∞),
debe veri ar las siguientes propiedades:
(i) ϕ es denida no negativa (por propia deni ión).
(ii) ϕ es monótona. Sean m1,m2 ∈ B tales que m1 ⊆ m2 en el sentido que vimos en el
apítulo 1, enton es
ϕ(m1) ≥ ϕ(m2)
(iii) Aditividad. Sean mX ,mY independientes enton es
ϕ(mX ×mY ) = ϕ(mX) + ϕ(mY )
on mX ∈ BX y mY ∈ BY , on la misma nota ión.
(iv) Subaditividad. Sean m ∈ BX×Y y mX ,mY sus marginales sobre BX y BY , enton es
ϕ(m) ≤ ϕ(mX) + ϕ(mY )
(v) ϕ es una fun ión ontinua en m
(vi) ϕ al anza su máximo para la ignoran ia total
En el aso que fuese una medida de in ertidumbre total o de aleatoriedad hay que añadir:
(vii) ϕ oin ide on la entropía de Shannon uando trabajamos on probabilidades (tales omo
la a.b.p. m1 del ejemplo 2.3)
Podemos ver en trabajos sobre el tema, Klir y Wierman [61, Lamata y Moral [65, Ramer
[83, Dubois y Prade [30, et ..., que las propiedades más importantes son las de monotonía,
aditividad y subaditividad, siendo esta última el es ollo más ompli ado de superar a la hora
de denir una fun ión de in ertidumbre.
2.3. Incertidumbre en la teoría de la evidencia 61
2.3.2. Medidas de in ertidumbre
En este apartado vamos a exponer algunos de las medidas que se han estable ido para
uanti ar la aleatoriedad y no-espe i idad en una a.b.p. Nosotros separaremos el estudio de
estas fun iones dependiendo del tipo de in ertidumbre que mida. Finalmente hablaremos de las
medidas que surgen para uanti ar la in ertidumbre total donde de forma general se ombinan
una de ada tipo, en forma de suma.
Las deniremos, veremos que sentido tienen y estudiaremos sus propiedades matemáti as,
así omo su base intuitiva.
2.3.2.1. Medidas de no-espe i idad
Comenzaremos on este tipo de in ertidumbre porque originalmente fue la primera que surge
en términos de onjunto nitos, on la medida de Hartley.
Partiendo de la medida de Hartley, Higashi y Klir [42 denieron una medida de no-
espe i idad para la teoría de la posibilidad, que fue ampliada por Dubois y Prade para la
teoría de la eviden ia. Tiene la siguiente expresión
I(m) =∑
A⊆℘(ΩX)
m(A) log(|A|)
para las a.b.p. m sobre X nito.
Como medida en la teoría de la posibilidad, Klir y Mariano [56, demostraron que veri a un
onjunto de interesante propiedades axiomáti as. Su generaliza ión también las veri a, omo
podemos ver en Dubois y Prade [30, in luyendo las propiedades de monotonía, aditividad
y subaditividad. Además, Ramer [83, demuestra que veri a las propiedades de simetría y
rami a ión de una forma paralela a la entropía de Shannon.
Se puede omprobar fá ilmente que veri a la propiedad (vi) anterior y que vale 0 para
probabilidades.
Dubois y Prade [30, además, realizan un interesante estudio de las propiedades de las
medidas de informa ión en la teoría de la eviden ia y la teoría de la posibilidad. Para demostrar
las propiedades de I utilizan los siguiente lemas, que nosotros también usaremos más adelante:
Lema 2.1 Sean m1,m2 dos a.b.p. sobre los onjuntos nitos X e Y repe tivamente, y sea f
una fun ión tal que f(A×B) = f1(A) · f2(B) para ualquier par de onjuntos A,B de ℘(ΩX)
62 Capítulo 2. Trabajos previos sobre incertidumbre
y ℘(ΩY ) respe tivamente. Enton es se veri a que
∑
A,B
m1(A)m2(B) ln(f(A×B)) =∑
A
m1(A) ln(f1(A)) +∑
B
m2(B) ln(f2(B)).
Lema 2.2 Sea f una fun ión tal que si A ⊆ B se veri a que f(A) ≤ f(B), f : ℘(ΩX) →[0,∞). Enton es se veri a que si m′ ⊆ m tenemos que
∑
A⊆℘(ΩX)
m(A)f(A) ≤∑
A⊆℘(ΩX)
m′(A)f(A)
siendo m,m′dos a.b.p. sobre el onjunto nito X.
Utilizando el lema 2.1 se demuestra de forma sen illa la monotonía de la fun ión I y
usando el lema 2.2 se demuestra la aditividad. En Dubois y Prade [30 podemos ver también
la demostra ión de la subaditividad de I.
Aunque esta medida es intuitiva y tiene todas las propiedades bási as de una medida de
in ertidumbre, no fue la primera que se denió. A ontinua ión veremos otras fun iones que
fueron propuestas, aunque ninguna onseguía veri ar todas las propiedades de la medida I.
Yager [109, dene la siguiente fun ión de no-espe i idad sobre una a.b.p. m:
Y (m) = 1−∑
A⊆℘(ΩX)
m(A)/|A|
Su diferen ia on respe to a 1 es lo que se ono e omo espe i idad:
Sp(m) =∑
A⊆℘(ΩX)
m(A)/|A|
Dubois y Prade [30, estudiaron esta medida y probaron las siguientes propiedades:
(i) Es monótona de re iente.
Si m ⊆ m′enton es Sp(m) ≥ Sp(m
′). La demostra ión se obtiene utilizando el lema 2.1
y tomando la fun ión f(A) = 1|A| .
Por tanto, Y (m) es monótona re iente.
(ii) Veri a una propiedad similar a la aditividad pero de forma multipli ativa:
Si mX y mY independientes, enton es
Sp(mX ×mY ) = Sp(mX) · Sp(mY )
2.3. Incertidumbre en la teoría de la evidencia 63
(iii) Sp(m) ≤ mın(Sp(mX), Sp(mY ))
(iv) En general no satisfa e la propiedad de la supermultipli abilidad
Sp(m) ≥ Sp(mX) · Sp(mY )
(v) Vale 1 para probabilidades (Y vale 0)
Yager, dene a Y omo un "indi ador del grado de dispersión de la reen ia".
Lamata y Moral [65 estable en la siguiente medida de no-espe i idad
W (m) = log
∑
A⊆℘(ΩX)
m(A)|A|
que intenta medir el promedio de la ardinalidad de los elementos fo ales. Como sabemos la
fun ión logarítmi a es re iente, es mayor para las a.b.p. que den más masa a los elementos
on ardinalidad mayor, por lo que pare e una buena medida de no-espe i idad.
Esta medida tiene di ultades para veri ar las propiedades, puesto que aunque es logarít-
mi a, no es un promedio de logaritmos, omo I.
Obtienen una expresión equivalente para W omo
W (m) = log
(∑
a∈X
Pl(a)
),
y denominan a W e I omo no-espe i idad inferior e inferior de m, puesto que por la on-
vexidad de la fun ión logaritmo, tenemos que
W (m) = log∑
A⊆℘(ΩX)
m(A)|A| ≥∑
A⊆℘(ΩX)
m(A) log(|A|) = I(m).
Sobre esta fun ión, W , que vale 0 para probabilidades y que al anza su máximo para la
ignoran ia total, se pueden demostrar también las siguientes propiedades:
(i) Es monótona
Si m1,m2 a.b.p. sobre X nito tales que m1 ⊆ m2 enton es W (m1) ≥W (m2)
Demostra ión:
W (m1) = log
∑
A⊆℘(ΩX)
m1(A)|A|
= log
∑
A⊆℘(ΩX)
∑
B|B⊂A
tA(B)
|A|
≥
64 Capítulo 2. Trabajos previos sobre incertidumbre
al ser la fun ión logarítmi a re iente
≥ log
∑
A⊆℘(ΩX)
∑
B|B⊂A
tA(B)|B|
= log
∑
B⊆℘(ΩX )
∑
A|A⊃B
tA(B)
|B|
=
= log
∑
B⊆℘(ΩX)
∑
A|A⊃B
(tA(B)) |B|
=
por la deni ión de in lusión entre eviden ias
log
∑
B⊆℘(ΩX )
m2(B)|B|
= W (m2)
(ii) Es aditiva
Sea m a.b.p. sobre X × Y , X,Y nitos, tales que existe independen ia de masas entre
las a.b.p. marginales (m = mX ×mY ) enton es W (m) = W (mX) + W (mY )
Demostra ión:
W (m) = log
∑
A⊆℘(ΩX×ΩY )
m(A)|A|
= log
∑
AX×AY ⊆℘(ΩX×ΩY )
m(AX ×AY )|AX ×AY |
=
= log
∑
AX⊆℘(ΩX),AY ⊆℘(ΩY )
m(AX ×AY )|AX ×AY |
=
= log
∑
AX⊆℘(ΩX),AY ⊆℘(ΩY )
m(AX)m(AY )|AX ||AY |
=
= log
∑
AX⊆℘(ΩX)
m(AX)|AX |
∑
AY ⊆℘(ΩY )
m(AY )|AY |
=
== log
∑
AX⊆℘(ΩX)
m(AX)|AX |
+ log
∑
AY ⊆℘(ΩY )
m(AY )|AY |
=
= W (mX) + W (mY )
2.3. Incertidumbre en la teoría de la evidencia 65
(iii) No es subaditiva
Sea m a.b.p. sobre X × Y , on X,Y nitos. No se veri a, en general, que
W (m) ≤W (mX) + W (mY ).
Consideremos el siguiente ontraejemplo:
Ejemplo 2.4 Sean los onjunto nitos X = x1, x2, x3 e Y = y1, y2, y3 y sea m la
siguiente a.b.p. sobre X × Y
m((x1, y1); (x1, y2); (x1, y3); (x2, y1); (x2, y2); (x2, y3)) =1
2, m((x3, y1); (x3, y3)) =
1
2
Ahora, las marginales serían
mX(x1, x2) =1
2, mX(x3) =
1
2
y
mY (y1, y2, y3) =1
2, mY (y1, y2) =
1
2,
on lo que tenemos
W (m) = log(61
2+ 2
1
2) = log
4
2= log(4),
W (mX) = log(21
2+ 1
1
2) = log
3
2= log(1.5),
W (mY ) = log(31
2+ 2
1
2) = log
5
2= log(2.5).
Pero
log(1.5) + log(2.5) = log(3.75) < log(4),
luego
W (m) > W (mX) + W (mY ).
(iv) No es superaditiva
Sea m a.b.p. sobre X × Y , X,Y nitos. No se veri a, en general, que
W (m) ≥W (mX) + W (mY ).
Consideremos el siguiente ontraejemplo:
66 Capítulo 2. Trabajos previos sobre incertidumbre
Ejemplo 2.5 Sean los mismos onjuntos nitos X,Y del ejemplo anterior. Considere-
mos ahora m′a.b.p. sobre X × Y siguiente:
m′((x1, y1); (x1, y2); (x2, y3)) =1
2, m′((x2, y1); (x2, y2)) =
1
2
quedando las marginales
m′X(x1, x2) =
1
2, m′
X(x2) =1
2
y
m′Y (y1, y2, y3) =
1
2, m′
Y (y1, y2) =1
2,
on lo que tenemos
W (m′) = log(31
2+ 2
1
2) = log
5
2= log(2.5),
W (m′X) = log(2
1
2+ 1
1
2) = log
3
2= log(1.5),
W (m′Y ) = log(3
1
2+ 2
1
2) = log
5
2= log(2.5).
Pero
log(1.5) + log(2.5) = log(3.75) > log(2.5),
luego
W (m) < W (mX) + W (mY ).
2.3.2.2. Medidas de aleatoriedad
La fun ión mas apropiada para medir la no-espe i idad en una a.b.p., I, no es apaz de
distinguir entre probabilidades, para todas ellas su valor es 0. Ahora nos planteamos el medir
la in ertidumbre de un tipo dire tamente rela ionado on la entropía de Shannon, por lo que
a ve es le llamaremos "entrópi o", que se presenta en teoría de la probabilidad y por tanto en
la teoría de la eviden ia. De he ho, las primeras solu iones que surgen tratan de generalizar
dire tamente la deni ión de la entropía de Shannon, omo en Höhle [43, Yager [109.
2.3. Incertidumbre en la teoría de la evidencia 67
Höhle [43 dene lo que denomina medida de onfusión en la teoría de la eviden ia:
C(m) = −∑
A⊆℘(ΩX)
m(A) log(Bel(A)),
pretendiendo representar el oni to que apare e entre los elementos A y B on masas positivas,
siendo B * A.
Yager [109 también estable e lo que denomina una medida de disonan ia en la teoría de la
eviden ia:
E(m) = −∑
A⊆℘(ΩX)
m(A) log(Pl(A)),
pretendiendo uanti ar el oni to que existe en aquellas situa iones en las que existen masas
positivas en onjuntos on interse iones va ías.
Estas dos medidas, C y E, oin iden exa tamente on la entropía de Shannon uando traba-
jamos on probabilidades. Cada una de ellas mide un tipo de oni to en una a.b.p. En Dubois
y Prade [30, podemos ver que tienen interesantes propiedades:
- E es fun ión monótona de m. Se puede demostrar utilizando el lema 2.2. Pero C no lo
es.
- C y E son dos fun iones aditivas. Su demostra ión se basa en el lema 2.1
- Utilizando la nota ión habitual, se veri a que:
C(m) ≥ max(C(mX), C(mY ))
E(m) ≥ max(E(mX), E(mY ))
- No son subaditivas
La di ultad en ontrada en la veri a ión de la subaditividad ha sido el talón de Aquiles
para la mayoría de las fun iones que se han denido en la última dé ada.
Otros autores intentaron de igual manera estable er fun iones de aleatoriedad teniendo en
uenta algún tipo de oni to en ontrado en una a.b.p. A nosotros nos interesa aquella que mi-
da la aleatoriedad en sentido general, omo ya expusimos, y que verique todas las propiedades
de la entropía de Shannon.
68 Capítulo 2. Trabajos previos sobre incertidumbre
En los años siguientes surgieron varias medidas interesantes de las que tenemos que desta ar
la de Klir y Ramer [59:
D(m) = −∑
A⊆℘(ΩX)
m(A) log∑
B⊆A
m(B)|A ∩B||B|
pretendiendo arreglar las de ien ias on eptuales que se en ontraron en las fun iones C y E.
De he ho se veri a que
E(m) ≤ D(m) ≤ C(m).
Esta medida tiene un úni o máximo, que se al anza para la distribu ión uniforme, lo que
no o urría para las anteriores C y E.
Según Klir y Ramer [59, la fun ión D trata la intera ión entre los elementos fo ales de me-
jor manera que lo ha ían las anteriores, puesto que la fun ión E no es totalmente satisfa toria,
al uanti ar sólo el oni to entre elementos fo ales disjuntos y C no tiene omportamiento
orre to puesto que no re oge de ninguna forma el grado de oni to entre los sub onjuntos de
un onjunto.
D expresa el promedio de los oni tos individuales de la eviden ia on respe to a ada
onjunto parti ular A onsiderado a través del grado de viola ión la in lusión B ⊆ A.
Sin embargo, esta fun ión D no fun iona orre tamente, puesto que si llamamos
Con(A) =∑
B⊆℘(ΩX)
m(B)|B −A||B| ,
enton es ahora D se puede expresar omo:
D(m) =∑
A⊆℘(ΩX)
m(A) log [1− Con(A)] ,
expresando on Con(A) el oni to sobre ada elemento A. Pare e natural pensar que uando
existe oni to entre A y C debe haberlo entre C y A, pero omo podemos ver en el siguiente
ejemplo, es posible que esto no o urra:
Ejemplo 2.6 Sea m a.b.p. sobre X = 1, 2, 3, 4 y sea A = 1, 2 y C = 2, 3, 4 on
m(A) = 0.2,m(C) = 0.8,
ahora tenemos que
Con(A) = 0.53, Con(C) = 0.1
2.3. Incertidumbre en la teoría de la evidencia 69
Para solu ionar este problema, Klir y Parviz [58 modi an la fun ión D anterior y estable-
en lo que denominan "disputa"(strife fue el término que utilizaron on retamente en inglés)
de la siguiente manera:
S(m) = −∑
A⊆℘(ΩX)
m(A) log∑
B⊆A
m(B)|A ∩B||A| ,
solu ionando el problema anterior.
Estas fun iones, D y S, son monótonas, aditivas, oin iden on la entropía de Shannon para
probabilidades y tienen otras interesantes propiedades, Klir y Ramer [59, Klir y Parviz [58 y
Vejnarová y Klir [94, pero no umplen tampo o la propiedad de la subaditividad (Vejnarová y
Klir [94).
Si pensamos en el motivo de nuestra búsqueda y en el modelo en el que estamos, es fá il
darse uenta que si una a.b.p. no es ni más ni menos que un onjunto onvexo de distribu iones
de probabilidad, apli ando el prin ipio de máxima in ertidumbre on la fun ión que mejor mide
la in ertidumbre de tipo entrópi o entre probabilidades, obtendríamos la siguiente fun ión:
G(m) = max
[−∑
x∈X
px log2(px)
],
donde el máximo se al ula sobre todas las distribu iones de probabilidad, (px), que veri an:
Bel(A) ≤∑
x∈X
px ≤ 1−Bel(Ac),∀A ⊆ ℘(ΩX),
es de ir, el máximo de la entropía de Shannon en el onjunto de todas las distribu iones de
probabilidad que representa una a.b.p. sobre un onjunto nito X.
Esta medida, que está, omo a abamos de ver, totalmente bien justi ada, veri a todas las
propiedades que estamos onsiderando, in luida la oni tiva propiedad de la subaditividad,
omo podemos ver en Harmane y Klir [39. Sus propiedades se pueden enumerar de la siguiente
forma:
(G1) G oin ide on la entropía de Shannon para probabilidades.
(G2) G oin ide on la medida de Hartley para a.b.p. on entradas en un elemento A
(m(A) > 0 y m(B) = 0,∀B 6= A).
(G3) G es monótona.
70 Capítulo 2. Trabajos previos sobre incertidumbre
(G4) G es aditiva.
(G5) G es subaditiva.
Las demostra iones de las propiedades de G, que se ha en en Harmane y Klir [39, son
bastante interesantes y las usaremos omo herramientas en los siguientes subapartados.
Esta fun ión es la solu ión a un problema de optimiza ión no lineal, por lo que fue uestio-
nado el sentido de su utilidad. Posteriormente han surgido varios algoritmos que la al ulan de
forma sen illa, desta ando prin ipalmente el de Mayerowitz y otros [72. Nosotros desarrolla-
remos también un algoritmo muy sen illo para al ularla en el aso de onjuntos de intervalos
de probabilidades, en el siguiente apítulo.
El algoritmo de Mayerowith y otros es el siguiente:
Algoritmo 2.1 Cál ulo de G para una a.b.p. m sobre un onjunto nito X
Paso 1 En ontrar un onjunto A ⊆ ℘(ΩX) tal que
Bel(A)|A| sea maximal. Si hay más de uno
elegir el de mayor ardinal.
Paso 2 Para ada x ∈ A introdu ir px = Bel(A)|A|
Paso 3 Para ada B ⊆ ℘(ΩX−A) Cambiar Bel(B)←− Bel(B ∪A)−Bel(A)
Paso 4 Cambiar X ←− X −A
Paso 5 Si X 6= ∅ y Bel(X) 6= 0 volver al Paso 1
Paso 6 Si Bel(X) = 0 y X 6= ∅ ha er px = 0,∀x ∈ X
Paso 7 Cal ular G(m) = −∑x∈X px log2(px)
La demostra ión de que el algoritmo fun iona la realizan Harmane y Klir [40. Demuestran
que al anza su objetivo en un número nito de pasos, apoyándose en resultados de Maeda et
al. [70 y Dempster [26.
Para terminar este apartado, podemos ver en la tabla 2.5 un esquema de las fun iones de
aleatoriedad y no espe i idad estudiadas, en la que entendemos por Cm el onjunto onvexo
que determina una a.b.p. m. Existen otras medidas no estudiadas aquí, pero éstas son las más
importantes desde nuestro punto de vista.
2.3. Incertidumbre en la teoría de la evidencia 71
2.3.2.3. Medidas de in ertidumbre total
En los apartados anteriores vimos uales son las medida que mejor uanti an los tipos
de in ertidumbre en ontradas en la teoría de la eviden ia. El problema que nos planteamos
ini ialmente en este apítulo segundo fue el de generalizar la entropía de Shannon, omo medida
de in ertidumbre total en la teoría de la probabilidad, para la teoría de la eviden ia. Por tanto,
paralelamente al estudio de las medidas que uanti an un tipo parti ular de in ertidumbre,
surgen medidas que traten de uanti ar en un sólo valor toda la in ertidumbre. Los pioneros
fueron Lamata y Moral [65, planteando la primera medida de in ertidumbre total en la teoría
de la eviden ia:
UT1(m) = E(m) + I(m)
on el problema que hemos arrastrado en todo el apítulo sobre la veri a ión de la propiedad
de la subaditividad, puesto que, omo hemos visto, la fun ión E no la satisfa e. El resto de
las propiedades se pueden demostrar fá ilmente al ser UT1 una fun ión resultado de la suma
de dos promedios de logaritmos. Esta forma de globaliza ión fue la que posteriormente se ha
Medidas de No-espe i idad
Medida Autor
Y (m) = 1−∑A⊆℘(ΩX)m(A)/|A| Yager[83
I(m) =∑
A⊆℘(ΩX) m(A)log(|A|) Dubois y Prade[84
W (m) = log(∑
A⊆℘(ΩX) m(A)|A|) Lamata y Moral[87
Medidas de Aleatoriedad
Medida Autor
C(m) = −∑A⊆℘(ΩX) m(A) log(Bel(A)) Höhle[81
E(m) = −∑A⊆℘(ΩX) m(A) log(Pl(A)) Yager[83
D(m) = −∑A⊆℘(ΩX) m(A) log(∑
B⊆A m(B) |A∩B||B|
)Klir y Ramer[90
S(m) = −∑A⊆℘(ΩX) m(A) log(∑
B⊆A m(B) |A∩B||A|
)Klir y Parviz[92
G(m) = maxp∈Cm H(p) Harmane y Klir[94
Tabla 2.5: Medidas de incertidumbre en la teoría de la evidencia
72 Capítulo 2. Trabajos previos sobre incertidumbre
utilizado para dar una medida total.
Posteriormente surgieron otras propuestas de las que vamos a desta ar algunas.
Klir y Ramer [59 proponen la siguiente fun ión:
UT2(m) = D(m) + I(m).
Pal, Bezdek y Hemasinha[93 proponen:
UT3(m) = N(m) + I(m)
donde
N(m) = −∑
A⊆℘(ΩX)
m(A) log(m(A))
que es una fun ión similar a la que introdu e Nguyen [76 para onjuntos aleatorios. Esta
última fun ión es análoga a la fun ión de Yager, E, y a la medida de oi to de Klir y Ramer,
D, aunque siempre asigne valores mayores que estas medidas. Sus autores la denen para
medir lo que denominan la in onsisten ia y ausen ia de onanza aso iada a una a.b.p. Pero,
también pade e el problema de la no veri a ión de la subaditividad.
Maeda e I hihashi [69 proponen una medida de in ertidumbre global que veri a todas las
propiedades bus adas y omo podemos imaginar, por lo visto en todo este apítulo, se bass en las
fun iones G(m) e I(m). Debido a la importan ia de ésta, que hemos analizado ampliamente,
vamos a dedi arle un apartado ompleto.
2.3.3. Medida de in ertidumbre total de Maeda e I hihashi
Maeda e I hihashi [69 proponen una fun ión de in ertidumbre que uanti a la aleatoriedad
y no-espe i idad de una asigna ión bási a de probabilidad sobre un onjunto nito X. La
fun ión que mide la in ertidumbre total es la siguiente
UT (m) = I(m) + G(m),
donde I(m) es la fun ión de no-espe i idad de Dubois y Prade's y G(m) es la fun ión del
máximo de la entropía sobre el onjunto onvexo que determina m, Harmane y Klir [39.
De forma sen illa podemos ver que UT (m) satisfa e las siguientes propiedades:
(a) Coin ide on la entropía de Shannon para probabilidades.
2.3. Incertidumbre en la teoría de la evidencia 73
(b) Al anza su máximo para la ignora ia total.
Además, omo se puede ver en Dubois y Prade [30 o en Lamata y Moral [65:
( ) Es monótona on respe to a la in lusión de a.b.p.
(d) Satisfa e la propiedad de la aditividad.
(e) Satisfa e la propiedad de la subaditividad.
Además, ya vimos que G(m) satisfa e las propiedades anteriores y que in luso sola se puede
onsiderar omo una medida de in ertidumbre total, on el mismo rango que la entropía de
Shannon (Harmane y Klir [39).
Sin embargo, hay algunos aspe tos de UT que pare en dar problemas de fun ionamiento.
Vamos a ver, antes de analizarlos, un ejemplo expli ativo
Ejemplo 2.7 Sean las siguientes a.b.p. sobre X = x1, x2, x3 :
m
m123 = 0.4
m1 = 0.2
m2 = 0.2
m3 = 0.2
y m′
m′123 = 0.2
m′23 = (m123−m′
123)ln(3)ln(2) ≃ 0.317
m′1 = m′
2 = m′3 =
(1−m′
123−m′
23)3 ≃ 0.161
Donde expresamos, para simpli ar, mi = m (xi) , mij = m (xi, xj) , i, j ∈ 1, 2, 3 ym123 = m (x1, x2, x3). Análogamente para m′
.
Si observamos di has fun iones, de forma intuitiva, m debería representar más in ertidum-
bre que m′, puesto que m es ompletamente simétri a y m′
apunta laramente ha ia el onjunto
x2, x3 :
Pl(x1, x2) = Pl(x1, x3) = Pl(x2, x3) = 0.8,
P l(x1) = Pl(x2) = Pl(x3) = 0.6,
Bel(x1, x2) = Bel(x1, x3) = Bel(x2, x3) = 0.4,
Bel(x1) = Bel(x2) = Bel(x3) = 0.2,
74 Capítulo 2. Trabajos previos sobre incertidumbre
y
Pl′(x1, x2) = Pl′(x1, x3) = Pl′(x2, x3) = 0.839,
0.361 = Pl′(x1) << Pl′(x2) = Pl′(x3) = 0.839,
0.322 = Bel′(x1, x2) = Bel′(x1, x3) << Bel′(x2, x3) = 0.639,
Bel′(x1) = Bel′(x2) = Bel′(x3) = 0.161,
Grá amente, si ignoramos los puntos en omún de m y m′, para ada punto de m′
que
represente una distribu ión de probabilidad, existe un punto de m on mayor entropía utili-
zando la medida de Shannon. Por otro lado, el ontrario no es ierto, existen distribu iones
de probabilidad de m on más entropía que ualquiera de las de m′. Por lo que UT (m) debería
ser mayor que UT (m′).
Los dos onjuntos onvexos aso iados a m y a m′se pueden ver en la guras 2.2 y 2.3.
x2x1
x3
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
Figura 2.2: Conjunto convexo asociado a m del ejemplo 2.7
2.3. Incertidumbre en la teoría de la evidencia 75
x2x1
x3
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
Figura 2.3: Conjunto convexo asociado a m′ del ejemplo 2.7
Pero las dos, m′y m, tienen el mismo valor de noespe i iad I(m) = I(m′) = 0.439. Además
G(m) = G(m′) = ln(3), porque pU ∈ Cm y pU ∈ Cm′, donde pU es la distribu ión uniforme
sobre X. Por ello, tanto m omo m′tienen la misma in ertidumbre según la medida de Maeda
e I hihashi.
2.3.4. El fa tor de Kulba k
Vamos a introdu ir un fa tor on interesantes propiedades, Abellán y Moral [1, que puede
utilizarse para mejorar el fun ionamiento de la medida de Maeda e I hihashi. Previamente,
ne esitamos dejar laro lo que se entiende por onjunto frontera:
Deni ión 2.2 Sea A un sub onjunto del espa io ve torial IRn. Denotaremos omo Fr(A)
al onjunto frontera de A:
Fr(A) =a ∈ IRn | B(a, ∂) ∩A 6= ∅ ∧ B(a, ∂) ∩A 6= ∅, ∀∂ > 0, ∂ ∈ IR
donde B(a, ∂) = b ∈ IRn | d(a, b) ≤ ∂ y d(a, b) es una fun ión distan ia sobre IRn
Partiremos de la entropía ruzada, vista anteriormente, entre dos distribu iones de proba-
bilidad introdu ida por Kullba k [64
K(p, q) =∑
x∈X
px ln
(px
qx
)
76 Capítulo 2. Trabajos previos sobre incertidumbre
donde p y q son dos distribu iones de probabilidad sobre un onjunto nito X.
Nosotros, usaremos esta fun ión de la siguiente forma. Sea
R(m) = Min
p∈F r(Cm)
K(p, q) ;
donde q es tal que G(m) = − ∑x∈X
q x ln(q x), es de ir, la distribu ión de probabilidad on
mayor valor de entropía dentro de Cm. Siendo Cm el onvexo de probabilidades aso iado a la
asigna ión bási a de probabilidad m. Llamaremos a R(m) omo el fa tor Kullba k de m.
Utilizamos di ha fun ión en el ejemplo 2.7, on q = pU para m y m′, omo podemos ver
en la gura 2.2 y en la gura 2.3, tenemos que R(m) > R(m′). Se puede probar que el valor
Min
p∈F r(Cm)
K(p, q) se al anza en los puntos de mínima distan ia a los onjuntos de puntos
frontera de Cm y Cm′, respe tivamente on R(m) = 0.0437 y R(m′) = 0.0017.
Por ello, proponemos denir una nueva fun ión de in ertidumbre total añadiendo di ho
fa tor a la que teníamos de Maeda e I hihashi:
UTR(m) = I(m) + G(m) + R(m).
En el ejemplo 2.7, m obtiene mayor in ertidumbre que m′, omo abía esperar.
2.3.4.1. Propiedades
Con la nota ión anterior, tenemos que se veri an las siguientes propiedades:
Lema 2.3 Si pU ∈ Fr(Cm) enton es R(m) = 0.
Demostra ión:
Asumiremos que 0 ln(0) = 0.
Puesto que Cm es un onjunto errado pU ∈ Cm. Enton es R(m) = K(pU , pU ) = 0
Lema 2.4 Si pU /∈ Cm enton es R(m) = 0.
Demostra ión:
Sea Max
p∈Cm
H(p) = H(p′). Sólo es ne esario probar que p′ ∈ Fr(Cm).
2.3. Incertidumbre en la teoría de la evidencia 77
Supongamos que p′ /∈ Fr(Cm). Enton es, eligiendo α ∈ R, α ∈ (0, 1) tal que
p′′ = α · pU + (1− α) · p′
y p′′ ∈ Cm.
Por la ontinuidad de H, H(p′′) > H(p′). De aquí p′ ∈ Fr(Cm) .
Proposi ión 2.1 R(m) está bien denida.
Demostra ión:
Si pU /∈ Cm enton es por el lema 2.4 R(m) = 0.
Si pU ∈ Cm enton es R(m) = ln(n)−H(p∗), para ada p∗ ∈ Fr(Cm).
Proposi ión 2.2 R(m) ≥ 0, ∀m asigna ión bási a de probabilidades sobre el onjunto nito
X.
Demostra ión:
Sea R(m) =∑
x∈X
px ln(
px
q x
), para una distribu ión de probabilidades p ∈ Cm. Ahora,
usando la desigualdad de Gibbs, tenemos que
−∑
x∈X
px ln(px) ≤ −∑
x∈X
px ln(q x)
y R(m) ≥ 0.
Proposi ión 2.3 Si m es una distribu ión de probabilidades se veri a que R(m) = 0.
Proposi ión 2.4 R al anza su máximo valor para la total ignoran ia. Enton es,
R(m) = ln(n)− ln(n− 1)
78 Capítulo 2. Trabajos previos sobre incertidumbre
Demostra ión:
Usando la nota ión habitual, sea m una a.b.p. que representa la total ignoran ia en X.
Enton es mX = 1.
Sabemos que Max
p∈F r(Cm)
H(p) = ln(n− 1), por lo que
R(m) = Min
p∈F r(Cm)
K(p, pU) = ln(n)− Max
p∈F r(Cm)
H(p) = ln(n)− ln(n − 1).
Ahora, ∀m′a.b.p. sobre X, R(m′) ≤ R(m).
Si pU /∈ Cm′por el lema 2.4, R(m′) = 0 ≤ R(m).
Si pU ∈ Cm′, onsideremos p′ ∈ Fr(Cm′) tal que p′ = αpU +(1−α)pUn−1 son α ∈ [0, 1] ,
donde pUn−1 es la distribu ión de probabilidad uniforme sobre el onjunto X ′ ⊂ X siendo
|X ′| = n− 1.
Enton es, por la ontinuidad de H
ln(n) = H(pU ) ≥ H(p′) ≥ H(pUn−1) = ln(n− 1)
Como R(m′) = ln(n)−H(p∗), para algún p∗ ∈ Fr(Cm′) y
R(m′) = ln(n)−H(p∗) ≤ ln(n)−H(p′) ≤ ln(n)− ln(n− 1) = R(m)
Proposi ión 2.5 R es una fun ión monótona en m.
Demostra ión:
Sean m y m′dos a.b.p. tales que m′ ⊆ m en el sentido que daba la deni ión 1. Enton es
para p ∈ Cm, distribu ión de probabilidades, p ∈ Cm′ .
Casos:
A pU /∈ Cm′ ⇒ pU /∈ Cm, por el lema 2.4: R(m) = R(m′) = 0.
B pU ∈ Cm′ :
B.1 pU /∈ Cm, por el lema 2.4: R(m) = 0 ≤ R(m′).
2.3. Incertidumbre en la teoría de la evidencia 79
B.2 pU ∈ Cm. Sea p∗ ∈ Cm′tal que
R(m′) =∑
x
p∗x ln(p∗x1/n
) = ln(n)−H(p∗)
Puesto que Cm ⊆ Cm′existe α ∈ R, α ∈ [0, 1] , tal que p′ = α · p∗ + (1−α) · pU ,
y p′ ∈ Fr(Cm). Enton es por la ontinuidad de H, H(p∗) ≤ H(p′) y
R(m) = Min
p∈Fr(Cm)
[ln(n)−H(p)] ≤ ln(n)−H(p′) ≤ ln(n)−H(p∗) = R(m′)
Lema 2.5 Sea m una a.b.p. sobre X × Y on proye iones mX and mY . Sea pUXla distri-
bu ión de probabilidad uniforme sobre X y pUYla distribu ión de probabilidad uniforme sobre
Y , enton es
pU ∈ Cm ⇒
pUX∈ CmX
y
pUY∈ CmY
Demostra ión:
Sea |X| = nX , |Y | = nY y n = nX · nY . Enton es pUX=(
1nX
, ..., 1nX
)y pUY
=(
1nY
, ..., 1nY
).
Sabemos que si una distribu ión de probabilidad p sobre X tal que p(x) =∑y∈Y
pU (x, y)
o urre que p ∈ CmX. Ahora,
p(x) =∑
y∈Y
pU (x, y) = nY ·1
n=
nY
nXnY=
1
nX= pUX
(x), ∀x ∈ X.
Análogamente para mY .
Lema 2.6 Sea m una a.b.p. sobre X × Y on proye iones mX y mY , tales que hay inde-
penden ia fuerte bajo m. Sea pUXla distribu ión de probabilidad uniforme sobre X y pUY
la
misma sobre Y , enton es pU ∈ C
80 Capítulo 2. Trabajos previos sobre incertidumbre
Demostra ión:
Usando la hipótesis de independen ia, sea pxy ≡ pUX· pUY
∈ Cm. Pero
pxy(x, y) = pUX(x) · pUY
(y) =1
nX· 1
nY=
1
n= pU (x, y) , ∀(x, y) ∈ X × Y
Lema 2.7 Sea m una a.b.p. sobre X × Y on proye iones mX y mY , tal que hay indepen-
den ia fuerte bajo m. Sea p ∈ Fr(CmX) y q ∈ Fr(CmY ). Enton es pq ∈ Fr(Cm).
Demostra ión:
Tomemos la distan ia sobre IRn : d(u, v) = Max
i∈1,..,n|ui − vi| ; u, v ∈ IRn.
Por hipótesis:
∀∂1 > 0 ∃p′ ∈ IRnX tal que Max
x
|px − p′x| ≤ ∂1 y p′ ∈ CmX
∃p′′ ∈ IRnX tal que Max
x
∣∣∣px − p′′
x
∣∣∣ ≤ ∂1 y p′′ ∈ CmX
∀∂2 > 0 ∃q′ ∈ IRnY tal que Max
y
∣∣qy − q′y∣∣ ≤ ∂2 y q′ ∈ CmY
∃q′′ ∈ IRnY tal que Max
y
∣∣∣qy − q′′
y
∣∣∣ ≤ ∂2 y q′′ ∈ CmY
Ahora, ∀∂ > 0 tomamos ∂1 = ∂2 = ∂/2 y puesto que p′q′ ∈ Cm, usando la demostra ión
de G4 que realizan Harmane y Klir [39. Como
pq − p′q′ = q(p− p′)− p′(q′ − q),
enton es
Max
x ∈ X
y ∈ Y
∣∣pxqy − p′xq′y∣∣ = Max
x ∈ X
y ∈ Y
∣∣qy(px − p′x)− p′x(q′y − qy)
∣∣ ≤
≤ Max
x ∈ X
y ∈ Y
[|qy|
∣∣(px − p′x)∣∣+∣∣p′x∣∣ ∣∣(q′y − qy)
∣∣] ≤
2.3. Incertidumbre en la teoría de la evidencia 81
≤ Max
x ∈ X
y ∈ Y
[|(px − p′x)|+
∣∣(q′y − qy)∣∣] =
= Max
x∈X
|(px − p′x)|+ Max
y∈Y
∣∣(q′y − qy)∣∣ ≤
≤ ∂
2+
∂
2≤ ∂
Análogamente se demuestra para p′′
y p′′
, puesto que p′′
q′′ ∈ CmX
× CmY⊆ Cm.
Proposi ión 2.6 R es subaditiva.
Demostra ión:
Con la anterior nota ión, sea m una a.b.p. sobre X × Y , enton es
R(m) ≤ RX(mX) + RY (mY ).
Casos:
A Si pU /∈ Cm, enton es por el lema 2.4
0 = R(m) ≤ RX(mX) + RY (mY ).
B Si pU ∈ Cm. Sea
R(m) =∑
x,y
pxy ln
(pxy
1/n
); p ∈ Cm,
usando el lema 2.5
RX(mX) =∑
x
p1x ln
(p1
x
1/nX
); p1 ∈ Fr(CmX
),
RY (mY ) =∑
y
p2y ln
(p2
y
1/nY
); p2 ∈ Fr(CmY
).
Tomamos mX×mY a.b.p. sobre X×Y tal que mX×mY (A×B) = mX(A) ·mY (B), on
A ⊆ X y B ⊆ Y . Enton es hay independen ia de masas bajo mX ×mY y CmX×CmY
⊆CmX×mY
(por la demostra ión de G5 en Harmane y Klir [39).
82 Capítulo 2. Trabajos previos sobre incertidumbre
Por el lema 2.7, p1p2 ∈ Fr(CmX×mY).
Puesto que CmX×CmY
⊆ CmX×mY, un onjunto onvexo, enton es el as o onvexo de
(CmX×CmY
) está también ontenido en CmX×mY. Por esto, Cm ⊆ CH(CmX
×CmY) ⊆
CmX×mY.
Sea q una distribu ión de probabilidades tal que q ∈ Fr(Cm) y q = αpU + (1− α) p1p2,
on α ∈ [0, 1] .
Ahora,
R(m) = Min
p∈Fr(Cm)
[ln(n)−H(p)] = ln(n)− Max
p∈Fr(Cm)
H(p) ≤ ln(n)−H(q).
Por la ontinuidad de H, H(pU ) ≥H(q) ≥ H( p1 p2) = H( p1) + H( p2) , y
R(m) ≤ ln(n)−H(q) ≤ ln(nX) + ln(nY )− (H( p1) + H( p2)) = RX(mX) + RY (mY )
La fun ión R no satisfa e, en general, la propiedad de la aditividad tal omo podemos ver
en el siguiente ontraejemplo.
Ejemplo 2.8 Elegimos mX una a.b.p. sobre X tal que pUXno pertene e al onvexo aso iado
a mX y mY sobre Y tal que pUYno pertene e al onvexo aso iado a mY pero pUY
/∈ Fr(CmY).
Resulta que RX(mX) = 0 y RY (mY ) > 0.
Sea mY la a.b.p. m del ejemplo 2.7, tenemos que RY (mY ) = 0.0437.
Sea mX una a.b.p. sobre X = a, b, c tal que mX(a) = 1 y 0 en otro aso. Obviamente
pUX(13 , 1
3 , 13) /∈ mX y RX(mX) = 0.
Ahora
Bel((a, 1)) = 0.2 >1
9,
siendo Bel la fun ión de reen ia aso iada a mX ×mY .
Lo que onlleva que pU(19 , 1
9 , ..., 19) /∈ Cm porque si pU ∈ Cm, por el lema 2.5, pUX
∈ CmX.
Ahora, usando el lema 2.4 R(m) = 0 y
R(m) < RX(mX) + RY (mY ).
2.4. Conclusiones 83
El omportamiento de R(m) depende de que m esté o no en el onjunto SU = m | pU ∈ Cm,es de ir, de que la distribu ión uniforme esté en Cm. Si m /∈ SU , enton es R(m) = 0 y
UTR(m) = UT (m), es de ir, oin ide on la fun ión de Maeda e I hihashi. En este aso
pensamos que esta medida fun iona orre tamente. R(m) añade un valor positivo a UT (m)
uando m ∈ SU . En este aso, para la misma espe i idad, R(m) tiene en uenta si la distri-
bu ión uniforme está realmente en el entro de Cm o muy er a de la frontera, tradu iéndose
omo un tipo de aleatoriedad global para estos onjuntos. En el primer aso R(m) es mayor
que en el segundo. La in ertidumbre es mayor uando todas las distribu iones de probabilidad
de la frontera están igual de alejadas de la uniforme. UTR(m) tiene en uenta este fa tor,
mientras se pierde en UT (m).
2.4. Con lusiones
Hemos he ho un estudio sobre medidas de in ertidumbre en la teoría de la probabilidad y
en la teoría de la eviden ia, partiendo de su origen en la teoría lási a de la informa ión para
omprender bien los requerimientos que se le deben ha er a una medida de tal n. Estudiamos
las propiedades de la medida de Hartley y de la medida de Shannon, onsiderando a esta última
omo la más importante dentro de la lási a teoría de la probabilidad ya que veri a una serie
de propiedades muy interesantes, tales omo: expansibilidad, simetría, ontinuidad, máximo,
subaditividad, aditividad, monotonía, rami a ión y normaliza ión. También vimos que no es
ne esario el umplimiento de todas esas propiedades para onsiderarla omo ara terizada, sino
que, se puede onsiderar sólo un sub onjunto de ellas.
De a uerdo on la rela ión existente entre informa ión e in ertidumbre se han enun iado
los prin ipios de in ertidumbre, omo prin ipios a tener en uenta a la hora de analizar ual-
quier sistema que derive falta de informa ión y sobre el que tenemos que apli ar teorías que
representen a ésta para, posteriormente, medir la in ertidumbre que onllevan. Son prin ipios
basados prin ipalmente en la entropía de Shannon pero que se amplían de forma lógi a a es-
tudios donde involu remos teorías más generales a la teoría de la probabilidad. Teniendo en
uenta el prin ipio de in ertidumbre invariante realizamos estudios para en ontrar medidas de
in ertidumbre apa es de generalizar las planteadas en la teoría de la eviden ia.
84 Capítulo 2. Trabajos previos sobre incertidumbre
Hemos visto que en la teoría de la eviden ia apare en más tipos de in ertidumbre que en
la teoría de la probabilidad, por ello, el estudio de la medi ión de ésta debe ser ampliado.
Hemos expuesto las medidas que mejor miden ada uno de los tipos en ontrados: entropía
y no-espe i idad. Se han estudiado las medidas más importantes, en uanto a su aspe to
lógi o y matemáti o, es de ir, a su fun ionamiento intuitivamente orre to y umplimiento
de propiedades esen iales. Después de analizar las más importantes se llega a la on lusión
que las mejor estable idas para medir ada uno de los tipos de in ertidumbre son el máximo
de la entropía (para la entropía) y la amplia ión de la medida de Hartley en la teoría de la
eviden ia (para la no-espe i idad). Juntas, de forma aditiva, forman una buena medida de
in ertidumbre total en esta teoría. La forma de obtener la primera es sen illa debido a su
deni ión. La segunda tiene en prin ipio peor apli a ión por el ál ulo que representa, pero
hemos expuesto el algoritmo de Mayerowitz et al. que también la obtiene de forma sen illa.
Fueron Maeda e I hihashi los autores que exponen una medida de in ertidumbre total toman-
do las mejores medidas para ada tipo de in ertidumbre en la teoría de la eviden ia. Nosotros
hemos estudiado más a fondo su omportamiento intuitivo, pues el matemáti o onsideramos
que es orre to. Hemos llegado a en ontrar algunos problemas en su apli a ión por lo que
hemos expuesto un fa tor de orre ión. Esta amplia ión que proponemos de la fun ión de
Maeda e I hihashi por medio de la fun ión R, ha e que la fun ión de total in ertidumbre nal,
UTR, satisfaga la tres indispensables propiedades dentro de la estru tura de las fun iones de
reen ia, Maeda e I hihashi [69:
-Se redu e a la entropía de Shannon uando tenemos una distribu ión de probabilidades,
R(p) = 0,
I(p) = 0,
G(p) = H(p).
-Es máxima para la total ignoran ia, representada por una a.b.p. m tal que m(X) = 1, y
m(A) = 0,∀A ⊂ X
UTR(m) = 3 ln(n)− ln(n− 1).
-Es monótona on respe to a la in lusión de onjuntos (proposi ión 2.5).
Probamos también que es una fun ión que umple la propiedad subaditiva pero que en ge-
neral, no es aditiva, omo vimos en el ejemplo 2.8.
2.4. Conclusiones 85
R(m) no es una medida de aleatoriedad o de espe i idad propiamente di ha, aunque mide
un tipo on reto de aleatoriedad para un tipo determinado de onjuntos. Puede ser un buen
omplemento para una medida de in ertidumbre total para onjuntos onvexos de probabilidades
y omo ya hemos visto para tipos más on retos omo son las eviden ias.
Si quisiéramos uanti ar la in ertidumbre en una a.b.p., es posible que la fun ión G no sea
lo su ientemente buena para medir la aleatoriedad que ontiene, por lo que quizá ne esite un
omplemento omo el que proponemos o ne esitemos bus ar otra fun ión que tenga en uenta
todo esto. La amplia ión, que omentamos, no es la úni a posible, puesto que de forma natural
podríamos proponer una fun ión de una distan ia para que umpla el mismo papel.
Una lara ventaja que tiene nuestro fa tor on respe to a otros a proponer, es que de for-
ma sen illa se amplía a onjuntos onvexos de probabilidad en general, on fun ionamiento
y propiedades idénti as a las que obtiene en asigna iones bási as de probabilidades. No hay
mas que ver las demostra iones realizadas en las propiedades para darse uenta de la fá il
generaliza ión.
86 Capítulo 2. Trabajos previos sobre incertidumbre
Capítulo 3
Medidas de in ertidumbre para
onjuntos onvexos de distribu iones
de probabilidad
3.1. Introdu ión
El objetivo que nos planteamos en este apítulo es el de denir medidas de in ertidumbre
sobre onjuntos onvexos en general. Consideraremos los mismos tipos de in ertidumbre que
en la teoría de la eviden ia. Un onjunto onvexo onlleva in ertidumbre de tipo entrópi o y de
tipo impre iso (no-espe i idad). Las ideas intuitivas en las que se basaban estas medidas en
la teoría de la eviden ia no son fá iles de trasladar a la típi a representa ión de un onjunto
onvexo a partir de restri iones lineales o de un onjunto de vérti es. En una a.b.p. sabemos
de forma lara que uanto mayor sea la masa de los sub onjuntos mayores, mayor será la
no-espe i idad que representa. De forma similar o urre on la entropía uando las masas
están repartidas entre onjuntos disjuntos. Nuestra base estará en analizar lo que representan
las situa iones anteriores para el onjunto de probabilidades aso iado a una a.b.p., para luego
trasladarlo a un onjunto onvexo en general.
La no-espe i idad está rela ionada on una ierta idea del tamaño del onvexo, omo
veremos, y la entrópi a on la situa ión del onvexo on respe to a la probabilidad uniforme.
Nuestro estudio se ha entrado primero en bus ar una fun ión de no-espe i idad para
onjuntos onvexos, puesto que si pretendemos ampliar la U-un ertainty de Higashi y Klir
87
88 Capítulo 3. Medidas de incertidumbre para conjuntos convexos de distribuciones de probabilidad
[42, que Dubois y Prade [29 generalizan para para a.b.p., ho amos on el problema de que
ésta está denida dire tamente sobre las a.b.p. y no existe una representa ión similar a las
a.b.p. para onjuntos onvexos generales. Lo ontrario o urre on la fun ión que mejor nos
servía para medir la posi ión del onvexo, in ertidumbre entrópi a, el máximo de la entropía
de Shannon que tiene fá il amplia ión a un onjunto onvexo general. Se trataría de resolver
el mismo problema de programa ión no lineal, aunque en estos asos no es sen illo en ontrar
un algoritmo que al an e esa solu ión omo el que vimos para la teoría de la eviden ia. Así
mismo, el fa tor de Kullba k que expusimos, también puede adaptarse para onvexos en general,
aunque en ningún aso tiene un ál ulo sen illo.
Nuestro primeros esfuerzos se han entrado en bus ar una medida de no-espe i idad on
el problema omentado. La mejor medida de no-espe i idad en la teoría de eviden ia está
denida sobre las a.b.p. dire tamente y nos vemos asi obligados a bus ar otra medida, para
onjuntos onvexos, que se apoye en las ara terísti as geométri as del onvexo tal y omo lo
ha e la fun ión I de Dubois y Prade.
El amino seguido hasta llegar a una buena fun ión de no-espe i idad pasó por el intento
de utilizar medidas basadas en el tamaño del onvexo, bien sea de forma dire ta o bien sea a
partir de la varia ión de entropía que el onjunto representa. Hemos invertido bastante tiempo
y esfuerzos en estudiar fun iones de este tipo hasta llegar a una que onsideramos satisfa toria.
Las demostra iones de las propiedades esen iales de estas fun iones no han sido evidentes y
hemos tenido que utilizar diversos tipos de herramientas matemáti as.
La búsqueda de la medida entrópi a fue bastante más sen illa. De manera bási a se podría
haber onsiderado dire tamente al máximo de la entropía de Shannon, aunque aquí no tenía
por qué veri ar todas las propiedades que veri aba en teorías menos generales, por otro lado,
más ompli adas de demostrar.
No sólo estudiamos esta fun ión omo medida entrópi a, sino que, al estar utilizando on-
juntos onvexos en general estudiamos algunas medidas que se basan dire tamente en el on-
junto de los vérti es que denen a tal, y nos en ontramos que, o bien, las fun iones estable idas
de una manera intuitiva no fun ionaban, o bien, no veri aban alguna propiedad importante,
omo veremos en los siguientes apartados.
Vimos en el apítulo 1, que los intervalos de probabilidades son una potente herramienta
para representar la in ertidumbre, no sólo porque sea la forma más natural de representar
probabilidades impre isas, sino porque nos permite un e ien ia omputa ional elevada. Nos-
3.2. Tipos de incertidumbre 89
otros hemos he ho un estudio también sobre la apli a ión de medidas de in ertidumbre en esta
teoría, llegando a proponer un e iente algoritmo que al anza el máximo de la entropía para
onjuntos de intervalos de probabilidades.
Una vez que tenemos laro qué medidas eran las que mejor nos uanti aban los tipos de
in ertidumbre anteriores, intuitiva y matemáti amente, estable eremos una medida de in erti-
dumbre total para posteriormente en ontrar apli a iones de ésta, objetivo nal de esta tesis.
De he ho, en ontraremos en el apítulo 5 apli a iones de las medidas de in ertidumbre sobre
intervalos de probabilidad a la onstru ión de árboles de lasi a ión.
En la se ión 2 de este apítulo, veremos de forma breve, las razones por las que onsi-
deramos los mismos tipos de in ertidumbre para un onjunto onvexo genéri o, que para uno
parti ular pro edente de una a.b.p.. En la se ión 3 analizamos algunas posibles medidas en-
trópi as, llegando a onsiderar al máximo de la entropía de Shannon omo mejor medida.
Sobre onjuntos onvexos demostraremos las propiedades bási as de estas medidas. También
propondremos un e iente algoritmo para el ál ulo del máximo de la entropía de Shannon
sobre onjuntos de intervalos de probabilidad. En la se ión 4 expli aremos uales han sido
nuestros estudios en la búsqueda de una medida de no-espe i idad, hablaremos de las más
interesantes, analizando su omportamiento y umplimiento de propiedades esen iales. En la
se ión 5 estudiaremos la aditividad de las medidas de in ertidumbre expuestas en los aparta-
dos anteriores. Le dedi aremos un apartado al estudio de esta propiedad puesto que está basada
en la deni ión de independen ia, deni ión algo problemáti a puesto que se han dado varias
de ellas que en ajan bien en determinadas situa iones, Couso, Moral y Walley [23. La se ión
6 onsidera la deni ión de medidas de in ertidumbre total y la se ión 7 está dedi ada a las
on lusiones.
3.2. Tipos de in ertidumbre
Cuando en la teoría de la eviden ia hablamos de no-espe i idad tenemos laro al observar
las masas de una a.b.p. si ésta es mayor o menor. Grá amente esto se rela iona on el
tamaño del onvexo de probabilidades que representa, aunque lo de tamaño no lo de imos
por la dimensión de éste, sino que lo podríamos expresar mejor en términos de varia ión de
entropías de las probabilidades que hay dentro de ese onjunto. El he ho de que un onjunto de
gran número de elementos tenga una masa grande nos va a produ ir un reparto mayor entre
90 Capítulo 3. Medidas de incertidumbre para conjuntos convexos de distribuciones de probabilidad
los elementos individuales uando queramos al ular el onjunto onvexo de distribu iones de
probabilidad aso iado. Grá amente tendríamos onjuntos en los que apare en los vérti es más
separados, por lo que obtendríamos un onjunto mayor. Lo que expresamos omo varia ión de
entropías no sólo se reere a la pertenen ia al onvexo de probabilidades on distinto valor de
entropías, sino también a la pertenen ia al onjunto de probabilidades on entropías similares
pero on inter ambio de masas entre los distintos valores de la variable. Así pues si por ejemplo
tenemos una a.b.p. sobre un onjunto nito X = x1, x2, x3 que ontiene a las probabilidades
(0.5, 0.5, 0) y (0.5, 0, 0.5) y pensamos en la forma de obtener el onvexo a partir de una a.b.p.,
rápidamente sabemos que la masa del onjunto x2, x3 debe ser 0.5, lo que añade una antidad
de 0.5 log(2) al valor de la no-espe i idad de esa a.b.p.
De la misma forma que está rela ionada la varia ión de masas entre los vérti es de un
onjunto onvexo que pro eda de una a.b.p. on la no-espe i idad que se produ e, debe o urrir
on un onjunto onvexo en general: aunque no se puede hablar de masas si se puede analizar
el valor de los vérti es para intentar medir di ha varia ión. A este tipo de in ertidumbre en un
onjunto onvexo general también se le llama no-espe i idad, puesto que expresa una falta de
pre isión en la representa ión de la informa ión que tenemos.
Aunque en prin ipio pare e que la espe i idad del onvexo está rela ionada on el tamaño
de éste, realmente no lo es on respe to a la idea que tenemos de tamaño rela ionado on la
dimensión, omo podemos ver en el ejemplo 3.1.
Ejemplo 3.1 Sean las a.b.p. m1,m2siguientes sobre X = x1, x2, x3 tales que:
m112 = 1
m212 = m2
13 = m223 =
1
3
Los onjuntos onvexos aso iados, que podemos ver en las guras 3.1 y 3.2, vienen deter-
minado por los vérti es
Cm1 = 〈(1, 0, 0); (0, 1, 0)〉
y
Cm2 = 〈A(2
3, 0,
1
3);B(
2
3,1
3, 0);C(
1
3,2
3, 0);D(0,
2
3,1
3);E(0,
1
3,2
3);F (
1
3, 0,
2
3)〉,
donde expresamos on la simbología 〈〉 las ombina iones onvexas de esas probabilidades.
Utilizando la fun ión I, tenemos que la no espe i idad de m1y m2
del ejemplo 3.1 es
igual y vale log(2), pero representan dos onjuntos totalmente distintos de distribu iones de
probabilidad on diferen ia notable en la dimensión de ambos.
3.2. Tipos de incertidumbre 91
x2x1
x3
Figura 3.1: Conjunto convexo asociado a m1 del ejemplo 3.1
x2x1
x3
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
A
B
D
C
EF
Figura 3.2: Conjunto convexo asociado a m2 del ejemplo 3.1
92 Capítulo 3. Medidas de incertidumbre para conjuntos convexos de distribuciones de probabilidad
Ejemplo 3.2 Sean las a.b.p. m3,m4sobre X = x1, x2, x3 tales que:
m31 = 0.6; , m3
123 = 0.4
m41 = m4
2 = m43 = 0.2; , m4123 = 0.4
Los onjuntos onvexos aso iados, que podemos ver en las guras 3.3 y 3.4, vienen deter-
minado por los vérti es
Cm3 = 〈(1, 0, 0); (0.6, 0, 0.4); (0.6, 0.4, 0)〉
y
Cm2 = 〈(0.6, 0.2, 0.2); (0.2, 0.6, 0.2); (0.2, 0.2, 0.6)〉,
Por otro lado, si onsideramos los vérti es de los onjuntos onvexos de las las a.b.p. del
ejemplo 3.2, tenemos que de forma similar en ambas a.b.p. se produ e un inter ambio de masa
de valor 0.4 de xi a xj, sin embargo, omo se puede apre iar m3da lugar a un onjunto que
debe ontener menor in ertidumbre puesto que apunta laramente ha ia x1 y tenemos que
en ambos las no-espe i idades, por la fun ión I, es de 0.4 log(3).
x2x1
x3
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
Figura 3.3: Conjunto convexo asociado a m3 del ejemplo 3.2
3.2. Tipos de incertidumbre 93
x2x1
x3
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
Figura 3.4: Conjunto convexo asociado a m4 del ejemplo 3.2
Si pensamos en el valor nulo de I para probabilidades (y en general de ualquier fun ión de
no-espe i idad para a.b.p.) y en este último ejemplo, es evidente que no debemos plantearnos
la no-espe i idad omo medida úni a de in ertidumbre en la teoría de la eviden ia y por
supuesto para onjuntos onvexos. Aunque bien es ierto que para una a.b.p. una masa grande
para un onjunto de ardinal alto supone también un reparto entre los elementos individuales
y on ello el mayor a er amiento a la probabilidad uniforme, lo que aumenta el valor entrópi o
de la in ertidumbre del onvexo.
Tener en uenta la situa ión geométri a del onvexo sería ne esario en ambos asos para
obtener un valor orre to de la in ertidumbre de éste. El máximo de la entropía de Shannon
puede ser una medida ideal para tal situa ión. Obtendríamos, en el último ejemplo, valores de
0.95 y log(3) = 1.10 para las a.b.p. m3y m4
, respe tivamente. Aunque tampo o ésta se debe
onsiderar omo medida úni a de in ertidumbre sobre un onvexo, puesto que si nos jamos en
las a.b.p. del ejemplo 3.3, la distribu ión uniforme y la ignoran ia total, ambas tiene el mismo
valor del máximo de la entropía de Shannon y es evidente la diferen ia entre ambos onjuntos
onvexos.
Ejemplo 3.3 Sean las a.b.p. m5,m6siguientes sobre X = x1, x2, x3 tales que:
m51 = m5
2 = m52 =
1
3
m6123 = 1
94 Capítulo 3. Medidas de incertidumbre para conjuntos convexos de distribuciones de probabilidad
Los onjuntos onvexos aso iados, que podemos ver en la gura 3.5, vienen determinado
por los vérti es
Cm5 = 〈(13,1
3,1
3)〉
y
Cm6 = 〈(1, 0, 0); (0, 1, 0); (0, 0, 1)〉,
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
x2x1
x3
x2x1
x3
.
m5 m6
Figura 3.5: Conjuntos convexos asociados a m5 y m6 del ejemplo 3.3
Veremos que no sólo debemos onsiderar al máximo de la entropía para tener un valor
relativo a la posi ión, pues se puede obtener una medida de la posi ión del onvexo a partir de
una fun ión de los vérti es, aunque veremos que la primera tiene mejores propiedades.
El fa tor Kullba k planteado en el apítulo 2, también se puede in luir en una medida
de in ertidumbre total para onvexos en general, pues tiene la ventaja de que es fá ilmente
generalizable y matemáti amente tiene una serie de propiedades ampliables a este tipo mas
general de representa ión de la in ertidumbre.
El tipo de in ertidumbre que mide este fa tor, omo vimos, es una mez la de entrópi o o
posi ional para un onjunto de onvexos que ontenían a la probabilidad de mayor entropía,
la uniforme, y de tipo noespe í o, pues en este onjunto su valor dependía del tamaño del
onvexo. En ambio para el onjunto de los onjuntos onvexos que no ontenían al máximo
de la entropía su valor era nulo.
Al igual que vimos en la teoría de la eviden ia, una medida de in ertidumbre que mida un
tipo de in ertidumbre, MU , debe umplir algunas de las siguientes propiedades en el onjunto
3.2. Tipos de incertidumbre 95
de todos los onjuntos onvexos de distribu iones de probabilidad sobre un onjunto nito X:
(1) Sea ontinua.
(2) Coin ida on la entropía de Shannon para probabilidades MU(p) = H(p), on H la
entropía de Shannon, p distribu ión de probabilidad.
(3) Esté bien denida 0 ≤MU(C), para todo C onjunto onvexo sobre X.
(4) Sea máxima para la in ertidumbre total:
0 ≤MU(C) ≤MU(PPn)
on C onjunto onvexo sobre X, PPnel poliedro probabilísti o sobre X tal que |X| = n,
que oin ide el onjunto onvexo Cm6 de la eviden ia del ejemplo 3.3.
(5) Sea monótona re iente. Si C,C ′son onjuntos onvexos sobre X tales que C ⊆ C ′
enton es MU(C) ≤MU(C ′)
(6) Sea subaditiva. Sea C onjunto onvexo sobre X × Y , X e Y nitos, y sean CX y CY
sus proye iones sobre X e Y respe tivamente, enton es:
MU(C) ≤MU(CX) + MU(CY )
(7) Sea aditiva. Si C onjunto onvexo sobre X × Y tal que C = CH(CX × CY enton es
MU(C) = MU(CX) + MU(CY )
En el aso de estar hablando de una medida entrópi a, amplia ión de las medidas de entropía
de teorías menos generales, debería umplir las siguiente propiedades del onjunto anterior:
(1), (2), (3), (4), (5), (6), (7),
pues es el onjunto de propiedades bási as de la entropía de Shannon para probabilidades.
En ambio, una medida de no-espe i idad debe veri ar para onjuntos onvexos el si-
guiente onjunto de propiedades:
(1), (3), (4), (5), (7),
donde omo vemos no tiene por qué oin idir on la entropía de Shannon para probabilidades,
si no que debe valer 0 para estas por el tipo de in ertidumbre que representa, que llamaremos
propiedad (8):
96 Capítulo 3. Medidas de incertidumbre para conjuntos convexos de distribuciones de probabilidad
(8) Si C onjunto onvexo sobre X nito tal que C = p on p una distribu ión de probabilidad
enton es
MU(C) = 0
para MU medida de no-espe i idad.
Mas ontrovertida es la anula ión del requisito de la subaditividad para las medidas de
no-espe i idad para onvexos, pero esto es fá il de justi ar si nos jamos en el siguiente
ejemplo:
Ejemplo 3.4 Sobre X = x11, x12, x21, x22 = X1×X2 on Xi = xi1, x
i2, i = 1, 2, llamando
a xij = (x1i , x
2j ), i, j = 1, 2. Consideremos el onvexo C determinado por las ombina iones
onvexas de los vérti es
A(0.1, 0.4, 0.2, 0.3) y B(0.15, 0.35, 0.15, 0.35).
Tanto A omo B produ en las marginales sobre X1 y X2, respe tivamente
CX1 = (0.5, 0.5)
CX2 = (0.3, 0.7).
Ahora tenemos que por la propiedad (8) las no-espe i idades de CXi(i = 1, 2) deben ser
0, pero no así la de C que engloba un onjunto de varias alternativas, por lo que tenemos que
no debe veri arse la subaditividad para onvexos ualesquiera.
En la teoría de la eviden ia esta situa ión era imposible. No podíamos tener un onjunto
global, distinto de una probabilidad, uyas marginales fuesen probabilidades pre isas. Allí si
se veri aba la subaditividad. Sin embargo, aquí tenemos una mayor variedad de situa iones,
in luyendo algunas en las que esta propiedad no tiene sentido.
Ahora una fun ión que mida la in ertidumbre total sobre onvexos, onsiderando ésta omo
medida entrópi a y de no-espe i idad, debe veri ar el onjunto siguiente de propiedades:
(1), (2), (3), (4), (5), (7),
3.3. Medidas entrópicas 97
pues no tiene por qué ser subaditiva al tener una omponente para la que no oherente serlo,
omo hemos visto en el ejemplo 3.4.
En el aso de la propiedad de la aditividad podemos partir de distintas deni iones de
independen ia sobre onjuntos onvexos, Couso, Moral y Walley [23. La aditividad dependerá
del on epto que usemos en ada momento
3.3. Medidas entrópi as
Podemos pensar que la mejor forma de medir la omponente entrópi a de la in ertidumbre
de un onjunto onvexo es onsiderar la posi ión de éste respe to a la distribu ión uniforme
y ésta debería depender de los vérti es de di ho onvexo, pues nos determinan exa tamente
donde está ubi ado. Por tanto, podemos intentar medir di ha omponente basándonos en una
fun ión de los vérti es.
Por otro lado, en la teoría de la eviden ia vimos que el máximo de la entropía umplía
todas las propiedades bási as requeridas, aunque al onsiderar una medida de in ertidumbre
total añadiéndole la de Dubois y Prade resultaba in ompleta, por lo que añadimos el fa tor
Kullba k. Por tanto, podríamos pensar en la suma de ambas fun iones omo medida entrópi a
también para onvexos, por la fá il amplia ión.
Vamos a onsiderar los dos puntos de vista anteriores. Por un lado veremos que no es
sen illo estable er una fun ión de los vérti es para onjuntos onvexos en general, que fun ione
orre tamente, pero, por otro lado, las fun iones que teníamos de teorías anteriores sí lo ha en.
En la subse ión 3.3.1 veremos los in onvenientes que tiene el estable er omo medida en-
trópi a la entropía del entro de masas de un onvexo o la media de las entropías de los vérti es
de un onvexo. En la subse ión 3.3.2 veremos las propiedades del máximo de la entropía pa-
ra onjuntos onvexos, así omo su ál ulo para un tipo muy útil de onvexos omo son los
onjuntos de intervalos de probabilidad.
3.3.1. Entropía del entro de masas y entropía media de los vérti es de un
onjunto onvexo
Podemos denir la entropía del entro de masas de un onvexo omo
Deni ión 3.1 Denimos la entropía entro de masas de un onjunto onvexo C omo la
98 Capítulo 3. Medidas de incertidumbre para conjuntos convexos de distribuciones de probabilidad
entropía de la probabilidad pC , obtenido omo:
pCi=
1
m
m∑
j=1
vji
donde vjm1 son los vérti es de C
Notaremos a pC al entro de masas del onvexo C
Análogamente la entropía media de los vérti es se puede expresar:
Deni ión 3.2 Sea la fun ión HVdenida sobre los onjuntos onvexos sobre X nito on
|X| = n, on la nota ión de la deni ión anterior, de la siguiente forma:
HV (C) =1
m
m∑
j=1
H(vj)
Por la onvexidad de H sabemos que
H(pC) ≥ HV (C)
Ejemplo 3.5 Consideremos los onvexos, provenientes de a.b.p., que vienen determinados
por los vérti es:
Cm1 = 〈(0.4, 0.3, 0.3); (0.3, 0.4, 0.3); (0.3, 0.3, 0.4)〉,
Cm2 = 〈(0.4, 0.2, 0.4); (0.2, 0.4, 0.4); (0.2, 0.2, 0.6)〉,
Cm3 = 〈(0.6, 0.2, 0.2); (0.1, 0.7, 0.2); (0.1, 0.2, 0.7)〉.
Grá amente los podemos ver en las guras 3.6 y 3.7.
Tanto una medida omo otra pade en el problema importante de que no son monótonas,
puesto que Cm3 ontiene a Cm1 y Cm2 , y o urre que
H(pCm1) > H(pCm3
)
y
H(pCm2) < H(pCm3
).
Además:
HV (Cm1) = 1.089,
3.3. Medidas entrópicas 99
x2x1
x3
x2x1
x3
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
mm
12
Figura 3.6: Conjuntos convexos asociados a m1 y m2 del ejemplo 3.5
x2x1
x3
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
3m
Figura 3.7: Conjunto convexo asociado a m3 del ejemplo 3.5
100 Capítulo 3. Medidas de incertidumbre para conjuntos convexos de distribuciones de probabilidad
x2x1
x3
4m
xxxxxxxxxxxxxxx
Figura 3.8: Conjunto convexo asociado a m4 del ejemplo 3.6
HV (Cm2) = 1.020,
HV (Cm3) = 0.851,
por lo que
HV (Cm1) > HV (Cm3)
y también
HV (Cm2) > HV (Cm3).
Tras este ejemplo, vemos que tenemos importantes in oheren ias on estas fun iones.
Ejemplo 3.6 Consideremos el onvexo de una a.b.p. m4, determinado por los vérti es:
Cm4 = 〈(0.15, 0.65, 0.2); (0.1, 0.7, 0.2)〉.
Grá amente lo podemos ver en la gura 3.8.
Vuelve a o urrir que Cm4 ⊂ Cm3 pero ahora HV (Cm4) = 0.844 < HV (Cm3) = 0.851
3.3. Medidas entrópicas 101
Otro aspe to negativo es la falta de ontinuidad de estas fun iones, omo se puede ver en
el siguiente ejemplo.
Ejemplo 3.7 Consideremos los onvexos C1 y C2 determinados por los vérti es:
C1 = 〈(0, 0, 1); (0.5, 0.5, 0)〉
C2 = 〈(0, 0, 1); (0.5, 0.5, 0); (0.5 − ε, 0.5 + ε, 0)〉
Grá amente los podemos ver en la gura 3.9.
Tenemos que
pC1 =
(1
4,1
4,1
2
),
pC2 =
(1− ε
3,1 + ε
3,1
3
),
para ualquier valor de ε ≥ 0. Con lo que tendríamos que:
H(pC1) = 1.040
y
H(pC2) = −1
3log(
1
3)−
(1− ε
3
)log
(1− ε
3
)−(
1 + ε
3
)log
(1 + ε
3
).
Y si ha emos ε→ 0 tenemos que pC2 → log(3) de forma re iente. O sea, que si C2 → C1
la diferen ia pC2 − pC1 aumenta, on lo que se rompería la posibilidad de que esta fun ión sea
ontinua.
Lo mismo o urre on HV (C1) y HV (C2), puesto que
HV (C1) =log(2)
2,
HV (C2) =log(2)− (0.5 − ε) log(0.5 − ε)− (0.5 + ε) log(0.5 + ε)
2
y a medida que ε→ 0, o sea que C2 → C1, HV (C2) se aproxima a log(2) de forma re iente,
luego la diferen ia HV (C2)−HV (C1) también aumenta.
102 Capítulo 3. Medidas de incertidumbre para conjuntos convexos de distribuciones de probabilidad
x2x1
x3
x2x1
x3
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
C C1 2
Figura 3.9: Conjuntos convexos asociado a los convexos C1 y C2 del ejemplo 3.7
3.3.2. El máximo de la entropía de Shannon para onjuntos onvexos
Esta fun ión, que veri aba las propiedades bási as en la teoría de la eviden ia y es fá ilmen-
te ampliable a onjuntos onvexos en general, es onsiderada por algunos autores, Harmane
y Klir [39, omo una fun ión apaz de medir toda la in ertidumbre en un onjunto onvexo,
pero omo vimos en el ejemplo 3.3 tenemos que dis repar de tal opinión. Nosotros la onsi-
deramos omo medida de uno de los fa tores de la in ertidumbre, pero no de toda la falta de
informa ión. Lo mismo le o urre para onjuntos onvexos en general, omo podemos ver en el
siguiente ejemplo.
Ejemplo 3.8 Consideremos el onvexo C determinado por los vérti es:
C = 〈(1, 0, 0); (0.6, 0.4, 0); (1
3,1
3,1
3); (0.6, 0, 0.4)〉
Grá amente lo podemos ver en la gura 3.10.
El máximo de la entropía es el mismo que en la distribu ión uniforme o la ignoran ia, pero
hay diferen ias notables en ambas situa iones.
Por lo que se ha e ne esario un omplemento que mida la no-espe i idad.
Vamos a denir esta fun ión para onjuntos onvexos:
Deni ión 3.3 Sea G∗la fun ión denida sobre todos los onjuntos onvexos de distribu io-
nes de probabilidad sobre un onjunto nito X de la forma
G∗(C) = maxp∈C
H(p),
3.3. Medidas entrópicas 103
para todo C onjunto onvexo sobre X.
En la teoría de la eviden ia la notamos simplemente omo G, aquí la notamos omo G∗
pues más adelante utilizaremos también el mínimo de la entropía de un onvexo que notaremos
por G∗ por simetría.
3.3.2.1. Propiedades
Con la nota ión anterior, la fun ión G∗sobre onjuntos onvexos de distribu iones de
probabilidad, veri a las mismas propiedades que G en la teoría de la eviden ia.
Proposi ión 3.1 Es monótona, es de ir, sean C y C ′dos onjuntos onvexos de distribu io-
nes de probabilidad sobre un onjunto nito X de forma que C ⊆ C ′, enton es G∗(C) ≤ G∗(C ′).
Demostra ión: Es inmediata por la propia deni ión de G∗
Proposi ión 3.2 Está bien denida, G∗(C) ≥ 0, ∀C onjunto onvexo de distribu iones de
probabilidad sobre un onjunto nito X.
Demostra ión: Es inmediata, puesto que H(p) ≥ 0 para toda distribu ión de probabilidad p.
x2x1
x3
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
C
Figura 3.10: Conjunto convexo asociado al convexo C del ejemplo 3.8
104 Capítulo 3. Medidas de incertidumbre para conjuntos convexos de distribuciones de probabilidad
Proposi ión 3.3 Es máxima para la ignoran ia total on rango el onjunto [0, ln(n)], donde
n = |X|.
Demostra ión: Es máxima, ln(n), uando la distribu ión de probabilidad uniforme pertene e
a C y es mínima, 0, uando C es una distribu ión de probabilidad degenerada
Proposi ión 3.4 Es subaditiva, es de ir, si C es un onjunto onvexo de distribu iones de
probabilidad sobre un universal nito X × Y, enton es G∗(C) ≤ G∗(CX) + G∗(CY ).
Demostra ión: Con la nota ión anterior, supongamos que tenemos que el máximo se da en una
distribu ión de probabilidad p, G∗(C) = H(p), tal que p1es su marginal sobre X y p2
es su
marginal sobre Y . Enton es utilizando la desigualdad de Gibbs tenemos que
G∗(C) = H(p) = −∑
x∈X,y∈Y
pxy ln(pxy) ≤ −∑
x∈X,y∈Y
pxy ln(p1xp2
y) =
= −∑
x∈X,y∈Y
pxy ln(p1x)−
∑
x∈X,y∈Y
pxy ln(p2y) = −
∑
x∈X
p1x ln(p1
x)−∑
y∈Y
p2y ln(p2
y) ≤
≤ G∗(CX) + G∗(CY )
Proposi ión 3.5 Es aditiva, es de ir, sea C un onjunto onvexo de distribu iones de proba-
bilidad sobre X×Y tal que hay independen ia sobre C, es de ir, C = CH(CX×CY ), enton es
G∗(C) = G∗(CX) + G∗(CY ).
Demostra ión: Por la propiedad anterior, sabemos que siempre se veri a que
G∗(C) ≤ G∗(CX) + G∗(CY )
Ahora, notando G∗(CX) + G∗(CY ) = H(p1) + H(p2), tenemos que
G∗(CX) + G∗(CY ) = −∑
x∈X
p1x ln(p1
x)−∑
y∈Y
p2y ln(p2
y) =
= −∑
x∈X,y∈Y
p1xp2
y ln(p1xp2
y) ≤ G∗(C),
puesto que p1p2pertene e a C por la hipótesis de independen ia.
3.4. Un algoritmo de máxima entropía para intervalos de
probabilidades 105
3.4. Un algoritmo de máxima entropía para intervalos de
probabilidades
Uno de los prin ipales problemas de esta medida es su ál ulo ya que es difí il de obtener. Sin
embargo, hay algunos asos parti ulares donde se puede al ular de forma omputa ionalmente
e iente. En de Campos, Huete y Moral [10, se demuestra que los intervalos de probabilidades
son un aso espe ial de onjuntos onvexos de distribu iones de probabilidad que pueden ser una
herramienta interesante para representar la in ertidumbre, por dos razones: primero porque
son una forma muy natural de expresar la impre isión sobre las probabilidades y segundo,
omo muestran los autores en el itado artí ulo, podemos realizar las opera iones importantes
sobre estos onjuntos on una gran e ien ia. Los autores, en el itado artí ulo estudian en
detalle opera iones importantes y omparan esta teoría on otras, en ontrando una e ien ia
omputa ional superior.
A ontinua ión, presentamos un algoritmo simple y rápido que al ula en un número -
nito de pasos el máximo de la entropía para un onjunto de intervalos de probabilidades, que
expusimos en Abellán y Moral [5.
Deni ión 3.4 Consideremos una variable X que toma valores en el onjunto nito ΩX =
x1, x2, ..., xn y una familia de intervalos L = [li, ui, ], i = 1, ..., n, veri ando que 0 ≤ li ≤ui ≤ 1,∀i.
Podemos interpretar estos intervalos omo un onjunto de límites de probabilidad por medio
de la deni ión del onjunto P de distribu iones de probabilidad sobre ΩX , siendo
CL = p ∈ P (ΩX)|li ≤ p(xi) ≤ ui,∀i,
donde P (ΩX) expresa el onjunto de todas las medidas de probabilidad denidas sobre un
dominio nito ΩX . Así, diremos que L es un onjunto de intervalos de probabilidad y que CL
es el onjunto de todas las posibles distribu iones de probabilidad aso iadas a L.
CL es un onjunto onvexo de distribu iones de probabilidad on un número nito de puntos
extremos. En el apítulo 1 vimos un algoritmo para al ular los puntos extremos.
Ahora, presentamos el algoritmo que obtiene el máximo de la entropía en un onjunto de
probabilidades no va ío y al anzable.
Para expresar el algoritmo, ne esitamos previamente algunos pro edimientos simples:
106 Capítulo 3. Medidas de incertidumbre para conjuntos convexos de distribuciones de probabilidad
Sum(l) devuelve la suma de 1 a n del array l.
Min(l, S) devuelve el índi e del mínimo valor del array l en el onjunto de índi es S.
Sig(l, S) devuelve el índi e del segundo valor menor del array l entre todos los índi es del
onjunto S, devuelve −1 si éste no existe.
Nmin(l, S) devuelve el número de índi es que al anzan el mínimo valor del array l entre los
índi es del onjunto S.
Min(a, b, c) devuelve el mínimo valor del onjunto a, b, c, siendo a, b y c números reales.
Sean l, u los arrays que ontienen a los extremos de los intervalos de probabilidad de un
onjunto L de intervalos de probabilidad al anzables, siendo P el onjunto no va ío de proba-
bilidades aso iado. Sea p el array donde tendremos la distribu ión de máxima entropía y S un
onjunto de índi es. El algoritmo se llama on S = 1, 2, . . . , n.
Algoritmo 3.1 Algoritmo del ál ulo del máximo de la entropía de Shannon para
intervalos de probabilidad
S ← 1, ..., n;
GetMaxEntro(l, u, p, S)
For i = 1 to n do pi ← li;
If Sum(l) < 1
then
For i = 1 to n do
If li = ui
then
S ← S − i;s← Sum(l);
r ←Min(l, S);
f ← Sig(l, S);
m← Nmin(l, S);
For i = 1 to n
3.4. Un algoritmo de máxima entropía para intervalos de
probabilidades 107
If li = Min(l, S)
then
If Sig(l, S) = −1
then
li ← li + Min(ui − li,1−sm
, 1);
else
li ← li + Min(ui − li, lf − lr,1−sm
);
GetMaxEntro(l, u, p, S);
Ahora se puede ver el fun ionamiento del algoritmo a través del siguiente ejemplo:
Ejemplo 3.9 Para el onjunto de intervalos de probabilidad L denido sobre el onjunto
nito x1, x2, x3, x4, x5 y dado por
L = [0, 0.3], [0.3, 0.5], [0.1, 0.5], [0.1, 0.4], [0, 0.1],
el array p donde se a umula el máximo de la entropía tiene el siguiente valor en ada i lo del
algoritmo:
1.- p = (0, 0.3, 0.1, 0.1, 0)
2.- p = (0.1, 0.3, 0.1, 0.1, 0, 1)
3.- p = (0.2, 0.3, 0.2, 0.2, 0.1)
Como podemos observar, el algoritmo omienza on los extremos inferiores del onjunto de
intervalos de probabilidad y va rellenando esos valores, hasta que la suma de todos sea uno,
de una forma uniforme, de abajo ha ia arriba. Nos va a dar una distribu ión de probabilidad
que mejor reparte las probabilidades, on un onjunto de omponentes iguales a los extremos
inferiores, en el ejemplo orrespondería al onjunto x2, un onjunto que oin ide on los
108 Capítulo 3. Medidas de incertidumbre para conjuntos convexos de distribuciones de probabilidad
valores superiores, en el ejemplo sería x5, y un onjunto donde se al anzan valores igua-
les y entre los valores superior e inferior pero distinto a éstos, en nuestro aso x1, x3, x4.Finalmente p ontiene a la distribu ión de probabilidad on máxima entropía omo podemos
demostrar a ontinua ión, aunque previamente ne esitamos enun iar un lema que nos servirá
de herramienta en di ha demostra ión.
A ontinua ión, utilizaremos (pi)n1 para representar un array de dimensión n de números
reales no negativos. Llamaremos (p∗i )n1 al mismo array reordenando sus omponentes de forma
no re iente. Evidentemente tanto p omo p∗ tienen la misma entropía.
Lema 3.1 (Wasserman and Kadane [103) Sean p, q dos distribu iones de probabilidad sobre
un onjunto nito X on n elementos. Si
∑ji=1 p∗i ≤
∑ji=1 q∗i , para j = 1, ..., n, enton es
H(p) ≥ H(q)
Con este lema podemos probar el siguiente teorema que muestra que el algoritmo realmente
al ula la distribu ión de probabilidad on máxima entropía uando se apli a a un onjunto de
intervalos de probabilidad al anzables.
Teorema 3.1 El algoritmo denido anteriormente al anza, en un número nito de pasos,
el máximo de la entropía para el onjunto de probabilidades que determina un onjunto de
intervalos de probabilidad [li, ui]n1 , C = (p)n1 | pi ≥ 0, li ≤ pi ≤ ui,∑
i pi = 1La omplejidad del algoritmo es de orden O(n2) donde n es el número de elementos de X.
Demostra ión:
Sea p la distribu ión de probabilidad obtenida por el algoritmo. Sin pérdida de generalidad,
podemos asumir que p∗ = p. Esto se basa en el he ho de que la entropía no ambia bajo una
permuta ión de los elementos de X, así que siempre se puede asumir que la probabilidad nal
asigna valores a los elementos de X de forma no re iente. Esto nos simpli ará el resto de la
demostra ión.
Bajo esta ondi ión, la probabilidad p que obtiene el algoritmo se puede dividir en tres
partes:
p = (p1, . . . , ps, ps+1, . . . , pt, pt+1, . . . , pn)
tal que:
3.4. Un algoritmo de máxima entropía para intervalos de
probabilidades 109
La primera parte, (p1, . . . , ps), ontiene los mayores valores de probabilidad y ada pi es igual
a su límite inferior, expresado en los intervalos por li.
La segunda parte, (ps+1, . . . , pt), ontiene valores onstantes, α.
La ter era parte, (pt+1, . . . , pn), ontienen a los valores superiores de probabilidad de ada
omponente pi, expresado en los intervalos por ui.
Podemos asumir que ps > ps+1 y pt > pt+1. Si tenemos una igualdad podemos mover los
elementos iguales a la segunda parte del ve tor anterior.
Puesto que H es una fun ión onvexa es sólo ne esario demostrar que H(p) es un máximo
relativo en B(p, ǫ)∩CL, para algún ǫ > 0, on B el onjunto de distribu iones de probabilidad
B(p, ǫ) = (q)n1 |d(p, q) ≤ ǫ y d es la distan ia eu lídea sobre IRn.
Cualquier q ∈ B(p, ǫ) ∩ CL tiene los siguientes omponentes:
q = (p1 + ǫ1, .., ps + ǫs, ps+1 ± ǫs+1, .., pt ± ǫt, pt+1 − ǫt+1, .., pn − ǫn)
on 0 ≤ ǫi ≤ ǫ,∀iLa razón para esto es que los elementos de pi on i = 1, . . . , s son iguales a sus límites
inferiores li (y no podemos tener valores menores a éstos) y para i = t+1, . . . , n pi son iguales
a sus límites superiores (y no podemos tener valores mayores a éstos).
Consideremos en orden no re iente el ve tor q:
q∗ = (q∗1 , ..., q∗s , q∗s+1, ..., q
∗t , q∗t+1, ..., q
∗n)
Si ǫ < Min(ps−ps+1, pt−pt+1), enton es tenemos que ada una de las tres partes (q∗1 , ..., q∗s),
(q∗s+1, ..., q∗t ) y (q∗t+1, ..., q
∗n), se obtiene de las orrespondientes partes de q (podemos tener un
ambio de elementos dentro de ada parte, pero ningún valor se moverá de una parte a otra).
Nos queda la siguiente situa ión:
Cada uno de los valores de (q∗1 , ..., q∗s ) es igual a un valor diferente de (p1, . . . , ps) mas un valor
no negativo (qi = pi + ǫi).
Cada uno de los valores de (q∗s+1, ..., q∗t ) es igual a un valor diferente de (ps+1, . . . , pt) mas o
menos un valor no negativo. Como los valores de (q∗s+1, ..., q∗t ) están ordenados de forma no
re iente, y los valores ini iales de (ps+1, . . . , pt) son onstantes, todos los asos en los que el
valor ha sido añadido apare en antes de los asos en los que el valor ha sido sustraido.
110 Capítulo 3. Medidas de incertidumbre para conjuntos convexos de distribuciones de probabilidad
Cada uno de los valores de (q∗t+1, ..., q∗n) es igual a un valor diferente de (pt+1, . . . , pn) menos
un valor no negativo (qi = pi − ǫi).
En estas ondi iones, y teniendo en uenta que (q∗1 , . . . , q∗n) está ordenada en forma no
re iente, podemos on luir que para ualquier j = 1, . . . , n, tenemos que
∑ji=1 p∗i =
∑ji=1 pi ≤
∑ji=1 q∗i .
Usando el lema de Wasserman y Kadane [103,
H(p) = H(p∗) ≥ H(q∗) = H(q).
O sea, que p tiene máxima entropía en el onjunto B(p, ǫ) ∩ CL.
La omplejidad del algoritmo se puede dedu ir del he ho de que en ada llamada re ursiva
a GetMaxEntro tenemos que la suma de las probabilidades inferiores es igual a uno y el
algoritmo se para en la siguiente llamada o se umple que para un nuevo índi e i = 1, . . . , n
su límite inferior li se ha e igual a su límite superior ui. Esto último no puede su eder mas de
n ve es, luego el número de llamada re ursivas no es enton es mayor de n. En ada llamada,
las fun iones Sum,Min,Fol ,Nmin tienen una omplejidad de orden O(n) y los i los de 1 a
n interiores onllevan un número onstante de opera iones. Así que obtenemos la omplejidad
bus ada O(n2).
3.5. Medidas de no-espe i idad
Si miramos la no-espe i idad en la teoría de la eviden ia, observamos que está rela ionada
on el tamaño y on la varia ión de entropía, tal y omo expli amos. Si nos jamos en el
ejemplo 3.10 tenemos que m1es más espe í a que m2
puesto que pasamos una masa de
0.1 del onjunto x1 al onjunto x1, x2, x3, produ iéndose un aumento de 0.1 log(3) en la
no-espe i idad de estas a.b.p.
Ejemplo 3.10 Sean las a.b.p. m1,m2siguientes sobre X = x1, x2, x3 tales que:
m11 = 0.2, m1
12 = 0.4, m1123 = 0.4
m21 = 0.1, m2
12 = 0.4, m2123 = 0.5
Los onjuntos onvexos aso iados, que podemos ver en la gura 3.11, vienen determinado
por los vérti es
Cm1 = 〈(1, 0, 0); (0.6, 0, 0.4); (0.2, 0.4, 0.4); (0.2, 0.8, 0)〉
3.5. Medidas de no-especificidad 111
y
Cm2 = 〈(1, 0, 0); (0.5, 0, 0.5);C(0.1, 0.4, 0.5); D(0.1, 0.9, 0)〉,
x2x1
x3
x2x1
x3
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
m m1 2
Figura 3.11: Conjunto convexo asociado a m1 y m2 del ejemplo 3.10
Como vemos m1está ontenida en m2
. Hemos obtenido un ligero in remento de la no-
espe i idad, on un onvexo aso iado mayor.
Este ejemplo 3.10 nos ha e pensar en la rela ión entre el tamaño y el tipo de in ertidumbre
que estudiamos. Aunque según vimos en el ejemplo 3.1, podemos plantearnos dudar sobre esta
arma ión y pensar en la varia ión entrópi a omo fuente prin ipal de la no-espe i idad. Por
tanto, a la hora de plantearnos la búsqueda de una fun ión de noespe idad se pueden seguir
los dos riterios anteriores:
· Determinar una medida de no-espe i idad a partir del tamaño del onvexo. Por lo que,
tendríamos que bus ar una expresión de medida de Lebesgue en la dimensión en la que se
en uentre di ho onvexo.
· Determinar una medida de no-espe i idad a partir de la varia ión entrópi a. Por lo que, nos
tendríamos que plantear la determina ión de la rela ión existente entre vérti es del onvexo,
que realmente son los que nos determinan di ha varia ión, y la no-espe i idad de éste.
Nosotros vamos a plantear aquí algunas medidas estudiadas de a uerdo on los dos puntos
anteriores. En primer lugar, estudiaremos el volumen de un onjunto onvexo, al ulando
previamente el volumen del poliedro probabilísti o. En el apartado 3.4.1 analizaremos on
112 Capítulo 3. Medidas de incertidumbre para conjuntos convexos de distribuciones de probabilidad
más detalle las on lusiones obtenidas on este enfoque. En segundo lugar, nos plantearemos
el estudio de la mayor diferen ia entrópi a que se produ e en el onvexo, omo medida prin ipal
de a uerdo al segundo amino anteriormente expuesto. En el apartado 3.4.2 analizaremos esta
medida así omo otras que dire tamente dependen de los vérti es. Veremos las razones por
las que, de manera intuitiva, no tiene un fun ionamiento orre to. Finalmente en el apartado
3.4.3 analizaremos el omportamiento de la fun ión que generaliza la de no-espe i idad de
Dubois y Prade para eviden ias, y veremos que por propiedades y omportamiento es la más
apropiada.
3.5.1. El volumen omo medida de no-espe i idad
El prin ipal problema que nos en ontramos al utilizar el volumen, es el de ajustar la di-
mensión del onjunto onvexo al valor de la no-espe i idad. Pues omo vimos en el ejemplo
3.1 es oherente tener dos onjuntos onvexos on igual valor de no-espe i idad, omo en
este aso de eviden ias y on distinta dimensión. Pensamos que deberíamos utilizar la medida
de Lebesgue del onjunto normalizado por el logaritmo de la dimensión o alguna fun ión de
éste. Pero nos en ontramos on el problema de la no ontinuidad de las fun iones de ese tipo,
tal y omo podemos ver en el ejemplo 3.7, donde para un valor de ε muy pequeño, las no
espe i idades de los dos onvexos deberían ser muy similares, pero esto es ompli ado de
ajustar al tener distintas dimensiones. Por lo que es fá il pensar que se produ e una falta de
ontinuidad.
Este problema del ajuste de la ontinuidad del onvexo nos lleva dire tamente a re hazar
la idea de bus ar alguna fun ión lineal que de forma lógi a dependiera de:
* µ(C), medida o volumen del onjunto onvexo C en su dimensión.
* µ(PPn) volumen del poliedro probabilísti o de dimensión n (medida en IRn−1)
* log(1 + dim(C)), donde dim(C) es la dimensión del onjunto onvexo C. Sumamos 1 para no
obtener 0, por el logaritmo, en los asos de dimensión 1.
donde PPn es el poliedro probabilísti o sobre un onjunto nito X tal que |X| = n, o sea, el
onjunto de todas las distribu iones de probabilidad sobre X.
Lo primero que nos planteamos es el ál ulo del volumen de PPn. Pensamos que era un
resultado ono ido, pero bus ando en la literatura del tema no en ontramos nada publi ado.
3.5. Medidas de no-especificidad 113
x2x1
x3
x2x1
x3
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
CC1
2
Figura 3.12: Conjuntos convexos asociado a los convexos C1 y C2 del ejemplo 3.11
Apoyándonos en la herramienta de ál ulo que nos ofre e Lawren e [68, hemos obtenido que:
V ol(PPn) =
√n
(n − 1)!.
Se puede ver el desarrollo de este ál ulo en el Apéndi e B de este apítulo. Es posible obtenerlo
también de forma re ursiva, al ulando el volumen de PPn a partir del de PPn−1.
Una primera medida que nos planteamos, la más dire ta, fue la siguiente:
NE(C) =µ(C)
µ(PPn)log(1 + dim(C)),
pero rápidamente ho amos on el problema de la ontinuidad antes itado.
Ejemplo 3.11 Consideremos los onvexos C1 y C2 determinados por los vérti es:
C1 = 〈(13,1
3,1
3); (
1
2,1
2, 0)〉
y
C2 = 〈(13,1
3,1
3); (
1
3− ε,
1
3+ ε,
1
3); (
1
2,1
2, 0); (
1
2− ε,
1
2+ ε, 0)〉.
Grá amente los podemos ver en la gura 3.12. En este aso no existe ontinuidad uando
ǫ −→ 0.
También se nos puede romper la monotonía, puesto que los onvexos C1 y C2 de este ejemplo
veri an que µ(C1) = 13 y µ(C2) = 1
3 · ε que tiende a 0 si ha emos ε → 0. Por lo que siendo
µ(PP2) =√
2, tenemos que
NE(C1) =1
3√
2log(2)
114 Capítulo 3. Medidas de incertidumbre para conjuntos convexos de distribuciones de probabilidad
y
NE(C2) =ε
3√
2log(2),
tomando ε < log(2)log(3) ya o urre que NE(C1) > NE(C2) on lo que esta medida no veri a la
monotonía, una propiedad bási a de la no-espe i idad.
Después de ho ar on los problemas anteriores, nos planteamos si es posible trabajar on
esos valores y on las medidas de las proye iones de manera que obtengamos una fun ión que
umpliera on el requisito impres indible de la monotonía. Cuando estábamos investigando
fun iones de esas ara terísti as, nos en ontramos on una medida que tenía las mismas pre-
tensiones que la que nosotros bus ábamos. Klir y Wierman [61 analizan la siguiente fun ión,
planteada originalmente por Klir y Yuan [62. La fun ión es:
HL(C) = mınt∈T
log
[n∏
i=1
[1 + µ(Cit) + µ(C)−n∏
i=1
[µ(Cit)]
],
donde µ denota la medida de Lebesgue, T es el onjunto de todas las transforma iones de un
sistema de oordenadas ortogonal en otro, Cit es la i-ésima proye ión del onvexo C en el
sistema de oordenadas t.
Aunque, omo se puede observar, no es una fun ión sen illa de manejar, está en la línea de
lo que bus amos.
Está denida para ualquier onvexo, pero para onjuntos onvexos de probabilidades ne-
esitaría del ál ulo que nosotros hi imos del volumen del poliedro probabilísti o para norma-
lizarla y obtener un rango entre 0 y log(n).
Demuestran que sobre el onjunto de los poliedros de IRnveri a las siguientes propiedades:
(1) HL(C) = 0 si C es una probabilidad
(2) HL(C1) ≤ HL(C2) si C1 ⊆ C2 (monotonía)
(3) HL(C) ≤∑i HL(Ci) (subaditividad respe to de las omponentes)
Donde Ci denota la proye ión unidimensional de C al subespa io i en un sistema de oorde-
nadas. Para nosotros sería, en el aso de onjuntos onvexos, la máxima diferen ia de proba-
bilidades para ada omponente.
3.5. Medidas de no-especificidad 115
(4) No ambia el resultado de HL(C) por tranforma iones isométri as del espa io de oordenadas
(por deni ión)
(5) Es ontínua
(6) Tiene rango [0,∞) para ualquier C poliedro de IRn. Con una simple transforma ión se puede
ha er que tome valores en [0, log(n)]
(7) Si C =∏n
i=1 Ci, entendiendo el anterior produ to omo produ to artesiano y donde Ci tiene
el mismo sentido que en (3), tenemos que
HL(C) =n∑
i=1
HL(Ci)
(aditividad respe to a las omponentes)
El problema estriba en esta última propiedad, pues aunque Klir y Wierman la demostraron
para dimensión menor o igual a 2, no lo ha en para ualquier n y omentan que en Ramer
[84 se realiza di ha demostra ión en el momento de la realiza ión de la publi a ión en la que
denen la fun ión HL. El aso es que en la referen ia que nos ha en de Ramer no hay ninguna
demostra ión de tal propiedad, sino que se exponen una serie de razones por lo que "debería
ser ierta". Por tanto la demostra ión de esta interesante propiedad queda también abierta.
Si observamos la forma de la fun ión, trabaja on intervalos de probabilidades, es de ir,
aumenta el onvexo a la hora de dar su no-espe i idad, puesto que on µ(Cit) se indi a la
mayor diferen ia de probabilidades en el onvexo, en la oordenada i en el sistema ortogonal
t. Algo similar realizaremos nosotros al dar una medida de no-espe i idad más ompleja
que esta en el apartado 3.4.3, donde intentaremos ampliar la U-un ertainty, para onvexos en
general. Realmente esto es lo que intentan Klir y Wierman on su fun ión HL, a la que llaman
amplia ión de la medida de Hartley, origen de la U-un ertainty, pero quizás sin tanto éxito.
In luso para demostrar la aditividad parten de una deni ión de independen ia muy bási-
a: suponen el onvexo omo produ to de n intervalos y no omo produ to de dos onvexos
ualesquiera o en su aso del as o onvexo de ambos, que es bastante más omplejo y general
de apli ar. En el apartado 3.6 veremos las deni iones de independen ia y la veri a ión de
la aditividad de fun iones de in ertidumbre planteadas en este trabajo, según una deni ión
u otra.
116 Capítulo 3. Medidas de incertidumbre para conjuntos convexos de distribuciones de probabilidad
3.5.2. Máxima diferen ia de entropías
La máxima diferen ia de entropías puede servirnos omo medida de no-espe i idad. No-
sotros hemos estudiado su omportamiento y hemos determinado el onjunto de propiedades
que veri a. La notaremos omo
G∗ −G∗ : Pn → [0, log(n)],
donde Pnes onjunto de los onjuntos onvexos de dimensión n, G∗(C) es el máximo de la
entropía del onvexo C y on G∗(C) expresaremos al mínimo de la entropía del onvexo C.
Se trataría de resolver dos problemas de programa ión no lineal, aparentemente similares,
uya solu ión no es sen illa en la mayoría de los asos.
Esta fun ión no tiene el problema del volumen que anteriormente analizamos puesto que
es diferen ia de dos fun iones ontinuas y por tanto es ontinua, y tampo o nos o asiona
problemas on la diferen ia de dimensiones omo se vio on la anterior fun ión. Sin embargo,
en ontramos algún problema a la hora de observar las no-espe i idades de onjuntos similares
a los del ejemplo 3.2 que son de tamaño exa tamente igual y sólo hay varia ión en uanto
su posi ión respe to a la probabilidad uniforme, pero la máxima diferen ia de entropías es
bastante diferente en ambos onjuntos onvexos. La del primero es de 0.95 y la del segundo
0.15, lo que nos ha e pensar en un omplemento que poten ie bastante la situa ión del onjunto
on respe to a la probabilidad uniforme, para arreglar este problema.
Es una diferen ia demasiado grande pues si añadimos, a esta fun ión, el máximo de la entro-
pía omo fun ión entópi a bien estable ida, para obtener una medida de in ertidumbre total,
nos quedaría 1.90 para el primero y 1.25 para el segundo. Por lo que tiene más in ertidumbre
el primer onjunto, lo que no pare e lógi o.
Otro punto en ontra de esta máxima diferen ia lo podemos en ontrar en aquellos ejemplos
en los que se al anza la mayor diferen ia de entropías posible. El onvexo del ejemplo 3.8
obtiene el mayor valor posible de la diferen ia de entropías, es más, ualquier onvexo que
ontenga al segmento denido por los vérti es (1, 0, 0); (13 , 1
3 , 13) tendría el mismo valor. El
problema seria similar al anterior. Sería muy difí il en ontrar el omplemento para obtener
una medida de in ertidumbre total.
3.5. Medidas de no-especificidad 117
3.5.2.1. Propiedades
Aunque hemos visto que esta fun ión intuitivamente no fun iona de la forma que bus a-
mos, sin embargo, es una fun ión que veri a un onjunto muy interesante de propiedades
matemáti as bási as de las medidas de no-espe i idad.
Hasta ahora no se ha trabajado on la máxima diferen ia de entropías, quizá por la di-
ultad de tratar on otro problema de programa ión no lineal omo es el aso del mínimo
de un onjunto onvexo, aunque demostraremos que éste se en uentra en un vérti e, por lo
que su ál ulo es bastante más sen illo que el del máximo. Nosotros hemos introdu ido la
máxima diferen ia de entropías, por primera vez, y hemos omprobado que matemáti amente
es bastante orre ta.
Vamos a ver una serie de propiedades que veri a el mínimo de la entropía, puesto que
el máximo ya fue analizado en la se ión anterior. Veremos antes un lema que utilizaremos
también más adelante.
Lema 3.2 Sea q distribu ión de probabilidad sobre X nito tal que q =∑m
i=1 αipi, on piidistribu iones de probabilidad sobre X, αi ≥ 0 y
∑i αi = 1, enton es
H(q) ≥ mınj
H(pj)
Demostra ión: Al ser la fun ión H onvexa tenemos que
H(q) ≥m∑
i=1
αiH(pi) ≥m∑
i=1
αi[mınj
H(pj)] =
mınj
H(pj)
m∑
i=1
αi = mınj
H(pj)
La fun ión mínimo de la entropía para onjuntos onvexos, G∗, veri a las siguientes pro-
piedades:
(1) Tiene rango en [0, log |X|]Al anzando di hos extremos en las probabilidades degenerada y uniforme respe tivamente.
(2) Es monótona de re iente.
C ⊆ C ′ =⇒ G∗(C) ≥ G∗(C ′)
118 Capítulo 3. Medidas de incertidumbre para conjuntos convexos de distribuciones de probabilidad
(3) Es una fun ión ontinua.
De forma similar a G∗
(4) Es aditiva
Demostra ión: Si hay independen ia fuerte tenemos que C = CH(CX ×CY ), on C onjunto
onvexo sobre X × Y , X,Y nitos y CX , CY sus marginales sobre X,Y respe tivamente.
Sea p = pX · pYdistribu ión de probabilidad sobre X × Y on G∗(CX) = H(pX) y G∗(CY ) =
H(pY ). Tenemos que p ∈ C por la hipótesis de independen ia fuerte, enton es
G∗(C) ≤ H(p) = H(pX) + H(pY ) = G∗(CX) + G∗(CY )
Para demostrar la otra desigualdad partimos de que el mínimo de la entropía de un onvexo
se en uentra en uno de los vérti es, simplemente apli ando el resultado del lema 3.2. Ahora
tenemos que CH(CX ×CY ) es el onjunto de las ombina iones onvexas de los produ tos de
los vérti es de CX por los de CY
CH(CX × CY ) = pXi · pY
j i,j
on PXi nX
1 los vérti es de CX y P Yj nY
1 los vérti es de CY . Por tanto, si llamamos G∗(C) =
H(p), tenemos que p ∈ CH(CX × CY ) por hipótesis, luego apli ando el lema 3.2 tenemos:
G∗(C) = H(p) ≥Mini,jH(pXi · pY
j ) ≥ G∗(CX) + G∗(CY ),
teniendo en uenta en este último paso que H(pXi · pY
j ) = H(pXi ) + H(pY
j ), para ualquier
pareja de probabilidades sobre X e Y .
(5) No es subaditiva
Considerando el siguiente ontraejemplo:
Ejemplo 3.12 Sea el onjunto C sobre X × Y on X = x1, x2 e Y = y1, y2,
C = CH((0.5, 0.5, 0, 0); (0.5, 0, 0.5, 0); (0.5, 0, 0, 0.5)),
donde se ordenan las probabilidades omo (p11, p12, p21, p22). Tenemos que
CX = CH((0, 1); (0.5, 0.5))
3.5. Medidas de no-especificidad 119
y
CY = CH((0, 1); (0.5, 0.5)),
on lo que
log(2) = G∗(C) ≥ G∗(CX) + G∗(Cy) = 0 + 0.
(6) No es superaditiva
Basta on pensar en un onvexo formado sólo por una distribu ión de probabilidad, pues la
entropía de una distribu ión de probabilidad es siempre menor o igual que la suma de las
entropías de sus marginales.
Después de ver las propiedades de G∗ y ono iendo ya las de G∗tenemos que la fun ión de
no-espe i idad sobre onjuntos onvexos sobre un onjunto nito X, dada por G∗−G∗ tiene
las siguientes propiedades:
(1) Tiene rango en [0, log |X|]
(2) Es monótona re iente.
puesto que si C ⊆ C ′tenemos que
G∗(C) ≤ G∗(C ′),
G∗(C) ≥ G∗(C ′)
y restando tenemos
G∗(C)−G∗(C) ≤ G∗(C ′)−G∗(C′).
(3) Es ontinua.
Al ser diferen ia de dos ontinuas.
(4) Es aditiva
Al ser diferen ia de dos aditivas.
Por tanto la diferen ia de entropías satisfa e las propiedades bási as que debe satisfa er una
fun ión de no-espe i idad sobre onjuntos onvexos.
120 Capítulo 3. Medidas de incertidumbre para conjuntos convexos de distribuciones de probabilidad
Existe una gran diferen ia entre el ál ulo de G∗y el de G∗. Como sabemos, existen al-
goritmos que al ulan G∗para eviden ias y para intervalos de probabilidades, omo el que
presentamos en la subse ión 3.3, pero no hay algoritmos para el ál ulo de G∗. La gran ven-
taja de éste frente al del máximo es que G∗puede en ontrarse en ualquier punto del onvexo,
lo que di ulta su búsqueda, pero G∗ se en uentra en uno de los vérti es del onvexo por lo
que se redu e el problema al ál ulo de estos. En Mattheiss y Rubin [71 tenemos una amplía
exposi ión de los métodos que nos permiten en ontrar los vérti es de ualquier poliedro. Sólo
tenemos que omparar las entropías de un número nito de puntos, en nuestro aso. Es eviden-
te la obten ión de este resultado a partir del lema 3.2, pero vamos a expresarlo formalmente
en la siguiente propiedad:
Proposi ión 3.6 Sea C onjunto onvexo sobre el onjunto nito X. Enton es G∗(C) se
en uentra en H(p), donde p es un vérti e de C.
Demostra ión: Supongamos que no se en ontrase en un vérti e G∗(C) = H(p′) on p′ no
vérti e. Enton es
p′ =
m∑
i=1
αipi,
donde pi son los vérti es de C, αi ≥ 0 y
∑i αi = 1, además p′ 6= pi para ualquier i. Ahora
apli ando el lema 3.2 tenemos
H(p′) ≤ mınj
H(pj)
por lo que H(p′) = H(pr) para algún r. Contradi iendo que el mínimo no se en uentra en un
vérti e.
3.5.3. Amplia ión de la U-un ertainty
La máxima diferen ia de entropías de las probabilidades de un onjunto onvexo pare e
fun ionar matemáti amente bien, pero omo vimos hay ejemplos en los que su uso no pare e
muy intuitivo.
Nosotros hemos bus ado una medida de no-espe i idad para onjuntos onvexos sin dejar
de pensar en el buen fun ionamiento de la medida de Dubois y Prade en la teoría de la
eviden ia, por lo que nos mar amos el generalizar ésta y estudiar sus propiedades, Abellán y
Moral [2.
3.5. Medidas de no-especificidad 121
x2x1
x3
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
Figura 3.13: Conjunto convexo C
Con el n de obtener di ha generaliza ión o en otro aso otra buena medida de no-
espe i idad, nos mar amos el estudiar el valor de esta medida que deberían tener los onjuntos
onvexos sen illos que no provienen de eviden ias, tales omo el que proviene de las ombina-
iones onvexas de los vérti es en IR3:
(0.5, 0.5, 0); (0.5, 0, 0.5)(0, 0.5, 0.5),
al que llamaremos C y que podemos ver en la gura 3.13.
Si al ulásemos la no-espe i idad de C utilizando la máxima diferen ia de entropías ob-
tendríamos un valor de log(3)− log(2), igual que para el onjunto determinado por las ombi-
na iones onvexas de (0, 0.5, 0.5) y (13 , 1
3 , 13) lo que no pare e muy oherente, pues pare e que
hay menos in ertidumbre en este último porque el onjunto x2, x3 tiene más probabilidad,
mientras que en C todo queda más equiprobable. De he ho, este último onjunto está in luido
en C.
Analizando en la teoría de la eviden ia el fun ionamiento de la fun ión I, obtenemos algunos
resultados uriosos. Es ono ido que las eviden ias produ en onjuntos onvexos on aras
paralelas a los lados del poliedro probabilísti o. Teniendo en uenta esto y la propia expresión
de la fun ión I vamos a estudiar los onvexos, pro edentes de varias a.b.p., en el siguiente
ejemplo:
122 Capítulo 3. Medidas de incertidumbre para conjuntos convexos de distribuciones de probabilidad
x2x1
x3
x2x1
x3
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
C
C
1
2
Figura 3.14: Conjuntos convexos asociados a los convexos C1 y C2 del ejemplo 3.13
Ejemplo 3.13 Sean las a.b.p. m1,m2,m3y m4
siguientes sobre X = x1, x2, x3 tales que:
m123 = 0.5, m1
123 = 0.5,
m22 = 0.5, m2
123 = 0.5,
m313 = 0.5, m3
23 = 0.5,
m42 = 0.5, m4
13 = 0.5.
Los onjuntos onvexos aso iados, que podemos ver en las guras 3.14 y 3.15, vienen de-
terminado por los vérti es
C1 = 〈(0.5, 0.5, 0); (0, 1, 0); (0, 0, 1); (0.5, 0, 0.5)〉,
C2 = 〈(0.5, 0.5, 0); (0, 1, 0); (0, 0.5, 0.5)〉,
C3 = 〈(0.5, 0.5, 0); (0.5, 0, 0.5); (0, 0.5, 0.5); (0, 0, 1)〉,
C4 = 〈(0.5, 0.5, 0); (0, 0.5, 0.5)〉.
Tenemos que se veri a que
I(m1) = I(m2) + I(m3)− I(m4)
on
I(m1) =1
2log(3) +
1
2log(2),
I(m2) =1
2log(3),
I(m3) = log(2),
3.5. Medidas de no-especificidad 123
x2x1
x3
x2x1
x3
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
3
4
C
C
Figura 3.15: Conjuntos convexos asociados a los convexos C3 y C4 del ejemplo 3.13
I(m4) =1
2log(2).
Pero si tenemos en uenta los onvexos aso iados, onsiderando I(m) ≡ I(Cm), tenemos que:
I(C2 ∪ C3) = I(C2) + I(C3)− I(C2 ∩ C3),
expresión que on uerda on la propiedad de medida aditiva.
Este resultado no es úni o. En todos los ejemplos que hemos probado también se veri a.
El problema se basa solamente en en ontrar dos onvexos que pro edan de eviden ias uya
unión sea también un onjunto onvexo. Nosotros no nos hemos parado a demostrar de forma
teóri a este resultado pero si nos sirve omo referen ia para nuestro objetivo. Este resultado
queda pendiente de estudiar en el futuro.
Esta propiedad nos puede ayudar a en ontrar el valor de la no-espe i idad de C utilizando
la fun ión I.
Ejemplo 3.14 Sean las a.b.p. m′2y m′4
siguientes sobre X = x1, x2, x3 tales que:
m′23 = 0.5, m′2
123 = 0.5
m′43 = 0.5, m′4
12 = 0.5
Los onjuntos onvexos aso iados, que podemos ver en la gura 3.16, vienen determinado
por los vérti es
C ′2 = 〈(0.5, 0, 0.5); (0, 0, 1); (0, 0.5, 0.5)〉,
124 Capítulo 3. Medidas de incertidumbre para conjuntos convexos de distribuciones de probabilidad
x2x1
x3
x2x1
x3
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxx
C’C’
24
Figura 3.16: Conjuntos convexos asociado a los convexos C ′2 y C ′4 del ejemplo 3.14
y
C ′4 = 〈(0.5, 0, 0.5); (0, 0.5, 0.5)〉,
Además I(C ′2) = I(C2) y I(C ′4) = I(C4)
Ahora utilizando la propiedad anterior, tendríamos que
I(C3) = I(C) + I(C ′2)− I(C ′4),
por lo que despejando obtenemos
I(C) =3
2log(2) − 1
2log(3).
Otra interesante ara terísti a de la fun ión I la podemos ver en la siguiente propiedad
Proposi ión 3.7 Sean m,m′y m′′
a.b.p. sobre un onjunto nito X tales que m = αm′ +
(1− α)m′′, tenemos que I(m) = αI(m′) + (1− α)I(m′′), on α ∈ [0, 1]
Esta propiedad tiene fá il demostra ión por la forma de la fun ión I.
Veamos algunos ejemplos:
Ejemplo 3.15 Sean las a.b.p. m′y m′′
siguientes sobre X = x1, x2, x3 tales que:
m′123 = 1,
3.5. Medidas de no-especificidad 125
m′′2 = 1.
Tenemos que se veri a que
I(C2) =1
2I(C ′) +
1
2I(C ′′),
al ser m2 = 12m′ + 1
2m′′, on m2
la del ejemplo 3.13
Ejemplo 3.16 Sean las a.b.p. m′y m′′
siguientes sobre X = x1, x2, x3 tales que:
m′13 = 1,
m′′23 = 1.
Tenemos que se veri a que
I(C3) =1
2I(C ′) +
1
2I(C ′′, )
al ser m3 = 12m′ + 1
2m′′, on m3
la del ejemplo 3.13
Ejemplo 3.17 Sean las a.b.p. m′y m′′
siguientes sobre X = x1, x2, x3 tales que:
m′12 = 1,
m′′2 = 1.
Tenemos que se veri a que
I(C4) =1
2I(C ′) +
1
2I(C ′′, )
al ser m4 = 12m′ + 1
2m′′, on m4
la del ejemplo 3.13
Es otra propiedad que será interesante estudiar en el futuro para onjuntos onvexos en
general.
Ahora, la onjun ión de estas dos propiedades nos ha e pensar en el estudio de una posible
teoría de des omposi ión de onvexos en la teoría de la eviden ia, que se podría trasladar a
teorías más generales. Partiría de la determina ión de onjuntos irredu ibles y nos llevaría a
poder al ular las medidas que nos interesan sobre ualquier onvexo a partir de su des om-
posi ión en irredu ibles. Si se lograse esto, los valores de in ertidumbre no variarían al utilizar
126 Capítulo 3. Medidas de incertidumbre para conjuntos convexos de distribuciones de probabilidad
una teoría u otra, es de ir, se respetaría el prin ipio de in ertidumbre invariante que vimos en
el primer apítulo. También este estudio quedará para momentos posteriores.
Volviendo al estudio de I en la teoría de la eviden ia, vimos que ésta se dene dire tamente
sobre las masas m(A), A ⊆ X. Éstas a su vez están rela ionadas on la fun ión Bel de forma
que
Bel(A) =∑
B⊆A
m(B),
m(A) =∑
B⊆A
(−1)|A−B|Bel(B),
o sea que son inversas de Möbius, Chateauneuf y Jaray [17.
Además podemos observar, teniendo en uenta el onvexo que genera una a.b.p. m, Cm,
que:
Bel(A) = inf p∈Cmp(A)
Si realizamos esta opera ión sobre ualquier onvexo, podemos obtener una fun ión similar
Bel, que podemos llamar dire tamente f , tal que
f(A) = inf p∈Cp(A),
donde está fun ión f es una apa idad, Chateneu y Jaray [17. Evidentemente, si C es un
onvexo que viene de una eviden ia enton es f = Bel.
Ahora, al ulando su inversa de Möbius, llamémosle m también tenemos:
m(A) =∑
B⊆A
(−1)|A−B|f(B),
f(A) =∑
B⊆A
m(B),
donde m ahora no tiene por qué ser una a.b.p., es de ir, puede tener valores negativos.
Vamos a denir formalmente los on eptos anteriores y después veremos un ejemplo.
Deni ión 3.5 Llamaremos fun ión apa idad de un onjunto onvexo C sobre un onjunto
nito X, a la fun ión fC obtenida a partir de C mediante la expresión:
fC : ℘(ΩX)→ IR
fC(A) = inf p∈C p(A)
3.5. Medidas de no-especificidad 127
Deni ión 3.6 A la fun ión m obtenida a partir de fC , on respe to a un onjunto onvexo
C sobre un onjunto nito X, por inversión de Möbius, se llamará distribu ión de masas de
C. A los onjuntos A tales que m(A) 6= 0 se le llamará onjuntos fo ales de m.
m : ℘(ΩX)→ IR
m(A) =∑
B⊆A
(−1)|A−B|fC(B),
Por la propia deni ión de m o urre que también
∑A⊆℘(Ω) m(A) = 1 al ser f(X) = 1.
Ejemplo 3.18 Para el onjunto onvexo C tenemos:
f(xi) = 0,∀i ∈ 1, 2, 3,
f(xi, xj) = 0.5,∀i ∈ 1, 2, 3,
f(x1, x2, x3) = 0.5
Con lo que obtenemos
m(xi) = 0,∀i ∈ 1, 2, 3,
m(xi, xj) = 0.5,∀i ∈ 1, 2, 3,
m(x1, x2, x3) = −0.5
De la misma forma que se ha e para eviden ias abreviaremos notando
m(xi) = mi,
m(xi, xj) = mij ,∀i, j ∈ 1, 2, 3,
m(x1, x2, x3) = m123.
Como hemos visto, obtenemos valores negativos que no apare ían en la teoría de la evi-
den ia. Estos valores representan el ex eso de apoyo positivo que obtienen los sub onjuntos
de uno dado. Visto desde el punto de vista de la deni ión de una a.b.p. en la teoría de la
eviden ia, tendría el siguiente sentido: si la eviden ia disponible nos lleva a repartir pesos entre
los sub onjuntos de un onjunto determinado de forma que la suma fuese mayor que uno, ésta
128 Capítulo 3. Medidas de incertidumbre para conjuntos convexos de distribuciones de probabilidad
se debería ompensar quitando masa al onjunto que los ontiene. Es de ir, en el aso de C
tendríamos que las masas de mij son todas iguales e igual a 0.5, on lo que la suma de las
masas sería de 1.5. Si estamos en la teoría de la eviden ia una posible solu ión sería normalizar
estas y obtener la eviden ia mij = 13 . Pero la idea que onlleva una asigna ión de masas de un
onjunto onvexo va más allá, ompensa el ex eso pero sin rebajar la masa a ninguno de los
onjuntos itados, simplemente dando masa negativa al super onjunto que los ontiene.
De forma inversa, si tenemos una asigna ión de masas m podemos obtener, al igual que
ha íamos en la teoría de la eviden ia, el onjunto onvexo de donde parte, siguiendo el siguiente
pro edimiento:
Sea X = x1, x2, . . . , xn, sea Sn el espa io de las permuta iones de n elementos, (σi) ∈ Sn,
on i ∈ 1, 2, . . . , n!, ada una de ellas y σji su omponente j−ésima. Enton es tenemos un
total de n! vérti es, uno para ada permuta ión, estable idos de la siguiente forma:
σi → (pσ1i, pσ2
i, . . . , pσn
i)
donde
pσ1i
=∑
A|σ1i∈A
m(A)
pσ2i
=∑
A|σ2
i∈ A
σ1
i/∈ A
m(A)
. . . . . .
pσn−1i
=∑
A|σn−1
i∈ A
σn−2
i/∈ A
. . .
σ1
i/∈ A
m(A)
pσni
= m(xσni)
Puede o urrir que el onjunto obtenido sea mayor que el que teníamos originalmente, o
di ho de otra forma, puede haber mas de un onjunto onvexo posible ompatible on una
asigna ión de masas determinada, omo podemos ver en el siguiente ejemplo.
Ejemplo 3.19 Sea el onjunto onvexo C sobre X = x1, x2, x3, determinado por los vér-
ti es (0, 0, 1); (0.5, 0.5, 0), que podemos ver en la gura 3.17. Si obtenemos su asigna ión de
3.5. Medidas de no-especificidad 129
masas orrespondiente
tenemos que m13 = m23 = 0.5 y para el resto 0. Si se pro ede a obtener el onvexo a partir de
estos valores, Cm, obtenemos el onvexo determinado por los vérti es
(0.5, 0.5, 0); (0, 0.5, 0.5); (0, 0, 1); (0.5, 0, 0.5),
que podemos ver también en la gura 3.17 y que amplía notablemente al anterior.
x2x1
x3
x2x1
x3
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
C
Cm
Figura 3.17: Conjuntos convexos asociado a los convexos C y Cm del ejemplo 3.19
Nosotros pensamos que en uanto a la no-espe i idad, no existe ninguna varia ión entre los
dos onvexos del ejemplo anterior puesto que no se añade espe i idad, o sea, no hay diferen ia
de impre isión puesto que si partimos de (0, 0, 1) y (0.5, 0.5, 0) los otros valores de los vérti es
de Cm no añaden impre isión. En C hay una masa de valor 1 que se mueve de x3 a x1 y x2
la mitad a ada uno. En Cm tenemos que movemos la misma antidad de masa de la misma
forma de x3 a x1 y x2 pero podemos ha erlo en más etapas, es de ir, de (0, 0, 1) podemos
pasar a (0, 0.5, 0.5) pasando 0.5 de x3 a x2 y después pasarnos de (0, 0.5, 0.5) a (0.5, 0.5, 0)
pasando 0.5 de x3 a x1. También podemos pasar de (0, 0, 1) a (0.5, 0.5, 0) pasando ahora por
(0.5, 0, 0.5), pasando primero 0.5 de x3 a x1 y después la misma antidad de x3 a x2. Si estamos
llevando la misma antidad de masa entre las mismas variables no añadimos impre isión si lo
realizamos en dos pasos, teniendo en uenta que el máximo traspaso en C y Cm es el mismo.
El problema nos surge al observar el tamaño y dimensión de ambos onjuntos, pero re or-
demos que algo similar o urría en la teoría de la eviden ia al apli ar la fun ión I.
A partir de aquí podemos denir una fun ión general de no-espe i idad sobre onjuntos
onvexos, ampliando la fun ión I de Dubois y Prade, es de ir, la ya ampliada U-un ertainty:
130 Capítulo 3. Medidas de incertidumbre para conjuntos convexos de distribuciones de probabilidad
Deni ión 3.7 Sea C un onjunto onvexo sobre un onjunto nito X y sea m su asigna ión
de masas aso iada. Denimos una fun ión general de no-espe i idad sobre C de la forma
IG(C) =∑
A⊆ΩX
m(A) log(|A|)
Evidentemente IG(C) = IG(Cm) donde Cm es el onjunto onvexo aso iado a la asigna ión
de masas m.
Claro está que IG(Cm) = I(m) uando m es una a.b.p., ompletándose así di ha amplia ión.
Ahora para C tenemos que
IG(C) =3
2log(2)− 1
2log(3)
tal y omo obteníamos de la apli a ión de la propiedad de I
I(C1 ∪ C2) = I(C1) + I(C2)− I(C1 ∩ C2).
En ambio, para el onvexo determinado por los vérti es (13 , 1
3 , 13 ); (0.5, 0.5, 0), que tenía
la misma máxima diferen ia de entropías que C tenemos que al ulando su asigna ión de
masas y posteriormente la fun ión IG tenemos un valor de
13 log(2) < IG(C), lo que es más
razonable.
3.5.3.1. Propiedades
Vamos a utilizar una deni ión de independen ia distinta, la amplia ión de la deni ión
utilizada para a.b.p., motivada por el uso de asigna iones de masas. Veremos en la se ión
5 la rela ión existente entre los tipos de deni iones de independen ia y las fun iones de
in ertidumbre utilizadas.
Previamente vamos a exponer un lema que llamaremos lema de onvexos, que posterior-
mente ne esitaremos, donde veremos la rela ión existente entre los onvexos que se obtienen
al ampliar uno dado por una asigna ión de masas y luego marginalizar y el que se obtiene
inter ambiando del orden de estas opera iones, además se distinguirá entre dos formas de
marginaliza ión. Con este lema quedarán laras las dudas sobre los onvexos que se pueden
obtener por distintos aminos.
Lema 3.3 Sea C un onjunto onvexo sobre X × Y on X,Y nitos. Sea f su fun ión a-
pa idad y m su asigna ión de masas, donde los elementos fo ales de esta son onjuntos de la
3.5. Medidas de no-especificidad 131
forma AX × AY , on AX ⊆ X y AY ⊆ Y . Denotaremos a
↓Xa la marginaliza ión sobre el
onjunto X, así C↓X ≡ CX y m↓X ≡ mX on las nota iones utilizadas hasta aquí. Enton es
podemos obtener los onjuntos onvexos siguientes:
(1) C −→ f ←→ m −→ Cm 7−→ C↓Xm
(2) C 7−→ C↓X = CX −→ fCX←→ mCX
−→ CmCX
(3) C −→ f ←→ m 7−→ mX ←→ fmX−→ CmX
Donde se indi an: C −→ f la opera ión de obten ión de la apa idad aso iada a C; f ←→ m
la obten ión de m la inversa de Möbius de f ; C 7−→ CX y m 7−→ mXlas opera iones de
marginaliza ión, siendo en el aso de m igual que la obtenida para una a.b.p. y nalmente
indi amos por f ←→ m −→ Cm o m ←→ f −→ Cm a la obten ión del onvexo ampliado de
C.
Enton es los onvexos obtenidos de (1), (2) y (3) son iguales
Demostra ión:
(i) C↓Xm = CmCX
Sea p ∈ Cm enton es p↓X ∈ C↓Xm , vamos a ver que p↓X ∈ CmCX
y vi eversa.
Existe la distribu ión de probabilidad qA ∈ Cm para ada A ⊆ X × Y tal que f(A) = qA(A),
enton es
p(A) ≥ qA(A),∀A = AX ×AY ⊆ X × Y
⇐⇒∑
(x,y)∈A
pxy ≥∑
(x,y)∈A
qAxy ⇐⇒
∑
y∈AY
∑
(x,y)∈A
pxy ≥∑
y∈AY
∑
(x,y)∈A
qAxy
⇐⇒ p↓X(AX) ≥ qA↓X(AX) ≥ fCX(AX)⇐⇒ p↓X ∈ CmCX
(ii) CmCX= CmX
Sea p↓X ∈ CmCXenton es tenemos que
p↓X ∈ CmCX⇐⇒ p ∈ Cm ⇐⇒ p(A) ≥ f(A),∀A = AX ×AY ∈ X × Y
⇐⇒ p(A) ≥∑
B⊆A
m(B), B = BX ×BY ∈ X × Y ⇐⇒ (p(A))↓X ≥
∑
B⊆A
m(B)
↓X
⇐⇒ p↓X(AX) ≥∑
BX⊆AX
mX(BX)⇐⇒ p↓X ∈ CmX
132 Capítulo 3. Medidas de incertidumbre para conjuntos convexos de distribuciones de probabilidad
A ontinua ión la deni ión de independen ia, que generaliza la que teníamos para a.b.p.
Deni ión 3.8 Sea C un onjunto onvexo sobre X×Y , on X,Y onjuntos nitos. Sea m la
asigna ión de masas de C on elementos fo ales A×B, on A ⊆ ΩX y B ⊆ ΩY . Sean CX y CY
los onvexos marginales de C sobre X e Y respe tivamente. Diremos que hay independen ia
de masas de X e Y bajo C si y sólo si:
m(A×B) = mX(A) ·mY (B)
on mX y mY las asigna iones de masas de CX y CY respe tivamente.
Propiedades
Con la anterior nota ión IG veri a las siguientes propiedades
Proposi ión 3.8 Vale ero para distribu iones de probabilidad.
Demostra ión: Su demostra ión es inmediata puesto que m(A) = 0 ∀A ⊆ X tal que |A| ≥ 2.
Proposi ión 3.9 Es monótona, es de ir, si C y C ′son dos onjuntos onvexos de distribu-
iones de probabilidad sobre el mismo universal nito X tal que C ⊆ C ′enton es se veri a
que IG(C) ≤ IG(C ′).
Demostra ión: Es onse uen ia inmediata del lema 3.8 del Apéndi e.
Proposi ión 3.10 Está bien denida, IG(C) ≥ 0, ∀C onjunto onvexo de distribu iones de
probabilidad sobre X.
Demostra ión: Por las propiedades 1 y 2 anteriores.
Proposi ión 3.11 Al anza su máximo para la ignoran ia total on rango en [0, ln(n)], donde
n = |X| .
3.6. Aditividad de las funciones de incertidumbre 133
Proposi ión 3.12 Es aditiva, es de ir, sea C un onjunto onvexo de distribu iones de pro-
babilidad sobre un universal nito X×Y tal que halla independen ia de masa bajo C enton es
se veri a que IG(C) = IG(CX) + IG(CY ).
Demostra ión: Es bási amente la misma demostra ión que se realiza para I, Dubois y Prade
[30.
Proposi ión 3.13 Sea C un onjunto onvexo de distribu iones de probabilidad sobre el on-
junto nito X tal que C = αC1 + (1 − α)C2 , on α ∈ [0, 1] y C1, C2 dos onjuntos onvexos
de distribu iones sobre X. Enton es
IG(C) = αIG(C1) + (1− α)IG(C2)
Demostra ión: Usando la nota ión habitual, tenemos que
fC(A) = inf P∈C P (A) = α inf P∈C1P (A) + (1− α)inf P∈C2P (A),
por lo que
mC(A) = αmC1(A) + (1− α)mC2(A),∀A ∈ ΩX
y
IG(C) = αIG(C1) + (1− α)IG(C2)
3.6. Aditividad de las fun iones de in ertidumbre
En los apartados anteriores se ha trabajado on distintas deni iones de independen ia
para demostrar la aditividad de las fun iones G∗, G∗ e IG sobre onjuntos onvexos. Vamos
a dedi ar esta se ión para ver la rela ión existente entre las deni iones de independen ia y
di has fun iones.
Como se puede ver en Couso, Moral y Walley [23, las deni iones de independen ia son
muy variadas y ada una apli able a una situa ión. Nosotros hemos utilizado la deni ión
134 Capítulo 3. Medidas de incertidumbre para conjuntos convexos de distribuciones de probabilidad
de independen ia fuerte (vista anteriormente) y la de independen ia basada en masas ( omo
amplia ión de la denida para eviden ias:
Partimos de C onjunto onvexo sobre X × Y , CX y CY onjuntos onvexos marginales
sobre los onjuntos X e Y nitos.
Deni ión 3.9 Independen ia fuerte
Si C = CH(CX × CY ), donde CH expresa el as o onvexo, diremos que se produ e inde-
penden ia fuerte bajo C.
Deni ión 3.10 Independen ia basada en masas
Sea m la asigna ión de masas del onjunto onvexo C sobre X × Y , on X,Y nitos, es
de ir m(A) =∑
D⊆A(−1)|A−D|f(D) on f(D) = inf p∈C p(D) (inversas de Möbius) y sean
mX y mY las marginales de m sobre X e Y respe tivamente. Enton es diremos que se produ e
independen ia basada en masas bajo C si ∀A×B, A ⊆ X, B ⊆ Y tenemos que
m(A×B) = m(A) ·m(B),
donde m(D) = 0,∀D 6= A′ ×B′ on A′ ⊆ X y B′ ⊆ Y
Notaremos a las deni iones anteriores omo DEF I1 y DEF I2 respe tivamente.
Teníamos que bajo DEF I1 son aditivas G∗y G∗ y bajo DEF I2 es aditiva IG. A ontinua ión
veremos otras impli a iones.
Para ver que IG es aditiva bajo DEF I1, de una forma espe ial omo veremos, ne esitamos
del siguiente lema:
Lema 3.4 Sea C onjunto onvexo sobre X nito y sea f su fun ión de apa idad aso iada de
la forma f(A) = inf p∈Cp(A), on A ⊆ X. Enton es se veri a que di ho inferior se al anza
en un probabilidad extrema de C, es de ir, ∀A ⊆ X, f(A) = pA(A) on pA algún vérti e de C.
Demostra ión: Es evidente puesto que pA es una ombina ión onvexa de los vérti es de C,
vim1 , por lo que pA(A) debe ser mayor o igual que el menor valor del onjunto vi(A)m1 .
Proposi ión 3.14 Sea C = CH(CX×CY ). Sea m la fun ión de masas de C tal que m(D) =
0,∀D ⊆ CX × CY y D 6= A × B on A ⊆ X y B ⊆ Y . Enton es bajo DEF I1 se veri a que
3.6. Aditividad de las funciones de incertidumbre 135
IG es aditiva
IG(C) = IG(CX) + IG(CY )
Demostra ión: Sea m′ = mX ×mY , on mX y mY las marginales de m sobre X e Y respe -
tivamente. Sea f la fun ión apa idad de C y fX y fY las fun iones marginales sobre CX y
CY
f(A×B) = inf p∈Cp(A×B)
fX(A) = inf pX∈CXpX(A)
fY (B) = inf pY ∈CYpY (B).
Previamente demostremos las siguientes impli a iones ne esarias:
(1) m′ = mX ×mY =⇒ f ′ = fX · fY
(2) C = CH(CX ×CY ) =⇒ f = fX · fY
siendo f ′la apa idad aso iada a m′
.
Para demostrar (1) basta on ver lo siguiente:
f ′(A×B) =∑
A′×B′⊆A×B
m′(A×B) =∑
A′⊆A,B′⊆B
mX(A) ·mY (B) =
=∑
A′⊆A
mX(A) ·∑
B′⊆B
mY (B) = fX(A) · fY (B).
Para demostrar (2) ne esitamos usar el lema 3.4 anterior:
f(A×B) = inf p∈C p(A×B) = inf vj∈V(C) vj(A×B),
on V(C) el onjunto de los vérti es de C, pero al ser C = CH(CX × CY ) todos los vérti es
son de la forma ri · sj siendo ri y sj vérti es de CX y CY respe tivamente. Luego
f(A×B) = inf p=ri·sj∈C ri · sj(A×B) = inf p=ri·sj∈C ri(A) · sj(B) =
= inf ri∈CXri(A) · inf sj∈CY
sj(B) = fX(A) · fY (B)
Por tanto, f ′ = f en los onjuntos de la forma A×B de X×Y (en los re tángulos), puesto
que
f ′(A×B) = fX(A) · fY (B) = f(A×B).
136 Capítulo 3. Medidas de incertidumbre para conjuntos convexos de distribuciones de probabilidad
Por tanto, las fun iones de masas m y m′también oin iden:
m(A×B) =∑
A′×B′⊆A×B
(−1)|A×B−A′×B′|f(A′ ×B′) =
=∑
A′×B′⊆A×B
(−1)|A×B−A′×B′|fX(A′) · fY (B′) =
=∑
A′×B′⊆A×B
(−1)|A×B−A′×B′|f ′(A′ ×B′) = m′(A×B)
Por onsiguiente, tenemos que:
IG(C) = IG(Cm) = IG(Cm′) =
= IG(CmX) + IG(CmY
) = IG(CX) + IG(CY ),
utilizando la aditividad de IG bajo DEF I2 y el lema de onvexos.
Proposi ión 3.15 Bajo DEF I2 se veri a que G∗es aditiva
G∗(Cm) = G∗(CmX) + G∗(CmY
)
Demostra ión: Utilizaremos la desigualdad de Gibbs para tener que G∗es subaditiva en el
siguiente sentido:
Supongamos
G∗(Cm) = H(p),
enton es
G∗(Cm) = H(p) =∑
x∈X
∑
y∈Y
pxy log(pxy) ≤∑
x∈X
∑
y∈Y
pxy log(px · py) =
on px y py las marginales de pxy sobre CX y CY respe tivamente,
= H(px) + H(py) ≤ G∗(CmX) + G∗(CmY
)
puesto que G↓Xm = CmX
y G↓Ym = CmY
por el lema de onvexos.
Nos queda demostrar la otra desigualdad: sean G∗(CmX) = H(pX) y G∗(CmY
) = H(pY ),
tenemos que
G∗(Cm) ≥ H(pX · pY ) = H(pX) + H(pY ) = G∗(CmX) + G∗(CmY
)
3.6. Aditividad de las funciones de incertidumbre 137
faltando sólo demostrar que pX · pY ∈ Cm, pero tenemos que es la misma demostra ión que
realizan Harmane y Klir [39 para onvexos provenientes de eviden ias. Simplemente hay que
ambiar Bel por f .
Proposi ión 3.16 Bajo DEF I2 se veri a que
G∗(Cm) ≤ G∗(CmX) + G∗(CmY
)
Demostra ión: Sea H(p1) = G∗(CmX) y H(p2) = G∗(CmY
) por la DEF I2 tenemos que
p1 · p2 ∈ Cm. Ahora
G∗(Cm) ≤ H(p1 · p2) = G∗(CmX) + G∗(CmY
)
La otra desigualdad ne esaria para que G∗ sea aditiva bajo DEF I2 no tiene por qué
veri arse tal y omo podemos ver en el siguiente ejemplo:
Ejemplo 3.20 Sean los onjuntos nitos X = x1, x2 e Y = y3, y4, y sean la a.b.p.
siguientes sobre X e Y respe tivamente:
mX1 = mX
2 =1
4, mX
12 =1
2;
mY3 = mY
4 =1
4, mY
34 =1
2.
Si obtenemos m sobre X × Y tal que m = mX ·mYtenemos que, on la nota ión habitual:
mij =1
16,
mi34 =2
16,
m12j =2
16,
m1234 =4
16,
y
∀i ∈ 1, 2; j ∈ 3, 4.
138 Capítulo 3. Medidas de incertidumbre para conjuntos convexos de distribuciones de probabilidad
Ahora, obteniendo los vérti es de CmX y CmY , así omo los de Cm, tenemos que
G∗(CmX ) = G∗(CmY ) = H(3
4,1
4) = 0.623,
G∗(Cm) = H(12
16,
4
16, 0, 0) = 0.623
Con lo que, bajo DEF I2, tenemos que
G∗(C) < G∗(CmX ) + G∗(CmY ).
Por tanto, sólo IG es una fun ión de no-espe i idad que es aditiva bajo ualquiera de las
deni iones de independen ia, aunque bajo la independen ia fuerte se usa una versión más
débil de esta propiedad omo vimos en la proposi ión 3.14. De todas maneras, pare e que
IG es la mejor forma de medir todo este tipo de in ertidumbre que representa un onjunto
onvexo en general. La fun ión G∗también es aditiva bajo las dos deni iones, sin modi a ión
alguna, reforzándose la idea de que es la medida de in ertidumbre on mejores propiedades
matemáti as.
3.7. Medidas de in ertidumbre total para onjuntos onvexos
Hemos visto que de forma individual ada una de las medidas expuestas anteriormente de
no-espe i idad y entrópi as no son su ientes para medir oherentemente la in ertidumbre.
De alguna manera son medidas que ne esitan omplementarse. Vamos a exponer, al igual que
hi imos para la teoría de la eviden ia, una medida de in ertidumbre total sumando una de
ada tipo anterior para obtener una que puede usarse para medir la in ertidumbre aso iada a
un onjunto onvexo teniendo en uenta tanto la impre isión omo la entropía.
Las prin ipales propiedades que, de a uerdo on todo lo expuesto en puntos anteriores, debe
veri ar una medida de in ertidumbre total para onjuntos onvexos deben ser:
(1) Coin ide on la entropía de Shannon para distribu iones de probabilidad.
(2) Es ontinua.
(3) Es monótona.
3.7. Medidas de incertidumbre total para conjuntos convexos 139
(4) Es aditiva.
Proponemos, por las propiedades de las medidas de entropía y no-espe i idad, las dos
siguientes medidas:
TU1 = G∗ + IG
y
TU2 = G∗ + G∗ −G∗ = 2G∗ −G∗
Como sabemos, sólo la fun ión TU1 es aditiva bajo ualquiera de las dos deni iones de
independen ia expuestas.
Podíamos pensar que queda añadir que fuese subaditiva, pero omo vimos una fun ión de
no-espe i idad para onjuntos onvexos no tiene por qué ser subaditiva, por lo que nos deja la
duda de que lo sea la fun ión total. De he ho, en el ejemplo 3.4 que utilizamos para ver que no
la no-espe i idad no debe ser subaditiva, tampo o lo son las dos medidas de in ertidumbre
total expuestas, pues obteniendo las asigna iones de masas de los onjuntos onvexos, las
fun iones G∗, G∗ e IG tenemos que:
TU1(C) = 1.362 > TU1(CX) + TU1(CY ) = log(2) + 0.611 = 1.304
TU2(C) = 1.328 > TU1(CX) + TU1(CY ) = log(2) + 0.611 = 1.304
Esto no impli a que no se pueda llegar a obtener otra fun ión de in ertidumbre total que
si sea subaditiva, pero de la forma omo nosotros la planteamos es difí il que lo sea, al tener
un fa tor que no tiene que ser subaditivo omo vimos en el ejemplo 3.4.
La fun ión TU1 sigue siendo subaditiva para probabilidades, al ser ero su no-espe i idad
y oin idir on la entropía de Shannon que si lo es. También para eviden ias, pues oin ide
on la fun ión de Maeda e I hihashi [69 en este tipo de onjuntos, donde si veri a di ha
propiedad.
Aunque no sea aditivo, el fa tor Kullba k, visto en el apítulo 2, puede servirnos también
omo omplemento para una medida de in ertidumbre total sobre onjuntos onvexos, donde
también se veri a que es distinta de ero para onjuntos que ontienen a la uniforme y vale
ero para el resto.
Este fa tor distingue, omo sabemos, entre las distintas situa iones de una misma gura que
represente a dos onvexos distintos, ya provengan de eviden ias omo de intervalos o ualquier
otro tipo de onvexos. Podemos ver el ejemplo siguiente un aso de lo que hablamos
140 Capítulo 3. Medidas de incertidumbre para conjuntos convexos de distribuciones de probabilidad
x2x1
x3
x2x1
x3
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
CC
12
Figura 3.18: Conjuntos convexos asociado a los convexos C1 y C2 del ejemplo 3.21
Ejemplo 3.21 Sean los siguientes onjuntos de intervalos de probabilidad sobre la variable
X on valores en ΩX = x1, x2, x3
L =
[1
5,2
5]; [
1
5,2
5]; [
1
5,2
5]
L′ =
[1
3,
8
15]; [
2
15,1
3]; [
2
15,1
3]
L produ e un onjunto onvexo C1 on vérti es
(0.4, 0.2, 0.4); (0.2, 0.4, 0.4); (0.4, 0.4, 0.2)
y L′produ e un onjunto C2 on vérti es
(
8
15,
2
15,1
3); (
1
3,1
3,1
3); (
8
15,1
3,
2
15)
.
Se pueden ver en la gura 3.18.
Si llamamos m,m′a las asigna iones de masas obtenidas de C1 y C2 respe tivamente,
tenemos que
mi = 0.2, mij = 0.2, m123 = −0.2;
m1 =1
3, m2 = m3 =
2
15, mij = 0.2, m123 = −0.2;
∀i, j ∈ 1, 2, 3. Lo que produ e que
IG(C1) = IG(C2) = 0.6 log(2)− 0.2 log(3) = 0.196
G∗(C1) = G∗(C2) = log(3)
3.8. Conclusiones 141
Pero C2 pare e que nos indi a una preferen ia por x1 siendo los onvexos del mismo tamaño,
por lo que intuitivamente debería tener menos in ertidumbre. Apli ando el fa tor Kullba k, K,
a ambos onjuntos tenemos:
K(C1) = 0.010
K(C2) = 0
lo que ya pare e más intuitivo.
En ambio, si apli amos la fun ión TU2 sobre di hos onjuntos tenemos que
TU2(C1) = 2 log(3)− 1.055 = 1.142
TU2(C2) = 2 log(3)− 0.970 = 1.227
y aun apli ando el fa tor K tendríamos que
TU2(C1) < TU2(C2)
lo que no pare e del todo orre to.
Ambas fun iones, TU1 y TU2, son matemáti amente orre tas según las propiedades que
veri an, pero pare e que también le falta algún omplemento para ser intuitivamente a ep-
tables. En el aso de TU1 el fa tor Kullba k puede ser ese buen omplemento, pero en el aso
de TU2 queda pendiente obtenerlo.
3.8. Con lusiones
Partiendo de la teoría de la eviden ia, hemos estudiado los tipos de in ertidumbre en on-
trados en un onjunto onvexo de distribu iones de probabilidad en general, llegando a la
on lusión de que nos en ontramos los mismo tipos que teníamos en la primera. Se han jus-
ti ado ambos tipos de in ertidumbre, entropía y no-espe i idad, a través de ejemplos, en
los que in luso hemos visto que tanto una omo la otra no son válidas de forma individual
para medir toda la in ertidumbre que onlleva representar la informa ión utilizando onjuntos
onvexos en general.
Se han estudiado las propiedades que debe umplir ualquier medida de in ertidumbre
de tipo entrópi o, no-espe í o o global y hemos visto que, en general, deben veri ar las
142 Capítulo 3. Medidas de incertidumbre para conjuntos convexos de distribuciones de probabilidad
propiedades que se veri aban en la teoría de la eviden ia, donde se ampliaba el on epto
de medida de in ertidumbre de la teoría de la probabilidad. Hemos justi ado que sólo la
subaditividad no tiene abida en el onjunto de propiedades bási as que debe umplir una
medida de no-espe i idad para onjuntos onvexos en general, aunque si la tenía en la teoría de
la eviden ia. Pues para onjuntos onvexos nos podemos en ontrar asos, que a nivel parti ular
para eviden ias no son posibles y donde sería una ontradi ión plantearnos tal propiedad.
Después de tener en uenta el origen de la in ertidumbre de tipo entrópi o, se han analizado
medidas de entropía tales omo las del entro de masas y entropía media de los vérti es de un
onjunto onvexo, en ontrando que no veri an la propiedad bási a de la ontinuidad, aunque
tengan un signi ado ade uado. Hemos visto que la amplia ión del máximo de la entropía
de Shannon para onvexos en general umple todas las propiedades bási as de la entropía, lo
que ha e que sea una ex elente medida para tal n. Pensando en la apli a ión de esta medida
sobre onjuntos de intervalos de probabilidad, hemos expuesto un algoritmo que al anza, on
una omplejidad uadráti a, el máximo de la entropía de Shannon para di hos onjuntos de
probabilidades impre isas, al igual que existía en la teoría de la eviden ia.
Análogamente, se han analizado medidas de no-espe i idad, partiendo de su signi ado
para onjuntos onvexos de distribu iones de probabilidad, siguiendo dos aminos posibles:
basarnos en el tamaño del onvexo y en la varia ión entrópi a del onvexo. En uanto al
primer amino, se han visto medidas rela ionadas on el volumen del onjunto onvexo, donde
nos hemos en ontrado on el problema de la no ontinuidad. Hemos analizado la medida
HL, que exponen Klir y Wierman, y hemos visto que umple las propiedades bási as de la
no-espe i idad pero de forma débil. Es una medida que se basa también en la medida de
Lebegue del onvexo. En uanto al segundo amino, hemos visto que la máxima diferen ia de
entropías es una buena medida de no-espe i idad desde el punto de vista matemáti o, pues
umple las propiedades bási as, aunque en el umplimiento de la aditividad depende de la
deni ión de independen ia utilizada. Esta fun ión no tiene un buen omportamiento, pues
hemos visto mediante ejemplos que no es totalmente a eptable su utiliza ión en algunos asos.
Finalmente, siguiendo el prin ipio de in ertidumbre invariante, hemos partido de la medida de
no-espe i idad de Dubois y Prade para la teoría de la eviden ia, que a su vez es amplia ión
de la medida de Hartley, y hemos ampliado ésta para onvexos en general, apoyándonos en
la fun ión inversa de Möbius. Hemos demostrado que esta fun ión es apaz de umplir un
gran número de propiedades bási as para este tipo de fun iones. Nos hemos aprove hado de la
3.9. Apéndices 143
fun ión in rementos nitos para la demostra ión de di has propiedades y hemos des ubierto a
ésta omo una interesante herramienta para tales propósitos, pues también se ha utilizado para
obtener el valor del poliedro probabilísti o, que queríamos usar para normalizar el volumen de
un onvexo. En los apéndi es que vienen a ontinua ión podemos ver el trabajo realizado on
esta interesante fun ión.
Finalmente se han denido fun iones de in ertidumbre total que ne esitaremos utilizar en
el apítulo 5.
A lo largo del apítulo hemos visto que podemos plantearnos interesantes uestiones a la
hora de trabajar on onjuntos onvexos de distribu iones de probabilidad. Es un ampo en el
nos podemos en ontrar grandes posibilidades de trabajo, omo se ha visto en las propiedades
que hemos dejado abiertas para trabajos futuros. Volveremos a enumerarlas en las on lusiones
nales y trabajos futuros de esta memoria.
3.9. Apéndi es
3.9.1. Apéndi e A: Propiedades del operador diferen ias su esivas
Vamos a analizar algunas propiedades del operador diferen ias su esivas sobre una fun ión
real de variable real f , es de ir,
∆k+1h f(x) = ∆1
h(∆khf(x)); h ∈ IR y k ∈ IN
donde ∆1hf(x) = f(x + h)− f(x) y ∆0
hf(x) = f(x)
Lema 3.5 Este operador es lineal, es de ir:
(1) ∆kh [f(x) + g(x)] = ∆k
hf(x) + ∆khg(x).
(2) ∆kh [λf(x)] = λ∆k
hf(x), λ ∈ R.
Lema 3.6 Satisfa e la siguiente igualdad:
∆khf(x) =
k∑
i=0
(−1)k−i(
ki
)f(x + ih)
Demostra ión: Por indu ión sobre k
∆2hf(x) = f(x + 2h) − f(x + h)− (f(x + h)− f(x)) = f(x + 2h) − 2f(x + h) + f(x).
144 Capítulo 3. Medidas de incertidumbre para conjuntos convexos de distribuciones de probabilidad
∆3hf(x) = f(x + 3h)− 2f(x + 2h) + f(x + h)− [f(x + 2h)− 2f(x + h) + f(x)]
= f(x + 3h)− 3f(x + 2h) + 3f(x + h)− f(x).
Ahora,
∆k+1h f(x) = ∆1
h(∆khf(x)) =
k∑i=0
(−1)k−i(ki
)f(x + (i + 1)h) −
k∑i=0
(−1)k−i(ki
)f(x + ih) =
= −(−1)k(k0
)f(x) +
[(−1)k
(k0
)f(x + h)− (−1)k−1
(k1
)f(x + h)
]+
+[(−1)k−1
(k1
)f(x + 2h)− (−1)k−2
(k2
)f(x + 2h)
]+ ... + (−1)k−k
(kk
)f(x + (k + 1)h)
= (−1)k+1(k0
)f(x) + (−1)k+1−1
(k+11
)f(x + h) + (−1)k+1−2
(k+12
)f(x + 2h) + ...+
+(−1)k+1−(k+1)(
k+1k+1
)f(x + (k + 1)h) =
k+1∑i=0
(−1)k+1−i(
k+1i
)f(x + ih).
Lema 3.7 Sea f(x) = ln(x), h = 1 y x ≥ 1, enton es ∆2k1 f(x) ≤ 0 y ∆2k+1
1 f(x) ≥ 0 ∀k.
Demostra ión: Sabemos que las derivadas de f(x) veri an que f (2k)(x) ≤ 0 y f (2k+1)(x) ≥ 0.
Enton es f (2k)es siempre una fun ión ón ava y f (2k+1)
una fun ión onvexa.
Sea g1(x) = ∆21f(x) = f(x + 2) − 2f(x + 1) + f(x). Puesto que f ′′
es fun ión ón ava
tenemos que
1
2f ′′(x + 2) +
1
2f ′′(x) ≤ f ′′(x + 1)
y
g′′1 (x) = f ′′(x + 2)− 2f ′′(x + 1) + f ′′(x) ≥ 0.
Por ello g1(x) es una fun ión ón ava.
Repitiendo el pro eso, tenemos que
g(2k+2)1 (x) =
f (2k+2)(x + 2)− 2f (2k+2)(x + 1) + f (2k+2)(x) ≤ 0, ∀k
y g(2k)1 (x) es una fun ión ón ava.
De la misma forma,podemos denir gj(x) = ∆21gj−1(x) y enton es g
(2k)j (x) serán fun iones
ón avas ∀k y j = 1, 2, ..., donde llamaremos g0(x) = f(x).
Por la propiedad de la on avidad,
∆21f(x) = f(x + 2)− 2f(x + 1) + f(x) ≤ 0
∆41f(x) = ∆2
1g1(x) = g1(x + 2)− 2g1(x + 1) + g1(x) ≤ 0
3.9. Apéndices 145
....................................................................................
∆2k1 f(x) = ∆2
1gk−1(x) = gk−1(x + 2)− 2gk−1(x + 1) + gk−1(x) ≤ 0.
Usando un argumento similar tenemos que g(2k+1)j (x) son fun iones onvexas, ∀k, j, y ade-
más
g(2k+1)j (x) =
g(2k+1)j−1 (x + 2)− 2g
(2k+1)j−1 (x + 1) + g
(2k+1)j−1 (x) ≥ 0.
De aquí obtenemos que g(2k)j son fun iones no de re ientes, ∀k, j.
Naturalmente, si w(x) es una fun ión no de re iente tenemos que ∆11w(x) ≥ 0. Ahora
∆2k+11 f(x) = ∆1
1(∆2k1 f(x)) = ∆1
1(gk−1(x)) ≥ 0
Lema 3.8 . Sean f, f ′dos apa idades monótonas sobre un onjunto nito X. Sean m,m′
sus inversas de Möbius respe tivamente. Si existe A ∈ X tal que f(A) − ǫ = f ′(A) , ǫ > 0, y
f(B) = f ′(B) para B 6= A, enton es
∑
C⊆X
m(C) ln(|C|) ≤∑
C⊆X
m′(C) ln(|C|)
Demostra ión: Es fá il probar que
∑
C⊆X
m′(C) ln(|C|)−∑
C⊆X
m(C) ln(|C|) =
−ǫ∑
C⊇A
(−1)|C−A| ln(|C|).
Si denotamos x = |A| y N = |X| − x, tenemos que:
∑
C⊇A
(−1)|C−A| ln(|C|) =
146 Capítulo 3. Medidas de incertidumbre para conjuntos convexos de distribuciones de probabilidad
N∑
i=0
(−1)i
N
i
ln(x + i) =
(−1)NN∑
i=0
(−1)N−i
N
i
ln(x + i) =
(−1)N∆N1 ln(x),
por el lema 3.6.
Ahora, por el lema 3.7
∑
C⊆X
m′(C) ln(|C|)−∑
C⊆X
m(C) ln(|C|) =
(−ǫ)(−1)N∆N1 ln(x) ≥ 0.
La propiedad de la monotonía de IG es onse uen ia inmediata de este lema 3.8
Para simpli ar usaremos ∆npara expresar ∆n
1 .
Lema 3.9 Sea la fun ión f(x) = xn, enton es
∆kxn+1 = (x + k)∆kxn + ∆k−1xn
Demostra ión: Por el lema 3.6 tenemos
(x + k)∆kxn + ∆k−1xn = (x + k)k∑
i=0
(−1)k−i(
ki
)(x + i)n+
+k
k−1∑
i=0
(−1)k−1−i(
k−1i
)(x + i)n =
usando que k(
k−1i
)=(ki
)(k − i) y sa ando y sa ando fa tor omún tenemos
=k−1∑i=0
(−1)k−i(x + i)n [x + k − (k − i)] + (x + k)(x + k)n =
=k∑
i=0(−1)k−i
(ki
)(x + i)n+1 = ∆kxn+1.
3.9. Apéndices 147
Esta propiedad se puede usar para demostrar que Tk,n+1 = Tk−1,n+kTk,n, on Tk,n = ∆kf(0)k!
números de Stirling.
Lema 3.10 . ∆1(f(x)g(x)) = f(x + 1)∆1g(x) + g(x)∆1f(x)
Demostra ión:
∆1(f(x)g(x)) = f(x + 1)g(x + 1)− f(x)g(x) =
= f(x + 1)g(x + 1)− f(x + 1)g(x) + f(x + 1)g(x) − f(x)g(x) =
= f(x + 1)∆1g(x) + g(x)∆1f(x)
Lema 3.11 ∆n+1xn = 0.
Demostra ión: Usando el lema 3.5 e indu ión sobre n.
Lema 3.12 ∆n−1xn−1 = (n− 1)!
Demostra ión: Por los lemas 3.6 y 3.7
∆n−1xn−1 = (x + n− 1)∆n−1xn−2 + (n− 1)∆n−2xn−2 =
= (n − 1)∆n−2xn−2 = ... = (n − 1)(n − 2)...2∆1x = (n− 1)!
Lema 3.13 (n − 1)! =n∑
i=1(−1)n−i
(n−1i−1
)(i− 1)n−1
Demostra ión: Sea f(x) = xn−1. Enton es por los lemas 3.6 y 3.11 y para x = 0 tenemos:
(n − 1)! = ∆n−1f(0) =n−1∑i=0
(−1)n−1−i(n−1i
)f(i) =
=n−1∑i=0
(−1)n−1−i(n−1i
)in−1 =
n∑i=1
(−1)n−i(n−1i−1
)(i− 1)n−1
148 Capítulo 3. Medidas de incertidumbre para conjuntos convexos de distribuciones de probabilidad
Lema 3.14
n∑i=1
(−1)n−i(i−1)n−1
(n−i)!(i−1)! = 1
Demostra ión:
n∑i=1
(−1)n−i(i−1)n−1
(n−i)!(i−1)! =n∑
i=1(−1)n−i(i− 1)n−1
(n−1i−1
)1
(n−1)! =
= 1(n−1)!
n∑i=1
(−1)n−i(i− 1)n−1(n−1i−1
)= 1,
utilizando el lema 3.6
3.9.2. Apéndi e B: Cál ulo del volumen del poliedro probabilísti o
Presentamos el ál ulo de volumen del n-1 poliedro probabilísti o sobre IRn, es de ir, el
onjunto PPn =
(xi) ∈ IRn |
n∑i=1
xi = 1; xj ≥ 0, ∀j = 1..n
. Apli aremos el algoritmo de
Lawren e [68 que se basa en la rela ión de Gram para politopos onvexos, aunque nosotros la
usaremos sobre poliedros simples.
Puesto que el poliedro probabilísti o en IRntiene dimensión n-1, trabajaremos sobre IRn−1
on la misma métri a y usaremos el algoritmo de Lawren e.
Como hablamos anteriormente, seria natural pensar que la no-espe i idad de un poliedro
onvexo está dire tamente rela ionada on su volumen. Nuestro objetivo aquí será el de al ular
el volumen del poliedro probabilísti o para utilizarlo omo normaliza ión a la hora de expresar
di ho valor.
Algoritmo de Lawren e
Lawren e [68 presenta un algoritmo para al ular el volumen de un poliedro simple basán-
dose en la expresión ombinatoria de la rela ión de Gram para politopos onvexos. Vamos a
resumir este método que posteriormente usaremos.
Sea P ⊆ IRnun poliedro n-dimensional. Sea P el onjunto de solu iones al sistema nito
de desigualdades lineales,
P =x ∈ IRn : ri(x) = at
ix− bi ≥ 0 ; 1 ≤ i ≤ m
,
donde las ai y las bi son número reales. Sea V el onjunto de vérti es de P . Supongamos que
P está limitado y que para ada vérti e v ∈ V , el número de índi es i tal que ri(v) = 0 es n.
Enton es P es un politopo simple. Sea f(x) = ctx + d, on c ∈ IRny d ∈ IR, tal que f no es
onstante sobre ada arista de P.
Para ada vérti e de V , sea
3.9. Apéndices 149
Nv =f(v)n
n!∂vγ1...γn,
donde, si los índi es de la onstru ión anterior que se unen en v son i1, ..., in, enton es γ1, ..., γn
son tales que c = γ1ai1 + γ2ai2 + ... + γnain y ∂v es el valor absoluto del determinante de la
matriz n× n, on olumnas ai1, ..., ain . Enton es el volumen de P es
vol(P ) =∑
v∈V
Nv
Volumen del Poliedro Probabilísti o
Demostraremos que el volumen del poliedro probabilísti o sobre IRnvale
√n
(n−1)! .
Sabemos que el poliedro probabilísti o tiene el siguiente onjunto de vérti es
c1(1, 0, .., 0); c2(0, 1, .., 0); ..; cn(0, 0, .., 1)
que pertene en al hiperplano H : x1 + x2 + ... + xn = 1. Teniendo en uenta que IRnes un
espa io métri o, ha emos un ambio de base para trabajar en H, es de ir, en IRn−1.
Tomamos el siguiente referen ial ortonormal B = uin−11 tal que ui ∈ IRn−1
y
ui =1√
i(i + 1)(−1,−1, ..,−1, i, 0, .., 0),
on el valor i en la posi ión i + 1.
Apli ando el ambio anterior, tenemos los siguientes vérti es de IRn−1
A1(0, 0, 0, .., 0),
A2(2√2, 0, 0, .., 0),
A3(1√2, 2√
6, 0, .., 0),
........................,
Ai(1√2, 1√
6, .., i√
(i−1)i, 0, .., 0) para i ∈ 1, .., n − 1
Esto nos origina el siguiente onjunto de restri iones en R
n−1para el poliedro probabilís-
ti o:
150 Capítulo 3. Medidas de incertidumbre para conjuntos convexos de distribuciones de probabilidad
x1√2
+ x2√6
+ .. + xn−1√(n−1)n
≤ 1
−x1√2
+ x2√6
+ .. + xn−1√(n−1)n
≤ 0
−2x2√6
+ .. + xn−1√(n−1)n
≤ 0
......................−(n−1)xn−1√
(n−1)n≤ 0
Cal ulemos ahora los valores de la expresión de Lawren e.
I. Valores δAi
δAi= |det(C1, .., Ci−1, Ci+1, .., Cn)| = 1√
n, donde Cs ∈ IRn−1
y Cjs es el oe iente de xj en
la anterior restri ión s-ésima.
Podemos observar que los valores δAino dependen de i.
II. Valores f(Ai)
Tomamos f(x) =√
2x1 +√
6x2 + .. +√
(n − 1)nxn−1, para x ∈ IRn−1, y se puede observar
que es no- onstante en ada arista del poliedro probabilísti o.
Enton es f(Ai) = 2i− 2, ∀i = 1, .., n.
III Valores γi
Notemos omo γij, para j = 1, .., n − 1, a los valores γ para el vérti e Ai.
Teniendo en uenta que las restri iones que pasan por el vérti e i son todas las anteriores
ex epto la i-ésima, nos queda que para ada i tenemos:
2
6
.
.
(n− 1)n
=
1 −1 0 . . 0
1 1 −2 . . 0
. . . . . .
1 1 1 . . (n − 1)
γi1
γi2
.
.
γin−1
De aquí tenemos que j(j + 1) =j∑
k=1
γik − jγi
j+1 si j < i y j(j + 1) =j−1∑k=1
γik − jγi
j si
j > i. Esto origina dos progresiones aritméti as, donde podemos al ular que γij = 2(i − j)
si i 6= j y γii = −2 . Finalmente en ontramos que
n−1∏j=1
γij = (−1)n−i2n−1(n− i)!(i − 1)!.
Usando la expresión de Lawren e
Ni =
√n
(n− 1)!
2n−1(i− 1)n−1
(−1)n−i2n−1(n− i)!(i − 1)!, ∀i = 1, .., n,
3.9. Apéndices 151
y
V ol(PP ) =
√n
(n− 1)!
n∑
i=1
(−1)n−i(i− 1)n−1
(n − i)!(i − 1)!=
=
√n
(n− 1)!
n∑
i=1
(−1)n−i
(n− 1)!
n− 1
i− 1
(i− 1)n−1 =
Por el lema 3.14 del Apéndi e A
=
√n
(n− 1)!1 =
√n
(n− 1)!,
omo queríamos demostrar.
152 Capítulo 3. Medidas de incertidumbre para conjuntos convexos de distribuciones de probabilidad
Capítulo 4
Distan ias y medidas de in lusión
sobre onjuntos onvexos de
distribu iones de probabilidad
4.1. Introdu ión
Cuando la informa ión disponible nos ha e elegir un onjunto onvexo de distribu iones de
probabilidad para representarla, pueden surgir situa iones donde di ha representa ión no sea
úni a. En este apítulo queremos modelizar este tipo de situa iones, propor ionando herra-
mientas para omparar las distintas op iones.
Es posible que en ontremos oherentes dos jui ios subjetivos que nos originen onjuntos
distintos a partir de la informa ión disponible. Por ello sería interesante estable er una uan-
ti a ión del pare ido entre distintos tipos de onjuntos onvexos, independientemente de la
que se puede extraer de la diferen ia de la antidad de in ertidumbre que generan, omo ya
hemos visto en el apítulo anterior.
Existen trabajos en la línea de lo que queremos ha er en este apítulo. Trabajos que rela io-
nan el uso de una medida difusa on el de una distribu ión de probabilidad para representar la
informa ión, de Campos [9, y trabajos donde se pretende representar oni tos entre expertos
o fuentes de informa ión que dan lugar a informa iones más impre isas, omo en Walley [101,
Moral y Sagrado [75.
En este apítulo vamos a aproximar una representa ión de informa ión a partir de un
153
154 Capítulo 4. Distancias y medidas de inclusión sobre conjuntos convexos de distribuciones de probabilidad
onjunto onvexo de distribu iones de probabilidad por su distribu ión de probabilidad más
representativa, al igual que ha e de Campos [9 on las representa iones difusas. Pero nuestro
objetivo prin ipal será estable er una distan ia de in onsisten ia, que también podemos onsi-
derar omo un grado de in oheren ia entre dos representa iones distintas a partir de la misma
informa ión. Dos onvexos son oherentes uando tienen alguna probabilidad en omún. Medi-
remos el grado de in oheren ia uando esto no o urre, omo una medida de la distan ia entre
los mismos. Estable eremos una serie de propiedades bási as de este tipo de medidas apa es
de omparar representa iones on interse ión va ía y veremos que el onjunto de este tipo de
medidas es no va ío, por lo que daremos un aso on reto de medida apaz de umplir on las
propiedades que proponemos para este tipo de fun iones.
Cuando las representa iones a través de onvexos de distribu iones de probabilidad son
oherentes, es de ir, tienen elementos omunes, distribu iones de probabilidad en omún, tam-
bién es interesante omparar di has representa iones. Para tener un riterio equivalen ia o
igualdad en la modeliza ión de la informa ión disponible de dos representa iones vamos a
proponer una distan ia informativa, que nos medirá diferen ia de dos representa iones. Pre-
viamente también estable eremos qué medidas pueden onsiderarse omo grados de in lusión
on el n de medir en qué medida una informa ión de una representa ión está ontenida en
la otra. Veremos que propiedades deben veri ar este tipo de medidas y que existen fun iones
para tal objetivo. Veremos que basándonos en un fun ión grado de in lusión el onjunto de
distan ias informativas es también no va ío.
En la se ión segunda expondremos un onjunto de distan ias sobre IRny sus adapta io-
nes para trabajar on probabilidades on valores en un rango determinado. Las ne esitaremos
posteriormente para estable er distan ias e índi es. En la se ión ter era al ularemos la pro-
babilidad más representativa de un onjunto onvexo de distribu iones de probabilidad, que
puede utilizarse para representarlo a su vez en el aso de querer transformar un onvexo de
probabilidades en una úni a distribu ión para apli ar las herramientas de la teoría de la pro-
babilidad. En la se ión uarta deniremos el primer tipo de distan ia entre onvexos, que
también se puede ver omo un grado de in onsisten ia. En la se ión quinta estable eremos
las ondi iones que debe umplir un grado de in lusión entre onvexos. En la se ión sexta
deniremos la segunda distan ia así omo la rela ión de esta medida on las anteriores. En la
se ión séptima proponemos unos ejemplos prá ti os donde al ularemos todo lo anterior para
dos representa iones distintas de la misma informa ión.
4.2. Distancias entre dos probabilidades 155
4.2. Distan ias entre dos probabilidades
Para denir una fun ión distan ia entre dos probabilidades podemos usar las lási as fun-
iones distan ias sobre IRn. Podríamos elegir ualquiera de las siguientes fun iones: sean
x, y ∈ IRn, x = (x1, x2, . . . , xn) , y = (y1, y2, . . . , yn)
(a) dq(x, y) =(∑n
i=1 |xi − yi|q) 1
q, q ≥ 2 que es la distan ia de Minkowski. Y para q = 2 es
la distan ia eu lídea.
(b) dv(x, y) =∑n
i=1 |xi − yi|
( ) dm(x, y) = max1≤i≤n |xi − yi|
Podemos ver en de Campos [9 que se pueden denir fun iones distan ias sobre distribu iones
de probabilidad, on valores entre [0, 1], de la siguiente forma donde p, p′ son distribu iones de
probabilidad sobre IRn,
(a) Dq(p, p′) =(
12
∑ni=1 |pi − p′i|q
) 1q , q ≥ 2
(b) Dv(p, p′) = 12
∑ni=1 |pi − p′i|
( ) Dm(p, p′) = max1≤i≤n |pi − p′i|
4.3. Aproxima ión de un onjunto onvexo de distribu iones de
probabilidad por una distribu ión de probabilidad
Como arma de Campos [9, una forma de estudiar la aditividad que ontiene una re-
presenta ión difusa de la informa ión disponible es al ular uánto diere de su distribu ión
de probabilidad más representativa. También denomina a este ál ulo omo el estudio del
omportamiento aditivo de una representa ión difusa.
Si la probabilidad más representativa fuese su iente, se podría utilizar las herramientas
de la teoría de la probabilidad en ese aso, por lo que los on eptos estudiados en apítulos
anteriores se simpli arían bastante.
Al tener determinado un onjunto onvexo de distribu iones de probabilidad por un on-
junto de vérti es, podemos pensar que la distribu ión de probabilidad más representativa de
éste será aquella que minimize su distan ia a los vérti es. Previamente, ne esitamos denir
una distan ia entre un onjunto onvexo de distribu iones y una probabilidad. Ampliando la
deni ión de distan ia difusa, deniremos:
156 Capítulo 4. Distancias y medidas de inclusión sobre conjuntos convexos de distribuciones de probabilidad
Sea C un onjunto onvexo de distribu iones de probabilidad sobreR
n on vérti es vs , s ∈
1, ...,m y p una distribu ión de probabilidad sobre R
n. Enton es
Dq(C, p) =
(1
2m
m∑
s=1
n∑
i=1
|pi − vsi |q) 1
q
.
Donde denotaremos por pi a p(xi), y análogamente on vs.
Proposi ión 4.1 Sea C un onjunto onvexo de distribu iones on vérti es vs , s ∈ 1, ...,m.Enton es la distribu ión de probabilidad más er ana a C es p tal que
pi =1
m
m∑
s=1
vsi
Demostra ión:
Para mayor simpli idad usaremos la distan ia eu lídea (para otras la demostra ión sería
análoga) y bus aremos la distribu ión p que minimi e
D2(C, p) =
(1
2m
m∑
s=1
n∑
i=1
|pi − vsi |2) 1
2
,
donde p es una distribu ión de probabilidad sobre IRn
Que es lo mismo que minimizar
m∑
s=1
n∑
i=1
|pi − vsi |2
Considerando
f(p1, ..., pn) =
m∑
s=1
n∑
i=1
|pi − vsi |2 ,
pro ederemos a minimizar esta fun ión usando derivadas par iales:
∂f
∂pi= −2
m∑
s=1
(pi − vsi ) = 0.
Así que obtenemos sólo una solu ión:
pi =1
m
m∑
s=1
vsi , s ∈ 1, ...,m
4.4. Distancia de inconsistencia entre dos conjuntos convexos de distribuciones de probabilidad 157
Para probar que es un mínimo, al ularemos el Hessiano usando las derivadas segundas:
∂f2
∂pi∂pj= 0 , i, j ∈ 1, ...,m , i 6= j
∂f2
∂2pi= 2m , i ∈ 1, ...,m
Con lo que
H =
2m 0 . . 0
0 2m . . 0
. . . . .
0 0 . . 2m
,
que es laramente denida positiva.
4.4. Distan ia de in onsisten ia entre dos onjuntos onvexos
de distribu iones de probabilidad
Supongamos que tenemos dos informa iones sobre el mismo su eso representadas por dos
onvexos de probabilidad distintos. Una ondi ión de onsisten ia es que tengan al menos una
distribu ión de probabilidad en omún. Cuando esto no o urre, existen distintos grados de
in onsisten ia. Por ejemplo no debe haber la misma in onsisten ia entres los onvexos C1 y
C2 que entre C1 y C3 de la gura 4.1.
x2x1
x3
x2x1
x3
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
C
C
C
1
2
3
C1
Figura 4.1: Conjuntos convexos con distintos grados de inconsistencia
En esta se ión intentaremos uanti ar el grado de in onsisten ia. Trabajos previos en esta
dire ión pueden en ontrarse en Cano, Moral y Verdegay-López [12, de Campos [9, et ...
158 Capítulo 4. Distancias y medidas de inclusión sobre conjuntos convexos de distribuciones de probabilidad
La forma más sen illa de estable er di ho valor es la de utilizar una distan ia entre proba-
bilidades de los onvexos de las vistas en el apartado 2. El problema prin ipal es el determinar
qué probabilidad o onjunto de probabilidades se toman para tal n.
Vamos a denir una serie de propiedades que estas fun iones deberían umplir. Sea Pnel
onjunto de los onjuntos onvexos de distribu iones sobre IRndeniremos una distan ia de
in onsisten ia entre dos onjuntos C1, C2 ∈ Pn omo: ∂ : Pn × Pn −→ [0, 1], tal que verique
las siguientes propiedades:
I ∂(C1, C2) = ∂(C2, C1), ∀C1, C2 ∈ Pn
II Si C1 ∩ C2 6= ∅ enton es ∂(C1, C2) = 0.
III Si C1 ⊆ C2 enton es ∂(C1, C3) ≥ ∂(C2, C3),∀C3 ∈ Pn.
De aquí
- Si C = C1 ∪C2 es un onjunto onvexo de distribu iones de probabilidad sobre un onjunto
nito X, enton es
∂(C,C3) ≤ max ∂(C1, C3), ∂(C2, C3) ,∀C3 ∈ Pn.
- Si C = C1 ∩ C2 enton es ∂(C,C3) ≥ mın ∂(C1, C3), ∂(C2, C3) ,∀C3 ∈ Pn.
IV Las representa iones por dos distribu iones de probabilidad son in onsistentes, es de ir,
∂(p, q) > 0;∀p, q distribu iones de probabilidad.
V Sea C un onjunto onvexo de distribu iones tal que C = αC1 + (1 − α)C2, α ∈ [0, 1].
Enton es ∂(C1, C) ≤ ∂(C1, C2) y ∂(C2, C) ≤ ∂(C1, C2).
Esta última propiedad nos di e que para ualquier pareja de representa iones, ualquier re-
presenta ión que esté entre ellas, sea ombina ión onvexa de ambas, debe ser siempre más
onsistente on ualquiera de ellas que lo son las dos originales entre si.
Diremos que dos onjuntos onvexos de distribu iones son informatívamente onsistentes
si ∂(C1, C2) = 0. Así que on esta distan ia medimos el grado de in onsisten ia entre dos
representa iones. Podemos demostrar que el onjunto de grados de in onsisten ia es no va ío,
demostrando el siguiente teorema:
Teorema 4.1 La siguiente fun ión es una distan ia de In onsisten ia:
∆(C1, C2) = mınp1∈C1,p2∈C2
d(p1, p2),
on d(·, ·) ualquier fun ión distan ia sobre IRnde las denidas anteriormente.
4.5. Índice de inclusión 159
Demostra ión:
I Evidente a ser una fun ión distan ia sobre IRn.
II Idem I.
III Como C1 ⊆ C2
mınp1∈C1,p3∈C3
d(p1, p3) ≥ mınp2∈C2,p3∈C3
d(p2, p3)
al ser toda p1 ∈ C1 pertene iente a C2.
IV Evidente, al ser dos distribu iones de probabilidad distintas.
V Es su iente on demostrar que ∆(C1, C) ≤ ∆(C1, C2):
Supongamos que ∆(C1, C2) = d(p1, p2) para determinados p1 ∈ C1 y p2 ∈ C2. Enton es
tenemos que:
∆(C1, C2) = d(p1, p2) ≥ d(p1, αp1 + (1− α)p2) ≥ ∆(C1, C).
4.5. Índi e de in lusión
Cuando nos planteamos la deni ión de un índi e de i lusión entre dos onvexos representa-
tivos de la informa ión disponible, nos planteamos además de ver geométri amente uánto hay
de uno dentro del otro, o di ho de otra forma, qué propor ión de probabilidades omparte uno
dentro del otro, rela ionando el grado de in lusión on la no-espe i idad. Geométri amente
esto depende de la posi ión relativa de ambos y del tamaño. Como la forma en que midamos la
in lusión de un onvexo en otro no tiene porque ser úni a, deberíamos estable er previamente
qué ondi iones oherentes debe umplir un índi e de tales ara terísti as.
Un índi e de in lusión se puede denir omo una fun ión de la forma: φ : Pn×Pn → [0, 1],
donde φ(C1, C2) indi a el grado de in lusión de C1 sobre C2, on C1, C2 ∈ Pnque satisfa e
las siguientes propiedades:
I φ(C1, C2) = 0 para representa iones in onsistentes, es de ir, ∂(C1, C2) > 0.
II Si C1 ⊆ C2 enton es φ(C1, C2) = 1
160 Capítulo 4. Distancias y medidas de inclusión sobre conjuntos convexos de distribuciones de probabilidad
III Si C1 ⊆ C2 enton es φ(C3, C1) ≤ φ(C3, C2),∀C3.
De aquí
- Si C = C1∪C2 es un onjunto onvexo de distribu iones sobre un onjunto nito X, enton es
φ(C3, C) ≥ max φ(C3, C1), φ(C2, C3) ,∀C3.
- Si C = C1 ∩ C2 enton es φ(C3, C) ≤ mın φ(C3, C1), φ(C3, C2) ,∀C3.
IV Sea p una distribu ión de probabilidad sobre IRnenton es
φ(C1, p) =
1 si C1 = p
0 si C1 6= p
y
φ(p,C1) =
1 si p ∈ C1
0 si p /∈ C1
V Sea C un onjunto onvexo de distribu iones tal que C = αC1 + (1 − α)C2, α ∈ [0, 1].
Enton es φ(C1, C) ≥ φ(C1, C2)
VI Sea X nito tal que X = X1 ×X2, C1 = C11 × C2
1 y C2 = C12 × C2
2 on C11 , C1
2 onjuntos
onvexos de distribu iones sobre X1 y C21 , C2
2 onvexos sobre X2. Enton es
φ(C1, C2) ≤ φ(C11 , C1
2 ) + φ(C21 , C2
2 )
Evidentemente este grado se mide para representa iones onsistentes, C1, C2. Cuando C1∩C2 =
∅ no tiene sentido su apli a ión y debe valer 0. Por tanto, no onsideraremos el aso de que
ambos onjuntos sean distribu iones de probabilidad distintas, no tiene sentido y rompe un
po o el formalismo planteado
La familia de índi es de in lusión es no va ía:
Teorema 4.2 Sea la fun ión Φ(C1, C2) = IG(C1∩C2)IG(C1) on C1, C2 ∈ Pn
. Enton es Φ es un
índi e de in lusión.
Demostra ión: Asumimos que
00 = 1 para la fun ión IG.
I Si ∂(C1, C2) > 0 enton es C1 ∩ C2 = ∅ y IG(C1 ∩ C2) = 0.
II Si C1 ⊆ C2 enton es IG(C1 ∩ C2) = IG(C1) y Φ(C1, C2) = 1.
III Si C1 ⊆ C2 enton es Φ(C,C1) = IG(C1∩C)IG(C) ≤ IG(C2∩C)
IG(C) = Φ(C,C2), porque IG es un
fun ión monótona re iente omo se vio en el apítulo ter ero, y C1 ∩C ⊆ C2 ∩C.
4.6. Distancia informativa entre dos conjuntos convexos de distribuciones de probabilidad 161
IV Es obvio si asumimos que
00 = 1 para la fun ión IG. El aso de Φ(q, p) on p, q probabili-
dades distintas, al ser p ∩ q = ∅, ya dire tamente son in onsistentes.
V Es inmediata porque C1 ∩ C2 ⊆ C1 ∩ C y IG es una fun ión monótona re iente.
VI Puesto que IG es una fun ión aditiva por el apítulo anterior, tenemos que:
IG(C1, C2) =IG(C1
1 × C21 ∩ C1
2 × C22 )
IG(C11 × C2
1 )=
IG(C11 ∩C1
2 ) + IG(C21 ∩ C2
22)
IG(C11 × C2
1 )=
=IG(C1
1 ∩ C12 )
IG(C11 × C2
1 )+
IG(C21 ∩ C2
2 )
IG(C11 × C2
1 )=
IG(C11 ∩ C1
2 )
IG(C11 ) + IG(C2
1 )+
IG(C21 ∩ C2
2 )
IG(C11 ) + IG(C2
1 )≤
≤ IG(C11 , C1
2 ) + IG(C21 , C2
2 ).
4.6. Distan ia informativa entre dos onjuntos onvexos de dis-
tribu iones de probabilidad
Como men ionamos anteriormente, aquí queremos medir la diferen ia de informa ión omo
un grado de similitud entre dos representa iones onsistentes. Este índi e puede apli arse a
la trasforma ión de onjuntos onvexos que hi imos para obtener una amplia ión de la no-
espe i idad, imponiendo que el onvexo original y el onstruido tengan un alto grado de
similitud.
Puesto que los on eptos anteriores de distan ia de in onsisten ia y de grado de in lusión
entre onvexos entán intrínse amente rela ionados on lo que bus amos, sería posible intentar
denir una distan ia informativa a partir de las propiedades que debería umplir on respe to
a los anteriores. Antes vamos a determinar dire tamente, qué propiedades deben umplir las
fun iones que omparen la igualdad de dos representa iones distintas.
Llamaremos distan ia informativa entre dos onvexos a una fun ión θ : Pn × Pn → [0, 1] ,
tal que verique las siguientes propiedades on C1, C2 ∈ Pn:
I θ(C1, C2) = θ(C2, C1).
II Sea p una distribu ión de probabilidad sobre IRnenton es
θ(p,C1) =
1 if p = C1
0 if p 6= C1
III θ(C1, C1 ∩ C2) ≤ θ(C1, C2)
162 Capítulo 4. Distancias y medidas de inclusión sobre conjuntos convexos de distribuciones de probabilidad
IV Sea C un onjunto onvexo de distribu iones tal que C = αC1 + (1 − α)C2, α ∈ [0, 1].
Enton es θ(C1, C) ≤ θ(C1, C2)
También podemos demostrar que también el onjunto de las distan ias Informativas es no
va ío, demostrando de forma inmediata el siguiente teorema:
Teorema 4.3 . Θ(C1, C2) = 1−mın Φ(C1, C2),Φ(C2, C1) es una distan ia informativa en
Pn × Pn, siendo Φ el índi e de in lusión del teorema 4.2
Demostra ión:
I Inmediata.
II Inmediata.
III
Θ(C1, C1 ∩ C2) = 1−Min φ(C1, C1 ∩ C2), φ(C1 ∩ C2, C1) =
= 1−Min
IG(C1 ∩C2)
IG(C1),IG(C1 ∩ C2)
IG(C1 ∩ C2)
≤
≤ 1−Min
IG(C1 ∩ C2)
IG(C1),IG(C1 ∩C2)
IG(C2)
= Θ(C1, C2).
IV Si IG(C1) ≤ IG(C2) enton es IG(C1) ≤ IG(C) ≤ IG(C2). Puesto que IG(C1 ∩ C) ≥IG(C1 ∩C2), tenemos que
Θ(C1, C) = 1−Min φ(C1, C), φ(C,C1) =
1−Min
IG(C1 ∩C)
IG(C1),IG(C1 ∩ C)
IG(C)
≤
≤ 1−Min
IG(C1 ∩ C2)
IG(C1),IG(C1 ∩C2)
IG(C2)
= Θ(C1, C2).
Y o urre lo mismo si IG(C1) ≥ IG(C2).
4.7. Relaciones y propiedades generales 163
4.7. Rela iones y propiedades generales
Vamos a exponer una serie de rela iones que nos resultan obvias después de omprender
el sentido de las medidas e índi es expuestos anteriormente. De forma inmediata se puede ver
que:
(i) ∂(C1, C2) > 0⇔ φ(C1, C2) = 0⇔ θ(C1, C2) = 1.
(ii) θ(C1, C2) = 0⇔ φ(C1, C2) = φ(C2, C1) = 1.
(iii) φ(C1, C2) > 0⇒ θ(C1, C2) < 1.
Denotando omo C (Pn ) a la familia de distan ias in onsistentes o a la de índi es de in lusión
o de distan ias informativas sobre IRn, las siguientes propiedades son inmediatas:
1. Convexidad: λ ∈ [0, 1] y γ1, γ2 ∈ C (Pn )⇒ λ · γ1 + (1− λ) · γ2 ∈ C (Pn ).
2. γ1, γ2 ∈ C (Pn ) ⇒ γ1 · γ2 ∈ C (Pn ).
3. Si γ ∈ C (Pn ) y ϕ : [0, 1] → [0, 1] es una fun ión no de re iente on ϕ(0) = 0 y ϕ(1) = 1,
enton es ϕ · γ ∈ C (Pn ).
4. γ1, γ2 ∈ C (Pn ) ⇒ mın γ1, γ2 ∈ C (Pn ) y max γ1, γ2 ∈ C (Pn ).
4.8. Ejemplos
Ejemplo 4.1 Usaremos el siguiente ejemplo relativo al resultado de un partido de fútbol
propuesto por Walley [96. Sea Ω = W,D,L el onjunto de los posibles resultados de un
partido de fútbol, donde W se reere a ganar, D a empatar y L a perder. Supongamos que:
(a) D,L es al menos tan probable omo W.
(b) W es al menos tan probable omo D.
( ) D es al menos tan probable omo L.
Como podemos ver en Walley [96, podemos adoptar dos diferentes representa iones de la
informa ión disponible utilizando diferentes herramientas. Se obtienen dos onjuntos onve-
xos o intervalos de probabilidad. Se pueden ver grá amente en la gura 4.2, donde C1 es
el onjunto de ombina iones onvexas de
(12 , 1
2 , 0); (12 , 1
4 , 14); (1
3 , 13 , 1
3), C2 es el onjunto de
ombina iones onvexas de
(13 , 1
3 , 13); ( 5
12 , 14 , 1
3); (12 , 1
4 , 14); (1
2 , 12 , 0); (1
3 , 12 , 1
6)y C1 ⊂ C2. De
164 Capítulo 4. Distancias y medidas de inclusión sobre conjuntos convexos de distribuciones de probabilidad
aquí ∆(C1, C2) = 0 y IG(C1) = IG(C2) = IG(C1 ∩ C2) = 12 ln(2) − 1
12 ln(3) = 0.255 on
Φ(C1, C2) = Φ(C2, C1) = 1 y Θ(C1, C2) = 0.
Ejemplo 4.2 Consideremos el ejemplo 2.7 donde teníamos dos a.b.p. que representaban la
misma in ertidumbre en la teoría de Dempster-Shafer y eran onsistentes. Supongamos que
los hemos obtenido de dos fuentes de informa ión distintas. Las a.b.p. tenían los siguientes
valores sobre el onjunto X = x1, x2, x3 :
m
m123 = 0.4
m1 = 0.2
m2 = 0.2
m3 = 0.2
and m′
m′123 = 0.2
m′23 = (m123−m′
123)ln(3)ln(2) ≃ 0.317
m′1 = m′
2 = m′3 =
(1−m′
123−m′
23)3 ≃ 0.161
Se pueden ver en las guras 2.2 y 2.3. Siendo Cm el onjunto de ombina iones onvexas
de
(0.6, 0.2, 0.2); (0.2, 0.6, 0.2); (0.2, 0.2, 0.6)
y Cm′es el onjunto de ombina iones onvexas de
(0.361, 0.478, 0.161); (0.361, 0.161, 0.478); (0.161, 0.678, 0.161); (0.161, 0.161, 0.678) .
De aquí tenemos que Cm ∩ Cm′es el onjunto de ombina iones onvexas de
(0.2, 0.6, 0.2); (0.2, 0.2, 0.6); (0.361, 0.339, 0.2); (0.361, 0.2, 0.339) .
x2x1
x3
x2x1
x3
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
CC
12
Figura 4.2: Conjuntos convexos coherentes con el ejemplo del fútbol
4.9. Conclusiones 165
Obtenemos:
∆(Cm, Cm′) = 0
IG(Cm) = IG(Cm′) = 0.6 ln(3) = 0.659
IG(Cm ∩ Cm′) = 0.261 ln(3) = 0.287
Φ(Cm, Cm′) = Φ(Cm′ , Cm) = 0.436
Θ(Cm, Cm′) = 0.564
4.9. Con lusiones
En este apítulo hemos omenzado obteniendo, al igual que de Campos [9, la probabili-
dad más representativa de un onjunto onvexo de distribu iones de probabilidad. De alguna
manera, este ál ulo nos puede servir para omparar las teorías que ambos pro edimientos
representan para representar la informa ión disponible en una determinada situa ión.
Como parte esen ial, hemos presentado en este apítulo herramientas que nos sirvan para
omparar representa iones de onjuntos onvexos diferentes, que provengan del mismo origen
de informa ión. Hemos formalizado el on epto que miden o omparan ada una de ellas a
partir de propiedades esen iales según el aspe to al que ha en referen ia. Las herramientas
han sido las siguientes:
- Distan ia de in onsisten ia entre dos onjuntos onvexos. Para medir representa iones de la
informa ión sin elementos omunes, es de ir, medimos la mayor o menor in onsisten ia entre
dos representa iones in onsistentes.
- Índi e de in lusión entre dos onjuntos onvexos. Para ver el grado de in lusión de una re-
presenta ión en otra utilizando onjuntos onvexos. Para ver que parte de la informa ión que
representa un onvexo está englobada en la que representa el otro.
- Distan ia informativa entre dos onjuntos onvexos. Mide la similitud entre dos representa io-
nes onsistentes.
Estas herramientas en realidad representan a familias de fun iones que veri an las on-
di iones de ada una de las herramientas anteriores. Para demostrar que estas familias son
166 Capítulo 4. Distancias y medidas de inclusión sobre conjuntos convexos de distribuciones de probabilidad
no va ías nos hemos ayudado de medidas de in ertidumbre sobre onjuntos onvexos del a-
pítulo 3. Hemos expuesto una fun ión de ada familia y hemos demostrado que veri a las
propiedades esen iales en ada aso.
Finalmente hemos expuesto la rela ión existente entre las familias anteriores y hemos visto
que una no es independiente de las otras, sino que representan on eptos interrela ionados.
Capítulo 5
Constru ión de árboles de
lasi a ión utilizando probabilidades
impre isas
5.1. Introdu ión
La lasi a ión es un problema importante en el ampo del aprendizaje automáti o en el
que la teoría lási a de la probabilidad ha sido usada de forma extensiva. Bási amente, tene-
mos un onjunto de observa iones, llamado onjunto de entrenamiento, y queremos obtener
un onjunto de leyes para asignar a ada nueva observa ión un valor de la variable a lasi ar.
El onjunto usado para veri ar la alidad de este onjunto de leyes se llama también onjun-
to de test. La lasi a ión tiene notables apli a iones en medi ina, físi a, re ono imiento de
ara teres, astronomía, e onomía, et ...Con objetivos tales omo re ono imiento de enferme-
dades, predi iones meteorológi as, on esiones de prestamos, et ... Se trata de apli ar reglas
que permitan aso iar un valor posible de una variable a un nuevo individuo on un onjunto
on reto de valores de otras variables. Los individuos que se analizan, enfermos, situa iones
meteorológi as, ara teres difusos, estrellas o lientes de un ban o, tienen unos valores deter-
minados de unas variables que se pueden apre iar, observa iones, y tratamos de prede ir otro
valor de una variable determinada que llamaremos variable a lasi ar. Para lari ar esto
veamos el siguiente ejemplo.
Ejemplo 5.1 Supongamos que estudiamos de un enfermo las siguientes variables: el nivel de
167
168 Capítulo 5. Construcción de árboles de clasificación utilizando probabilidades imprecisas
al io (Cal io), el tipo de tumor (Tumor), estado de oma (Coma) y presen ia de jaque as
(Jaque as) para ver qué si hay án er o no (Cán er). Partimos de un onjunto de asos (indi-
viduos) de los que tenemos un valor de sus atributos (observa iones) y el valor on reto de la
variable a lasi ar, es de ir, la presen ia o no de án er. Este onjunto de datos, onjunto de
entrenamiento, nos sirve para obtener el onjunto de reglas, siguiendo una losofía u otra de
aprendizaje, que nos llevan a prede ir la presen ia o no de án er de un nuevo enfermo una
vez que obtenemos sus atributos.
En la base de datos de la gura 5.1 tenemos los valores del nivel de al io, tipo de tumor,
estado de oma y presen ia o no de jaque as en enfermos on un determinado tumor, así
omo si ese tumor es o no an erígeno (Can er). Esta base de datos nos sirve para obtener
el ono imiento en forma de árbol que se puede observar en la gura 5.2 para poder obtener
lasi a ión de un aso nuevo de la forma que podemos ven en la gura 5.3
Calcio Tumor Coma Jaquecas Cáncer
normal a1 ausente ausente ausente
alto a1 presente ausente presente
normal a1 ausente ausente ausente
normal a1 ausente ausente ausente
alto ao presente presente ausente
...... ...... ...... ...... ......
Figura 5.1: Base de datos Cáncer
Un lasi ador se puede representar a través de un onjunto dire to de reglas lógi as sin
representa ión grá a o a través de estru turas grá as que dan lugar a las reglas, tales omo:
5.1. Introducción 169
C la s ifica c ió n :au sen te
C la s if ica c ió n :au sen te
C la s if ica c ió n :p resen te
Calcio
Tumora0 a1
normal alto
Figura 5.2: Obtención de un árbol de clasificación
Nuevo caso -Calcio: alto -Tumor: a1,
-Coma: ausente -Jaquecas: presente
Clasificación
Cáncer: presente
C la s ifica c ió n :au sen te
C la s ifica c ió n :au sen te
C la s if ica c ió n :p resen te
Calcio
Tumor
Figura 5.3: Clasificación de un nuevo individuo
170 Capítulo 5. Construcción de árboles de clasificación utilizando probabilidades imprecisas
una red Bayesiana [79, una red neural [22, un árbol de lasi a ión [81, et ... Esta última,
también llamada árbol de de isión, será la estru tura sen illa que nosotros utilizaremos y
que podemos ver en el ejemplo 5.1. Cualquiera de los anteriores lasi adores puede onstar
de dos modelos obtenidos a partir de unos datos de entrada: uno grá o (la estru tura del
árbol) y otro numéri o (los parámetros aso iados a las ramas y a los distintos asos de la
variable a lasi ar). Finalmente la estru tura grá a nos permite realizar la lasi a ión de
un nuevo aso uando éste se presenta, pro eso que podemos llamar de salida. Es posible
obtener el modelo grá o dire tamente solamente on la presen ia de un experto en el tema
que nos on ierne, que sea apaz de estable er la rela ión entre las variables atributos que
estudiamos y la variable a lasi ar para posteriormente lasi ar. O urre que no siempre es
posible la presen ia de éste y aunque sea así, una gran antidad de variables, y por lo tanto
de informa ión, es apa fá ilmente a todo ono imiento humano.
Vamos a ha er una breve des rip ión de los lasi adores expandiendo algo más las estru -
turas que utilizaremos a lo largo de este apítulo.
Reglas lógi as.
Son lasi adores basados en reglas de tipo Si...enton es... que obtenidas a partir de unos
datos de aprendizaje permiten el posterior pro eso de lasi a ión. Un árbol de lasi a ión
se puede interpretar omo una onjun ión de reglas de este tipo apoyado en una estru tura
grá a. Tienen su origen en Mi halski [73
Redes Neuronales
Originado por el algoritmo per eptrón de Rosenblatt [86. Se basa en una estru tura pare-
ida a una red neural biológi a. El modelo onsiste en varios elementos simples (neuronas)
interrela ionados on distintas inuen ias entre ellas.
Redes de reen ia
Como referen ia más importante de este modelo tenemos que itar el libro de Pearl [79. Las
redes de reen ia, también llamadas redes bayesianas, es un buen modelo para representar la
rela ión entre las variables que forman la base de datos de entrada Su estru tura se basa en la
representa ión de las rela iones a través de ar os dirigidos, on los que se expresa las rela iones
de dependen ia. El problema de esta redes para la lasi a ión es que, habitualmente, se
onstruyen para des ribir la muestra de entrada en su onjunto y no tiene en uenta la variable
a lasi ar.
5.1. Introducción 171
No se pensó en su uso omo método de lasi a ión hasta que Duda y Hart [28 utilizan una
red de reen ia sen illa on un por entaje de éxitos muy elevado, el método del Ingenuo Bayes,
ono ido mundialmente, en inglés, omo naive Bayes. Lo vamos a des ribir algo mejor debido
a su importan ia:
Se basa en la independen ia de las variables atributo Xim1 ono ida la variable a lasi ar
C, por lo que puede al ular la probabilidad de ualquier instan ia de las variables Xi dada
la C:
P (X1 = a1,X2 = a2, . . . ,Xn = an|C) =∏
i
P (Xi = ai|C)
apoyándonos en que las probabilidades P (Xi = ai|C) se obtienen por simple fre uen ia de la
base de datos y en el teorema de Bayes que nos permite al ular las probabilidades
P (C = cj |X1 = a1,X2 = a2, . . . ,Xn = an)
para ada valor cj de C dados los valores de los atributos.
La estru tura grá a en la que se basa sería la siguiente: Como se puede pensar la suposi ión
...
C
X XX n21
Figura 5.4: Red de creencia del naive Bayes
de independen ia es algo que no tiene porque darse en la mayoría de los asos, por lo que es
algo po o real, aunque obtenga buenos resultados. La razón de éstos es muy sen illa: omo
172 Capítulo 5. Construcción de árboles de clasificación utilizando probabilidades imprecisas
tiene po os parámetros, éstos se estiman on gran pre isión a partir de la muestra. Modelos
más omplejos pueden propor ionar peores resultados debido a una pobre estima ión de sus
parámetros. Existen varia iones de este método eliminado di ha suposi ión, tales omo los
algoritmos de Cestnik, Kokonenko y Bratko [15, Langley, Iba y Thompson [66, Holte [44,
Langley y Sage [67 , Friedman y Goldszmidt [36.
Árboles de lasi a ión
Tienen su origen en el algoritmo ID3 de Quinlan, Quinlan [81, aunque tenemos también que
remar ar los trabajos de Breiman, Friedman, Olshen y Stone [8.
Como vimos en el ejemplo 5.1 son estru turas fá iles de omprender, en las que en ada nodo
se introdu e una variable atributo en la que se realiza un test que produ e rami a iones
orrespondientes a sus posibles valores, terminado en un nodo hoja donde se introdu e un
valor de la variable a lasi ar. El pro eso de lasi a ión posterior se realiza de la forma
sen illa que vemos en el ejemplo 5.1. En términos generales la rea ión de esta estru tura se
basa en los siguientes puntos:
(i) Determina ión de pro edimiento para elegir el nodo raíz.
(ii) Determina ión del pro edimiento para rami ar así omo el riterio de parada para
determinar que estamos ante un nodo hoja.
(iii) Determina ión del riterio de ele ión del valor de la variable a lasi ar que se introdu e
en un nodo hoja
(iv) Determina ión del pro edimiento de renamiento (poda) en su aso.
Desta amos el algoritmo C4.5, también de Quinlan [82, basado en ID3 que in luye todos los
pro esos anteriormente des ritos y obtiene muy buenos resultados. Este método, que es apaz
de tratar on datos ontinuos, será junto on el ingenuo Bayes uno de los métodos on los que
ompararemos los resultados que obtenemos on los métodos presentados en esta memoria.
Normalmente, estos métodos usan la teoría de la probabilidad para estimar los parámetros,
on un riterio de parada para limitar la omplejidad del lasi ador y anular la dependen ia de
los resultados on el onjunto de datos de entrenamiento, he ho que se denomina normalmente
omo sobreajuste.
Nosotros usaremos la teoría de probabilidades impre isas para onstruir un árbol de lasi-
a ión. Apli aremos árboles de de isión para lasi ar y al igual que Zaalon [110, usaremos el
5.1. Introducción 173
modelo de Diri hlet impre iso para estimar las probabilidades de pertenen ia a las respe tivas
lases denidas por la variable a lasi ar.
Como riterio para determinar el grado de rami a ión del árbol nal usaremos un riterio
de informa ión máxima, basándonos en las medidas para probabilidades impre isas propuestas
en el apítulo 3. Como veremos, este pro edimiento es su iente para evitar el sobreajuste.
Nuestro método original omenzará on un árbol va ío y sele ionará, para rami ar en
ada nodo, la variable que tenga el mayor grado de redu ión de in ertidumbre total on
respe to a la variable a lasi ar. En la teoría de la probabilidad la rami a ión siempre
impli a una disminu ión de la entropía. Así que, es ne esario in luir un riterio adi ional para
no rear modelos ex esivamente omplejos on dependen ia de los datos (sobreajuste). Con los
onjuntos onvexos de probabilidad, una rami a ión produ e usualmente una menor entropía,
pero al mismo tiempo una mayor no-espe i idad. El riterio de parada es muy simple: uando
la rami a ión produz a un aumento de la in ertidumbre (la entropía disminuye pero no se
ompensa on el aumento de la no-espe i idad).
Posteriormente modi aremos el método original. En él omo hemos omentado se bus an
las rela iones de una sola variable de la base de datos on la variable a lasi ar. Se introdu e
la variable que más reduz a la in ertidumbre de la lasi a ión. Si ninguna variable disminuye
la in ertidumbre enton es para. En el segundo método en lugar de bus ar rela iones de una
sola variable, onsideramos también ómo afe tan ada pareja de variables de la base de datos
a la variable a lasi ar. Introdu iendo la variable que de forma aislada o junto on otra
más reduz a la in ertidumbre. De esta manera bus amos rela iones más omplejas que sólo se
pongan de maniesto uando se estudia ómo dos variables de forma onjunta inuyen sobre la
variable a lasi ar, pero que no se pueden des ubrir a partir de ada una de las dos variables
por separado.
En la se ión 5.2 omenzaremos presentando una serie de ono imientos previos que se
ne esitan sobre in ertidumbre y onjuntos onvexos de probabilidades y veremos omo se
obtiene el onjunto onvexo a partir de una muestra utilizando la distribu ión de Diri hlet
impre isa. En la se ión 5.3 des ribiremos dos métodos de obten ión de árboles de lasi a ión
basándonos en probabilidades impre isas, obtenidas a partir de la distribu ión anteriormente
itada y de medidas de in ertidumbre vistas en el apítulo 3, así omo un interesante aso
prá ti o en un ejemplo. En la se ión 5.4 hequearemos nuestro pro edimiento realizando
experimentos on bases de datos onven ionales. Los ompararemos on el Ingenuo Bayes y
174 Capítulo 5. Construcción de árboles de clasificación utilizando probabilidades imprecisas
el C4.5, utilizando las mismas bases de datos on el mismo prepro esamiento para que la
ompara ión sea totalmente orre ta. Veremos que se produ en notables diferen ias, sobre
todo uando nos jamos en el sobreajuste que sufren los demás métodos en la mayoría de
las bases de datos y el que sufren nuestros métodos. La última se ión esta dedi ada a las
on lusiones.
5.2. Exposi ión de los métodos de lasi a ión
5.2.1. El modelo de Diri hlet impre iso
Para la introdu ión de este modelo nos basaremos, de forma abreviada, en la exposi ión
realizada por Walley en [97.
El modelo multinomial
Sea el espa io muestral de un experimento el onjunto Ω = ω1, ω2, . . . , ωk, on k ≥ 2,
exahustivo y mutuamente ex lusivo, por lo que todos los resultados posibles aen dentro de
alguna de las ategorías ωj que no tienen elementos omunes. Podemos onsiderarlo omo un
espa io no jo, englobando en ωk a todo lo no in luido anteriormente. Con lo que las inferen ias
que se hagan posteriormente no dependerán de di ho espa io muestral.
El modelo multinomial se basa en la realiza ión de N observa iones independientes del
onjunto Ω on la misma distribu ión de probabilidad para todas ellas, P (ωj) = θj , para
j ∈ 1, 2, . . . , k, donde θj ≥ 0 y
∑j θj = 1. Llamemos nj al número de observa iones del
valor ωj, por lo que tendremos que
∑j nj = N . Notaremos a los ve tores θ = (θ1, θ2, . . . , θk)
y n = (n1, n2, . . . , nk).
Ahora, el onjunto de variables aleatorias n1, n2, . . . , nk tiene una distribu ión multino-
mial y la fun ión de verosimilitud del ve tor n será:
L(θ|n) ∼∏
j
θnj
j ,
entendiendo el símbolo ∼ omo propor ional.
La distribu ión de Diri hlet
La Distribu ión de Diri hlet se introdu e para representar variables que toman valores entre
ero y uno y uya suma es igual a la unidad, por lo que nos valdría para estimar los valores
de una distribu ión de probabilidad des ono ida.
5.2. Exposición de los métodos de clasificación 175
La distribu ión a priori de Diri hlet de parámetros (s, t) del ve tor θ, donde t = (t1, t2, . . . , tk)
tiene la siguiente forma:
π(θ) ∼∏
j
θstj−1j ,
donde s > 0, 0 < tj < 1, para j ∈ 1, 2, . . . , k, ∑j tj = 1, y la onstante que falta para
obtener el valor de π se obtiene utilizando que la integral sobre todos los valores de θ vale 1.
(Esta no es la expresión normal de la distribu ión de Diri hlet, se debe jar previamente el
valor de s, por lo que normalmente se toman parámetros αj = stj.)
Multipli ando la fun ión de verosimilitud de la multinomial por la distribu ión de Diri hlet
anterior, obtenemos la fun ión de densidad a posteriori de la forma:
π(θ|n) ∼∏
j
θnj+stj−1j ,
que orresponde a una fun ión de distribu ión de Diri hlet de parámetros (N + s, t∗), on
t∗ =nj+stjN+s
. De aquí una de las importantes ventajas del uso de esta distribu ión.
El modelo de Diri hlet impre iso
Se puede denir omo el onjunto de todas las distribu iones de Diri hlet (s, t), tales que
0 < tj < 1, para j ∈ 1, 2, . . . , k, ∑j tj = 1, on s > 0 no dependiente del espa io muestral
Ω. Este onjunto, que se puede denotar omoM0, representa la ignoran ia a priori del valor
del ve tor θ.
El orrespondiente onjunto de distribu iones a posteriori, que se puede notar por MN ,
orresponde a un onjunto de distribu iones de Diri hlet de parámetros (N + s, t∗), on t∗ =nj+stjN+s
on 0 < tj < 1, para j ∈ 1, 2, . . . , k, ∑j tj = 1, omo vimos.
Podemos en ontrar el valor superior e inferior de la distribu ión de probabilidad a poste-
riori para un su eso ualquiera, simplemente optimizando en el onjunto MN . Walley [97,
demuestra que estas inferen ias son oherentes.
Enton es para un su eso Aj que signi a que el valor ωj se produ e en una determinada
prueba, tendríamos los valores extremos de probabilidad siguientes, maximizando y minimi-
zando el valor de t∗:
P (Aj |n) =nj + s
N + s,
P (Aj |n) =nj
N + s,
que se al anzan uando tj −→ 1 y uando tj −→ 0 respe tivamente.
176 Capítulo 5. Construcción de árboles de clasificación utilizando probabilidades imprecisas
Enton es para un su eso ualquiera A, on fre uen ia n(A) =∑
ωj∈A nj, la predi ión de
la probabilidad de A, P (A|n), bajo la distribu ión a posteriori de Diri hlet(N + s, t∗) tiene la
forma:
P (A|n) =n(A) + st(A)
N + s
que produ e las siguientes probabilidades superior e inferior:
P (A|n) =n(A) + s
N + s,
P (A|n) =n(A)
N + s.
El valor del parámetro s tiene ierta ontroversia, Walley lo interpreta omo un número
de observa iones o ultas (o no o urridas) y le da los valores 1 o 2. Como podemos ver de las
expresiones anteriores, s representa el máximo valor que podemos a eptar de la fre uen ia de
un su eso que no o urre. Por ejemplo, si no sabemos el ontenido de una bolsa on bolas de
olores Rojo, Negro y Blan o, y realizamos 10 de extra iones donde no obtenemos ninguna
Blan a, podemos pensar que el valor de s apli ado a este experimento nos daría la probabilidad
superior del su eso orrespondiente a salir bola Blan a, igual a
111 tomando s = 1 y de
212
tomando s = 2. Como vemos on el valor mayor de s obtenemos también una probabilidad
mayor.
5.2.2. Nota iones y herramientas previas
En ualquier problema de lasi a ión debemos onsiderar que tenemos un onjunto de
datos D on los valores de un onjunto L de variables dis retas o dis retizadas Xin1 . Cadavariable tiene omo estados, asos o atributos los pertene ientes a un onjunto nito ΩXi
=
x1i , x
2i , ..., x
|ΩXi |i . Nuestro objetivo será rear un árbol de lasi a ión, a partir de los datos
D, de una variable objetivo C, on estados en el onjunto ΩC = c1, c2, ..., c|ΩC |.
Deni ión 5.1 Sea Xin1 un onjunto de variable dis retas on estados en los onjuntos
nitos ΩXi, respe tivamente. Llamaremos ongura ión de Xin1 a ualquier m-upla, m ≤ n,
de la forma:
(Xr1 = xtr1r1 ,Xr2 = x
tr2r2 , ...,Xrm = xtrm
rm),
donde xtrjrj ∈ ΩXrj
, j ∈ 1, ...,m, rj ∈ 1, ..., n y rj 6= rh on j 6= h. Es de ir, una ongu-
ra ión es un onjunto de valores de algunas de las variables de Xin1 .
5.2. Exposición de los métodos de clasificación 177
En un árbol de lasi a ión simple, donde en ada nodo tenemos una variable y ada rama
representa un valor de esa variable, un nodo determina una ongura ión: la obtenida por
el amino desde el nodo raíz hasta el propio nodo, tomando los valores de ada variable
orrespondientes a la rama que nos lleva el amino.
Deni ión 5.2 Dado un onjunto de datos y una ongura ión σ del onjunto Xin1 onsi-
deramos un onjunto onvexo de probabilidades PσC para la variable C on respe to a σ denido
por el onjunto de distribu iones de probabilidad, p, tal que
pj = p(C = cj) ∈[
nσcj
N + s,nσ
cj + s
N + s
],
para ada j ∈ 1, ..., |ΩC |, obtenida en base al modelo de Diri hlet impre iso, para un estado
genéri o cj ∈ ΩC . Aquí nσcj es el número de o urren ias de la ongura ión σ ∪ (C = cj) (que
es la ongura ión que se obtiene añadiendo a las asigna iones de σ el valor (C = cj)) en la
base de datos, N es el número de observa iones onsistentes on los valores de la ongura ión
σ en la base de datos y s > 0 es un hiperparámetro.
Denotaremos a este intervalo omo
[P (cj |σ), P (cj |σ)
].
El parámetro s determina on qué rapidez las probabilidades inferiores y superiores on-
vergen a medida que tenemos más datos, un valor mayor de s produ e inferen ias más autas.
Como vimos, Walley [97 sugiere un valor para s entre s = 1 y s = 2.
Podemos ver omo obtenemos los intervalos de probabilidad a partir de una muestra en el
ejemplo 5.2.
Ejemplo 5.2 Consideremos un problema de lasi a ión a partir de una base de datos,
donde las variables atributos son Xin1 y la variable a lasi ar C tiene tres asos posi-
bles ΩC = c1, c2, c3. Supongamos que para una ongura ión determinada de los atributos
(X1 = a1,X2 = a2, . . . ,Xn = an) tenemos las fre uen ias siguientes:
nX1=a1,X2=a2,...,Xn=anc1
= 4,
nX1=a1,X2=a2,...,Xn=anc2
= 0,
nX1=a1,X2=a2,...,Xn=anc3
= 0.
178 Capítulo 5. Construcción de árboles de clasificación utilizando probabilidades imprecisas
x2x1
x3
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
Figura 5.5: Representación del conjunto convexo del ejemplo 5.2
Ahora tendríamos, on el parámetro s = 1, el siguiente onjunto de intervalos de probabili-
dad para los valores de C:
[45, 1]; [0,
1
5]; [0,
1
5]
que origina el onjunto onvexo on vérti es:
(1, 0, 0); (45,1
5, 0); (
4
5, 0,
1
5).
Se puede observar en la gura 5.5. Sobre él podemos apli ar las medidas de in ertidumbre vistas
en el apítulo 3.
5.3. Obten ión del árbol de lasi a ión
Vamos a pro eder a exponer omo se onstruirán los árboles de lasi a ión según dos
métodos: método simple (Abellán y Moral [3) y método doble (Abellán y Moral [4). Éstos
tienes igual losofía pero distinta omplejidad. Ambos métodos se basan en elegir un nodo para
rami ar on una mayor redu ión de la in ertidumbre, mientras esta redu ión sea posible.
La diferen ia fundamental del método doble on respe to al simple es que también prueba si
añadiendo dos variables la redu ión de la in ertidumbre es aún mayor. Finalmente obtienen
5.3. Obtención del árbol de clasificación 179
un árbol simple tal y omo vimos en la introdu ión de este apítulo. Señalamos que en ninguno
de los dos métodos se realiza un posterior pro eso de renamiento o poda para simpli ar la
omplejidad de la estru tura.
Al nal de esta se ión veremos un ejemplo prá ti o de obten ión de árboles de lasi a ión
a partir de ada uno de los métodos, para poder observar el fun ionamiento de ambos y queden
laras las diferen ias.
5.3.1. Método simple
Un árbol de lasi a ión es un árbol donde en ada nodo tenemos una variable del onjunto
de datos Xj y on tantos hijos omo posibles valores tiene: Xj = xtj ∈ ΩXj
. En ada nodo
hoja tenemos un onjunto onvexo de probabilidades para la variable a lasi ar, PσC , omo se
denió anteriormente, donde σ es la ongura ión de todos los valores de las variables que hay
desde el nodo raíz hasta di ha hoja. Sobre este onjunto onvexo, realmente es un onjunto de
intervalos de probabilidad, se puede apli ar ualquiera de las medidas de in ertidumbre total
del apítulo 3, que genéri amente llamaremos TU .
El método se puede des ribir usando los siguientes puntos:
I. Comenzamos on un árbol va ío. Veamos omo se determina el nodo raíz. Cal ulamos el
siguiente mínimo
mınXi∈L
∑
r∈1,..,|ΩXi |ρXi=xr
i TU(PXi=xri
C )
,
on ρXi=xri la fre uen ia de Xi = xr
i y L la lista de las variables en la base de datos.
Este valor debe ser menor que TU(P∅C). En otro aso, el árbol de lasi a ión tendrá un sólo
nodo, un onjunto onvexo de probabilidades P∅C y se tendrá sólo en uenta los valores de las
fre uen ias de los distintos estados de la variable a lasi ar.
Tomaremos omo nodo raíz la variable donde se al anza di ho mínimo.
II. Para ada nodo ya generado, al ulamos la in ertidumbre total del onjunto onvexo de
probabilidades aso iado a esa ongura ión, σ, del amino del nodo raíz a di ho nodo: TU(PσC).
De nuevo, al ulamos el valor:
180 Capítulo 5. Construcción de árboles de clasificación utilizando probabilidades imprecisas
mınXi∈L∗
∑
r∈1,..,|ΩXi |ρσ∪Xi=xr
i TU(Pσ∪Xi=xri
C )
donde L∗ es el onjunto de variables del onjunto de datos menos aquellas que hay en el amino
del nodo raíz al a tual.
Pro ederemos de forma similar a la ele ión del nodo raíz, si este mínimo, al anzado por algún
Xi0 , es menor que TU(PσC) etiquetaremos a este nodo omo Xi0 y añadiremos una rami a ión
para ada uno de sus hijos. El pro eso se repite para ada uno de ellos.
III. Si no hay variable que reduz a la in ertidumbre o no quedan variables en la lista L∗,enton es tendremos un nodo hoja que tendrá aso iado un onjunto onvexo de probabilidades
determinado por la ongura ión hasta ese punto.
5.3.2. Método doble
De manera similar a omo onstruíamos nuestro árbol de lasi a ión on el método simple,
onstruiremos el árbol on el nuevo método. En las mismas ondi iones del método simple, el
nuevo método onsiste en onsiderar dos variables a la vez y añadir una variable si después
de rami ar on otra variable superior tenemos una máxima redu ión de la in ertidumbre.
Tratamos así de dete tar rela iones de orden superior.
El método se puede des ribir usando los siguientes puntos:
I. Comenzamos on un árbol va ío. Veamos omo se determina el nodo raíz. Cal ulamos el
mínimo de los valores α y β, donde:
α = mınXi∈L
∑
r∈1,..,|ΩXi |ρX=xr
i TU(PXi=xri
C )
,
β = mınXi,Xj∈L
∑
r∈1,..,|ΩXi |,t∈1,..,∣∣∣ΩXj
∣∣∣
ρXi=xri ,Xj=xt
jTU(PXi=xri ,Xj=xt
jC )
,
on ρXi=xri la fre uen ia de Xi = xr
i , ρXi=xri ,Xj=xt
j la fre uen ia de Xi = xri ,Xj = xt
j yL la lista de las variables en la base de datos. Este valor debe ser menor que TU(P∅
C). En otro
aso, el árbol de lasi a ión tendrá un sólo nodo, un onjunto onvexo de probabilidades P∅C
5.3. Obtención del árbol de clasificación 181
y se tendrá sólo en uenta los valores de las fre uen ias de los distintos estados de la variable
a lasi ar.
Si α ≤ β elegimos omo nodo raíz la variable que al anza ese mínimo, en otro aso tendremos
una pareja de variables y elegiremos de esas dos la que de forma individual disminuya más la
in ertidumbre tal y omo se al ula para α.
II. Para ada nodo ya generado, al ulamos la in ertidumbre total del onjunto onvexo de
probabilidades aso iado a esa ongura ión, σ, del amino del nodo raíz a di ho nodo: TU(PσC).
De nuevo, al ulamos el mínimo valor de α′y β′
, donde:
α′ = mınXi∈L∗
∑
r∈1,..,|ΩXi |ρσ∪Xi=xr
iTU(Pσ∪Xi=xr
i C )
β′ = mınXi,Xj∈L∗
∑
r∈1,..,|ΩXi |,t∈1,..,∣∣∣ΩXj
∣∣∣
ρσ∪Xi=xri ,Xj=xt
jTU(Pσ∪Xi=xri ,Xj=xt
jC )
,
donde L∗ es el onjunto de variables del onjunto de datos menos aquellas que hay en el amino
del nodo raíz al a tual.
Pro ederemos de forma similar a la ele ión del nodo raíz, si α′ ≤ β′elegimos omo nodo
entrante la variable que al anza ese mínimo, en otro aso tendremos una pareja de variables y
elegiremos de esas dos la que de forma individual disminuya más la in ertidumbre tal y omo se
al ula para α′. Si este mínimo, al anzado por algún Xi0 , es menor que TU(Pσ
C) etiquetaremos
a este nodo omo Xi0 y añadiremos una rami a ión para ada uno de sus hijos. El pro eso
se repite para ada uno de ellos.
III. Si no hay variable que reduz a la in ertidumbre o no quedan variables en la lista L∗,enton es tendremos un nodo hoja que tendrá aso iado un onjunto onvexo de probabilidades
determinado por la ongura ión que está en el amino hasta ese punto.
Al igual que el método original, el nuevo método introdu e sólo una variable en ada nodo,
sin embargo, la diferen ia prin ipal está en la forma en la que se determina qué variable es la
que entra, pues se tiene en uenta además la in ertidumbre que se genera al onsiderar parejas
de variables, omo se puede apre iar en las expresiones de β y β′. En el nuevo método se
aumenta onsiderablemente la omplejidad on respe to al primer método que sólo ne esitaba
del ál ulo de α y α′.
182 Capítulo 5. Construcción de árboles de clasificación utilizando probabilidades imprecisas
El planteamiento que exponemos de introdu ión de variables mejora la introdu ión de dos
variable por nodo, uando la redu ión de in ertidumbre lo permita, pues es posible que para
algún hijo de la variable que entra se reduz a más la in ertidumbre si se introdu e otra variable
que no sea su pareja del óptimo (después onsideramos de nuevo una pareja de variables).
La originalidad del nuevo método estriba en la amplia ión de la búsqueda de la redu ión
de la in ertidumbre utilizando un método que usa onjuntamente dos variables, lo que permite
en ontrar las rela iones dire tas entre dos o más variables y la variable a lasi ar. Los resul-
tados son normalmente similares al método primero ex epto en aquellos asos donde existan
este tipo de rela iones de más nivel, donde en ontraremos una notable mejora.
5.3.3. De isión en las hojas
Una vez obtenido el árbol de lasi a ión, ya sea por el método original o por el ampliado,
veamos omo se puede lasi ar un nuevo aso. Supongamos un aso on valores de todas las
variables atributo, omenzamos desde el nodo raíz del árbol y seguiremos el amino que nos
mar an los valores del nuevo aso, si estamos en un nodo on variable Xi y esta variable toma
el estado xri en el nuevo aso, enton es elegimos el hijo orrespondiente a ese valor. Este pro eso
se repite hasta que lleguemos a un nodo hoja. En di ho nodo hoja onsideramos el onjunto
onvexo (intervalos de probabilidad) sobre los valores de la variable a lasi ar que al ulamos
en la onstru ión del árbol. En ontraremos el valor orrespondiente de la variable a lasi ar
C, utilizando el riterio de dominan ia fuerte sobre ella. Este riterio generalmente impli a
un orden par ial y en algunas situa iones no es posible pre isar valor alguno de la variable que
se lasi a. Se elegirá el estado C = chsi se veri a que ∀i 6= h :
P (ci|σ) < P (ch|σ).
Cuando no hay valor dominante el resultado podría ser el onjunto de estados no dominados
de C, (estados cipara los que no hay otro estado que lo domine según la desigualdad anterior).
En este aspe to obtenemos lo que Zaalon [111 llama un lasi ador redal, on el que se
obtiene un onjunto de estados no dominados y no un úni o estado o nada omo en nuestro aso
( uando no hay un estado dominante simplemente no lasi amos). Apli ar este pro edimiento
evitaría la pérdida de informa ión que obtendríamos al dejar sin lasi a ión aquellos asos
donde hay estados de C on fre uen ias superiores al resto pero que nuestro riterio no permite
lasi a ión alguna, omo veremos que o urre en la base de datos Cleveland.
5.3. Obtención del árbol de clasificación 183
Como queremos omparar nuestros métodos on otros ya ono idos que lasi an todos los
valores del onjunto de test, vamos a forzar también la total lasi a ión utilizando el riterio
alternativo de elegir el aso on máxima fre uen ia.
Otra alternativa, al riterio de lasi a ión que apli amos, es el de dominan ia redal [111 o
también llamado estri ta preferen ia, Walley [96. Este riterio está basado en la ompara ión
en base a todas las probabilidades del onjunto onvexo de probabilidades. La dominan ia
fuerte impli a la redal, pero el inverso no es ierto. Sin embargo es este aso parti ular partimos
de un onjunto onvexo de probabilidades que se obtiene a partir de intervalos a esibles para
los estados de la variable a lasi ar y es fá il probar que los dos riterios son equivalentes.
Ejemplo 5.3 Consideremos la base de datos Can er del ejemplo 5.1 el la que los atributos son
los que enumeramos a ontinua ión, on sus posibles valores o estados entre paréntesis: Cal-
io(normal,alto); Tumor(a1,a0); Coma(ausente,presente) y Jaque as(ausente,presente). Abre-
viaremos los nombres de estas variables omo: Ca, T, Co y J respe tivamente. Nuestra variable
a lasi ar es la Can er(ausente,presente), abreviada omo C, que indi a que on los atributos
anteriores un enfermo tiene un tumor an erígeno o no.
Hemos visto que en nuestro método no hay diferen ia en la forma de elegir el nodo raíz
o ualquier otro que no sea un nodo hoja. Veamos omo obtenemos un nodo partiendo de la
situa ión que vemos en la gura 5.6, en la que vemos que se ha introdu ido en el nodo raíz la
variable Tumor.
En la base de datos Can er, usando la nota ión de la exposi ión de los métodos de lasi-
a ión, tenemos las siguiente fre uen ias:
ρT=a0 = 247
ρT=a1 = 153,
on lo que sabemos que tenemos un total de 400 registros en nuestra base de datos Can er,
para realizar el aprendizaje que nos lleve a rear el árbol.
Vamos a ver primero omo rami amos en la segunda rama (T = a1) utilizando un método
u otro.
Previamente hay que al ular la in ertidumbre de la variable a lasi ar en di ho punto para
ompararla on la que se produ iría si introdu imos una de las otras variables de la base de
datos. Re ordemos que si no se produ e redu ión este nodo sería un nodo hoja y pro ederíamos
a su lasi a ión. Tenemos las fre uen ias:
184 Capítulo 5. Construcción de árboles de clasificación utilizando probabilidades imprecisas
Tumor
a0 a1
Figura 5.6: Situación de partida
nT=a1C=ausente = 70,
nT=a1C=presente = 83,
utilizando la distribu ión de Diri hlet impre isa, on el valor de s = 1, nos originan el onvexo
determinado por los intervalos de probabilidad siguientes:
[ 70
154,
71
154]; [
83
154,
84
154]
Ahora tomando omo fun ión de in ertidumbre total, TU, la fun ión TU1 = G∗ + IG que
teníamos en el apítulo 3, obtenemos el siguiente valor de in ertidumbre:
TU1(PT=a1C ) = H(
71
153,
83
154) +
1
154log(2) = 0.695,
donde la fun ión H es la entropía de Shannon, omo hemos notado hasta ahora.
Con el método simple al ularíamos las in ertidumbres que se produ en introdu iendo ada
variable, para posteriormente dejar en el nodo la que menos valor de esta represente. Vea-
mos omo al ulamos la de la variable Cal io (el resto de forma similar). Partimos de las
5.3. Obtención del árbol de clasificación 185
fre uen ias:
ρT=a1,Ca=normal = 22,
ρT=a1,Ca=elevado = 131.
Tenemos que al ular el onvexo en ada rama por lo que tenemos las fre uen ias
nT=a1,Ca=normalC=ausente = 1,
nT=a1,Ca=normalC=presente = 21,
nT=a1,Ca=elevadoC=ausente = 25,
nT=a1,Ca=elevadoC=presente = 106,
utilizando la distribu ión de Diri hlet impre isa, on el valor de s = 1, nos originan los on-
vexos determinados por los intervalos de probabilidad siguientes para las ongura iones ante-
riores (T = a1, Ca = normal y T = a1, Ca = elevado) respe tivamente:
[ 1
23,
2
23]; [
21
23,22
23]
[ 25
132,
26
132]; [
106
132,107
132]
Con TU1 obtenemos los siguientes valores de in ertidumbre para ada onvexo:
TU1(PT=a1,Ca=normalC ) = H(
2
23,21
23) +
1
23log(2) = 0.326
TU1(PT=a1,Ca=normalC ) = H(
26
132,106
132) +
1
132log(2) = 0.501
Con lo que a la variable Cal io le orrespondería el siguiente valor de in ertidumbre en di ho
punto:
Ca −→ 22
153× 0.326 +
131
153× 0.501 = 0.476
Se repite el pro eso on las otras variables, Co y J, y nos queda
Co −→ 0.542
J −→ 0.698
Ahora omparando estos valores on el de in ertidumbre previa (0.695) tenemos que se
rami a y entraría la variable Cal io que posee el menor valor (0.476). Por lo que tendríamos
la gura 5.7.
186 Capítulo 5. Construcción de árboles de clasificación utilizando probabilidades imprecisas
Tumor
a0 a1
Calcio
normal elevado
Figura 5.7: Situación obtenida aplicando el método simple
Si estamos en el método doble, al ularíamos exa tamente igual todo lo anterior, la in er-
tidumbre previa y las orrespondientes al resto de las variables de la base de datos de forma
individual, así omo la que se produ e en las parejas de éstas. Así pues para ada pareja de
variables del onjunto T,Co, J al ularíamos el onvexo y su in ertidumbre.
Así pues para la pareja (Co,J) tendríamos que partir de las fre uen ias:
ρT=a1,Co=ausente,J=ausente
ρT=a1,Co=ausente,J=presente
ρT=a1,Co=presente,J=ausente
ρT=a1,Co=presente,J=presente
que se utilizarían omo pesos, al igual que en método simple, y además las fre uen ias
nT=a1,Co=ausente,J=ausenteC=ausente
nT=a1,Co=ausente,J=ausenteC=presente
5.3. Obtención del árbol de clasificación 187
nT=a1,Co=ausente,J=presenteC=ausente
nT=a1,Co=ausente,J=presenteC=presente
nT=a1,Co=presente,J=ausenteC=ausente
nT=a1,Co=presente,J=ausenteC=presente
nT=a1,Co=presente,J=presenteC=ausente
nT=a1,Co=presente,J=presenteC=presente
que nos sirven para obtener los onvexos por la distribu ión de Diri hlet impre isa, sus in er-
tidumbres y posteriormente al ularíamos el promedio de esta usando las ρ anteriores, igual
que en el método simple.
Obtenemos los valores siguientes:
Ca,Co −→ 0.498
Ca, J −→ 0.501
Co, J −→ 0.466
que omparándolos on los individuales
Ca −→ 0.476
Co −→ 0.542
J −→ 0.698
tenemos que se produ e el mínimo en la pareja (Co,J) y de éstas en la variable Co. Por tanto
ahora, re ordemos que seguimos reando un árbol simple en el que en ada nodo sólo entra una
variable, entraría la variable Coma tal y omo vemos en la gura 5.8.
Para repetir el pro eso en la otra rama (T=a0) se pro edería de la misma forma y obtenemos
los datos
TU1(PT=a0C ) = 0.455
188 Capítulo 5. Construcción de árboles de clasificación utilizando probabilidades imprecisas
Tumor
a0 a1
Coma
ausente presente
Figura 5.8: Situación obtenida aplicando el método doble
para omparar on las in ertidumbres obtenidas al introdu ir una o dos variables (métodos
simple y doble):
Ca −→ 0.488
Co −→ 0.540
J −→ 0.672
Ca,Co −→ 0.601
Ca, J −→ 0.533
Co, J −→ 0.615
Por lo que on ningún método rami aríamos en este punto, al superarse la in ertidum-
bre on ualquiera de ellos. Por tanto tendríamos un nodo hoja y habría que pro eder a la
lasi a ión.
Partiendo de las fre uen ias:
5.3. Obtención del árbol de clasificación 189
nT=a1C=ausente = 230,
nT=a1C=presente = 17,
lo que ya nos haría de idir por el aso de C=ausente si utilizamos el riterio de la mayor
fre uen ia. Apli ando la dominan ia fuerte tenemos los intervalos de probabilidad:
[P (C = ausente|T = a0) =230
258, P (C = ausente|T = a0) =
231
258]
[P (C = presente|T = a0) =17
258, P (C = presente|T = a0) =
18
258]
donde laramente tenemos
P (C = ausente|T = a0) > P (C = presente|T = a0),
igual que tomando solo las fre uen ias, lo que era evidente. Tendríamos enton es las estru turas
de la gura 5.9 para los métodos simple y doble respe tivamente, notando al nodo hoja (valor
de la variable Cán er) on forma de re tángulo on vérti es redondeados.
Tumor
a0 a1
Coma
ausente presente
Tumor
a0 a1
Calcio
normal elevado
ausente ausente
Simple Doble
Figura 5.9: Situación obtenida aplicando los métodos simple y doble a la rama T=a0
190 Capítulo 5. Construcción de árboles de clasificación utilizando probabilidades imprecisas
5.4. Experimenta ión
5.4.1. Las bases de datos utilizadas
Hemos apli ado los métodos sobre algunas bases de datos ono idas, obtenidas de U i
repository of ma hine learning databases (ftp://ftp.i s.u i.edu/ma hine-learning-databases).
Nos apoyaremos en el trabajo, que sobre estas bases de datos, realizó A id [6 en su tesis
do toral, donde expone una serie de interesantes métodos de lasi a ión basándose en redes
de reen ia.
En la tabla 5.1 hay una breve des rip ión de las bases de datos usadas. Podemos ver el
número de asos del onjunto de entrenamiento (N. Tr), del onjunto de test (N. Ts), el nú-
mero de variables de la base de datos (variables) y el número de los diferentes estados de la
variable a lasi ar (estados). Como hemos omentado, estas bases de datos han sido usadas
y pro esadas por A id [6. Algunas de las bases de datos tenían observa iones perdidas y en
algunos asos tenían variables no dis retas. Los asos on valores perdidos fueron elimina-
dos y las variables ontinuas fueron dis retizadas usando el software MLC++, disponible en
http://www.sgi. om/te h/ml . La medida usada para dis retizar fue la entropía. El número
de intervalos no es jo, y se obtiene siguiendo el pro edimiento de Fayyad e Irani [34. Sólo se
utilizó el onjunto de entrenamiento para el pro edimiento de dis retiza ión. En algunos asos
los datos del los onjuntos de entrenamiento y test se en uentran en heros separados y en
otros se han separado en
23 y
13 respe tivamente.
Por su ámbito de apli a ión, las bases de datos provienen de la medi ina: Breast, Breast
Can er, Heart, Hepatitis, Cleveland, Cleveland nominal y Pima; del ampo de la políti a:
Vote1; del ampo nan iero: Australian; del ampo botáni o: Soybean-small y Monks1 es una
base de datos arti ial que más adelante expli aremos.
5.4.2. Resultados
Hemos usado el parámetro menos onservador s = 1, pues on s > 1 obtendríamos un alto
grado de asos no lasi ados en algunas bases de datos, aunque también un alto por entaje
de a iertos.
Las fun iones de in ertidumbre total que utilizamos fueron las siguientes:
(i) TU1 = G∗ + IG
5.4. Experimentación 191
Base de Datos N. Tr N. Ts variables estados
Breast Can er 184 93 9 2
Breast 457 226 10 2
Heart 180 90 13 2
Hepatitis 59 21 19 2
Cleveland nominal 202 99 7 5
Cleveland 200 97 13 5
Pima 512 256 8 2
Vote1 300 135 15 2
Australian 460 230 14 2
Monks1 124 432 6 2
Soybean-small 31 16 21 4
Tabla 5.1: Descripción de las bases de datos
(ii) TU2 = G∗ + G∗ −G∗ = 2G∗ −G∗
Éstas fueron utilizadas en el apítulo 3. Además onsideraremos:
(iii) TU3 = G∗ + Dif1
(iv) TU4 = G∗ + Dif2
Donde Dif1 y Dif2 son fun iones de no-espe i idad que podemos obtener al adaptar la fun ión
HL de Klir a onjuntos de intervalos de probabilidades, que omo hemos visto son los onjuntos
onvexos que obtenemos en nuestro método. Expresamos dif j omo la máxima diferen ia de
probabilidad para la omponente j, es de ir, dif j = uj−lj, |X| = n on X el onjunto nito on
que trabajamos. Estas fun iones monótonas, omo se puede observar, están normalizadas para
que tengan rango [0, log(n)] y tienen la siguientes expresiones para un onjunto de intervalos
de probabilidades L:
Dif1(L) =log(n)
n log(2)log[∏
j
(1 + dif j)]
Dif2(L) =log(n)
log(n + 1)log[1 +
∑
j
(1 + dif j)]
Finalmente hemos onsiderado omo fun ión de in ertidumbre:
(v) TU5 = G∗
192 Capítulo 5. Construcción de árboles de clasificación utilizando probabilidades imprecisas
En general, se va a disminuir la entropía pero aumentará la no-espe i idad, una osa
ompensará la otra. Si usamos TU5 que sólo mide el máximo de la entropía veremos que aunque
en algunos asos obtenemos buenos resultados, éstos provienen de árboles on demasiada
rami a ión, lo que puede originar también el men ionado sobreajuste.
Hemos utilizado para obtener la lasi a ión nal en las hojas los riterios de lasi a ión
fuerte (dominan ia fuerte) y lasi a ión por fre uen ias donde forzamos a lasi ar omple-
tamente siempre, aún en aso de igualdad de probabilidad. Con el primero sabemos que hay
asos en donde no se obtiene lasi a ión. Estos valores de no lasi ados los veremos y ana-
lizaremos también. Con el segundo forzamos la lasi a ión aún en ondi iones negativas al
resultado omo es el la igualdad de fre uen ias nal para los asos de la variable a lasi ar o
el del po o tamaño muestral on el que se han estimado las probabilidades. Por ejemplo, en
los asos donde hay 2 valores posibles de la variable a lasi ar y obtenemos fre uen ias de
1 y 0 respe tivamente, on este método pro edemos a lasi ar on el onsiguiente riesgo de
sobreajuste.
Los algoritmos para el método simple y el doble se implementaron usando el lenguaje Java
versión 1.1.8.
En la tabla 5.2 veremos los por entajes de a iertos de otros métodos que utilizaremos para
omparar los nuestros. Las olumnas NB orresponden al lasi ador del ingenuo Bayes sobre
los onjuntos de entrenamiento y de test. Análogamente la olumna del C4.5 orresponde al
método de Quinlan [82, donde se usa un árbol de lasi a ión on probabilidades lási as.
5.4.2.1. Resultados del método simple
Vamos a exponer primeramente los resultados del método simple, on las espe i a iones
generales anteriormente expuestas, para TU1 on el riterio de dominan ia fuerte, que fue la
primera fun ión que utilizamos en nuestros experimentos. Los resultados los podemos ver en
la tabla 5.3, donde repetimos los resultados de los métodos ingenuo Bayes y C4.5 anteriores
para omparar mejor los por entajes de a iertos.
La olumna de entrenamiento ontiene los resultados sobre el onjunto que se apli ó para
el aprendizaje. En la olumna UC(Tr) tenemos el por entaje de asos no lasi ados, es de ir,
las observa iones que no obtuvieron lasi a ión según el riterio de dominan ia fuerte que
apli amos, y en la olumna UC(Ts) tenemos los asos no lasi ados del onjunto de test.
Se puede observar que en el método simple no existe un laro sobreajuste en ninguna
5.4. Experimentación 193
Base de datos NB(Tr) NB(Ts) C4.5(Tr) C4.5(Ts)
Breast Can er 78.2 74.2 81.5 75.3
Breast 97.8 97.3 97.6 95.1
Cleveland nominal 63.9 57.6 69.3 51.5
Cleveland 78.0 50.5 73.5 54.6
Pima 76.4 74.6 79.9 75.0
Heart 87.8 82.2 83.3 75.6
Hepatitis 96.2 81.5 96.2 85.2
Australian 87.6 86.1 89.3 83.0
Vote1 87.6 88.9 94.5 88.3
Soybean-small 100 93.8 100 100
Tabla 5.2: Porcentajes de otros métodos
Resultados. Método simple Resultados. Otros métodos
Base de Datos Training UC(Tr) Test UC(Ts) NB(Tr) NB(Ts) C4.5(Tr) C4.5(Ts)
Breast Can er 75.5 0.0 81.7 0.0 78.2 74.2 81.5 75.3
Breast 98.0 1.3 96.9 0.9 97.8 97.3 97.6 95.1
Cleveland nom. 62.7 4.4 66.0 5.0 63.9 57.6 69.3 51.5
Cleveland 72.8 21.0 69.9 24.7 78.0 50.5 73.5 54.6
Pima 79.7 0.2 80.5 0.0 76.4 74.6 79.9 75.0
Heart 92.2 7.2 95.2 6.7 87.8 82.2 83.3 75.6
Hepatitis 95.4 5.0 94.7 9.5 96.2 81.5 96.2 85.2
Australian 92.3 3.4 91.0 3.4 87.6 86.1 89.3 83.0
Vote1 96.1 6.6 96.9 5.9 87.6 88.9 94.5 88.3
Soybean-small 100.0 0.0 100.0 0.0 100 93.8 100 100
Tabla 5.3: Resultados método simple para TU1 con dominacia fuerte
194 Capítulo 5. Construcción de árboles de clasificación utilizando probabilidades imprecisas
Resultados. Método simple Resultados. Otros métodos
Base de Datos Training UC(Tr) Test UC(Ts) NB(Tr) NB(Ts) C4.5(Tr) C4.5(Ts)
Breast Can er 75.5 0.0 81.7 0.0 78.2 74.2 81.5 75.3
Breast 96.7 0.4 96.0 0.4 97.8 97.3 97.6 95.1
Cleveland nom. 59.3 6.4 661.5 8.0 63.9 57.6 69.3 51.5
Cleveland 67.4 12.5 68.7 14.4 78.0 50.5 73.5 54.6
Pima 78.7 0.1 78.9 0.0 76.4 74.6 79.9 75.0
Heart 87.3 12.2 89.5 15.6 87.8 82.2 83.3 75.6
Hepatitis 83.1 0.0 85.7 0.0 96.2 81.5 96.2 85.2
Australian 88.7 2.0 85.8 2.2 87.6 86.1 89.3 83.0
Vote1 93.4 4.0 93.1 3.0 87.6 88.9 94.5 88.3
Soybean-small 100.0 0.0 100.0 0.0 100 93.8 100 100
Tabla 5.4: Resultados método simple para TU2 con dominacia fuerte
base de datos, uno de los problemas más omunes en los distintos métodos de aprendizaje, el
por entaje de a iertos en el onjunto de entrenamiento es similar al del test.
Sólo la base de datos Cleveland tiene un alto grado de datos no lasi ados. Este es el
aso on la variable a lasi ar de mayor número de estados y es más difí il obtener una lase
dominante. En este aso obtendríamos más informa ión dando omo resultado el onjunto de
lases no dominadas. En la mayoría de las bases de datos tenemos que la variable a lasi ar
tiene dos estados sólo por lo que es lo mismo dar el onjunto de estados no dominados o apli ar
el riterio de dominan ia fuerte.
Podemos ver que hay un laro sobreajuste en el ingenuo Bayes y en el C4.5, siendo espe-
ialmente notable en algunas bases de datos (Cleveland nominal, Cleveland y Hepatitis).
En las tablas 5.4, 5.5, 5.6 y 5.7 tenemos los resultados obtenidos on TU2, TU3, TU4 y
TU5 respe tivamente.
Como se puede apre iar los resultados de TU1 son mejores que los de TU2, TU3 y TU4
en términos generales, aunque bien es ierto que también es mayor el por entaje de asos no
lasi ados, sin llegar a ser una diferen ia demasiado notable en ambos asos. Remar amos
también que TU2 tiene peores resultados que TU3 y TU4, siendo los de éstos últimos iguales
ex epto para las bases de datos Cleveland, donde hay ligera diferen ia a favor de TU3 pero
tiene mayor por entaje de no lasi ados también.
Tenemos que remar ar los resultados de TU5, donde omo vemos en la tabla 5.7 se pro-
5.4. Experimentación 195
Resultados. Método simple Resultados. Otros métodos
Base de Datos Training UC(Tr) Test UC(Ts) NB(Tr) NB(Ts) C4.5(Tr) C4.5(Ts)
Breast Can er 75.5 0.0 81.7 0.0 78.2 74.2 81.5 75.3
Breast 97.8 1.0 96.9 0.9 97.8 97.3 97.6 95.1
Cleveland nom. 61.2 6.9 64.8 8.0 63.9 57.6 69.3 51.5
Cleveland 73.2 23.5 69.9 24.7 78.0 50.5 73.5 54.6
Pima 78.7 0.1 78.9 0.0 76.4 74.6 79.9 75.0
Heart 90.7 4.4 93.0 4.4 87.8 82.2 83.3 75.6
Hepatitis 96.4 5.0 94.7 9.5 96.2 81.5 96.2 85.2
Australian 88.9 0.4 86.0 0.8 87.6 86.1 89.3 83.0
Vote1 94.0 5.0 93.8 4.4 87.6 88.9 94.5 88.3
Soybean-small 100.0 0.0 100.0 0.0 100 93.8 100 100
Tabla 5.5: Resultados método simple para TU3 con dominacia fuerte
Resultados. Método simple Resultados. Otros métodos
Base de Datos Training UC(Tr) Test UC(Ts) NB(Tr) NB(Ts) C4.5(Tr) C4.5(Ts)
Breast Can er 75.5 0.0 81.7 0.0 78.2 74.2 81.5 75.3
Breast 97.8 1.3 96.9 0.9 97.8 97.3 97.6 95.1
Cleveland nom. 59.3 6.4 61.5 8.0 63.9 57.6 69.3 51.5
Cleveland 65.9 12.0 67.5 14.4 78.0 50.5 73.5 54.6
Pima 78.7 0.1 78.9 0.0 76.4 74.6 79.9 75.0
Heart 90.7 4.4 93.0 4.4 87.8 82.2 83.3 75.6
Hepatitis 96.4 5.0 94.7 9.5 96.2 81.5 96.2 85.2
Australian 88.9 0.4 86.0 0.8 87.6 86.1 89.3 83.0
Vote1 94.0 5.0 93.8 4.4 87.6 88.9 94.5 88.3
Soybean-small 100.0 0.0 100.0 0.0 100 93.8 100 100
Tabla 5.6: Resultados método simple para TU4 con dominacia fuerte
196 Capítulo 5. Construcción de árboles de clasificación utilizando probabilidades imprecisas
Resultados. Método simple Resultados. Otros métodos
Base de Datos Training UC(Tr) Test UC(Ts) NB(Tr) NB(Ts) C4.5(Tr) C4.5(Ts)
Breast Can er 89.0 16.3 93.5 17.2 78.2 74.2 81.5 75.3
Breast 99.1 2.6 98.6 2.6 97.8 97.3 97.6 95.1
Cleveland nom. 73.6 21.2 74.4 13.1 63.9 57.6 69.3 51.5
Cleveland 82.6 34.0 80.3 31.9 78.0 50.5 73.5 54.6
Pima 86.6 15.6 86.2 15.2 76.4 74.6 79.9 75.0
Heart 93.9 8.8 93.8 10.0 87.8 82.2 83.3 75.6
Hepatitis 96.4 5.0 94.7 9.5 96.2 81.5 96.2 85.2
Australian 95.3 6.5 94.4 6.5 87.6 86.1 89.3 83.0
Vote1 98.2 5.3 98.4 4.4 87.6 88.9 94.5 88.3
Soybean-small 100.0 0.0 100.0 0.0 100 93.8 100 100
Tabla 5.7: Resultados método simple para TU5 con dominacia fuerte
du en unos altísimos por entajes de a iertos pero también hay un aumento de los valores no
lasi ados. Si observáramos los árboles obtenidos en el aso de ualquier otra fun ión de
in ertidumbre y TU5 veríamos que la omplejidad de la primera es mu ho más alta. Para
poder observar esto mejor sólo tenemos que ver la tabla 5.8 donde tenemos el número de hojas
de los árboles on TU1, TU2, TU3, TU4 y TU5 para las bases de datos Breast y Cleveland,
donde apre iaremos una notabilísima diferen ia de todas on TU5. En la olumna de N de
hojas totales tenemos el número de hojas que tendría un árbol para esa base de datos en el
aso de rami a ión ompleta. Este último dato no es signi ativo pues el número de regis-
tros, del hero utilizado para el aprendizaje, que tienen estas bases de datos es de 457 y 200
respe tivamente, muy redu idos respe to al número de hojas posibles, sobre todo en el último
aso. Realmente tendríamos que omparar el número de hojas que se obtienen para las dis-
tintas fun iones de in ertidumbre on el número de registros anterior. Por tanto, la diferen ia
de TU5 on las demás, teniendo en uenta el número total de registros para el aprendizaje
(200), es demasiado grande, lo que ha e pensar en una rami a ión asi ompleta, que podría
sufrir de sobreajuste. De todas formas no se ha observado este sobreajuste en los experimentos
realizados.
En la tabla 5.9 podemos ver los resultados obtenidos en el aso de forzar la lasi a ión
ompleta en las hojas (todos lasi ados), utilizando el riterio de máxima fre uen ia. En
general aumentan los errores, por lo que pare e más razonable el riterio de dominan ia fuerte
5.4. Experimentación 197
Base de datos TU1 TU2 TU3 TU4 TU5 N de hojas totales
Breast 10 7 9 9 17 512
Cleveland 17 8 14 11 112 635904
Tabla 5.8: Número de hojas de los árboles de clasificación obtenidos con el método simple y cada una de las
funciones de incertidumbre
Base de datos TU1(Tr|Ts) TU2(Tr|Ts) TU3(Tr|Ts) TU4(Tr|Ts) TU5(Tr|Ts)
Breast Can er 75.5|81.7 75.5|81.7 75.5|81.7 75.5|81.7 84.8|90.3
Breast 97.6|96.9 96.5|96.0 97.4|96.9 97.4|96.9 98.2|97.8
Cleveland nominal 69.2|65.7 57.9|60.6 59.9|63.6 57.9|60.6 74.3|75.8
Cleveland 68.0|67.0 64.0|64.9 66.0|64.9 63.5|64.9 83.0|80.4
Pima 79.7|80.5 78.7|78.9 78.7|78.9 78.7|78.9 81.8|80.9
Heart 90.0|93.3 83.3|85.6 89.4|91.1 89.4|91.1 91.1|92.2
Hepatitis 96.6|95.2 83.1|85.7 96.6|95.2 96.6|95.2 96.6|95.2
Australian 91.5|90.9 88.0|85.2 88.9|86.1 88.9|86.1 93.9|93.5
Vote1 94.0|94.8 92.0|91.9 92.3|91.9 92.3|91.9 93.3|97.8
Soybean-small 100|100 100|100 100|100 100|100 100|100
Tabla 5.9: Resultados, para cada una de las funciones de incertidumbre, del método simple con clasificación
completa
que deja algunos asos difí iles sin asignarles un valor de lasi a ión.
Se puede apre iar que no hay ningún tipo de sobreajuste por lo que vemos que es una
ara terísti a propia del método que no depende de la fun ión de in ertidumbre utilizada. Sólo
tenemos que desta ar que los por entajes on respe to a los de la lasi a ión por dominan ia
fuerte son algo menores, pero siguen siendo elevados on respe to al ingenuo Bayes y el C4.5
en asi todas las bases de datos. Sólo para TU2 tenemos resultados ligeramente por en ima de
éstos, pero a diferen ia de ellos on la ausen ia del sobreajuste omentada.
198 Capítulo 5. Construcción de árboles de clasificación utilizando probabilidades imprecisas
Resultados. Método doble Resultados. Otros métodos
Base de Datos Training UC(Tr) Test UC(Ts) NB(Tr) NB(Ts) C4.5(Tr) C4.5(Ts)
Breast Can er 75.5 0.0 81.7 0.0 78.2 74.2 81.5 75.3
Breast 98.0 1.3 96.9 0.9 97.8 97.3 97.6 95.1
Cleveland nom. 64.6 5.0 68.8 6.1 63.9 57.6 69.3 51.5
Cleveland 72.8 21.0 69.9 24.7 78.0 50.5 73.5 54.6
Pima 79.7 0.2 80.5 0.0 76.4 74.6 79.9 75.0
Heart 91.7 6.1 94.1 5.6 87.8 82.2 83.3 75.6
Hepatitis 96.4 5.0 94.7 9.5 96.2 81.5 96.2 85.2
Australian 90.8 0.6 89.0 0.9 87.6 86.1 89.3 83.0
Vote1 96.1 6.6 96.9 5.9 87.6 88.9 94.5 88.3
Soybean-small 100.0 0.0 100.0 0.0 100 93.8 100 100
Tabla 5.10: Resultados método doble para TU1 con dominacia fuerte
5.4.2.2. Resultados del método doble
En las tablas 5.10, 5.11, 5.12, 5.13 y 5.14 podemos ver los resultados del método doble on
las mismas bases de datos y dominan ia fuerte.
Podemos apre iar que la diferen ia on los resultados del método simple es bastante pe-
queña, aunque se observa una ligera mejora. Quizá donde la diferen ia mayor está todavía
uando se usa TU5 en la que esta diferen ia es algo mayor teniendo menor por entaje de no
lasi ados, omo se puede apre iar al omparar las tablas 5.7 y 5.14. En esta última todavía
vemos que los por entajes de no lasi ados son muy altos en la mayoría de las bases de datos.
Al igual que hi imos on el método simple, vamos a ver los resultados del método doble
on todos los valores lasi ados. Podemos observar éstos en la tabla 5.15
Si omparamos los resultados de la tabla 5.9 on los de la tabla 5.15 vemos que apenas
hay diferen ia en las olumnas de TU1 y TU2 en ambas tablas. En la mayoría de los asos
los por entajes de a iertos permane en iguales y sólo en algunos asos on retos (por ejemplo
en la base de datos Cleveland on TU3) mejoran estos por entajes. Los valores para TU4 se
a er an a los de TU3, uando existía una diferen ia apre iable en el método simple.
Esta mejora, en general, no se ha sido produ ido gra ias a un aumento de la rami a ión,
in luso, en general, lo que o urre es que la in ertidumbre disminuye más rápidamente, por lo
que al nal tenemos árboles más simples. Para ha ernos una idea de ésta podemos observar
la tabla 5.16 y ompararla on la tabla 5.8. Los valores son los mismos ex epto para TU5 que
5.4. Experimentación 199
Resultados. Método doble Resultados. Otros métodos
Base de Datos Training UC(Tr) Test UC(Ts) NB(Tr) NB(Ts) C4.5(Tr) C4.5(Ts)
Breast Can er 75.5 0.0 81.7 0.0 78.2 74.2 81.5 75.3
Breast 96.7 0.4 96.0 0.4 97.8 97.3 97.6 95.1
Cleveland nom. 59.3 6.4 661.5 8.0 63.9 57.6 69.3 51.5
Cleveland 67.4 12.5 68.7 14.4 78.0 50.5 73.5 54.6
Pima 78.7 0.1 78.9 0.0 76.4 74.6 79.9 75.0
Heart 87.3 12.2 89.5 15.6 87.8 82.2 83.3 75.6
Hepatitis 83.1 0.0 85.7 0.0 96.2 81.5 96.2 85.2
Australian 88.7 2.0 85.8 2.2 87.6 86.1 89.3 83.0
Vote1 93.4 4.0 93.1 3.0 87.6 88.9 94.5 88.3
Soybean-small 100.0 0.0 100.0 0.0 100 93.8 100 100
Tabla 5.11: Resultados método doble para TU2 con dominacia fuerte
Resultados. Método doble Resultados. Otros métodos
Base de Datos Training UC(Tr) Test UC(Ts) NB(Tr) NB(Ts) C4.5(Tr) C4.5(Ts)
Breast Can er 75.5 0.0 81.7 0.0 78.2 74.2 81.5 75.3
Breast 97.8 1.0 96.9 0.9 97.8 97.3 97.6 95.1
Cleveland nom. 63.6 12.8 69.4 14.1 63.9 57.6 69.3 51.5
Cleveland 73.2 23.5 69.9 24.7 78.0 50.5 73.5 54.6
Pima 78.7 0.1 78.9 0.0 76.4 74.6 79.9 75.0
Heart 90.7 4.4 93.0 4.4 87.8 82.2 83.3 75.6
Hepatitis 96.4 5.0 94.7 9.5 96.2 81.5 96.2 85.2
Australian 88.9 0.4 86.0 0.8 87.6 86.1 89.3 83.0
Vote1 94.0 5.0 93.8 4.4 87.6 88.9 94.5 88.3
Soybean-small 100.0 0.0 100.0 0.0 100 93.8 100 100
Tabla 5.12: Resultados método doble para TU3 con dominacia fuerte
200 Capítulo 5. Construcción de árboles de clasificación utilizando probabilidades imprecisas
Resultados. Método doble Resultados. Otros métodos
Base de Datos Training UC(Tr) Test UC(Ts) NB(Tr) NB(Ts) C4.5(Tr) C4.5(Ts)
Breast Can er 75.5 0.0 81.7 0.0 78.2 74.2 81.5 75.3
Breast 97.8 1.3 96.9 0.9 97.8 97.3 97.6 95.1
Cleveland nom. 59.3 6.4 61.5 8.0 63.9 57.6 69.3 51.5
Cleveland 65.9 12.0 67.5 14.4 78.0 50.5 73.5 54.6
Pima 78.7 0.1 78.9 0.0 76.4 74.6 79.9 75.0
Heart 90.7 4.4 93.0 4.4 87.8 82.2 83.3 75.6
Hepatitis 96.4 5.0 94.7 9.5 96.2 81.5 96.2 85.2
Australian 88.9 0.4 86.0 0.8 87.6 86.1 89.3 83.0
Vote1 94.0 5.0 93.8 4.4 87.6 88.9 94.5 88.3
Soybean-small 100.0 0.0 100.0 0.0 100 93.8 100 100
Tabla 5.13: Resultados método doble para TU4 con dominacia fuerte
Resultados. Método doble Resultados. Otros métodos
Base de Datos Training UC(Tr) Test UC(Ts) NB(Tr) NB(Ts) C4.5(Tr) C4.5(Ts)
Breast Can er 90.3 16.3 93.5 15.0 78.2 74.2 81.5 75.3
Breast 99.1 2.1 98.6 2.2 97.8 97.3 97.6 95.1
Cleveland nom. 75.7 24.4 74.4 17.1 63.9 57.6 69.3 51.5
Cleveland 83.1 32.0 81.2 28.9 78.0 50.5 73.5 54.6
Pima 86.8 14.4 87.0 16.0 76.4 74.6 79.9 75.0
Heart 96.3 10.5 96.4 7.7 87.8 82.2 83.3 75.6
Hepatitis 96.6 0.0 95.2 0.0 96.2 81.5 96.2 85.2
Australian 94.9 6.3 93.9 7.3 87.6 86.1 89.3 83.0
Vote1 99.0 4.6 99.2 4.4 87.6 88.9 94.5 88.3
Soybean-small 100.0 0.0 100.0 0.0 100 93.8 100 100
Tabla 5.14: Resultados método doble para TU5 con dominacia fuerte
5.4. Experimentación 201
Base de datos TU1(Tr|Ts) TU2(Tr|Ts) TU3(Tr|Ts) TU4(Tr|Ts) TU5(Tr|Ts)
Breast Can er 75.5|81.7 75.5|81.7 75.5|81.7 75.5|81.7 87.0|91.4
Breast 97.6|96.9 96.5|96.0 97.4|96.9 97.4|96.9 98.7|98.7
Cleveland nominal 64.9|68.7 57.9|60.6 60.4|66.7 57.9|60.6 75.7|74.7
Cleveland 68.0|67.0 64.0|64.9 66.0|64.9 63.5|64.9 83.0|80.4
Pima 79.7|80.5 78.7|78.9 78.7|78.9 78.7|78.9 83.0|82.4
Heart 90.0|93.3 83.3|85.6 89.4|91.1 89.4|91.1 93.3|94.4
Hepatitis 96.6|95.2 83.1|85.7 96.6|95.2 96.6|95.2 96.6|95.2
Australian 90.9|89.1 88.0|85.2 88.9|86.1 88.9|86.1 93.5|91.7
Vote1 94.0|94.8 92.0|91.9 92.3|91.9 92.3|91.9 98.3|98.5
Soybean-small 100|100 100|100 100|100 100|100 100|100
Tabla 5.15: Resultados, para cada una de las funciones de incertidumbre, del método doble con clasificación
completa
disminuye notablemente para la base de datos Cleveland.
Base de datos TU1 TU2 TU3 TU4 TU5 N de hojas totales
Breast 10 7 9 9 17 512
Cleveland 17 8 14 11 94 635904
Tabla 5.16: Número de hojas de los árboles de clasificación obtenidos con el método doble y cada una de las
funciones de incertidumbre
Podemos preguntarnos si es rentable el aumento de la omplejidad del método de búsqueda
de la variable que genera menos in ertidumbre, si los resultados son similares. Para ello vamos
a ne esitar omo ejemplo una base de datos arti ial: la Monks1, utilizada ampliamente en el
área de la lasi a ión.
La base de datos Monks1
Monks1 es una base de datos que tiene seis variables. De forma que la variable lasi ada,
on dos estados posibles a0 y a1. Vale a1 uando son iguales las variables primera y segunda o
uando la uarta vale el primero de sus uatro asos posibles. En el resto de los asos vale a0.
202 Capítulo 5. Construcción de árboles de clasificación utilizando probabilidades imprecisas
Base de Datos NB(Tr) NB(Ts) C4.5(Tr) C4.5(Ts)
Monks1 79.8 71.3 83.9 75.7
Tabla 5.17: Porcentajes de los métodos C4.5 e ingenuo Bayes sobre Monks1
Base de Datos MO(Tr) MO(Ts) MA(Tr) MA(Ts)
Monks1 81.5 80.6 94.4 91.7
Tabla 5.18: Porcentajes de los métodos de incertidumbre simple y doble sobre Monks1 con TU1
Este tipo de dependen ia es muy difí il de en ontrar por los distintos métodos de lasi a ión
por lo que las bases de datos arti iales suelen rear problemas.
En la tabla 5.17 en ontramos los resultados de C4.5 y del ingenuo Bayes.
Y en la tabla 5.18 tenemos los resultados de los métodos simple, al que llamamos también
original (MO), y del doble, al que llamamos su ampliado (MA), on todos los asos lasi ados
para TU1. Las mismas diferen ias se pueden observar para las demás fun iones de in ertidum-
bre, siguiendo la línea de las anteriores bases de datos, donde desta an los valores obtenidos
on TU5 que dan lugar a un por entaje de no lasi ados muy alto sobre todo en el simple.
Estos resultados los podemos ver en las tablas 5.19 y 5.20
Podemos apre iar varias osas interesantes. Hay un sobreajuste evidente en el C4.5 y en el
ingenuo Bayes osa que no o urre en nuestros métodos. Además el por entaje de a iertos en el
onjunto de test es mayor en MO, pero todavía hay una apre iable diferen ia entre todos los
anteriores y el MA. In luso llega a tener una diferen ia tan importante omo del 20.4% on
respe to al ingenuo Bayes, lo que maniesta la poten ia del método.
Observando las tablas 5.19 y 5.20 vemos que no existe diferen ia entre los valores para TU1,
TU3 y TU4, siendo inferior a éstos los de TU2 y superior los de TU5. En este último tenemos
Método simple Método doble
Fun ión Training UC(Tr) Test UC(Ts) Training UC(Tr) Test UC(Ts)
TU1 81.3 0.8 79.4 5.5 94.1 4.0 90.0 16.6
TU2 75.8 0.0 72.2 0.0 89.3 16.6 85.7 22.2
TU3 81.3 0.8 79.4 5.5 94.1 4.0 90.0 16.6
TU4 81.3 0.8 79.4 5.5 94.1 4.0 90.0 16.6
TU5 92.0 9.6 80.5 18.0 96.6 4.0 93.3 16.6
Tabla 5.19: Porcentajes sobreMonks1 de los métodos simple y doble para todas la funciones de incertidumbre
y con dominancia fuerte
5.5. Conclusiones 203
Método simple Método doble
Fun ión Training Test Training Test
TU1 81.5 80.6 94.4 91.7
TU2 75.8 72.2 83.1 83.3
TU3 81.5 80.6 94.4 91.7
TU4 81.5 80.6 94.4 91.7
TU5 89.5 80.6 96.7 94.4
Tabla 5.20: Porcentajes sobreMonks1 de los métodos simple y doble para todas la funciones de incertidumbre
con clasificación completa
una rami a ión de 21 hojas en el método doble frente a las 6 de TU2 y las 18 de TU1, TU3
y TU4, lo que permite a TU5 en ontrar la rela ión asi ompleta entre las variables, sin llegar
a ser grande la diferen ia on TU1, TU3 y TU4.
5.5. Con lusiones
Hemos utilizado las medidas vistas en anteriores apítulos para onstruir árboles de lasi-
a ión. El pro eso que utilizamos para onstruir di hos árboles no sufre de sobreajuste tal
y omo hemos visto, on independen ia de la fun ión de in ertidumbre utilizada. Éste es el
problema más fre uente en los métodos de lasi a ión.
Nuestro método simple al anza un nivel onsiderable de a iertos si lo omparamos on los
itados ingenuo Bayes y C4.5, que normalmente son punto de referen ia en este ampo. Esto
demuestra que nuestro enfoque de ontrolar la onstru ión del árbol usando un modelo de
probabilidades impre isas y midiendo la antidad global de in ertidumbre es una propuesta
que, aparte de ser intuitiva, propor iona muy buenos resultados en la prá ti a.
El método doble justi a su existen ia de a uerdo a que tiene algunas ventajas sobre el
simple que enumeramos a ontinua ión:
· Nun a empeora el resultado del método simple para ualquier base de datos.
· Rami a, en general, menos que el método simple.
· En aso de lasi a ión por dominan ia fuerte, tiene menor por entaje de no lasi ados on
respe to al simple.
204 Capítulo 5. Construcción de árboles de clasificación utilizando probabilidades imprecisas
· En uentra rela iones entre variables que el simple no es apaz de hallar.
En su ontra el método doble es más omplejo de apli ar puesto que en ada nodo el simple
realiza un número de ál ulos de onjuntos de intervalos de probabilidad, para al ular el valor
de in ertidumbre en di ho nodo, igual a k, siendo éste el número de variables que quedan en la
base de datos que todavía no han apare ido en la rama del nodo. Sin embargo, el doble añade
a ese número otra antidad
k(k−1)2 de ál ulos iguales.
Es ierto que en algunas base de datos la antidad de no lasi ados es muy amplia si
observamos, por ejemplo, la base de datos Cleveland donde la variable a lasi ar tiene 5 asos
posibles. Podemos pensar que el método de alguna forma falla en este aso pero si pensamos
que en mu has hojas tenemos que existen dos lases no dominadas tenemos que realmente no
es así. Como se puede apre iar los por entajes de a iertos on todos lasi ados disminuyen
muy po o, si tenemos en uenta el alto por entaje de no lasi ados. Esto ha e que realmente
tengamos bastante informa ión pero, por el riterio usado en la hojas, la perdemos. En estos
asos pare e más razonable usar un lasi ador redal, omo propone Zaalon [111.
Otro detalle a tener en uenta es el aumento de a iertos que o urre uando se lasi an
todos los datos en Heart o en Hepatitis, on ualquier fun ión de in ertidumbre ex epto on
TU2 que no varía, debido a que existen mu hos registros úni os en la base de datos que dan
lugar a fre uen ias de 1 y el resto 0, lo que motiva la no lasi a ión. Al forzar la lasi a ión
obtenemos en esos asos un 100% de a iertos aumentando el a ierto global, aunque esto es
motivo para que aumente el sobreajuste.
Finalmente remar aremos los buenos resultados que hemos obtenido on la fun ión de
in ertidumbre TU5, sólo el máximo de la entropía de Shannon en el onjunto de intervalos de
probabilidad. Aunque bien hemos observado que rami a mu ho más que los anteriores, no
lasi a en mayor por entaje y tiene un ligero sobreajuste en algunas bases de datos que aún
siendo bastante pequeño, es el mayor de todas las fun iones de in ertidumbre, agudizándose
este defe to en el método simple on dominan ia fuerte para Monks1.
Con lusiones y trabajos futuros
En términos generales, podemos de ir que en este trabajo se ha realizado lo siguiente:
1.- Hemos estudiado tanto el omportamiento omo las propiedades de distintas medidas de in er-
tidumbre en la teoría de la eviden ia. Hemos arreglado pequeñas in ongruen ias que apare en
en la medida de in ertidumbre total que mejor queda estable ida en esta teoría, añadiendo un
fa tor de orre ión basándonos en la distan ia de Kullba k.
2.- Hemos ampliado la fun ión máximo de la entropía de Shannon para onjuntos onvexos de
distribu iones de probabilidad, demostrando que veri a las mismas propiedades para este
tipo general de onjuntos. Hemos obtenido un algoritmo que obtiene, de forma e iente, este
valor para onjuntos de intervalos de probabilidades.
3.- Hemos demostrado que la fun ión de noespe i idad de Hartley que fue ampliada para po-
sibilidades y posteriormente para la teoría de la eviden ia, también se puede ampliar para
onjuntos onvexos de distribu iones de probabilidad, veri ando un onjunto de propiedades
similar.
4.- Se han estable ido una serie de medidas omparativas entre dos representa iones, a partir de
onjuntos onvexos de distribu iones de probabilidad, de una misma informa ión.
5.- Se ha demostrado la utilidad de las medidas de in ertidumbre para onjuntos onvexos de
distribu iones de probabilidad, utilizándolas para la onstru ión de árboles de lasi a ión.
Los métodos de lasi a ión obtenidos no sufren de sobreajuste y tienen buenos por entajes
de a iertos.
Se han umplido los objetivos mar ados al omienzo de este trabajo. En el amino a on-
seguirlos nos hemos en ontrado on distintas di ultades y on algunas posibilidades futuras
de trabajo. Ahora vamos ha er una breve des rip ión por apítulos del trabajo presentado en
esta memoria:
205
206 Conclusiones y trabajos futuros
En el primer apítulo hemos presentado las diferentes teorías de probabilidades impre isas,
basándonos en la rela ión de generaliza ión realizadas en Walley [100. Hemos he ho una breve
des rip ión de algunas de ellas, delimitando unas de otras a partir de ejemplos. Nos hemos
entrado en las que luego nos iban a servir para umplir los objetivos de esta memoria: la
teoría de la eviden ia, teoría de onjuntos de intervalos de probabilidad y onjuntos onvexos
de distribu iones de probabilidad. Se han denido, en la primera y en la última, las opera-
iones bási as ne esarias para trabajar on las propiedades de las medidas de in ertidumbre
que posteriormente se presentarán. Opera iones tales omo ombina ión, marginaliza ión e
independen ia.
En el segundo apítulo hemos he ho una breve des rip ión del estudio de la in ertidumbre
en la teoría de la probabilidad, teniendo omo aspe to prin ipal el análisis de la fun ión de
Harley y el de la entropía de Shannon. Con ello hemos justi ado el origen de las propiedades
que una medida de in ertidumbre debe umplir dentro de la teoría de la eviden ia, partiendo
de las que umple la entropía de Shannon para probabilidades. Se han des rito las medidas
de in ertidumbre más importantes en la teoría de la eviden ia, según nuestro riterio, para
medir los tipos de in ertidumbre en ontrados. Hemos analizado su omportamiento y hemos
visto qué onjunto de propiedades bási as veri an. Se ha analizado la que pare e tener mejor
omportamiento, la fun ión de in ertidumbre total de Maeda e I hihashi. A partir de un
ejemplo vemos que ésta no tiene un omportamiento intuitivamente totalmente satisfa torio y
se ha arreglado el problema en ontrado introdu iendo un fa tor de orre ión basándonos en
la distan ia de Kullba k. Se han demostrado las propiedades de éste, donde queda maniesto
que umple las propiedades bási as para una fun ión para tal n ex epto la aditividad. Hemos
expli ado el sentido que tiene tal fun ión y ha quedado laro su ne esidad para un tipo de
representa iones en la teoría de la eviden ia, los asigna iones bási as de probabilidad que
ontienen a la distribu ión uniforme, probabilidad donde se al anza el valor máximo de la
entropía de Shannon.
En el apítulo ter ero se han estudiado los tipos de in ertidumbre que se pueden en ontrar
en un onjunto onvexo general de distribu iones de probabilidad: entropía y no-espe i idad,
omo o urría en la teoría de la eviden ia. Hemos justi ando su existen ia a partir de ejem-
plos. Se han analizado las propiedades que deben umplir las medidas de in ertidumbre de
ada tipo que se nos presenta en esta teoría. Se ha des rito el amino seguido para determinar
qué fun iones nos sirven mejor para medir ada tipo de in ertidumbre, desde el punto de vis-
207
ta intuitivo y matemáti o, dese hando algunas que intuitivamente pare en orre tas. Hemos
visto que hay fun iones que aunque matemáti amente fun ionen bien, umplen un onjunto
de propiedades bási as ne esarias, tiene problemas a la hora de medir lo que deben, tal omo
o urre on la fun ión de no-espe i idad máxima diferen ia de entropías de un onvexo. Hemos
determinaremos fun iones que amplían las mejores estable idas en la teoría de la eviden ia,
el máximo de la entropía de Shannon (entropía) y la no-espe i idad de Dubois y Prade (no-
espe i idad), umpliendo así el prin ipio de in ertidumbre invariante. Hemos demostrado que
veri an un onjunto similar de propiedades bási as al que veri aban en la teoría de la eviden-
ia, apoyándonos en la fun ión de in rementos nitos, herramienta importante en el desarrollo
matemáti o de las demostra iones más omprometidas de esta memoria. Finalmente se ha
estable ido un algoritmo, importante para los siguientes resultados, que obtiene el máximo de
la entropía para onjuntos de intervalos de probabilidad. Con lo que simpli amos el ál ulo
de este máximo en este onjunto, al igual que ya existía en la teoría de la eviden ia.
En el uarto apítulo se han estable ido riterios de ompara ión entre dos representa iones
de onjuntos onvexos de distribu iones de probabilidad, obtenidas a partir de la misma infor-
ma ión. Estable imos qué propiedades debe veri ar una distan ia de in onsisten ia, que mide
la in onsisten ia entre dos representa iones in onsistentes; un índi e de in lusión, que mide
qué parte de la informa ión que representa un onvexo está englobada en la que representa
el otro y una distan ia informativa, para medir la similitud entre dos representa iones onsis-
tentes. Hemos visto que las familias de las fun iones anteriores son no va ías, ayudándonos
de fun iones de in ertidumbre del anterior apítulo. Para on luir se han visto las rela iones
existentes entre ellas.
Finalmente, en el quinto apítulo se han expuesto dos métodos de lasi a ión a partir de
árboles de lasi a ión. Los métodos tienen una misma losofía pero distinta omplejidad. He-
mos expuesto un método simple y otro al que se le ha llamado doble por la forma de obtener la
variable que se introdu e en ada hoja. Ambos obtienen árboles de lasi a ión simples donde
en ada nodo introdu iremos una variable de la base de datos utilizada para el aprendizaje.
Se ha utilizado la distribu ión de Diri hlet impre isa para determinar un onjunto onvexo
de distribu iones de probabilidad a partir de una muestra, que realmente es un onjunto de
intervalos de probabilidad. Sobre los anteriores hemos apli ado las fun iones de in ertidumbre
del apítulo ter ero para obtener un árbol ompleto, donde en las hojas se ha obtenido un
valor de la variable a lasi ar según dos riterios: dominan ia fuerte y máxima fre uen ia.
208 Conclusiones y trabajos futuros
Éste último riterio nos ha servido para obtener lasi a iones ompletas para, nalmente, al
experimentar nuestros métodos on bases de datos ono idas poder omparar los resultados
on los que obtienen, sobre las mismas, métodos bien estable idos: el ingenuo bayes y el C4.5.
Hemos visto omo aspe to prin ipal que nuestros métodos no sufren el sobreajuste pade ido
por los métodos anteriores y obtienen mejores resultados. Se han utilizado, en la experimenta-
ión, distintas fun iones de in ertidumbre total, on resultados distintos, en los que desta an
algunas de ellas en el por entaje alto de a iertos. Se ha visto que el método doble, aunque
tiene mayor omplejidad, tiene, en general, mejores o iguales resultados que el simple on la
diferen ia de que rami a menos. Desta a el doble sobre el simple en la diferen ia de a ier-
tos, sobre todo uando existen rela iones dire tas entre dos o más variables on la variable a
lasi ar, omo se ha demostrado en la experimenta ión on una base de datos arti ial.
Trabajos Futuros
En el amino seguido para al anzar nuestro objetivos hemos visto algunas posibilidades de
trabajos futuros, así omo de aren ias en algunos on eptos. Vamos a ha er una des rip ión
de lo que omentamos, que nos pueden servir, en mayor o menor importan ia, omo trabajos
a plantear en el futuro:
- Plantear una fun ión de in ertidumbre total dentro de la teoría de la eviden ia, que sea apaz
de tener mejor omportamiento que la de Maeda e I hihashi sin ne esidad de apli ar fa tores
de orre ión.
- Analizar la posibilidad planteada en el apítulo 3 de des omposi ión de onvexos en elementos
simples, o irredu ibles. Lo que nos permitiría denir fun iones de in ertidumbre para esos
elementos simples, que luego nos lleven a al ular el valor de in ertidumbre para ualquier
eviden ia. Esta des omposi ión sería también utilizada para ualquier onjunto onvexo de
distribu iones de probabilidad en general.
- Estudiar la fun ión U-un ertainty, original de Higashi y Klir, que hemos visto que denida en
prin ipio para medir in ertidumbre en la teoría de la posibilidad, ha sido ampliada por Dubois
y Prade para eviden ias y por nosotros para onjuntos onvexos en general. Hemos visto que,
a partir de ejemplos, esta fun ión, pare e umplir una interesante propiedad de aditividad. Lo
que permite ayudarnos en la des omposi ión de onvexos anteriormente itada.
209
- Justi ar la deni ión de independen ia utilizada para la propiedad de la aditividad de una
fun ión de in ertidumbre. Ver uál sería el mejor sentido que se ajusta a nuestros nes.
- Quizá la posibilidad más interesante, para trabajos en el futuro, nos la ofre e el método de
lasi a ión expuesto pues admite mu has posibilidades:
(1) Apli ar a los árboles de lasi a ión métodos de poda, que simpliquen la estru tura
reada.
(2) Utilizar nuestros métodos on otras fun iones in ertidumbre, que mejoren, omo ya he-
mos di ho en párrafos anteriores, el fun ionamiento de las estable idas.
(3) Mez lar nuestro método on el ingenuo Bayes, que omo vemos obtiene muy buenos
resultados de forma muy simple.
(4) Apli ar nuestro método a bases de datos on datos perdidos, tal omo apli a Zaalon
[112.
210 Conclusiones y trabajos futuros
Bibliografía
[1 J. Abellan y S. Moral. Completing a total un ertainty measure in D-S theory. Int. J.
General System, 28:299-314, 1999.
[2 J. Abellan y S. Moral. A non-spe i ity measure for onvex sets of probability distri-
butions. International Journal of Un ertainty, Fuzziness and Knowledge-Based Systems,
8:357-367, 2000.
[3 J. Abellán y S. Moral. Using the Total Un ertainty Criterion for Building Classi ation
Trees. Pro eeding of the International Symposium of Impre ise Probabilities and Their
Appli ations, 1-8, 2001.
[4 J. Abellán y S. Moral. Constru ión de árboles de lasi a ión on probabilidades impre-
isas. A tas de la Conferen ia de la Aso ia ión Española para la Inteligen ia Arti ial,
2:1035-1044, 2001.
[5 J. Abellán y S. Moral. Maximum entropy for redal sets. Enviado a International Journal
of Un ertainty, Fuzziness and Knowledge-Based Systems, 2002.
[6 S. A id. Métodos de aprendizaje de Redes de Creen ia. Apli a ión a la Clasi a ión.
PhD thesis, Universidad de Granada, 1999.
[7 J. Berger. An Overview of Robust Bayesian Analysis (with dis ussion). Test, 3:5-124,
1994.
[8 L. Breiman, J.H. Friedman, R.A. Olshen, y C.J. Stone. Classi ation and Regression
Trees. Wadsworth Statisti s, Probability Series, Belmont, 1984.
[9 L.M. de Campos. Cara teriza ión y estudio de medidas e integrales difusas a partir de
probabilidades. PhD thesis, Universidad de Granada, 1986.
211
212 Bibliografía
[10 L.M. de Campos, J.F. Huete y S. Moral. Probability Intervals: a Tool for Un ertain Rea-
soning. International Journal of Un ertainty, Fuzziness and Knowledge-Based Systems,
2:167-196, 1994.
[11 L.M. de Campos y S. Moral. Independen e Con epts for Convex Sets of Probabilities.
Pro eedings of the 11th Conferen e on Un ertainty in Arti ial Intelligen e, P. Besnard
y S. Hanks, eds., 108-115, Morgan & Kaufmann, 1995.
[12 J.E. Cano, S. Moral y J.F. Verdegay-López. Combination of Upper and Lower Proba-
bilities. Pro eedings of the 7th Conferen e on Un ertainty in Arti ial Intelligen e, B.
DÁmbrosio, P. Smets y P.Bonissone, eds., 61-68, Morgan & Kaufmann, 1991.
[13 A. Cano. Propaga ión aproximada de intervalos de probabilidad en grafos de depeden-
ias. PhD thesis, Universidad de Granada, 1999.
[14 R.E. Cavallo y G.J. Klir. Re onstru tion of possibilisti behaviour systems. Fuzzy Sets
and Systems, 8:175-197, 1982.
[15 G. Cestnik, I. Kokonenko y I. Bratko. ASSISTANT-86: A knowledge-eli ita ion tool for
sophisti ated users. Pro . of EWSL-87. Progress in Ma hine Learning, 31-45, 1987.
[16 G.J. Chaitin. Information, Randomness and In ompleteness: Papers on Algorithmi In-
formation Theory. World S ienti , Singapore, 1987.
[17 A. Chateauneuf y J.Y. Jaray. Some hara terizations of lower probabilities and other
monotone apa ities through the use of Möbius Inversion. Math. So . S ., 17:263-283,
1989.
[18 G. Choquet. Théorie des Capa ités. Ann. Inst. Fourier, 5:131-292, 1953/54.
[19 R. Christensen. Entropy Minimax Sour ebook (4 Vols.). Entropy Limited, Lin oln, Mas-
sa husetts, 1980-81.
[20 R. Christensen. Entropy minimax multivariate statisti al modeling-I: Theory. Intern. J.
of General Systems, 11:231-277, 1985.
[21 R. Christensen. Entropy minimax multivariate statisti al modeling-II: Appli ations. In-
tern. J. of General Systems, 12:227-305, 1986.
[22 P.R. Cohen y E.A. Feigenbaum. The handbook of Arti ial Intelligen e (tomo 3).
Addison-Wesley, 1982
Bibliografía 213
[23 I. Couso, S. Moral y P. Walley. Examples of Independen e for Impre ise Probabilities.
Pro eedings of the First International Symposium on Impre ise Probabilities and Their
Appli ations (ISIPTA'99), 1999.
[24 M. Delgado y S. Moral. A denition of in lusion for eviden es. Fuzzy Mathemati s 7:81-
87, 1897.
[25 A.P. Dempster. Upper and Lower Probabilities Indu ed by a Multivaluated Mapping. Ann.
Math. Statisti , 38:325-339, 1967.
[26 A.P. Dempster. Upper and lower probability inferen es based on a sample from a nite
univariate population. Biometrika, 54:515-528, 1967.
[27 L. DeRobertis y J. Hartigan. Bayesian Inferen e Using Intervals of Measures. Annals of
Statisti s, 14:461468, 1986.
[28 R.O. Duda y P.E. Hart. Pattern lassi ation and s ene analysis. John Willey and Sons,
New York, 1973.
[29 D. Dubois y H. Prade. A Note on Measure of Spe i ity for Fuzzy Sets. BUSEFAL,
19:8389, 1984.
[30 D. Dubois and H. Prade. Properties and Measures of Information in Eviden e and Pos-
sibility Theories. Fuzzy Sets and Systems, 24:183196, 1987.
[31 D. Dubois y H. Prade. Possibility Theory. Plenum Press, New York, 1988.
[32 D. Dubois y H. Prade. A Survey of Belief Revision and Updating Rules in Various
Un ertainty Models. International Journal of Intelligent Systems, 9:61-100, 1994.
[33 H. Edelsbrunner. Algorithms in Combinatorial Geometry. Springer Verlag, Berlin, 1987.
[34 U.M. Fayyad y K.B. Irani. Multi-valued Interval Dis retization of Continuous-valued
Attributes for Classi ation Learning. Pro eeding of the 13th International Joint Confe-
ren e on Arti ial Intelligen e, Morgan Kaufmann, San Mateo, 1022-1027, 1993.
[35 R.M. Fano. Transmission of Information. The M.I.T. Press, Cambridge, Massa husetts,
1961.
[36 N. Friedman y M. Goldszmidt. Building lassiers using Bayesian networks. AAAI-96
Conferen e, 1277-1284, 1996.
[37 P. Gil. Teoría matemáti a de la Informa ión. ICE edi iones, 1981.
214 Bibliografía
[38 M. Grabis h, H. Nguyen y E. Walker. Fundamentals of Un ertainty Cal uli with Appli-
ations to Fuzzy Inferen e. Kluwer A ademi Publishers, Dordre ht, 1995.
[39 D. Harmane y G.J. Klir. Measuring Total Un ertainty in Dempster-Shafer Theory: a
Novel Approa h. Int. J. General System, 22:405-419, 1994.
[40 D. Harmane y G.J. Klir. Prin iple of un ertainty revisited. Pro . 4th Intern, Fuzzy
Systems and Intelligent Control Conf., Maui, Hawai, 331-339, 1996.
[41 R.V.L. Hartley. Transmission of information. The Bell Systems Te hni al Journal, 7:535-
563, 1928.
[42 M. Higashi y G.J. Klir, Measures of un ertainty and information based on possibility
distributions. Int. J. General System, 9:43-58, 1983.
[43 U. Höhle. Entropy with respe t to plausibility measures. Pro . 12th IEEE Inter. Symp.
on Multiple-Valued Logi , 167-169, 1982.
[44 R.C. Holte. Very simple lassi ation rules perform well on most ommonly used data-
sets. Ma hine Learning, 11:63-90, 1993.
[45 E.T. Jaynes. Papers on Probability, Statisti s and Statisti al Physi s. Rosenkrantz ed.,
D. Reidel, Dordre ht, 1983.
[46 J.N. Kapur. Maximum Entropy Models in S ien e and Engineering. John Willey, New
York, 1989.
[47 J.N. Kapur. Measures of Information and Their Appli ations. John Willey, New York,
1994.
[48 M. Karwan. Redundandy in Mathemati al Programming. Le ture Notes in E onomi s
and Mathemati al Systems, Berlin, Springer Verlag, 1991.
[49 G.J. Klir. Ar hite ture of Systems Problems Solving. Plenum Press, New York, 1985.
[50 G.J. Klir. Is there more to un ertainty than some probability theorists might have us
believe?. Intern. J. of General Systems, 15:347-378, 1989,
[51 G.J. Klir. Probability-possibility onversion. Pro . third IFSA Congress, Seattle, 408-411,
1989.
[52 G.J. Klir. A prin iple of un ertainty and information invarian e. Intern. J. of General
Systems, 17:249-275, 1990.
Bibliograf’ia 215
[53 G.J. Klir. Dynami aspe ts in re onstru tability analysis: The role of minimun un er-
tainty prin iples. Revue Internationale de Systemique, 4:33-43, 1990.
[54 G.J. Klir. Prin iples of un ertainty: What are they?. Why do we need them?. Fuzzy Sets
and Systems, 74:15-31, 1995.
[55 G.J. Klir y T. Folger. Fuzzy Sets, Un ertainty, and Information. Prenti e-Hall, Englewood
Clis, New Jersey, 1988.
[56 G.J. Klir y M. Mariano. On the uniqueness of porssibilisti s measure of un ertainty and
information. Fuzzy Sets and Systems, 24:197-219, 1987.
[57 G.J. Klir y B. Parviz. General re onstru tion hara teristi of probabilisiti and possibi-
listi systems. Intern. J. of Ma hine Systems, 25:367-397, 1986.
[58 G.J. Klir y B. Parviz. A note on the measure of dis ord. Pro . of the 8th Conferen e on
Arti ial Inteligen e, Morgan Kaufmann, San Mateo, California, 138-141, 1992.
[59 G.J. Klir y A. Ramer. Measures of Dis ord in the Dempster-Shafer Theory. Information
S ien es, 67:35-50, 1993.
[60 G.J. Klir y E.C. Way. Re onstru tability analisys: Aims, results, open problems. Systems
Resear h, 2:141-163, 1985.
[61 G.J. Klir y M.J. Wierman. Un ertainty-Based Information. Phisi a-Velag, 1998.
[62 G.J. Klir y B. Yuan. On nonspe i iy of fuzzy sets with ontinuous membership fun tions.
Pro . 1995 Intern. Conf. on Systems, Man and Cyberneti s, Van ouver, 25-29, 1995.
[63 A.N. Kolmogorov. Three approa hes to the quantitative denition of information. Pro-
blems of Information Transmission, 1:1-7, 1965.
[64 S. Kullba k. Information Theory and Statisti s. Dover, 1968.
[65 M.T. Lamata y S. Moral. Measures of Entropy in the Theory of Eviden e. Fuzzy Sets
and System, 12:193-226, 1987.
[66 P. Langley, W. Iba y K. Thompson. An analisis on Bayesian lassiers. National Con-
feren e on Arti ial Intelligen e, Menlo Park, CA: AAAI Press, 223-228, 1992.
[67 P. Langley y S. Sage. Indu tion of sele tive Bayesian lassier. Pro . of the 10th Confe-
ren e on Un ertainty in Arti ial Intelligen e, 399-406, Morgan Kaufmann, San Mateo,
1994.
216 Bibliografía
[68 J. Lawren e. Polytope volume omputation. Math. Comp., 57:259-271, 1991.
[69 Y. Maeda and H. I hihashi. A Un ertainty Measure with Monotoni ity under the Random
Set In lusion. Int. J. General Systems, 21:379-392, 1993.
[70 Y. Maeda, H.T. Nguyen y H.I hihashi. Maximum entropy algorithms for un ertainty
measures. Inter. J. of Un ertainty, Fuzziness and Knoledge-Based System, 1:69-93, 1993.
[71 T.H. Mattheiss y D.S. Rubin. A survey and omparison of methods for nding all verti es
of onvex polyhedral sets. Math. Oper. Res., 5:167-185, 1980.
[72 A. Meyerowitz, F. Ri hman y E.A. Walker, Cal ulating maximum-entropy probabilities
densities for belief fun tions. Int. J. of Un ertainty, Fuzziness and Knowledge-Based
Systems, 2:377-389, 1994.
[73 R. Mi halski. A theory and methodologie of indu tive learning. Arti ial Inteligen e,
111-161, 1983.
[74 S. Moral y L.M. de Campos. Updating Un ertain Information. Un ertainty in Knowledge
Bases, B. Bou hon-Meunier et al. eds., 58-67, Springer Verlag, 1991.
[75 S. Moral, S. y J. del Sagrado. Aggregation of Impre ise Probabilities. Aggregation and
Fusion of Imperfe t Information, B. Bou hon-Meunier, ed. Physi a-Verlag, Heidelberg,
162-168, 1997.
[76 H.T. Nguyen. On entropy on ramdom sets and possibility distributions. The Analisis of
Fuzzy Information, 1, 1986.
[77 H. Nyquist. Certain Fa tors Ae ting Telegraph Speed. Bell System Te h, 3:324, 1924.
[78 H. Nyquist. Certain Topi s in Telegraph Trnasmission Theory. AIEE Trans., 47:617,
1928.
[79 J. Pearl. Probabilisti reasoning in intelligent systems: networks of plausible inferen e.
Morgan Kaufmann, San Mateo, 1988
[80 F.P. Preparata y M.I. Shamos. Computational Geometry. An Introdu tion. Springer
Verlag, New York, 1985.
[81 J.R. Quinlan. Indu tion of de ision trees. Ma hine Learning, 1:81-106, 1986.
[82 J.R. Quinlan. Programs for Ma hine Learning. Morgan Kaufmann series in Ma hine
Learning, 1993.
Bibliografía 217
[83 A. Ramer. Uniqueness of information measure in the theory of eviden e. Fuzzy Sets and
Systems, 35:183-196, 1987.
[84 A. Ramer. Eu lidean spe i ity: two solutions and few problems. Pro . World Congress
of Intern. Fuzzy Systems Asso . Prague, Vol IV:268-271, 1997.
[85 A. Rényi. Probability Theory. North-Holland, Amsterdan, 1970.
[86 F. Rosenblatt. The Per eptron: A probabilisti model for information storage and orga-
nization in the brain. Psy hologi al Review, 65:386-408, 1958.
[87 D.S. Rubin. Finding redundant onstraints in sets of linear inequalities. Le ture Notes
in E onomi s and Mathemati al Systems, Berlin, Springer Verlag, 6:60-67, 1991.
[88 G. Shafer. A Mathemati al Theory of Eviden e. Prin eton University Press, Prin eton,
1976.
[89 C.E. Shannon. A mathemati al theory of ommuni ation. The Bell System Te hni al
Journal, 27:379-423,623-656, 1948.
[90 C.E. Shannon. Communi ation in Presen e of Noise. Pro . IRE, 37(10), 1949
[91 J.E. Shore y R.W. Johnson. Properties of ross-entropy minimization. IEEE Trans. on
Information Theory, 27:472-482, 1981.
[92 Ph. Smets. Belief Fun tion. Non-Standard Logi s for Automated Reasoning. Ph. Smets
and E.H. Mandani and D. Dubois and H. Prade editors, London, 1988.
[93 M. Tribus. Rational Des riptions, De isions and Designs. Pergamon Press, Osford, 1969.
[94 J. Vejnarová y G.J. Klir. Measures of Strife in Dempster-Shafer Theory. Int. J. General
System, 22:22-42, 1993.
[95 J.F. Verdegay-López. Representa ión y Combina ión de la Informa ión on In ertidum-
bre mediante Convexos de Probabilidades. Tesis Do toral, Universidad de Granada, 1997.
[96 P. Walley. Statisti al Reasoning with Impre ise Probabilities. Chapman and Hall, Lon-
don, 1991.
[97 P. Walley. Inferen es from multinomial data: learning about a bag of marbles (with dis-
ussion). Journal of the Royal Statisti al So iety, Series B, 58:3-57, 1996.
[98 P. Walley. Measures of Un ertainty in Expert Systems. Arti ial Intelligen e, 83:1-58,
1996.
218 Bibliografía
[99 P. Walley. A bounded derivative model for prior ignoran e about a real-valued parameter.
S andinavian Journal of Statisti s, 24:463-483, 1997.
[100 P. Walley. General Introdu tion to Impre ise Probabilities,
http://ensmain.rug.a .be/∼ipp/do umentation/introdu tion/introdu tion.html,
1997/98.
[101 P. Walley. The Eli itation and Aggregation of Beliefs. Inf. té ., University of Warwi k,
1982.
[102 Z. Wang, Z. y G.J. Klir. Fuzzy Measure Theory. Plenum Press, New York, 1992.
[103 L. Wasserman y J.B. Kadane. Bayesian Analisis in Statisti s and E onometri s. Willey,
New York, 549-555, 1996.
[104 S. Watanabe. Pattern re ognition as a quest for minimum entropy. Pattern re ognition,
13:381-387, 1981.
[105 S. Watanabe. Pattern Re ognition: Human and Me hani al. John Willey, New York,
1985.
[106 N. Wiener. Cyberneti s. The Te hnology Press of the Massa husetts Institute ot Te h-
nology and Willey and Sons, In ., New York, 1948.
[107 N. Wiener. Extrapolation, Interpolation and Smoothing of Stationary Time Series. The
Te hnology Press of the Massa husetts Institute ot Te hnology, Cambridge, Mass and
Willey and Sons, In ., New York, 1949.
[108 P.M. Williams. Bayesian onditionalisation and the prin iple of minimun information.
British J. for Philosophy of S ien e, 31:131-144, 1980.
[109 R.R. Yager. Entropy and Spe i ity in a Mathemati al Theory of Eviden e. Int. J. Ge-
neral Systems, 9:249-260, 1983.
[110 M. Zaalon. A Credal Approa h to Naive Classi ation. Pro eedings of the First Inter-
national Symposium on Impre ise Probabilities and their Appli ations, 405-414, 1999.
[111 M. Zaalon. The Naive Credal Classier. To appear in: Journal of Statisti al Planning
and Inferen e, 2001.
[112 M. Zaalon. Exa t Credal Treatment of Missing Data. To appear in: Journal of Statisti al
Planning and Inferen e, 2001.
Recommended